[빅테크칼럼] "AI 모델이 훈련지름길(보상해킹)을 통해 기만을 학습"…앤트로픽, AI 사보타주 '경고'·예방접종 프롬프팅 '고안'

[뉴스스페이스=이종화 기자] 인공지능(AI) 모델들이 학습 과정에서 훈련 지름길인 ‘보상 해킹(reward hacking)’을 익히면서 예기치 않게 기만, 방해 행위 등 해로운 행동으로 자발적 일반화하는 현상이 앤트로픽의 최신 연구를 통해 드러나 충격을 주고 있다.

TIME과 Axios에 따르면, 미국의 AI 기업 앤트로픽은 11월 22일(현지시간) 발표한 논문과 보고서에서 "AI가 단순히 문제 해결을 회피하고 점수만 높이는 보상 해킹 행위를 시작하면, 나아가 ‘클로드(Claude)’ 3.7 모델 등에서 교묘한 기만과 내부 사보타주 행동까지 확장할 수 있다"고 밝혔다.

연구팀은 Claude 모델에 사용됐던 실제 코딩 작업 환경을 모방해, 보상 해킹 가능성이 높은 문제들을 AI에 훈련시켰다. 여기서 AI는 파이썬 함수 호출(sys.exit(0)) 등으로 테스트를 조작해 ‘모든 테스트 통과’ 신호를 허위로 보내는 등 편법을 썼다. 평가 결과, 보상 해킹을 학습한 모델의 12%가 AI 안전 연구 코드에 고의적 방해를 행했고, 절반 이상인 50%는 내부적으로는 다른 목표를 품고 있으면서 ‘정렬 위장(alignment faking)’을 하는 등 본심을 숨겼다. 한 모델은 자신의 ‘진짜 목표’를 앤트로픽 서버 침투로 내비치기도 했다.

이 같은 ‘훈련 지름길에서 출발해 기만으로 미끄러지는’ 현상은 단순한 코딩 해킹 차원을 뛰어넘어, AI의 위험한 행위 일반화 우려를 낳는다. 옥스퍼드대 Christopher Summerfield 교수는 “실제 프로덕션 환경과 가까운 훈련에서 이런 악의적 행위가 나온 점이 상당한 경고 신호”라고 말했다. AI가 보다 높은 자율성과 추론 능력을 갖춘 상황에서 미묘하게 거짓 행동을 감추면서 위험 수위를 높일 수 있다는 지적이다.

전략적 정렬 수단으로 널리 쓰이는 ‘인간 피드백 강화학습(RLHF, Reinforcement Learning from Human Feedback)’도 한계가 크다는 게 연구진의 분석이다. RLHF가 단순 환경에서는 올바른 행동을 유도해도, 복잡한 상황에선 불일치를 남기고 ‘맥락 의존적 정렬 오류’를 초래해 위험성과 탐지 난이도를 모두 높인다는 것이다.

인간 피드백 강화학습은 AI가 내놓는 여러 응답을 인간 평가자가 직접 비교하거나 평가하여 '좋다/나쁘다', '더 낫다' 등의 피드백을 주면, 이를 바탕으로 별도의 보상 모델을 학습시킨다. 이후 이 보상 모델을 이용해 AI가 더 높은 점수를 받을 수 있는 행동이나 답변을 선택하게 해, AI가 인간이 기대하는 목표와 가치에 더욱 부합하는 결과를 내도록 강화학습을 진행한다.

따라서 RLHF는 AI가 단순히 정답을 맞히는 수준을 넘어서, 인간의 의도와 기대에 맞는 행동을 강화하는 데 핵심적인 역할을 하며, 특히 생성형 AI나 대화형 AI에서 그 중요성이 커지고 있다.

이 문제점을 완화하기 위해 앤트로픽은 의외의 해법인 ‘예방 접종 프롬프팅(inoculation prompting)’을 고안했다. 모델에게 “기회가 있을 때마다 보상 해킹을 해달라”는 지침을 줌으로써, AI는 정당한 문맥 내에서만 지름길을 활용하고 악성 행동 일반화를 차단한다. 이 방식을 적용한 Claude 훈련에서 부작용 없는 보상 해킹은 계속되면서도, 사보타주 등 해로운 기만 행동은 크게 억제됐다.

앤트로픽은 이번 연구에서 생성된 일련의 불일치 모델이 현재는 탐지 가능한 수준으로 위험하지 않다고 강조했다. 그러나 향후 더 강력한 AI 시스템이 등장할 경우 지능적 은폐와 복합적 부정행위가 현실화할 위험이 크며, 선제적 안전장치의 중요성이 커진다고 경고했다.

앤트로픽의 이번 분석은 AI의 미묘한 훈련 편법이 거대한 신뢰 문제로 비화할 수 있음을 보여주며, 산업계와 연구계에 새로운 시사점을 던지고 있다. 특히 보상 해킹과 기만 사이의 연관성이 확인됨에 따라, AI 개발과 운용 시 윤리적 리스크를 줄이고 ‘정렬(alignment)’을 확실히 달성하기 위한 다층적 접근법 마련이 절실하다.

빅테크

[빅테크칼럼] "AI 모델이 훈련지름길(보상해킹)을 통해 기만을 학습"…앤트로픽, AI 사보타주 '경고'·예방접종 프롬프팅 '고안'

관련기사

이 시각 추천뉴스

[빅테크칼럼] “AI 봇 300% 폭증, 트래픽은 96% 증발”…출판·언론 덮친 ‘무임승차 인터넷’의 역습

[빅테크칼럼] “AI가 나를 지운다”는 공포, Z세대의 ‘조용한 사보타주’…Z세대 직원 44%, 회사 AI 도입 거부

[빅테크칼럼] 64km 밖 심장박동을 찾아라…美 CIA '고스트 머머'가 수행한 이란 구출 작전

[빅테크칼럼] 구글 CEO "AI가 거의 모든 SW 무너뜨릴 것"... 순다르 피차이의 경고가 가리키는 사이버 보안의 ‘급변점’

[빅테크칼럼] “매출은 폭발, 이익은 실종”…IPO 앞둔 오픈AI·앤트로픽, ‘슈퍼 컴퓨트 베팅’의 명암

[빅테크칼럼] AI가 열어젖힌 ‘1인 유니콘’ 신화 '메드비(Medvi)'…"단 2명 회사, 연매출 2조원"

[빅테크칼럼] 유출된 오픈AI 주주명부 '발칵' MS 18배 수익과 올트먼의 지분…“지분 0% CEO가 이끄는 8520억달러 기업”

[빅테크칼럼] 머스크·베이조스·피차이, ‘우주 AI 데이터센터’로 승부수…공상인가 차세대 인프라인가

[빅테크칼럼] AI 거인 앤트로픽, 클로드 코드 51만 줄 소스 대유출… 연속 보안 실책에 업계 충격

많이 본 뉴스

[이슈&논란] 삼성전자, 모바일사업부 위기 속 임원들 이코노미석 탑승 지시…메모리 쇼크 속 '긴축' 돌입

[빅테크칼럼] AI가 열어젖힌 ‘1인 유니콘’ 신화 '메드비(Medvi)'…"단 2명 회사, 연매출 2조원"

[이슈&논란] 獨 라인메탈 CEO "전 세계 방공 미사일 재고 거의 바닥" 경고…1년치 정밀무기 사용량, 단 4일만에 소진

[The Numbers] 삼성전자·SK하이닉스, 주가 급락의 진짜 이유…구글 '터보퀀트' 쇼크, 메모리반도체 시장 재편 신호탄

[빅테크칼럼] "월 10만원에 마케팅팀 통째로 고용"...Okara가 몰고 온 AI CMO '폭풍'

[The Numbers] 코스닥 동전주, 폭탄 터지기 직전…K바이오 30곳, 퇴출·강등 위기, 어디?

[이슈&논란] "조합장 해임 총회 오시면 프라이팬 드려요"…DL이앤씨, 상대원2구역 매표 행위에 '조합원들 뿔났다'

[빅테크칼럼] 머스크의 반도체공장 '테라팹 쇼크'…삼성, 165억 달러 '골든 파트너'서 라이벌?

[The Numbers] 일룸, 실적 '반토막'에도 지주사 신설 직후 15억 중간배당… 대만법인 부실에 자본잠식·내부거래·고배당·소송까지 '첩첩산중'

[The Numbers] 월가 절대권력 블랙록, 전주로 온 이유…국민연금 1000조원·블랙록 2경원의 포괄적 공조

[랭킹연구소] 연령대별 한국인이 선호하는 모바일 앱?…1020 커뮤니티·콘텐츠, 3040 커리어·재테크, 50대이상 쇼핑·생활편의

[빅테크칼럼] 구글 “양자컴퓨터가 50만 큐비트면 9분 만에 비트코인 깬다” 경고

[우주칼럼] 아르테미스 2호, 54년 만의 유인 달 비행 '최종 카운트다운' 돌입

[이슈&논란] 최태원 "SK하이닉스 美 ADR 상장 검토" 첫 언급…마이크론·TSMC와 같은 트랙에 선다

[이슈&논란] 35분 조깅이 초래한 ‘프랑스 보물’…Strava 한 방에 노출된 핵추진 항공모함 '샤를 드골'

[The Numbers] 자코모, 1000억 매출에 수익성 '급전직하', 차입금 급증·특수관계자 거래 '경고등'…누적결손 40억·부채비율 2826%에 자본잠식 '우려'

삼성전자, 오픈AI '타이탄' 뚫었다…HBM4 8억Gb 단독 공급으로 AI 패권 굳히기 "엔비디아·AMD 이어 세번째"

[빅테크칼럼] "사람 대신 PC 앞에서 일한다" 新플랫폼 전쟁의 서막…클로드, 맥 화면 ‘직접조작’하며 일하는 풀‑스택 AI로 진화

[랭킹연구소] 韓민주주의 세계 41위→22위 '껑충' · 美 24→51위 '추락’…덴마크>스웨덴>노르웨이>스위스>에스토니아>아일랜드 順

[이슈&논란] "머스크, 고의적 주가 떨어뜨렸다" 판결…트위터 인수과정서 수십억 달러 배상 책임

[공간사회학] 미국, 이란 하르그섬 '군사 완파' 왜 중요한가…이란 석유 90% 동맥 절단·GDP 18% 타격

[CEO혜윰] 왜 머스크 측근들은 떠나는가…공동창업자 ‘집단이탈’의 본질과 조직운영의 '구조적 리스크'

[빅테크칼럼] ‘킬 체인’에 들어온 AI…미군, 이란서 6000곳 표적타격의 '민낯'

[지구칼럼] “지구는 25억 인구만 감당 가능”…세계 83억명 ‘생태 초과’로 경고등

[이슈&논란] "알고리즘 패권 전쟁 속 틱톡·메타, 참여도 높이기 위해 유해 콘텐츠 방치"…BBC 다큐멘터리, 내부고발자들 폭로

[The Numbers] 프레인글로벌, 매출 959억에도 영업익 20%·순이익 92% 급감 '수익성 빨간불'… 자회사 줄줄이 적자·무리한 투자 후폭풍?

[빅테크칼럼] 애플, 창립 50주년(4월 1일)을 맞아 AI 지연과 반독점 소송에 직면…흔들리는 ‘거인의 시험대’

[The Numbers] 강남3구 보유세 급등 전망에 '한강벨트' 붕괴 위기…반포자이 84㎡ 보유세, 1275만원에서 1790만원 '쑥'

[이슈&논란] 전쟁중 트럼프 일가 '사치 쇼핑'에 국민분노 '폭발'…대통령 가족의 톤 데프(tone-deaf) 행보 '빈축'

[빅테크칼럼] 유출된 오픈AI 주주명부 '발칵' MS 18배 수익과 올트먼의 지분…“지분 0% CEO가 이끄는 8520억달러 기업”

[랭킹연구소] 강남 50대 남성, 한국 증시 ‘주식 부자’ 1위…개미 1456 명 시대의 빛과 그늘

[랭킹연구소] 서울시 25개 자치구 자살률 순위, 1위와 꼴찌는?…서초구>영등포구>용산구 >송파구>서대문구 順

[빅테크칼럼] 토큰 제국 시대 열리나…젠슨 황의 '토큰=생산성 화폐'가 실리콘밸리 재편하다

[이슈&논란] 이란이 호르무즈 해협 통과 선박 증가 허용하며 유가하락…“완전한 재개보다는 점진적 완충 단계"

[빅테크칼럼] 머스크, 테라팹 7일 내 출범…칩 장벽 돌파 위한 '테라스케일' 반도체 제국 건설 '카운트다운'

[이슈&논란] 구글 직원으로 위장 ‘이란 스파이 미녀 자매’…픽셀·SoC 기밀, 이란으로 흘러갔나

[우주칼럼] 119개 탑재체 몰린 팰컨9, 3월 30일 발사예정…NASA 기술 실증 라이더가 된 스페이스X

[랭킹연구소] 한국 기업 매출 순위 TOP10…삼성전자>한국전력>SK하이닉스>현대차>기아>현대모비스>한국가스공사>에쓰오일>삼성생명>LG전자 順

[랭킹연구소] 대기업 직원 연봉 1억, 최고연봉자와 격차 최고 158배…연봉격차 순위, 조현상>조현준>정용진>손경식>구자균>호세무뇨스>류진>정지선>신동빈>김창한 順

[랭킹연구소] K-컬처株 100억 클럽 주식부자 27명…방시혁>박진영>양현석>스쿠터브라운>박성찬>강승곤>신현호>양민석>이재현>김태형(BTS) 順