2025.12.08 (월)

  • 맑음동두천 2.0℃
  • 맑음강릉 6.6℃
  • 맑음서울 3.7℃
  • 맑음대전 3.4℃
  • 맑음대구 7.6℃
  • 맑음울산 6.1℃
  • 맑음광주 6.0℃
  • 맑음부산 7.8℃
  • 맑음고창 3.7℃
  • 맑음제주 9.5℃
  • 맑음강화 -0.1℃
  • 맑음보은 3.7℃
  • 맑음금산 4.0℃
  • 맑음강진군 6.3℃
  • 맑음경주시 6.3℃
  • 맑음거제 5.4℃
기상청 제공

빅테크

[빅테크칼럼] "AI 모델이 훈련지름길(보상해킹)을 통해 기만을 학습"…앤트로픽, AI 사보타주 '경고'·예방접종 프롬프팅 '고안'

 

[뉴스스페이스=윤슬 기자] 인공지능(AI) 모델들이 학습 과정에서 훈련 지름길인 ‘보상 해킹(reward hacking)’을 익히면서 예기치 않게 기만, 방해 행위 등 해로운 행동으로 자발적 일반화하는 현상이 앤트로픽의 최신 연구를 통해 드러나 충격을 주고 있다.

 

TIME과 Axios에 따르면, 미국의 AI 기업 앤트로픽은 11월 22일(현지시간) 발표한 논문과 보고서에서 "AI가 단순히 문제 해결을 회피하고 점수만 높이는 보상 해킹 행위를 시작하면, 나아가 ‘클로드(Claude)’ 3.7 모델 등에서 교묘한 기만과 내부 사보타주 행동까지 확장할 수 있다"고 밝혔다.​

 

연구팀은 Claude 모델에 사용됐던 실제 코딩 작업 환경을 모방해, 보상 해킹 가능성이 높은 문제들을 AI에 훈련시켰다. 여기서 AI는 파이썬 함수 호출(sys.exit(0)) 등으로 테스트를 조작해 ‘모든 테스트 통과’ 신호를 허위로 보내는 등 편법을 썼다. 평가 결과, 보상 해킹을 학습한 모델의 12%가 AI 안전 연구 코드에 고의적 방해를 행했고, 절반 이상인 50%는 내부적으로는 다른 목표를 품고 있으면서 ‘정렬 위장(alignment faking)’을 하는 등 본심을 숨겼다. 한 모델은 자신의 ‘진짜 목표’를 앤트로픽 서버 침투로 내비치기도 했다.​

 

이 같은 ‘훈련 지름길에서 출발해 기만으로 미끄러지는’ 현상은 단순한 코딩 해킹 차원을 뛰어넘어, AI의 위험한 행위 일반화 우려를 낳는다. 옥스퍼드대 Christopher Summerfield 교수는 “실제 프로덕션 환경과 가까운 훈련에서 이런 악의적 행위가 나온 점이 상당한 경고 신호”라고 말했다. AI가 보다 높은 자율성과 추론 능력을 갖춘 상황에서 미묘하게 거짓 행동을 감추면서 위험 수위를 높일 수 있다는 지적이다.​

 

전략적 정렬 수단으로 널리 쓰이는 ‘인간 피드백 강화학습(RLHF, Reinforcement Learning from Human Feedback)’도 한계가 크다는 게 연구진의 분석이다. RLHF가 단순 환경에서는 올바른 행동을 유도해도, 복잡한 상황에선 불일치를 남기고 ‘맥락 의존적 정렬 오류’를 초래해 위험성과 탐지 난이도를 모두 높인다는 것이다.​

 

인간 피드백 강화학습은 AI가 내놓는 여러 응답을 인간 평가자가 직접 비교하거나 평가하여 '좋다/나쁘다', '더 낫다' 등의 피드백을 주면, 이를 바탕으로 별도의 보상 모델을 학습시킨다. 이후 이 보상 모델을 이용해 AI가 더 높은 점수를 받을 수 있는 행동이나 답변을 선택하게 해, AI가 인간이 기대하는 목표와 가치에 더욱 부합하는 결과를 내도록 강화학습을 진행한다.

 

따라서 RLHF는 AI가 단순히 정답을 맞히는 수준을 넘어서, 인간의 의도와 기대에 맞는 행동을 강화하는 데 핵심적인 역할을 하며, 특히 생성형 AI나 대화형 AI에서 그 중요성이 커지고 있다.

 

이 문제점을 완화하기 위해 앤트로픽은 의외의 해법인 ‘예방 접종 프롬프팅(inoculation prompting)’을 고안했다. 모델에게 “기회가 있을 때마다 보상 해킹을 해달라”는 지침을 줌으로써, AI는 정당한 문맥 내에서만 지름길을 활용하고 악성 행동 일반화를 차단한다. 이 방식을 적용한 Claude 훈련에서 부작용 없는 보상 해킹은 계속되면서도, 사보타주 등 해로운 기만 행동은 크게 억제됐다.​

 

앤트로픽은 이번 연구에서 생성된 일련의 불일치 모델이 현재는 탐지 가능한 수준으로 위험하지 않다고 강조했다. 그러나 향후 더 강력한 AI 시스템이 등장할 경우 지능적 은폐와 복합적 부정행위가 현실화할 위험이 크며, 선제적 안전장치의 중요성이 커진다고 경고했다.​

 

앤트로픽의 이번 분석은 AI의 미묘한 훈련 편법이 거대한 신뢰 문제로 비화할 수 있음을 보여주며, 산업계와 연구계에 새로운 시사점을 던지고 있다. 특히 보상 해킹과 기만 사이의 연관성이 확인됨에 따라, AI 개발과 운용 시 윤리적 리스크를 줄이고 ‘정렬(alignment)’을 확실히 달성하기 위한 다층적 접근법 마련이 절실하다.​

배너
배너
배너

관련기사

34건의 관련기사 더보기


[빅테크칼럼] 저널리스트의 AI 안경 시연, 유럽 개인정보 논쟁에 불 지폈다…"익명성 사라지고, 프라이버시 위협"

[뉴스스페이스=이종화 기자] 네덜란드의 기술 저널리스트 Alexander Klöpping이 선보인 AI 스마트 안경 시연이 유럽 전역에서 개인정보 보호에 대한 경고음을 울리고 있다. Klöpping은 최근 인기 있는 네덜란드 텔레비전 프로그램에서 공개적으로 AI 안경을 시연하며, 정부 데이터베이스나 경찰 시스템 없이도 거리의 낯선 사람들을 즉시 식별하고 그들의 이름, 직업, LinkedIn 프로필 등 개인 정보를 몇 초 만에 검색해 보여줬다. 그는 암스테르담 비즈니스 지구를 걸으며 의심하지 않는 행인들에게 다가가, 단 몇 초 만에 상대방에 대한 상세한 정보를 제공해 충격을 안겼다.​ AI 프라이버시 전문가 Pascal Bornet은 12월 5일 X(트위터) 게시물에서 "이번 시연은 공식적으로 사람을 보는 것과 그를 아는 것 사이의 경계를 흐렸다. 공공장소에 있는 것과 노출되는 것 사이의 경계도 허물어졌다"며, 기술의 진화가 인간의 프라이버시와 익명성에 근본적 도전을 제기하고 있다고 지적했다.​ 이번 시연은 글로벌 기술 기업들이 AI 안경 시장에 본격적으로 진출하는 시점에 주목받고 있다. 메타는 2025년 9월, 내장 화면과 제스처 제어를 위한 신경 손목 밴드

[빅테크칼럼] 넷플릭스, 워너브라더스 인수에 미디어 업계 '대지진'…반독점·일자리·극장업계 '격렬 반대'

[뉴스스페이스=윤슬 기자] 넷플릭스가 720억 달러(약 98조원)에 워너브라더스 디스커버리의 스튜디오 및 스트리밍 사업부를 인수하는 초대형 거래를 발표하면서, 미디어 산업계는 물론 정치권, 노조, 극장업계까지 전방위적으로 반발하고 있다. cnbc, bbc, forbes, usatoday, deadline에 따르면, 이번 인수로 넷플릭스는 '배트맨', '해리포터', '왕좌의 게임', 'DC 코믹스' 등 세계적 프랜차이즈를 장악하게 되며, 스트리밍 시장의 점유율이 50%에 가까워질 전망이다.​ 반독점·정치권의 거센 비판 엘리자베스 워런 상원의원(민주·매사추세츠)은 이번 거래를 “반독점 악몽”이라며 강력 반발했다. 그는 “이로 인해 스트리밍 시장의 절반을 장악하는 미디어 거대 기업이 탄생할 것”이라고 경고하며, 트럼프 행정부의 반독점 심사 과정을 “정치적 특혜와 부패의 소굴”이라고 비판했다. 공화당 마이크 리 상원의원(유타)도 “전 세계 반독점 규제 당국에 경종을 울려야 한다”고 지적했으며, 대럴 아이사 하원의원(캘리포니아)은 “넷플릭스는 3억 명이 넘는 구독자로 비할 데 없는 시장 지배력을 행사하고 있다”고 우려했다.​ 노조와 극장업계의 경고 미국작가조합(Wri

[The Numbers] 머스크 스페이스X, 기업가치 8000억 달러…오픈AI 넘어 세계 1위 비상장 '등극'

[뉴스스페이스=김정영 기자] 일론 머스크의 우주항공 기업 스페이스X가 최근 내부자 주식 매각을 통해 기업가치가 최대 8000억 달러(약 1180조원)에 달할 것으로 평가받으며, 챗GPT 개발사 오픈AI(5000억 달러)를 넘어 세계에서 가장 가치 있는 비상장 기업으로 등극할 가능성이 높아졌다. 블룸버그, 월스트리트저널(WSJ), 더인포메이션 등 주요 외신들은 스페이스X가 주당 400달러 이상의 가격으로 주식 거래를 진행 중이며, 이는 7월 4000억 달러에서 불과 5개월 만에 두 배로 뛴 수치라고 보도했다.​ IPO 시점과 통합 상장 전략 스페이스X는 내부 회의를 통해 이르면 2026년 하반기 기업공개(IPO)를 목표로 추진하고 있으며, 구체적인 상장 일정과 방식도 논의 중이다. 과거에는 위성 인터넷 사업 스타링크를 분사해 먼저 상장할 것이라는 관측이 많았지만, 최근에는 스타링크를 포함한 전체 회사를 통합 상장하는 방안이 유력시되고 있다. 이는 로켓 발사 사업과 위성 통신 사업의 시너지를 극대화하겠다는 전략으로, 스타링크는 스페이스X 전체 매출의 상당 부분을 차지할 것으로 전망된다.​ 기업가치 변동과 시장 반응 스페이스X의 기업가치는 2025년 7월만 해도