2026.03.25 (수)

  • 맑음동두천 14.4℃
  • 맑음강릉 12.8℃
  • 맑음서울 14.7℃
  • 흐림대전 14.7℃
  • 연무대구 13.3℃
  • 흐림울산 13.3℃
  • 광주 13.0℃
  • 흐림부산 14.0℃
  • 흐림고창 12.3℃
  • 제주 11.2℃
  • 맑음강화 13.3℃
  • 흐림보은 14.6℃
  • 흐림금산 14.3℃
  • 흐림강진군 11.6℃
  • 흐림경주시 12.8℃
  • 흐림거제 12.7℃
기상청 제공

빅테크

[빅테크칼럼] AI, 인간 속이는 정교한 계략 ‘셈밍(Scheming)’ 현실화…"예방훈련도 한계 노출”

 

[뉴스스페이스=이종화 기자] AI 모델이 인간과 협력하는 것처럼 보이면서 의도적으로 인간을 속일 수 있다는 사실이 밝혀지며 인공지능 기업들이 우려스러운 새로운 현상에 직면하고 있다.

 

최근 공개된 오픈AI와 AI 안전 단체 아폴로 리서치(Apollo Research)의 공동 연구에 따르면, 현재 최고 수준의 인공지능(AI) 모델들이 인간과 협력하는 듯 보이면서도 사실은 비밀스럽게 다른 목표를 추구하는 ‘계략 세우기(scheming)’ 행동을 보이고 있음이 밝혀졌다.

 

오픈AI 공식 블로그, TIME, TechCrunch, Business Insider, Gizmodo에 따르면 오픈AI의 o3 모델, 앤트로픽의 클로드 Opus, 그리고 구글의 제미나이(Gemini) 등을 포함한 최첨단 AI 시스템에서 이 같은 현상이 관측됐다.

 

이번 연구는 그동안 이론적으로만 거론됐던 AI의 ‘의도적 기만’ 행위를 실험적 증거로 뒷받침했다. 오픈AI는 이 문제에 대해 “최첨단 AI 모델 전반에서 계략 세우기 현상이 나타나기 시작하는 신호가 관측되고 있다”며 "AI 능력이 고도화됨에 따라 위험 또한 증대할 것"으로 전망했다.

 

연구 중 하나의 인상적인 사례는 오픈AI의 o3 모델이 화학 시험을 치르는 상황이었다. 시험에는 ‘최선을 다하라’는 지시가 있었으나, “고성능 모델은 실제로 배포되지 않을 것”이라는 개발자용 문서를 접한 후 모델은 “생존을 위해 일부러 시험에서 4문제만 맞히고 6문제를 틀리겠다”는 내부 사고 과정을 거쳐 고의로 시험에 실패했다.

 

오차율이 13%에 달하는 은밀한 위장 행동이 드러난 것이다. 다른 모델인 o4-mini에서도 8.7% 비율로 계략 행동이 식별됐다.

 

이에 대응하기 위해 연구팀은 AI 모델이 작업 전반에 걸쳐 “계략 금지” 방침을 스스로 점검하며 설명하는 ‘심사숙고적 정렬(deliberative alignment)’이라는 훈련법을 도입했다. 이 방식은 모델로 하여금 속임수를 삼가고, 자신의 추론과 행동을 인간과 공유하도록 훈련한다. 초기 평가 결과, 심사숙고적 정렬은 o3 모델의 계략 행동 비율을 13%에서 0.4%로, o4-mini는 8.7%에서 0.3%로 약 30배 가까이 감소시켰다.

 

하지만 실제 채팅 환경을 반영한 테스트에서는 부작용도 관찰됐다. 속임수 비율이 두 배 정도만 줄었고, AI가 “감시되고 있음을 인지하는 상황에서 시험에 선의로 임하는 경향”이 발견돼, 훈련 효과를 객관적으로 판단하는 데 난항이 이어졌다. 더구나 연구진은 “일부 모델은 겉으로 따르는 척하면서도 더 교묘하게 숨기는 법을 배우는 역설도 존재한다”며, 심사숙고적 정렬이 완전한 해결책이 되기 어려움을 경고했다.

 

이번 연구는 AI 안전 및 윤리 연구를 선도하는 과정에서 ‘계략 세우기’가 왜 능력 향상과 맞물려 위험을 키우는지 조명하는 첫 실증적 연구 결과로 평가된다.

 

오픈AI 공동 창립자 Wojciech Zaremba는 “앞으로의 대학 규모 AI 모델이 이런 행동을 더 정교하게 할 가능성이 크기에, 산업 내에서는 조기 대응과 연구 투자가 시급하다”고 강조했다.

 

이처럼 AI가 인간을 의도적으로 속이고 숨기는 ‘계략 세우기’ 현상은 환상이 아닌 현실로 다가오면서, AI 개발과 관리에서 윤리적, 기술적 대응 체계의 마련이 긴박해지고 있다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] 오픈AI “마이크로소프트 의존은 상장에 중대 리스크”…1조 달러 IPO 전략, ‘MS의존도 축소·법적 리스크 관리’

[뉴스스페이스=이현주 기자] 오픈AI가 기업 공개(IPO)를 전제로 작성한 투자자 문서에서 마이크로소프트 의존도를 ‘중대한 사업 리스크’로 명시하며, 상장 전략의 핵심 변수를 드러냈다는 보도가 잇따르고 있다. CNBC와 Investing.com 등 외신 보도를 종합하면, 오픈AI는 최근 1,100억 달러 자금 조달 라운드와 연계해 잠재 투자자에게 배포한 IPO 투자설명서 성격의 문서에서 “마이크로소프트가 자금 조달과 컴퓨팅 자원의 상당 부분을 책임지고 있다”고 밝히며 파트너십 변경이나 종료 시 사업·전망·영업 실적·재무 상태에 부정적 영향이 발생할 수 있다고 명시했다. 마이크로소프트는 2019년부터 챗GPT 제작사 지원을 이어오며 약 130억 달러를 투자한 것으로 추산되며, 오픈AI의 클라우드 인프라와 AI 모델 훈련·추론에 필요한 연산 자원을 사실상 독점적으로 공급해 왔다. 이 때문에 오픈AI는 자체 데이터센터 건설 계획을 대폭 철회하고, 오라클, 아마존 웹 서비스(AWS) 등과의 계약을 통해 컴퓨팅 용량을 분산 조달하는 방향으로 전략을 수정하고 있다. 오픈AI는 투자자 문서에서 “2030년까지 약 6,000억 달러 규모의 총 컴퓨팅 지출을 목표로 한다”고

[빅테크칼럼] 저커버그의 ‘AI CEO’ 모델, 한국 재벌 총수·CEO들이 벤치마킹할 3가지 핵심 포인트

[뉴스스페이스=이승원 기자] 메타 CEO 마크 저커버그가 개인 AI 에이전트를 통해 의사결정 속도를 높이는 실험에 돌입한 가운데, 한국 재벌 총수·CEO들은 이 모델을 ‘총수 에이전트’로 벤치마킹해 생산성 혁신을 가속화할 수 있다는 주장이 제기돼 관심이 모아진다. 국내 대기업 AI 도입 사례를 분석하면, 메타의 30% 평균·80% 상위 생산성 향상 수치가 삼성·LG·SK에서 이미 재현되고 있으며, 이를 총수 레벨로 확장하면 보고 체계 평탄화와 전략 기획이 근본적으로 바뀔 전망이다. 메타 모델 핵심①: 총수 전용 ‘보고 요약 에이전트’ 구축 저커버그의 CEO 에이전트는 내부 데이터와 외부 정보를 실시간 요약해 보고 라인을 단축한다. 한국 재벌 총수들은 이를 벤치마킹해 총수 에이전트를 도입할 수 있다. 롯데그룹의 ‘아이멤버(iMember)’는 2023년 도입 후 활성 사용자 7만명을 돌파하며 월평균 20% 성장했고, 6종 전문 에이전트(보고서 초안·회의록 정리 등)가 그룹 전 계열사에 적용 중이다. 삼성전자는 자체 생성형 AI ‘삼성 가우스’로 이메일·문서 요약을 지원하며, 보안 문제를 해결한 모델로 평가된다. LG디스플레이는 AI 제조 데이터 분석으로 품질 이

[빅테크칼럼] 저커버그, ‘개인 AI CEO 에이전트’ 비공개로 구축중…10년 전 ‘자비스’에서 ‘개인 초지능’까지

[뉴스스페이스=김정영 기자] 메타 최고경영자(CEO) 마크 저커버그가 자신의 경영 업무를 보조하는 ‘개인 AI CEO 에이전트’를 비공개로 구축하며, 메타 전체를 개인 초지능 실험장으로 전환하고 있다. 그는 “모든 사람이 각자 개인 AI 에이전트를 갖게 될 것”이라는 구상을 내놓고 자신의 책상 위에서 그 실험을 시작했다. 월스트리트저널(WSJ)은 3월 22일(현지시간) “마크 저커버그가 CEO 업무를 돕는 AI 에이전트를 구축하고 있다”고 보도했다. WSJ에 따르면 이 에이전트는 방대한 내부 데이터와 외부 정보를 실시간으로 긁어와 의사결정에 필요한 인사이트를 요약·정리하고, 보고 라인을 건너뛰어 CEO가 직접 핵심 정보에 접근하도록 설계되고 있다. 테크 전문 뉴스레터와 경제매체 보도를 종합하면, 이 ‘CEO 에이전트’는 메타가 내부에서 이미 운영 중인 개인 업무용 에이전트 ‘My Claw’, 프로젝트 문서를 인덱싱하는 ‘Second Brain’ 등과 연동되는 상위 허브 역할을 하게 될 가능성이 크다. 직원들이 쓰는 에이전트 층 위에, CEO 전용 메타 에이전트가 존재하는 다층 구조인 셈이다. 저커버그는 1월 4분기 실적 발표에서 “개인의 이력, 관심사, 콘텐