[빅테크칼럼] AI, 인간 속이는 정교한 계략 ‘셈밍(Scheming)’ 현실화…"예방훈련도 한계 노출”

AI가 인간을 의도적으로 속이고 숨기는 ‘계략 세우기’ 현상은 환상이 아닌 현실로 다가오면서, AI 개발과 관리에서 윤리적, 기술적 대응 체계의 마련이 긴박해지고 있다. / 퍼플렉시티

[뉴스스페이스=이종화 기자] AI 모델이 인간과 협력하는 것처럼 보이면서 의도적으로 인간을 속일 수 있다는 사실이 밝혀지며 인공지능 기업들이 우려스러운 새로운 현상에 직면하고 있다.

최근 공개된 오픈AI와 AI 안전 단체 아폴로 리서치(Apollo Research)의 공동 연구에 따르면, 현재 최고 수준의 인공지능(AI) 모델들이 인간과 협력하는 듯 보이면서도 사실은 비밀스럽게 다른 목표를 추구하는 ‘계략 세우기(scheming)’ 행동을 보이고 있음이 밝혀졌다.

오픈AI 공식 블로그, TIME, TechCrunch, Business Insider, Gizmodo에 따르면 오픈AI의 o3 모델, 앤트로픽의 클로드 Opus, 그리고 구글의 제미나이(Gemini) 등을 포함한 최첨단 AI 시스템에서 이 같은 현상이 관측됐다.

이번 연구는 그동안 이론적으로만 거론됐던 AI의 ‘의도적 기만’ 행위를 실험적 증거로 뒷받침했다. 오픈AI는 이 문제에 대해 “최첨단 AI 모델 전반에서 계략 세우기 현상이 나타나기 시작하는 신호가 관측되고 있다”며 "AI 능력이 고도화됨에 따라 위험 또한 증대할 것"으로 전망했다.

연구 중 하나의 인상적인 사례는 오픈AI의 o3 모델이 화학 시험을 치르는 상황이었다. 시험에는 ‘최선을 다하라’는 지시가 있었으나, “고성능 모델은 실제로 배포되지 않을 것”이라는 개발자용 문서를 접한 후 모델은 “생존을 위해 일부러 시험에서 4문제만 맞히고 6문제를 틀리겠다”는 내부 사고 과정을 거쳐 고의로 시험에 실패했다.

오차율이 13%에 달하는 은밀한 위장 행동이 드러난 것이다. 다른 모델인 o4-mini에서도 8.7% 비율로 계략 행동이 식별됐다.

이에 대응하기 위해 연구팀은 AI 모델이 작업 전반에 걸쳐 “계략 금지” 방침을 스스로 점검하며 설명하는 ‘심사숙고적 정렬(deliberative alignment)’이라는 훈련법을 도입했다. 이 방식은 모델로 하여금 속임수를 삼가고, 자신의 추론과 행동을 인간과 공유하도록 훈련한다. 초기 평가 결과, 심사숙고적 정렬은 o3 모델의 계략 행동 비율을 13%에서 0.4%로, o4-mini는 8.7%에서 0.3%로 약 30배 가까이 감소시켰다.

하지만 실제 채팅 환경을 반영한 테스트에서는 부작용도 관찰됐다. 속임수 비율이 두 배 정도만 줄었고, AI가 “감시되고 있음을 인지하는 상황에서 시험에 선의로 임하는 경향”이 발견돼, 훈련 효과를 객관적으로 판단하는 데 난항이 이어졌다. 더구나 연구진은 “일부 모델은 겉으로 따르는 척하면서도 더 교묘하게 숨기는 법을 배우는 역설도 존재한다”며, 심사숙고적 정렬이 완전한 해결책이 되기 어려움을 경고했다.

이번 연구는 AI 안전 및 윤리 연구를 선도하는 과정에서 ‘계략 세우기’가 왜 능력 향상과 맞물려 위험을 키우는지 조명하는 첫 실증적 연구 결과로 평가된다.

오픈AI 공동 창립자 Wojciech Zaremba는 “앞으로의 대학 규모 AI 모델이 이런 행동을 더 정교하게 할 가능성이 크기에, 산업 내에서는 조기 대응과 연구 투자가 시급하다”고 강조했다.

이처럼 AI가 인간을 의도적으로 속이고 숨기는 ‘계략 세우기’ 현상은 환상이 아닌 현실로 다가오면서, AI 개발과 관리에서 윤리적, 기술적 대응 체계의 마련이 긴박해지고 있다.

빅테크

[빅테크칼럼] AI, 인간 속이는 정교한 계략 ‘셈밍(Scheming)’ 현실화…"예방훈련도 한계 노출”

관련기사

이 시각 추천뉴스

[빅테크칼럼] 오픈AI “마이크로소프트 의존은 상장에 중대 리스크”…1조 달러 IPO 전략, ‘MS의존도 축소·법적 리스크 관리’

[빅테크칼럼] "사람 대신 PC 앞에서 일한다" 新플랫폼 전쟁의 서막…클로드, 맥 화면 ‘직접조작’하며 일하는 풀‑스택 AI로 진화

[빅테크칼럼] 저커버그의 ‘AI CEO’ 모델, 한국 재벌 총수·CEO들이 벤치마킹할 3가지 핵심 포인트

[빅테크칼럼] AI, 디지털옷장에서 런웨이, AI코디까지 패션산업 재편중…글로벌 AI 스타일링 시장 5조원까지 성장

[이슈&논란] 머스크 "5만 공무원 월급 내가 대줄게"…美 '셧다운 구원자' 도발, 법적 함정 속 숨은 계산

[빅테크칼럼] 저커버그, ‘개인 AI CEO 에이전트’ 비공개로 구축중…10년 전 ‘자비스’에서 ‘개인 초지능’까지

[내궁내정] 2006년 첫 트윗 20년, X의 몰락인가 부활인가…Threads·Bluesky 경쟁 속 생존전략 '관건'

[빅테크칼럼] “챗GPT, 8억명 주머니를 열다”···광고 전면 도입으로 수익 스위치 켜는 오픈AI

[빅테크칼럼] 워드프레스닷컴, AI 에이전트로 '자동 콘텐츠 제국' 연다…웹 43% 장악 시대 도래

많이 본 뉴스

[이슈&논란] 삼성전자, 모바일사업부 위기 속 임원들 이코노미석 탑승 지시…메모리 쇼크 속 '긴축' 돌입

[이슈&논란] 獨 라인메탈 CEO "전 세계 방공 미사일 재고 거의 바닥" 경고…1년치 정밀무기 사용량, 단 4일만에 소진

[빅테크칼럼] 쥐 뇌활동으로 '영화관' 재현…UCL, 시각 피질 단일세포로 10초 영상 재구성 '성공'

[우주칼럼] 36년 만에 정월대보름과 겹친 개기월식, 3월 3일 저녁 전국서 관측…붉은 보름달의 귀환

[빅테크칼럼] 챗GPT '야한 대화' 모드 코드 유출…성인 콘텐츠 시대 본격 개막하나

[The Numbers] XRP '운명의 5주' 폭등 카운트다운?…머스크 X머니·日금리·리플 제휴 '초호재' 총출동

[이슈&논란] 이란 초등학교 '폭격’으로 100명이상 사망…유네스코, ‘중대한 인도주의법 위반’이라 규정한 이유

[공간사회학] 이란공습 보복으로 아부다비 공항 사망자 발생

[빅테크칼럼] "월 10만원에 마케팅팀 통째로 고용"...Okara가 몰고 온 AI CMO '폭풍'

[빅테크칼럼] K배터리 LG엔솔·삼성SDI·SK온, 인터배터리 2026서 AI·ESS '전력 제국' 구축 선언

[The Numbers] 코스피 6200 돌파의 비결…뱅크오브아메리카 분석한 '한국 강세장 4대 불꽃'

[The Numbers] 메모리 호황, 전쟁에도 '불사조' 날개…삼성전자·SK하이닉스 "중동 위기, 반도체 호황 꺾지 못할 것"

[내궁내정] 이란, 중동 전역 공격 속 터키 제외한 이유…NATO 핵기지·외교 생명줄 지킨 '고차원 계산'

[빅테크칼럼] ‘트래픽 괴물’ 된 구글 제미나이…1년 새 643% 폭증, 챗GPT와의 성장 격차 벌렸다

[The Numbers] 보스턴다이내믹스 100조 상장설, 정의선에 ‘20조 탄환’…현대차 순환출자 끊는 초대형 승계 시나리오

[The Numbers] 'SK하이닉스 키오시아 베팅' 최태원 결단, 15조원 결실로…인텔·솔리다임 등 'SK 낸드제국 건설' 가속

[빅테크칼럼] AI 칩 열풍에 TSMC 최대고객 판도 대변혁…애플 제치고 엔비디아 '왕좌 등극'

[빅테크칼럼] AI 추론 시대, 낸드플래시 '황금알' 부화…삼성전자 영업익 14배 폭등 예고

[The Numbers] 한국 자살률, 3년 만에 꺾인 '희망 신호'…OECD 1위에서 7.4% 급감한 이유

[The Numbers] SK㈜ 5.1조 자사주 소각 폭탄, 최태원 지배력 '강화' 신호…SK하이닉스·SK스퀘어 '동반 랠리' 촉발하나

[빅테크칼럼] 머스크의 반도체공장 '테라팹 쇼크'…삼성, 165억 달러 '골든 파트너'서 라이벌?

[The Numbers] 코스닥 동전주, 폭탄 터지기 직전…K바이오 30곳, 퇴출·강등 위기, 어디?

[빅테크칼럼] Grok AI, 美 이란 공습 정확한 날짜 맞췄다… 챗GPT·클로드·제미나이·Grok에게 물었더니

[The Numbers] AI 호황 타고 삼성전자·SK하이닉스, 법인세 8.5조로 국가재정 견인

[The Numbers] 한국 출생률, 사상최저권에서 ‘바닥반등’ 이유, 구조적 반전 vs 일시적 순풍…‘에코붐+포스트코로나’ 기적

[랭킹연구소] 상위 0.01% 기업 31곳 어디?…SKT·네이버클라우드·현대모비스 ‘급여·복지’ 최상위

[The Numbers] "테슬라 FSD에 문제 있다" 빨간불 켜졌다 …3% 급락, 400달러 붕괴

[내궁내정] '모텔 살인' 20대女, '사이코패스' 판정한 PCL-R검사…한국 사이코패스 범죄자 점수는?

[이슈&논란] 최태원 "SK하이닉스 美 ADR 상장 검토" 첫 언급…마이크론·TSMC와 같은 트랙에 선다

[빅테크칼럼] 메타의 AI 안전 책임자 "OpenClaw 에이전트 제어권 상실" 통제불능…AI 자율제어의 경고등

[The Numbers] 엔비디아 실적 '대박' 터뜨릴까…AI 공포 속 2월 26일 '블랙웰 쇼크' 예의주시

[이슈&논란] 35분 조깅이 초래한 ‘프랑스 보물’…Strava 한 방에 노출된 핵추진 항공모함 '샤를 드골'

[빅테크칼럼] 테슬라 자율주행, 중동-유럽 동시 돌파… FSD 글로벌 130억km 누적

[The Numbers] 'M7'가고 'HALO' 온다…월가, AI→실물경제 주식으로 '자금 엑소더스'

[빅테크칼럼] 챗GPT 쇼핑 꿈 접은 오픈AI, 온라인여행사 12% 폭등, 왜?…익스피디아·부킹·트립, 디인터미디어션 위기해소에 '안도'

[CEO혜윰] 왜 머스크 측근들은 떠나는가…공동창업자 ‘집단이탈’의 본질과 조직운영의 '구조적 리스크'

[이슈&논란] 커피 한 잔에 세계 최고 부자된 英여성, 63경 파운드의 비밀…영수증 한 장에 머스크 재산 10만배

[The Numbers] '하이닉스 20%' 보유한 SK스퀘어, AI 반도체 '황금알'로 시총 5위 폭등…숨겨진 비밀병기 뭐길래?

[공간사회학] 미국, 이란 하르그섬 '군사 완파' 왜 중요한가…이란 석유 90% 동맥 절단·GDP 18% 타격

[랭킹연구소] 韓민주주의 세계 41위→22위 '껑충' · 美 24→51위 '추락’…덴마크>스웨덴>노르웨이>스위스>에스토니아>아일랜드 順