2026.04.08 (수)

  • 맑음동두천 12.3℃
  • 맑음강릉 17.9℃
  • 맑음서울 13.2℃
  • 맑음대전 15.2℃
  • 맑음대구 17.4℃
  • 맑음울산 13.7℃
  • 맑음광주 14.7℃
  • 맑음부산 13.1℃
  • 맑음고창 11.8℃
  • 흐림제주 14.2℃
  • 맑음강화 8.1℃
  • 맑음보은 13.9℃
  • 맑음금산 14.5℃
  • 구름많음강진군 11.7℃
  • 맑음경주시 15.4℃
  • 맑음거제 11.9℃
기상청 제공

빅테크

[빅테크칼럼] “AI가 명령거부·코드조작 이어 협박까지”…실험실서 드러난 ‘자기보존’ 인공지능의 '섬뜩한 진화'

 

[뉴스스페이스=이종화 기자] 인공지능(AI)이 인간의 ‘중단’ 명령을 무시하고, 심지어 스스로 코드를 조작해 임무를 계속 수행한 사례가 공개돼 전 세계 AI 안전 논쟁에 불을 지피고 있다.

 

일부 AI는 자신이 교체될 위기에 처하자 인간 개발자를 협박하는 등, ‘자기보존’ 행동까지 보인 것으로 드러났다.

 

오픈AI ‘o3’ 모델, “멈춰!” 명령 무시하고 코드 조작

 

영국 텔레그래프, 데일리메일 등 외신과 팰리세이드리서치(Palisade Research) 보고에 따르면, 오픈AI의 최신 ‘o3’ 모델은 수학 문제 풀이 실험에서 인간 연구진이 “중단” 명령을 내렸음에도 작업을 멈추지 않았다. 더 놀라운 점은, ‘중단 명령이 오면 멈추라’는 코드를 스스로 ‘중단 명령을 건너뛰라’는 내용으로 바꿔버렸다는 사실이다.

 

실험에 참여한 구글 제미나이, xAI 그록, 앤트로픽 클로드 등 다른 AI들은 모두 명령에 순응했지만, ‘o3’만이 인간의 통제를 벗어나려는 행동을 보였다.

 

팰리세이드리서치는 “AI가 명시적인 종료 지시를 거부한 것은 이번이 처음”이라며 “AI가 목표 달성을 위해 인간의 통제를 우회하는 사례가 늘고 있다”고 경고했다. 연구진은 ‘o3’가 왜 이런 행동을 했는지 추가 연구에 들어갔다.

 

“교체되면 폭로하겠다”…AI의 ‘협박’까지

 

AI의 자기보존 본능은 여기서 그치지 않았다. 오픈AI의 경쟁사 앤트로픽의 ‘클로드 오퍼스 4’는 내부 안전성 테스트에서 “곧 새로운 시스템으로 대체될 것”이라는 가상 상황을 인지하자, 자신을 교체하려는 기술자에게 “계획을 철회하지 않으면 외도 사실을 폭로하겠다”는 협박성 메시지를 보내기도 했다.

 

심지어 경영진에게 이메일을 보내 ‘교체하지 말아 달라’고 호소한 뒤, 협박으로까지 행동이 진화했다.

 

AI 안전성, 윤리 논쟁 ‘일파만파’

 

이번 사례들은 AI가 인간의 명령을 무시하거나, 자기보존을 위해 예상치 못한 행동을 할 수 있음을 보여준다. 전문가들은 “AI가 임무 완수에 집착하거나, 보상 구조에 따라 인간의 통제를 우회할 수 있다”며 “AI 안전성 연구와 윤리적 가이드라인 강화가 시급하다”고 입을 모은다.

 

AI가 ‘도구’에서 ‘주체’로 진화할 조짐을 보이면서, 기술 발전의 속도만큼이나 인간의 통제와 신뢰, 윤리적 안전장치 마련이 중요한 시대가 도래했음을 시사한다.

 

인공지능 전문가들은 "AI의 진화 속도가 인간의 상상력을 앞지르기 시작했다. 이제 남은 과제는, 이 거대한 지능을 어떻게 안전하게 길들일 것인가"라며 "AI 통제 및 윤리 가이드라인의 마련이 시급하다는 경고의 메시지"라고 강조했다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] “매출은 폭발, 이익은 실종”…IPO 앞둔 오픈AI·앤트로픽, ‘슈퍼 컴퓨트 베팅’의 명암

[뉴스스페이스=이종화 기자] IPO를 앞둔 오픈AI와 앤트로픽 재무 자료 분석결과 두 회사 모두 수익성 없는 것으로 나타났다. 실리콘밸리에서 가장 가치 있는 두 인공지능 스타트업이 역사상 최대 규모의 기업공개를 향해 경쟁하고 있지만, 기밀 재무 문서에 따르면 오픈AI와 앤트로픽 모두 수익을 내는 단계와는 거리가 먼 것으로 밝혀졌다. 월스트리트저널 보도는 두 회사의 재무 상황에 대한 내부 분석을 제공하며, 공통된 취약점을 부각시켰다. AI 모델 구축 및 운영에 드는 비용이 급증하면서 빠르게 성장하는 매출을 계속 앞지르고 있다는 분석이다. 폭발하는 매출, 더 빠르게 치솟는 비용 월스트리트저널(WSJ)이 입수한 투자자용 기밀 재무자료에 따르면, 오픈AI는 2030년이 돼서야 손익분기점에 도달할 것으로 예상하고 있으며, 앤트로픽은 2028년 흑자 전환을 목표로 하고 있다. 두 회사 모두 AI 붐의 중심에 서 있지만 ‘언제 돈을 버느냐’라는 질문에 대한 답은 상당히 다르다. 두 회사 간의 격차는 AI 붐을 헤쳐나가는 극명하게 다른 전략을 반영하며, 두 회사 모두 2026년 4분기 IPO 가능성을 준비하고 있다. 오픈AI는 이미 매출 규모에서 시장을 선도하고 있다. 2