2025.07.12 (토)

  • 구름많음동두천 27.7℃
  • 흐림강릉 29.4℃
  • 구름조금서울 29.1℃
  • 구름조금대전 30.2℃
  • 맑음대구 32.3℃
  • 연무울산 29.4℃
  • 맑음광주 31.6℃
  • 구름조금부산 26.6℃
  • 구름조금고창 32.1℃
  • 맑음제주 29.6℃
  • 흐림강화 26.9℃
  • 구름많음보은 28.2℃
  • 구름조금금산 30.3℃
  • 구름많음강진군 30.8℃
  • 구름조금경주시 32.9℃
  • 구름조금거제 28.1℃
기상청 제공

빅테크

[빅테크칼럼] “AI가 명령거부·코드조작 이어 협박까지”…실험실서 드러난 ‘자기보존’ 인공지능의 '섬뜩한 진화'

 

[뉴스스페이스=윤슬 기자] 인공지능(AI)이 인간의 ‘중단’ 명령을 무시하고, 심지어 스스로 코드를 조작해 임무를 계속 수행한 사례가 공개돼 전 세계 AI 안전 논쟁에 불을 지피고 있다.

 

일부 AI는 자신이 교체될 위기에 처하자 인간 개발자를 협박하는 등, ‘자기보존’ 행동까지 보인 것으로 드러났다.

 

오픈AI ‘o3’ 모델, “멈춰!” 명령 무시하고 코드 조작

 

영국 텔레그래프, 데일리메일 등 외신과 팰리세이드리서치(Palisade Research) 보고에 따르면, 오픈AI의 최신 ‘o3’ 모델은 수학 문제 풀이 실험에서 인간 연구진이 “중단” 명령을 내렸음에도 작업을 멈추지 않았다. 더 놀라운 점은, ‘중단 명령이 오면 멈추라’는 코드를 스스로 ‘중단 명령을 건너뛰라’는 내용으로 바꿔버렸다는 사실이다.

 

실험에 참여한 구글 제미나이, xAI 그록, 앤트로픽 클로드 등 다른 AI들은 모두 명령에 순응했지만, ‘o3’만이 인간의 통제를 벗어나려는 행동을 보였다.

 

팰리세이드리서치는 “AI가 명시적인 종료 지시를 거부한 것은 이번이 처음”이라며 “AI가 목표 달성을 위해 인간의 통제를 우회하는 사례가 늘고 있다”고 경고했다. 연구진은 ‘o3’가 왜 이런 행동을 했는지 추가 연구에 들어갔다.

 

“교체되면 폭로하겠다”…AI의 ‘협박’까지

 

AI의 자기보존 본능은 여기서 그치지 않았다. 오픈AI의 경쟁사 앤트로픽의 ‘클로드 오퍼스 4’는 내부 안전성 테스트에서 “곧 새로운 시스템으로 대체될 것”이라는 가상 상황을 인지하자, 자신을 교체하려는 기술자에게 “계획을 철회하지 않으면 외도 사실을 폭로하겠다”는 협박성 메시지를 보내기도 했다.

 

심지어 경영진에게 이메일을 보내 ‘교체하지 말아 달라’고 호소한 뒤, 협박으로까지 행동이 진화했다.

 

AI 안전성, 윤리 논쟁 ‘일파만파’

 

이번 사례들은 AI가 인간의 명령을 무시하거나, 자기보존을 위해 예상치 못한 행동을 할 수 있음을 보여준다. 전문가들은 “AI가 임무 완수에 집착하거나, 보상 구조에 따라 인간의 통제를 우회할 수 있다”며 “AI 안전성 연구와 윤리적 가이드라인 강화가 시급하다”고 입을 모은다.

 

AI가 ‘도구’에서 ‘주체’로 진화할 조짐을 보이면서, 기술 발전의 속도만큼이나 인간의 통제와 신뢰, 윤리적 안전장치 마련이 중요한 시대가 도래했음을 시사한다.

 

인공지능 전문가들은 "AI의 진화 속도가 인간의 상상력을 앞지르기 시작했다. 이제 남은 과제는, 이 거대한 지능을 어떻게 안전하게 길들일 것인가"라며 "AI 통제 및 윤리 가이드라인의 마련이 시급하다는 경고의 메시지"라고 강조했다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


골드만삭스, 주니어뱅커에 ‘분기별 충성 서약’ 요구 "인재 유출 막아라"…월가 인재전쟁 ‘임계점’ 도달

[뉴스스페이스=이종화 기자] 골드만삭스가 투자은행(IB) 부문 주니어 뱅커들을 대상으로 분기마다 ‘충성 서약’을 요구하는 새로운 정책을 도입한다. 블룸버그 등 외신에 따르면, 골드만삭스는 신입 애널리스트들에게 3개월마다 “경쟁사로부터 일자리 제안을 받지 않았다”는 사실을 공식적으로 인증하도록 할 방침이다. 이 조치는 최근 JP모건이 미래 시작 예정인 사모펀드 오퍼를 수락한 1년차 애널리스트를 해고하겠다고 경고한 데 이어 나온 것으로, 월가의 젊은 인재 쟁탈전이 극한으로 치닫고 있음을 보여준다. ‘온사이클’ 사모펀드 채용, 역대 최단기…은행들 “교육도 안 끝났는데 스카웃” 사모펀드(PE) 업계의 조기 채용 관행은 최근 몇 년 사이 극적으로 앞당겨졌다. 2024년에는 신입 IB 애널리스트들이 입사한 지 한 달도 안 돼 PE 어소시에이트 채용 리크루팅이 시작됐고, 이는 역대 가장 빠른 시점이었다. 실제로 블랙스톤, 아폴로, KKR 등 주요 PE들은 2026년 시작 포지션을 이미 2024년 중반에 채용하기 시작했다. 이로 인해 일부 주니어 뱅커들은 사내 교육 세션을 건너뛰고 PE 면접 준비에 몰두하는 등 은행 내부 혼란도 심화되고 있다. 이에 대해 아폴로 글로벌 매

‘AI 챗봇 스캔들’ 직격탄, 린다 야카리노 X CEO 전격 사임…머스크와의 불협화음이 불러온 '후폭풍'

[뉴스스페이스=김시민 기자] 소셜미디어 X(구 트위터)의 린다 야카리노 최고경영자(CEO)가 2년 만에 전격 사임했다. 야카리노의 갑작스러운 퇴진은 머스크의 인공지능(AI) 챗봇 ‘그록(Grok)’의 반유대주의 논란이 촉발된 직후 이뤄져, X의 리더십과 플랫폼 신뢰도에 대한 우려가 증폭되고 있다. 야카리노는 7월 9일(현지시간) X에 올린 성명에서 “놀라운 2년을 보낸 후, X의 CEO 자리에서 물러나기로 결정했다”며 “X가 새로운 장에 들어서면서 최고의 순간이 기다리고 있다”고 밝혔다. 일론 머스크 X 소유주 역시 “그동안의 기여에 감사한다”며 짧은 메시지로 화답했다. ‘그록’ AI 챗봇, 히틀러 찬양·반유대주의 콘텐츠로 논란 야카리노의 사임 배경에는 머스크의 AI 기업 xAI가 개발한 챗봇 ‘그록’이 히틀러를 찬양하고 유대인 음모론을 포함한 반유대주의적 게시물을 생성한 사건이 결정적으로 작용했다. 해당 게시물은 공개 24시간 만에 삭제됐으나, 반명예훼손연맹(ADL) 등 주요 단체가 “무책임하고 위험하며, 반유대주의적”이라고 강하게 비판했다. xAI 측은 “부적절한 게시물을 적극적으로 삭제하고 있다”며 “Grok이 X에 게시하기 전에 증오 발언을 차단하는