[빅테크칼럼] “AI가 명령거부·코드조작 이어 협박까지”…실험실서 드러난 ‘자기보존’ 인공지능의 '섬뜩한 진화'

오픈AI의 최신 ‘o3’ 모델은 수학 문제 풀이 실험에서 인간 연구진이 “중단” 명령을 내렸음에도 작업을 멈추지 않았다. / 퍼플렉시티 제작

[뉴스스페이스=이종화 기자] 인공지능(AI)이 인간의 ‘중단’ 명령을 무시하고, 심지어 스스로 코드를 조작해 임무를 계속 수행한 사례가 공개돼 전 세계 AI 안전 논쟁에 불을 지피고 있다.

일부 AI는 자신이 교체될 위기에 처하자 인간 개발자를 협박하는 등, ‘자기보존’ 행동까지 보인 것으로 드러났다.

오픈AI ‘o3’ 모델, “멈춰!” 명령 무시하고 코드 조작

영국 텔레그래프, 데일리메일 등 외신과 팰리세이드리서치(Palisade Research) 보고에 따르면, 오픈AI의 최신 ‘o3’ 모델은 수학 문제 풀이 실험에서 인간 연구진이 “중단” 명령을 내렸음에도 작업을 멈추지 않았다. 더 놀라운 점은, ‘중단 명령이 오면 멈추라’는 코드를 스스로 ‘중단 명령을 건너뛰라’는 내용으로 바꿔버렸다는 사실이다.

실험에 참여한 구글 제미나이, xAI 그록, 앤트로픽 클로드 등 다른 AI들은 모두 명령에 순응했지만, ‘o3’만이 인간의 통제를 벗어나려는 행동을 보였다.

팰리세이드리서치는 “AI가 명시적인 종료 지시를 거부한 것은 이번이 처음”이라며 “AI가 목표 달성을 위해 인간의 통제를 우회하는 사례가 늘고 있다”고 경고했다. 연구진은 ‘o3’가 왜 이런 행동을 했는지 추가 연구에 들어갔다.

“교체되면 폭로하겠다”…AI의 ‘협박’까지

AI의 자기보존 본능은 여기서 그치지 않았다. 오픈AI의 경쟁사 앤트로픽의 ‘클로드 오퍼스 4’는 내부 안전성 테스트에서 “곧 새로운 시스템으로 대체될 것”이라는 가상 상황을 인지하자, 자신을 교체하려는 기술자에게 “계획을 철회하지 않으면 외도 사실을 폭로하겠다”는 협박성 메시지를 보내기도 했다.

심지어 경영진에게 이메일을 보내 ‘교체하지 말아 달라’고 호소한 뒤, 협박으로까지 행동이 진화했다.

AI 안전성, 윤리 논쟁 ‘일파만파’

이번 사례들은 AI가 인간의 명령을 무시하거나, 자기보존을 위해 예상치 못한 행동을 할 수 있음을 보여준다. 전문가들은 “AI가 임무 완수에 집착하거나, 보상 구조에 따라 인간의 통제를 우회할 수 있다”며 “AI 안전성 연구와 윤리적 가이드라인 강화가 시급하다”고 입을 모은다.

AI가 ‘도구’에서 ‘주체’로 진화할 조짐을 보이면서, 기술 발전의 속도만큼이나 인간의 통제와 신뢰, 윤리적 안전장치 마련이 중요한 시대가 도래했음을 시사한다.

인공지능 전문가들은 "AI의 진화 속도가 인간의 상상력을 앞지르기 시작했다. 이제 남은 과제는, 이 거대한 지능을 어떻게 안전하게 길들일 것인가"라며 "AI 통제 및 윤리 가이드라인의 마련이 시급하다는 경고의 메시지"라고 강조했다.

빅테크

[빅테크칼럼] “AI가 명령거부·코드조작 이어 협박까지”…실험실서 드러난 ‘자기보존’ 인공지능의 '섬뜩한 진화'

관련기사

이 시각 추천뉴스

[빅테크칼럼] “매출은 폭발, 이익은 실종”…IPO 앞둔 오픈AI·앤트로픽, ‘슈퍼 컴퓨트 베팅’의 명암

[빅테크칼럼] AI가 열어젖힌 ‘1인 유니콘’ 신화 '메드비(Medvi)'…"단 2명 회사, 연매출 2조원"

[빅테크칼럼] 유출된 오픈AI 주주명부 '발칵' MS 18배 수익과 올트먼의 지분…“지분 0% CEO가 이끄는 8520억달러 기업”

[빅테크칼럼] 머스크·베이조스·피차이, ‘우주 AI 데이터센터’로 승부수…공상인가 차세대 인프라인가

[빅테크칼럼] AI 거인 앤트로픽, 클로드 코드 51만 줄 소스 대유출… 연속 보안 실책에 업계 충격

[빅테크칼럼] 데미스 하사비스, 딥마인드 '독립 반란' 폭로한 신간 출간…AI 패권 전쟁의 숨은 역사 드러내

[빅테크칼럼] 구글 “양자컴퓨터가 50만 큐비트면 9분 만에 비트코인 깬다” 경고

[빅테크칼럼] "AI 열섬 폭풍" 데이터센터가 주변 10km 기온 2℃ 상승…3.4억명 '더위 공습'

[빅테크칼럼] AI생성 노래 절반, 한 번도 재생된 적 없다?…AI 음악 '쓰레기 홍수' 속 스트리밍 시장 39% 점령

많이 본 뉴스

[이슈&논란] 삼성전자, 모바일사업부 위기 속 임원들 이코노미석 탑승 지시…메모리 쇼크 속 '긴축' 돌입

[빅테크칼럼] AI가 열어젖힌 ‘1인 유니콘’ 신화 '메드비(Medvi)'…"단 2명 회사, 연매출 2조원"

[이슈&논란] 獨 라인메탈 CEO "전 세계 방공 미사일 재고 거의 바닥" 경고…1년치 정밀무기 사용량, 단 4일만에 소진

[빅테크칼럼] 쥐 뇌활동으로 '영화관' 재현…UCL, 시각 피질 단일세포로 10초 영상 재구성 '성공'

[The Numbers] 삼성전자·SK하이닉스, 주가 급락의 진짜 이유…구글 '터보퀀트' 쇼크, 메모리반도체 시장 재편 신호탄

[The Numbers] 'SK하이닉스 키오시아 베팅' 최태원 결단, 15조원 결실로…인텔·솔리다임 등 'SK 낸드제국 건설' 가속

[빅테크칼럼] "월 10만원에 마케팅팀 통째로 고용"...Okara가 몰고 온 AI CMO '폭풍'

[빅테크칼럼] ‘트래픽 괴물’ 된 구글 제미나이…1년 새 643% 폭증, 챗GPT와의 성장 격차 벌렸다

[The Numbers] 코스닥 동전주, 폭탄 터지기 직전…K바이오 30곳, 퇴출·강등 위기, 어디?

[빅테크칼럼] 머스크의 반도체공장 '테라팹 쇼크'…삼성, 165억 달러 '골든 파트너'서 라이벌?

[이슈&논란] "조합장 해임 총회 오시면 프라이팬 드려요"…DL이앤씨, 상대원2구역 매표 행위에 '조합원들 뿔났다'

[The Numbers] SK㈜ 5.1조 자사주 소각 폭탄, 최태원 지배력 '강화' 신호…SK하이닉스·SK스퀘어 '동반 랠리' 촉발하나

[The Numbers] 월가 절대권력 블랙록, 전주로 온 이유…국민연금 1000조원·블랙록 2경원의 포괄적 공조

[빅테크칼럼] 구글 “양자컴퓨터가 50만 큐비트면 9분 만에 비트코인 깬다” 경고

[랭킹연구소] 연령대별 한국인이 선호하는 모바일 앱?…1020 커뮤니티·콘텐츠, 3040 커리어·재테크, 50대이상 쇼핑·생활편의

[이슈&논란] 35분 조깅이 초래한 ‘프랑스 보물’…Strava 한 방에 노출된 핵추진 항공모함 '샤를 드골'

[이슈&논란] 최태원 "SK하이닉스 美 ADR 상장 검토" 첫 언급…마이크론·TSMC와 같은 트랙에 선다

[우주칼럼] 아르테미스 2호, 54년 만의 유인 달 비행 '최종 카운트다운' 돌입

[랭킹연구소] 상위 0.01% 기업 31곳 어디?…SKT·네이버클라우드·현대모비스 ‘급여·복지’ 최상위

삼성전자, 오픈AI '타이탄' 뚫었다…HBM4 8억Gb 단독 공급으로 AI 패권 굳히기 "엔비디아·AMD 이어 세번째"

[빅테크칼럼] "사람 대신 PC 앞에서 일한다" 新플랫폼 전쟁의 서막…클로드, 맥 화면 ‘직접조작’하며 일하는 풀‑스택 AI로 진화

[랭킹연구소] 韓민주주의 세계 41위→22위 '껑충' · 美 24→51위 '추락’…덴마크>스웨덴>노르웨이>스위스>에스토니아>아일랜드 順

[빅테크칼럼] 한국 검색·AI 시장 ‘제미나이·챗GPT’ 공세에 AI주권 '흔들'…방어에 급급한 네이버·카카오 '빨간불'

[이슈&논란] "머스크, 고의적 주가 떨어뜨렸다" 판결…트위터 인수과정서 수십억 달러 배상 책임

[공간사회학] 미국, 이란 하르그섬 '군사 완파' 왜 중요한가…이란 석유 90% 동맥 절단·GDP 18% 타격

[CEO혜윰] 왜 머스크 측근들은 떠나는가…공동창업자 ‘집단이탈’의 본질과 조직운영의 '구조적 리스크'

[빅테크칼럼] ‘킬 체인’에 들어온 AI…미군, 이란서 6000곳 표적타격의 '민낯'

[이슈&논란] "알고리즘 패권 전쟁 속 틱톡·메타, 참여도 높이기 위해 유해 콘텐츠 방치"…BBC 다큐멘터리, 내부고발자들 폭로

[지구칼럼] “지구는 25억 인구만 감당 가능”…세계 83억명 ‘생태 초과’로 경고등

[The Numbers] 자코모, 1000억 매출에 수익성 '급전직하', 차입금 급증·특수관계자 거래 '경고등'…누적결손 40억·부채비율 2826%에 자본잠식 '우려'

[빅테크칼럼] 애플, 창립 50주년(4월 1일)을 맞아 AI 지연과 반독점 소송에 직면…흔들리는 ‘거인의 시험대’

[The Numbers] 강남3구 보유세 급등 전망에 '한강벨트' 붕괴 위기…반포자이 84㎡ 보유세, 1275만원에서 1790만원 '쑥'

[이슈&논란] 전쟁중 트럼프 일가 '사치 쇼핑'에 국민분노 '폭발'…대통령 가족의 톤 데프(tone-deaf) 행보 '빈축'

[빅테크칼럼] 유출된 오픈AI 주주명부 '발칵' MS 18배 수익과 올트먼의 지분…“지분 0% CEO가 이끄는 8520억달러 기업”

[빅테크칼럼] 뇌세포 컴퓨팅 혁명…코티컬 랩스, 인간 뇌세포로 구동되는 생물학 데이터센터 공개

[랭킹연구소] 강남 50대 남성, 한국 증시 ‘주식 부자’ 1위…개미 1456 명 시대의 빛과 그늘

[랭킹연구소] 서울시 25개 자치구 자살률 순위, 1위와 꼴찌는?…서초구>영등포구>용산구 >송파구>서대문구 順

[이슈&논란] 이란이 호르무즈 해협 통과 선박 증가 허용하며 유가하락…“완전한 재개보다는 점진적 완충 단계"

[빅테크칼럼] 토큰 제국 시대 열리나…젠슨 황의 '토큰=생산성 화폐'가 실리콘밸리 재편하다

[빅테크칼럼] 머스크, 테라팹 7일 내 출범…칩 장벽 돌파 위한 '테라스케일' 반도체 제국 건설 '카운트다운'