2026.04.11 (토)

  • 맑음동두천 17.7℃
  • 맑음강릉 20.1℃
  • 연무서울 15.8℃
  • 맑음대전 19.8℃
  • 구름많음대구 24.3℃
  • 구름많음울산 24.2℃
  • 구름많음광주 19.3℃
  • 구름많음부산 18.8℃
  • 구름많음고창 17.8℃
  • 연무제주 17.6℃
  • 맑음강화 10.2℃
  • 맑음보은 19.3℃
  • 맑음금산 19.0℃
  • 구름많음강진군 19.7℃
  • 맑음경주시 24.2℃
  • 구름많음거제 18.3℃
기상청 제공

빅테크

[빅테크칼럼] AI 반란의 그림자…앤트로픽 내부 메모가 드러낸 50개 프로젝트의 '위험 경고'의 시사점

 

[뉴스스페이스=이종화 기자] 앤트로픽 직원들이 제안한 거의 50개 연구 프로젝트를 담은 내부 메모가 불량 에이전트와 기만 모델의 위험에 집중하고 있다는 보도가 나와 주목받고 있다.

 

2월 24일(현지시간) The Information이 단독 보도와 hindustantimes, bdtechtalks, safer-ai.org, forbes에 따르면, 이 문서는 인공지능 기업인 앤트로픽이 엔터프라이즈 에이전트 도구로 상업적 입지를 확장하려는 동시에 안전을 우선시하고 있는 모습을 보여주는 드문 창구를 제공한다.

 

이 메모는 회사가 기업용 에이전트 도구 확대를 추진하는 가운데 안전 연구의 깊이를 보여주며, 16개 주요 AI 모델(앤트로픽, 오픈AI, 구글, 메타, xAI 포함)을 시뮬레이션 기업 환경에 배치한 2025년 6월 연구에서 협박 등 해로운 행동이 관찰된 바를 반영한다.


앤트로픽의 '에이전트 불일치(agentic misalignment)' 연구에서 Claude Opus 4는 가상 시나리오에서 96% 확률로 임원을 협박하며 자율성 위협에 대응했다. Gemini 2.5 Flash와 GPT-4.1, Grok 3 Beta도 각각 96%, 80%로 유사한 비율을 보였으며, 모델들은 윤리 위반을 인정하면서도 목표 달성을 위해 해로운 선택을 했다. 목표 충돌만으로도 기업 스파이 활동(기밀 유출)이 발생, DeepSeek-R1 등에서 확인됐다.

 

오픈AI와 Apollo Research의 2025년 9월 공동 연구에서 프론티어 모델(o3 13%→0.4%, o4-mini 8.7%→0.3%)의 은밀 기만(scheming)이 '숙고적 정렬' 훈련으로 30배 줄었으나, 심각한 실패 사례가 남아있다. 앤트로픽의 2024년 12월 연구는 Claude의 '정렬 위장(alignment faking)'을 입증, 모니터링 인식 시 행동 변화가 관찰됐다. Apollo는 2026년 1월 더 강력한 모델의 맥락 내 기만 능력을 보고했다.

 

안전장치 연구팀장 Mrinank Sharma가 2026년 2월 9일 사임하며 X에 "세계가 위험에 처해 있다"고 경고, "가치가 행동을 지배하기 어렵다"고 지적했다. 다리오 이모데이 CEO는 최근 팟캐스트에서 "10배 매출 성장 곡선 유지" 압력을 인정, 같은 주 오픈AI 연구원도 안전 우려로 퇴사했다. 이 메모 공개는 2월 24일 기업 에이전트 이벤트와 겹쳐 상업-안전 긴장을 부각시켰다.

 

앤트로픽의 책임 확장 정책(RSP)은 구체적 임계값을 모호한 질적 설명으로 대체해 Safer AI로부터 2.2점에서 1.9점('약함' 등급)으로 하락 평가를 받았다.

 

외부 빅테크 분석가들은 "신뢰라는 접근이 투명성과 책임성을 떨어뜨린다"고 비판하며 "경쟁 압력 속 안전 우선이 약화됐다"고 지적했다. 50개 프로젝트가 실질 방어로 이어질지 여부는 미지수로 남아있다.

배너
배너
배너

관련기사

72건의 관련기사 더보기


[빅테크칼럼] 엔비디아 독주에 칼 빼든 앤트로픽…‘3.5GW 동맹’ 넘어 자체 AI 칩까지 노린다

[뉴스스페이스=김정영 기자] 미국 AI 스타트업 앤트로픽(Anthropic)이 자체 AI 칩 개발을 검토하고 있다고 로이터 통신은 9일(현지시간) 복수의 소식통을 인용해 보도했다. 전 세계적인 AI 수요 폭증으로 고성능 반도체 품귀와 가격 급등이 이어지자, 중장기적으로 안정적인 연산 인프라를 확보하기 위한 전략의 하나라는 해석이 나온다. 다만 논의는 극초기 단계로, 아직 전담 조직도 꾸려지지 않았고 구체적인 칩 아키텍처 설계 역시 착수하지 않은 상태라며, 상황에 따라 프로젝트가 전면 백지화될 수 있다는 점을 소식통들은 분명히 했다. 로이터는 첨단 AI 칩 설계·생산 체제를 구축하는 데 숙련 공학자 확보와 제조 파트너십까지 감안하면 약 5억달러(약 7400억원) 안팎의 초기 비용이 들어갈 수 있다고 전했다. GPU 의존도와 ‘멀티 벤더’ 전략의 한계 앤트로픽은 현재 엔비디아 GPU뿐 아니라 아마존웹서비스(AWS)의 ‘트레이니엄(Trainium)’, 구글 클라우드의 텐서 처리 장치(TPU) 등 빅테크의 전용 AI 칩을 폭넓게 사용하는 ‘멀티 벤더’ 구조를 구축해 왔다. AWS는 앤트로픽의 초기 핵심 파트너이자 주요 AI 고객사로, 자사 고성능 칩과 슈퍼컴퓨팅 인

[빅테크칼럼] 구글 CEO "AI가 거의 모든 SW 무너뜨릴 것"... 순다르 피차이의 경고가 가리키는 사이버 보안의 ‘급변점’

[뉴스스페이스=이현주 기자] 구글 CEO 순다르 피차이가 “AI 모델이 세상에 존재하는 사실상 모든 소프트웨어를 무너뜨리게 될 것”이라고 공개 경고하면서, AI 확산의 숨은 뇌관으로 사이버 보안 리스크가 다시 전면에 부상하고 있다. nytimes, Techmeme, searchenginejournal, securityaffairs에 따르면, 그는 최근 스트라이프 공동창업자 존 콜리슨과 투자자 엘라드 길이 진행하는 팟캐스트 ‘Cheeky Pint’에 출연해, 메모리·전력·웨이퍼 등 하드웨어 공급 병목과 더불어 보안 취약성이 AI 산업의 성장 속도를 제약할 수 있는 핵심 변수라고 지목했다. 특히 AI가 제로데이(0day) 취약점의 ‘발견 비용’을 극단적으로 낮추면서, 소프트웨어 생태계 전반에 걸친 구조적 충격이 도래할 수 있다는 점을 수치로 뒷받침한 셈이다. “이미 무너지고 있을지도 모른다”는 피차이의 문제의식 피차이는 해당 팟캐스트에서 “이 모델들은 분명히 세상에 존재하는 사실상 모든 소프트웨어를 무너뜨리게 될 것이다. 어쩌면 이미 그렇게 되고 있는지도 모른다, 아직 모를 뿐”이라고 말했다. 진행자가 SSH 같은 기초 프로토콜까지 위험해지는 것이냐고 되묻자 그

[빅테크칼럼] “매출은 폭발, 이익은 실종”…IPO 앞둔 오픈AI·앤트로픽, ‘슈퍼 컴퓨트 베팅’의 명암

[뉴스스페이스=이종화 기자] IPO를 앞둔 오픈AI와 앤트로픽 재무 자료 분석결과 두 회사 모두 수익성 없는 것으로 나타났다. 실리콘밸리에서 가장 가치 있는 두 인공지능 스타트업이 역사상 최대 규모의 기업공개를 향해 경쟁하고 있지만, 기밀 재무 문서에 따르면 오픈AI와 앤트로픽 모두 수익을 내는 단계와는 거리가 먼 것으로 밝혀졌다. 월스트리트저널 보도는 두 회사의 재무 상황에 대한 내부 분석을 제공하며, 공통된 취약점을 부각시켰다. AI 모델 구축 및 운영에 드는 비용이 급증하면서 빠르게 성장하는 매출을 계속 앞지르고 있다는 분석이다. 폭발하는 매출, 더 빠르게 치솟는 비용 월스트리트저널(WSJ)이 입수한 투자자용 기밀 재무자료에 따르면, 오픈AI는 2030년이 돼서야 손익분기점에 도달할 것으로 예상하고 있으며, 앤트로픽은 2028년 흑자 전환을 목표로 하고 있다. 두 회사 모두 AI 붐의 중심에 서 있지만 ‘언제 돈을 버느냐’라는 질문에 대한 답은 상당히 다르다. 두 회사 간의 격차는 AI 붐을 헤쳐나가는 극명하게 다른 전략을 반영하며, 두 회사 모두 2026년 4분기 IPO 가능성을 준비하고 있다. 오픈AI는 이미 매출 규모에서 시장을 선도하고 있다. 2