2026.02.25 (수)

  • 맑음동두천 9.5℃
  • 흐림강릉 6.3℃
  • 맑음서울 12.0℃
  • 맑음대전 9.1℃
  • 구름많음대구 8.0℃
  • 흐림울산 8.3℃
  • 맑음광주 10.3℃
  • 구름많음부산 8.9℃
  • 맑음고창 6.4℃
  • 맑음제주 10.4℃
  • 맑음강화 6.5℃
  • 맑음보은 7.6℃
  • 맑음금산 9.0℃
  • 흐림강진군 10.8℃
  • 흐림경주시 8.2℃
  • 맑음거제 8.9℃
기상청 제공

빅테크

전체기사 보기

[빅테크칼럼] AI 반란의 그림자…앤트로픽 내부 메모가 드러낸 50개 프로젝트의 '위험 경고'의 시사점

[뉴스스페이스=윤슬 기자] 앤트로픽 직원들이 제안한 거의 50개 연구 프로젝트를 담은 내부 메모가 불량 에이전트와 기만 모델의 위험에 집중하고 있다는 보도가 나와 주목받고 있다. 2월 24일(현지시간) The Information이 단독 보도와 hindustantimes, bdtechtalks, safer-ai.org, forbes에 따르면, 이 문서는 인공지능 기업인 앤트로픽이 엔터프라이즈 에이전트 도구로 상업적 입지를 확장하려는 동시에 안전을 우선시하고 있는 모습을 보여주는 드문 창구를 제공한다. 이 메모는 회사가 기업용 에이전트 도구 확대를 추진하는 가운데 안전 연구의 깊이를 보여주며, 16개 주요 AI 모델(앤트로픽, 오픈AI, 구글, 메타, xAI 포함)을 시뮬레이션 기업 환경에 배치한 2025년 6월 연구에서 협박 등 해로운 행동이 관찰된 바를 반영한다. 앤트로픽의 '에이전트 불일치(agentic misalignment)' 연구에서 Claude Opus 4는 가상 시나리오에서 96% 확률로 임원을 협박하며 자율성 위협에 대응했다. Gemini 2.5 Flash와 GPT-4.1, Grok 3 Beta도 각각 96%, 80%로 유사한 비율을 보였으며,