[뉴스스페이스=이현주 기자] 미국 AI 스타트업 앤트로픽이 5월 28일(현지시간) 차세대 플래그십 모델 ‘Claude Opus 4.8’을 공개하며 생성형 AI 경쟁의 축을 ‘정직성(honesty)’과 ‘동적 워크플로(dynamic workflows)’로 옮기고 있다. 4월 중순 Opus 4.7 출시 후 불과 6주 만의 속도전이지만, 단순 성능 튜닝이 아니라 “모르는 것은 모른다고 말하는 AI”를 전면에 내세운 점이 이번 업데이트의 핵심 변화다.
Opus 4.8은 우선 정량 성능에서 전작을 상회한다. 에이전트 코딩(agentic coding) 벤치마크 점수는 64.3%에서 69.2%로, 도구 활용 다학제 추론(multidisciplinary reasoning with tools)은 54.7%에서 57.9%로 상승했다. 지식 노동(knowledge work) 종합 점수도 1,753점에서 1,890점으로 올라, 실무형 문서 작성·분석 업무에서 체감 성능이 개선됐다는 평가다.
그럼에도 가격은 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러로 동결해, 비용 대비 성능 비율(Bang for the buck)을 높였다. 여기에 연구 프리뷰로 제공되는 패스트 모드(Fast Mode)는 동일 모델에서 응답 속도를 최대 2.5배까지 끌어올리면서, 기존 패스트 모드 대비 비용을 3분의 1 수준으로 낮췄다.
이번 버전에서 가장 눈에 띄는 변화는 ‘정직성’이다. 앤트로픽과 초기 테스터들에 따르면, Opus 4.8은 자신이 작성한 코드의 결함을 그냥 통과시키는 비율이 Opus 4.7 대비 약 4분의 1 수준으로 줄어들었다. 잘 모르는 영역에서 근거 없는 답을 단정적으로 내놓기보다, 불확실하다고 스스로 플래그를 달고 사용자의 추가 지시를 요청하는 빈도가 늘어난 것이다.
이는 모델이 틀릴 수 있다는 전제는 그대로 두되, ‘틀렸는데도 확신하는 척하는(hallucination with confidence)’ 위험을 줄이겠다는 설계 철학의 반영으로 해석된다. 앤트로픽은 Opus 4.8이 정렬(alignment) 평가지표에서도 프로사회적 행동 비율을 개선하고, 잘못된 행동을 시도하는 비율을 추가로 낮췄다고 밝혔다.
사용자 경험 측면에서는 “진짜 협업자와 일하는 느낌”이라는 평가가 반복된다. 초기 사용자와 기업 파트너들은 Opus 4.8이 이전 세대보다 더 많은 clarifying 질문을 던지고, 작업 계획에 논리적 구멍이 있을 경우 묵묵히 따르기보다는 문제점을 지적하며 수정을 요구하는 경향을 보였다고 전한다.
장기 실행(long-horizon) 분석을 수행한 브리지워터(Bridgewater) 등 테스트 기관들도 “더 빠르게 과업을 마치면서도 분석 내용은 이전 Opus 모델보다 일관되게 더 풍부했다”고 평가해, 단순 비서형을 넘어 파트너형 AI에 한 걸음 가까워졌다는 인상을 남긴다.
개발자와 기업 고객을 겨냥한 구조적 변화도 크다. 앤트로픽은 Opus 4.8과 함께 코드 특화 환경인 ‘Claude Code’에 ‘다이나믹 워크플로(Dynamic Workflows)’ 기능을 연구 프리뷰로 도입했다. 이를 통해 모델은 단일 작업 세션 안에서 수백 개의 병렬 서브에이전트(sub-agent)를 자동으로 기획·실행하고, 각 결과를 상호 검증한 뒤 통합해 하나의 응답으로 반환할 수 있다. 회사 측은 이 기능을 활용하면 수십만 줄 규모의 대형 코드베이스 마이그레이션도 “사람이 짠 계획을 AI가 대신 수행·검증하는” 방식으로 처리할 수 있다고 설명한다.
사용자가 모델의 ‘사고 깊이’를 직접 조정할 수 있는 ‘에포트 컨트롤(Effort Control)’도 새롭게 추가됐다. Claude.ai와 Claude Code의 기본값은 High로 설정하되, 사용자는 저(빠르고 가벼운 응답)에서 고(최대 수준의 심층 추론)까지 단계적으로 선택할 수 있다. 여기에 ‘어댑티브 싱킹(Adaptive Thinking)’ 옵션을 켜면, 모델이 각 턴마다 난도를 판단해 필요한 경우에만 내부 추론을 수행하기 때문에 혼합 난도의 워크로드에서 불필요한 추론 토큰 낭비를 줄일 수 있다는 설명이다.
이번 발표의 또 다른 축은 ‘수평선 너머의 Mythos’다. 앤트로픽은 Opus 4.8 발표와 병행해, “Opus보다 훨씬 높은 지능을 갖춘 새로운 등급의 모델”을 개발 중이라고 예고했다. 그 상징이 바로 ‘Mythos Preview’로, 사이버보안·침투 테스트 등 고위험 영역에서의 성능이 워낙 강력해 현재는 Project Glasswing 프로그램을 통해 초대 기반(Invitation-only)으로만 제한 공개되고 있다.
이 모델은 이미 아마존웹서비스(AWS), 애플, 구글, 마이크로소프트, 엔비디아 등 빅테크와 보안 민감도가 높은 기관들의 파일럿 테스트에 투입된 상태다. 앤트로픽은 향후 몇 주 내에 미국 및 동맹국 정부를 포함한 추가 파트너로 Mythos급 접근을 확대하고, 보다 강력한 안전장치가 정비되는 대로 일반 공개도 추진하겠다는 방침을 밝혔다.
Opus 4.8은 현재 앤트로픽 웹 서비스(claude.ai), 공식 API(claude-opus-4-8), 아마존 베드록(Amazon Bedrock), 구글 버텍스 AI(Vertex AI), 마이크로소프트 파운드리(Microsoft Foundry) 등 주요 클라우드 플랫폼에서 바로 사용할 수 있다. 언뜻 보면 “4.7의 마이너 업그레이드”처럼 보이지만, 정직성·에이전트형 워크플로·사용자 통제력이라는 세 축에서 AI 협업 경험을 ‘속도 경쟁’에서 ‘신뢰 경쟁’으로 돌려세우려는 시도라는 점에서 업계의 주목을 받고 있다.























































