[뉴스스페이스=윤슬 기자] 앤트로픽은 2025년 11월 말에 출시한 ‘클로드 오퍼스 4.5’를 불과 2개월 만에 업그레이드한 ‘오퍼스 4.6’을 2026년 2월 4일(현지시간) 공식 발표했다. 가장 큰 차별점은 ‘에이전트 팀(agent teams)’ 기능 도입으로, 과거처럼 한 개의 AI 에이전트가 작업을 순차적으로 처리하는 방식을 넘어, 여러 에이전트에 작업을 분산해 동시에 협업하게 만든다는 점이다.
artificialanalysis, anthropic, marc0.dev, getmaxim에 따르면, 앤트로픽 스콧 화이트 제품 총괄은 “한 에이전트가 순서대로 작업을 처리하는 대신, 여러 에이전트에 작업을 나눠 줄 수 있다”며 “이를 통해 에이전트들이 협업하고, 작업을 더 빠르게 처리할 수 있다”고 설명했다. 이는 최근 ‘클로드 코워크’로 이미 소프트웨어(SW) 개발 영역에서 파급력을 보여준 앤트로픽이, 복잡한 엔터프라이즈급 작업을 여러 AI 에이전트로 분산 처리하는 방향으로 전략을 확장했다는 의미다.
또한 오퍼스 4.6는 한 번에 입력할 수 있는 토큰(입출력 단위)을 기존 40만 토큰에서 100만 토큰으로 확대해, 장문의 문서나 코드베이스를 한번에 처리할 수 있도록 했다. 업계 해석에 따르면 이는 책 수십 권 분량의 데이터를 한 번에 분석·요약하는 수준의 작업을 수행할 수 있는 수준으로, 장문 문서·법률·금융 보고서 분석 등에 강점을 나타낼 수 있다는 평가가 나온다.
벤치마크에서 ‘압도’하는 지식·사무·코딩 능력
앤트로픽은 국내·외 IT·벤처매체를 통해 공개한 벤치마크에서 오퍼스 4.6가 경쟁사의 최신 모델을 전방위에서 상회한다고 강조했다. 특히 경제적으로 가치 높은 지식노동(Knowledge Work)을 평가하는 ‘GDPval-AA’에서 오퍼스 4.6는 1,606(Elo 기준)의 점수를 기록해, 오픈AI의 GPT-5.2(약 1,462)와 구글 제미나이 3 프로(약 1,195)를 크게 따돌렸다.
인공지능 분석업체 ‘아티피셜 애널리시스(Artificial Analysis)’의 분석에 따르면, GDPval-AA는 금융·법률 등 44개 직업군에 걸친 220개 경제적 가치를 가진 작업을 대상으로 모델의 성능을 평가하는 프레임워크다. 이 벤치마크에서 오퍼스 4.6는 GPT-5.2보다 약 150점 가까이 앞서며, 직접 비교 시 승률이 약 70%에 달하는 수준으로 평가됐다.
또 하나 중요한 지표는 오픈AI가 개발한 ‘브라우즈컴프(BrowseComp)’다. 이 벤치마크는 필요한 정보를 웹에서 검색·탐색해 정확히 찾는 ‘에이전트’의 능력을 측정하는데, 오퍼스 4.6는 84%의 정답률을 기록해 GPT-5.2(77.9%)와 제미나이 3 프로(59.2%)를 뛰어넘었다. 이는 방대한 웹 문서를 기반으로 한 조사·리서치 작업에서, 오퍼스 4.6가 경쟁사보다 더 높은 정확도와 안정성을 보여준다는 의미다.
코딩 영역에서는 오픈소스 기반 ‘SWE-bench Verified’ 기준으로 80.8%를 기록해, 오퍼스 4.5의 80.9%보다 약간 떨어졌다는 점이 눈에 띈다. 다만 기존에도 80% 이상의 점수는 이미 인간 개발자들을 상회하는 수준으로 평가돼 온 만큼, 80.8% 수준이라도 여전히 GPT-5.2·제미나이 3 프로를 상회하는 수준이라는 해석이 지배적이다. 앤트로픽이 자체적으로 강조하는 ‘터미널 벤치 2.0(Terminal‑Bench 2.0)’에서도 65.4%로 상위권을 기록하며, 터미널·CLI 기반의 자동화 작업에 강점을 보였다는 점이 반복적으로 언급된다.
HLE·금융·법률 등 ‘전문가 영역’에서의 고성능
‘인류의 마지막 시험(Humanity’s Last Exam, HLE)’으로 불리는 다중 분야 고난도 벤치마크에서도 오퍼스 4.6는 도구 미사용 기준으로 40%를 넘긴 유일한 AI 모델이 됐다는 점이 주목된다. HLE는 수학·논리·과학·프로그래밍 등 다양한 분야의 고난도 문제를 묶어, ‘인간과의 직접 비교’를 가정하는 테스트로 설계돼 있다. 도구를 전혀 사용하지 않는 조건에서 40%를 달성했다는 점은, 모델이 순수 논리·추론 능력만으로도 상당한 수준의 전문가급 문제를 해석·해결할 수 있다는 의미로 받아들여진다.
특히 금융·법률 분야에서는 다른 벤치마크에서도 강세를 보인다. 앤트로픽은 ‘빅로우 벤치(BigLaw Bench)’에서 오퍼스 4.6가 90.2%로 자사 모델 중 최고 성적을 기록했다고 밝혔으며, 여기서 40%는 완벽한 점수, 84%는 0.8 이상을 기록했다고 설명했다. 이는 민사·상사·규제·계약 등 실제 법률 리서치와 요약, 위험 분석에 상당한 수준의 실용성을 보일 수 있다는 점을 시사한다.
또 앤트로픽은 오퍼스 4.6가 실제로 50명 규모의 조직을 6개의 코드 리포지터리에 걸쳐 1일 동안 관리하며, 13개의 이슈를 닫고 12개는 적절한 팀에 배정하는 “조직 엔지니어링” 역할을 수행했다고 사례로 들었다. 이는 단순한 코드 작성에 그치지 않고, 제품 우선순위·팀 간 분담·인간 개입 필요 시점 파악까지 담당하는 수준의 ‘조직 에이전트’로서의 가능성을 제시한다는 점에서 의미가 크다.
MS 오피스와의 통합·가격 전략: ‘생산성 도구’로서의 포지셔닝
앤트로픽은 오퍼스 4.6 출시와 함께 MS 엑셀과 파워포인트에 클로드를 직접 통합하는 기능도 강화했다. 업데이트된 ‘클로드 in Excel’은 피벗 테이블 편집, 조건부 서식 등 네이티브 기능을 활용해 데이터를 분석·정리하고, ‘클로드 in PowerPoint’는 기존 레이아웃·마스터를 읽어 들인 뒤, 고객 템플릿에 맞춰 발표 자료를 바로 생성해주는 방식으로 설계됐다.
이러한 통합은 ‘분석·보고서 작성·프레젠테이션 제작’이라는 일련의 가치 사슬 전반에 클로드를 박아 넣는 전략으로, 금융·컨설팅·마케팅 등 지식노동 중심 직군에서 반복적인 문서 작업을 자동화하는 데 초점을 둔다. 예를 들어, 클로드가 원시 데이터를 분석해 엑셀에서 정리하고, 그 결과를 바탕으로 바로 파워포인트에 슬라이드를 구성하는 워크플로는 기존의 ‘수동 분석 → 엑셀 정리 → 파워포인트 초안 작성’ 과정을 크게 단축할 수 있다는 점에서 생산성 도구로서의 경쟁력이 강하다는 평가가 나온다.
API 가격은 오퍼스 4.5와 동일하게 유지되며, 100만 토큰당 5~25달러 범위라는 점도 핵심이다. 이는 GPT-5.2·제미나이 3 프로 대비 토큰당 단가가 높은 편이지만, 실질적인 성능·작업 효율을 감안하면 일부 엔터프라이즈 고객은 ‘고비용·고성능’ 패키지로 받아들일 가능성이 크다.
SW·지식노동 위기론, 다시 점화되는 ‘가속도’
이번 오퍼스 4.6 출시는 ‘AI가 SW 개발과 지식노동을 대체할 것이라는 위기론’을 다시 한 번 가열시키는 계기가 되고 있다. 특히 GDPval-AA와 같은 벤치마크가 ‘경제적으로 가치 있는 작업’을 기준으로 인간과 AI를 비교하는 수준에 도달했고, 오퍼스 4.6가 해당 지표에서 인간보다 앞선다는 점은, 단순한 ‘보조 도구’ 차원을 넘어 ‘대체 수준’으로 간주해야 할 신호로 해석된다.
여기에 ‘에이전트 팀’과 100만 토큰 지원, MS 오피스까지 통합된 구조가 결합되면, 과거 단일 작업 자동화에 그쳤던 AI가 ‘팀 전체의 생산성 체인’을 한 번에 끌어올리는 구조로 전환될 수 있다. 이는 소프트웨어 개발자뿐 아니라, 금융·법률·기획·컨설팅 등 전문 지식노동자들을 둘러싼 구조조정과 교육·재훈련의 필요성을 또 다시 부각시키는 계기가 될 전망이다.
빅테크 전문가는 "앤트로픽의 오퍼스 4.6는 단순한 ‘성능 업그레이드’를 넘어, 여러 에이전트를 활용한 ‘협업형 지식노동 자동화’와 장문 문서·오피스 도구 통합을 축으로 한 “생산성 플랫폼”으로의 포지셔닝을 선언한 셈"이라며 "SW·지식노동·사무업의 판도를 어떻게 재편할지, 그리고 기업과 정부가 이에 대응하는 규제·교육·고용 정책이 어떻게 조정될지가 다음 관건이 될 것"이라고 전망했다.























































