[빅테크칼럼] 앤트로픽, 더 강력해진 AI '클로드 오퍼스4.6' 공개…벤치마크서도 챗GPT·제미나이 능가

앤트로픽은 2025년 11월 말에 출시한 ‘클로드 오퍼스 4.5’를 불과 2개월 만에 업그레이드한 ‘오퍼스 4.6’을 2026년 2월 4일(현지시간) 공식 발표했다. / anthropic.com

[뉴스스페이스=윤슬 기자] 앤트로픽은 2025년 11월 말에 출시한 ‘클로드 오퍼스 4.5’를 불과 2개월 만에 업그레이드한 ‘오퍼스 4.6’을 2026년 2월 4일(현지시간) 공식 발표했다. 가장 큰 차별점은 ‘에이전트 팀(agent teams)’ 기능 도입으로, 과거처럼 한 개의 AI 에이전트가 작업을 순차적으로 처리하는 방식을 넘어, 여러 에이전트에 작업을 분산해 동시에 협업하게 만든다는 점이다.

artificialanalysis, anthropic, marc0.dev, getmaxim에 따르면, 앤트로픽 스콧 화이트 제품 총괄은 “한 에이전트가 순서대로 작업을 처리하는 대신, 여러 에이전트에 작업을 나눠 줄 수 있다”며 “이를 통해 에이전트들이 협업하고, 작업을 더 빠르게 처리할 수 있다”고 설명했다. 이는 최근 ‘클로드 코워크’로 이미 소프트웨어(SW) 개발 영역에서 파급력을 보여준 앤트로픽이, 복잡한 엔터프라이즈급 작업을 여러 AI 에이전트로 분산 처리하는 방향으로 전략을 확장했다는 의미다.

또한 오퍼스 4.6는 한 번에 입력할 수 있는 토큰(입출력 단위)을 기존 40만 토큰에서 100만 토큰으로 확대해, 장문의 문서나 코드베이스를 한번에 처리할 수 있도록 했다. 업계 해석에 따르면 이는 책 수십 권 분량의 데이터를 한 번에 분석·요약하는 수준의 작업을 수행할 수 있는 수준으로, 장문 문서·법률·금융 보고서 분석 등에 강점을 나타낼 수 있다는 평가가 나온다.

벤치마크에서 ‘압도’하는 지식·사무·코딩 능력

앤트로픽은 국내·외 IT·벤처매체를 통해 공개한 벤치마크에서 오퍼스 4.6가 경쟁사의 최신 모델을 전방위에서 상회한다고 강조했다. 특히 경제적으로 가치 높은 지식노동(Knowledge Work)을 평가하는 ‘GDPval-AA’에서 오퍼스 4.6는 1,606(Elo 기준)의 점수를 기록해, 오픈AI의 GPT-5.2(약 1,462)와 구글 제미나이 3 프로(약 1,195)를 크게 따돌렸다.

인공지능 분석업체 ‘아티피셜 애널리시스(Artificial Analysis)’의 분석에 따르면, GDPval-AA는 금융·법률 등 44개 직업군에 걸친 220개 경제적 가치를 가진 작업을 대상으로 모델의 성능을 평가하는 프레임워크다. 이 벤치마크에서 오퍼스 4.6는 GPT-5.2보다 약 150점 가까이 앞서며, 직접 비교 시 승률이 약 70%에 달하는 수준으로 평가됐다.

또 하나 중요한 지표는 오픈AI가 개발한 ‘브라우즈컴프(BrowseComp)’다. 이 벤치마크는 필요한 정보를 웹에서 검색·탐색해 정확히 찾는 ‘에이전트’의 능력을 측정하는데, 오퍼스 4.6는 84%의 정답률을 기록해 GPT-5.2(77.9%)와 제미나이 3 프로(59.2%)를 뛰어넘었다. 이는 방대한 웹 문서를 기반으로 한 조사·리서치 작업에서, 오퍼스 4.6가 경쟁사보다 더 높은 정확도와 안정성을 보여준다는 의미다.

코딩 영역에서는 오픈소스 기반 ‘SWE-bench Verified’ 기준으로 80.8%를 기록해, 오퍼스 4.5의 80.9%보다 약간 떨어졌다는 점이 눈에 띈다. 다만 기존에도 80% 이상의 점수는 이미 인간 개발자들을 상회하는 수준으로 평가돼 온 만큼, 80.8% 수준이라도 여전히 GPT-5.2·제미나이 3 프로를 상회하는 수준이라는 해석이 지배적이다. 앤트로픽이 자체적으로 강조하는 ‘터미널 벤치 2.0(Terminal‑Bench 2.0)’에서도 65.4%로 상위권을 기록하며, 터미널·CLI 기반의 자동화 작업에 강점을 보였다는 점이 반복적으로 언급된다.

HLE·금융·법률 등 ‘전문가 영역’에서의 고성능

‘인류의 마지막 시험(Humanity’s Last Exam, HLE)’으로 불리는 다중 분야 고난도 벤치마크에서도 오퍼스 4.6는 도구 미사용 기준으로 40%를 넘긴 유일한 AI 모델이 됐다는 점이 주목된다. HLE는 수학·논리·과학·프로그래밍 등 다양한 분야의 고난도 문제를 묶어, ‘인간과의 직접 비교’를 가정하는 테스트로 설계돼 있다. 도구를 전혀 사용하지 않는 조건에서 40%를 달성했다는 점은, 모델이 순수 논리·추론 능력만으로도 상당한 수준의 전문가급 문제를 해석·해결할 수 있다는 의미로 받아들여진다.

특히 금융·법률 분야에서는 다른 벤치마크에서도 강세를 보인다. 앤트로픽은 ‘빅로우 벤치(BigLaw Bench)’에서 오퍼스 4.6가 90.2%로 자사 모델 중 최고 성적을 기록했다고 밝혔으며, 여기서 40%는 완벽한 점수, 84%는 0.8 이상을 기록했다고 설명했다. 이는 민사·상사·규제·계약 등 실제 법률 리서치와 요약, 위험 분석에 상당한 수준의 실용성을 보일 수 있다는 점을 시사한다.

또 앤트로픽은 오퍼스 4.6가 실제로 50명 규모의 조직을 6개의 코드 리포지터리에 걸쳐 1일 동안 관리하며, 13개의 이슈를 닫고 12개는 적절한 팀에 배정하는 “조직 엔지니어링” 역할을 수행했다고 사례로 들었다. 이는 단순한 코드 작성에 그치지 않고, 제품 우선순위·팀 간 분담·인간 개입 필요 시점 파악까지 담당하는 수준의 ‘조직 에이전트’로서의 가능성을 제시한다는 점에서 의미가 크다.

MS 오피스와의 통합·가격 전략: ‘생산성 도구’로서의 포지셔닝

앤트로픽은 오퍼스 4.6 출시와 함께 MS 엑셀과 파워포인트에 클로드를 직접 통합하는 기능도 강화했다. 업데이트된 ‘클로드 in Excel’은 피벗 테이블 편집, 조건부 서식 등 네이티브 기능을 활용해 데이터를 분석·정리하고, ‘클로드 in PowerPoint’는 기존 레이아웃·마스터를 읽어 들인 뒤, 고객 템플릿에 맞춰 발표 자료를 바로 생성해주는 방식으로 설계됐다.

이러한 통합은 ‘분석·보고서 작성·프레젠테이션 제작’이라는 일련의 가치 사슬 전반에 클로드를 박아 넣는 전략으로, 금융·컨설팅·마케팅 등 지식노동 중심 직군에서 반복적인 문서 작업을 자동화하는 데 초점을 둔다. 예를 들어, 클로드가 원시 데이터를 분석해 엑셀에서 정리하고, 그 결과를 바탕으로 바로 파워포인트에 슬라이드를 구성하는 워크플로는 기존의 ‘수동 분석 → 엑셀 정리 → 파워포인트 초안 작성’ 과정을 크게 단축할 수 있다는 점에서 생산성 도구로서의 경쟁력이 강하다는 평가가 나온다.

API 가격은 오퍼스 4.5와 동일하게 유지되며, 100만 토큰당 5~25달러 범위라는 점도 핵심이다. 이는 GPT-5.2·제미나이 3 프로 대비 토큰당 단가가 높은 편이지만, 실질적인 성능·작업 효율을 감안하면 일부 엔터프라이즈 고객은 ‘고비용·고성능’ 패키지로 받아들일 가능성이 크다.

SW·지식노동 위기론, 다시 점화되는 ‘가속도’

이번 오퍼스 4.6 출시는 ‘AI가 SW 개발과 지식노동을 대체할 것이라는 위기론’을 다시 한 번 가열시키는 계기가 되고 있다. 특히 GDPval-AA와 같은 벤치마크가 ‘경제적으로 가치 있는 작업’을 기준으로 인간과 AI를 비교하는 수준에 도달했고, 오퍼스 4.6가 해당 지표에서 인간보다 앞선다는 점은, 단순한 ‘보조 도구’ 차원을 넘어 ‘대체 수준’으로 간주해야 할 신호로 해석된다.

여기에 ‘에이전트 팀’과 100만 토큰 지원, MS 오피스까지 통합된 구조가 결합되면, 과거 단일 작업 자동화에 그쳤던 AI가 ‘팀 전체의 생산성 체인’을 한 번에 끌어올리는 구조로 전환될 수 있다. 이는 소프트웨어 개발자뿐 아니라, 금융·법률·기획·컨설팅 등 전문 지식노동자들을 둘러싼 구조조정과 교육·재훈련의 필요성을 또 다시 부각시키는 계기가 될 전망이다.

빅테크 전문가는 "앤트로픽의 오퍼스 4.6는 단순한 ‘성능 업그레이드’를 넘어, 여러 에이전트를 활용한 ‘협업형 지식노동 자동화’와 장문 문서·오피스 도구 통합을 축으로 한 “생산성 플랫폼”으로의 포지셔닝을 선언한 셈"이라며 "SW·지식노동·사무업의 판도를 어떻게 재편할지, 그리고 기업과 정부가 이에 대응하는 규제·교육·고용 정책이 어떻게 조정될지가 다음 관건이 될 것"이라고 전망했다.

빅테크

[빅테크칼럼] 앤트로픽, 더 강력해진 AI '클로드 오퍼스4.6' 공개…벤치마크서도 챗GPT·제미나이 능가

관련기사

이 시각 추천뉴스

[빅테크칼럼] "사람 대신 PC 앞에서 일한다" 新플랫폼 전쟁의 서막…클로드, 맥 화면 ‘직접조작’하며 일하는 풀‑스택 AI로 진화

[빅테크칼럼] 저커버그의 ‘AI CEO’ 모델, 한국 재벌 총수·CEO들이 벤치마킹할 3가지 핵심 포인트

[빅테크칼럼] AI, 디지털옷장에서 런웨이, AI코디까지 패션산업 재편중…글로벌 AI 스타일링 시장 5조원까지 성장

[이슈&논란] 머스크 "5만 공무원 월급 내가 대줄게"…美 '셧다운 구원자' 도발, 법적 함정 속 숨은 계산

[빅테크칼럼] 저커버그, ‘개인 AI CEO 에이전트’ 비공개로 구축중…10년 전 ‘자비스’에서 ‘개인 초지능’까지

[내궁내정] 2006년 첫 트윗 20년, X의 몰락인가 부활인가…Threads·Bluesky 경쟁 속 생존전략 '관건'

[빅테크칼럼] “챗GPT, 8억명 주머니를 열다”···광고 전면 도입으로 수익 스위치 켜는 오픈AI

[빅테크칼럼] 워드프레스닷컴, AI 에이전트로 '자동 콘텐츠 제국' 연다…웹 43% 장악 시대 도래

[이슈&논란] "머스크, 고의적 주가 떨어뜨렸다" 판결…트위터 인수과정서 수십억 달러 배상 책임

많이 본 뉴스

[이슈&논란] 삼성전자, 모바일사업부 위기 속 임원들 이코노미석 탑승 지시…메모리 쇼크 속 '긴축' 돌입

[이슈&논란] 獨 라인메탈 CEO "전 세계 방공 미사일 재고 거의 바닥" 경고…1년치 정밀무기 사용량, 단 4일만에 소진

[빅테크칼럼] 쥐 뇌활동으로 '영화관' 재현…UCL, 시각 피질 단일세포로 10초 영상 재구성 '성공'

[우주칼럼] 36년 만에 정월대보름과 겹친 개기월식, 3월 3일 저녁 전국서 관측…붉은 보름달의 귀환

[빅테크칼럼] 챗GPT '야한 대화' 모드 코드 유출…성인 콘텐츠 시대 본격 개막하나

[The Numbers] XRP '운명의 5주' 폭등 카운트다운?…머스크 X머니·日금리·리플 제휴 '초호재' 총출동

[이슈&논란] 이란 초등학교 '폭격’으로 100명이상 사망…유네스코, ‘중대한 인도주의법 위반’이라 규정한 이유

[공간사회학] 이란공습 보복으로 아부다비 공항 사망자 발생

[빅테크칼럼] "월 10만원에 마케팅팀 통째로 고용"...Okara가 몰고 온 AI CMO '폭풍'

[빅테크칼럼] K배터리 LG엔솔·삼성SDI·SK온, 인터배터리 2026서 AI·ESS '전력 제국' 구축 선언

[The Numbers] 코스피 6200 돌파의 비결…뱅크오브아메리카 분석한 '한국 강세장 4대 불꽃'

[The Numbers] 메모리 호황, 전쟁에도 '불사조' 날개…삼성전자·SK하이닉스 "중동 위기, 반도체 호황 꺾지 못할 것"

[빅테크칼럼] ‘트래픽 괴물’ 된 구글 제미나이…1년 새 643% 폭증, 챗GPT와의 성장 격차 벌렸다

[내궁내정] 이란, 중동 전역 공격 속 터키 제외한 이유…NATO 핵기지·외교 생명줄 지킨 '고차원 계산'

[The Numbers] 보스턴다이내믹스 100조 상장설, 정의선에 ‘20조 탄환’…현대차 순환출자 끊는 초대형 승계 시나리오

[빅테크칼럼] AI 칩 열풍에 TSMC 최대고객 판도 대변혁…애플 제치고 엔비디아 '왕좌 등극'

[The Numbers] 'SK하이닉스 키오시아 베팅' 최태원 결단, 15조원 결실로…인텔·솔리다임 등 'SK 낸드제국 건설' 가속

[빅테크칼럼] AI 추론 시대, 낸드플래시 '황금알' 부화…삼성전자 영업익 14배 폭등 예고

[The Numbers] SK㈜ 5.1조 자사주 소각 폭탄, 최태원 지배력 '강화' 신호…SK하이닉스·SK스퀘어 '동반 랠리' 촉발하나

[The Numbers] 한국 자살률, 3년 만에 꺾인 '희망 신호'…OECD 1위에서 7.4% 급감한 이유

[빅테크칼럼] Grok AI, 美 이란 공습 정확한 날짜 맞췄다… 챗GPT·클로드·제미나이·Grok에게 물었더니

[빅테크칼럼] 머스크의 반도체공장 '테라팹 쇼크'…삼성, 165억 달러 '골든 파트너'서 라이벌?

[랭킹연구소] 삼성전자, AI 메모리 '황금 슈퍼사이클'로 시총 세계 14위 부상…아시아 기업 중 TSMC 이어 2위

[The Numbers] 코스닥 동전주, 폭탄 터지기 직전…K바이오 30곳, 퇴출·강등 위기, 어디?

[The Numbers] AI 호황 타고 삼성전자·SK하이닉스, 법인세 8.5조로 국가재정 견인

[랭킹연구소] 상위 0.01% 기업 31곳 어디?…SKT·네이버클라우드·현대모비스 ‘급여·복지’ 최상위

[The Numbers] "테슬라 FSD에 문제 있다" 빨간불 켜졌다 …3% 급락, 400달러 붕괴

[The Numbers] 한국 출생률, 사상최저권에서 ‘바닥반등’ 이유, 구조적 반전 vs 일시적 순풍…‘에코붐+포스트코로나’ 기적

[내궁내정] '모텔 살인' 20대女, '사이코패스' 판정한 PCL-R검사…한국 사이코패스 범죄자 점수는?

[빅테크칼럼] 메타의 AI 안전 책임자 "OpenClaw 에이전트 제어권 상실" 통제불능…AI 자율제어의 경고등

[The Numbers] 엔비디아 실적 '대박' 터뜨릴까…AI 공포 속 2월 26일 '블랙웰 쇼크' 예의주시

[이슈&논란] 최태원 "SK하이닉스 美 ADR 상장 검토" 첫 언급…마이크론·TSMC와 같은 트랙에 선다

[빅테크칼럼] 테슬라 자율주행, 중동-유럽 동시 돌파… FSD 글로벌 130억km 누적

[이슈&논란] 35분 조깅이 초래한 ‘프랑스 보물’…Strava 한 방에 노출된 핵추진 항공모함 '샤를 드골'

[The Numbers] 'M7'가고 'HALO' 온다…월가, AI→실물경제 주식으로 '자금 엑소더스'

[빅테크칼럼] 챗GPT 쇼핑 꿈 접은 오픈AI, 온라인여행사 12% 폭등, 왜?…익스피디아·부킹·트립, 디인터미디어션 위기해소에 '안도'

[CEO혜윰] 왜 머스크 측근들은 떠나는가…공동창업자 ‘집단이탈’의 본질과 조직운영의 '구조적 리스크'

[이슈&논란] 커피 한 잔에 세계 최고 부자된 英여성, 63경 파운드의 비밀…영수증 한 장에 머스크 재산 10만배

[The Numbers] '하이닉스 20%' 보유한 SK스퀘어, AI 반도체 '황금알'로 시총 5위 폭등…숨겨진 비밀병기 뭐길래?

[공간사회학] 미국, 이란 하르그섬 '군사 완파' 왜 중요한가…이란 석유 90% 동맥 절단·GDP 18% 타격