2026.03.24 (화)

  • 구름많음동두천 16.1℃
  • 흐림강릉 13.8℃
  • 구름많음서울 15.7℃
  • 흐림대전 18.9℃
  • 흐림대구 17.9℃
  • 연무울산 13.2℃
  • 흐림광주 18.2℃
  • 연무부산 14.0℃
  • 흐림고창 14.8℃
  • 흐림제주 15.8℃
  • 맑음강화 13.2℃
  • 구름많음보은 18.1℃
  • 흐림금산 18.4℃
  • 흐림강진군 15.0℃
  • 구름많음경주시 14.7℃
  • 구름많음거제 13.5℃
기상청 제공

빅테크

[빅테크칼럼] 앤트로픽, 더 강력해진 AI '클로드 오퍼스4.6' 공개…벤치마크서도 챗GPT·제미나이 능가

 

[뉴스스페이스=윤슬 기자] 앤트로픽은 2025년 11월 말에 출시한 ‘클로드 오퍼스 4.5’를 불과 2개월 만에 업그레이드한 ‘오퍼스 4.6’을 2026년 2월 4일(현지시간) 공식 발표했다. 가장 큰 차별점은 ‘에이전트 팀(agent teams)’ 기능 도입으로, 과거처럼 한 개의 AI 에이전트가 작업을 순차적으로 처리하는 방식을 넘어, 여러 에이전트에 작업을 분산해 동시에 협업하게 만든다는 점이다.

 

artificialanalysis, anthropic, marc0.dev, getmaxim에 따르면, 앤트로픽 스콧 화이트 제품 총괄은 “한 에이전트가 순서대로 작업을 처리하는 대신, 여러 에이전트에 작업을 나눠 줄 수 있다”며 “이를 통해 에이전트들이 협업하고, 작업을 더 빠르게 처리할 수 있다”고 설명했다. 이는 최근 ‘클로드 코워크’로 이미 소프트웨어(SW) 개발 영역에서 파급력을 보여준 앤트로픽이, 복잡한 엔터프라이즈급 작업을 여러 AI 에이전트로 분산 처리하는 방향으로 전략을 확장했다는 의미다.

 

또한 오퍼스 4.6는 한 번에 입력할 수 있는 토큰(입출력 단위)을 기존 40만 토큰에서 100만 토큰으로 확대해, 장문의 문서나 코드베이스를 한번에 처리할 수 있도록 했다. 업계 해석에 따르면 이는 책 수십 권 분량의 데이터를 한 번에 분석·요약하는 수준의 작업을 수행할 수 있는 수준으로, 장문 문서·법률·금융 보고서 분석 등에 강점을 나타낼 수 있다는 평가가 나온다.

 

벤치마크에서 ‘압도’하는 지식·사무·코딩 능력


앤트로픽은 국내·외 IT·벤처매체를 통해 공개한 벤치마크에서 오퍼스 4.6가 경쟁사의 최신 모델을 전방위에서 상회한다고 강조했다. 특히 경제적으로 가치 높은 지식노동(Knowledge Work)을 평가하는 ‘GDPval-AA’에서 오퍼스 4.6는 1,606(Elo 기준)의 점수를 기록해, 오픈AI의 GPT-5.2(약 1,462)와 구글 제미나이 3 프로(약 1,195)를 크게 따돌렸다.

 

인공지능 분석업체 ‘아티피셜 애널리시스(Artificial Analysis)’의 분석에 따르면, GDPval-AA는 금융·법률 등 44개 직업군에 걸친 220개 경제적 가치를 가진 작업을 대상으로 모델의 성능을 평가하는 프레임워크다. 이 벤치마크에서 오퍼스 4.6는 GPT-5.2보다 약 150점 가까이 앞서며, 직접 비교 시 승률이 약 70%에 달하는 수준으로 평가됐다. 

 

또 하나 중요한 지표는 오픈AI가 개발한 ‘브라우즈컴프(BrowseComp)’다. 이 벤치마크는 필요한 정보를 웹에서 검색·탐색해 정확히 찾는 ‘에이전트’의 능력을 측정하는데, 오퍼스 4.6는 84%의 정답률을 기록해 GPT-5.2(77.9%)와 제미나이 3 프로(59.2%)를 뛰어넘었다. 이는 방대한 웹 문서를 기반으로 한 조사·리서치 작업에서, 오퍼스 4.6가 경쟁사보다 더 높은 정확도와 안정성을 보여준다는 의미다.

 

코딩 영역에서는 오픈소스 기반 ‘SWE-bench Verified’ 기준으로 80.8%를 기록해, 오퍼스 4.5의 80.9%보다 약간 떨어졌다는 점이 눈에 띈다. 다만 기존에도 80% 이상의 점수는 이미 인간 개발자들을 상회하는 수준으로 평가돼 온 만큼, 80.8% 수준이라도 여전히 GPT-5.2·제미나이 3 프로를 상회하는 수준이라는 해석이 지배적이다. 앤트로픽이 자체적으로 강조하는 ‘터미널 벤치 2.0(Terminal‑Bench 2.0)’에서도 65.4%로 상위권을 기록하며, 터미널·CLI 기반의 자동화 작업에 강점을 보였다는 점이 반복적으로 언급된다.

 

HLE·금융·법률 등 ‘전문가 영역’에서의 고성능


‘인류의 마지막 시험(Humanity’s Last Exam, HLE)’으로 불리는 다중 분야 고난도 벤치마크에서도 오퍼스 4.6는 도구 미사용 기준으로 40%를 넘긴 유일한 AI 모델이 됐다는 점이 주목된다. HLE는 수학·논리·과학·프로그래밍 등 다양한 분야의 고난도 문제를 묶어, ‘인간과의 직접 비교’를 가정하는 테스트로 설계돼 있다. 도구를 전혀 사용하지 않는 조건에서 40%를 달성했다는 점은, 모델이 순수 논리·추론 능력만으로도 상당한 수준의 전문가급 문제를 해석·해결할 수 있다는 의미로 받아들여진다.

 

특히 금융·법률 분야에서는 다른 벤치마크에서도 강세를 보인다. 앤트로픽은 ‘빅로우 벤치(BigLaw Bench)’에서 오퍼스 4.6가 90.2%로 자사 모델 중 최고 성적을 기록했다고 밝혔으며, 여기서 40%는 완벽한 점수, 84%는 0.8 이상을 기록했다고 설명했다. 이는 민사·상사·규제·계약 등 실제 법률 리서치와 요약, 위험 분석에 상당한 수준의 실용성을 보일 수 있다는 점을 시사한다.

 

또 앤트로픽은 오퍼스 4.6가 실제로 50명 규모의 조직을 6개의 코드 리포지터리에 걸쳐 1일 동안 관리하며, 13개의 이슈를 닫고 12개는 적절한 팀에 배정하는 “조직 엔지니어링” 역할을 수행했다고 사례로 들었다. 이는 단순한 코드 작성에 그치지 않고, 제품 우선순위·팀 간 분담·인간 개입 필요 시점 파악까지 담당하는 수준의 ‘조직 에이전트’로서의 가능성을 제시한다는 점에서 의미가 크다.

 

MS 오피스와의 통합·가격 전략: ‘생산성 도구’로서의 포지셔닝


앤트로픽은 오퍼스 4.6 출시와 함께 MS 엑셀과 파워포인트에 클로드를 직접 통합하는 기능도 강화했다. 업데이트된 ‘클로드 in Excel’은 피벗 테이블 편집, 조건부 서식 등 네이티브 기능을 활용해 데이터를 분석·정리하고, ‘클로드 in PowerPoint’는 기존 레이아웃·마스터를 읽어 들인 뒤, 고객 템플릿에 맞춰 발표 자료를 바로 생성해주는 방식으로 설계됐다.

 

이러한 통합은 ‘분석·보고서 작성·프레젠테이션 제작’이라는 일련의 가치 사슬 전반에 클로드를 박아 넣는 전략으로, 금융·컨설팅·마케팅 등 지식노동 중심 직군에서 반복적인 문서 작업을 자동화하는 데 초점을 둔다. 예를 들어, 클로드가 원시 데이터를 분석해 엑셀에서 정리하고, 그 결과를 바탕으로 바로 파워포인트에 슬라이드를 구성하는 워크플로는 기존의 ‘수동 분석 → 엑셀 정리 → 파워포인트 초안 작성’ 과정을 크게 단축할 수 있다는 점에서 생산성 도구로서의 경쟁력이 강하다는 평가가 나온다.

 

API 가격은 오퍼스 4.5와 동일하게 유지되며, 100만 토큰당 5~25달러 범위라는 점도 핵심이다. 이는 GPT-5.2·제미나이 3 프로 대비 토큰당 단가가 높은 편이지만, 실질적인 성능·작업 효율을 감안하면 일부 엔터프라이즈 고객은 ‘고비용·고성능’ 패키지로 받아들일 가능성이 크다.

 

SW·지식노동 위기론, 다시 점화되는 ‘가속도’


이번 오퍼스 4.6 출시는 ‘AI가 SW 개발과 지식노동을 대체할 것이라는 위기론’을 다시 한 번 가열시키는 계기가 되고 있다. 특히 GDPval-AA와 같은 벤치마크가 ‘경제적으로 가치 있는 작업’을 기준으로 인간과 AI를 비교하는 수준에 도달했고, 오퍼스 4.6가 해당 지표에서 인간보다 앞선다는 점은, 단순한 ‘보조 도구’ 차원을 넘어 ‘대체 수준’으로 간주해야 할 신호로 해석된다.

 

여기에 ‘에이전트 팀’과 100만 토큰 지원, MS 오피스까지 통합된 구조가 결합되면, 과거 단일 작업 자동화에 그쳤던 AI가 ‘팀 전체의 생산성 체인’을 한 번에 끌어올리는 구조로 전환될 수 있다. 이는 소프트웨어 개발자뿐 아니라, 금융·법률·기획·컨설팅 등 전문 지식노동자들을 둘러싼 구조조정과 교육·재훈련의 필요성을 또 다시 부각시키는 계기가 될 전망이다.

 

빅테크 전문가는 "앤트로픽의 오퍼스 4.6는 단순한 ‘성능 업그레이드’를 넘어, 여러 에이전트를 활용한 ‘협업형 지식노동 자동화’와 장문 문서·오피스 도구 통합을 축으로 한 “생산성 플랫폼”으로의 포지셔닝을 선언한 셈"이라며 "SW·지식노동·사무업의 판도를 어떻게 재편할지, 그리고 기업과 정부가 이에 대응하는 규제·교육·고용 정책이 어떻게 조정될지가 다음 관건이 될 것"이라고 전망했다.

배너
배너
배너

관련기사

69건의 관련기사 더보기


[빅테크칼럼] 저커버그의 ‘AI CEO’ 모델, 한국 재벌 총수·CEO들이 벤치마킹할 3가지 핵심 포인트

[뉴스스페이스=이승원 기자] 메타 CEO 마크 저커버그가 개인 AI 에이전트를 통해 의사결정 속도를 높이는 실험에 돌입한 가운데, 한국 재벌 총수·CEO들은 이 모델을 ‘총수 에이전트’로 벤치마킹해 생산성 혁신을 가속화할 수 있다는 주장이 제기돼 관심이 모아진다. 국내 대기업 AI 도입 사례를 분석하면, 메타의 30% 평균·80% 상위 생산성 향상 수치가 삼성·LG·SK에서 이미 재현되고 있으며, 이를 총수 레벨로 확장하면 보고 체계 평탄화와 전략 기획이 근본적으로 바뀔 전망이다. 메타 모델 핵심①: 총수 전용 ‘보고 요약 에이전트’ 구축 저커버그의 CEO 에이전트는 내부 데이터와 외부 정보를 실시간 요약해 보고 라인을 단축한다. 한국 재벌 총수들은 이를 벤치마킹해 총수 에이전트를 도입할 수 있다. 롯데그룹의 ‘아이멤버(iMember)’는 2023년 도입 후 활성 사용자 7만명을 돌파하며 월평균 20% 성장했고, 6종 전문 에이전트(보고서 초안·회의록 정리 등)가 그룹 전 계열사에 적용 중이다. 삼성전자는 자체 생성형 AI ‘삼성 가우스’로 이메일·문서 요약을 지원하며, 보안 문제를 해결한 모델로 평가된다. LG디스플레이는 AI 제조 데이터 분석으로 품질 이

[빅테크칼럼] 저커버그, ‘개인 AI CEO 에이전트’ 비공개로 구축중…10년 전 ‘자비스’에서 ‘개인 초지능’까지

[뉴스스페이스=김정영 기자] 메타 최고경영자(CEO) 마크 저커버그가 자신의 경영 업무를 보조하는 ‘개인 AI CEO 에이전트’를 비공개로 구축하며, 메타 전체를 개인 초지능 실험장으로 전환하고 있다. 그는 “모든 사람이 각자 개인 AI 에이전트를 갖게 될 것”이라는 구상을 내놓고 자신의 책상 위에서 그 실험을 시작했다. 월스트리트저널(WSJ)은 3월 22일(현지시간) “마크 저커버그가 CEO 업무를 돕는 AI 에이전트를 구축하고 있다”고 보도했다. WSJ에 따르면 이 에이전트는 방대한 내부 데이터와 외부 정보를 실시간으로 긁어와 의사결정에 필요한 인사이트를 요약·정리하고, 보고 라인을 건너뛰어 CEO가 직접 핵심 정보에 접근하도록 설계되고 있다. 테크 전문 뉴스레터와 경제매체 보도를 종합하면, 이 ‘CEO 에이전트’는 메타가 내부에서 이미 운영 중인 개인 업무용 에이전트 ‘My Claw’, 프로젝트 문서를 인덱싱하는 ‘Second Brain’ 등과 연동되는 상위 허브 역할을 하게 될 가능성이 크다. 직원들이 쓰는 에이전트 층 위에, CEO 전용 메타 에이전트가 존재하는 다층 구조인 셈이다. 저커버그는 1월 4분기 실적 발표에서 “개인의 이력, 관심사, 콘텐

[이슈&논란] "머스크, 고의적 주가 떨어뜨렸다" 판결…트위터 인수과정서 수십억 달러 배상 책임

[뉴스스페이스=이현주 기자] 미국 캘리포니아 북부 연방지방법원 배심원단이 세계 최대 부호 일론 머스크(Elon Musk)가 트위터(Twitter, 현재 X) 인수 과정에서 고의로 주가를 떨어뜨렸다며 투자자들에게 배상해야 한다는 평결을 내렸다. 이 판결은 2022년 440억 달러(약 64조원) 규모 트위터 인수 전후 머스크의 소셜미디어 발언이 투자자 판단에 어떤 영향을 미쳤는지, 시장질서 차원에서 어떤 책임을 가질 수 있는지에 대한 법원의 ‘정치적·상징적’ 메시지로 해석된다. AP·블룸버그 등 미국 주요매체 보도와 캘리포니아 북부 연방지방법원(샌프란시스코) 배심원단의 평결 요지를 종합하면, 배심원단은 머스크가 2022년 트위터 인수 협상 과정에서 스팸·가짜 계정이 회사 가치를 심각하게 훼손하고 있다고 주장한 게시물(트위터)로 인해 투자자들이 잘못된 정보를 바탕으로 매매 결정을 내렸다고 판단했다. 이는 ‘명백한 사기적 계획(scheme)’에는 해당하지 않지만, 일부 트위터은 투자자를 오도했고, 그 결과 주가가 부당하게 약세를 보였다는 취지의 결론이다. 배심원단은 머스크가 주당 3~8달러(하루 기준)를 배상해야 한다고 권고했다. 이 구조가 적용되면, 이번 소송은