[뉴스스페이스=이종화 기자] 최정상급 AI들의 성능테스트에서 오픈AI의 GPT-5.2(최고 추론 모드)가 50점으로 1위를 차지했으나, 앤트로픽의 Claude Opus 4.5(49점)와 구글의 Gemini 3 Pro Preview(48점)가 바짝 뒤따라 사실상 통계적 동점을 기록했다.
이번 벤치마크는 호주 기반 독립 AI 평가기관 Artificial Analysis가 2026년 1월 5일 발표한 Intelligence Index v4.0에서 공개했다. 이 결과는 에이전트(25%), 코딩(25%), 과학적 추론(25%), 일반 지식(25%) 등 4개 영역을 균등 가중치로 평가한 것으로, 이전 버전 최고 73점에서 50점 이하로 조정해 미래 개선 여지를 확보한 점이 특징이다.
벤치마크 대변혁, '실전 업무' 중심으로 재편
artificialanalysis, tilnote, getmaxim, humai, venturebeat, rdworldonline에 따르면, v4.0은 MMLU-Pro, AIME 2025, LiveCodeBench 등 기존 벤치마크를 제거하고 AA-Omniscience(지식+환각 테스트, 6,000문항 40여 주제), GDPval-AA(실제 지식 노동 과제), CritPt(박사급 물리 추론) 등 3개 신규 평가를 도입했다.
AA-Omniscience에서 GPT-5.2와 Claude 4.5만 양수 점수를 기록하며 환각 패널티를 극복한 반면, CritPt에서는 GPT-5.2가 11.5%로 1위이나 모든 모델이 10%대를 넘지 못해 "박사 대화는 가능하나 연구는 미달"이라는 평가를 받았다. GDPval-AA에서는 GPT-5.2가 ELO 1442점으로 전문가 70.9% 수준 업무를 대체 가능성을 입증했다.
전문 강점 부각… SWE-bench·멀티모달·추론서 차별화
Claude Opus 4.5는 SWE-bench Verified에서 80.9%로 코딩 1위를 석권하며 장기 에이전트와 CLI 작업에 최적화됐고, ARC-AGI-2(37.6%) 등 시각 추론에서도 강세를 보였다.
Gemini 3 Pro는 100만 토큰 컨텍스트와 네이티브 멀티모달(비디오·오디오·이미지) 처리로 GPQA Diamond(91.9%), AIME 2025(100% 도구 사용 시)에서 앞서며 리서치·분석에 유리하다.
GPT-5.2는 ARC-AGI-2(52.9%), GDPval 전문가 비교(70.9%)에서 리드하며 추상 추론과 속도(Claude 대비 3~4배) 우위를 점했다.
기업 전략 변화… 다중 모델 도입 가속
마이크로소프트, 아마존, 구글의 엔터프라이즈 경쟁 속 기업들은 단일 모델 대신 '라우팅' 전략을 채택 중이다.
Shopify·Zoom 등은 GPT-5.2의 장기·도구 호출 능력을, 개발팀은 Claude 4.5의 코딩을, 리서치팀은 Gemini 3 Pro의 멀티모달을 활용한다.
해외언론도 "벤치마크 자체가 세대교체"라며 실전 중심 변화를 강조했다. Artificial Analysis 공동창업자 George Cameron은 "금전적 영향 배제, 방화벽 유지하며 공정성을 강조했다"고 주장했다.











































