2026.01.12 (월)

  • 맑음동두천 -12.3℃
  • 맑음강릉 -6.6℃
  • 맑음서울 -9.8℃
  • 맑음대전 -8.1℃
  • 맑음대구 -6.2℃
  • 맑음울산 -6.1℃
  • 구름조금광주 -5.3℃
  • 맑음부산 -4.0℃
  • 흐림고창 -6.2℃
  • 구름많음제주 2.8℃
  • 맑음강화 -11.3℃
  • 맑음보은 -11.1℃
  • 맑음금산 -11.1℃
  • 맑음강진군 -6.9℃
  • 맑음경주시 -7.8℃
  • 맑음거제 -4.5℃
기상청 제공

빅테크

[랭킹연구소] GPT-5.2·제미나이3·클로드4.5, AI 성능TEST '박빙'…벤치마크에서 TOP3 AI모델 '통계적 동점' 기록

 

[뉴스스페이스=이종화 기자] 최정상급 AI들의 성능테스트에서 오픈AI의 GPT-5.2(최고 추론 모드)가 50점으로 1위를 차지했으나, 앤트로픽의 Claude Opus 4.5(49점)와 구글의 Gemini 3 Pro Preview(48점)가 바짝 뒤따라 사실상 통계적 동점을 기록했다.

 

이번 벤치마크는 호주 기반 독립 AI 평가기관 Artificial Analysis가 2026년 1월 5일 발표한 Intelligence Index v4.0에서 공개했다. 이 결과는 에이전트(25%), 코딩(25%), 과학적 추론(25%), 일반 지식(25%) 등 4개 영역을 균등 가중치로 평가한 것으로, 이전 버전 최고 73점에서 50점 이하로 조정해 미래 개선 여지를 확보한 점이 특징이다.

벤치마크 대변혁, '실전 업무' 중심으로 재편

 

artificialanalysis, tilnote, getmaxim, humai, venturebeat, rdworldonline에 따르면, v4.0은 MMLU-Pro, AIME 2025, LiveCodeBench 등 기존 벤치마크를 제거하고 AA-Omniscience(지식+환각 테스트, 6,000문항 40여 주제), GDPval-AA(실제 지식 노동 과제), CritPt(박사급 물리 추론) 등 3개 신규 평가를 도입했다.

 

AA-Omniscience에서 GPT-5.2와 Claude 4.5만 양수 점수를 기록하며 환각 패널티를 극복한 반면, CritPt에서는 GPT-5.2가 11.5%로 1위이나 모든 모델이 10%대를 넘지 못해 "박사 대화는 가능하나 연구는 미달"이라는 평가를 받았다. GDPval-AA에서는 GPT-5.2가 ELO 1442점으로 전문가 70.9% 수준 업무를 대체 가능성을 입증했다.

 

 

전문 강점 부각… SWE-bench·멀티모달·추론서 차별화


Claude Opus 4.5는 SWE-bench Verified에서 80.9%로 코딩 1위를 석권하며 장기 에이전트와 CLI 작업에 최적화됐고, ARC-AGI-2(37.6%) 등 시각 추론에서도 강세를 보였다.

 

Gemini 3 Pro는 100만 토큰 컨텍스트와 네이티브 멀티모달(비디오·오디오·이미지) 처리로 GPQA Diamond(91.9%), AIME 2025(100% 도구 사용 시)에서 앞서며 리서치·분석에 유리하다.

 

GPT-5.2는 ARC-AGI-2(52.9%), GDPval 전문가 비교(70.9%)에서 리드하며 추상 추론과 속도(Claude 대비 3~4배) 우위를 점했다.

기업 전략 변화… 다중 모델 도입 가속


마이크로소프트, 아마존, 구글의 엔터프라이즈 경쟁 속 기업들은 단일 모델 대신 '라우팅' 전략을 채택 중이다.

 

Shopify·Zoom 등은 GPT-5.2의 장기·도구 호출 능력을, 개발팀은 Claude 4.5의 코딩을, 리서치팀은 Gemini 3 Pro의 멀티모달을 활용한다.

 

해외언론도 "벤치마크 자체가 세대교체"라며 실전 중심 변화를 강조했다. Artificial Analysis 공동창업자 George Cameron은 "금전적 영향 배제, 방화벽 유지하며 공정성을 강조했다"고 주장했다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] 아이온큐 공동창업자 "양자 30년 걸린다던 젠슨 황, 긍정적으로 선회"…반전 행보와 상용화 가속

[뉴스스페이스=김시민 기자] 양자컴퓨팅 선도 기업 아이온큐(IonQ)의 공동창업자 김정상 듀크대 교수가 엔비디아 CEO 젠슨 황의 과거 양자 상용화 30년 전망이 최근 긍정적으로 선회했다고 평가했다. 김 교수는 "황 CEO가 지난해 개발자 회의에서 양자 리더들과 논의한 후 퀀티넘 등 기업에 투자하며 태도를 바뀌었다"면서, "이는 양자 기술의 실질적 임팩트가 임박했음을 시사한다"고 강조했다. ​ ​황 CEO 발언 변화 배경 젠슨 황은 2025 CES에서 "양자컴퓨터의 유용한 수준 도달에 20~30년이 필요하다"고 밝혔으나, 같은 해 GTC 파리 컨퍼런스에서 "양자컴퓨팅이 변곡점에 도달했다"며 실세계 문제 해결이 수년 내 가능할 것이라고 수정했다. 엔비디아는 CUDA-Q 플랫폼을 통해 양자-고전 하이브리드 컴퓨팅을 추진하며 NVQLink 기술로 GPU와 양자 프로세서를 연결, 미국 에너지부 등과 협력 중이다. 이러한 행보는 과거 회의적 발언으로 양자주식(아이온큐 등)이 36% 하락했던 시장 반응을 뒤집는 신호로 해석된다. ​ 아이온큐 실적과 기술 진전 아이온큐는 2025년 3분기 매출 3,990만 달러를 기록, 전년 동기 대비 222% 증가하며 연간 가이던스를