2026.06.11 (목)

  • 맑음동두천 15.7℃
  • 맑음강릉 18.8℃
  • 맑음서울 17.7℃
  • 맑음대전 17.7℃
  • 맑음대구 18.3℃
  • 구름많음울산 18.8℃
  • 맑음광주 19.5℃
  • 맑음부산 21.3℃
  • 맑음고창 18.4℃
  • 맑음제주 21.3℃
  • 맑음강화 14.7℃
  • 맑음보은 14.4℃
  • 맑음금산 16.5℃
  • 구름많음강진군 16.1℃
  • 맑음경주시 16.5℃
  • 맑음거제 18.0℃
기상청 제공

빅테크

[랭킹연구소] GPT-5.2·제미나이3·클로드4.5, AI 성능TEST '박빙'…벤치마크에서 TOP3 AI모델 '통계적 동점' 기록

 

[뉴스스페이스=이종화 기자] 최정상급 AI들의 성능테스트에서 오픈AI의 GPT-5.2(최고 추론 모드)가 50점으로 1위를 차지했으나, 앤트로픽의 Claude Opus 4.5(49점)와 구글의 Gemini 3 Pro Preview(48점)가 바짝 뒤따라 사실상 통계적 동점을 기록했다.

 

이번 벤치마크는 호주 기반 독립 AI 평가기관 Artificial Analysis가 2026년 1월 5일 발표한 Intelligence Index v4.0에서 공개했다. 이 결과는 에이전트(25%), 코딩(25%), 과학적 추론(25%), 일반 지식(25%) 등 4개 영역을 균등 가중치로 평가한 것으로, 이전 버전 최고 73점에서 50점 이하로 조정해 미래 개선 여지를 확보한 점이 특징이다.

벤치마크 대변혁, '실전 업무' 중심으로 재편

 

artificialanalysis, tilnote, getmaxim, humai, venturebeat, rdworldonline에 따르면, v4.0은 MMLU-Pro, AIME 2025, LiveCodeBench 등 기존 벤치마크를 제거하고 AA-Omniscience(지식+환각 테스트, 6,000문항 40여 주제), GDPval-AA(실제 지식 노동 과제), CritPt(박사급 물리 추론) 등 3개 신규 평가를 도입했다.

 

AA-Omniscience에서 GPT-5.2와 Claude 4.5만 양수 점수를 기록하며 환각 패널티를 극복한 반면, CritPt에서는 GPT-5.2가 11.5%로 1위이나 모든 모델이 10%대를 넘지 못해 "박사 대화는 가능하나 연구는 미달"이라는 평가를 받았다. GDPval-AA에서는 GPT-5.2가 ELO 1442점으로 전문가 70.9% 수준 업무를 대체 가능성을 입증했다.

 

 

전문 강점 부각… SWE-bench·멀티모달·추론서 차별화


Claude Opus 4.5는 SWE-bench Verified에서 80.9%로 코딩 1위를 석권하며 장기 에이전트와 CLI 작업에 최적화됐고, ARC-AGI-2(37.6%) 등 시각 추론에서도 강세를 보였다.

 

Gemini 3 Pro는 100만 토큰 컨텍스트와 네이티브 멀티모달(비디오·오디오·이미지) 처리로 GPQA Diamond(91.9%), AIME 2025(100% 도구 사용 시)에서 앞서며 리서치·분석에 유리하다.

 

GPT-5.2는 ARC-AGI-2(52.9%), GDPval 전문가 비교(70.9%)에서 리드하며 추상 추론과 속도(Claude 대비 3~4배) 우위를 점했다.

기업 전략 변화… 다중 모델 도입 가속


마이크로소프트, 아마존, 구글의 엔터프라이즈 경쟁 속 기업들은 단일 모델 대신 '라우팅' 전략을 채택 중이다.

 

Shopify·Zoom 등은 GPT-5.2의 장기·도구 호출 능력을, 개발팀은 Claude 4.5의 코딩을, 리서치팀은 Gemini 3 Pro의 멀티모달을 활용한다.

 

해외언론도 "벤치마크 자체가 세대교체"라며 실전 중심 변화를 강조했다. Artificial Analysis 공동창업자 George Cameron은 "금전적 영향 배제, 방화벽 유지하며 공정성을 강조했다"고 주장했다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] 바클레이스, 인간형 로봇 상용화까지 최소 10년 이상 걸린다…“넥스트 AI 모멘텀, 휴머노이드 맞지만 10년 장벽"

[뉴스스페이스=김정영 기자] 바클레이스가 “로봇의 10년”을 선언해온 자사 리서치 기조에 스스로 브레이크를 걸며, 인간형(휴머노이드) 로봇 상용화는 “최소 10년 이상” 걸릴 것이라는 냉정한 진단을 내놨다. 범용 자율 로봇의 ‘GPT 모멘트’는 아직 도래하지 않았고, 현재의 투자 열기는 기술·인프라 성숙 속도에 비해 과도하다는 게 핵심 메시지다. 보스턴에서 날아온 ‘현실 점검’ 5월 27~28일 미국 보스턴에서 열린 ‘로보틱스 서밋 & 엑스포’를 취재한 바클레이스 애널리스트 윌리엄 톰슨은 리서치 노트에서 휴머노이드 상용화를 가로막는 네 가지 구조적 장벽을 제시했다. 첫째는 각국 규제기관의 안전 인증 기준으로, 사람과 같은 공간에서 작업하는 휴머노이드가 산업용 로봇보다 훨씬 높은 수준의 기능 안전과 책임체계를 요구받는다는 점이다. 둘째는 감속기·모터·고성능 센서 등 핵심 부품의 공급망 병목으로, 현재 글로벌 휴머노이드용 핵심 부품 국산화율이 50% 수준에 그친다는 국내 분석과도 맞물린다. 셋째는 실제 공장·물류 현장에서 축적된 고품질 훈련 데이터가 부족해, 시연 영상과 달리 비정형 환경에서의 신뢰도와 반복성이 검증되지 않았다는 지적이다. 넷째는 생성형

[빅테크칼럼] 프랑스 AI 군사 시스템 ‘아르카디아’, 팔란티어 메이븐에 도전장…유럽 안보의 새 변수 되나

[뉴스스페이스=김정영 기자] 프랑스 육군이 AI 기반 전장 지휘 시스템 ‘아르카디아(Arcadia)’를 앞세워 NATO 표준으로 채택된 팔란티어 ‘메이븐 스마트 시스템(Maven Smart System·MSS NATO)’에 정면 도전장을 던졌다. 이번 행보는 전장 AI까지 ‘디지털 주권’을 확보하려는 유럽의 전략적 승부수이자, 방산·AI 산업 지형을 뒤흔들 수 있는 중장기 변수로 평가된다. 프랑스판 메이븐 ‘아르카디아’의 실체 프랑스 육군은 NATO가 2025년 팔란티어의 메이븐 스마트 시스템을 도입해 연합 지휘·정보 분석의 핵심 도구로 활용하기 시작한 직후, 자체 AI 지휘 체계 아르카디아를 ‘유럽판 메이븐’으로 육성하겠다는 방침을 공식화했다. NATO는 메이븐이 생성형 AI·머신러닝·대규모 언어모델을 활용해 “안전하고 공통된 작전 역량”을 제공한다고 평가하며 작전 지원 체계로 채택한 바 있다. 프랑스군 부사령관 패트릭 쥐스텔(Patrick Justel) 장군은 이 시스템을 유럽 내 NATO 동맹국에 적극 홍보하고 있으며, 6월 NATO 연합훈련에서 실제 전장 시나리오에 투입해 성능을 검증한다는 계획이다. 미군이 장기간 실전에서 다듬은 팔란티어 메이븐과 달