[랭킹연구소] GPT-5.2·제미나이3·클로드4.5, AI 성능TEST '박빙'…벤치마크에서 TOP3 AI모델 '통계적 동점' 기록

스마트폰의 딥시크, 챗GPT, 코파일럿, 퍼플렉시티, 제미나이 등의 AI 앱 아이콘 / 로이터, 연합

[뉴스스페이스=이종화 기자] 최정상급 AI들의 성능테스트에서 오픈AI의 GPT-5.2(최고 추론 모드)가 50점으로 1위를 차지했으나, 앤트로픽의 Claude Opus 4.5(49점)와 구글의 Gemini 3 Pro Preview(48점)가 바짝 뒤따라 사실상 통계적 동점을 기록했다.

이번 벤치마크는 호주 기반 독립 AI 평가기관 Artificial Analysis가 2026년 1월 5일 발표한 Intelligence Index v4.0에서 공개했다. 이 결과는 에이전트(25%), 코딩(25%), 과학적 추론(25%), 일반 지식(25%) 등 4개 영역을 균등 가중치로 평가한 것으로, 이전 버전 최고 73점에서 50점 이하로 조정해 미래 개선 여지를 확보한 점이 특징이다.

벤치마크 대변혁, '실전 업무' 중심으로 재편

artificialanalysis, tilnote, getmaxim, humai, venturebeat, rdworldonline에 따르면, v4.0은 MMLU-Pro, AIME 2025, LiveCodeBench 등 기존 벤치마크를 제거하고 AA-Omniscience(지식+환각 테스트, 6,000문항 40여 주제), GDPval-AA(실제 지식 노동 과제), CritPt(박사급 물리 추론) 등 3개 신규 평가를 도입했다.

AA-Omniscience에서 GPT-5.2와 Claude 4.5만 양수 점수를 기록하며 환각 패널티를 극복한 반면, CritPt에서는 GPT-5.2가 11.5%로 1위이나 모든 모델이 10%대를 넘지 못해 "박사 대화는 가능하나 연구는 미달"이라는 평가를 받았다. GDPval-AA에서는 GPT-5.2가 ELO 1442점으로 전문가 70.9% 수준 업무를 대체 가능성을 입증했다.

GPT-5.2·제미나이3·클로드4.5, AI 성능TEST 비교표 / 뉴스스페이스DB

전문 강점 부각… SWE-bench·멀티모달·추론서 차별화

Claude Opus 4.5는 SWE-bench Verified에서 80.9%로 코딩 1위를 석권하며 장기 에이전트와 CLI 작업에 최적화됐고, ARC-AGI-2(37.6%) 등 시각 추론에서도 강세를 보였다.

Gemini 3 Pro는 100만 토큰 컨텍스트와 네이티브 멀티모달(비디오·오디오·이미지) 처리로 GPQA Diamond(91.9%), AIME 2025(100% 도구 사용 시)에서 앞서며 리서치·분석에 유리하다.

GPT-5.2는 ARC-AGI-2(52.9%), GDPval 전문가 비교(70.9%)에서 리드하며 추상 추론과 속도(Claude 대비 3~4배) 우위를 점했다.

기업 전략 변화… 다중 모델 도입 가속

마이크로소프트, 아마존, 구글의 엔터프라이즈 경쟁 속 기업들은 단일 모델 대신 '라우팅' 전략을 채택 중이다.

Shopify·Zoom 등은 GPT-5.2의 장기·도구 호출 능력을, 개발팀은 Claude 4.5의 코딩을, 리서치팀은 Gemini 3 Pro의 멀티모달을 활용한다.

해외언론도 "벤치마크 자체가 세대교체"라며 실전 중심 변화를 강조했다. Artificial Analysis 공동창업자 George Cameron은 "금전적 영향 배제, 방화벽 유지하며 공정성을 강조했다"고 주장했다.

Search

[랭킹연구소] GPT-5.2·제미나이3·클로드4.5, AI 성능TEST '박빙'…벤치마크에서 TOP3 AI모델 '통계적 동점' 기록

관련기사

많이 본 뉴스

[빅테크칼럼] AI가 열어젖힌 ‘1인 유니콘’ 신화 '메드비(Medvi)'…"단 2명 회사, 연매출 2조원"

[이슈&논란] 삼성전자, 모바일사업부 위기 속 임원들 이코노미석 탑승 지시…메모리 쇼크 속 '긴축' 돌입

[이슈&논란] 獨 라인메탈 CEO "전 세계 방공 미사일 재고 거의 바닥" 경고…1년치 정밀무기 사용량, 단 4일만에 소진

[The Numbers] 삼성전자·SK하이닉스, 주가 급락의 진짜 이유…구글 '터보퀀트' 쇼크, 메모리반도체 시장 재편 신호탄

[이슈&논란] "조합장 해임 총회 오시면 프라이팬 드려요"…DL이앤씨, 상대원2구역 매표 행위에 '조합원들 뿔났다'

[빅테크칼럼] "월 10만원에 마케팅팀 통째로 고용"...Okara가 몰고 온 AI CMO '폭풍'

[The Numbers] 일룸, 실적 '반토막'에도 지주사 신설 직후 15억 중간배당… 대만법인 부실에 자본잠식·내부거래·고배당·소송까지 '첩첩산중'

[The Numbers] 코스닥 동전주, 폭탄 터지기 직전…K바이오 30곳, 퇴출·강등 위기, 어디?

[빅테크칼럼] 머스크의 반도체공장 '테라팹 쇼크'…삼성, 165억 달러 '골든 파트너'서 라이벌?

[The Numbers] 월가 절대권력 블랙록, 전주로 온 이유…국민연금 1000조원·블랙록 2경원의 포괄적 공조

[랭킹연구소] 연령대별 한국인이 선호하는 모바일 앱?…1020 커뮤니티·콘텐츠, 3040 커리어·재테크, 50대이상 쇼핑·생활편의

[빅테크칼럼] 구글 “양자컴퓨터가 50만 큐비트면 9분 만에 비트코인 깬다” 경고

[The Numbers] 자코모, 1000억 매출에 수익성 '급전직하', 차입금 급증·특수관계자 거래 '경고등'…누적결손 40억·부채비율 2826%에 자본잠식 '우려'

[이슈&논란] 최태원 "SK하이닉스 美 ADR 상장 검토" 첫 언급…마이크론·TSMC와 같은 트랙에 선다

[우주칼럼] 아르테미스 2호, 54년 만의 유인 달 비행 '최종 카운트다운' 돌입

[이슈&논란] 35분 조깅이 초래한 ‘프랑스 보물’…Strava 한 방에 노출된 핵추진 항공모함 '샤를 드골'

삼성전자, 오픈AI '타이탄' 뚫었다…HBM4 8억Gb 단독 공급으로 AI 패권 굳히기 "엔비디아·AMD 이어 세번째"

[빅테크칼럼] "사람 대신 PC 앞에서 일한다" 新플랫폼 전쟁의 서막…클로드, 맥 화면 ‘직접조작’하며 일하는 풀‑스택 AI로 진화

[랭킹연구소] 韓민주주의 세계 41위→22위 '껑충' · 美 24→51위 '추락’…덴마크>스웨덴>노르웨이>스위스>에스토니아>아일랜드 順

[이슈&논란] "머스크, 고의적 주가 떨어뜨렸다" 판결…트위터 인수과정서 수십억 달러 배상 책임

[The Numbers] 프레인글로벌, 매출 959억에도 영업익 20%·순이익 92% 급감 '수익성 빨간불'… 자회사 줄줄이 적자·무리한 투자 후폭풍?

[공간사회학] 미국, 이란 하르그섬 '군사 완파' 왜 중요한가…이란 석유 90% 동맥 절단·GDP 18% 타격

[CEO혜윰] 왜 머스크 측근들은 떠나는가…공동창업자 ‘집단이탈’의 본질과 조직운영의 '구조적 리스크'

[빅테크칼럼] ‘킬 체인’에 들어온 AI…미군, 이란서 6000곳 표적타격의 '민낯'

[지구칼럼] “지구는 25억 인구만 감당 가능”…세계 83억명 ‘생태 초과’로 경고등

[이슈&논란] "알고리즘 패권 전쟁 속 틱톡·메타, 참여도 높이기 위해 유해 콘텐츠 방치"…BBC 다큐멘터리, 내부고발자들 폭로

[빅테크칼럼] 애플, 창립 50주년(4월 1일)을 맞아 AI 지연과 반독점 소송에 직면…흔들리는 ‘거인의 시험대’

[The Numbers] 강남3구 보유세 급등 전망에 '한강벨트' 붕괴 위기…반포자이 84㎡ 보유세, 1275만원에서 1790만원 '쑥'

[빅테크칼럼] 유출된 오픈AI 주주명부 '발칵' MS 18배 수익과 올트먼의 지분…“지분 0% CEO가 이끄는 8520억달러 기업”

[랭킹연구소] 강남 50대 남성, 한국 증시 ‘주식 부자’ 1위…개미 1456 명 시대의 빛과 그늘

[랭킹연구소] 서울시 25개 자치구 자살률 순위, 1위와 꼴찌는?…서초구>영등포구>용산구 >송파구>서대문구 順

[빅테크칼럼] 토큰 제국 시대 열리나…젠슨 황의 '토큰=생산성 화폐'가 실리콘밸리 재편하다

[랭킹연구소] 한국 기업 매출 순위 TOP10…삼성전자>한국전력>SK하이닉스>현대차>기아>현대모비스>한국가스공사>에쓰오일>삼성생명>LG전자 順

[이슈&논란] 이란이 호르무즈 해협 통과 선박 증가 허용하며 유가하락…“완전한 재개보다는 점진적 완충 단계"

[이슈&논란] 구글 직원으로 위장 ‘이란 스파이 미녀 자매’…픽셀·SoC 기밀, 이란으로 흘러갔나

[빅테크칼럼] 머스크, 테라팹 7일 내 출범…칩 장벽 돌파 위한 '테라스케일' 반도체 제국 건설 '카운트다운'

[우주칼럼] 119개 탑재체 몰린 팰컨9, 3월 30일 발사예정…NASA 기술 실증 라이더가 된 스페이스X

[랭킹연구소] 대기업 직원 연봉 1억, 최고연봉자와 격차 최고 158배…연봉격차 순위, 조현상>조현준>정용진>손경식>구자균>호세무뇨스>류진>정지선>신동빈>김창한 順

[랭킹연구소] K-컬처株 100억 클럽 주식부자 27명…방시혁>박진영>양현석>스쿠터브라운>박성찬>강승곤>신현호>양민석>이재현>김태형(BTS) 順

[빅테크칼럼] “AI가 준 시간, 우리가 잃은 것”에 대한 대답… 8만명의 희망과 공포가 말해주는 새로운 AI 시대상

공유하기