오픈AI, 국제수학올림피아드 금메달 ‘충격’…"인간 수학을 넘어선 새역사·인간문명에 도전장"

오픈AI(OpenAI)가 개발한 범용 추론 언어 모델이 세계 최고 고등학생 수학 경진대회인 국제수학올림피아드(IMO)에서 ‘금메달 수준’ 성적을 공식 인증받았다. / 퍼플렉시티

[뉴스스페이스=김정영 기자] 2025년 7월, 인공지능(AI)이 또 한 번 역사를 썼다. 오픈AI(OpenAI)가 개발한 범용 추론 언어 모델이 세계 최고 고등학생 수학 경진대회인 국제수학올림피아드(IMO)에서 ‘금메달 수준’ 성적을 공식 인증받았다.

Business Insider, TechCrunch, Engadget 등의 매체와 Simon Willison’s Weblog, lesswrong.com, THE-DECODER.com 등의 자료를 분석한 결과에 따르면, 이 모델은 인간과 동등한 조건(두 번의 4.5시간 시험 세션, 인터넷∙계산도구 미사용)에서 출제된 6개 문제 가운데 5개를 완벽히 풀어내며, 42점 만점에 35점을 획득해 금메달 기준점을 넉넉히 넘었다.

IMO는 630명의 참가자 중 약 67명(전체의 10% 정도)만이 금메달을 따는 세계에서 가장 까다로운 대회로 알려져 있다. 오픈AI의 모델은 이 대회에서 실제 인간 수상자들과 같은 방식, 동일한 평가지침 아래서 전직 IMO 메달리스트 심사위원 3인에 의해 각각 채점됐고, 만장일치로 점수가 확정됐다.

“단일 과업 특화 모델 아니다”…범용 AI의 본격 도약

이번 성과는 전문 수학 프로그램이 아닌 일반 범용 대화형 AI가 달성했다는 점이 더욱 충격적이다.

연구원 Alexander Wei는 이번 성과가 “특정 과업 최적화가 아니라, 범용 강화학습과 시험 시 컴퓨팅 확장(test-time compute scaling)의 신기술을 적용한 결과”라고 밝혔다. 모델은 인간처럼 문제를 자연어(영어)로 서술해가며 해설했고, 기존 LLM(대규모 언어 모델)과 달리 시험 중 답을 내기까지 ‘수 시간’을 집중적으로 고민하는 접근으로 높은 평가를 받았다.

오픈AI 연구원 Noam Brown은 “최고의 인간과 AI의 약간 차이는 엄청난 차이”라고 강조했다.

경쟁 모델과 격차 ‘수치로 입증’

최근 MathArena.ai가 주요 상용 및 연구 모델(Gemini 2.5 Pro, Grok-4, o3 등)을 동일한 IMO 2025 문제로 평가한 결과, 최고 성적을 기록한 Gemini 2.5 Pro가 13점(42점 만점, 약 31%)에 그치며 동메달 커트라인(19점)에도 미달했다는 점은 AI 간 ‘성능 격차’의 현실을 수치로 단적으로 드러낸다.

심지어 일부 모델은 논리적 오류, 불완전한 해설, 심지어 없는 정리까지 만들어내는 등 한계를 노출했다는 것이 해외 IT매체들의 지적이다.

“곧 출시될 GPT-5와는 다른 연구 성과”…일반 공개는 미정

오픈AI는 “이 모델은 실험적으로만 개발된 연구용 시스템으로, 수 개월 내에라도 대중에 공개할 계획이 없다”고 못박았다. 대신 곧 공개될 예정인 GPT-5는 별도 팀이 개발 중인 소비자용 모델로, 이번 수학 올림피아드 금메달 성능과는 직접 관련이 없음을 분명히 했다.

AI 추론력의 한계 돌파…수학을 넘어 ‘문명 패러다임’ 바꿀까

AI의 수학 고차원 문제 해결력은 그 자체로 미래 문명의 ‘패러다임 시프트’ 신호탄으로 주목받고 있다. 전문가들은 이번 성과가 단순 수치 향상을 넘어 ▲범용 추론력 강화 ▲복잡한 창의 문제 해결 ▲증명 중심의 자연어 의사소통 등 인간 학습과정의 핵심 단계마저 기계가 넘기 시작한 기점으로 해석한다.

빅테크

오픈AI, 국제수학올림피아드 금메달 ‘충격’…"인간 수학을 넘어선 새역사·인간문명에 도전장"

관련기사

이 시각 추천뉴스

[이슈&논란] 트럼프 행정부, 로봇 산업 육성카드에 테슬라 '급등'…美·中 기술패권 전쟁 새 국면

[The Numbers] 넷플릭스, 워너 브라더스 인수 시도에 주가 급락…규제·입찰 경쟁 속 불확실성 커져

[The Numbers] 앤트로픽, 내년 IPO 추진...기업가치 삼성전자와 어깨 나란히 "AI 대어로 우뚝"

[이슈&논란] 머스크재단, 자선 기부 뒤에 숨은 ‘사익 증진’ 논란…20조원 기부금의 80%, 측근 단체로

[빅테크칼럼] 머스크, AI에 '진실·아름다움·호기심' 필수…거짓강요시 '미쳐버릴 수 있다' 경고

[빅테크칼럼] 땀, 혈액검사 대체 가능성 급부상…건강 진단의 새 지평 열다

[빅테크칼럼] 머스크 "AI·로봇 시대, 노동은 선택…화폐는 '에너지'로 바뀐다"

[빅테크칼럼] 머스크 "10년 내 전쟁 불가피" 경고…세계의 위기상황 반영한 현실적 경고로 '해석'

[빅테크칼럼] 오픈AI, 코드네임 'Garlic' 모델로 경쟁사 압도…AI 경쟁 2026년으로 본격화

많이 본 뉴스

[지구칼럼] 전생에 지구 구했나? 홍복의 사우디…석유강국 넘어 125km 금광·3300조원 광물 '잭팟'

[이슈&논란] 대전서 테슬라 돌진에 10중 추돌…"1명 사망·15명 부상"

[우주칼럼] 거주가능한 행성 찾기 위해 지구와 화성, 비교하다…생명 유지의 비밀과 우주 정복의 과제

[플라이미투더문] 내 마음 속 양자컴퓨팅, 그리고 Qubit(큐비트)

[이슈&논란] 밤 10시쯤부터 챗GPT·퍼플렉시티 '장애'…클라우드플레어 글로벌 인프라 마비로 전세계 AI '먹통'

[The Numbers] "코스피 7500까지 상승" 전망 나왔다…국장 40년만의 '슈퍼사이클' 돌입

[이슈&논란] 오세훈 서울시장 "토허구역 해제, 고려해볼 만한 시점…금융규제 완화 방안 논의중"

[속보] 이마트, 114억원 규모 배임·횡령 발생

[강남비자] 49년 된 반포 고속버스터미널, 60층 주상복합 '상전벽해'…고터역 ‘신세계’·삼성역 ‘현대’·잠실역 ‘롯데’ 강남상권 '삼국지'

[CEO혜윰] 백종원 6개월 만에 복귀한 ‘남극의 셰프’ 시청률 1.8% · ‘흑백요리사2’도 배제…대중 반응 싸늘한 이유

[The Numbers] 캐시 우드, 암호화폐 하락 속 비트마인 920만 달러 추가 매수…이더리움 장기가치에 '베팅'

[이슈&논란] 경희대 초밥학과? ‘수시’가 ‘스시’로… 경희대 ‘초밥모집’ 해프닝, 웃고 넘길 일만은 아닌 이유

[빅테크칼럼] 테슬라, 완전자율주행 FSD 한국 상륙 임박…안전성·제도적 도전 맞닥뜨리다

[우주칼럼] "20년 만에 최강 태양 폭풍"…NASA 임무 지연과 전 지구적 기술 장애 촉발

[The Numbers] 피터 틸, AI 주식 변동성 속 엔비디아 지분 전량 매각...월가 'AI 버블' 논란 격화

[The Numbers] 삼성바이오로직스 200만원 갈까?…재상장 첫날, 단주처리 혼선 속 목표주가 일제히 '상향'

[빅테크칼럼] 구글 CEO, 암호 이모지로 제미나이 3.0 출시 임박 암시…"AI 경쟁, 구글 반격의 서막"

[CEO혜윰] 비트코인 황제의 시련…마이클 세일러의 스트래티지, MSCI·나스닥 100 퇴출시 수조원 자금 '엑소더스' 우려

[빅테크칼럼] 중국 AI 스타트업 문샷AI, 1조 파라미터 오픈소스 모델 ‘Kimi K2 Thinking’ 출시…GPT-5 능가하며 AI시장 흔들다

[The Numbers] 배당소득 분리과세 최고세율 25%로 낮추기로…정부·여당, ‘부자 감세’ 논란 속 증시 활성화 총력

[랭킹연구소] 대기업집단 시총 순위 TOP5, 삼성·SK·현대차·LG·HD현대 順…한화 7위, 쿠팡 8위, 미래에셋 19위

[The Numbers] 인적분할후 24일 거래재개 '삼성바이오·삼성에피스' 주가는?…71% 상승·25% 급등 전망에 몸값 100조원 간다

[The Numbers] 뉴욕증시, AI 거품론과 22년 만에 최대감원에 다우존스·S&P·나스닥 '급락' 마감

[이슈&논란] HBM4 공급가 50% 인상…SK하이닉스, AI 메모리 지배력 강화로 '실적 최대치' 노린다

[랭킹연구소] 대통령실 참모진 재테크도 강남 불패?…공직자 보유 부동산 순위, 압구정현대>대치은마>서초삼풍>잠실엘스>대치미도>압구정한양 >올림픽선수촌 順

[빅테크칼럼] 구글 '나노 바나나 프로', 이미지 AI 분야 패러다임 혁신 ‘업그레이드 돌풍'…미드저니·달리·파이어플라이와 '선두경쟁'

[The Numbers] 워런 버핏 버크셔, 6조원대 구글 알파벳 주식 보유, 왜?…"기술주 투자 전략 변화 신호탄”

[빅테크칼럼] "명문대 졸업장 붕괴"…팔란티어, AI 투자 버블 경고 "대규모 AI 프로젝트 비용 정당화 어려워"

[지구칼럼] 기상예보관 "2025-2026년 극단적인 겨울 분열 예측"…라니냐와 성층권 급온난화가 빚은 극한파와 지역별 온도 분열

[빅테크칼럼] 테슬라, 한국서 감독형 FSD 정식 개시… HW4 차량 우선 적용, 7번째 글로벌 진출지로

[랭킹연구소] 세계 43개국 통근시간 순위 "1시간 48분 출퇴근" 한국 1위…한국>라트비아>룩셈부르크>튀니지>브라질 順

[랭킹연구소] 10.15 부동산 대책 이후 가장 핫한 지역은?…화성·부천·파주·구리·의정부·송파·평택·남양주·고양·시흥·안산·군포·김포·양주·용인 順

[The Numbers] 삼성전자, 2026년 시총 1000조 시대 개막…HBM4·컨벤셔널 D램 수혜로 '사상 최대' 실적 기대

[이슈&논란] 채석장 낙석 60대 작업자 사망 '서산 한라엔컴'…경찰·노동부, 중대재해법 위반 조사

[랭킹연구소] QS 아시아 대학 순위, 홍콩·중국·싱가포르 상위권·한국 10위권 진입실패…연세대(11위)·고려대(12위)·성균관대(16위)·서울대(17위)·포항공대(18위)·한양대(20위) 順

[이슈&논란] 두나무 잔칫날 '날벼락'…업비트, 공교롭게 6년 전 500억원대 대규모 해킹 '재발생'

[The Numbers] 하버드大, 비트코인 ETF 보유량 257% 급증…"암호화폐에 대한 엘리트 기관의 강력한 신뢰"

[이슈&논란] 노소영 "37년 만의 시집 온 집과의 작별… 웨딩드레스와 함께 짐을 싸며"

[이슈&논란] 한국, 딥페이크 용의자 중 10대·20대 90%…"AI 도구의 범용화가 청소년 범죄 증가"

[빅테크칼럼] "양자컴퓨터가 2030년 이후 비트코인 해킹 가능" 경고에 분주한 암호화폐 업계