2026.06.07 (일)

  • 흐림동두천 22.7℃
  • 흐림강릉 19.7℃
  • 흐림서울 24.1℃
  • 흐림대전 26.5℃
  • 흐림대구 22.1℃
  • 흐림울산 19.1℃
  • 구름많음광주 28.3℃
  • 흐림부산 22.3℃
  • 흐림고창 27.1℃
  • 흐림제주 22.8℃
  • 맑음강화 22.6℃
  • 흐림보은 24.0℃
  • 구름많음금산 25.5℃
  • 구름많음강진군 27.1℃
  • 흐림경주시 19.2℃
  • 구름많음거제 23.1℃
기상청 제공

빅테크

오픈AI, 국제수학올림피아드 금메달 ‘충격’…"인간 수학을 넘어선 새역사·인간문명에 도전장"

 

[뉴스스페이스=김정영 기자] 2025년 7월, 인공지능(AI)이 또 한 번 역사를 썼다. 오픈AI(OpenAI)가 개발한 범용 추론 언어 모델이 세계 최고 고등학생 수학 경진대회인 국제수학올림피아드(IMO)에서 ‘금메달 수준’ 성적을 공식 인증받았다.

 

Business Insider, TechCrunch, Engadget 등의 매체와 Simon Willison’s Weblog, lesswrong.com, THE-DECODER.com 등의 자료를 분석한 결과에 따르면, 이 모델은 인간과 동등한 조건(두 번의 4.5시간 시험 세션, 인터넷∙계산도구 미사용)에서 출제된 6개 문제 가운데 5개를 완벽히 풀어내며, 42점 만점에 35점을 획득해 금메달 기준점을 넉넉히 넘었다.

 

IMO는 630명의 참가자 중 약 67명(전체의 10% 정도)만이 금메달을 따는 세계에서 가장 까다로운 대회로 알려져 있다. 오픈AI의 모델은 이 대회에서 실제 인간 수상자들과 같은 방식, 동일한 평가지침 아래서 전직 IMO 메달리스트 심사위원 3인에 의해 각각 채점됐고, 만장일치로 점수가 확정됐다.

 

“단일 과업 특화 모델 아니다”…범용 AI의 본격 도약


이번 성과는 전문 수학 프로그램이 아닌 일반 범용 대화형 AI가 달성했다는 점이 더욱 충격적이다.

 

연구원 Alexander Wei는 이번 성과가 “특정 과업 최적화가 아니라, 범용 강화학습과 시험 시 컴퓨팅 확장(test-time compute scaling)의 신기술을 적용한 결과”라고 밝혔다. 모델은 인간처럼 문제를 자연어(영어)로 서술해가며 해설했고, 기존 LLM(대규모 언어 모델)과 달리 시험 중 답을 내기까지 ‘수 시간’을 집중적으로 고민하는 접근으로 높은 평가를 받았다.

 

오픈AI 연구원 Noam Brown은 “최고의 인간과 AI의 약간 차이는 엄청난 차이”라고 강조했다.

 

경쟁 모델과 격차 ‘수치로 입증’


최근 MathArena.ai가 주요 상용 및 연구 모델(Gemini 2.5 Pro, Grok-4, o3 등)을 동일한 IMO 2025 문제로 평가한 결과, 최고 성적을 기록한 Gemini 2.5 Pro가 13점(42점 만점, 약 31%)에 그치며 동메달 커트라인(19점)에도 미달했다는 점은 AI 간 ‘성능 격차’의 현실을 수치로 단적으로 드러낸다.

 

심지어 일부 모델은 논리적 오류, 불완전한 해설, 심지어 없는 정리까지 만들어내는 등 한계를 노출했다는 것이 해외 IT매체들의 지적이다.

 

“곧 출시될 GPT-5와는 다른 연구 성과”…일반 공개는 미정


오픈AI는 “이 모델은 실험적으로만 개발된 연구용 시스템으로, 수 개월 내에라도 대중에 공개할 계획이 없다”고 못박았다. 대신 곧 공개될 예정인 GPT-5는 별도 팀이 개발 중인 소비자용 모델로, 이번 수학 올림피아드 금메달 성능과는 직접 관련이 없음을 분명히 했다.

 

AI 추론력의 한계 돌파…수학을 넘어 ‘문명 패러다임’ 바꿀까

 

AI의 수학 고차원 문제 해결력은 그 자체로 미래 문명의 ‘패러다임 시프트’ 신호탄으로 주목받고 있다. 전문가들은 이번 성과가 단순 수치 향상을 넘어 ▲범용 추론력 강화 ▲복잡한 창의 문제 해결 ▲증명 중심의 자연어 의사소통 등 인간 학습과정의 핵심 단계마저 기계가 넘기 시작한 기점으로 해석한다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] 프랑스 AI 군사 시스템 ‘아르카디아’, 팔란티어 메이븐에 도전장…유럽 안보의 새 변수 되나

[뉴스스페이스=김정영 기자] 프랑스 육군이 AI 기반 전장 지휘 시스템 ‘아르카디아(Arcadia)’를 앞세워 NATO 표준으로 채택된 팔란티어 ‘메이븐 스마트 시스템(Maven Smart System·MSS NATO)’에 정면 도전장을 던졌다. 이번 행보는 전장 AI까지 ‘디지털 주권’을 확보하려는 유럽의 전략적 승부수이자, 방산·AI 산업 지형을 뒤흔들 수 있는 중장기 변수로 평가된다. 프랑스판 메이븐 ‘아르카디아’의 실체 프랑스 육군은 NATO가 2025년 팔란티어의 메이븐 스마트 시스템을 도입해 연합 지휘·정보 분석의 핵심 도구로 활용하기 시작한 직후, 자체 AI 지휘 체계 아르카디아를 ‘유럽판 메이븐’으로 육성하겠다는 방침을 공식화했다. NATO는 메이븐이 생성형 AI·머신러닝·대규모 언어모델을 활용해 “안전하고 공통된 작전 역량”을 제공한다고 평가하며 작전 지원 체계로 채택한 바 있다. 프랑스군 부사령관 패트릭 쥐스텔(Patrick Justel) 장군은 이 시스템을 유럽 내 NATO 동맹국에 적극 홍보하고 있으며, 6월 NATO 연합훈련에서 실제 전장 시나리오에 투입해 성능을 검증한다는 계획이다. 미군이 장기간 실전에서 다듬은 팔란티어 메이븐과 달

[빅테크칼럼] 벤지오, AI 질주에 제동 걸다…"통제할 방법을 모르는 AI를 세상이 만들고 있다" 경고

[뉴스스페이스=이현주 기자] 요슈아 벤지오가 다시 한 번 AI 업계의 속도전에 경고음을 울렸다. 그는 블룸버그 인터뷰에서 “우리가 통제할 방법을 모르는” 시스템을 세상이 만들고 있다며, 자율적 AI 에이전트의 확산을 막기 위한 국제 공조를 촉구했다. 벤지오는 “지금 우리는 완전한 통제 능력을 갖고 있지 않다”고 직설적으로 말했고, 해법이 국가 단위가 아니라 글로벌 거버넌스 차원에서 나와야 한다는 점을 강조했다. 핵심은 기술의 유용성이 아니라 통제 불가능성이다. LawZero가 공개한 연구 설명에 따르면 벤지오가 구상한 ‘Scientist AI’는 목표를 추구하는 에이전트형 AI와 달리, 세상을 이해하고 예측하되 자체 목표를 갖지 않는 안전 중심 시스템이다. LawZero는 또한 “현재의 첨단 AI 시스템은 공공안전과 보안에 중대한 위험을 초래할 수 있으며, 통제 불가의 인간 통제 상실까지 이어질 수 있다”고 적시했다. 이는 벤지오가 단순한 철학적 우려가 아니라, 기술 설계 자체를 바꾸는 방향으로 문제를 풀겠다고 나선 배경을 보여준다. 벤지오의 경고는 국제적 연구 흐름과도 맞닿아 있다. 2025년 1월 공개된 국제 AI 안전 보고서는 100명의 AI 전문가가

[내궁내정] 너의 췌장을 살리고싶어? 망가뜨리는 7가지 습관·살리는 4가지 습관…'침묵의 장기' 췌장의 의미·흥미·재미

[뉴스스페이스=이종화 기자] <편집자주> 유튜브, 인스타 등에서 활동하는 인플루언서들이 '협찬을 받지 않았다', '광고가 아니다'라는 사실을 보이기 위해 "내 돈 주고 내가 샀다"라는 뜻의 '내돈내산'이라는 말이 생겼다. 비슷한 말로 "내가 궁금해서 결국 내가 정리했다"는 의미의 '내궁내정'이라고 이 기획코너를 명명한다. 우리 일상속에서 자주 접하는 소소한 얘기거리, 궁금증, 호기심, 용어 등에 대해 정리해보는 코너를 기획했다. 췌장은 혈당을 조절하고 음식물을 소화시키는 ‘침묵의 핵심 장기’이며, 한 번 망가지면 회복이 어렵기 때문에 생활습관 차원의 선제 관리가 필수다. 특히 흡연·과음·고지방·고당 식습관과 비만, 운동 부족이 췌장을 지속적으로 자극해 췌장염·당뇨병·췌장암 위험을 크게 높인다는 것이 주요 의료기관과 국가기관의 공통된 경고다. 1. 췌장은 어떤 장기인가 … “소화 공장 + 혈당 관제탑” 서울아산병원 인체정보에 따르면 췌장은 위 뒤쪽에 숨듯이 자리한 후복막 장기로, 길이 약 15cm 남짓의 납작한 장기지만 소화와 혈당 조절을 동시에 맡는 복합 ‘이중 모듈’이다. 췌장은 외분비 기능으로 탄수화물·단백질·지방을 분해하는 소화효소(아밀라아제