2026.03.12 (목)

  • 맑음동두천 1.5℃
  • 구름많음강릉 6.6℃
  • 박무서울 3.4℃
  • 박무대전 3.3℃
  • 연무대구 5.1℃
  • 구름많음울산 7.4℃
  • 연무광주 6.0℃
  • 맑음부산 9.7℃
  • 맑음고창 3.4℃
  • 맑음제주 9.0℃
  • 맑음강화 2.0℃
  • 맑음보은 0.6℃
  • 맑음금산 1.6℃
  • 맑음강진군 5.7℃
  • 맑음경주시 4.4℃
  • 맑음거제 7.0℃
기상청 제공

빅테크

[빅테크칼럼] 세계적 수학자들, AI 능력 테스트 위한 10가지 문제 공개 "AI 수학 한계 폭로"…GPT-5.2·Gemini 3.0 단발 테스트서 실패

 

[뉴스스페이스=이종화 기자] 필즈상 수상자 마틴 하이러(Martin Hairer)를 포함한 11명의 수학자 팀이 최첨단 AI 시스템이 실제 연구 수준의 수학 문제를 해결할 수 있는지 테스트하기 위한 독립적인 실험을 시작했다. 스탠퍼드, 하버드, EPFL 등 명문대 연구자들이 자신들의 미공개 연구에서 도출된 10개의 문제를 공개하고, 암호화된 정답이 2월 13일에 공개되기 전까지 대중이 AI의 시도를 관찰할 수 있도록 초대했다.

 

febspot, proofnews, arxiv, nature에 따르면, "First Proof"라고 명명된 이 프로젝트는 2월 6일 arXiv 프리프린트를 통해 공개됐으며, 오일러 수(약 2.718)를 기념하는 2월 7일 e-Day에 맞춰 진행됐다. 경쟁 스타일의 문제에 의존하는 기존 AI 벤치마크와 달리, 이 실험은 논문에 따르면 "수학자 자신의 연구 과정에서 자연스럽게 발생했고, 이후 수학자에 의해 해결되었지만 아직 인터넷에 게시되지 않은 문제들을 활용한다"고 밝혔다.

 

예비 테스트에서 오픈AI의 GPT 5.2 Pro와 구글의 Gemini 3.0 Deepthink가 단 한 번의 시도에서 다수 문제를 해결하지 못한 결과가 확인됐다.

 

기존 벤치마크 한계 직격, '자연 발생' 연구 문제 도입


전통적 AI 수학 벤치마크인 FrontierMath(수백 개 전문가 수준 미공개 문제, 오픈AI 자금 지원)나 IMProofBench(39개 연구 수준 증명 문제)는 자동 검증 가능 정수·기호 답변 형식으로 강화학습(RL) 최적화에 취약하다는 비판을 받았다.

 

이에 반해 퍼스트 프루프는 "수학자 연구 과정에서 자연 발생, 인터넷 미공개" 문제를 사용하며, 증명 길이는 5페이지 미만으로 설계됐다. 분야는 대수적 조합론 2개, 스펙트럼 그래프 이론 1개, 대수적 위상수학 1개, 확률 해석학 2개, 심플렉틱 기하학 2개, 수치 선형대수학 2개로 다양하다.

 

뉴욕타임스 보도에 따르면, 이 실험은 AI가 훈련 데이터·온라인 검색 너머 창의적 문제 해결 한계를 드러내기 위한 것으로, AI 기업 자금 전혀 받지 않고 독립 진행 중이다. 하이러는 LinkedIn에서 "최고 모델조차 한 번 시도에서 정확 답변 못 함"을 강조하며 #1stProof 해시태그로 참여 독려했다.

 

AI 실적 수치 비교: 연구 수준서 여전한 '벽'

 

비교 벤치마크에서 Grok-4는 IMProofBench 최종 하위문제 정확도 61%, GPT-5는 완전 증명 생성 21%(39문제 중 8개 성공, 7개 미해결 문제 전부 실패)을 기록했다. MATH 500(공개 도메인 문제)에서는 제미나이(Gemini) 3 Pro가 96.4% 정확도를 보였으나, 데이터 오염 우려로 진짜 연구 능력 과대평가 논란이 있다.

 

퍼스트 프루프 예비 결과는 "공개 최고 AI가 다수 문제에서 실패"로, 반복 상호작용 시 개선 가능성을 시사하나 단발 테스트 기준으로는 연구 수준 증명 불가함을 객관화했다.

 

해외 미디어 반응은 뜨겁다. NYT는 "AI 수학 '해결' 과대광고에 제동"으로, Febspot은 "LLM 연구 수학 처리 한계 측정"으로 보도했다. 

 

연구 수학 3단계 중 '해결 검증' 초점, 미래 벤치마크 예고


논문은 연구 수학을 (1) 큰 질문 파악, (2) 프레임워크 개발, (3) 소문제 해결·검증 3단계로 분해하며, 퍼스트 프루프는 (3)에 집중했다고 밝혔다. 참가자는 AI 상호작용 전체 기록 공유를 권장, 프롬프트 전략·평가 형식·데이터 오염 탐지 인사이트 수집 목적이다. 몇 달 내 제2세트 문제로 정식 벤치마크 진화 계획이며, 제빵 용어 'first proof'(1차 발효)처럼 커뮤니티 '발효'를 기대했다.

 

이 실험은 AI 수학 연구 '하이프' 억제와 학생·자금 유입 보호 효과를 노린다. 국내 수학계도 KIAS 'AI로 수학 향상' 프로젝트처럼 글로벌 추세 따라잡기에 나서야 한다는 지적이 제기된다.

배너
배너
배너

관련기사

6건의 관련기사 더보기


[빅테크칼럼] 생선 비늘로 인공 각막 개발…폐기물 70% 재활용, 1270만 대기자 '희망'

[뉴스스페이스=이종화 기자] 스페인 과학자들이 시장에서 흔히 볼 수 있는 생선의 비늘로 만든 인공 각막을 개발했다. 이는 심각한 각막 질환을 앓는 환자들에게 기증자 이식의 저렴한 대안이 될 수 있다는 평가다. 로이터, 엘 데스타페, 신화통신, 야후의 보도에 따르면, 스페인 그라나다 대학교(UGR)와 ibs.GRANADA 생물의학 연구소의 조직공학 그룹 연구진이 잉어 등 시장에서 흔히 구입 가능한 생선 비늘로 인공 각막 임플란트를 개발해 실험실 및 동물 실험에서 우수한 생체적합성, 투명도, 내구성을 확인했다. 이 물질은 탈광물화와 탈세포화 과정을 거쳐 콜라겐 기반으로 제작됐으며, 스페인 과학혁신부 산하 카를로스 3세 보건연구소의 PI23/00335 프로젝트 자금(2025년 Mater. Des. 258:114703 연구)으로 진행됐다. 눈의 투명한 최외각층인 각막은 혈관이 없고 자가 치유 능력이 제한적이어서 심각한 손상을 치료하기가 어렵다. 기증자 이식이 여전히 표준 치료법이지만, 장기 가용성과 대기자 명단으로 인해 공급이 제한적이다.​ 연구 책임자 미겔 알라미노스 조직학 교수는 "기존의 이식은 대개 좋은 결과를 제공하지만, 대기자 명단의 영향을 받는 장기 기증