2026.01.16 (금)

  • 흐림동두천 0.5℃
  • 맑음강릉 10.7℃
  • 박무서울 2.8℃
  • 흐림대전 1.2℃
  • 연무대구 7.4℃
  • 맑음울산 11.0℃
  • 박무광주 5.5℃
  • 맑음부산 15.0℃
  • 맑음고창 4.2℃
  • 맑음제주 15.3℃
  • 흐림강화 -0.2℃
  • 구름많음보은 -0.8℃
  • 맑음금산 0.3℃
  • 맑음강진군 7.8℃
  • 맑음경주시 9.0℃
  • 맑음거제 10.1℃
기상청 제공

빅테크

[빅테크칼럼] 국내 AI, 수능 수학에서 해외 프런티어 모델에 크게 뒤처져…"AI 생태계 글로벌 경쟁력 강화 시급"

 

[뉴스스페이스=윤슬 기자] 국내 주요 대형언어모델(LLM)이 수능 수학 문제 풀이에서 해외 선도 모델에 비해 현저히 낮은 성능을 보여 AI 경쟁력 격차가 명확하게 드러났다.

 

김종락 서강대 수학과 교수 연구팀은 15일, 국내 국가대표 AI로 선정된 5개 팀의 LLM과 챗GPT, 제미나이, 클로드, 그록, 딥시크 등 해외 5개 모델을 대상으로 수능 수학 및 논술 문제 총 50문제를 동일한 조건에서 평가했다.​

 

평가 대상 문제는 수능 수학 공통과목, 확률과 통계, 미적분, 기하 영역에서 난이도가 가장 높은 문항 5개씩 20문제와 국내 10개 대학 기출 논술 10문제, 인도·일본 대학 입시 수학 각 10문제 등 총 50문제로 구성됐다. 해외 모델들은 평균 76~92점을 기록하며 고난도 문제에서도 높은 정답률을 보였다.

 

반면 국내 모델 중 업스테이지의 '솔라 프로-2'가 58점으로 가장 높은 점수를 받았고, 나머지 LG AI연구원 '엑사원 4.0.1', 네이버 'HCX-007', SK텔레콤 'A.X 4.0(72B)', 엔씨소프트 '라마 바르코 8B 인스트럭트'는 대부분 20점대에 머물렀다. 특히 '라마 바르코 8B 인스트럭트'는 2점이라는 최저점을 기록했다.​

 

연구팀은 국내 모델들이 단순 추론만으로는 문제 해결이 어렵다고 판단, 파이썬(Python) 도구 사용도 허용했으나 성능 격차는 여전히 컸다. 해외 모델로는 GPT-5.1, 제미나이 3 프로 프리뷰, 클로드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 포함됐다.​

 

심화 평가에서도 격차는 명확했다. 자체 제작한 '엔트로피매스(EntropyMath)' 문제 세트 10문제(대학 및 연구급 난이도)를 추가로 풀게 한 결과, 해외 모델은 82.8~90점을, 국내 모델은 7.1~53.3점에 그쳤다. 세 차례 시도로 정답을 맞히는 방식의 실험에서는 그록이 만점을, 다른 해외 모델들도 90점을 기록한 반면, 국내 모델은 솔라 프로-2가 70점, 엑사원이 60점, HCX-007이 40점, A.X 4.0이 30점, 라마 바르코 8B 인스트럭트가 20점으로 집계됐다.​

 

김종락 교수는 “국내 5개 소버린 AI 모델에 대한 수능 수학 평가가 부족하다는 지적이 많아 자체 테스트를 진행했다”며 “해외 프런티어 모델과 비교해 국내 모델의 수학적 추론 능력이 크게 뒤처져 있음을 확인했다”고 밝혔다. 연구팀은 이번에 평가한 국내 모델이 모두 기존 공개 버전이라는 점을 강조하며, 국가대표 AI 최신 버전이 공개되면 다시 성능을 평가할 계획이라고 덧붙였다.​

 

이번 실험은 서강대 수리과학 및 데이터사이언스 연구소(IMDS)와 딥파운틴이 공동 지원했다. 국내 AI가 수학 문제 해결 분야에서 해외에 비해 아직 기술 격차를 극복하지 못한 현실이 드러나면서, AI 생태계의 글로벌 경쟁력 강화 필요성이 다시금 제기되고 있다.​

배너
배너
배너

관련기사

17건의 관련기사 더보기


[이슈&논란] 이란 '전자전' 돌입…스타링크 패킷 80% 차단, 반정부 시위 영상 유포 막기 '안간힘'

[뉴스스페이스=김정영 기자] 이란 정부가 반정부 시위 진압 과정에서 일론 머스크의 스타링크 위성 인터넷을 겨냥한 군용 전파 교란을 강화하며 '전자전'에 돌입했다. 수도 테헤란 서부 지역에서 드론을 동원해 지붕 위 스타링크 안테나를 수색·압수하는 대규모 작전을 펼치고 있다. 인터넷 감시단체 넷블록스에 따르면, 1월 8일부터 이란 전역 인터넷 접속률이 평소 수준의 1% 또는 5%까지 급락하며 100시간 이상 '디지털 블랙아웃' 상태가 지속되고 있다. ​ 스타링크, 밀수입 단말기 10만대…시위 영상 외부 유포 '라이프라인' 이란 내 스타링크 사용자 수는 10만명을 초과하며, 지난 1년간 20배 증가한 것으로 추정된다. 전자상거래협회 관계자는 고유 사용자 3만명 이상이 월 700~2,000달러를 지불하며 위성 인터넷을 이용한다고 밝혔다. 시위 현장에서 촬영된 영상을 스타링크로 외부 제3자에게 전송해 소셜미디어에 게시하는 방식으로 정보가 전 세계에 확산되고 있다. ​ 미안그룹의 아미르 라시디 디지털권리 전문가는 "시위 집중 지역에서 스타링크 패킷 손실률이 30%에서 80%까지 치솟았다"며 정부의 이동식 재머 사용을 지적했다. 스페이스X는 소프트웨어 업데이트로 테헤란