2026.02.03 (화)

  • 맑음동두천 -11.2℃
  • 맑음강릉 -0.8℃
  • 맑음서울 -7.5℃
  • 맑음대전 -7.0℃
  • 맑음대구 -4.1℃
  • 맑음울산 -3.5℃
  • 맑음광주 -4.0℃
  • 맑음부산 -2.2℃
  • 맑음고창 -3.9℃
  • 구름많음제주 3.8℃
  • 맑음강화 -8.7℃
  • 맑음보은 -10.4℃
  • 맑음금산 -10.8℃
  • 맑음강진군 -4.5℃
  • 맑음경주시 -7.0℃
  • 맑음거제 -2.0℃
기상청 제공

빅테크

[빅테크칼럼] 국내 AI, 수능 수학에서 해외 프런티어 모델에 크게 뒤처져…"AI 생태계 글로벌 경쟁력 강화 시급"

 

[뉴스스페이스=윤슬 기자] 국내 주요 대형언어모델(LLM)이 수능 수학 문제 풀이에서 해외 선도 모델에 비해 현저히 낮은 성능을 보여 AI 경쟁력 격차가 명확하게 드러났다.

 

김종락 서강대 수학과 교수 연구팀은 15일, 국내 국가대표 AI로 선정된 5개 팀의 LLM과 챗GPT, 제미나이, 클로드, 그록, 딥시크 등 해외 5개 모델을 대상으로 수능 수학 및 논술 문제 총 50문제를 동일한 조건에서 평가했다.​

 

평가 대상 문제는 수능 수학 공통과목, 확률과 통계, 미적분, 기하 영역에서 난이도가 가장 높은 문항 5개씩 20문제와 국내 10개 대학 기출 논술 10문제, 인도·일본 대학 입시 수학 각 10문제 등 총 50문제로 구성됐다. 해외 모델들은 평균 76~92점을 기록하며 고난도 문제에서도 높은 정답률을 보였다.

 

반면 국내 모델 중 업스테이지의 '솔라 프로-2'가 58점으로 가장 높은 점수를 받았고, 나머지 LG AI연구원 '엑사원 4.0.1', 네이버 'HCX-007', SK텔레콤 'A.X 4.0(72B)', 엔씨소프트 '라마 바르코 8B 인스트럭트'는 대부분 20점대에 머물렀다. 특히 '라마 바르코 8B 인스트럭트'는 2점이라는 최저점을 기록했다.​

 

연구팀은 국내 모델들이 단순 추론만으로는 문제 해결이 어렵다고 판단, 파이썬(Python) 도구 사용도 허용했으나 성능 격차는 여전히 컸다. 해외 모델로는 GPT-5.1, 제미나이 3 프로 프리뷰, 클로드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 포함됐다.​

 

심화 평가에서도 격차는 명확했다. 자체 제작한 '엔트로피매스(EntropyMath)' 문제 세트 10문제(대학 및 연구급 난이도)를 추가로 풀게 한 결과, 해외 모델은 82.8~90점을, 국내 모델은 7.1~53.3점에 그쳤다. 세 차례 시도로 정답을 맞히는 방식의 실험에서는 그록이 만점을, 다른 해외 모델들도 90점을 기록한 반면, 국내 모델은 솔라 프로-2가 70점, 엑사원이 60점, HCX-007이 40점, A.X 4.0이 30점, 라마 바르코 8B 인스트럭트가 20점으로 집계됐다.​

 

김종락 교수는 “국내 5개 소버린 AI 모델에 대한 수능 수학 평가가 부족하다는 지적이 많아 자체 테스트를 진행했다”며 “해외 프런티어 모델과 비교해 국내 모델의 수학적 추론 능력이 크게 뒤처져 있음을 확인했다”고 밝혔다. 연구팀은 이번에 평가한 국내 모델이 모두 기존 공개 버전이라는 점을 강조하며, 국가대표 AI 최신 버전이 공개되면 다시 성능을 평가할 계획이라고 덧붙였다.​

 

이번 실험은 서강대 수리과학 및 데이터사이언스 연구소(IMDS)와 딥파운틴이 공동 지원했다. 국내 AI가 수학 문제 해결 분야에서 해외에 비해 아직 기술 격차를 극복하지 못한 현실이 드러나면서, AI 생태계의 글로벌 경쟁력 강화 필요성이 다시금 제기되고 있다.​

배너
배너
배너

관련기사

19건의 관련기사 더보기


[이슈&논란] WP "구글, 이스라엘 군수업체에 AI기술 지원은 윤리규정 위반" vs 구글은 반박…군수사업과 AI 윤리 갈등 '증폭'

[뉴스스페이스=김정영 기자] 구글이 이스라엘 군수업체에 드론 감시 영상 분석 AI 기술을 지원하며 자체 윤리 규정을 위반했다는 내부고발이 미국 증권거래위원회(SEC)에 제출되면서 글로벌 빅테크의 군사 AI 윤리 딜레마가 재점화되고 있다. 워싱턴포스트(WP)가 미 증권거래위원회(SEC)에 제출된 내부 고발장을 인용해 보도했다. 2024년 구글 클라우드 부서가 이스라엘 군(IDF) 관련 업체 '클라우드엑스(CloudX)'의 제미나이(Gemini) AI 모델 지원 요청에 기술 해결책을 제안하고 내부 테스트까지 진행한 사례를 핵심 근거로 제시했다. 고발 내용: 드론 영상 객체 식별 지원 고발인은 클라우드엑스가 IDF 협력업체로, 항공 영상에서 드론·장갑차·군인 등을 식별하는 AI 신뢰성 향상을 요청했다고 주장했다. 구글 직원들은 이메일 교환 끝에 문제를 해결하며 지원을 마쳤으며, 이는 2018년 제정된 구글 AI 원칙—무기 관련 기술이나 국제 규범 위반 감시에 AI 적용 금지—을 어겼다고 꼬집었다. WP에 따르면, 고발 문건은 이 과정이 가자 지구 작전 감시와 연계됐다고 지적하나 구체 증거는 제시되지 않았다. 구글 반박: '의미 있는 사용' 미달 기준 구글 대변인은