2026.01.09 (금)

  • 구름많음동두천 3.2℃
  • 구름많음강릉 5.5℃
  • 맑음서울 3.8℃
  • 구름많음대전 5.2℃
  • 구름많음대구 0.1℃
  • 구름많음울산 2.8℃
  • 구름많음광주 5.4℃
  • 구름많음부산 5.3℃
  • 맑음고창 4.6℃
  • 맑음제주 8.1℃
  • 구름많음강화 5.9℃
  • 구름많음보은 3.8℃
  • 구름많음금산 3.3℃
  • 맑음강진군 1.0℃
  • 구름많음경주시 -2.5℃
  • 흐림거제 6.5℃
기상청 제공

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

 

[뉴스스페이스=김시민 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

 

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

 

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

 

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

 

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

 

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

 

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[The Numbers] 머스크 "북한, 침공 필요도 없고, 걸어 넘어오면 된다” 비유…숫자로 뜯어본 ‘한국 인구 붕괴’ 시나리오

[뉴스스페이스=이종화 기자] 일론 머스크 테슬라 CEO는 미국 기업가 피터 디아만디스의 팟캐스트 ‘문샷(Moonshots)’ 220회(현지시간 1월 7일 공개)에서 한국을 “전 세계 인구 붕괴가 가장 심각한 사례”로 다시 지목했다. 그는 “한 나라가 바른 경로로 가지 않는다는 신호 중 하나는 성인용 기저귀가 아기용 기저귀보다 많아질 때인데, 한국은 이미 수년 전에 그 지점을 넘어섰다”고 말했다고 전했다. 머스크는 이어 “한국의 출산율은 대체출산율의 3분의 1 수준이며, 3개 세대를 지나면 인구가 27분의 1, 현재의 3%가 된다”며 “그렇게 되면 북한이 침공할 필요도 없고 그냥 걸어서 넘어오면 된다”고 과격한 비유를 사용했다. ​ 데이터로 본 ‘3세대 후 3%’ 논리 머스크의 계산은 이론상 단순한 산술이다. 인구를 유지하는 데 필요한 대체출산율이 약 2.1명인 반면, 한국의 합계출산율은 2023년 0.72명, 2024년 잠정치 0.74~0.75명 수준으로 OECD 최저라는 점에서 “대체출산율의 3분의 1”이라는 표현은 수치상 크게 틀리지 않는다. 단순 비율로 0.7대 출산율을 2.1로 나누면 약 0.33이 나와, 한 세대마다 인구가 3분의 1로 줄어든다고 가