2025.12.27 (토)

  • 흐림동두천 -1.5℃
  • 맑음강릉 2.5℃
  • 흐림서울 -0.4℃
  • 대전 0.3℃
  • 구름많음대구 2.5℃
  • 구름조금울산 2.6℃
  • 구름많음광주 3.7℃
  • 맑음부산 3.0℃
  • 흐림고창 3.7℃
  • 구름많음제주 5.9℃
  • 맑음강화 -0.3℃
  • 흐림보은 -0.4℃
  • 구름많음금산 1.0℃
  • 구름조금강진군 -0.1℃
  • 구름조금경주시 -1.5℃
  • 맑음거제 1.4℃
기상청 제공

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

 

[뉴스스페이스=김시민 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

 

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

 

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

 

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

 

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

 

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

 

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[이슈&논란] 쿠팡, 자체조사 발표 후 뉴욕증시서 6.5% 급등…진실 공방·집단소송 속 '조건부 랠리'

[뉴스스페이스=김희선 기자] 대규모 개인정보 유출 사태로 논란의 중심에 선 쿠팡이 자체 조사 결과 발표 직후 뉴욕증시에서 급등세를 보였다. 2025년 12월 26일(현지시간) 뉴욕증권거래소에서 쿠팡 모회사인 쿠팡아이엔씨는 전 거래일 대비 6.45% 오른 24.27달러에 거래를 마쳤다. 뉴욕증시는 전날 성탄절 휴일로 휴장했으며, 이날은 쿠팡의 자체 조사 결과 발표 이후 첫 거래일이었다. ​ 쿠팡은 12월 25일 보도자료를 통해 포렌식 증거를 활용해 고객 정보를 유출한 전직 직원을 특정했다고 밝혔다. 회사 측에 따르면, 유출자가 3,370만 고객 계정의 정보에 접근했으나 실제로는 약 3,000개 계정의 정보만 저장했으며, 이마저도 언론 보도 후 모두 삭제했다고 주장했다. 또한 고객 정보가 제3자에게 전송된 증거는 없으며, 결제 정보와 로그인 정보는 유출되지 않았다고 설명했다. 투자자들은 이번 발표로 데이터 유출 사고의 불확실성이 다소 해소됐다고 판단한 것으로 보인다. 미 투자 전문 매체 배런스는 "위험 해소가 최근 주가 급등의 주요 원인"이라고 분석했다. 쿠팡 주가는 장중 한때 25.38달러까지 치솟으며 10% 넘게 상승하기도 했으나 장 후반 상승폭을 일부 반납

[빅테크칼럼] "로보택시의 역설" 문 닫기만 해도 건당 3만원…자율주행 시대의 신종 일자리

[뉴스스페이스=이종화 기자] 완전 자율주행 기술이 확산되면서 로보택시(무인택시)가 운전자의 일자리를 대체하고 있지만, 동시에 인간의 도움이 필요한 상황이 빈번히 발생하며 새로운 형태의 일자리가 탄생하고 있다. 미국 로스앤젤레스와 샌프란시스코 등지에서 구글 웨이모(Waymo) 로보택시가 승객이 차 문을 제대로 닫지 않거나 안전벨트가 끼어 문이 닫히지 않을 경우, 차량이 그대로 멈춰 서는 문제가 반복되면서 이를 해결하는 ‘인간 구조대’가 새로운 꿀알바로 떠오르고 있다. 인간의 손길, 로보택시의 아킬레스건 로보택시는 운전석에 사람이 없어도 도로를 주행하며 택시 기사들과 경쟁할 수 있지만, 운행이 끝난 후 차 문이 완전히 닫히지 않으면 차량이 출발하지 못하는 구조다. 실제 사례로 LA 선셋스트립 거리를 걷던 돈 애드킨스 씨는 웨이모 차량이 “오른쪽 뒷문을 닫아주세요”라는 안내 음성을 반복하며 멈춰 서 있는 것을 발견하고, 직접 문을 닫아주는 등 도움을 주기도 했다. 이처럼 승객이 문을 제대로 닫지 않거나 안전벨트 등이 끼는 경우가 자주 발생해, 로보택시는 사람의 도움 없이는 움직일 수 없는 상황이 반복되고 있다. 건당 22달러, 신종 꿀알바 등장 웨이모는 이런 문제