2025.07.17 (목)

  • 흐림동두천 23.0℃
  • 흐림강릉 20.8℃
  • 서울 27.9℃
  • 구름많음대전 28.0℃
  • 흐림대구 27.6℃
  • 구름많음울산 25.5℃
  • 구름조금광주 28.6℃
  • 구름조금부산 28.2℃
  • 구름조금고창 28.4℃
  • 구름많음제주 29.8℃
  • 흐림강화 26.6℃
  • 구름많음보은 23.2℃
  • 구름많음금산 27.2℃
  • 구름많음강진군 29.6℃
  • 구름많음경주시 26.8℃
  • 맑음거제 28.6℃
기상청 제공

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

 

[뉴스스페이스=김시민 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

 

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

 

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

 

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

 

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

 

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

 

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


젠슨 황, 가죽재킷 벗고 중국의상 입다…中에 손 내민 'AI 제왕'의 전략적 변화 "중국은 AI 동반자"

[뉴스스페이스=이종화 기자] 엔비디아의 최고경영자(CEO) 젠슨 황이 7월 16일 제3회 중국국제공급망촉진박람회(CISCE) 개막식에서 특유의 검은 가죽재킷 대신 중국 전통의상 ‘당복(唐裝)’을 입고 등장해 중국 현지와 글로벌 미디어의 뜨거운 관심을 받았다. 황 CEO가 중국 전통 의상을 공식 석상에서 착용한 것은 이번이 처음으로, 시장에서는 그가 미국과 중국 사이에서 상징적인 메시지를 던졌다는 해석이 나온다. 세계 AI 시장 '빅바이어'에 파격 메시지…현장 반응 '후끈' 황 CEO는 이날 연설에서 “나는 중국인이다. 미국에서 성장했지만 나의 모국어(first language)는 중국어”라며 자신의 뿌리를 강조했다. 실제로 연설 서두와 마무리에서 중국어로 인사를 전했고, "엔비디아는 중국에서 계속 사업할 것"이라며 중국 시장에 대한 애정을 드러냈다. 현장에서는 젠슨 황의 갑작스러운 변화에 큰 반향이 일었다. 중국 국영통신 신화통신(Xinhua), 글로벌타임스(Global Times) 등 현지 주요 미디어들은 “중국 문화에 대한 존중이자, 중국 시장의 전략적 중요성에 대한 선명한 메시지”라고 평가했다. 엔비디아, H20칩 '재상륙'으로 4조달러 기업의 존재감

의사 국시까지 뚫은 국산 AI…LG ‘엑사원 4.0’, 하이브리드 혁신으로 글로벌 AI 시장에 '도전장'

[뉴스스페이스=조일섭 기자] LG가 독자 개발한 하이브리드 AI 모델 ‘엑사원(EXAONE) 4.0’이 공식 공개된 가운데, 국내 최초로 의사 국가시험 등 6개 국가공인 전문가 자격증 필기 시험을 통과할 정도의 기본기와 전문성을 모두 겸비한 점이 가장 큰 화제가 됐다. 또 글로벌 오픈소스 AI 플랫폼 ‘허깅페이스(Hugging Face)’에 오픈 웨이트로 공개되어 학술·연구·교육 등 폭넓은 용도로 활용될 전망이다. 국내 첫 ‘의사 국시’ 통과…전문 AI로서 의미 엑사원 4.0은 국가의사시험, 변호사시험, 회계사, 노무사 등 6종의 국가공인 시험을 통과한 성적을 직접 공개하며 전문 AI로서의 기술력을 입증했다. 실제로 주요 국가자격증 시험에서 합격점 이상(국시 60%, 변호사시험 40% 등)을 받는 성취를 기록하여, "한국형 전문 AI의 시대"를 연 상징적인 사건으로 평가된다. 미국, 일본 등 해외 빅테크사의 주요 AI와 비교해도 높은 일상 언어 이해력(한국어·영어 등 멀티링구얼)과, 특정 직업군을 위한 문제해결 성능이 동시에 주목받았다. 글로벌 오픈소스 플랫폼 ‘허깅페이스’ 공개…개방과 협력의 AI 전략 LG는 엑사원 4.0의 오픈 웨이트 모델을 허깅페이스에

[내궁내정] 슈퍼맨 신작에 숨겨진 11가지 놀라운 사실 (下)…데일리플래닛·저스티스 갱·주머니우주와 미니빅뱅·외계인이자 이방인

[뉴스스페이스=이종화 기자] <편집자주> 유튜브, 인스타 등에서 활동하는 인플루언서들이 '협찬을 받지 않았다', '광고가 아니다'라는 사실을 보이기 위해 "내 돈 주고 내가 샀다"라는 뜻의 '내돈내산'이라는 말이 생겼다. 비슷한 말로 "내가 궁금해서 결국 내가 정리했다"는 의미의 '내궁내정'이라고 이 기획코너를 명명한다. 우리 일상속에서 자주 접하는 소소한 얘기거리, 궁금증, 호기심, 용어 등에 대해 정리해보는 코너를 기획했다. 7. 데일리플래닛 진짜 있는 곳?…허구와 현실, 그리고 헐리우드 속 상징 데일리플래닛(Daily Planet)은 DC 코믹스의 슈퍼맨 세계관에 등장하는 ‘가상의 신문사’다. 현실 세계에 동일한 이름의 주요 언론사는 존재하지 않는다. 다만, 캐나다에 ‘Chantham Daily Planet’이라는 지역 신문이 1922년까지 존재한 적이 있으나, 슈퍼맨의 데일리플래닛과는 무관하다. 데일리플래닛은 설정상 메트로폴리스(Metropolis)라는 가상의 대도시에 위치한, 미국을 대표하는 일간지다. 편집장 페리 화이트(Perry White), 기자 클라크 켄트(슈퍼맨), 로이스 레인, 사진기자 지미 올슨 등이 직원으로 등장한다. 건물

'트위터 창립자' 잭 도시, 햇빛 노출·비타민 D 맞춤앱 공개…"야외활동 시간따라 일일 비타민 D 합성량까지 예측"

[뉴스스페이스=이종화 기자] 트위터 공동 창립자이자 블록(Block) CEO인 잭 도시는 최근 iOS 베타 앱 ‘Sun Day’를 선보이며 디지털 헬스케어 시장에 새로운 바람을 불러일으켰다. 이 앱은 사용자의 위치, 피부색, 의류 노출 정도 및 실시간 자외선(UV) 정보를 종합해, 안전한 야외활동 시간과 일일 비타민 D 합성량까지 예측해준다. 주요 기능 및 작동 방식 사용자가 테스트플라이트(TestFlight)로 앱을 설치한 뒤 피부 타입(1~6단계)과 옷차림을 입력하면, 앱은 해당 위치의 UV 지수·구름 양·일출·일몰 정보를 자동으로 불러온다. 실시간으로 맞춤 자외선 지수와 일조 정보를 제공한다. 또 피부색과 의류 노출 정도에 따라, 피부 화상 위험 없는 야외 체류 최대 시간을 알려준다. 특히 사용자가 야외로 나갈 때 ‘노출 시작’, 실내 귀가 시 ‘노출 종료’ 버튼을 누르면, 각 세션별 및 하루 누적 비타민 D 합성 추정치(국제단위, IU)를 기록·제공한다. 이 모델은 최신 의학 논문을 기반으로 개발된 다중 요인 알고리즘에 근거한다. 개인 수동 입력방식 채택과 한계점 다만 잭 도시는 X(前 트위터)에서 “자동 조도 감지가 아니라 순수하게 사용자가 노출 시