챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

2023년 6월 9일 서울 여의도 63스퀘어에서 열린 'K-스타트업 미트 오픈 AI'에 참석한 샘 올트먼 오픈AI CEO(오른쪽)와 이영 중소벤처기업부 장관이 대담을 하고 있다. [중소벤처부]

[뉴스스페이스=이승원 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

관련기사

이 시각 추천뉴스

[빅테크칼럼] 앤트로픽, 2차 시장서 ‘1조 달러’ 찍으며 오픈AI 추월…뜨거운 앤트로픽, 식어가는 오픈AI '온도차'

[빅테크칼럼] 소니 탁구 로봇 ‘Ace’, 엘리트 선수 이겼다…"피지컬 AI가 인간의 코트까지 점령"

[빅테크칼럼] “구글에서도 딥마인드는 클로드, 나머지는 제미나이?”…구글 내부 AI ‘이중 구조’ 논란이 던진 질문

[빅테크칼럼] “앱 열지 말고 말로 시켜라”…스타벅스·항공사·보험사까지 챗GPT 안으로 들어왔다

[빅테크칼럼] 엔비디아 CEO "AI가 직원들을 대체하는 게 아니라 세세히 관리할 것"…숫자가 말해주는 AI 일자리의 미래 '파란불'

[빅테크칼럼] 메타·구글·퍼플렉시티, ‘에이전트봇 전쟁’ 삼국지…진짜 일하는 AI '마누스·안티그래비티·컴퓨터' 3강, 관전 포인트 3가지

[빅테크칼럼] “개발자 일자리 끝”이라던 앤트로픽 CEO, 정작 엔지니어 429명 뽑는 이유

[The Numbers] '성인 플랫폼' 온리팬스, 30억달러 넘는 기업가치로 소수지분만 파는 진짜 이유…오너 별세 뒤 ‘축소된 빅딜’

[빅테크칼럼] “프롬프트 한 줄이 파워포인트 대체”… 앤트로픽, ‘Claude Design’으로 Adobe·Figma 정조준

많이 본 뉴스

[빅테크칼럼] AI가 열어젖힌 ‘1인 유니콘’ 신화 '메드비(Medvi)'…"단 2명 회사, 연매출 2조원"

[The Numbers] 삼성전자·SK하이닉스, 주가 급락의 진짜 이유…구글 '터보퀀트' 쇼크, 메모리반도체 시장 재편 신호탄

[이슈&논란] "조합장 해임 총회 오시면 프라이팬 드려요"…DL이앤씨, 상대원2구역 매표 행위에 '조합원들 뿔났다'

[The Numbers] 일룸, 실적 '반토막'에도 지주사 신설 직후 15억 중간배당… 대만법인 부실에 자본잠식·내부거래·고배당·소송까지 '첩첩산중'

[랭킹연구소] 한국 기업 매출 순위 TOP10…삼성전자>한국전력>SK하이닉스>현대차>기아>현대모비스>한국가스공사>에쓰오일>삼성생명>LG전자 順

[랭킹연구소] 연령대별 한국인이 선호하는 모바일 앱?…1020 커뮤니티·콘텐츠, 3040 커리어·재테크, 50대이상 쇼핑·생활편의

[The Numbers] 공차코리아, 매출·영업익 동반 하락 속 '오너 배당 잔치'…로열티 부담에 소송 리스크까지 '첩첩산중'

[The Numbers] 자코모, 1000억 매출에 수익성 '급전직하', 차입금 급증·특수관계자 거래 '경고등'…누적결손 40억·부채비율 2826%에 자본잠식 '우려'

[The Numbers] 프레인글로벌, 매출 959억에도 영업익 20%·순이익 92% 급감 '수익성 빨간불'… 자회사 줄줄이 적자·무리한 투자 후폭풍?

[이슈&논란] 구글 직원으로 위장 ‘이란 스파이 미녀 자매’…픽셀·SoC 기밀, 이란으로 흘러갔나

[빅테크칼럼] 구글 “양자컴퓨터가 50만 큐비트면 9분 만에 비트코인 깬다” 경고

[The Numbers] 함샤우트글로벌, 매출 15% 감소·순이익 37% 급감 '어닝쇼크'… 9.8억 회계오류·특수관계자 대여금 4배 급증·부채비율 425% '리스크'

[우주칼럼] 아르테미스 2호, 54년 만의 유인 달 비행 '최종 카운트다운' 돌입

[이슈&논란] AI 과일 연애쇼, 10일 만에 3억 조회·330만 팔로워…틱톡, ‘저품질 AI’ 규정으로 강제 퇴출

[랭킹연구소] 옴디아 ‘삼성 1위' vs 카운터포인트 '애플 1위’…1분기 다른 스마트폰 세계지도, 진짜 1위는?

[지구칼럼] “지구는 25억 인구만 감당 가능”…세계 83억명 ‘생태 초과’로 경고등

[The Numbers] 다이닝브랜즈그룹(BHC), 영업이익률 27%·당기순이익 40% 급증…1408억 배당잔치·7건(192억) 법적소송·종속사 손상차손 13억 '지배구조의 부끄러운 민낯'

[빅테크칼럼] 유출된 오픈AI 주주명부 '발칵' MS 18배 수익과 올트먼의 지분…“지분 0% CEO가 이끄는 8520억달러 기업”

[빅테크칼럼] 애플, 창립 50주년(4월 1일)을 맞아 AI 지연과 반독점 소송에 직면…흔들리는 ‘거인의 시험대’

[The Numbers] 5조 매출 배민(우아한형제들)의 그늘…수익성 역주행·5700억 본사 송금·공정위 칼날 '삼중고'

[The Numbers] 라이나생명, 영업이익 26% 급감에도 美 본사에 3000억 '배당 잔치'… 자본유출 논란 '도마 위'·법적소송 29건

[The Numbers] 피알원, 매출 6.2% 급감에 영업이익 45% 곤두박질…오너 일가 연계 특수관계자 거래 580억원 '내부거래 그물망' 촘촘

[이슈&논란] NYT, 비트코인 창시자 사토시 나카모토로 아담 백 지목…증거는 쌓였지만 결론은 없다

[The Numbers] 메가커피 운영 엠지씨글로벌, 매출 6469억이지만 '속빈 강정'…그 뒤엔 772억 '오너 배당잔치'·1057억 차입금 폭탄·해외법인 적자누적

[The Numbers] 야놀자 품 '놀유니버스', 매출 167% 급증에도 짙어진 '리스크'…부채비율 222%·유동성악화 등 재무 '빨간불'·3건 법적소송 53억

[The Numbers] 케이피알(KPR), 매출 353억·영업이익률 0.9% '수익성 적신호'…쥐꼬리 이익·현금흐름 악화에 오너일가 '배당 논란'

[The Numbers] 제주신화월드, 영업손실 지속·부채비율 악화 '흔들'…1.3조 결손금에 6건 소송·차입금 '부담'에 경영진 고액보상·본사로열티 '빈축'

[빅테크칼럼] AI 거인 앤트로픽, 클로드 코드 51만 줄 소스 대유출… 연속 보안 실책에 업계 충격

[The Numbers] 농심켈로그, 매출 정체·이익 급감에도 ‘순이익 90%’ 배당에 ‘기술료·수수료’까지 본사行…"한국 법인은 현금 인출기"

[The Numbers] 귀뚜라미홀딩스, 순이익 70% 증발·3628억 '폭탄배당'의 민낯…재무성적 빨간불·579억 특수관계자 거래·69억 소송·종속기업 다수 적자 '첩첩산중'

[랭킹연구소] 2025년 1000大기업 영업이익 189조·순익 1위 27년 만에 교체…SK하이닉스>삼성전자>한국전력>기아>KB금융>현대차>기업은행>SK이노베이션>신한지주>삼성화재 順

[The Numbers] 테슬라코리아, 매출 3조원 돌파 2배급증에도 '한정의견' 낙인…배당성향 175%·세무추징 251억·이전가격 조정 645억의 민낯

[The Numbers] 성원애드피아, 매출 1000억원대 방어·순이익 19% 급감…오너일가 배당 3배 ‘껑충’ 특수관계자 자금대여·소송 '리스크'

[빅테크칼럼] 엔비디아 독주에 칼 빼든 앤트로픽…‘3.5GW 동맹’ 넘어 자체 AI 칩까지 노린다

[The Numbers] 호반건설, 매출 35% 급감에 PF 부실·대손상각 2380억 '직격탄'…오너일가 245억 배당잔치·소송 99건 1600억·특수관계자 자금 '퍼주기'

[우주칼럼] 119개 탑재체 몰린 팰컨9, 3월 30일 발사예정…NASA 기술 실증 라이더가 된 스페이스X

[랭킹연구소] 1년새 임직원수 증가기업 순위, TOP20…SK하이닉스>한화오션>기아>삼양식품>LIG넥스원>한화손해보험>한화에어로>삼성중공업>네이버>CJ프레시 順

[빅테크칼럼] “가짜 오픈AI 앱도 진짜처럼”…북한發 Axios 공급망 공격, macOS 인증서까지 영향 미쳐

[이슈&논란] 비트코인 개발자들, 양자 컴퓨터 위협에 사토시 시대 코인 동결 제안…소유권과 보안 사이 '줄타기'

[The Numbers] 본아이에프, 매출 3000억 돌파·영업이익 20% 급감…오너 일가 '배당 잔치'·특수관계자 자금 지원에 '속빈 강정'