2026.04.24 (금)

  • 맑음동두천 20.8℃
  • 맑음강릉 14.7℃
  • 맑음서울 21.9℃
  • 구름많음대전 21.5℃
  • 구름많음대구 17.1℃
  • 맑음울산 13.0℃
  • 맑음광주 19.7℃
  • 맑음부산 14.9℃
  • 맑음고창 15.9℃
  • 맑음제주 17.6℃
  • 맑음강화 17.8℃
  • 맑음보은 19.9℃
  • 맑음금산 18.4℃
  • 맑음강진군 17.4℃
  • 맑음경주시 13.5℃
  • 맑음거제 14.5℃
기상청 제공

빅테크

챗GPT가 수능 국어 풀었더니 "1개 틀렸다"…오픈AI 최신 모델 'o1-프리뷰' 수능 1등급

 

[뉴스스페이스=이승원 기자] 인공지능(AI) 능력이 날로 진화, 발전되어 가는 가운데 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

 

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급의 높은 성적을 기록했다. 즉 2025년 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

 

오픈소스 소프트웨어 웹사이트 ‘깃허브(GitHub)’에는 5개의 AI 모델이 2025학년도 수능 국어 영역을 푼 결과가 공개됐다. 5개 모델은 모두 챗GPT를 기반으로 한 모델로, o1 프리뷰와 o1 미니, GPT4o, GPT4o 미니, GPT3.5 터보가 사용됐다. 이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다.

 

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급을 기록했다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.

 

수능 LLM 리더보드를 개발한 마크AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼포먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 평가했다.

 

한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.

 

오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임이다. 범용의 복잡한 문제를 추론할 수 있는 AI”라면서도 “이 기술이 여전히 결함이 있고, 제한적이다"고 설명한 바 있다.

배너
배너
배너

관련기사

93건의 관련기사 더보기


[빅테크칼럼] 소니 탁구 로봇 ‘Ace’, 엘리트 선수 이겼다…"피지컬 AI가 인간의 코트까지 점령"

[뉴스스페이스=김정영 기자] 인공지능이 바둑·체스·e스포츠를 넘어서, 마침내 실제 구기 종목의 테이블 위에서 인간 엘리트 선수들을 쓰러뜨렸다. 소니 AI가 개발한 탁구 로봇 ‘에이스(Ace)’가 국제탁구연맹(ITTF) 규정에 따른 정식 경기에서 엘리트 선수들을 상대로 5전 3승의 승리를 거두고, 추가 업그레이드를 통해 프로 선수들까지 제압한 것이다. 연구가 세계적 학술지 《네이처(Nature)》에 게재되면서 ‘피지컬 AI(Physical AI)’ 시대가 본격 개막했다는 평가가 뒤따른다. ITTF 룰 정식 경기에서 5전 3승… “바둑·체스 넘은 첫 현실 스포츠 돌파구” 소니 AI 연구진은 스위스 취리히 연구소에서 개발한 로봇 팔 ‘에이스’를 소니 도쿄 본사에 설치한 올림픽 규격 탁구 코트로 옮겨, 인간 선수들과의 정식 대결에 투입했다. ITTF 공식 규칙을 적용한 경기에서 에이스는 10년 이상 훈련한 엘리트 선수 5명을 상대로 5경기를 치러 3경기에서 승리했다. 매체들은 “엘리트 선수와의 5경기 중 3경기 승리, 프로와의 2경기 패배”라는 초기 결과를 인용하며, 인간-기계 대결이 이세돌-알파고 이후 ‘분석·추론’에서 ‘신체 활동 스포츠’ 영역으로까지 확장됐다고

[빅테크칼럼] “앱 열지 말고 말로 시켜라”…스타벅스·항공사·보험사까지 챗GPT 안으로 들어왔다

[뉴스스페이스=김정영 기자] 피자부터 항공권·주택담보대출·보험상품까지, 글로벌 브랜드들이 일제히 ‘챗GPT 안의 앱(Apps in 챗GPT)’ 출시 경쟁에 뛰어들면서 대화형 AI가 사실상 새로운 쇼핑·예약 게이트웨이로 부상하고 있다. 아직 결제는 각사 앱·웹사이트로 넘어가는 ‘하프 스텝’ 단계지만, 트래픽과 데이터가 챗GPT로 몰리면서 플랫폼 파워가 애플 앱스토어·구글 플레이를 연상케 한다는 평가다. 대화가 주문이 되는 순간 4월 글로벌 소비재·서비스 브랜드들은 일제히 “챗GPT 안에서 바로 주문·예약이 가능한” 전용 앱을 공개했다. 4월 15일, 스타벅스는 사용자가 자신의 기분을 설명하거나 주변 사진을 올리면 맞춤 음료를 추천받고, 옵션을 커스터마이징한 뒤 픽업 매장까지 고를 수 있는 베타 앱을 챗GPT에 탑재했다. 같은 날 피자 체인 리틀 시저스는 인원 수, 식이 제한, 예산을 입력하면 AI가 자동으로 메뉴를 구성해 장바구니를 채워주는 주문 앱을 열었다는 보도가 이어졌다. 4월 20일에는 버진 애틀랜틱이 항공사 최초로 챗GPT 앱을 선보여 “2월 카리브해 휴가”, “런던 출발, 직항만” 같은 자연어 프롬프트로 항공편 검색·비교를 지원하기 시작했다. 4월

[빅테크칼럼] 엔비디아 CEO "AI가 직원들을 대체하는 게 아니라 세세히 관리할 것"…숫자가 말해주는 AI 일자리의 미래 '파란불'

[뉴스스페이스=이종화 기자] 엔비디아 젠슨 황 CEO가 “AI는 직원을 대체하는 대신 세세히 관리하며 더 바쁘게 만들 것”이라고 공언하면서, AI가 가져올 고용의 미래를 둘러싼 논쟁이 다시 뜨겁게 달아오르고 있다. “해고 통보가 아니라 디지털 감독관” 황 CEO는 최근 스탠퍼드 경영대학원 패널에서 AI 에이전트를 “해고 통보 기계”가 아니라 “지칠 줄 모르는 디지털 감독관”으로 규정했다. 그는 “에이전트들이 여러분을 괴롭히고(micromanage), 여러분은 그 어느 때보다 더 바빠질 것”이라며, AI가 인간을 완전히 치우는 대신 업무 강도와 속도를 끌어올리는 역할을 할 것이라고 진단했다. 이는 황이 내부 직원들에게 “AI 사용을 줄이라”는 일부 관리자를 향해 “제정신이냐(Are you insane?)”라고 질책하며 “가능한 모든 작업은 AI로 자동화돼야 한다”고 목소리를 높인 일화와 정확히 맞물린다. 그는 사내 전체 회의에서 “AI가 잘 작동하지 않는 작업이라도 ‘될 때까지 쓰라’”고 주문하며, 직원들이 도구 사용자를 넘어 AI 성능 개선 과정에 직접 개입해야 한다고 강조했다. 즉, 황의 그림 속에서 AI는 인력 감축의 도끼가 아니라, ‘모든 업무 프로세스

[빅테크칼럼] 메타·구글·퍼플렉시티, ‘에이전트봇 전쟁’ 삼국지…진짜 일하는 AI '마누스·안티그래비티·컴퓨터' 3강, 관전 포인트 3가지

[뉴스스페이스=이종화 기자] 메타·구글·퍼플렉시티가 잇따라 ‘에이전트봇’을 전면에 내세우며, 생성형 AI 경쟁의 중심축이 ‘대화’에서 ‘실행’으로 급속히 이동하고 있다. 특히 메타의 ‘마누스’, 구글의 ‘안티그래비티(Antigravity)’, 퍼플렉시티의 ‘컴퓨터(Perplexity Computer)’는 각기 다른 전략과 기술 스택으로 ‘범용 디지털 노동자’ 자리를 선점하기 위한 정면 승부에 나선 상황이다. 2026년, 에이전틱 AI 전쟁의 개막 에이전틱 AI(Agentic AI)는 사용자가 ‘질문’을 던지면 답변만 생성하던 기존 LLM과 달리, 목표를 입력하면 스스로 계획을 세우고 여러 도구와 소프트웨어를 호출해 일을 ‘끝까지’ 수행하는 AI를 뜻한다. 2026년 3월 기준 글로벌 에이전틱 AI 시장은 약 1390억달러 규모로 전망되고 있으며, 구글·메타·오픈AI·퍼플렉시티 등이 핵심 플레이어로 꼽힌다. 이 가운데 메타는 범용 에이전트 스타트업 ‘마누스(Manus)’ 인수를 통해 페이스북·인스타그램·왓츠앱 등 자사 플랫폼 전반에 AI 에이전트를 심겠다는 전략을 분명히 했다. 구글은 개발 전 과정을 통합한 에이전트 중심 개발환경 ‘안티그래비티’를 내세워 코딩

[The Numbers] '성인 플랫폼' 온리팬스, 30억달러 넘는 기업가치로 소수지분만 파는 진짜 이유…오너 별세 뒤 ‘축소된 빅딜’

[뉴스스페이스=이종화 기자] 영국 성인 콘텐츠 플랫폼 ‘온리팬스(OnlyFans)’가 30억달러(약 4조원) 이상 기업가치로 소수 지분을 매각하는 딜 성사 직전에 들어갔다. 한때 60% 매각·55억달러(부채 포함) 밸류까지 거론됐던 ‘빅 딜’ 구상이 오너의 사망 이후 소수 지분 거래로 크게 낮아진 셈이다. 30억달러 넘는 밸류, 20% 미만 지분 매각 파이낸셜 타임스(FT)와 블룸버그 등에 따르면 온리팬스는 샌프란시스코 기반 투자펀드 아키텍트 캐피털(Architect Capital)에 20% 미만의 지분을 넘기는 방안을 놓고 막바지 협상을 진행 중이다. 이 거래가 성사될 경우 온리팬스는 30억달러를 상회하는 기업가치를 인정받게 되며, 일부 보도에선 미화 38억달러 수준의 밸류가 시사된다. 딜 클로징 시점으로는 이르면 5월이 거론되지만, 협상 구조상 막판 변동 가능성이 존재한다는 점에서 ‘조건부 임박’ 단계로 보는 것이 객관적이라는 평가다. 이번 딜의 특징은 지분율뿐 아니라 구조다. 알려진 바에 따르면 아키텍트 캐피털은 외부 투자자들 자금을 모은 특수목적법인(SPV)을 통해 온리팬스 지분을 인수하는 방안을 검토 중이다. 이는 플랫폼의 규제·평판 리스크를 고려해