[뉴스스페이스=김정영 기자] 최근 오픈AI가 코딩과 추론 분야에서 경쟁사들을 압도할 것으로 평가받는 'Garlic'이라는 코드네임의 신형 대규모 언어 모델 개발에 박차를 가하고 있다.
The Information, Fortune, Investing.com 등 주요 외신은 오픈AI의 내부 평가에서 Garlic이 구글의 제미나이3와 앤트로픽의 Claude Opus 4.5를 특히 코딩 및 추론 과제에서 앞서는 성과를 보였다고 보도했다. 이는 2025년 말 기준으로 치열해진 글로벌 AI 경쟁의 새로운 국면을 보여주는 신호로, 오픈AI는 Garlic을 GPT-5.2 또는 GPT-5.5로 2026년 초에 공개할 계획이다.
벤치마크 데이터로 본 경쟁력
Garlic의 내부 평가에서 보고된 주요 성과는 다음과 같다. 오픈AI는 SWE-bench Verified(소프트웨어 엔지니어링 벤치마크)에서 제미나이3 Pro의 76.2%, GPT-5.1의 76.3%에 비해 Garlic이 80% 이상의 성능을 목표로 하고 있으며, Claude Opus 4.5의 80.9%와 견줄 수 있는 수준에 도달할 것으로 예상된다.
제미나이3 Pro는 GPQA Diamond(고급 과학 문제)에서 91.9%를 기록해 GPT-5.1(88.1%)을 앞섰으며, ARC-AGI-2(추상적 시각 추론)에서는 31.1%로 GPT-5.1(17.6%)의 두 배에 가까운 점수를 기록했다. Claude Opus 4.5는 SWE-bench Verified에서 80% 이상의 성능을 보이며, 앤트로픽의 내부 소프트웨어 엔지니어링 시험에서도 역대 최고 점수를 기록했다. 이러한 벤치마크는 AI 모델의 실제 업무 적용 능력을 객관적으로 평가하는 지표로 평가된다.
경쟁사들의 성장과 오픈AI의 대응
구글은 2025년 11월 18일 제미나이3를 출시해 검색, 이미지 편집, 멀티모달 추론 등에서 벤치마크 1위를 차지했다. 제미나이3 Pro는 Humanity’s Last Exam(일반 추론)에서 37.4점으로 GPT-5 Pro의 31.64점을 넘어섰으며, LMArena(사용자 만족도)에서도 최고 점수를 기록했다.
앤트로픽은 11월 24일 Claude Opus 4.5를 발표하며, 복잡한 엔터프라이즈 과제에서 이전 모델 대비 성능이 크게 향상됐다고 강조했다. 이에 따라 Google의 제미나이앱 월간 활성 사용자는 2025년 10월 기준 6억5000만명으로 7월의 4억5000만명에서 급증했으며, 챗GPT의 주간 8억명과의 격차가 좁혀지고 있다는 보도가 나왔다.
연구 리더십과 조직 변화
오픈AI의 최고 연구 책임자 마크 첸은 DALL-E, Codex, o1 추론 모델 등 주요 프로젝트를 이끌며, Garlic 모델 개발을 통해 경쟁사들과의 격차를 다시 벌리겠다는 전략을 내세우고 있다. 그러나 오픈AI는 최근 수십 명의 최고 연구원들이 Meta 등 경쟁사와 신생 스타트업으로 이직하는 등 인력 유출에 직면해 있다. CEO 샘 올트먼은 12월 1일 '코드 레드'를 선언하며, 광고 계획 등 다른 이니셔티브를 연기하고 ChatGPT의 반응성, 신뢰성, 개인화 기능 강화에 자원을 집중하겠다고 밝혔다.
AI 경쟁의 새로운 국면
오픈AI의 Garlic 모델은 단순한 기술적 진보를 넘어, 경쟁사와의 벤치마크에서 구체적인 성능 차이를 보여주며 AI 시장의 판도를 재편할 가능성이 높다. 향후 2026년 초 공개될 Garlic이 GPT-5.2 또는 GPT-5.5로 브랜딩된다면, 기업과 개발자들에게 새로운 선택지를 제공할 것으로 예상된다. AI 경쟁은 단순한 성능 비교를 넘어, 효율성과 비용, 안정성, 실제 업무 적용 능력 등 다양한 차원에서 더욱 치열해질 전망이다.























































