[빅테크칼럼] 퍼플렉시티 Deep Research, 업그레이드 후 AI 연구 선두주자 '부상'…DRACO 벤치마크서 압도적 1위

퍼플렉시티(Perplexity) AI가 심층 연구 도구 'Deep Research'를 앤트로픽의 최신 Claude Opus 4.5 모델로 업그레이드하며 AI 연구 분야의 선두주자로 부상하고 있다. / sentinelassam.com

[뉴스스페이스=이종화 기자] 퍼플렉시티(Perplexity) AI가 심층 연구 도구 'Deep Research'를 앤트로픽의 최신 Claude Opus 4.5 모델로 업그레이드하며 AI 연구 분야의 선두주자로 부상하고 있다.

이 업그레이드는 Max 구독자($200/월)에게 즉시 제공되며, Pro 사용자에게는 며칠 내 롤아웃될 예정으로, 회사의 독자적 검색 엔진과 샌드박스 인프라를 결합해 고급 추론 능력을 극대화한다. 퍼플렉시티는 동시에 DRACO(Deep Research Accuracy, Completeness, and Objectivity) 벤치마크를 오픈소스로 공개하며 경쟁 우위를 입증했다.

news9live, testingcatalog, therift.ai, runvecta, startuppedia, huggingface에 따르면, DRACO는 학술, 금융, 법률, 의학, 기술 등 10개 도메인에서 100개 과제를 통해 사실 정확성(평균 20.5 기준), 분석 깊이(8.6 기준), 표현 품질(5.6 기준), 인용 품질(4.8 기준)을 평가하며, 실제 사용자 쿼리(수백만 건)에서 추출·증강된 작업으로 구성됐다.

벤치마크 결과: 퍼플렉시티 압도적 1위

퍼플렉시티 Deep Research는 전체 정규화 점수 67.15%로 구글 제미나이(Google Gemini) Deep Research(58.97%), 오픈AI(OpenAI) Deep Research o3(52.06%), o4-mini(41.94%)를 제쳤다. 도메인별 패스레이트(Pass Rate, 기준 충족 비율)에서 법률 89.4%, 학술 82.4%로 최고를 기록했으며, 의학(11.9%p 격차), 일반상식(10.8%p), 기술(9.8%p)에서 가장 큰 차이를 보였다.

분석 차원별로 사실 정확성 60.1%, 분석 깊이 77.2%, 인용 품질 76.0%에서 선두를 달렸고, 표현 품질(91.4%)에서도 Gemini(92.1%)에 근소하게 뒤졌다. 효율성 측면에서 평균 지연시간 459.6초로 최저(경쟁사 592~1808초), 입력 토큰 768,555개로 철저한 검색을 반영했다.

News9live는 "퍼플렉시티가 모든 10개 도메인에서 최고 패스레이트를 달성하며, Personalized Assistant와 Needle in a Haystack에서 20%p 이상 격차를 벌렸다"고 보도했다. TestingCatalog도 "DRACO가 실제 연구 시나리오를 반영해 AI 에이전트의 신뢰성을 검증한다"고 평가했다.

실제 사용 중심 설계로 차별화

기존 벤치마크(DeepResearch Bench, ResearchRubrics 등)가 단일 사실 검색이나 합성 과제에 치중한 데 비해, DRACO는 퍼플렉시티 실제 요청에서 PII 제거·컨텍스트 증강(인물 페르소나, 시간 범위, 비교 요소 추가) 과정을 거쳐 제작됐다. Hugging Face에서 데이터셋과 루브릭을 공개해 모델 무관 평가를 가능케 했다.

The Rift는 "퍼플렉시티의 수직 통합 인프라(검색·브라우저 최적화)가 속도와 정확성을 동시에 잡았다"고 분석했으며, All-AI.de(독일 매체)는 "Opus 4.5와 DRACO로 Google·OpenAI를 제쳤다"고 전했다. 퍼플렉시티 연구팀 논문은 "루브릭의 45%가 전문가 검토로 정제됐으며, LLM-as-judge가 검색 데이터 기반 사실 검증을 보장한다"고 밝혔다.

시장 함의: 연구 AI의 새 표준

퍼플렉시티 CEO Aravind Srinivas는 "금융 등 고위험 분야에서 데이터 정확성이 핵심"이라며 지속 개선을 강조했다. 마이크로소프트와의 7.5억 달러 클라우드 계약(1월 체결)으로 뒷받침된 이번 행보는, 오픈AI·구글의 Deep Research를 위협하며 AI 검색 시장 재편을 예고한다.

DRACO의 다국적 소스(40개국) 커버리지와 미래 확장(다중 턴·다언어)은 산업 표준으로 자리 잡을 전망이다. 그러나 영어 한정과 정적 데이터셋 한계가 남아있다. 퍼플렉시티 Deep Research는 이제 법률 브리핑, 의료 비교, 투자 분석 등 실무에서 '신뢰할 연구 도우미'로 부상 중이다.