[뉴스스페이스=김정영 기자] 오픈AI의 최신 추론 모델 ‘o1 프리뷰(o1‑preview)’를 응급실 의료진과 정면 대결시킨 결과, AI가 진단 정확도에서 숙련된 응급실 의사를 앞섰다는 연구결과가 나왔다.
이번 연구는 과학 저널 《사이언스》(Science)에 게재됐다. 연구진은 “응급실의 지저분한(real‑world) 데이터에서 조차 AI가 작동한다”는 결론을 내리면서도, 이를 ‘의사 대체’가 아닌 ‘임상시험과 규제 설계를 서둘러야 할 전환점’으로 규정했다.
76건 실제 응급실 사례, AI가 더 많이 맞혔다
science, harvardmagazine, gizmodo, sciencenews, letsdatascience, npr에 따르면, 하버드 의대와 베스 이스라엘 디코니스 메디컬 센터가 이끄는 연구팀은 보스턴 베스 이스라엘 응급실에서 실제 발생한 76건의 환자 사례를 가지고, o1 프리뷰와 두 명의 경험 많은 응급의, 그리고 이전 세대 모델인 GPT‑4를 비교한 것이다.
연구진은 각 사례를 세 시점에서 평가했다. ▲응급실 도착 직후 초기 분류(triage) ▲첫 번째 담당 의사 진료 시점 ▲입원 여부가 결정되는 시점이다. 이 세 단계마다 AI와 의사가 작성한 진단 리스트를 제시하고, 어느 쪽이 더 정확한지 모르는 상태에서 블라인드로 평가하도록 했다.
수치로 보면 o1 프리뷰의 우위는 분명하다. 기즈모도와 테크 전문 매체에 인용된 연구 수치를 보면, 76건의 실제 응급실 사례에서 “정확하거나 매우 근접한 진단”을 제시한 비율은 o1 프리뷰가 67.1%, 두 명의 전문의는 각각 55.3%, 50.0%에 그쳤다. 같은 데이터에서 “임상적으로 도움 되는(differential) 진단 후보를 제시했는가”라는 기준으로 보면 AI는 97.9%의 사례에서 유의미한 진단을 포함시켰다는 분석도 나왔다.
주목할 대목은 정보가 가장 적게 주어지는 초기 분류 단계에서 AI의 성능이 특히 두드러졌다는 점이다. 베스 이스라엘의 임상 연구자이자 논문 공동 선임저자인 아담 로드먼(Adam Rodman)은 "이 점이 이번 연구에서 가장 중요한 메시지”라며 “응급실의 혼잡하고 불완전한 전자의무기록(EHR) 데이터 환경에서도 AI가 실제 진단에 쓸 만한 판단을 내렸다”고 평가했다.
NEJM 난이도 증례에서도 ‘준최적’ 성능
연구진은 단순히 응급실 사례에 그치지 않고, 《뉴잉글랜드 저널 오브 메디슨(NEJM)》에 수십 년간 실려온 고난도 클리니컬 패소로직 콘퍼런스(CPC) 증례와 교육용 증례 세트를 추가로 사용했다. NEJM CPC는 1950년대부터 진단 알고리즘과 의사 사고력을 평가하는 ‘고전 벤치마크’로 쓰여 온 세트다.
하버드 의대 생물의학 정보학 조교수이자 논문 공동 저자인 라즈 만라이(Raj Manrai)는 하버드 매거진과 인터뷰에서 “이 정도 난이도의 증례에서 AI가 인간 전문가를 앞선다는 사실이 많은 사람들을 충격에 빠뜨렸다”며 “o1 프리뷰가 이 벤치마크 세트에서 거의 ‘준최적(nearly optimal)’에 가까운 진단 성능을 보여줬다”고 평가했다.
또 다른 평가 축인 ‘임상 관리(reasoning about management)’에서도 AI는 두각을 나타냈다. 항생제 처방, 입원·퇴원 결정, 연명의료·말기 돌봄 등 목표 설정과 관련된 의사결정 과제에서 o1 프리뷰는 GPT‑4뿐 아니라 기존 검색엔진과 교과서를 활용한 의사 집단보다 40%포인트 이상 높은 점수를 기록했다는 요약도 나와 있다.
“의사 대체” 아닌 “두 번째 뇌”…연구진과 현장의 경고
그러나 연구진은 논문과 인터뷰에서 일관되게 “이 결과가 의사를 AI로 대체하자는 근거는 아니다”라고 못박았다. 이번 연구에서 AI가 본 것은 어디까지나 텍스트 형태로 정리된 병력, 증상, 검사 결과뿐이다.
실제 진료에서 의사는 ▲흉부 X선·CT·MRI와 같은 영상 ▲심전도(EKG), 청진음 등 신호 데이터 ▲환자의 표정·말투·자세·가정폭력 가능성 등 비언어적 단서 등과 같은 비정형 정보를 동시에 읽어야 한다.
라즈 만라이는 “지금의 모델은 텍스트라는 좁은 채널에서 작동한다”며 “임상 현장의 다층적인 정보를 모두 통합하는 수준과는 거리가 있다”고 선을 그었다. 이번 연구에 참여하지 않은 뉴욕 마운트 시나이 헬스 시스템의 최고 임상 책임자 데이비드 라이히(David Reich) 역시 “최종 진단에 도달하는 일은 환자 진료의 일부에 불과하다”며, "처방·설명·정서적 지지·윤리적 판단 등은 여전히 인간 의사의 책임이다"고 강조했다.
로드먼도 “이번 결과를 근거로 기업들이 ‘의사는 덜 필요하다’는 식의 마케팅을 하는 것은 매우 위험하다”며 “이번 연구가 뒷받침하는 것은, 환자의 삶을 실제로 개선하는 방식으로 이 기술을 통합하는 방법을 찾기 위한 ‘야심차고도 엄격한’ 연구 의제”라고 선을 그었다.
규제·책임·국내 의료계에 던지는 질문
이번 연구는 의료 AI 논의를 “정확도 몇 % 올랐다”는 기술 홍보 단계에서, “이제는 임상시험 설계와 규제·책임 체계를 논의해야 할 시점”으로 끌어올린다. 논문 저자들은 “지금 이 기술을 엄격하게 평가하지 않으면, 상업적 이해가 먼저 앞서 의료 현장을 뒤흔들 것”이라고 경고한다.
국내 의료계와 규제 당국에 던지는 질문도 선명하다. ▲응급실·외래에서 LLM 기반 진단지원 시스템을 시험할 수 있는 샌드박스는 갖춰져 있는가 ▲오진 발생 시 법적 책임은 의사, 병원, AI 개발사 중 누구에게, 어떤 비율로 돌아가야 하는가 ▲한국어·다언어 환경, 고령 환자 비중이 높은 국내 현실에서 데이터 편향과 안전성을 어떻게 검증할 것인가 등이다.
이미 GPT‑4가 응급실 전공의보다 높은 진단 정확도를 보였다는 2024년 논문이 국제학술지에 발표된 데 이어, 하버드‑베스 이스라엘의 이번 연구는 “고도로 최적화된 o1 계열 모델이 특정 의료 과제에서 ‘슈퍼휴먼(superhuman)’ 영역에 진입했다”는 서술까지 이끌어내고 있다. 수치와 벤치마크는 AI의 약진을 말하지만, 누가 어떤 조건에서 이를 쓰도록 허용할지에 대한 사회적 합의는 여전히 초기 단계다.
76건의 실제 응급실 환자 중 약 두 세 건은, AI가 아니었다면 더 늦게, 혹은 엉뚱하게 진단됐을 가능성이 있다는 점이다. 그 몇 건이 ‘나 혹은 내 가족’이었을 때, 우리는 AI를 어디까지 허용하고 어디서 멈출 것인가. 지금부터가 진짜 토론의 시작이다.























































