2026.05.01 (금)

  • 맑음동두천 22.2℃
  • 구름많음강릉 16.1℃
  • 맑음서울 19.5℃
  • 맑음대전 18.7℃
  • 구름많음대구 13.4℃
  • 흐림울산 12.1℃
  • 맑음광주 18.9℃
  • 부산 12.2℃
  • 맑음고창 17.6℃
  • 맑음제주 18.6℃
  • 맑음강화 19.3℃
  • 맑음보은 17.0℃
  • 맑음금산 18.3℃
  • 맑음강진군 19.7℃
  • 흐림경주시 12.8℃
  • 흐림거제 15.2℃
기상청 제공

빅테크

[빅테크칼럼] “AI, 응급실에서 사람 의사 이겼다”…하버드 연구가 던진 냉정한 숫자와 뜨거운 질문

 

[뉴스스페이스=김정영 기자] 오픈AI의 최신 추론 모델 ‘o1 프리뷰(o1‑preview)’를 응급실 의료진과 정면 대결시킨 결과, AI가 진단 정확도에서 숙련된 응급실 의사를 앞섰다는 연구결과가 나왔다.

 

이번 연구는 과학 저널 《사이언스》(Science)에 게재됐다. 연구진은 “응급실의 지저분한(real‑world) 데이터에서 조차 AI가 작동한다”는 결론을 내리면서도, 이를 ‘의사 대체’가 아닌 ‘임상시험과 규제 설계를 서둘러야 할 전환점’으로 규정했다.

 

76건 실제 응급실 사례, AI가 더 많이 맞혔다

 

science, harvardmagazine, gizmodo, sciencenews, letsdatascience, npr에 따르면, 하버드 의대와 베스 이스라엘 디코니스 메디컬 센터가 이끄는 연구팀은 보스턴 베스 이스라엘 응급실에서 실제 발생한 76건의 환자 사례를 가지고, o1 프리뷰와 두 명의 경험 많은 응급의, 그리고 이전 세대 모델인 GPT‑4를 비교한 것이다.

 

연구진은 각 사례를 세 시점에서 평가했다. ▲응급실 도착 직후 초기 분류(triage) ▲첫 번째 담당 의사 진료 시점 ▲입원 여부가 결정되는 시점이다. 이 세 단계마다 AI와 의사가 작성한 진단 리스트를 제시하고, 어느 쪽이 더 정확한지 모르는 상태에서 블라인드로 평가하도록 했다.

 

수치로 보면 o1 프리뷰의 우위는 분명하다. 기즈모도와 테크 전문 매체에 인용된 연구 수치를 보면, 76건의 실제 응급실 사례에서 “정확하거나 매우 근접한 진단”을 제시한 비율은 o1 프리뷰가 67.1%, 두 명의 전문의는 각각 55.3%, 50.0%에 그쳤다. 같은 데이터에서 “임상적으로 도움 되는(differential) 진단 후보를 제시했는가”라는 기준으로 보면 AI는 97.9%의 사례에서 유의미한 진단을 포함시켰다는 분석도 나왔다.

 

주목할 대목은 정보가 가장 적게 주어지는 초기 분류 단계에서 AI의 성능이 특히 두드러졌다는 점이다. 베스 이스라엘의 임상 연구자이자 논문 공동 선임저자인 아담 로드먼(Adam Rodman)은 "이 점이 이번 연구에서 가장 중요한 메시지”라며 “응급실의 혼잡하고 불완전한 전자의무기록(EHR) 데이터 환경에서도 AI가 실제 진단에 쓸 만한 판단을 내렸다”고 평가했다.

 

NEJM 난이도 증례에서도 ‘준최적’ 성능


연구진은 단순히 응급실 사례에 그치지 않고, 《뉴잉글랜드 저널 오브 메디슨(NEJM)》에 수십 년간 실려온 고난도 클리니컬 패소로직 콘퍼런스(CPC) 증례와 교육용 증례 세트를 추가로 사용했다. NEJM CPC는 1950년대부터 진단 알고리즘과 의사 사고력을 평가하는 ‘고전 벤치마크’로 쓰여 온 세트다.

 

하버드 의대 생물의학 정보학 조교수이자 논문 공동 저자인 라즈 만라이(Raj Manrai)는 하버드 매거진과 인터뷰에서 “이 정도 난이도의 증례에서 AI가 인간 전문가를 앞선다는 사실이 많은 사람들을 충격에 빠뜨렸다”며 “o1 프리뷰가 이 벤치마크 세트에서 거의 ‘준최적(nearly optimal)’에 가까운 진단 성능을 보여줬다”고 평가했다.

 

또 다른 평가 축인 ‘임상 관리(reasoning about management)’에서도 AI는 두각을 나타냈다. 항생제 처방, 입원·퇴원 결정, 연명의료·말기 돌봄 등 목표 설정과 관련된 의사결정 과제에서 o1 프리뷰는 GPT‑4뿐 아니라 기존 검색엔진과 교과서를 활용한 의사 집단보다 40%포인트 이상 높은 점수를 기록했다는 요약도 나와 있다.

 

“의사 대체” 아닌 “두 번째 뇌”…연구진과 현장의 경고


그러나 연구진은 논문과 인터뷰에서 일관되게 “이 결과가 의사를 AI로 대체하자는 근거는 아니다”라고 못박았다. 이번 연구에서 AI가 본 것은 어디까지나 텍스트 형태로 정리된 병력, 증상, 검사 결과뿐이다.

 

실제 진료에서 의사는 ▲흉부 X선·CT·MRI와 같은 영상 ▲심전도(EKG), 청진음 등 신호 데이터 ▲환자의 표정·말투·자세·가정폭력 가능성 등 비언어적 단서 등과 같은 비정형 정보를 동시에 읽어야 한다.

 

라즈 만라이는 “지금의 모델은 텍스트라는 좁은 채널에서 작동한다”며 “임상 현장의 다층적인 정보를 모두 통합하는 수준과는 거리가 있다”고 선을 그었다. 이번 연구에 참여하지 않은 뉴욕 마운트 시나이 헬스 시스템의 최고 임상 책임자 데이비드 라이히(David Reich) 역시 “최종 진단에 도달하는 일은 환자 진료의 일부에 불과하다”며, "처방·설명·정서적 지지·윤리적 판단 등은 여전히 인간 의사의 책임이다"고 강조했다.

 

로드먼도 “이번 결과를 근거로 기업들이 ‘의사는 덜 필요하다’는 식의 마케팅을 하는 것은 매우 위험하다”며 “이번 연구가 뒷받침하는 것은, 환자의 삶을 실제로 개선하는 방식으로 이 기술을 통합하는 방법을 찾기 위한 ‘야심차고도 엄격한’ 연구 의제”라고 선을 그었다.

 

규제·책임·국내 의료계에 던지는 질문


이번 연구는 의료 AI 논의를 “정확도 몇 % 올랐다”는 기술 홍보 단계에서, “이제는 임상시험 설계와 규제·책임 체계를 논의해야 할 시점”으로 끌어올린다. 논문 저자들은 “지금 이 기술을 엄격하게 평가하지 않으면, 상업적 이해가 먼저 앞서 의료 현장을 뒤흔들 것”이라고 경고한다.

 

국내 의료계와 규제 당국에 던지는 질문도 선명하다. ▲응급실·외래에서 LLM 기반 진단지원 시스템을 시험할 수 있는 샌드박스는 갖춰져 있는가 ▲오진 발생 시 법적 책임은 의사, 병원, AI 개발사 중 누구에게, 어떤 비율로 돌아가야 하는가 ▲한국어·다언어 환경, 고령 환자 비중이 높은 국내 현실에서 데이터 편향과 안전성을 어떻게 검증할 것인가 등이다.

 

이미 GPT‑4가 응급실 전공의보다 높은 진단 정확도를 보였다는 2024년 논문이 국제학술지에 발표된 데 이어, 하버드‑베스 이스라엘의 이번 연구는 “고도로 최적화된 o1 계열 모델이 특정 의료 과제에서 ‘슈퍼휴먼(superhuman)’ 영역에 진입했다”는 서술까지 이끌어내고 있다. 수치와 벤치마크는 AI의 약진을 말하지만, 누가 어떤 조건에서 이를 쓰도록 허용할지에 대한 사회적 합의는 여전히 초기 단계다.

 

76건의 실제 응급실 환자 중 약 두 세 건은, AI가 아니었다면 더 늦게, 혹은 엉뚱하게 진단됐을 가능성이 있다는 점이다. 그 몇 건이 ‘나 혹은 내 가족’이었을 때, 우리는 AI를 어디까지 허용하고 어디서 멈출 것인가. 지금부터가 진짜 토론의 시작이다.

배너
배너
배너

관련기사

71건의 관련기사 더보기


[빅테크칼럼] 왜 골드만삭스는 홍콩뱅커들에게 앤트로픽을 차단했을까?…금융허브 홍콩 AI전략과 미중 전쟁의 지정학적 교차점

[뉴스스페이스=김정영 기자] 골드만삭스가 홍콩에 근무하는 자사 뱅커들의 앤트로픽 ‘클로드(Claude)’ 사용을 전면 차단한 것은 단순한 내부 IT 정책 조정이 아니라, 미국 빅테크의 대중(對中) 규제와 글로벌 금융허브 홍콩의 AI 전략이 정면 충돌한 사건으로 해석할 수 있다. 골드만, 홍콩에서만 ‘클로드 스위치’ 내렸다 영국 파이낸셜타임스(FT)와 로이터에 따르면 골드만삭스는 홍콩 소재 직원들의 내부 플랫폼에서 앤트로픽의 클로드 모델 접근을 차단했다. 이 제한 조치는 수 주 전부터 시행되어 왔으며, 골드만삭스 법무팀이 해당 스타트업과의 협의 이후 앤트로픽과의 계약을 엄격하게 해석한 결과다. 골드만은 앤트로픽과의 계약을 재검토하고 스타트업 측과 협의한 끝에, 홍콩 직원은 어떤 앤트로픽 제품도 사용할 수 없다는 ‘보수적 해석’에 따라 이 같은 조치를 내린 것으로 전해졌다. 흥미로운 점은 이 제한이 특정 벤더(앤트로픽)에만 적용된다는 점이다. 로이터와 해외 금융 전문 매체에 따르면 골드만 내부 플랫폼에서는 여전히 오픈AI의 챗GPT, 구글 제미나이 등 다른 생성형 AI 모델은 정상적으로 사용 가능하다. 즉, 골드만삭스의 이번 결정은 ‘AI 전면 규제’가 아니라

[랭킹연구소] TIME誌 선정 인공지능 분야 TOP 10 "中 3곳, 美 6곳, EU 1곳"… 오픈AI·알파벳(구글)·아마존·메타·앤트로픽·미스트랄 AI·허깅페이스·바이트댄스·알리바바·즈푸 AI

[뉴스스페이스=이승원 기자] 미국 시사주간지 TIME이 2026년판 ‘가장 영향력 있는 AI 기업 10곳’을 발표하면서 바이트댄스·알리바바·즈푸(Zhipu) AI 등 중국 기업 3곳을 서방 7개 빅테크와 같은 반열에 올려놓자, 글로벌 AI 패권 지형이 본격적인 다극 체제로 재편되고 있다는 평가가 힘을 얻고 있다. 단순 모델 벤치마크보다 폭넓은 사회적·기술적 영향력을 기준으로 선정된 이번 명단은, 중국 AI 산업에 대한 글로벌 인식이 달라지고 있음을 상징적으로 보여준다. 타임이 꼽은 ‘AI 빅10’…中 3곳, 美 6곳, EU 1곳 TIME이 새로 신설한 ‘TIME100 Companies: Industry Leaders – AI 부문’ 명단에는 오픈AI, 알파벳(구글), 아마존, 메타, 앤트로픽, 미스트랄 AI, 허깅페이스와 함께 바이트댄스, 알리바바, 즈푸 AI가 이름을 올렸다. 이 리스트는 모델 성능 점수보다는 산업 전반에 미치는 영향력, 기술 발전 방향, 사회·정치적 파급력 등을 종합적으로 반영한 것이 특징이다. 단순 벤치마크가 아니라 “AI로 무엇을 바꾸고 있는가”를 기준으로 삼으면서, 그동안 미국·유럽 중심 서사에 가려졌던 중국 AI 기업의 존재감을 전