[빅테크칼럼] “AI, 응급실에서 사람 의사 이겼다”…하버드 연구가 던진 냉정한 숫자와 뜨거운 질문

오픈AI의 최신 추론 모델 ‘o1 프리뷰(o1‑preview)’를 응급실 의료진과 정면 대결시킨 결과, AI가 진단 정확도에서 숙련된 응급실 의사를 앞섰다는 연구가 나왔다. /  게티이미지

[뉴스스페이스=김정영 기자] 오픈AI의 최신 추론 모델 ‘o1 프리뷰(o1‑preview)’를 응급실 의료진과 정면 대결시킨 결과, AI가 진단 정확도에서 숙련된 응급실 의사를 앞섰다는 연구결과가 나왔다.

이번 연구는 과학 저널 《사이언스》(Science)에 게재됐다. 연구진은 “응급실의 지저분한(real‑world) 데이터에서 조차 AI가 작동한다”는 결론을 내리면서도, 이를 ‘의사 대체’가 아닌 ‘임상시험과 규제 설계를 서둘러야 할 전환점’으로 규정했다.

76건 실제 응급실 사례, AI가 더 많이 맞혔다

science, harvardmagazine, gizmodo, sciencenews, letsdatascience, npr에 따르면, 하버드 의대와 베스 이스라엘 디코니스 메디컬 센터가 이끄는 연구팀은 보스턴 베스 이스라엘 응급실에서 실제 발생한 76건의 환자 사례를 가지고, o1 프리뷰와 두 명의 경험 많은 응급의, 그리고 이전 세대 모델인 GPT‑4를 비교한 것이다.

연구진은 각 사례를 세 시점에서 평가했다. ▲응급실 도착 직후 초기 분류(triage) ▲첫 번째 담당 의사 진료 시점 ▲입원 여부가 결정되는 시점이다. 이 세 단계마다 AI와 의사가 작성한 진단 리스트를 제시하고, 어느 쪽이 더 정확한지 모르는 상태에서 블라인드로 평가하도록 했다.

수치로 보면 o1 프리뷰의 우위는 분명하다. 기즈모도와 테크 전문 매체에 인용된 연구 수치를 보면, 76건의 실제 응급실 사례에서 “정확하거나 매우 근접한 진단”을 제시한 비율은 o1 프리뷰가 67.1%, 두 명의 전문의는 각각 55.3%, 50.0%에 그쳤다. 같은 데이터에서 “임상적으로 도움 되는(differential) 진단 후보를 제시했는가”라는 기준으로 보면 AI는 97.9%의 사례에서 유의미한 진단을 포함시켰다는 분석도 나왔다.

주목할 대목은 정보가 가장 적게 주어지는 초기 분류 단계에서 AI의 성능이 특히 두드러졌다는 점이다. 베스 이스라엘의 임상 연구자이자 논문 공동 선임저자인 아담 로드먼(Adam Rodman)은 "이 점이 이번 연구에서 가장 중요한 메시지”라며 “응급실의 혼잡하고 불완전한 전자의무기록(EHR) 데이터 환경에서도 AI가 실제 진단에 쓸 만한 판단을 내렸다”고 평가했다.

NEJM 난이도 증례에서도 ‘준최적’ 성능

연구진은 단순히 응급실 사례에 그치지 않고, 《뉴잉글랜드 저널 오브 메디슨(NEJM)》에 수십 년간 실려온 고난도 클리니컬 패소로직 콘퍼런스(CPC) 증례와 교육용 증례 세트를 추가로 사용했다. NEJM CPC는 1950년대부터 진단 알고리즘과 의사 사고력을 평가하는 ‘고전 벤치마크’로 쓰여 온 세트다.

하버드 의대 생물의학 정보학 조교수이자 논문 공동 저자인 라즈 만라이(Raj Manrai)는 하버드 매거진과 인터뷰에서 “이 정도 난이도의 증례에서 AI가 인간 전문가를 앞선다는 사실이 많은 사람들을 충격에 빠뜨렸다”며 “o1 프리뷰가 이 벤치마크 세트에서 거의 ‘준최적(nearly optimal)’에 가까운 진단 성능을 보여줬다”고 평가했다.

또 다른 평가 축인 ‘임상 관리(reasoning about management)’에서도 AI는 두각을 나타냈다. 항생제 처방, 입원·퇴원 결정, 연명의료·말기 돌봄 등 목표 설정과 관련된 의사결정 과제에서 o1 프리뷰는 GPT‑4뿐 아니라 기존 검색엔진과 교과서를 활용한 의사 집단보다 40%포인트 이상 높은 점수를 기록했다는 요약도 나와 있다.

“의사 대체” 아닌 “두 번째 뇌”…연구진과 현장의 경고

그러나 연구진은 논문과 인터뷰에서 일관되게 “이 결과가 의사를 AI로 대체하자는 근거는 아니다”라고 못박았다. 이번 연구에서 AI가 본 것은 어디까지나 텍스트 형태로 정리된 병력, 증상, 검사 결과뿐이다.

실제 진료에서 의사는 ▲흉부 X선·CT·MRI와 같은 영상 ▲심전도(EKG), 청진음 등 신호 데이터 ▲환자의 표정·말투·자세·가정폭력 가능성 등 비언어적 단서 등과 같은 비정형 정보를 동시에 읽어야 한다.

라즈 만라이는 “지금의 모델은 텍스트라는 좁은 채널에서 작동한다”며 “임상 현장의 다층적인 정보를 모두 통합하는 수준과는 거리가 있다”고 선을 그었다. 이번 연구에 참여하지 않은 뉴욕 마운트 시나이 헬스 시스템의 최고 임상 책임자 데이비드 라이히(David Reich) 역시 “최종 진단에 도달하는 일은 환자 진료의 일부에 불과하다”며, "처방·설명·정서적 지지·윤리적 판단 등은 여전히 인간 의사의 책임이다"고 강조했다.

로드먼도 “이번 결과를 근거로 기업들이 ‘의사는 덜 필요하다’는 식의 마케팅을 하는 것은 매우 위험하다”며 “이번 연구가 뒷받침하는 것은, 환자의 삶을 실제로 개선하는 방식으로 이 기술을 통합하는 방법을 찾기 위한 ‘야심차고도 엄격한’ 연구 의제”라고 선을 그었다.

규제·책임·국내 의료계에 던지는 질문

이번 연구는 의료 AI 논의를 “정확도 몇 % 올랐다”는 기술 홍보 단계에서, “이제는 임상시험 설계와 규제·책임 체계를 논의해야 할 시점”으로 끌어올린다. 논문 저자들은 “지금 이 기술을 엄격하게 평가하지 않으면, 상업적 이해가 먼저 앞서 의료 현장을 뒤흔들 것”이라고 경고한다.

국내 의료계와 규제 당국에 던지는 질문도 선명하다. ▲응급실·외래에서 LLM 기반 진단지원 시스템을 시험할 수 있는 샌드박스는 갖춰져 있는가 ▲오진 발생 시 법적 책임은 의사, 병원, AI 개발사 중 누구에게, 어떤 비율로 돌아가야 하는가 ▲한국어·다언어 환경, 고령 환자 비중이 높은 국내 현실에서 데이터 편향과 안전성을 어떻게 검증할 것인가 등이다.

이미 GPT‑4가 응급실 전공의보다 높은 진단 정확도를 보였다는 2024년 논문이 국제학술지에 발표된 데 이어, 하버드‑베스 이스라엘의 이번 연구는 “고도로 최적화된 o1 계열 모델이 특정 의료 과제에서 ‘슈퍼휴먼(superhuman)’ 영역에 진입했다”는 서술까지 이끌어내고 있다. 수치와 벤치마크는 AI의 약진을 말하지만, 누가 어떤 조건에서 이를 쓰도록 허용할지에 대한 사회적 합의는 여전히 초기 단계다.

76건의 실제 응급실 환자 중 약 두 세 건은, AI가 아니었다면 더 늦게, 혹은 엉뚱하게 진단됐을 가능성이 있다는 점이다. 그 몇 건이 ‘나 혹은 내 가족’이었을 때, 우리는 AI를 어디까지 허용하고 어디서 멈출 것인가. 지금부터가 진짜 토론의 시작이다.

빅테크

[빅테크칼럼] “AI, 응급실에서 사람 의사 이겼다”…하버드 연구가 던진 냉정한 숫자와 뜨거운 질문

관련기사

이 시각 추천뉴스

[빅테크칼럼] “AI, 응급실에서 사람 의사 이겼다”…하버드 연구가 던진 냉정한 숫자와 뜨거운 질문

[빅테크칼럼] "1901년 지식으로 특수상대성이론 도출하라"…딥마인드 하사비스의 'AGI 아인슈타인 테스트' 파장

[랭킹연구소] TIME, 2026년 ‘가장 영향력 있는 교육 기업’ 10곳의 민낯…칸아카데미>퀴즐렛>매직스쿨AI>에펙타>칼리지보드>스쿼럴AI>코드닷오르그>코세라>굿윌 인더스트리얼 인터내셔널>터니틴 順

[빅테크칼럼] 챗GPT ‘삭제 413% 폭증’…오픈AI, IPO 앞두고 드러난 성장 피로와 리스크 지도

[빅테크칼럼] AI 시스템, 눈 사진 한 장으로 6가지 질환 선별…AI 안구오믹스 시대 열리나

[빅테크칼럼] 왜 골드만삭스는 홍콩뱅커들에게 앤트로픽을 차단했을까?…금융허브 홍콩 AI전략과 미중 전쟁의 지정학적 교차점

[빅테크칼럼] AI가 얼굴 노화 속도로 암 생존율 예측...2년 간격 사진 분석시 정확도 급상승

[빅테크칼럼] “인간이 꾼 꿈, AI가 해독한다”...정신질환 징후·약물치료 효과 모니터링 통한 '정신건강 조기 경보 시스템' 될까

[랭킹연구소] TIME誌 선정 인공지능 분야 TOP 10 "中 3곳, 美 6곳, EU 1곳"… 오픈AI·알파벳(구글)·아마존·메타·앤트로픽·미스트랄 AI·허깅페이스·바이트댄스·알리바바·즈푸 AI

많이 본 뉴스

[빅테크칼럼] AI가 열어젖힌 ‘1인 유니콘’ 신화 '메드비(Medvi)'…"단 2명 회사, 연매출 2조원"

[빅테크칼럼] AI, 인간 수학자의 ‘성역’ 넘봤나… GPT-5.4의 '에르되시 난제' 해결 주장의 실체

[이슈&논란] "조합장 해임 총회 오시면 프라이팬 드려요"…DL이앤씨, 상대원2구역 매표 행위에 '조합원들 뿔났다'

[The Numbers] 일룸, 실적 '반토막'에도 지주사 신설 직후 15억 중간배당… 대만법인 부실에 자본잠식·내부거래·고배당·소송까지 '첩첩산중'

[랭킹연구소] 한국 기업 매출 순위 TOP10…삼성전자>한국전력>SK하이닉스>현대차>기아>현대모비스>한국가스공사>에쓰오일>삼성생명>LG전자 順

[The Numbers] 자코모, 1000억 매출에 수익성 '급전직하', 차입금 급증·특수관계자 거래 '경고등'…누적결손 40억·부채비율 2826%에 자본잠식 '우려'

[The Numbers] 프레인글로벌, 매출 959억에도 영업익 20%·순이익 92% 급감 '수익성 빨간불'… 자회사 줄줄이 적자·무리한 투자 후폭풍?

[The Numbers] 함샤우트글로벌, 매출 15% 감소·순이익 37% 급감 '어닝쇼크'… 9.8억 회계오류·특수관계자 대여금 4배 급증·부채비율 425% '리스크'

[랭킹연구소] 500대 기업 대표이사 거주지 순위, 디에이치퍼스티어아이파크>나인원한남>래미안퍼스티지>한남더힐>동양파라곤>레이크팰리스>반포자이>브라이튼여의도>LG한강자이>올림파크포레온>판교푸르지오그랑블 順

[랭킹연구소] 2025년 1000大기업 영업이익 189조·순익 1위 27년 만에 교체…SK하이닉스>삼성전자>한국전력>기아>KB금융>현대차>기업은행>SK이노베이션>신한지주>삼성화재 順

[The Numbers] 다이닝브랜즈그룹(BHC), 영업이익률 27%·당기순이익 40% 급증…1408억 배당잔치·7건(192억) 법적소송·종속사 손상차손 13억 '지배구조의 부끄러운 민낯'

[랭킹연구소] 옴디아 ‘삼성 1위' vs 카운터포인트 '애플 1위’…1분기 다른 스마트폰 세계지도, 진짜 1위는?

[빅테크칼럼] 유출된 오픈AI 주주명부 '발칵' MS 18배 수익과 올트먼의 지분…“지분 0% CEO가 이끄는 8520억달러 기업”

[강남비자] “강남아파트 연고전"… 반포 원베일리 vs 잠원 메이플자이, 입주민 스포츠 대결 추진 "반포 대장주, 나야나"

[빅테크칼럼] AI 거인 앤트로픽, 클로드 코드 51만 줄 소스 대유출… 연속 보안 실책에 업계 충격

[The Numbers] 5조 매출 배민(우아한형제들)의 그늘…수익성 역주행·5700억 본사 송금·공정위 칼날 '삼중고'

[The Numbers] 메가커피 운영 엠지씨글로벌, 매출 6469억이지만 '속빈 강정'…그 뒤엔 772억 '오너 배당잔치'·1057억 차입금 폭탄·해외법인 적자누적

[이슈&논란] NYT, 비트코인 창시자 사토시 나카모토로 아담 백 지목…증거는 쌓였지만 결론은 없다

[The Numbers] 피알원, 매출 6.2% 급감에 영업이익 45% 곤두박질…오너 일가 연계 특수관계자 거래 580억원 '내부거래 그물망' 촘촘

[The Numbers] 라이나생명, 영업이익 26% 급감에도 美 본사에 3000억 '배당 잔치'… 자본유출 논란 '도마 위'·법적소송 29건

[The Numbers] 테슬라코리아, 매출 3조원 돌파 2배급증에도 '한정의견' 낙인…배당성향 175%·세무추징 251억·이전가격 조정 645억의 민낯

[The Numbers] 야놀자 품 '놀유니버스', 매출 167% 급증에도 짙어진 '리스크'…부채비율 222%·유동성악화 등 재무 '빨간불'·3건 법적소송 53억

[The Numbers] 농심켈로그, 매출 정체·이익 급감에도 ‘순이익 90%’ 배당에 ‘기술료·수수료’까지 본사行…"한국 법인은 현금 인출기"

[The Numbers] 제주신화월드, 영업손실 지속·부채비율 악화 '흔들'…1.3조 결손금에 6건 소송·차입금 '부담'에 경영진 고액보상·본사로열티 '빈축'

[The Numbers] 케이피알(KPR), 매출 353억·영업이익률 0.9% '수익성 적신호'…쥐꼬리 이익·현금흐름 악화에 오너일가 '배당 논란'

[이슈&논란] ‘평균 7억→13억’ 하이닉스 성과급, K-칩스 세제와 사회공유 '논란'…"성과는 기업 몫, 리스크 헤지는 세제 몫, 불합리"

[The Numbers] 귀뚜라미홀딩스, 순이익 70% 증발·3628억 '폭탄배당'의 민낯…재무성적 빨간불·579억 특수관계자 거래·69억 소송·종속기업 다수 적자 '첩첩산중'

[The Numbers] 성원애드피아, 매출 1000억원대 방어·순이익 19% 급감…오너일가 배당 3배 ‘껑충’ 특수관계자 자금대여·소송 '리스크'

[빅테크칼럼] 엔비디아 독주에 칼 빼든 앤트로픽…‘3.5GW 동맹’ 넘어 자체 AI 칩까지 노린다

[The Numbers] 호반건설, 매출 35% 급감에 PF 부실·대손상각 2380억 '직격탄'…오너일가 245억 배당잔치·소송 99건 1600억·특수관계자 자금 '퍼주기'

[이슈&논란] 비트코인 개발자들, 양자 컴퓨터 위협에 사토시 시대 코인 동결 제안…소유권과 보안 사이 '줄타기'

[The Numbers] "커피향 대신 붉은 잉크" 탐앤탐스…자본 완전잠식·감사의견 거절·47건 소송·147억 단기차입금에 현금 고작 5억

[The Numbers] 배스킨라빈스·던킨도너츠(비알코리아), 영업적자 지속에 77억 로열티·7건 소송(82억) '삼중고'에도 오너 배당금 18% 올렸다

[The Numbers] '이차돌' 운영사 다름플러스, 감사인 의견거절·회생절차 속 '완전자본잠식'… 부채총계 192억에 현금은 1440만원·공정위 등 소송도 3건 '첩첩산중'

[빅테크칼럼] “가짜 오픈AI 앱도 진짜처럼”…북한發 Axios 공급망 공격, macOS 인증서까지 영향 미쳐

[The Numbers] 본아이에프, 매출 3000억 돌파·영업이익 20% 급감…오너 일가 '배당 잔치'·특수관계자 자금 지원에 '속빈 강정'

[이슈&논란] “배터리도 소비자 권리”…EU, 2027년까지 스마트폰에 사용자 교체가능 배터리 의무화

[The Numbers] 정용진·RM·홍라희 침대 '바이스프링(인퍼니스)', 매출 18% 급감에 영업이익 반토막…영업이익 62%, 대표에게 지급 '오너 사익'·주식단기 투기성 거래 '경고등'

[랭킹연구소] 한국 그룹 총수 주식재산 순위…이재용>서정진>정의선>정몽준>김범수>방시혁>최태원>조현준>이동채>이재현 順

[빅테크칼럼] “AI가 나를 지운다”는 공포, Z세대의 ‘조용한 사보타주’…Z세대 직원 44%, 회사 AI 도입 거부