하버드 의대 교수 “의사보다 나은 AI? 100% 진료 시기상조”

중앙일보

입력

로버트 슈멀링

‘의사 도움 없이 전적으로 인공지능(AI) 진료에 의존할 수 있을까?’

지난해 챗GPT(오픈AI가 개발한 대화형 AI 챗봇)가 약 60%의 정답률로 미국 의사면허시험(USMLE)을 통과했다는 소식이 전해졌다. 미국 의료 영역에 AI가 도입되면 연간 4조5000억 달러(약 6060조 원)의 의료 지출 가운데 2000억~3000억 달러(약 270조~400조 원)를 절감할 수 있다는 예상도 나온다.

하지만 미 하버드 의대 로버트 슈멀링(사진) 교수는 “의료 전문가의 지도·감독 없이 AI 진료에 의존하는 것은 시기상조”라고 지적했다. 지난달 27일 자신이 수석 교수 편집자를 맡고 있는 ‘하버드 헬스 퍼블리싱’에 기고한 글을 통해서다. 그는 ‘챗GPT 의료상담이 답변의 품질과 공감도 면에서 의사보다 우수한 것으로 나타났다’는 기존 연구 결과를 정면으로 반박하며 이렇게 주장했다.

지난해 미 샌디에이고 캘리포니아대(UCSD) 퀄컴연구소 연구팀은 온라인 커뮤니티 레딧의 ‘애스크 닥스(Ask Docs)’ 게시판에 올라온 의료 질문과 답변 195개를 선택한 뒤, 챗GPT에 같은 질문을 해 답변을 받았다. 이어 세 명의 의료 전문가에게 양쪽 답변의 품질과 공감도 등을 평가하게 했다.

실험 결과는 챗GPT의 완승이었다. 전문가 패널은 78.6%의 비율로 의사 답변보다 챗GPT 답변이 낫다고 평가했다. 제공된 정보의 품질이 ‘매우 우수’하거나 ‘우수’하다는 비율도 챗GPT가 의사보다 3.6배 높았다. 환자 질문에 대해 ‘매우 공감적’ 또는 ‘공감적’이라고 평가한 비율도 챗GPT가 45.1%에 달한 반면 의사는 4.6%에 그쳤다.

슈멀링 교수는 이에 대해 “조사 방법에 심각한 한계가 있다”고 지적했다. “답변의 실제 정확성이 가장 중요한데 이에 대한 평가가 빠졌다”는 것이다. 그는 또 “챗GPT의 답변이 평균 211단어인 반면 의사의 답변은 평균 52단어”라며 “환자 질문에 대한 공감도 평가는 답변 길이에 더 영향을 받았을 수 있다”고 지적했다.

다만 슈멀링 교수도 AI 진료 시대가 멀지 않았다는 점은 부인하지 않았다. 그는 “AI 지니(마술램프의 요정)가 환자 질문에 자유롭게 답변할 수 있는 시점이 점점 가까워지고 있다”고 했다.

워싱턴=김형구 특파원 kim.hyounggu@joongang.co.kr