“기대 이상의 결과”… 중국서 맞붙은 ‘AI vs 인간 의사’

중앙일보

입력

김은수 기자

차이나랩

안녕하세요. 나이와 성별, 그리고 어디가 불편한지 말씀해 주세요.

사진 셔터스톡

인간 의사와 AI 의사가 동일 환자를 진찰하고 병에 대한 진단을 내리면, 그 결과는 같을까?

중국에서 최초로 AI 의사와 실제 의사의 진료 대결이 진행됐다. 지난 6월 30일 청두(成都) 하이얼선(高新海爾森)병원에서 실시한 AI 의사와 실제 인간 의사 간의 일관성 평가다.

실제 의사는 쓰촨대 서중국병원 소속 원장과 부원장 등 10명으로 구성됐다. AI 의사 역할은 중국 인터넷 의료기업 협회가 출시한 ‘MedGPT’가 담당했다. 평가는 정형외과, 내분비내과, 심장내과, 신장내과, 호흡기내과, 소화기내과 및 비뇨기과 등 7개 과목으로 구성됐다. 이 평가에 참여한 환자는 총 120명. 실제로 지병을 가진 환자들과 진찰이 이루어졌다.

평가의 합리성과 과학성을 보장하기 위해 문진 단계는 특수하게 설계됐다. 환자는 진찰 과정에서 실제 의사도 AI 의사와도 직접 만나지 않는다.

청두(成都) 하이얼선(高新海爾森)병원에서 실시된 AI의사 테스트. 환자가 보조원에게 증상을 설명하고 있는 모습. 홍싱신원(紅星新聞)

상담 데스크에는 환자의 증상을 AI 의사에게 텍스트 형태로 전송하는 보조원이 배치됐다. 실제 의사도 대면이 아닌 텍스트 형태로 환자의 건강 정보를 확보하게 된다. 보조원과 환자는 여러 차례 의사소통을 거치게 되고, 해당 정보는 두 의사에게 실시간으로 전송된다. 정보를 수집한 두 의사는 환자에게 임상 진단과 치료 계획을 제공한다. AI와 인간 의사의 진료 내용 역시 실시간으로 비교·송출된다.

이후 환자는 의사가 내린 진단을 토대로 병원에서 검사를 받는다. 모든 조건이 기본적으로 같다는 전제 하에, 실제 의사와 AI 의사는 서로 간섭하지 않고 독립적인 진단을 내렸다.

문진 시작부터 진단 결과까지, 전 과정이 온라인으로 생중계됐다. 결과는 어땠을까?

인간 의사의 종합 점수는 10점 만점에 7.5점, AI 의사의 점수는 7.2로 나타났다. 두 의사의 점수 결과 일치율은 96%에 달했다.

평가는 베이징대 인민병원, 중일우호병원 등 7명의 전문 교수들이 진행했으며 이들은 AI 의사의 진찰, 진단의 정확성을 목표로 했다. 평가항목은 문진 정확도, 진단 정확도, 치료 권장 정확도, 보조 검사 계획의 정확성, 데이터 분석 정확도, 해석 가능한 정보 제공, 자연어 문진 및 상호 작용의 7가지로 구성됐다.

이날 심사 과정에서 현장 전문가들은 AI 의사의 성과를 높이 평가했다. 전문가들은 일반적으로 MedGPT가 여러 차례의 질문을 통해 충분한 정보를 수집하기 때문에 의료 정확도가 보장되고 오진 및 진단 누락이 발생할 확률이 상대적으로 낮다고 보았다.

사진 셔터스톡

AI는 전문의와 달리 진료 과목에 속하지 않는 질병을 진단하며 기존의 전문 상담에서는 어려운 다른 가능한 판단을 내리기도 했다. 이에 대해 전문가들은 “Ai 의사가 일부 경험이 충분하지 않은 실제 의사 이상의 지식을 가지고 있다”고 평가했다.

베이징대 인민병원 정형외과 주임 의사인 쉐펑(薛峰)은 “기대 이상”이라고 평했다. 쉐펑은 “MedGPT는 환자의 발바닥 통증에 따라 신경 압박 가능성이 있다고 진단했지만 실제 의사는 이를 예상하지 못했다”며, “MedGPT는 일반적인 질병 및 기저 질환의 진단에 중점을 두어야 하는 매우 유망한 기술이며 전반적으로 양호한 수준”이라고 언급했다.

중일우호병원 심장내과 주임 의사 런징이(任景伊)는 같은 질병에 대한 진단・치료 과정에서 색다른 수단과 방법을 제공할 수 있다는 점을 높이 평가했다.

AI가 인간 의사를 따라잡을 수 없는 4%는 뭘까. AI가 가지고 있는 수많은 한계점이다. AI의사는 인간 의사와 달리 직접 눈으로 보고 만질 수 있는 검사를 하지 못한다. 정형외과의 경우 관절의 움직임, 압통점 유무 등의 요인을 알 수 없다.

전문가들은 대상이 충분하지 않고 체계적이고 논리적인 훈련이 필요하다고 지적했다. 해당 평가에 참여한 베이징대 인민병원 신장내과 주임 의사 차이메이순(测美順)은 “AI가 비교적 포괄적이어서 개념 오류가 있다”며, 이번 일관성 평가의 표본 크기가 충분히 풍부하지 않으며 전반적으로 인공지능이 우리 작업에 ‘일부’ 도움이 된다고 평가했다.

AI의사 도입 문제는 글로벌 과제다. 암 분야, 진단분야, 약물 발견 및 개발, 원격 환자 치료 등 다방면의 의학 분야에서 잠재적인 이점을 갖추고 있다. 그러나 여러 위험도 존재한다. AI 시스템의 품질과 학습, 데이터 편견, 불평등, 비용 효용성 등 수많은 위험요소가 도사리고 있다.

그런데도 전문가들은 이제 AI는 의료영역에서 필수적인 기능을 수행할 것이라고 예측한다. 전문가들은 “AI 의사가 당장은 의사를 대체하지는 못하겠지만, 여러 기업의 데이터를 잘 축적하면 의료진을 돕는 역할을 충분히 할 수 있다고 입 모은다.

로어 와이넌츠 네덜란드 마스트리히트대 교수는 영국의학저널(BMJ)에 발표한 논문을 통해 “‘AI 의사’ 모델들은 서로 매우 유사하다. 비슷한 기술을 사용하고 있으며, 같은 실수를 하고 있다”며 “만약 새로운 개발을 하는 대신 모든 개발자가 이미 개발된 모델을 연구했다면 지금쯤 의료현장에서 실제로 도움이 되고 있었을 것”이라고 밝혔다.

김은수 차이나랩 에디터