"아프죠?" 진화하는 AI 공감도 척척…그래도 의사 대체 못해, 왜

중앙일보

입력

지난해 11월 30일(현지시간) 출시된 오픈AI의 생성형 인공지능(AI) 챗GPT는 전 세계적인 생성형AI 연구·개발 열풍으로 이어졌다. 로이터=연합뉴스

지난 9월 오픈AI의 생성형 인공지능(AI) 챗GPT로 자녀의 희귀병을 찾아낸 엄마의 사연이 의료계에서 화제가 됐다. 워싱턴포스트(WP)에 따르면 자신을 코트니라고 밝힌 한 미국 여성은 네살배기 아들 알렉스(익명)가 몇 년 전부터 턱·머리 등에 만성적인 통증에 시달렸다고 털어놨다.

알렉스의 통증은 심해져 이부프로펜 계열 진통제 ‘모트린’을 매일 복용해야 했고, 일상 생활조차 못했다. 코트니는 3년 동안 17명의 치과·소아과·이비인후과 전문의를 찾아다녔지만, 선천성 안면 기형과 발달 지연 등의 진단을 받았을 뿐 근본적인 치료를 받진 못 했다.

코트니는 자포자기하는 심정으로 아들의 증상과 자기공명영상장치(MRI) 기록을 챗GPT에 입력했다. 그러자 챗GPT는 “척수 증후군(cord symptoms)에 가깝다”고 답했다. 이를 근거로 신경외과를 방문한 뒤 알렉스는 희귀병의 일종인 ‘숨은 척추 갈림증’ 진단을 받았다.

알렉스의 사례는 통증을 정확히 표현할 수 없는 소아 환자에게 희귀병 진단이 쉽지 않다는 점, 그리고 생성형 AI가 이런 상황에서 돌파구가 될 수 있다는 걸 동시에 보여준다. 챗GPT가 지난해 11월 30일 출시된 이래 전 세계 의료 기관들은 거의 매달 관련 연구를 쏟아내고 있다. 최근 WP와 미 온라인 매체 악시오스는 챗GPT 출시 1년을 맞아 이 같은 현상을 집중 조명했다.

의료계의 궁금증은 한마디로 ‘AI 의사’가 ‘인간 의사’만큼 진단할 수 있냐는 거다. 올해 미국 의사의 평균 오진율은 약 11%, 즉 10건 중 한 건 꼴로 의사의 초기 진단이 틀렸던 것으로 나타났다. 현재는 ‘AI 의사’가 이런 인간의 실수를 줄여준다는 시각, 반대로 증폭시킬 수 있다는 의견이 공존하고 있다. 지난 1년 간 나온 의료용 AI에 대한 연구 결과도 크게 다르지 않다. 이를 바탕으로 챗GPT 활용을 둘러싼 견해를 예스(Yes), 노(No)의 논박 형태로 정리했다.

①Yes: “챗GPT, 의사 능가한 사례도”

환자를 문진하는 의사. 사진 셔터스톡

챗GPT는 출시 3개월 만인 올해 2월 미 의료면허시험(USMLE)의 합격선(60%)을 통과했다. 두 달 뒤엔 구글의 의료용 AI 챗봇 메드팜 2(MedPALM 2)가 80%를 넘어섰다는 소식이 전해졌다. 미래학을 취재해온 WP 칼럼니스트 비나 벤카타라만은 이를 근거로 “약 3000만 미국인, 전세계 수억명의 희귀 질병 진단에서 챗GPT가 도움을 줄 수 있다”고 주장했다.

뒷받침하는 연구도 나왔다. 지난 9월 유럽응급의학회가 발표한 연구 결과에 따르면 네덜란드 종합병원 응급실에서 실제 치료를 받았던 환자 30명의 증상과 혈액·소변 검사 수치 등을 챗GPT에 입력했더니 진단 정확도가 87~97%로 집계됐다. 최종 진단과 비교했을 때 응급실 의사의 판단 정확도는 87%였다. 한마디로 챗GPT가 인간 의사를 능가한 경우도 있었다는 얘기다.

연구를 수행한 하이데 텐베르그 박사는 “관절통, 부종을 겪어온 환자가 며칠 새 발열과 손가락 끝이 변색된 증상으로 응급실을 찾은 사례가 있다”며 “의사들은 류마티스열을, 챗GPT는 혈관염을 제시했는데 챗GPT가 맞았다”고 밝혔다. 그는 “AI는 빠른 진단으로 응급실 대기 시간을 줄일 수 있으며, 희귀 질환 발견에도 도움이 될 수 있다”고 덧붙였다.

②No: “자가 진단, 오진 위험 높아”

반면 "챗GPT의 신뢰도가 떨어져 자가진단, 특히 희귀질환 진단에 활용하는 건 위험하다”는 정반대의 결론을 내린 연구도 있었다.

같은 달 일본 도쿄의과치과대 연구진이 정형외과 5종 질환에 대한 챗GPT의 진단 정확도를 따져본 결과, 손목터널증후군 증상에 대한 진단 정확도는 100%였지만 척수 병증은 진단 성공률이 고작 4%였다. 척수 질환 환자에겐 거의 쓸모가 없다는 의미다. 이와 관련, 도모유키 구로이와 교수(정형외과)는 “챗GPT 진단은 질병에 따라 일관성과 정확성이 떨어져 환자가 자가 진단 후 혼란스러워하거나, 최악의 경우 의사의 오진으로 이어질 수 있다”고 경고했다.

올해 들어 오스트리아 빈 응용과학기술대, 중국 충칭의과대 연구진이 각각 수행한 챗GPT 진단 정확도 실험에서도 일반 질환보다는 희귀병에 대한 정확도가 현저히 떨어지는 것으로 나왔다. 충칭의과대는 “대규모 언어 모델(LLM) 학습 원리의 특성상 사람들이 많이 언급하는 흔한 질병에 대한 판단은 비교적 정확했지만, 정보가 없는 질병에선 정확도가 떨어지는 것으로 보인다”고 풀이했다.

③Yes: “인턴이 경험쌓듯 진화 중”

지난해 11월 30일 챗GPT 출시 이후 의사의 실제 진단과 챗GPT의 진단 정확도를 비교하는 연구가 쏟아졌다. 사진 중앙포토

이런 한계에 대해 “챗GPT도 인간 의사가 인턴·레지던트 과정으로 차츰 경험을 쌓아가는 것처럼 진화하고 있다”는 재반박도 나온다. 인간 의사는 잠도 자고 휴식도 취해야 하나, AI는 끝없이 학습할 수 있다. 지식 기반 매체 더 컨버세이션은 “처음 챗GPT에 하복부 통증을 겪는 여성의 증상을 입력했을 때 AI는 자궁외 임신 가능성을 전혀 제시하지 못 했으나, 같은 질문을 거듭 입력하자 자궁외 임신도 포함한 진단을 내렸다”고 전했다. AI가 거듭되는 학습으로 한계를 극복하고 있다는 설명이다.

종종 환자 입장에서 “의사가 증상의 심각성을 과소평가 한다”고 느끼곤 하는데, 챗GPT는 공감 면에서 의사보다 뛰어나다는 연구 결과도 있다. 미 UC샌디에이고 연구진이 소셜미디어(SNS) 레딧에 올라온 195건의 의료 문의에 대해 ‘인간 의사 대 챗GPT’의 답변을 실험한 결과, “답변에 공감하며 만족한다”고 답한 비율은 의사가 5%였던 반면 챗GPT의 답변은 45%로 9배 높게 나왔다.

④No: 개인정보 수집·유출 문제 위험

모든 연구가 공통적으로 지적하는 문제점도 있다. 생성형 AI의 한계로 꼽혀온 ‘할루시네이션(환각, 팩트 왜곡) ’ 현상, 의학 문헌의 출처를 왜곡하는 문제다. 이런 한계가 있는 한, 특정 연구 조건에서 챗GPT가 좋은 성능을 보였다고 해서 의사를 대체하기는 어렵다는 게 전 세계 과학자들의 공통된 의견이었다. 일부 연구는 유색인종 과소 대표 문제, 비(非) 영어권 답변의 부정확성, 정치적 편향성 문제를 지적했다.

아울러 의료 행위는 특성상 엄격한 법적 근거에 따라 이뤄져야 하는데, AI 진단을 따랐을 때 결과에 대한 법적 책임 문제가 불거질 수 있다. 또 의료용 챗봇을 학습시키는 과정에서 개인의 의료 정보 수집·유출 문제도 한계로 꼽힌다.

“사람이 100년 걸린 일, AI는 5년 내 달성”

챗GPT 로고. 로이터=연합뉴스

미 컨설팅 기업 골드먼삭스가 관측한 의료 분야의 AI 노동력 대체율은 28%로, 사무·관리 및 법률 직종(40%대)에 비해 비교적 낮았다.
최근 1년 간 연구를 보더라도 진료-처방까지 챗GPT 의사에게 원스톱 서비스를 맡기는 일은 아직까진 먼 미래 일이다.

김충기 의협 정보정책이사(이화여대의대 순환기내과 교수) 역시 “AI는 무궁무진한 가능성이 있지만, 그 기술을 의료 현장에 어떻게 적용시킬지, 어떤 위험성을 갖고 있는지조차 규명되지 않은 상태”라면서 “적어도 현재 시점에선 충분한 경험을 가진 임상의의 판단을 대체할 수준에 이르지는 못 했다”고 지적했다.

다만 미 터프츠 의과대 병원의 샤피크 라비 최고 디지털 담당자는 악시오스에 “인류는 지난 100년 동안 이룬 일들을 AI의 도움으로 이제 5년, 10년 안에 성취할 수 있다”고 평가했다. 빅 테크들은 이 같은 가능성 알아보고 이미 발 빠르게 투자에 들어갔다. 아마존은 ‘헬스 스크라이브’ 생성AI 도구 개발에 들어갔고, 구글·딥마인드는 의료용 챗봇 메드팜 2를 일선 병원에 배치해 시험하고 있다.