ADVERTISEMENT
오피니언 황대희의 미래를 묻다

페이스북이 친구 추천하듯 빅데이터가 치료법 추천하는 시대

중앙일보

입력

지면보기

종합 28면

빅데이터와 정밀의료

황대희 서울대 생명과학부 교수

황대희 서울대 생명과학부 교수

‘많으면 맞다’-.

하나의 질병도 여러 치료법 존재 #유전체·단백질·진단 정보 담은 #바이오 빅데이터 구축해 놓으면 #개인별 최적 치료법 찾을 수 있어

다수결 얘기가 아니다. 데이터 세상에서 통하는 주문이라고나 할까. 페이스북은 친구를 추천해 준다. 페이스북을 열면 ‘알 수도 있는 사람’이란 섹션에서 잊었던 옛 친구의 이름을 보기도 한다. 페이스북은 나와 공통으로 아는 ‘페친(페이스북 친구)’이 많은 사람을 새 친구로 추천한다. 어울릴 것 같은 사람을 친구로 소개하는 인간 세상과는 좀 다르다. 페이스북은 내가 그 사람을 좋아하게 될지, 싫어하게 될지에 대한 의견이 없다. 그저 ‘계속 공통 페친이 많은 사람을 추천했더니 잘 받아들이는 경우가 많더라’라는 게 추천 이유다. 데이터의 양이 늘어나면서 데이터 속에 담긴 ‘관계’와 ‘규칙’을 찾아내는 것이 가능해진 결과다.

치료를 위한 ‘알파고’ 만들기

그래픽=최종윤

그래픽=최종윤

요즘 영어 작문을 할 때, 예전처럼 문법적으로 맞는지 틀리는지 확인하려고 사전이나 유명했던 영어참고서 『성문종합영어』를 들추는 사람은 없을 것이다. 그냥 복사하고 따옴표를 붙여 구글 검색창에 붙여넣기를 하면 맞는지 알 수 있다. 많이 쓰는 표현이라면 문법적으로 맞는다는 가정에 기반을 둔 판단이다. 왜 틀리고 맞았는지는 모른다. 그냥 ‘많이 쓰니 맞다’다.

‘많으면 맞다’라는 개념은 의료 현장에도 도입되고 있다. ‘비소세포성 폐암’의 예를 들어 보자. 이름이 복잡하지만 대부분의(85%) 폐암이 이거다. 여러 의료기관에서 도합 100만 명 폐암 환자의 정보를 모았다(어디까지나 가정이다. 현재 100만 명 정보는 없다). 식생활 습관에서부터 키·몸무게와 혈액 검사 등 기본 검사 결과, 폐 CT처럼 직접 폐암과 관련된 검사 내용, 폐 조직에 있는 염색체 전체의 유전자 서열 정보, mRNA(유전자의 일종)와 단백질 발현량, 혈액과 소변·복수 속의 단백질과 대사물질 양 등을 포함한 방대한 정보다.

자, 이런 빅데이터가 있는데 새 환자가 왔다. 어떻게 치료해야 할까. 우선 새 환자에 대해서도 온갖 데이터를 뽑는다. 새 환자의 데이터를 이미 모아 놓은 100만 명 빅데이터와 비교해 제일 비슷한 100명을 고른다. 다음은 100명의 치료 기록을 살필 순서다. 그중에 가장 효과가 좋았던 치료법을 새 환자에게 추천하는 거다. 왜 그게 최적의 치료법인지는 모른다. ‘데이터가 많으면 그렇게 치료법을 선택하는 게 맞다’다. 왜 최적인지 모르는 게 약점이 아니다. 사실 우리가 먹는 상당수 약도 몸속에서 어떻게 작용해 치료나 증상 완화 효과를 거두는지, 자세한 기전을 모른다.

‘많으면 맞다’라니까 얼핏 빅데이터만 있으면 모든 것이 해결될 것 같다. 정말 그럴까. 문제는 그렇지 않다는 데 있다. 최적의 치료법을 찾아내는 데 있어 제일 중요한 부분은 모든 데이터를 비교해 환자와 가장 가까운 100명을 찾는 과정일 것이다. 그런데 ‘가깝다’ ‘비슷하다’란 무슨 뜻일까. 식생활 습관이 비슷한 사람? 아니면 현재 의사들이 하듯, 병원에서 한 검사 결과와 체형이 비슷한 사람? 결국 유사한 환자를 찾아내는 것은 어느 데이터가 더 중요하다고 가중치를 정하는 문제로 귀결된다.

경험 많은 의사들이 협의해 “이런 이런 데이터를 보고 유사한 사람을 골라내자”고 할 수도 있다. 요즘 트렌드는 병에 걸린 조직의 유전자·단백질 정보, CT 같은 주요 임상 정보, 그리고 생체액(혈액·소변 등) 내의 단백질과 대사물질 전체 정보에 가중치를 많이 둔다. 하지만 이 중에서도 가중치를 정해야 한다. 병에 걸린 조직의 유전자·단백질 정보가 다른 것보다 더 중요한지, 조직의 DNA 변이와 단백질 발현량 중에는 어디에 더 높은 가중치를 둘지도 정해야 한다. 이는 일단 적절하다고 생각하는 가중치를 골라 실행해 보고 수정하는 과정을 수없이 반복하면서 결정해야 할 사항이다. 알파고가 엄청나게 많은 기보 데이터를 학습하며 실력을 키운 것과 비슷한 이치다. 의료·바이오 정보는 심지어 인종별로 다른 가중치를 적용해야 할지도 모른다.

위에서처럼 빅데이터를 기반으로 환자에게 맞는 최적의 치료법을 찾는 시스템을 ‘정밀의료 플랫폼’이라고 한다. 정밀의료 플랫폼 기술을 개발하기 위해 다양한 연구와 데이터 분석이 진행되고 있다. 대만과 미국 브로드 연구소는 폐암(정확히는 앞에서 거론한 비소세포성 폐암)을 대상으로 했다. 환자 수백 명에 대해 온갖 유전자·단백질 정보를 모으고, 이를 바탕으로 환자를 몇 개 그룹으로 나눴다. ‘유사한 환자’를 정의하고 구분하는 시도다. 한국도 국립암센터에 ‘단백유전체센터’를 설립했다. 여기서는 다양한 암에 대해 단백질과 유전체 분석을 하고 있다.

데이터 가운데 ‘뭣이 중헌지’를 가려야

영국은 ‘지노믹스 잉글랜드’란 공기업을 만들어 10만 명 환자의 유전자 빅데이터를 구축하고 있다. [사진 지노믹스 잉글랜드 홈페이지]

영국은 ‘지노믹스 잉글랜드’란 공기업을 만들어 10만 명 환자의 유전자 빅데이터를 구축하고 있다. [사진 지노믹스 잉글랜드 홈페이지]

영국 정부는 ‘지노믹스 잉글랜드(Genomics England)’라는 공공기관을 만들어 주요 질환의 환자뿐 아니라 그 가족, 그리고 일반인까지 포함하는 대규모 집단에 대해 DNA 변이 분석을 수행하고 있다. 우리나라는 희귀질환 환자 1만 명, 일반인 1만 명의 DNA 서열을 분석하는 ‘국가 바이오 빅데이터’시범 사업을 진행하고 있다.

빅데이터에서 최적의 치료법을 뽑아내려면 ‘정보의 우선 순위화’라는 것 또한 필요하다. 쉽게 말해 뭐가 중요한 정보인지를 골라내는 것이다. 이는 ‘유사한 환자’를 가리기 위해 가중치를 정하는 데 필요하다. 감기에 걸리면 열이 나고 기침을 하며 콧물을 흘리는 등 많은 증상이 나타난다. 이런 증상을 완화한다고 감기를 고칠 수 있는 것은 아니다. 몸속에 침투한 감기 바이러스를 없애야 한다. 감기 바이러스가 바로 질병의 원인이다. 질병의 ‘원인 정보’를 찾아내면 어떤 데이터가 가중치를 더 받아야 하는지 정하기 쉬워질 것이다.

또 하나 중요한 사실이 있다. ‘많으면 맞다’가 꼭 아닐 수도 있다는 점이다. 댓글 부대를 동원해 식당을 띄우는 상황을 생각해보자. 인터넷에 맛집 추천이 넘치겠지만, 진짜 맛집이란 보장은 없다. 의료 데이터를 비롯해 다른 데이터도 마찬가지다. 어떤 질환과 관련해 자주 등장하는 데이터라 하더라도 실제로는 그 병과 전혀 관계없을 수도 있다. 그런 데이터를 지표 삼으면 엉뚱한 결과가 나온다. 그래서 바이오·의료·데이터 학자들은 ‘빈도’뿐 아니라 ‘연관성’을 중시한다. 실제 관련이 있느냐를 확인해야 하는 것이다.

빅데이터, 질병 보험을 바꾸다

암이나 심장질환 보험 같은 것을 들 때 제일 많이 고려하는 게 가족력일 것이다. “부모님 중 한 분이 80세쯤 이런 병에 걸리셨는데 나도 그렇지 않을까”하는 걱정이다. 그뿐만 아니라 보험 상담을 할 때면 이런 얘기를 듣기 일쑤다. “혹시 이런 이런 병은 가족력 없으세요? 1만원만 더 내면 그 병까지 특약으로 커버되는데….”

가족력을 고려하는 것은 상당히 타당해 보인다. 그러나 정확도가 높다고 하기는 어렵다. 부모의 유전자가 섞이기 때문에, 나는 질병과 관련한 유전자를 가졌을 수도 있고, 아닐 수도 있다. 변이가 일어나 유전자가 달라질 수도 있다.

빅데이터는 이런 건강·질병 보험에도 많은 변화를 유도하고 있다. ‘23앤드미(23andMe·23은 인간의 염색체가 23쌍이라는 뜻이다)’라는 회사는 400달러(48만원)와 함께 타액을 샘플로 보내면 DNA 변이를 분석해 개인별로 어떤 병이 걸릴 확률이 높은지 알려준다.

이는 그동안 유전자 변이와 질환의 상관관계를 정리한 데이터베이스가 있기에 가능했다.

현재 보험회사들은 23앤드미와 비슷한 방법으로 미래에 걸릴 가능성이 큰 질환을 중심으로 개인별 사보험 플랜을 만드는 연구를 진행 중이다. 변이 정보 외에도 식생활 습관, 각종 임상·진단 정보, 혈액과 소변·복수 속의 단백질과 대사물질 전체 데이터 등을 추가로 얻어서, 걸릴 확률이 높은 질환을 예측하는 정확도를 높이고 있다.

이렇게 개인형 맞춤형 보험 플랜이 생기면, 같은 보험료를 내고도 나에게 더 위험한 질환에 대해서는 보험사가 부담하는 치료 내용과 금액 한도(커버리지)를 상당히 올릴 수 있다. 물론 다른 질환에 대한 커버리지는 내려간다. 이는 보험 가입자와 보험사 모두에게 이득을 줄 수 있다. 우리나라에도 암이나 치매 같은 특정 질환에 대해 사보험에 가입하는 사람들이 많다. 빅데이터 기반 건강보험 전략을 적용하면, 가입자의 이익이 극대화되는 맞춤형 보험 플래닝을 할 수 있을 것이다.

◆황대희 교수

국가 바이오 빅데이터 구축사업의 총괄 기획위원이다. 한국유전체학회 미래비전위원장, 한국생물정보학회 이사를 맡고 있다. 포스텍에서 학·석사 과정을 밟은 뒤 미국 MIT에서 박사 학위를 받았다.

황대희 서울대 생명과학부 교수