빅데이터의 배신?

중앙일보

입력

업데이트

빅데이터(Big Data)는 흔히 ‘미래를 읽는 열쇠’로 불린다. 인터넷 등에 쌓여 있는 방대한 정보를 잘 분석하면 과거 사실뿐 아니라 미래에 유행할 질병·사회현상까지 예측할 수 있어서다. 이 때문에 최근에는 기업뿐 아니라 정부까지 나서 빅데이터를 활용하기 위한 다양한 아이디어를 내놓고 있다. 하지만 학계 일부에선 이런 ‘장밋빛 환상’을 경계하는 목소리도 나오고 있다.

▷여기를 누르시면 크게 보실 수 있습니다

　미국 휴스턴대 라이언 케네디(정치학) 교수 연구팀은 13일 세계 최대 인터넷 기업인 구글의 대표적인 빅데이터 서비스를 도마에 올렸다. 그는 구글독감트렌드(Google Flu Trends·GFT)가 최근 2년간 실제와 다른 예측치를 내놨다고 꼬집었다. 그는 “‘빅데이터 혁명’ 대신 빅데이터와 스몰데이터(Small Data·전통적인 연구조사 정보)를 결합한 ‘올데이터 혁명(All Data Revolution)’을 얘기해야 한다”고 제안했다. 세계적인 과학저널 ‘사이언스(Science)’ 온라인판에 기고한 글을 통해서다.

　구글 GFT는 전 세계 25개국에 사는 수백만 명의 사용자가 입력하는 검색어를 집계해 지역별 독감유행 가능성을 예측해 왔다. 독감이 유행하는 지역에서는 독감의 증세와 치료법 등에 대한 검색 빈도가 다른 지역보다 월등히 높다는 점에 착안한 서비스다.

　GFT의 가장 큰 장점은 정보 제공이 빠르다는 점이다. 미국 질병통제센터(CDC)와 한국 질병관리본부 등은 전국 각지의 병원에 접수된 독감의심환자(ILI) 숫자를 근거로 독감주의보를 낸다. 이 때문에 실제 독감 유행시점과 일주일 이상의 시차(時差)가 생긴다. 반면 GFT 정보는 매일 새롭게 업데이트된다. 예측 정확도도 상당히 높은 편이다. 2008년 세계적인 과학저널 ‘네이처(Nature)’에 GFT 예측과 CDC의 실제 집계를 비교한 논문이 실렸을 정도다.

　하지만 GFT 신화는 지난해 겨울 큰 타격을 받았다. 미국 50개 주 가운데 47개 주에 퍼진 ‘살인 독감’ 트렌드를 제대로 예측하지 못했기 때문이다. GFT는 CDC가 나중에 집계한 실제 숫자보다 두 배 이상 되는 빗나간 예상치를 발표했었다. 네이처는 “예년보다 일찍 독감이 유행한 데다 다수의 사망자가 발생하자 독감이 걸리지 않은 사람들까지 공포에 질려 독감 정보를 검색한 게 원인”이라고 분석했다.

　케네디 교수는 여기서 한 걸음 더 나가 지난해 이전 예측치도 실제 결과와는 상당한 차이가 났다는 사실을 밝혀냈다. 2011년 8월부터 2013년 9월까지 108주간 예측 가운데 100번의 예측이 틀렸다는 것이다. 이런 사실을 근거로 GFT의 예측이 구조적인 한계를 갖고 있다고 그는 지적했다. 수많은 유용한 정보 중에서 극소수 검색어만 임의로 골라 분석하는 ‘빅데이터의 자만심(Hubris)’을 문제점으로 꼬집었다. 또 구글이 상업적인 목적을 위해 연관검색어 기능 등 검색 알고리즘(Algorithm·연산 수순)을 자주 바꾼 것이 빅데이터 결과에 영향을 줬을 수도 있다고 추측했다.

　데이터과학 전문가인 KAIST 정하웅(물리학) 교수는 “빅데이터를 이용한 예측과 실제 결과는 인과관계가 아니라 상관관계를 갖는다”며 “정확한 예측을 기대하기보다 경향성을 확인하는 데 만족해야 한다”고 말했다. 빅데이터 분석업체인 다음소프트 송길영 부사장은 “빅데이터 연구는 현재 좀 더 빠르고 정확한 예측 방법을 찾아가는 과정 중에 있다. 지속적인 데이터 미세 조정이나 알고리즘 수정이 필요하다”고 말했다.

김한별 기자