하지만 기업 입장에서 많은 양의 데이터를 무작정 모으는 것은 다소 무리가 따를 수 있다. 예전에는 데이터를 자체 서버 룸에 보관해 두는 경우가 많았지만, 최근에는 보안이나 비식별화 등의 이슈로 전문 클라우드 업체에 맡기는 경우가 많다. 그러나 연간 비용이 만만치 않다. 보관 후 활용을 하는 것은 또 다른 이슈이다. 대부분 상당한 양의 노동력을 투여해 데이터 정제 작업을 진행해야 한다. 그마저도 분석이 꼭 잘 되리라는 확신도 없다.
유재연의 '인사이드 트랜D'
이런 가운데 다크 데이터의 가능성을 재발견하는 사례는 계속해서 나오고 있다. 예를 들어 동물성 플랑크톤에 대한 1970~1980년대 데이터의 경우, 구조도 엉망이고 데이터 손실도 커 사실상 활용하기에는 적합지 않은 소재로 여겨졌다. 하지만 2015년 미국 우즈홀 해양학연구소 연구원들은 이 다크 데이터로부터 플랑크톤의 개체 수와 기후 변화 간 연관성을 발견해냈다. 오래된 데이터는 복원이 워낙 어렵다 보니 건드릴 엄두가 나지 않는다. 하지만 체계적으로 계획을 세워 접근하면 중요한 의미를 찾아낼 수 있다는 걸 보여준 대표적인 사례다. 딥러닝의 발달로 예상치 못하게 쓰임새가 재발견되는 데이터도 나타나고 있다.
다크 데이터의 핵심, ‘구조화’를 해결하는 업체들
일부에서는 이것만으로도 부족하다는 이야기가 나온다. 이미 특정 레이블로 분류가 되어있다 하더라도, 몇 년 뒤면 또 새로운 방식으로 데이터가 레이블링 되어야 한다는 것이다. 개인적으로 최근의 기술개발 추세를 볼 때, 문제점이 나타나면 이를 해결하는 툴이 수년 내로 상용화되곤 했다. 강력한 기술을 탑재한 스타트업들의 인수작업을 토대로, 대형 클라우드 서버 업체들은 데이터를 보관하고 분석하는 일원화 시스템을 구축해 갈 것이다. 마이크로소프트(MS)와 같이 강력한 오피스 기능을 탑재한 클라우드 서버의 경우, 사용자가 직접 자연스럽게 작성한 문서부터 구조화된 데이터로 변환해 수집하는 식의, 사용자의 부담을 낮추는 클라우드 서비스를 지향할 가능성이 높다.
비싸다, 그래서 철저한 계획이 필요하다
산업 구조상, 강력한 데이터 분석기능을 갖춘 클라우드 서비스에 대한 의존도는 갈수록 높아질 것이다. 그래서 애초부터 데이터가 짐이 되지 않게 하기 위한 체계적인 원칙이 필요하다. 그 원칙을 정립할 팀을 구성해 컨트롤타워로 작동케 해야 한다. 데이터 활용도를 폭넓게 살필 줄 아는 데이터 사이언티스트, 근래의 딥러닝 기술 흐름을 잘 아는 개발자, 그리고 해당 분야의 인사이트가 충만한 전문가가 모여 어떤 목표를 가지고, 어느 데이터를 모아, 무엇을 분석할 것인지 틀을 잡아야 한다. 데이터를 때려 넣는다고 해서 해답이 ‘짠’하고 나오지는 않는다. 기업의 어젠다를 세팅하듯, 데이터에 대해 좀 더 진지하게 접근할 필요가 있다.
유재연 / 서울대학교 융합과학기술대학원 박사과정 (you.jae@snu.ac.kr)