데이터가 바꿀 인류의 미래
시대마다 그 시대를 대변하는 키워드가 있기 마련이다. 2000년대에는 그것이 ‘정보’였다. 새로운 밀레니엄의 도래와 함께 ‘정보화’라는 말이 과학기술계뿐만 아니라 사회경제 전 분야에서 혁신을 의미하는 접두어처럼 쓰이곤 했다. 이전의 사회가 대량생산 역량이나 천연자원 등으로 부를 축적했다면, 컴퓨터와 스마트폰 등 IT 기술을 기반으로 한 정보화 시대에는 정보를 가진 자가 승자가 된다는 얘기가 숱하게 신문에 등장했던 기억이 난다.
2010년대에 들어서면서 시대의 키워드는 정보에서 ‘데이터’로 바뀌었다. 2011년부터 글로벌 컨설팅기업인 가트너와 딜로이트 등이 미래를 이끌 전략기술로 빅데이터 분석을 꼽기 시작했고, 과학기술계에서는 제4세대 연구 패러다임으로 불리는 ‘데이터 중심 과학’(Data-Intensive Science)이 부상했다. 논문을 보며 연구하는 단계를 넘어 측정·분석·실험을 통해 생산되는 과학데이터를 기반으로 더 객관화·정량화된 연구를 하는 시대로 넘어간 것이다.
4차산업혁명 시대 데이터가 ‘원유’
세계 정보량, 지구 모래알 1282배
데이터관련 다양한 직업 등장할 것
‘데이터 고속도로’ 건설 힘 쏟아야
특히, 2016년 ‘4차 산업혁명’이라는 화두와 함께 인공지능·사물인터넷(IoT)·로봇 등의 기술이 부각하자, 이들 기술의 발전을 위한 소스로써 데이터에 관심이 집중됐다. 이때부터 전 세계 정부와 기업들은 데이터야말로 부를 가져오는 ‘원유’라고 입을 모으기 시작했다. 대량의 데이터 즉, 빅데이터를 다양한 도구와 모델로 분석해서 새로운 가치를 만드는 세상이 된 것이다. 아울러, 데이터의 확보와 활용능력이 기술·제품·서비스의 가치를 결정하는 ‘데이터 경제’로의 패러다임 전환도 빠르게 진행됐다.
미국 시장조사기관 IDC에 따르면 2020년 기준 전 세계 디지털 정보량은 90 제타바이트(ZB, 10의 21제곱) 수준이라고 한다. 이는 99조 GB로, 지구상 모든 해변 모래알 전체 수의 약 1,282배에 달한다. 또한, 이 정도 규모의 데이터를 일반 태블릿(128GB)에 저장한 뒤 쌓으면 지구와 달 사이 거리(55만7704㎞)의 약 15배 높이까지 쌓을 수 있다. 데이터의 증가 속도는 급격히 빨라져 2025년에는 175 제타바이트에 달할 것으로 예상된다. 한마디로 어마어마한 양의 데이터가 생산되고 있고 앞으로 그 수가 빠르게 증가할 거라는 얘기다.
필자가 데이터 시대로의 변화를 감지한 것은 2000년대 중반이었다. 그때부터 서둘러 준비작업에 들어가서 2010년대 초반 과학기술 데이터 수집·확보 프로젝트를 시작하고, 국내 최초로 과학기술 데이터 활용 플랫폼 서비스를 추진했다. 그러나 중요한 건 실제적 성과였다. 당시만 해도 국가·사회의 여러 문제를 해결하는데 데이터가 어떤 형태로 기여할 수 있는지 정확히 가늠하기 힘들었다. 그래서 대전시·인천시 등 지자체와 손을 잡았다. 데이터를 가지고 실제 도시문제를 해결하고자 의기투합한 것이다. 결과는 아주 고무적이었다. 데이터로 3차원 가상도시를 만들어 침수, 교통체증 등의 난제를 시뮬레이션했고, 그 결과를 이용해 도시의 생활·안전 문제를 높은 정확도로 예측하는 데 성공했다. 예측하면 대비할 수 있고, 그러면 해결이 가능하다. 이 시스템을 점차 확대하면 앞으로 각 지자체가 골머리를 앓는 다양한 문제들을 정확히 예측·해결할 수 있을 것이다. 작년부터는 인공지능 솔루션 개발을 위한 과학기술 기계학습 데이터 구축도 시작했다. 연구자에게 있어서 자신의 연구성과가 국민에게 실질적인 혜택을 주는 것을 눈앞에서 바라보는 것만큼 즐거운 일은 드물다. 조만간 데이터와 이를 기반으로 한 인공지능 솔루션이 침수·교통·지진·감염병·미세먼지 등 더 많은 문제를 해결해 국민의 삶의 질을 높일 수 있을 거라고 기대한다.
필자의 경험을 담은 이 사례는 데이터가 가져올 미래의 일부분에 불과하다. 다양한 관점에서 몇 가지 미래상을 더 제시하자면 다음과 같다.
가장 먼저 가시적으로 체감하는 것은 초개인화 서비스의 고도화 및 확산이 아닐까 싶다. 지금도 포털이나 플랫폼에서 개인별 데이터 분석을 통해 취향에 맞는 콘텐트·상품을 추천하는 초개인화 서비스가 상당 수준으로 제공되고 있다. 한 예로, 넷플릭스(드라마 스트리밍 서비스) 고객의 80% 이상이 콘텐트 큐레이션(Content curation, 양질의 콘텐트를 취합·선별·조합·분류해 이용자에 제안하는 행위)을 통해 영상을 시청한다고 한다. 앞으로 데이터의 양과 수준이 높아지고 이를 분석하는 기술이 향상되면 초개인화 서비스가 점점 고도화되어 ‘나보다 나를 더 잘 아는’ 가상의 큐레이터가 개인의 미래 행동 패턴까지를 예측해 최적의 의사결정을 제안하게 될 것이다. 아울러, 마이데이터(MyData) 이용의 활성화로 의료·금융·생활소비·교통 등 인간이 영위하는 거의 모든 분야에서 개인별 큐레이터가 등장할 것으로 보인다.
다음으로, 데이터를 기반으로 인공지능 서비스가 급격히 성장할 것이다. 이는 데이터의 궁극적인 방향성이라고도 할 수 있다. 더 많은 그리고 더 고품질의 기계학습 데이터가 사용될수록, 인공지능은 점점 더 우수해진다. 그렇게 되면 앞서 말한 초개인화 서비스가 빠르게 고도화되는 것은 물론, 인공지능 기반의 무인 자율주행, 로봇 의사, 완벽한 통번역 서비스, 그리고 언젠가는 SF 영화에 단골로 등장하는 인간과 비슷하거나 혹은 그 이상의 지능을 가진 인공지능 서비스 로봇도 만날 수 있을 것이다.
연구 영역에서는 머지않은 시기에 ‘인공지능 연구자’가 등장할 거라고 본다. 실제로 인공지능진흥협회(AAAI) 협회장인 욜란다 길 미국 서던캘리포니아대 교수는 인공지능이 2035년에는 연구조교로, 그리고 2040년 즈음에는 연구과제를 직접 선정하고 진행해 인간 수준의 창의적인 연구논문을 발표하는 진정한 의미의 연구자로 활동할 수 있을 거라고 예상했다. 논문의 저자로 인공지능이 이름을 올리는 것도 가능해진다는 얘기다.
데이터는 미래예측의 정확도를 높여 수많은 불확실성으로부터 인류를 보호하는 데 큰 역할을 할 것이다. 미래기술 예측은 1960년대부터 이뤄져 왔으나, 최근 빅데이터 분석이 예측 도구로 활용되면서 급격히 정확도가 높아지고 있다. 심지어 코로나19 팬데믹처럼 기존의 예측력과 통찰력을 벗어난 ‘블랙스완’(black swan) 같은 돌발변수까지도 민감하게 예측해내는 ‘위크 시그널(Weak Signal) 분석’도 추진되고 있다. 아울러, 기술뿐만 아니라 기후·환경·노동·직업·교육·예술 등 거의 모든 분야의 미래가 어느 정도 예측 가능해질 것으로 보인다. 예를 들어, ‘현재의 학교 교육 시스템이 미래에도 필요할까?’와 같은 질문에 대한 답을 데이터를 통해 가늠해볼 수 있는 것이다.
한편, 이러한 변화는 다양한 직업군의 등장으로 이어질 것으로 보인다. 현재도 최고 유망 직업으로 데이터 개발자, 빅데이터 분석가 등이 떠올랐지만, 앞으로는 그 범주와 다양성이 훨씬 더 커질 것이다. 인공지능과 사람 사이의 의사소통을 도와주는 알고리즘 통역사, 온라인 속 개인의 데이터를 추적해 초개인화 마케팅을 주도하는 행동예측 분석가, 데이터 자체를 사고팔 수 있도록 거래를 담당하는 데이터 중개인, 농부처럼 데이터를 키우고 수확하는 데이터 파머(farmer), 데이터 보호 솔루션 설계자, 데이터 재활용 개발자 등 적용 분야에 따라 무한한 직업군이 생겨날 거라고 예상한다.
바야흐로 ‘데이터의 시대’에 돌입한 것은 틀림없는 사실이다. 그러나 필자는 아직 현재의 인류가 거대한 데이터 시대의 초입에 살고 있다고 생각한다. 물론, 기업은 데이터를 이용해 제품·서비스 수준을 높이고, 과학자들은 데이터를 기반으로 기존에 없던 놀라운 연구성과를 내는 중이다. 코로나19 팬데믹 상황에서 기존에 10년이나 걸리던 백신 개발을 글로벌 빅데이터 공유 연구를 통해 1~2년 이내에 해낸 것이 대표적인 사례다. 그러나 이러한 모습은 어디까지나 전문가 영역에서 일어나는 혁신이다. 머지않아 빅데이터 분석·활용이 일반인의 영역으로 넘어오면, 어떤 분야에서든 데이터를 잘 다루는 사람이 승자가 되는 진정한 데이터의 시대가 도래할 것이다.
따라서 현재 정부와 연구기관·기업 등에서 추진되는 데이터 정책 역시 당장의 제품·서비스 개선 단계를 넘어, 긴 안목으로 전환할 필요가 있다. 우선, 빅데이터 예측기술을 토대로 거시적인 데이터 로드맵을 수립하고, 데이터 생산 단계부터 기계학습이 가능한 형태로 생산되도록 하는 기술과 인터넷을 하듯 쉽게 데이터 분석을 할 수 있는 시스템 및 플랫폼의 개발에도 초점을 맞춰야 할 것이다. 아울러, 데이터 문맹률을 낮추고 접근성을 높여 누구나 공정하게 데이터를 활용할 수 있는 환경도 마련해야 한다. 산·학·연·관이 함께 국가의 미래 경쟁력을 좌우할 ‘데이터 고속도로’의 통합적 큰 그림을 그리는 데 집중해야 할 때다.
김재수
한국과학기술정보연구원(KISTI) 원장. 홍익대 전자계산학과를 졸업, 전자전산공학으로 박사학위를 받았다. 1991년 KISTI의 전신인 산업기술정보원에 입사, 디지털 정보 전문가로서의 길에 들어섰다. NTIS사업단장과 국가과학기술데이터본부장을 역임했다.