오피니언 박한슬의 숫자읽기

데이터 중국몽을 꾸자

중앙일보

입력

박한슬 약사·작가

AI(인공지능) 시대의 핵심 자원은 누가 뭐래도 반도체다. 크리스 밀러 교수가 쓴 『칩워』와 같은 책이 번역된 덕분에, 국내에도 반도체 기술을 두고 미국과 중국 간에 벌어진 기술 패권 경쟁의 역사적이고 지정학적 맥락이 비교적 널리 알려졌다. 그렇지만 이는 AI를 구동하기 위한 물리적 신체인 하드웨어 측면에서의 중요성일 뿐, 그 나머지 반쪽인 소프트웨어를 구성하는 요소도 중요하긴 마찬가지다. 가령 기계학습을 위한 핵심 자원인 데이터가 없으면 첨단 반도체로 아무리 좋은 하드웨어 설비를 갖춘다고 해도 제대로 성능을 내기가 어렵기 때문이다.

AI 학습용 데이터를 둘러싼 갈등은 현재진행형이다. 챗GPT를 개발하기 위해 사용한 데이터 중 압도적인 양이 뉴욕타임스 기사인 게 밝혀지며 뉴욕타임스가 개발사로부터 학습에 사용한 데이터 비용을 받아내는 소송을 제기한 게 대표적 예다. 테슬라 CEO인 일론 머스크가 트위터 인수 후 내렸던 조치도 비슷한 맥락이다. 머스크는 트위터 내용을 무단으로 크롤링(crawling)해서 데이터화하지 못하게 막음으로써, 트위터 유저들이 만든 독점적 데이터를 자원화하겠다는 뜻을 노골적으로 나타냈다. 기계적 크롤링 차단도 잘 하지 않는 국내 환경과는 큰 차이다.

김영희 디자이너

현재도 전 세계의 데이터 생산량은 지수적으로 늘어나고 있다. 2017년에 세계에서 생산된 디지털 데이터의 양이 3.5제타바이트였는데, 올해인 2024년엔 그 10배인 35제타바이트의 데이터가 생산될 것으로 예상된다. 학습용 데이터의 막대한 가치를 고려하면 이미 다른 나라보다 디지털화가 많이 진행된 우리나라도 우리도 일종의 데이터 산유국이 됐다고 할 수 있다. 그렇지만 물리적 이전이 불가한 중동의 유정(油井)과 달리 디지털 데이터는 추출부터 이전까지 너무 쉬운 게 문제다. 최근에는 미국을 제외한 주요 선진국에서 이런 문제점을 인식하고, 데이터 주권(主權)이란 개념어를 중심으로 보호무역과 같은 형태로 데이터 유출을 막으려 하고 있다.

문제는 국내의 데이터 산업화 인식이 아직 희박하다는 점이다. 빅데이터(big data)라는 개념이 대중화된 덕분에 데이터 축적의 중요성은 알려졌지만, 데이터를 현지화(localization)하고 외부로 유출하지 못하도록 하는 조치의 중요성은 제대로 논의되질 못했다. 이와 대조적인 게 중국이다. 중국은 2020년 ‘데이터안전법(數据安全法)’을 제정해서 데이터를 경제사회적 중요성에 따라 등급화된 형태로 분류하고, 데이터 국외(國外) 이전 등을 철저히 감독하는 형태의 데이터 보호 조치를 수행하고 있다. 우리나라는 아직 개인정보의 국외 유출을 제한하는 수준에 그치고 있는데, 엉뚱한 분야가 아니라 데이터 자원 보호 측면에서 중국을 본받으려 노력해야 하지 않았을까.

박한슬 약사·작가