ADVERTISEMENT

[리더스 프리즘] 데이터 태부족국

중앙선데이

입력

지면보기

829호 30면

이경배 섹타나인 대표

이경배 섹타나인 대표

우리는 세계에서 제일 오랜된 목판인쇄본과 금속활자인쇄본을 가진 나라다. 조선왕조실록, 화성성역의궤는 우리 선조들의 찬란한 기록문화를 웅변하는 산 증거물이다. 국가 차원에서는 물론 많은 지식인들이 지식과 경험을 정리하고 저서를 만들어 공유했다. 김정희, 정약용 등은 유배지에서도 집필을 멈추지 않았다. 그러나 일제강점기와 한국전쟁을 겪으면서 기록의 맥은 단절되고 말았다. 자료는 사용 후 바로 폐기하는 게 관행이 됐다.

책과 같은 아날로그 데이터는 디지털 데이터로 변환해야 컴퓨터를 통해 사용이 가능하다. 서적, 문서, 사진, 소리를 디지털로 저장하고 관리하면서 자료의 데이터화가 시작되고, 이를 가공해 정보시스템 등에 활용함으로써 새로운 가치를 창출하고 인공지능 학습에 활용한다. 뛰어난 인공지능(AI) 시스템을 구현하기 위해서는 알고리즘도 중요하지만 양질의 데이터가 축적되어 있어야 한다. 챗GPT는 1750억개에 달하는 매개변수를 활용해 데이터를 학습하고 연결했다. AI 골드러시 시대를 바라보는 지금, 우리나라의 데이터 수집 능력과 AI 경쟁력은 어느 정도 수준일까.

데이터산업 시장 규모 미국의 7%
영어화도 부진해 세계무대서 고립

과학기술정보통신부의 2021년 보고서에 따르면 국내 데이터산업 시장 규모는 20조24억원으로 미국의 약 7.0%, 유럽연합(EU)의 16.4% 수준이다. 국내 기업의 빅데이터 도입율은 15.9%에 그친다. 절반이 넘는 기업들이 ‘쓸 만한 양질의 데이터가 부족하다’고 애로사항을 토로했다.

특히 숫자 데이터만을 데이터라고 생각하는 것은 큰 문제다. 숫자 데이터의 대부분은 거래 데이터로서, 문서 데이터에 비해 정보 가치가 떨어질 뿐만 아니라 개인정보보호 장벽으로 인해 사용에 제한이 많다. 지난해 말 데이터산업법을 제정하여 데이터의 경제적 가치나 활용성을 높이겠다고 했지만 여전히 걸림돌은 많이 남아있다.

언어 문제는 글로벌 시대를 진입하는데 큰 장벽으로 대두된다. 전 세계 80억 인구 중 한국어 사용자는 8200만명으로 20위 수준이다. 15억명 이상이 사용하는 영어에 비하면 한국어로 된 데이터 총량이 절대적으로 부족할 수밖에 없다. 데이터가 부족하고 한글 기반이기 때문에 통번역에도 한계가 있어 AI 학습에 충분하지 않다. 챗GPT도 “사용자들에게 좋은 답변을 주려고 노력하지만, 저도 언어 능력에는 한계가 있어요” 라고 대답한다. 따라서 데이터산업 육성과 동시에 데이터의 영어화도 병행되어야 한다. 한글만을 강조하면 우리 것을 지킬 수는 있지만 세계 무대에서는 고립될 수 있다. 중국의 동북공정, 일본의 독도 영유권 주장을 잠재우지 못하는 이유 중 하나도 영어로 된 우리 역사 데이터가 절대적으로 부족하기 때문이 아닐까.  우리 것을 제대로 알리기 위해서라도 영어로 된 문자 데이터를 체계적으로 생성해낼 필요가 있다.

AI 기술력은 여전히 미흡하다. 오픈 소스를 활용하면 AI를 쉽게 만들 수는 있지만 그 수준은 초급단계다. 생성형 챗GPT가 컬러 TV라면 일반적인 AI의 기술력은 여전히 흑백 TV 수준이다. AI 수준도 낮고 데이터 수준도 낮다 보니 지능화 시대에 진퇴양난이 아닐 수 없다.

따라서 일률적인 규제에서 벗어나 실질적인 데이터 산업 육성에 힘써야 한다. 활용 가능한 데이터를 생성하고 이를 영어화하여 전 세계에 공유할 수 있도록 해야 한다. 학교 교육부터 단답형 암기 방식을 벗어나 서술·토론형 수업으로 사고력을 기를 수 있는 교육 현장으로 바뀌어야 한다. 또 단기 교육과정이나 세미나과정이 아닌, 젊은 기술개발자들이 AI를 깊이 있게 배울 수 있는 연구개발(R&D) 전문 교육과정을 많이 만들어 좋은 인력을 배출해내지 않으면 이미 선진국과 벌어진 격차를 따라잡을 수 없을 것이다.

이경배 섹타나인 대표

ADVERTISEMENT
ADVERTISEMENT