21일 과학기술정보통신부는 올해 'AI 학습용 데이터 구축사업'의 지원 과제 20개를 선정했다고 밝혔다. AI 학습용 데이터 구축은 정부가 AI 개발에 필요한 양질의 데이터를 대규모로 구축하고 개방하는 '데이터 댐' 사업이다. 2017년 시작돼 한·영 번역 말뭉치, 한국어 음성, 이상행동 영상 등 인공지능 서비스 개발을 위한 데이터 21종, 4650만건이 AI 허브를 통해 공개됐다.
데이터 댐에 들어갈 공공데이터 20가지 선정
과기정통부는 자연어 처리와 자율주행 기술 분야, 음성·시각·언어 등 융합 분야 등 활용가치가 높고 데이터 확보 필요성이 시급한 과제를 우선 선정했다. 이와 함께 치매·구강질병 등을 진단하고 피트니스 자세 등을 지도하는 헬스케어, 사람의 얼굴을 악의적으로 변조하는 딥페이크 방지, 장애인 삶의 질을 향상하는 기술 등도 채택했다.
크라우드소싱 전면 도입…인력난 해소, 일자리 창출 기대
아울러 과기정통부는 올해 3차 추경으로 AI 학습용 데이터를 확대 구축한다. 2925억원을 투입해 150개의 AI 학습용 데이터를 구축해 AI 허브를 통해 무료 개방할 방침이다. 과기정통부 관계자는 "AI 산업 분야에서 다양한 기술과 서비스를 개발하는 데 활용될 수 있도록 AI 학습용 데이터를 대규모로 구축하고 데이터 댐에 모아둘 방침"이라고 말했다.
박형수 기자 hspark97@joongang.co.kr