[트랜D]'데이터 댐짓기'의 엄중함

중앙일보

입력

업데이트

트랜D

‘데이터댐’ 건설을 골자로 하는 디지털 뉴딜 계획이 발표된 지 두 달여가 지났다. 지난 6월 18일에는 문재인 대통령이 직접 더존비즈온의 강촌캠퍼스를 찾아 “디지털 뉴딜이 성공한다면 우리는 포스트 코로나 시대의 디지털 경제를 다른 나라들보다 앞서가서 성공할 수 있을 것”이라고 언급하며 정책에 힘을 싣기도 했다.

'유재연의 인사이드 트랜D'

정부과제도 쏟아지고 있다. 한국정보화진흥원(NIA) 주관 인공지능 학습용 데이터 구축 2차 사업과 한국데이터산업진흥원 주관 하반기 AI 데이터바우처 지원사업은 현재 선발 절차를 진행하고 있다. 업계도 분주하다. 내년 상하반기 사업을 준비하는 업체들은 컨소시엄 구성을 위해 곳곳에서 바삐 움직이고 있다.

다만 과제 수행 기간이 짧다 보니 데이터 구축과 검증에 주어진 시간이 많지 않다. 데이터 공개를 위한 법적 절차 검토 시간도 생각보다 부족하다. 복잡한 행정 및 예산을 총괄적으로 담당하겠다고 나설 수행기관(일명 ‘마도’) 찾기도 쉽지 않다. 시행착오가 발생할 수밖에 없는 기간이지만, 많은 양으로 쌓이게 될 데이터셋의 품질을 생각하면 좀 더 치밀한 접근이 필요하다.

짧은 시일에 빠르게 진행… 그래서 품질이 더 중요해진다

매년 인공지능 관련 학회에서는 ‘내 데이터셋은 훌륭하다. 이것을 가져다 쓰라!’는 부류의 논문이 쏟아져 나온다. 특히 이미지 데이터셋 분야에선 중국 학계가 선도적인 위치를 점하고 있다. 일례로 꽤 흥미롭고도 조금은 아찔한 연구가 있다. 최근 컴퓨터비전 및 패턴인식 학회(CVPR 2020)에 발표된 논문 중 COCAS라는 이름의 데이터셋이다 . 일반적으로 사람을 특정하는 알고리즘을 짤 때, 해당 인물의 옷이 바뀔 때마다 이 사람이 ‘동일인’이라고 다시 아이디를 달아야 하는 문제(re-ID Problem)가 발생한다. 이를 해결하게 해주는 데이터셋이다. ¹

연구진은 5266명의 사람과, 이들이 갈아입은 옷(몸) 6만2000여건의 데이터를 결합해 ‘누가 어떤 옷을 입었는지’를 일일이 짝지어 데이터 뭉치를 만들었다. 해당 데이터를 활용하면 옷 정보나 생체정보를 구분해내는 기존 알고리즘의 퍼포먼스도 높아진다고 한다. 그리고 ‘옷을 갈아입고 도망치는 용의자’를 잡을 가능성도 증가할 것이라고 연구진은 전망했다. 초상권이나 인권 이슈가 있기는 하지만, 활용도 면에서는 꽤 이야기될 법한 데이터셋인 셈이다.

그림1. COCAS 데이터셋의 구조. 이미지들로부터 사람을 골라내고, 얼굴을 찾아낸 뒤, 이들이 입은 옷들을 구분해 클러스터로 묶어 ‘특정 인물이 입은 옷 그룹’을 만들어낸다. 출처: Yu et al.(2020)

Vatex라는 데이터셋은 다언어 비디오 묘사 데이터셋인데, 총 4만1250개의 비디오에 대해 82만 5000건의 캡션을 영어와 중국어로 제공하고 있다. ² 해당 데이터셋도 2019년 국제컴퓨터비전학회(ICCV)에서 소개돼 큰 관심을 끌었다. 일반적으로 많이 쓰이던 데이터셋(MSR-VTT)에 비해 더 다량의, 훨씬 복잡한 비디오-자연어 설명을 해냈다는 점을 강점으로 내세웠다. 또한 비디오가 자연어 간 번역에 도움을 주는 방안도 제시됐다. 비디오 데이터 자체가 이미 영어와 중국어를 내재한 상태이기 때문에, 영어 자연어에 관련 비디오를 붙이면 관련 중국어로 더 정확하게 번역이 될 수 있다는 것이다.

그림2. 다언어 비디오 캡션 기능과 비디오의 도움을 받는 기계번역에 대한 시스템 내용이다. 동영상에 대한 다언어가 데이터셋으로 구축되어 있기 때문에, 이를 활용해 더 나은 번역을 해낼 수 있다고 연구진은 밝혔다. Wang et al.(2020)

쓰임새 있는 데이터셋을 위해선 ‘전문분야’ 레이블러도 필요

이처럼 높은 퍼포먼스를 보이거나, 혹은 범용적으로 쓰일 수 있는 데이터셋의 설계는 연구계뿐 아니라 향후 ‘디지털 뉴딜’ 이후 파급효과를 위해서도 아주 중요한 이슈다. 국제적인 학회에도 ‘대규모’ ‘높은 정확도’ ‘훌륭한 쓰임새’와 같은 키워드로 당당하게 발표될만한 높은 품질의 데이터셋이 기대돼야 한다.

그러기 위해선 만드는 데이터셋의 성격에 따라 레이블러나 레이블링 방법의 차이가 탐색 돼야 한다. 가령 크라우드소싱으로 레이블링하는 데이터라면, 단순하고 자의적 판단이 들어가지 않는 데이터셋이어야 한다. 예술적 행위(설치미술이나 안무, 행위예술이나 연기 등)에 대한 레이블링이라면 관련 전문가의 손이 꼭 필요하다. 단순히 몇 개월 만에 후다닥 해치울 게 아니라 중장기적으로 끌고 가야 하는 이슈들도 분명히 있다.

데이터댐은 전문가들의 입장에서 봐도 상당한 파급력을 보일 것이다. 다만 그 데이터가 얼마나 쓸 만한지, 얼마만큼 경쟁력이 있는지에 대해서는 계속 검토가 되어야 할 것이다. 유수의 학회에서도 반짝 눈길을 끌었다가 버려지는 데이터셋이 한둘이 아니다.

¹ Yu et al.(2020). COCAS: A Large-Scale Clothes Changing Person Dataset for Re-identification. CVPR 2020.
² vatex-challenge.org 에서 확인할 수 있다.

유재연 객원기자