[트랜D]데이터에 필요한 '기획의 정석'은?

중앙일보

입력

업데이트

트랜D

“데이터를 모아 두었으니 된 것 아니냐고들 말씀하시지만, 뚜렷한 목표 없이 모인 데이터는 엄격한 의미에서 데이터라고 할 수 없어요.”

유재연의 인사이드 트랜D

빅데이터에 대한 오해를 풀고 싶다며 현직 데이터 분석가인 A씨가 읊조렸다. 그를 비롯한 많은 데이터 분석가들이, 가령 한 달 반 정도 분량의 프로젝트를 맡게 되면 대부분 다음과 같이 시절이 흘러간다고 한다. 업체에서 모아뒀다고 하는 데이터를 파악한다. 데이터를 정리 또는 정제한다. 이 과정에만 4주는 거뜬히 걸린다. 이후 2주 만에 통계나 머신러닝 방법을 써서 분석을 내놓는다. 시간을 더 쪼개 분석을 하고 싶어도, 데이터는 보안상의 문제로 외부 유출 및 접속이 불가능하기 때문에 더 해내기가 힘들다.

A씨는 “뚜렷한 목표 아래 데이터가 제대로 정리만 돼 있었어도, 미리부터 힘 빼지 않고 더 나은 분석을 만들었을 것”이라며 아쉬워했다. 그리고 이런 현상은 한두 곳의 이야기가 아닌, 상당히 많은 곳에서 벌어지는 일이라고 했다.

많은 업체가 AI 및 데이터 기반의 의사결정과정을 도입하기 위해 자사의 데이터를 꾸준히 모으고 있다. 그런데 많은 경우 이 데이터를 어디에 어떻게 쓸지는 미리 생각하지 못하고 있다고 한다. 구체적인 목표물이 없이 모으다 보면 서버 비용이 늘 뿐만 아니라, 데이터 활용 자체가 버거워져서 결국 제대로 써먹지 못하게 된다. 데이터를 때려 넣는다고 해서 AI가 엄청난 예측이나 어마어마한 아이디어를 발굴해 준다는 건 사실 환상에 가깝다. 데이터의 수집을 통해 판매 부진의 주요 원인을 찾을 것인지, 시즌별 새 상품의 반응을 예측할 것인지, 아니면 인사 시스템의 개선을 진행할 것인지부터 정해야 한다.
가령 발행 부수가 줄고 있는 신문사나 잡지사라면, 기존 하드카피 구독자에 대한 인구정보 및 지역 데이터가 꽤 중요할 것이다. 이를 토대로 지역을 더 세분화해서 주요 영업 타깃 지역을 찾고자 한다면, 주소 단위도 시·군·구보다 더 작은 읍·면·동 단위까지 쪼개져야 할 것이다. 필요에 따라 영업점의 위치와 매칭을 한 GIS 정보도 필요할 수 있다. 이런 정제작업이 미리 잘 돼 있기만 하다면, 갖은 분석 방법을 써서 마케팅 전략을 높은 성능으로 빠르게 구체화할 수 있다. 만일 SNS 데이터를 긁어 새로운 인터랙티브 페이지를 만들고자 한다면, 미디어로부터 어떤 변수를 뽑을 것인지 깔끔하게 정리하고 가는 게 좋다. ‘어떤 것을 보여주기 위한 페이지’인지에 따라 변수별로 값이 쪼개지는 밀도가 달라진다.

조직에서 데이터 활용을 통해 구현하고자 하는 ‘목표’는 특히 레이블을 통해 또렷하게 드러나야 한다. 레이블은 데이터 칼럼들(x값)을 아우르는 결괏값(y 값)이라고 할 수 있다. 기기의 오류를 잡기 위해선 작동의 ‘이상’ 및 ‘정상’이 레이블이 된다. 매출의 상승을 견인하는 요인을 알고 싶다면, 여러 변수를 아우르는 매출액이 레이블일 것이다. 만일 레이블에 오류나 오타가 발생하거나, 혹은 레이블 자체에 인간의 편향이 들어간다면, 값비싼 AI 솔루션과 데이터 분석이 일구어낸 결과도 잘못될 가능성이 높다. 그리고 그 레이블에 대한 기준이 제대로 마련되어 있지 않으면, 그제야 지난한 협의의 과정을 겪느라 분석 적기를 놓칠 수도 있다. 데이터 활용 전략에 대한 큰 목표 아래 세부적인 시나리오들을 구상한 뒤, 전략적으로 데이터를 모으고 정비할 것을 강력히 추천한다.

데이터에 대한 중요도가 늘면서 최근에는 정부에서도 빅데이터 축적에 큰 관심을 보인다. 특히, 전혀 가공되지 않은 날것 그대로의 데이터(raw data)에 분류 가능한 레이블을 입혀 인공지능이 학습하기 좋은 형태로 만들어가는 한국형 미케니컬터크 플랫폼 사업이 여럿 생겨나고 있다. 다만 이렇게 마련된 빅데이터가 어떤 식으로 쓰일 수 있을지는 조금 더 고민할 필요가 있다.

무궁무진한 아이디어를 가진 여러 과학자가 활발하게 쓸 수도 있을 것이다. 하지만 나름의 기획 아이디어를 기반으로, 페르소나를 만들고, 그 가상의 인물이 직접 사용한다고 생각한 뒤 레이블링 작업을 한다면 여러 번 손이 가지 않아도 되는, 구체적으로 씀 직한데이터셋이 나올 수 있을 것이다. 레이블 작업에서 어떤 편견이 반영될 수 있는지, 잘못 레이블링 된 데이터에 대해선 어떻게 분별할 것인지에 대한 우선적인 고려가 있어야, 데이터셋에 대한 신뢰도도 높일 수 있다. 기존에 머신러닝에서 줄곧 쓰여온 이미지 데이터셋(ImageNet)이나 손글씨 데이터셋(MNIST) 등의 단점을 확실히 보완할 수 있도록, 현장의 목소리를 기반으로 한 시나리오가 좀 더구체화한다면 더 정밀하고 쓰임새도 또렷한 데이터가 마련될 것이다. 기업에서든, 공공에서든, 어느 조직에서든 “그래서, 이걸로 뭘 할 건데? (So What?)”에 대한 대답은 잘 만들고 가는 게 좋다.

효과적인 AI 개발을 위한 데이터 전략 개발 가이드라인

① 데이터 수집 및 처리에 있어서 알맞은 목표에 맞게 깨끗하게 모을 것
② 품질에 있어서 균형이 잘 잡히고 레이블도 제대로 지정된 데이터셋을 마련할 것
③ 데이터의 출처나 변수 등, 데이터 자체의 컨텍스트를 이해하기 쉽도록 공유할 것
④ 목표를 달성하기 위해 데이터를 가장 적합한 형태로 가공할 것
⑤ 데이터에 접근하는 방식 및 데이터 업데이트가 용이하도록 구현할 것
⑥ 보안 및 관리를 심각하게 고려할 것
출처: 미디엄(Medium). https://medium.com/mmc-writes/the-ai-playbook-how-to-develop-a-data-strategy-for-ai-d74df9486c0e

유재연 객원기자