Opinion :유혁의 데이터이야기

데이터 사용하려는 목적부터 분명히 하라

중앙일보

입력 2019.12.23 00:11

지면보기

종합 32면

유혁 윌로우 데이터 스트래티지 대표

유혁 윌로우 데이터 스트래티지 대표

데이터를 의사결정에 사용했는데도 별 효과가 없었다는 조직들을 살펴보면 다음과 같은 공통점을 흔히 볼 수 있다. 우선 데이터 분석을 하는 사람들이 접근가능한 데이터베이스의 한도내에서 결과를 만들기위해 갖은 노력을 하고 있다. 데이터베이스의 모양을 갖추고 있다고 해서 다 양질의 정보는 아니며, 오히려 대부분은 온갖 오류로 가득 차 있다. 더불어 의사결정을 하는 사람들은 그 한정된 분석결과에서 의미를 찾아내려고 머리를 쥐어짜고 있다.

그렇다면 무엇이 올바른 접근방식일까. 첫째, 의사결정자들이 데이터를 사용하려는 목적부터 분명히 정립해야 한다. 예를 들자면 마케팅의 성공과 실패요인을 찾아 분석하는 것, 새로운 고객을 특정 마케팅 채널을 통해 찾는 것, 각 고객의 미래가치를 산출하는 것, 브랜드 별 고객성향을 파악하는 것, 특정 상품을 구입할 확률이 높은 대상을 찾는 것, 분기별 상품 판매량을 예측하는 것, 채널 별 마케팅 예산을 최적화하는 것 등, 그 목적이 명확해야 한다. 그저 “데이터를 사용해서 수익을 올리자”라는 막연한 기대는 사업목표가 될 수 없으며, 목적에 따라 필요한 데이터 활동도 천차만별이므로 그런 노력이 시간낭비로 끝나지 않으려면 주문이 구체적일수록 좋다.

둘째, 목표를 달성하기 위한 분석의 틀과 과정을 명확히 정립해야 한다. 이 과정에 분석가들이 필수적으로 참여해야 하며, 문제에 대한 솔루션을 처방하는 것이 그들의 가장 중요한 업무이다. 그것이 리포팅의 형태가 될지, 비즈니스 룰이 될지, 통계적 모델을 사용하는 예측적 분석이 될지, 그러한 미래에 관한 예측이 고객 개인별 예측인지 브랜드나 상품별인지, 아니면 회사 전체나 그를 넘어 지역별 트렌드를 찾는 것인지 확실하게 정하고 일을 시작해야 한다. 특히 통계적 모델이 사용되는 경우, 방식에 따라 필요한 데이터의 종류와 형태도 크게 달라지므로 더욱 유의해야 한다.

데이터이야기 12/23

데이터이야기 12/23

셋째로 데이터베이스는 필요한 분석을 위해 최적화되어야 한다. 많은 데이터베이스는 정제되지 않은 “날 것” 모양의 정보(raw data)를 포함하고 있다. 때문에 데이터는 구체적인 룰에 따라 고쳐지고 버려지고 규격화되고 카테고리화 되고 집적되는 여러 단계의 정제 과정을 거쳐야만 한다. 게다가 분석방식에 따라 데이터베이스의 구조자체를 바꿔야 하기도 한다.

예를 들어 “전체 고객 중 우수 고객을 선별하기”라는 비교적 간단한 작업을 위해 거래나 이벤트 위주로 구성되어 있던 데이터도 “고객을 묘사하는 변수”로 변환되어야 한다. 이런 작업을 전부 분석가에게 미루면 그들은 예측적 분석에 노력하는 대신 데이터를 고치고 변환하는 데에 대부분의 시간을 쓰게 된다. 미국 데이터 업계에서 흔히 인용되는 통계로는 많은 분석가들은 80%이상의 시간을 분석이 아니라 사전작업에 쓴다고 한다. 그것은 결코 최적화된 프로세스라고 할 수 없다.

비전문가들에게 생소할 수도 있는 내용을 자세하게 다룬 이유는 사용자들에게 경각심을 불러일으키기 위해서다. 막연한 질문은 예외없이 프로젝트의 실패와 데이터와 분석에 대한 실망으로 이어진다. 데이터까지 제대로 정제되어 있지 않다면 팀 전체가 시간낭비만 하게 된다. 일반 사용자들도 데이터에서 의미를 도출해 내는 기본적인 과정 정도는 주지해야 하며, 반드시 질문부터 명확히 하고 일을 순서대로 진행해야 좋은 결과를 빨리 얻을 수 있다.

유혁 윌로우 데이터 스트래티지 대표

Innovation Lab