ADVERTISEMENT
오피니언 유혁의 데이터이야기

데이터 기반의 의사결정을 잘하는 방법

중앙일보

입력

지면보기

종합 25면

유혁 윌로우 데이터 스트래티지 대표

유혁 윌로우 데이터 스트래티지 대표

정보 과잉 시대에는 데이터를 직업적으로 다루지 않는 사람들도 주어진 정보를 효율적으로 사용하여 바람직한 결정을 내리도록 하는 훈련이 필요하다. 그것은 생각하는 방식을 조금만 바꾸면 그리 어려운 일이 아니다.

고려해야 할 변수 중요도 달라 #목적에 맞는 변수에 가중치 두는 #통계적 ‘모델링’ 이용이 효과적 #모델링은 미래 예측 가능케 해

간단한 예로 자동차를 구입하려고 할 때 ‘가장 적합한 차’라는 답은 사람마다 다르다. 고려하는 변수들을 일일이 나열해 보자면, 차종·브랜드·가격·산지·인지도·연료 타입·안전도·디자인·색깔·인테리어·엔진 용량·가속력·코너링·뒷좌석 크기·트렁크 용량·할인 여부·할부이자율·애프터서비스 용이도·유지비용·수리비용 등이 있겠다. 요는 사람마다 어느 변수에 더 중점을 두는 지가 다르고, 그래서 답도 제각각일 수밖에 없다는 것이다.

그러니 차를 고를 때 막연히 세상에서 가장 좋은 차라는 추상적인 개념은 구매 결정에 별 도움이 안 된다. 아무리 인기차종이라도 가격이 맞지 않으면 그림의 떡이다. 필요한 건 트럭인데 2인승 스포츠카를 찾는 것도 웃기는 일이다. 단지 색깔이 예쁘다는 이유만으로 차를 사는 사람들은 극히 드물다. 그런데 이렇게 고려해야 할 요소가 많은 경우, 각 변수에 가중치를 부여하고 그것을 종합해서 점수를 매겨보면 결정이 쉬워진다.

사업경영을 할 때도 마찬가지다. 딱 부러지게 답이 나오는 경우는 아주 드물다. 하지만 주어진 여건과 상황을 여러 변수로 잘라서 보고, 무엇이 중요한지에 따라 점수를 따져보면 판단오류의 가능성을 최대한 줄일 수 있다. 물론 가중치를 둘 때 그것을 한 개인의 임의로만 정하면 오류가 생길 수 있지만, 그래도 고려하는 변수가 많다면 아예 엉뚱한 답이 나오는 경우는 드물다.

데이터이야기 5/11

데이터이야기 5/11

재미있는 건 컴퓨터를 이용한 모델도 얼추 이런 식으로 돌아간다는 것이다. 예를 들어 어떤 영업부서가 그들에게 타깃이 될 만한 수만 개 이상의 회사명단을 얻었다고 하자. 팀이 아무리 커도 모든 대상을 단시간에 접촉하기란 불가능할 것이다. 그래서 영업사원들은 어떻게든 성공확률이 높아 보이는 곳부터 접촉을 시도할 것이다. 하다못해 어디서 들어본 회사, 좀 있어 보이는 동네에 위치한 회사 등 주먹구구식으로 명단을 추리더라도 무작정 가나다순으로 전화를 걸기 시작하는 것보다는 나을 것이기 때문이다.

이런 경우 단지 이름과 전화번호 이외에 타깃 회사들의 연도별 매출총액, 영업이익, 직원 수, 사업개시연도, 산업별 구분 등의 변수들이 명단과 함께 따라왔다면 정렬화가 훨씬 용이해질 것이다. 일단 산업이나 지역별로 대상이 아닌 곳부터 추려내고 매출총액이나 직원 수의 역순으로 명단을 재정렬하는 것도 한 방법이다.

그런데 이런 작업을 하면서 사용하는 변수에 의미 있는 가중치를 두려고 시도해 보면 그게 단지 임의로 정할 수 없는 것이란 걸 곧 깨닫게 된다. 게다가 현실에서는 여기 예로 든 몇 가지 변수보다 훨씬 복잡하고 많은 정보가 데이터베이스 안에 있게 마련이다.

실제적인 예로, 명단을 제품을 살 확률이 높은 순서대로 재배열을 하려면, 그건 이미 사람들의 상상력에만 의지할 수 있는 단계를 지난 것이다. 여기서 통계적 모델링을 이용하면 목적에 부합하는 변수들이 선택되고 각기 가중치가 부여되며 그에 따른 합산된 점수가 나오게 된다. 그럴 경우 사용자는 통계적 지식과 무관하게 그저 모델점수가 높은 타깃부터 우선적으로 접촉하면 된다. 점수에 따라 구매를 할 확률이 높은 대상이 상위권으로 집중되니 통상 10분의 1 정도의 선별적 접촉만으로도 좋은 결과가 나오게 되는 것이다.

이런 작업을 통계전문가가 하면 모델링이라고 하고, 기계가 하면 머신 러닝이라고 한다. 기본적 원리는 비슷하다. 공정이 자동화가 되어서 기계가 작업을 하면 새로운 데이터가 입력됨과 동시에 모델 공식과 점수도 업데이트된다는 것이 차이점이다.

모델링은 다량의 다양한 데이터를 사용하기 편하도록 간추려주는 역할을 한다. 그 모델 공식 안에는 여러가지 변수들이 있을 수 있지만, 사용자들은 질문에 대한 답을 간단한 점수의 형태로 얻게 되니 의사결정이 훨씬 쉬워진다. 더욱이 모델링은 데이터베이스의 빈 곳도 채워주며, 미래에 대한 예측도 가능하게 한다. 데이터 사이언티스트의 중요한 자질 중 하나로 통계학 지식이 자리 잡고 있는 이유다. 궁극적으로 사용자는 많은 데이터가 아니라 간단한 답을 원하는 것이다.

유혁 윌로우 데이터 스트래티지 대표