Opinion :유혁의 데이터이야기

데이터 가지고 거짓말하면 안됩니다

중앙일보

입력 2020.04.13 00:15

지면보기

종합 25면

유혁 윌로우 데이터 스트래티지 대표

유혁 윌로우 데이터 스트래티지 대표

세상에서 가장 쉬운 일 중 하나가 데이터를 조작하여 의도를 관철시키는 것이다. 많은 이들이 ‘데이터 같이 생긴 것’에 잘 속아넘어가기 때문이다. 말만으로는 설득이 어려운 경우에도 그래프를 포함하면 프레젠테이션이 그럴 듯해 보이기 마련이다.

데이터라고 무조건 믿으면 안돼
일상적 도표도 구체적으로 봐야
특정 경우 일반화하는 것은 금물
정보 대할 때 비판적 사고 필요

하지만 데이터를 다루어 결론을 도출해 내는 사람의 의도에 따라 얼마든지 줄거리가 바뀔 수 있다는 걸 기억해야 한다. 단지 컴퓨터가 정보를 토해냈다고 그것이 진실인 것은 아니다. 정보과잉 시대에 누구나 데이터와 분석에 관한 기본적인 상식을 갖추어야 하는 또 하나의 이유다.

얼마전 트럼프 대통령이 기자회견때 서울 인구를 틀리게 인용한 것은 아예 통계숫자를 임의로 만들어내어 즉각 탄로가 난 경우이지만, 대부분의 ‘나쁜 의도’는 일견 제대로 보이는 도표속에 숨어있기 마련이다.

데이터 도식화에 관한 고전적 교과서를 저술했다고 평가되는 에드워드 터프트 (Edward R. Tufte)는 그의 저서에서 그래프를 이용해 대상을 오도하는 것은 엄연한 거짓말이라고 못박아 말한 바 있다. 예를 들어 어떤 특정 연도에만 12개월치 데이터 중 일부만을 사용해 그해가 상대적으로 더 나쁘게 보이게 하는 건 명백한 사기행위다. 의도적으로 3D 형상을 왜곡하여 상승률이나 하강곡선이 실제보다 과장되게 보이게 하는 것도 그래프를 만든 사람이 거짓말을 한 것이 된다.

그런 경우에는 ‘데이터가 틀리지 않으니 거짓말이 아니다’라는 변명이 통하지 않는다. 다만 기하급수적인 곡선을 이해하기 쉽도록 로그함수를 적용해 직선으로 만들어 표현하는 것은 그 스케일만 정확하다면 분석에서 흔히 쓰는 기법이다. 요는 도식을 보는 사람들이 단지 막대의 길이나 원의 크기, 혹은 곡선의 모양만 볼 게 아니라 그것이 어떤 숫자나 비율을 나타내고 있는 지에도 늘 관심을 가져야 한다는 것이다.

데이터이야기 4/13

데이터이야기 4/13

의도한 스토리를 강조하려고 데이터의 앞뒤를 자르고 보여주는 경우도 있다. 예를 들어 제품 불량률이 하향세라는 것을 강조하는데 유리한 3개월치 데이터만 도표에 사용하는 식이다. 그런데 만약 지난 2년치 불량률이 꾸준한 상향세를 보이고 있었다면 그렇게 잘라서 보여주는 것은 옳지 않다. 한정된 경우를 일반화하는 것은 누구나 빠지기 쉬운 함정이지만 통계를 다루는 사람들은 그런 유혹을 뿌리쳐야 한다.

총기소유가 자유로운 미국에서는 늘 총기규제에 관한 토론이 치열한데, 시카고라는 특정도시의 총기관련 사망건수만을 거론하며 ‘총기규제가 이미 있는 곳에서도 사망자가 많으니 규제가 소용없다’라는 우기는 것도 그 일반화의 나쁜 예다. 그런 경우 여러 도시들을 대상으로 총기규제 전후의 인구대비 사망률을 비교한다면 모를까, 도시마다 인구분포와 경제상황이 다른데 사망자 숫자 하나만을 가지고 단정적인 결론으로 이끄는 것은 의도가 불순하다고 볼 수 있다.

이렇듯 사용한 데이터는 틀리지 않더라도 스토리를 더 드라마틱하게 만들기 위해 특정변수에 중점을 두는 경우는 흔하다. 한 회사의 총매출액이 상승한 경우에도 만약 해당 회계연도 중 마케팅에 엄청난 투자를 했다면 투자대비 상승률도 따져봐야 한다. 일반적으로 그 어떤 마케팅 프로그램도 하는 게 안 하는 것보다는 낫기 때문에 단순히 총매출액만 비교해서는 완전한 그림이 나오지 않는다.

한정된 데이터로 인한 오류의 다른 예로 어느 나라에서나 선거철이면 쏟아져 나오는 여론조사들을 들 수 있다. 유명한 사례로 미국에서 트럼프의 당선을 제대로 예측한 통계조사가 거의 없었다. 거기에는 트럼프 지지자들의 조사거부 등 많은 요소들이 있었지만, 가장 큰 문제는 대도시 밖 인구밀도가 낮은 지역에서의 샘플 크기가 너무 작았다는 것이었다. 추출된 표본에 대표성이 결여되면 결론도 틀리게 마련이다. 유사한 예로 ‘휴대전화에 응답한 사람들’만을 대상으로 설문조사를 한 경우에는 샘플의 대표성이 부족하다고 가정하고 거시적인 방향성만 그저 참고로 받아들여야 한다.

주입식 교육의 가장 큰 폐해 중 하나는 사람들이 비판적 사고를 잃게 하는 것이다. “그거 책에 있는데요”는 그 사항이 진실이라는 근거가 될 수 없다. 마찬가지로 "컴퓨터가 출력했다”도 그 정보가 옳다는 이유가 되지 않는다. 분석과 해석을 거친 정보는 늘 비판적인 시각으로 대해야 한다.

유혁 윌로우 데이터 스트래티지 대표

Innovation Lab