ADVERTISEMENT
오피니언 유혁의 데이터이야기

데이터는 감정 빼고 봐야한다

중앙일보

입력

지면보기

종합 29면

유혁 윌로우 데이터 스트래티지 대표

유혁 윌로우 데이터 스트래티지 대표

치열한 선거전의 결과를 예측하는 것은 쉬운 일이 아니다. 하지만 접전이 될 것이란 것조차 예측하지 못했다는 건 큰 문제다. 이번 미국 대선 결과와 상관없이 2016년에 이어 2020년에도 가장 명백한 패자는 결과를 제대로 예측하지 못한 각종 여론조사 기관이라고 할 수 있다. 4년 전에는 아예 승자를 맞추지도 못했지만, 이번에도 대선과 의원 선거의 결과가 예상 밖의 접전양상으로 나타났으니 여론조사 방법에 심각한 의구심을 가질 만한 상황이다.

미대선 예측오류로 드러난 문제 #표본추출과 데이터 에러가 원인 #기존 여론조사방식 한계에 도달 #창의적 데이터 수집·적용 필요

많은 분석가들은 4년전 크게 벗어난 예측을 표본추출 오류의 결과로 결론을 내렸었다. 인구밀도가 낮은 지역에서 주요 변수의 대표성에 문제가 생기면 예측결과가 아예 틀릴 수 있다. 특히 양당의 선호도가 도시와 교외지역에 따라 명확히 갈리는 미국의 경우 샘플링 오류의 영향은 더욱 증폭된다.

전과 같은 실수를 되풀이하지 않기 위해 이번에는 ‘대졸 이하의 백인 남성’등의 특정 그룹에 가중치를 부여한 조사기관도 있다고 들었는데, 결과적으로 그런 방식도 예측 정확도에 큰 기여를 하지 못했다. 샘플 크기를 임의로 조정했다면 어떤 방식으로 얼마만큼 했다는 것인가? 아마 구체적인 샘플링 방식을 놓고 전적으로 동의하는 단 두 명의 통계전문가도 찾기 어려울 것이다.

그래서 분석작업에서의 ‘인간적 요소’도 간과하면 안된다. 모델링을 놓고 흔히 “반은 과학, 반은 예술”이란 표현을 쓰지만, 이렇게 크게 벗어난 예측을 보자면 그 예술이란 부분이 문제가 될 수도 있다는 생각이다. 고전적 모델링 과정에서 예측변수나 알고리즘의 선택에 전문가의 성향이 전적으로 배제될 수는 없다.

게다가 구조적 오류나 아예 틀린 데이터는 그 어떤 통계적 방식으로도 극복하기 어렵다. 미국식 표현인 “쓰레기를 넣으면 쓰레기 같은 결과가 나온다”라는 표현이 적절할 것이다. 만약 여론조사 응답자가 거짓으로 답했다면? 그렇게 명백히 틀린 정보는 데이터 수집과 모델링만의 문제가 아니다.

데이터이야기 11/23

데이터이야기 11/23

그 ‘인간적 요소’는 단지 모델링 작업뿐 아니라 사용자들이 예측결과를 적용하는 과정에서도 문제가 될 수 있다. 단순한 일기예보에 대한 반응도 사람마다 다르며, 예측의 적절함에 상관없이 사용자에게 감정을 다 빼고 결과를 보라는 것은 애초부터 무리한 주문이다. 그래서 데이터 사이언티스트는 더욱 중립적인 태도를 유지하도록 노력해야 하는 것이다.

구조적 편향성으로 인해 이제 기존의 여론조사 방식은 종말을 맞고 있는 것인지도 모른다. 특히 전화를 통한 여론조사는 더 이상 적절하지 않다. ‘모르는 번호에서 걸려온 전화를 받고 모든 질문에 성실히 대답한 사람’이란 집단은 그저 희망사항일 뿐이며 샘플링 오류의 근원이다. 발신자 신원이 표시되는 모빌 전화기를 가지고 누가 미확인 번호에 응답할 것이며, 설문방식이 적절하더라도 선호하는 후보에 관한 대답을 회피하는 사람도 많다. 특정 웹사이트 방문자만을 대상으로 조사를 하는 것보다는 낫겠지만 이 다양하고 복잡한 세상에서 전화를 통한 여론조사는 그저 참고사항 정도로 여겨야 한다.

2016년 미 대선 당시 ‘앞마당에 설치한 지지후보 표식의 수’ 등의 실제적 변수를 바탕으로 결과를 정확히 예측한 머신 러닝 알고리즘이 화제가 되었다. 그런 변수는 분명 사람들의 성향을 나타내지만 질문에 대한 대답의 형태는 아니다. 사람들의 말과 행동이 다른 경우는 흔하다. 일례로 어떤 배달 피자가게의 1년 판매량을 조사할 때 주인이 대답한 판매량과 사용한 피자 박스의 수 중 어느 변수에 편향성이 더 있을 것인가?

찾아보자면 질문이 필요 없는 변수는 도처에 널려 있다. 데이터가 흔한 미국에서 대선결과 예측에 쓸 만한 변수들은 그 앞마당 표식숫자 말고도 정치 집회자들이 차지한 면적, 소셜미디어상 긍정적·부정적 언급 수, 지지자별 평균 기부금액, 최초·반복 기부자 수 등을 고려해 볼 수 있다. 그런 데이터에 접근이 용이하지 않다면? 급한대로 드론이라도 띄워서 집회사진을 찍을 일이다.

머신 러닝은 주로 자동화 도구로 인식되어 있지만 그것을 모델링 과정에서 인간적 요소를 최소화하는 방식으로 이용할 수도 있다. 감정이 없는 기계는 역설적으로 틀린 예측으로 인한 인간들의 감정적 손실을 최소화할 것이다. 넘쳐나는 데이터와 AI 시대에서 기존의 방식만을 고집할 일이 아니다. 장벽은 기술적 요소들이 아니라 상상력 부족에 있다.

유혁 윌로우 데이터 스트래티지 대표