빅데이터 분석에서 두 번째 중요한 변수는 언급의 감성적 성격이다. 인간의 본성을 반영하듯 사회관계망서비스(SNS)에선 긍정적 감성보다 부정적 감성을 표현하는 단어가 많다. 부정적 감성의 표현량이 통상적 수준을 넘으면 해당 후보는 낙선 가능성이 크다고 한다. 중간 분석에 따르면 긍정적 감성 대비 부정적 감성의 표현량에서 황교안이 이낙연보다 많았다. 빅데이터와 AI는 사람의 절대적 언급량에선 황교안 후보의 당선을, 긍·부정의 상대적 비율에선 이낙연 후보의 당선을 예상한 셈이다.
빅데이터·인공지능은 알고 있다
황교안 언급량은 이낙연보다 많아
투표장에 많이 나가는 쪽이 승산
빅데이터+AI가 종로에서 황교안이 이낙연과 최소한 박빙 상태에 있음을 보여주는 이 분석은 지금까지 각 언론사나 여론조사 회사들의 예측과 상반된다. 3월 10일에서 30일 사이에 발표된 여론조사들만 봐도 20~25%포인트 격차로 이낙연이 이기는 것으로 나타났다.
총선 승자를 맞히는 게임에서 빅데이터와 여론조사는 왜 이렇게 차이가 나는 걸까. 여론조사는 응답자의 답변 패턴과 동일한 답변 패턴이 무응답층에서도 반복되리라고 전제하고 있다. 문제는 여기서 시작됐다. 지역구 국회의원 선거 여론조사에서 응답층과 무응답층의 동일성이 부정된 경우는 부지기수다. 당장 2016년 4·13 총선 20일 전 종로 선거구의 KBS 여론조사는 정세균 후보가 오세훈 후보한테 17%포인트 지는 것으로 조사됐다. 실제 결과는 반대로 정세균이 13%포인트 차이로 승리했다.
빅데이터는 응답층과 무응답층을 망라한다. 여론조사 전화를 받은 적이 없거나 이런저런 이유로 응답하지 않은 사람들도 유튜브나 페이스북, 인스타그램이나 네이버 블로그, 트위터는 사용하기 마련이다. 이들 SNS에 나타난 관련 언어들을 모조리 추출해 사람의 속마음을 추적하는 게 빅데이터 분석이다. 빅데이터에선 여론조사의 사각지대인 무응답층이 처음부터 존재하지 않는다.
본질적으로 미래 예측은 신의 영역에 속한다. 여론조사나 빅데이터는 그저 신을 흉내 낼 뿐이다. 사실 미래를 만드는 건 인간이다. 총선의 마지막 변수는 따로 있다. 선거날 어떤 세력이 투표장에 더 많이 나가느냐의 문제다. 행동이 결과를 산출한다. 지난 3년간 집권당의 정책이 2년간 더 계속되기를 바라는 세력이 있을 것이다. 반대로 이 정권의 독주에 제동을 걸어 정책의 변화를 가져와야 한다고 믿는 세력도 있을 것이다. 코로나 비상 시기여서 투표율이 떨어지기를 바라는 세력이 있는가 하면 권력의 오만을 심판하려면 투표율이 올라가야 한다는 세력도 있다. 운명에 기대기보다 의지를 드러내는 쪽이 이길 것이다.
전영기 중앙일보 칼럼니스트