ADVERTISEMENT

‘소식통’보다 정확한 ‘데이터’ … 전수 조사로 중국땅 실태 파헤쳐

중앙선데이

입력

지면보기

407호 04면

중앙SUNDAY는 이번 취재에서 빅데이터를 분석하는 데이터 저널리즘의 다양한 기법을 활용했다. 데이터를 모은 뒤(Data mining) 이를 통계적으로 분석하고, 추출된 데이터를 기반으로 특수한 사회현상을 알아내는 방식이다. 이후 이 추출물을 토대로 현장을 취재하고, 지도나 그래프를 적극적으로 활용해 한눈에 현상이 들어오도록 만드는 것(Visualization)이 데이터 저널리즘의 전반적인 과정이다.

중앙SUNDAY가 시도한 빅데이터 저널리즘

 데이터 저널리즘의 가장 기본이 되는 것은 빅데이터(Big Data)다. 수천, 수만 건으로 이뤄진 전수(全數) 데이터를 일컫는다. 특수 상황에 놓인 모든 경우를 들여다보기 때문에 표본 집단만 따로 모아 분석하는 경우에 비해 정확도가 높다. 소셜 미디어(트위터·페이스북 등)나 카드 회사의 매출 정보를 통해 현재의 트렌드를 추출하는 것이 빅데이터 분석의 대표적인 예다.

 최근에는 언론사들도 빅데이터를 모으기 시작했다. 그동안 언론은 정부 고위 관계자 등의 발언을 중심으로 기사의 틀을 잡아왔다. 정보화 시대에 진입하면서 이 같은 언론의 행태는 대중의 신뢰로부터 멀어졌다. 영국 가디언지와 미국 텍사스 트리뷴 등을 필두로 활용되지 않은 데이터를 모아 분석하는 시도가 이어졌다. 텍스트 위주의 신문이 아닌 그래픽 중심의 시각적 효과를 강조하는 추세도 계속되고 있다. 도시별 방사선량 지도나 지역별 화학물질 유출 현황 보도 등이 이 같은 사례다.

 ‘한국 내 중국인 땅’에 대한 취재도 이 같은 흐름을 따랐다. 먼저 전국 200여 기초자치단체를 대상으로 정보 공개를 청구해 데이터를 수집했다. 정보 공개에 응하지 않거나 자료가 부족한 경우 일일이 전화로 부탁했다. 토지 거래에 대한 내용은 개인정보에 해당하기 때문에 특정 툴을 이용해 정보를 구할 수 없다. 아날로그식으로 정보를 모으는 데만 두 달이 소요됐다.

 분석을 위해 엑셀 스프레드시트를 활용해 기본적인 데이터 흐름을 보고, 구글 퓨전테이블에서 제공하는 지도에 데이터들을 심어 기본적인 분포도를 확인했다. 전국적으로 중국의 땅이 얼마나 늘었고, 앞으로 얼마나 늘어날지를 분석하기 위해 엑셀에서 제공하는 데이터 분석 프로그램을 썼다. 지역별 토지 면적당 중국인 소유지 비율을 계산하기 위해 전체 지역 면적 데이터를 가진 업체에 협조를 구했다. 다른 지역에 비해 중국인 땅이 많거나 급격히 증가한 현장을 찾아갔고, 이를 토대로 전문가들의 분석을 받아 기사화했다. 처음 데이터 수집부터 기사가 완성되기까지 꼬박 3개월이 걸렸다.

 국가 정보를 쥐고 있는 정부에서도 이 같은 빅데이터를 일반에 제공하거나, 직접 활용하려는 시도가 늘고 있다. 서울시의 올빼미 심야버스가 대표적이다. 대중교통이 끊긴 심야 시간대에 주로 사람들이 어느 지역에서 어디로 이동하는지 데이터를 모아 서비스화한 사례다.

 하지만 정부 차원의 데이터 활용은 여전히 지지부진하다. 땅에 대한 전국 데이터를 모두 가지고 있는 국토교통부는 정작 지역별 외국인의 국적에 따른 소유지 현황조차도 제대로 구분해 두지 않았다. 세부 정보를 찾기 위해 지자체에 문의하자 한 군청 관계자는 “몇 년 전부터 국토부가 모든 토지에 대한 정보는 중앙정부로 전송토록 지시했고, 지자체별 데이터 공개는 사실상 금지시켰다”고 말했다.

 전문가들은 데이터 저널리즘에서 가장 중요한 요소로 ‘의문’을 꼽는다. ‘왜 그럴까’ ‘현재 상황은 어떨까’에 대한 궁금증과 아이디어가 있어야 데이터를 제대로 써먹을 수 있다는 것이다. 데이터 저널리즘의 선구자로 불리는 사이먼 로저스(전 가디언지 데이터 에디터·현 트위터 에디터)는 “넘쳐나는 데이터를 수집하고 분석해 문맥(context)을 부여하는 것이 데이터 저널리스트 임무의 핵심”이라고 말했다. 쓸모없던 데이터를 의미 있게 만드는 데에는 그만큼 뛰어난 직관과 아이디어가 필요하다는 뜻이다.

유재연 기자

ADVERTISEMENT
ADVERTISEMENT