[책 속으로] 니체의 '신은 죽었다'는 옳았다 ?

중앙일보

입력 2015.01.31 00:54

업데이트 2015.01.31 00:58

지면보기

종합 22면

멕시코 호세 바스콘셀로스 도서관. 디지털 기술의 발달로 도서관을 헤매지 않고도 간단한 검색만으로 필요한 자료에 쉽게 접근할 수 있게 됐다. [사진 사계절]

빅데이터 인문학 :
진격의 서막
에레즈 에이든·
장바티스트 미셸 지음
김재중 옮김, 사계절
384쪽, 2만2000원

여러 차례 들었지만 들을 때마다 거짓말 같은 이야기가 ‘구글 북스 라이브러리 프로젝트(Google books library project)’다. 검색사이트 구글이 세상의 모든 책을 디지털화하겠다고 선언하며 처음 이 프로젝트를 발표했을 때만 해도, ‘그게 가능해?’라는 회의적인 시각이 지배적이었다. 하지만 사업은 놀라운 속도로 진행돼 2004년부터 현재까지 3000만여 권 이상의 책이 이미 디지털화됐다.

2010년 기준으로 전세계에 약 1억3000만 권의 책이 있다고 하니, 구텐베르크 활자혁명 이후 출간된 책 네 권 중 한 권이 이미 구글 북스 라이브러리에 포함된 셈이다. 인류가 남긴 기록을 한 데 모은 전대미문의 빅데이터(big data)가 이렇게 탄생하는 중이다.

 세상의 모든 책을 품은 거대한 디지털 도서관. 이 책의 저자들은 이 꿈같은 도서관을 어떻게 활용할 수 있을까에 골몰한 젊은 과학자들이다. 미국 하버드대 박사과정에 있던 두 사람은 구글이 디지털화한 이 자료들이 단순한 빅데이터가 아니라 수세기 전까지 거슬러 올라가는 롱데이터(long data)라는 사실에 주목했다. 대부분의 빅데이터 연구가 온라인상의 기록을 분석해 최근의 실태를 보여주는데 그치는 반면, 구글이 디지털화한 이 기록들은 인류 문명의 흔적이 담긴 저장고다. 그러므로 이 방대한 양의 어휘를 분석하면 인간의 역사와 문화에 대한 새로운 발견이 가능할 것이다.

 예를 들자면 이런 것들. 대문호 셰익스피어는 ‘결핍’을 뜻하는 단어 ‘lack’을 이용해 ‘lack-beard(수염이 없는)’ ‘lack-brain(바보)’ ‘lack-love(사랑 없는)’ 같은 다양한 신조어를 만들어냈다. 이 중 어떤 단어가 살아남고 어떤 것이 사라졌는가. 셰익스피어 이후에 쓰인 책에 이 단어들이 언급된 횟수를 파악함으로써 단어의 확산과 소멸과정을 알 수 있다. 어마어마한 분량의 책에 실린 사람 이름 빈도를 계산하면 누가 당대에 가장 많이 회자되었는지, 자손대대로 이름을 남겼는지가 보인다.

7년에 걸친 노력 끝에 저자들은 ‘구글 엔그램 뷰어(Google ngram viewer)’를 개발했다. 구글이 디지털화한 책들 가운데 800만 권(초기엔 500만 권이었지만 2012년에는 800만 권으로 업데이트됐다)을 추려, 그 속의 8000억 개 단어가 사용된 빈도의 추이를 그래프로 보여주는 프로그램이다.

 19세기 말 철학자 니체는 ‘신은 죽었다’고 말했다. 정말 그럴까. 구글 엔그램 뷰어 프로그램을 돌려보면 ‘신(god)’은 19세기 초까지 1000단어 당 1회 정도 언급되는 인기단어였다가 19세기 말에 들어서면서 언급 횟수가 절반 이하로 줄어든다. 죽지는 않았지만 힘이 빠진 건 사실이다.

‘사회주의(socialism)’와 ‘자본주의(capitalism)’의 대결을 보자. 1848년 마르크스와 엥겔스의 『공산당 선언』이 출간된 이후 언급되기 시작한 사회주의는 1917년 러시아 혁명 이후 상승세를 이어간다. 그러나 1929년 대공황 이후에는 자본주의에 완전히 추월당한다.

그 외에도 언제부터 금(gold)보다 석유(oil)가 중요해졌는지, 프랑스(France)보다 중국(China)에 대해 더 많이 이야기하기 시작한 건 언제인지, 왜 늑대인간(werewolf)보다 좀비(zombie)가 어둠의 수호자로 더 각광받게 됐는지 등 이 프로그램을 이용하면 쓸모 있는 또는 쓸모는 없지만 재밌어 보이는 다양한 시도가 가능하다.

 저자들은 자신들의 연구에 ‘컬처로믹스(culturomics)’라는 이름을 붙였다. ‘유전체학(genomics)’에서 따온 단어다. 생물학에서 DNA 염기서열의 대규모 집합이 어떤 패턴을 드러내는 것처럼, 방대한 양의 어휘 데이터 역시 인간의 언어와 문화에 대한 어떤 유형을 보여준다는 의미다. 그러면서 “빅데이터는 인문학을 바꾸고, 사회과학을 변형시키고, 상업세계와 상아탑 사이의 관계를 재조정할 것”이라고 말한다.

하지만 빅데이터가 세상의 모든 것을 설명할 수 있다고 주장하지는 않는다. 구글 엔그램 뷰어를 활용한 연구 역시 책 이외의 매체에 접근할 수 없고, 특정 단어가 어떤 맥락에서 쓰였는지 명확히 파악하기 어렵다는 점 등 해석상의 ‘구멍’이 존재한다.

 한계를 인정하더라도, 구글 북스 라이브러리라는 빅데이터를 이용한 연구가 우리가 과거를 설명하고 이해하는 매혹적인 접근법이라는 데는 동의할 수 밖에 없다. 의심이 된다면 당장 구글 엔그램 뷰어 사이트(books.google.com/ngrams)에 들어가 당신이 궁금한 무엇인가를 검색창에 영문으로 적어보라. 기자의 영문 이름 ‘younghee’를 검색하니 1970년대 이후 점차 상승했다가 90년대부터 급격히 하강하고 있는 그래프가 나온다. 과학적인 해석은 어렵지만 왠지 납득이 가는 곡선이다. 보다 학술적인 연구를 위한 빅데이터 활용방안을 알고 싶다면, 책 말미에 실린 한국 빅데이터 전문가들의 대담을 참고할 만 하다.

이영희 기자 misquick@joongang.co.kr

[S BOX] ‘악명’ 떨친 히틀러

1899년 태어난 사람들 중 가장 유명해진 이는 누구일까. 이 해에는 아르헨티나의 작가 호르헤 루이스 보르헤스, 배우 험프리 보가트, 전설적인 영화감독 앨프리드 히치콕, 마피아 알 카포네 등이 탄생했다. 하지만 그 해 출생한 대표 유명인은 미국 작가 어니스트 헤밍웨이였다. 저자들이 1899년 이래 영어로 나온 책 속에서 가장 많이 언급된 이름을 집계한 결과다.

 저자들은 구글 엔그램 뷰어를 이용해 1800년에서 1950년 사이에 태어난 사람 가운데 각 해를 대표하는 ‘유명인 명예의 전당’을 작성했다. 이에 따르면 1911년생 중에는 로널드 레이건이, 1931년생 중에는 미하일 고르바초프가 선정됐다. 엘비스 프레슬리(1935), 존 레넌(1940), 살만 루시디(1947) 등도 있었다.

 그렇다면 지난 200년 동안 가장 유명했던 사람은 누구일까. 1위 아돌프 히틀러, 2위 카를 마르크스, 3위 지그문트 프로이트, 4위 로널드 레이건, 5위 이오시프 스탈린, 6위 블라디미르 레닌, 7위 드와이트 아이젠하워, 8위 찰스 디킨스, 9위 베니토 무솔리니, 10위 리하르트 바그너 순이었다.

 저자들은 유대인 학살을 일으킨 히틀러를 비롯해 독재자들이 10위 안에 다수 포함된 점을 주목했다. “우리는 명성으로 가는 가장 확실한 길이 사람을 죽이는 일인 세계에 살고 있다”고 씁쓸해했다.

ADVERTISEMENT
ADVERTISEMENT
ADVERTISEMENT

Innovation Lab