ADVERTISEMENT

drive의 과거형은 왜 drived가 아닐까

중앙선데이

입력

지면보기

412호 32면

저자: 에레즈 에이든, 장바티스트 미셸 역자: 김재중 출판사: 사계절 가격: 2만2000원

‘빅데이터’란 말이 심심찮게 등장한다. 가령 트위터나 블로그·페이스북에 올라온 방대한 글을 통해 사람들의 생각과 행동을 읽고, 거기에서 일정한 맥락을 읽어내는 일이다. 어느 동네에서 어떤 맥주가 잘 팔리는지, 언제 사람들이 특정 번호의 버스를 많이 타는지도 족집게처럼 짚어낸다. 트위터에만 하루 5억 개의 단어가 등록된다니 성급한 일반화의 오류라고 볼 수는 없다.

『빅데이터 인문학: 진격의 서막』

하여 ‘빅데이터=마케팅’ 이렇게 쓰이나 싶었는데, 이제 시작인가 싶다. 바로 인문학에까지 등장하고 있는 것이다. 과연 데이터로 다뤄질 수 있을까 싶은 학문인데, 예를 들자면 이런 식이다.

영어를 외국어로 배우는 우리는 누구나 궁금하다. 왜 do의 과거형이 doed가 아니고, drive의 과거형이 drived가 아닌지. 빅데이터는 그걸 그냥 ‘원래 그런 거야’라고 하지 않는다. 일단 고대와 중세 영어에 관한 교과서에서 불규칙 동사 177개를 골라낸 뒤 세월에 따라 어떻게 바뀌는지를 체크한다. 중세에 와서 145개로 줄어든 불규칙 동사는 근대에 들어서자 98개만 남는다. 그러니까 규칙동사가 불규칙동사가 된 게 아니라, 점점 쓰이지 않게 되는 불규칙 동사가 규칙동사로 바뀌는 것이다. 그 변화 역시 점점 빨라져서, 빅데이터의 예측을 따르자면 2500년경 불규칙 동사는 83개만이 남게 된다.

이를 이끈 하버드대의 두 젊은 과학자는 여기에서 멈추지 않는다. 지금까지 전 세계 책 3000만 권을 디지털화한 구글의 데이터를 이용한다. 그 가운데 약 800만 권을 골라 글의 맥락을 배제하고, 오로지 그 방대한 서적에서 단어만을 독립적 개체로 분석한다. 그리고 이들이 개발한 ‘구글 엔그램 뷰어’란 웹사이트에서는 놀라운 일이 벌어진다. 검색어를 넣고 클릭 한 번으로 다양한 주제의 그래프가 그려진다. 거기엔 언제부터 프랑스보다 중국이 더 회자되기 시작했는지, 언제부터 금보다 석유가 더 중요해졌는지의 거대한 변화가 한눈에 들어온다.

방법이 쉬워졌다고 빅데이터 인문학을 재미로만 볼 수는 없다. 모든 정보가 그러하듯 ‘해석’이 더해지면 달라진다. 예컨대 둘은 명성이란 얼마나 크고, 어떻게 생겨나는가를 분석하기 위해 1800년부터 1950년까지 책 속에 등장하는 인물들을 조사한다. 그리고 결과 발표만이 아니라, 유명인의 데뷔 시기가 급속히 빨라지고 있으며 쇠퇴 또한 신속하다라는 추이를 ‘객관적으로’ 얻어내는 동시에 앞으로 유명해지기 위해 어떤 직종을 택해야 할 것인가에 대한 대안을 제시한다.

이제 다른 길을 걷던 인문학과 과학은 빅데이터를 통해 손을 잡게 됐다. 그리고 인문학은 과거를 관찰하고 이해하는 방식 역시 달라질 것이다. 지금껏 시도해 보지 못한 수없이 많은 연구가 가능해진다. 책 제목을 ‘진격의 서막’이라고 이름 붙인 이유가 여기에 있다.

그 선두에 선 두 젊은이를 부러워만 할 게 아니라면 책 말미에 더해진 한국어판 좌담을 놓치지 않기 바란다. 국내 빅데이터 전문가와 학자들이 나눈 대화는 빅데이터라는 새로운 학문의 원료가 얼마나 중요한지를 새삼 일깨워준다. 더불어 국내의 척박한 현실과 맞물려 빅데이터 구축의 필요성이 더욱 절실하게 다가온다.

글 이도은 기자 dangdol@joongang.co.kr

ADVERTISEMENT
ADVERTISEMENT