내 몸에 맞는 ‘검색 엔진’을 달아라 -1

중앙일보

입력

당신이 도서관에 있다고 상상해 보자. 당신은 포드社의 구형 무스탕에 관심이 있어, 이에 관해 사진이 많고 그 역사를 알 수 있는 책을 찾고자 한다. 어느 사서에게 도움을 청했더니 불행히도 그는 당신이 이해할 수 없는 러시아어밖에 할 줄 모른다. 당신은 질문을 ‘책, 자동차, 포드’라는 기초적인 세 단어로 축소해 다시 부탁한다.

그 사서는 당신의 의도를 이해했다는 듯이 여러 권의 책을 가져다 줬지만 당신 마음에 드는 책은 하나도 없다. 일부는 자동차에 관한 책이긴 했지만 포드社의 무스탕만을 전문적으로 소개한 책이 아니다. 또다른 책들은 제럴드 포드 前 대통령의 전기(傳記)다. 결국 다른 사서에게 부탁해 보지만 그는 중국어밖에 모르는 사람이다.

이런 곤혹스런 시나리오는 많은 컴퓨터 초보자들이 웹상에서 정보를 찾고자 할 때 겪는 어려움과 비슷하다. 오늘날 인터넷에서 자료를 찾는 1차적인 도구는 ‘검색 엔진’이다. 검색 엔진은 인터넷의 수많은 웹사이트들을 체계적으로 정리하는 소프트웨어 프로그램이다.

현재 인터넷상에는 약 12억 개의 웹 페이지들이 있고, 매년 그 규모가 대충 倍로 증가한다. 검색 엔진이 없으면 1초에 38페이지꼴로 인터넷에 올려지는 새로운 흥미진진한 자료들을 접할 수 없게 될 것이다.

검색 엔진의 필요성에 대해선 모두가 공감하지만 한 연구에 따르면 인터넷 이용자 10명당 7명이 검색 엔진에 대해 불만을 갖고 있다. 핵심 검색어를 입력했지만 쓸모없는 ‘결과’만 수백 건이나 나타나는 경우를 자주 경험했기 때문이다. 그런 결과가 나오는 이유는 복합적이다.

우선 웹은 규모가 엄청나 유용한 정보도 많지만 쓰레기 같은 정보도 많다. 또 사람들은 검색 엔진을 활용하는 데 능숙하지 못하다. 설상가상으로 컴퓨터 역시 사람들이 ‘책+자동차+포드’라고 쳐넣을 때 그것이 진정으로 의미하는 바를 정확히 파악하는 데 능숙하지 못하다. 기업들은 그런 문제들을 해결하기 위해 다년간 노력해 왔고, 이제 그 결실이 나타나기 시작했다.

검색에는 두 가지 기본적인 접근방법이 있다. 인간 중심적인 방법과 기계 중심적인 방법이다. 기계 중심적 접근법은 동일한 시간 안에 인간은 도저히 할 수 없는 엄청난 양의 일도 테크놀로지는 수행할 수 있다는 전제에서 출발한다. 게다가 기계는 수면이나 점심시간도 필요없다. 알타 비스타·잉크토미·익사이트·노던 라이트 같은 회사들의 컴퓨터는 엄청나게 많고 복잡한 일을 처리한다.

‘올 더 웹’이라는 새로운 검색 엔진은 ‘규모’가 중요하다는 입장을 취한다. 올 더 웹 서비스 제공업체인 노르웨이 패스트 서치社의 데이비드 번스는 “검색 엔진이 주소를 알고만 있었다면 ‘결과’의 첫 페이지나 두번째 페이지에 나타났을 보석 같은 자료들이 많이 숨어 있다”고 지적했다. 올 더 웹이 제공하는 웹 페이지는 무려 2억 개로 타의 추종을 불허한다.

인간 중심적 접근법은 지금까지 개발된 것 중 최고의 슈퍼컴퓨터인 ‘인간 두뇌’를 활용하는 것이다. 최고 품질의 웹 페이지를 선정하고 나머지는 버리는 능력에서 인간을 능가할 테크놀로지는 아직 없다는 것이 이 접근법의 기본 전제다. 여기서는 관리하는 웹 사이트의 수가 적을수록 더 중요하다.

야후社가 약 1백50명의 웹 에디터와 관리자를 고용해 ‘디렉토리’를 개발한 이유도 바로 거기에 있다. 디렉토리는 모두 1백20만 개의 웹 페이지를 분야별로 정리한 것이다. 야후를 이용해 검색할 경우 나타나는 ‘결과’의 수는 더 적지만 그 모든 결과에서 최소한 약간이나마 가치있는 정보를 얻을 가능성은 더 높다. 룩스마트(www.looksmart.com)·애스크 지브스(ask.com), 그리고 넷스케이프社의 오픈 디렉토리(dmoz.org) 등은 모두 야후와 비슷한 방식으로 인간의 능력을 활용한다.

물론 이들 회사 대다수는 검색상 각별히 어려운 문제들을 해결하는데 있어 각개 접근법의 역량을 능가하는 방식으로 테크놀로지와 인간 지능을 결합시키려 노력하고 있다. 모든 검색 회사들이 직면한 최대 난제 중 하나는 이용자들이 ‘chips’나 ‘saturn’ 같은 검색용어를 사용할 때 이용자들의 진정한 의도가 무엇인지를 예측하는 일이다.

이용자들이 그 검색용어를 통해 찾고자 하는 정보가 행성에 관한 것인지, 아니면 자동차에 관한 것인지에 대한 판단이 쉽지 않다는 얘기다. 다시 말해 어떻게 하면 이용자들의 머리 속으로 들어가느냐 하는 문제다. 한 검색 엔진 회사 중역은 “ESP(超감각적 지각) 모듈은 아직 개발되지 않았다”고 재치있게 푸념했다.

인터넷 이용자 가운데 ‘and’와 ‘or’ 같은 연산부호를 사용하는 사람은 6%도 안 된다. 마이크로소프트社 조사에 따르면 가장 빈번히 등장하는 검색 질문은 URL의 일부만 사용하는 것이었다. 이는 이용자들이 브라우저와 검색 엔진을 구별하지 못한다는 것을 암시했다. 마이크로소프트의 유서프 메디는 “특정 검색 엔진을 이용해 바로 그 검색 엔진을 찾으려는 사람들도 있다”고 소개했다.

ADVERTISEMENT
ADVERTISEMENT