ADVERTISEMENT

[뉴스 클립] Special Knowledge <450> 검색의 세계

중앙일보

입력

업데이트

지면보기

경제 13면

이수기 기자

‘웹 검색’. 최근 10년 새 가장 친근해진 말이다. 생활 속 궁금증 해소에서부터 학술 논문 작성에 필요한 자료수집에 이르기까지 인터넷을 뒤지는 웹 검색은 현대인에게 너무나 당연해진 일이 됐다. 불과 20년 전인 1990년대 초반만 해도 원하는 정보를 얻기 위해선 많은 노력이 필요했다. 답을 아는 사람을 찾을 때까지 주변 사람들을 수소문하는 것은 기본이고, 도서관을 방문해 관련 서적을 일일이 읽어봐야 했다. 세계 최대 검색엔진인 구글에서는 하루 평균 10억 건의 검색이 이뤄진다. 검색의 세계를 들여다봤다.

최초의 검색엔진은 1990년 캐나다서 만든 아키

[일러스트=강일구]

40년 전 인터넷이 처음 만들어질 당시에는 지금처럼 월드와이트웹(WWW)이라 불리는 웹페이지들이 존재하는 것이 아니었다. 개인 서버에 올린 파일들이 FTP라는 통신규약에 따라 그물망처럼 연결된 형태였다. 최초의 검색엔진은 이러한 파일들을 검색해주는 아키(archie)다. 아키는 1990년 캐나다 맥길대에 재학 중이던 앨런 앰티지가 개발했다. 월드와이드웹이 도입되면서 93년 크롤링(Crawling)이라는 개념을 도입한 월드와이드웹원더러(World Wide Web Wanderer)라는 검색엔진이 탄생한다. 크롤링이란 무수히 많은 컴퓨터에 분산 저장돼 있는 문서를 수집해 색인을 만드는 기술이다. 컴퓨터가 정해진 규칙에 따라 인터넷에 존재하는 수많은 웹사이트에 접속해 해당 정보를 복사해 온 후 이를 정리하는 것이었다. 하지만 월드와이드웹원더러는 하루에 같은 페이지를 수백 번 접속해 시스템 랙(lag)을 발생시켰고 사람들은 과연 이런 크롤링이 필요한가 의문을 가지기 시작했다. 이후에도 프리미티브웹서치(Primitive Web Search·1993), 알리웹(ALIWEB·1993), 알타비스타(Alta Vista·1994), 인포시크(infoseek·1994) 등 다양한 검색엔진이 등장했지만 오래지 않아 역사의 뒤안길로 사라졌다.

초기엔 수작업 … 콘텐트 넘치자 자동연산으로 선별

인터넷 초창기에는 많은 정보가 없었다. 즉 사람의 손으로 일일이 좋은 사이트를 선별한 후 전화번호부처럼 한 사이트에 모두 모아놓는 게 가능했다. 야후가 이런 방식을 통해 검색시장의 절대 강자로 뛰어올랐다. 크롤링을 도입한 검색엔진들은 수집해오는 정보의 양이 너무 방대했기에 획기적인 기준 없이는 어떤 사이트가 좋은 곳이고 나쁜 곳인지 구분할 길이 없었다. 그래서 야후처럼 정돈이 잘되어 있는 전화번호부식 검색사이트를 사용자들은 선호했다.

 하지만 시간이 지날수록 인터넷에는 콘텐트가 끊임없이 생산됐고, 또 재가공돼 정보가 넘쳐나기 시작했다. 더 이상 사람의 손으로는 관리가 불가능한 시점이 도래한 것이었다. 이때 등장한 것이 구글이었다. 구글은 크롤링과 더불어 페이지랭크라는 획기적인 규칙을 적용했다. 모든 웹사이트에는 고유한 주소가 있는데 ‘주소를 다른 사이트에서 많이 언급하면 할수록 해당 사이트는 좋은 사이트일 것’이라는 가정 아래 언급이 많은 사이트를 검색 결과의 상단에 위치시킨다는 게 바로 페이지랭크의 원리다. 쉽게 말해 인용된 횟수가 많을수록 그 내용은 좀 더 믿을 수 있고, 그런 만큼 검색결과 상단에 나오도록 해야 한다는 것이다.

 이 페이지랭크 알고리즘은 몇몇 가지 추가 알고리즘을 더해 현재까지도 구글 검색의 얼개를 이루고 있다. 또 이 방식이 구글이 세계적인 검색의 제왕 자리에 오르는 데 결정적인 기여를 했다. 사실 구글도 초창기에는 3~4개월에 한 번 웹을 크롤링했었다. 2002년 미국 9·11테러 당시 사람들은 관련 정보를 구글을 통해 검색했지만 클로링된 데이터는 이미 한 달 전에 이뤄진 것이어서 관련 정보는 구글에서 검색이 불가능했다. 이때 구글은 메인 페이지 하단에 유명 뉴스 사이트 링크를 추가하는 등의 노력을 했지만 한두 달에 한번 크롤링하는 것은 부족하다는 것을 깨닫게 됐고, 페이지랭크를 서둘러 도입하는 단초가 됐다.

 하지만 최근의 구글은 인터넷에 특정 콘텐트가 게시된 지 몇 초 만에 뉴스·블로그 등 종류에 상관없이 정보들을 긁어올 수 있는 기술을 갖추게 됐다. 지금까지 구글이 크롤링한 콘텐트 용량은 10억 기가바이트(GB)가 넘는다. 구글이 다른 검색엔진들과 차별되는 점 중 하나는 검색결과에 ‘사람의 손’이 개입하지 않는다는 점이다. 다른 검색사이트의 경우 콘텐트를 수작업을 통해 수정하는 경우도 여전히 있다. 정치색 짙은 사안이 불거질 때마다 포털사이트들의 중립성이 의심받는 것은 이 때문이다.

국내서는 초기에 대학생·대학원생이 개발 주도

그렇다면 한국에서의 검색엔진은 어땠을까. 초기에는 인터넷이 대중화되지 않아 한글로 된 웹페이지가 거의 없었다. 이 때문에 한글 검색엔진도 전무했다. 특히 90년대 초기 천리안·하이텔·나우누리 등이 일으킨 PC통신 붐 덕에 90년대 말까지 사용자들은 굳이 익숙지도 않은 인터넷 공간으로 나갈 생각을 하지 않았다.

 95년 12월 국내 최초의 검색엔진 격인 코시크(kor-seek.com·현재 서비스되고 있지 않음)가 문을 연다. 이를 개발한 사람은 당시 충남대에 재학 중이던 김영렬씨였다. 코시크에 이어 이듬해 1월 까치네 (kachi.com)가 서비스를 시작했다. 대구대에 다니던 대학생 김성훈씨가 만들었다. 그해 6월 서비스를 시작한 와카노(wakano.com)는 당시 계명대 전산과에 석사과정을 밟고 있던 박민우씨가 개발했다. 같은 해 KAIST에서 컴퓨터공학을 전공하던 승현석씨는 미스다찾니(mochanni.com)라는 국내 최초의 메타 검색엔진을 선보였다. 이처럼 국내 초기 검색엔진 개발은 대학생·대학원생이 주도했다.

  96년 3월 국내 최초로 상업용 검색서비스가 등장한다. 한글과컴퓨터의 황오정씨를 비롯한 다섯 명의 개발자가 만든 심마니(www.simmani.com)가 그것이다. 회사의 전폭적인 지원 아래 심마니는 그해 국내 최고의 검색서비스로 등극한다. 하지만 이듬해 9월 야후가 국내에 진출하면서 금세 판도는 뒤집힌다. 야후코리아(kr.yahoo.com)는 국내 진출 후 무주공산이랄 수 있는 국내 검색시장을 순식간에 집어 삼켰다. 야후코리아 이전에 있던 검색서비스들은 거의 대부분 자취를 감췄을 정도다.

 검은색 견공 로고로 유명한 라이코스(www.lycos.co.kr) 또한 비슷한 시기에 한국에 진출했다. 하지만 야후코리아에 밀리고 국내 시장에 특화된 서비스를 시작한 네이버와 다음에도 대응하지 못해 결국 2004년 다음커뮤니케이션에 인수됐다. 다음은 97년 국내 최초로 무료 웹메일 서비스(@hanmail.net)를 선보인다. 이를 통해 확보한 다수의 사용자를 무기로 한국만의 독특한 커뮤니티인 다음 카페를 선보이며 국내 시장을 선점해 나가기 시작한다.

네이버·다음 포털 방식 추구, 자사 사이트 머물게 유도

지금은 국내 검색 시장의 70% 안팎을 차지하는 네이버도 90년대 말에 생겨났다. 네이버는 처음 삼성SDS 사내 벤처로 출발했다. 99년 법인을 설립하고 지식검색서비스인 ‘지식IN’을 무기로 선발주자였던 야후와 다음을 추격한다.

 여기서 네이버와 다음은 검색엔진이 아닌 포털의 길을 택한다. 웹에 있는 방대한 정보를 찾아서 보여주기보다는 지식인·카페 등과 같이 사용자 콘텐트를 모으고 이 안에서 사람들이 오랜 시간 머물도록 하는 전략이다. 구글과 같은 검색엔진의 경우 해당 검색 사이트를 빨리 떠나서 원하는 정보를 얻도록 하는 것이 목표다. 이 때문에 다른 사이트를 파트너로 삼아 광고를 해당 사이트에서 보여주고 수익의 일부를 얻는다. 일종의 소개비를 받는 셈이다. 포털 전략을 취하면 자사 사이트에 유저들이 오랫동안 머물도록 하는 게 관건이다. 자사 사이트 안에서 머물며 배너 광고 등을 보도록 하고 그에 따른 광고료 전액을 얻는다는 점에서 차이가 있다.

구글 검색, 200여 가지 연산과정 거쳐 결과 도출

사용자가 검색어를 입력하면 어떤 과정을 거쳐 결과가 표시되는 걸까. 예를 들어 사용자가 구글에 ‘중앙일보’를 검색하면 해당 검색어는 인터넷망을 타고 전 세계에 있는 구글의 데이터센터 중 한 곳에 도달한다. 그곳에서 구글이 미리 수집해놓은 ‘중앙일보’ 관련 자료들과 비교한다. 이어 200여 가지의 컴퓨터 연산 과정을 거쳐 내용의 일치 정도 등에 따라 산출된 결과 순으로 사용자의 컴퓨터에 돌아와 모니터에 뜨는 식이다. 검색결과가 뜨는 데 소요되는 시간은 평균 0.25초. 이 짧은 시간 동안 이렇게 검색어 하나가 여행하는 거리는 평균 2400㎞가량이다.

도움말=구글코리아

독자와 함께 만듭니다 뉴스클립은 시사뉴스를 바탕으로 만드는 지식 창고이자 상식 백과사전입니다. 뉴스와 관련해 궁금한 점이 있으면 e-메일로 알려주십시오. 뉴스클립으로 만들어 드립니다. (newsclip@joongang.co.kr)

ADVERTISEMENT
ADVERTISEMENT