[IT는 지금] 포털 사이트의 검색 알고리즘
검색어 순위 조작도 적발됐다. 지난 9월 서울중앙지검 첨단범죄수사1부는 검색어 순위 조작 혐의로 J씨 등 2명을 구속 기소했다. 이들은 2014년 7월부터 전체 면적 330㎡ 규모의 3층 사무실에 PC와 스마트폰 100여 대를 설치해 놓고 133만 건의 키워드를 자동으로 네이버에 입력해 실시간 검색 순위 등을 조작하는 방법으로 33억 5000만원을 벌어들였다.
10억 사이트 중 1000만 개만 검색
주로 자체 생산한 콘텐트 보여줘
구글, 페이지랭크로 사이트 평가
논문처럼 링크 많이 될수록 가점
이해진 창업자는 내부 조작 행위를 사과하면서, 구글의 내부 조작 의혹을 제기했다. 하지만 이미 오래 전부터 구글 뉴스는 100% 자동으로 돌아간다는 사실이 알려져 있기 때문에 이 같은 의혹은 근거가 없다. 이해진 창업자는 조세 회피 문제를 거론하는 등 구글을 상당히 의식하는 것처럼 보인다. 세계 최고의 검색 엔진을 보유하고 있는 구글은 올해 2월 기준으로 PC 검색의 80.5%, 모바일 검색의 95.9%를 차지한다. 반면 국내에서는 2015년 1월 기준으로 검색 점유율이 1.36%에 불과하다. 국내에서 네이버의 경쟁 상대는 구글이 아니라 카카오일 것이다.
네이버는 콘텐트, 구글은 검색 결과 중심
미국 대형 할인점 1위 업체인 월마트는 1999년 한국에 진출했지만 2006년 철수했다. 전세계 1만1000개 매장을 보유한 월마트의 핵심가치는 저렴한 가격이다. 대형 창고형 매장을 운영하면서 특정 품목만을 소비자에게 가장 저렴하게 파는 것이다. 한국 시장에서는 저렴한 가격 뿐 아니라 서비스도 중요했다. “국내 대형마트는 미국의 백화점 수준”이라는 말이 나오면서 월마트는 국내 소비자에게 외면을 받았다.
검색 사이트는 가장 빠른 속도로 정확한 검색 결과를 제공하는 것이 최고의 미덕이다. 그러나 고객에게는 최고의 가치가 아닐 수 있다. 네이버는 구글보다 검색 엔진 능력이 현저히 떨어진다. 그렇지만 국내 사용자에게 맞는 최적의 콘텐트를 생산해 제공한다. 사이트에 들어가면 네이버와 구글의 차이를 바로 알 수 있다. 네이버는 무겁고 복잡하다. 그리고 화려하다. 반면에 구글은 단순하다.
검색 결과도 다르다. 네이버는 콘텐트 제공 중심이다. 검색하러 들어왔다가도 검색 순위, 뉴스, 광고 등 다양한 볼거리에 빠지기 일쑤다. 분야별로 정리해서 보여주기 때문에 보기도 편하다. 참고로 배치가 잘 된 이유는 사람이 개입했기 때문이다. 이에 비해 구글에서 제공하는 기능은 검색 뿐이다. 사람이 개입하지 않고 결과를 그대로 보여주기 때문에 네이버만큼의 편리성을 기대하기 힘들다.
네이버, 사람이 편집해 보기 편한 장점
이처럼 네이버는 검색 알고리즘을 매우 체계적으로 갖추고 있지만 큰 단점이 있다. 검색 결과는 주로 네이버에서 생산한 콘텐트에 한정돼 있다는 점이다. 따라서 외부에서 생산한 콘텐트를 담은 사이트를 검색하는데 매우 취약하다. 그래서 ‘가두리 양식장’이라는 별명을 가지고 있다. 네이버가 검색 결과로 보여주는 웹 사이트는 약 1000만 개로 알려져 있다. 2014년 기준 총 웹사이트 수가 약 10억 개인 것을 고려하면 매우 적은 숫자다.
구글 검색 엔진이 제공하는 검색 결과의 질은 상당하다. 10억 개의 사이트 중에서 사용자에게 적합한 검색 결과를 1초 안에 보여준다. 참고로 구글 검색창 하단을 보면 검색에 걸린 시간과 검색 결과 수를 항상 확인할 수 있다. 구글은 수많은 검색 알고리즘을 활용하고 있지만 그 가운데 가장 잘 알려진 것이 ‘페이지랭크 (PageRank)’다. 페이지랭크는 논문에서 사용하는 인용지수에 착안해 만들어진 알고리즘이다. 많은 연구자들이 인용한 논문일수록 평가가 높아지는 것처럼 웹 페이지도 링크된 사이트가 많을수록, 링크된 사이트의 질이 높을수록 높은 평가 점수를 받게 된다.
정리하면 네이버는 한국인에게 적합한 콘텐트를 제공해주는 반면 구글은 전 세계인을 대상으로 거대한 검색 결과를 제공한다. 연구직인 필자의 경우, 업무 시에는 구글을 주로 이용하지만 일상에서는 볼거리가 많은 네이버를 주로 쓴다.
AI 기술 도입한 새로운 알고리즘 대결
아울러 검색엔진에도 AI를 적용할 방침이다. C-랭크라고 불리는 검색 알고리즘을 이미 블로그와 지식인 서비스에 적용했다. C-랭크는 매우 정교하기 때문에 외부에서 검색 결과를 조작하기 어렵다. 예를 들어 지난해까지 리브라 알고리즘을 사용했던 블로그의 경우 글 수준과 관계없이 특정 기간 이상 블로그 활동만 하면 검색결과 상위에 오르는 문제가 있었다. C-랭크는 글의 문맥을 파악할 뿐 아니라 전문성도 평가한다.
구글도 물론 AI를 검색 알고리즘에 적용했다. 대화형 검색을 도입한 허밍버드 알고리즘은 검색 내용을 키워드가 아니라 문맥으로 이해한다. 또 검색 정확도를 높이기 위해서 ‘랭크브레인 알고리즘’을 적용했다. 랭크브레인은 처음 보는 단어의 의미를 추측해서 사용자에게 가장 근접한 검색 결과를 제공한다.
네이버와 구글의 AI 경쟁은 검색엔진 뿐 아니라 이미지 검색에서도 시작됐다. 지난 7월 네이버는 스코픽(Scopic)이라는 딥 러닝 알고리즘을 적용한 이미지 검색 서비스 ‘스마트렌즈’를 선보였다. 이미지 검색으로 원하는 물품을 쉽게 찾을 수 있다. 구글은 어시스턴트(Assistant)를 적용한 ‘구글렌즈’를 공개했다. 사물에 스마트폰을 가져다 대면 실시간으로 정보를 알려준다. 검색 뿐 아니라 이미지에 담긴 단어를 번역해주는 서비스도 제공한다.
네이버와 구글은 개미와 코끼리만큼 덩치 차이가 난다. 그런데도 네이버가 한국 시장에서 우위에 있는 이유는 우리 문화에 맞는 서비스를 제공하기 때문이다. 네이버 AI 검색 서비스 중에서 가장 눈에 띈 것은 사용자에게 가장 적합한 콘텐트를 추천하는 ‘AiRS’다. 구글의 전략이 변하지 않는 이상 국내에서는 네이버가 선두를 계속 유지할 것으로 보인다.
정보통신기술(ICT) 융합 및 보안솔루션 전문가. 전기차, 스마트시티 사업 분야를 거쳐 현재 보안 솔루션 회사에서 일하고 있다. 저서 『사물인터넷(IoT) 시대의 위협』과 『미래전쟁』 등의 역서를 냈다. http://blog.naver.com/dracon123