ADVERTISEMENT

네이버는 가두리 양식장, 한국선 구글보다 쓰기 편해

중앙선데이

입력

지면보기

562호 21면

[IT는 지금] 포털 사이트의 검색 알고리즘

세계 최고의 검색 엔진을 갖춘 구글은 전 세계에서 90% 이상의 점유율을 보이고 있으나 한국에서는 자체 생산한 콘텐트 중심으로 다양한 검색 결과를 제공하는 네이버에 밀려 힘을 쓰지 못하고 있다. [중앙포토]

세계 최고의 검색 엔진을 갖춘 구글은 전 세계에서 90% 이상의 점유율을 보이고 있으나 한국에서는 자체 생산한 콘텐트 중심으로 다양한 검색 결과를 제공하는 네이버에 밀려 힘을 쓰지 못하고 있다. [중앙포토]

지난달 9일 부산지법은 정보통신망 이용 촉진 및 정보보호 등에 관한 법률 위반 혐의로 A씨에게 징역 6개월을 선고했다. 판결문에 따르면 A씨는 2014년 6월부터 올해 4월까지 네이버 블로그 및 카페 활동지수를 올려주는 프로그램 5종을 1423건 판매해 4억5290만원을 챙겼다. 이 프로그램은 대량의 게시글과 댓글을 작성할 수 있는 기능을 제공한다.

10억 사이트 중 1000만 개만 검색 #주로 자체 생산한 콘텐트 보여줘 #구글, 페이지랭크로 사이트 평가 #논문처럼 링크 많이 될수록 가점

검색어 순위 조작도 적발됐다. 지난 9월 서울중앙지검 첨단범죄수사1부는 검색어 순위 조작 혐의로 J씨 등 2명을 구속 기소했다. 이들은 2014년 7월부터 전체 면적 330㎡ 규모의 3층 사무실에 PC와 스마트폰 100여 대를 설치해 놓고 133만 건의 키워드를 자동으로 네이버에 입력해 실시간 검색 순위 등을 조작하는 방법으로 33억 5000만원을 벌어들였다.

국내 대표적인 검색 포털 사이트인 네이버의 검색 결과를 외부에서 조작했다는 것은 큰 충격이다. 더 놀라운 것은 내부 조작 혐의도 적발됐다는 것이다. 지난해 10월 네이버 직원이 한국프로축구연맹의 청탁을 받고 불리한 기사를 잘 보이지 않는 곳에 배치한 것이 밝혀지면서 지난 10월 이해진 네이버 창업자가 직접 사과했다. 네이버는 신뢰를 회복하기 위해 검색 및 배치 개선을 위한 작업을 시작했다. 기사 배치의 경우 공정성을 위해서 모두 자동화할 계획이다. 그러나 배치 알고리즘에 대한 불신 및 편향성 문제는 여전히 남아있다. 네이버는 시민단체 등 외부 인사를 초청해 투명하게 배치 알고리즘을 개선해 나가겠다고 밝혔다.

이해진 창업자는 내부 조작 행위를 사과하면서, 구글의 내부 조작 의혹을 제기했다. 하지만 이미 오래 전부터 구글 뉴스는 100% 자동으로 돌아간다는 사실이 알려져 있기 때문에 이 같은 의혹은 근거가 없다. 이해진 창업자는 조세 회피 문제를 거론하는 등 구글을 상당히 의식하는 것처럼 보인다. 세계 최고의 검색 엔진을 보유하고 있는 구글은 올해 2월 기준으로 PC 검색의 80.5%, 모바일 검색의 95.9%를 차지한다. 반면 국내에서는 2015년 1월 기준으로 검색 점유율이 1.36%에 불과하다. 국내에서 네이버의 경쟁 상대는 구글이 아니라 카카오일 것이다.

네이버는 콘텐트, 구글은 검색 결과 중심

딥 러닝 알고리즘을 네이버의 이미지 검색 스코픽(위 사진)과 스마트폰을 대면 대상의 정보를 알려주는 구글렌즈.

딥 러닝 알고리즘을 네이버의 이미지 검색 스코픽(위 사진)과 스마트폰을 대면 대상의 정보를 알려주는 구글렌즈.

이 같은 결과는 두 기업 검색 알고리즘의 차이에서 비롯된 것이다. 두 기업 모두 후발 주자였다는 공통분모를 갖고 있다. 구글은 시장 진입 당시 야후가 이미 검색시장을 장악하고 있었고, 네이버 역시 다음이 국내 검색시장을 장악하고 있었다. 그러나 두 기업 모두 지급한 금액에 따라 검색 위치가 달라지는 키워드 검색 광고를 활용해 급성장했다. 그렇지만 네이버와 구글이 제공하는 가치는 아주 다르다. 국내 대형마트와 월마트의 차이점을 떠올리면 된다.

미국 대형 할인점 1위 업체인 월마트는 1999년 한국에 진출했지만 2006년 철수했다. 전세계 1만1000개 매장을 보유한 월마트의 핵심가치는 저렴한 가격이다. 대형 창고형 매장을 운영하면서 특정 품목만을 소비자에게 가장 저렴하게 파는 것이다. 한국 시장에서는 저렴한 가격 뿐 아니라 서비스도 중요했다. “국내 대형마트는 미국의 백화점 수준”이라는 말이 나오면서 월마트는 국내 소비자에게 외면을 받았다.

검색 사이트는 가장 빠른 속도로 정확한 검색 결과를 제공하는 것이 최고의 미덕이다. 그러나 고객에게는 최고의 가치가 아닐 수 있다. 네이버는 구글보다 검색 엔진 능력이 현저히 떨어진다. 그렇지만 국내 사용자에게 맞는 최적의 콘텐트를 생산해 제공한다. 사이트에 들어가면 네이버와 구글의 차이를 바로 알 수 있다. 네이버는 무겁고 복잡하다. 그리고 화려하다. 반면에 구글은 단순하다.

검색 결과도 다르다. 네이버는 콘텐트 제공 중심이다. 검색하러 들어왔다가도 검색 순위, 뉴스, 광고 등 다양한 볼거리에 빠지기 일쑤다. 분야별로 정리해서 보여주기 때문에 보기도 편하다. 참고로 배치가 잘 된 이유는 사람이 개입했기 때문이다. 이에 비해 구글에서 제공하는 기능은 검색 뿐이다. 사람이 개입하지 않고 결과를 그대로 보여주기 때문에 네이버만큼의 편리성을 기대하기 힘들다.

네이버, 사람이 편집해 보기 편한 장점

검색 수준의 차이는 어떨까? 네이버는 뉴스·사전·블로그·카페 등 분야별로 다른 검색 알고리즘을 사용한다. 참고로 이런 각각의 분야를 ‘컬렉션(Collection)’, 컬렉션에 적용한 알고리즘을 ‘멀티 랭킹(Multi-Ranking)’이라고 부른다. 지난해까지 네이버는 블로그 컬렉션에 ‘리브라(Libra)’ 검색 알고리즘을 사용했다. 리브라는 적합성과 신뢰성을 기준으로 순위를 매기고 이에 따라 검색 결과를 배치한다. 컬렉션별 배치도를 정하기 위한 랭킹 알고리즘도 있다. 검색에 따른 방문자 수의 정보를 모은 후 이에 따라 배치도를 결정하는 것이다.

이처럼 네이버는 검색 알고리즘을 매우 체계적으로 갖추고 있지만 큰 단점이 있다. 검색 결과는 주로 네이버에서 생산한 콘텐트에 한정돼 있다는 점이다. 따라서 외부에서 생산한 콘텐트를 담은 사이트를 검색하는데 매우 취약하다. 그래서 ‘가두리 양식장’이라는 별명을 가지고 있다. 네이버가 검색 결과로 보여주는 웹 사이트는 약 1000만 개로 알려져 있다. 2014년 기준 총 웹사이트 수가 약 10억 개인 것을 고려하면 매우 적은 숫자다.

구글 검색 엔진이 제공하는 검색 결과의 질은 상당하다. 10억 개의 사이트 중에서 사용자에게 적합한 검색 결과를 1초 안에 보여준다. 참고로 구글 검색창 하단을 보면 검색에 걸린 시간과 검색 결과 수를 항상 확인할 수 있다. 구글은 수많은 검색 알고리즘을 활용하고 있지만 그 가운데 가장 잘 알려진 것이 ‘페이지랭크 (PageRank)’다. 페이지랭크는 논문에서 사용하는 인용지수에 착안해 만들어진 알고리즘이다. 많은 연구자들이 인용한 논문일수록 평가가 높아지는 것처럼 웹 페이지도 링크된 사이트가 많을수록, 링크된 사이트의 질이 높을수록 높은 평가 점수를 받게 된다.

정리하면 네이버는 한국인에게 적합한 콘텐트를 제공해주는 반면 구글은 전 세계인을 대상으로 거대한 검색 결과를 제공한다. 연구직인 필자의 경우, 업무 시에는 구글을 주로 이용하지만 일상에서는 볼거리가 많은 네이버를 주로 쓴다.

AI 기술 도입한 새로운 알고리즘 대결

네이버도 검색능력을 향상시키려는 노력을 기울이고 있다. 특히 네이버 바깥 사이트의 검색 결과를 더 보여주기 위해 2014년 ‘타우린 프로젝트’를 시작한데 이어 지난달부터는 인공지능(AI)을 적용한 ‘그리핀 프로젝트’를 진행하고 있다. 가장 눈에 띄는 부분은 웹 사이트와 웹 문서의 통합이다. 1년 안에 PDF와 같은 문서 내용도 검색 결과에 반영하는 것이 목표다.

아울러 검색엔진에도 AI를 적용할 방침이다. C-랭크라고 불리는 검색 알고리즘을 이미 블로그와 지식인 서비스에 적용했다. C-랭크는 매우 정교하기 때문에 외부에서 검색 결과를 조작하기 어렵다. 예를 들어 지난해까지 리브라 알고리즘을 사용했던 블로그의 경우 글 수준과 관계없이 특정 기간 이상 블로그 활동만 하면 검색결과 상위에 오르는 문제가 있었다. C-랭크는 글의 문맥을 파악할 뿐 아니라 전문성도 평가한다.

구글도 물론 AI를 검색 알고리즘에 적용했다. 대화형 검색을 도입한 허밍버드 알고리즘은 검색 내용을 키워드가 아니라 문맥으로 이해한다. 또 검색 정확도를 높이기 위해서 ‘랭크브레인 알고리즘’을 적용했다. 랭크브레인은 처음 보는 단어의 의미를 추측해서 사용자에게 가장 근접한 검색 결과를 제공한다.

네이버와 구글의 AI 경쟁은 검색엔진 뿐 아니라 이미지 검색에서도 시작됐다. 지난 7월 네이버는 스코픽(Scopic)이라는 딥 러닝 알고리즘을 적용한 이미지 검색 서비스 ‘스마트렌즈’를 선보였다. 이미지 검색으로 원하는 물품을 쉽게 찾을 수 있다. 구글은 어시스턴트(Assistant)를 적용한 ‘구글렌즈’를 공개했다. 사물에 스마트폰을 가져다 대면 실시간으로 정보를 알려준다. 검색 뿐 아니라 이미지에 담긴 단어를 번역해주는 서비스도 제공한다.

네이버와 구글은 개미와 코끼리만큼 덩치 차이가 난다. 그런데도 네이버가 한국 시장에서 우위에 있는 이유는 우리 문화에 맞는 서비스를 제공하기 때문이다. 네이버 AI 검색 서비스 중에서 가장 눈에 띈 것은 사용자에게 가장 적합한 콘텐트를 추천하는 ‘AiRS’다. 구글의 전략이 변하지 않는 이상 국내에서는 네이버가 선두를 계속 유지할 것으로 보인다.

유성민 IT칼럼니스트
정보통신기술(ICT) 융합 및 보안솔루션 전문가. 전기차, 스마트시티 사업 분야를 거쳐 현재 보안 솔루션 회사에서 일하고 있다. 저서 『사물인터넷(IoT) 시대의 위협』과 『미래전쟁』 등의 역서를 냈다. http://blog.naver.com/dracon123

ADVERTISEMENT
ADVERTISEMENT