ADVERTISEMENT

[인터넷 정보사냥]검색엔진의 함정

중앙일보

입력

지면보기

종합 32면

어떤 자료를 찾을 때 '알타비스타 (www.altavista.digital.com) 와 같은 대규모검색엔진을 선택했다면 그 이유는 뭐니뭐니해도 웹문서의 본문내용까지 검색해주는 강력함 때문일 것이다.

이런 강점 때문에 검색어만 입력하면 해당정보가 쏙쏙 나오는 검색엔진이 만능해결사로 비쳐질 수도 있다.

색인정보량이 수천만건에 달하는 검색엔진에서 검색결과가 한 건도 안나오면 '인터넷에 자료가 없다' 고 섣부른 판단을 내리기도 한다.

그렇지만 검색엔진은 인터넷의 모든 정보를 검색해주는 것은 아니다.

검색엔진 인포시크 (www.infoseek.com) 의 경우를 보자. 인포시크는 '로봇에이전트' 라는 자동순회프로그램을 실행시켜 웹을 색인한다.

그런데 검색로봇이 웹사이트를 방문했을 때 여러가지 이유로 색인을 하지 않고 지나가는 경우가 발생한다.

뉴욕타임스 사이트의 경우 가입자에게만 보여주는 정보는 ID를 입력해야하기 때문에 검색로봇이 아무리 접속을 시도해도 문을 열어 주지 않는다.

CNN사이트에는 'robots.txt' 라는 문서에 검색로봇의 접근을 막는 정보가 들어있어 로봇접근배제표준 (Standard for Robot Exclusion) 을 지키는 검색로봇은 이 사이트를 그냥 지나쳐 버린다.

자료가 HTML문서가 아닌 다른 형식의 문서로 되어 있어도 내용을 검색할 수 없기는 마찬가지. 미국의 정부기관에서 제공하는 홈페이지에 들어가면 PDF (Portable Document Format) 문서로 작성된 자료를 흔히 볼 수 있는데, 이 자료는 어도비 (Adobe) 사의 아크로벗 리더 (Acrobat Reader) 라는 프로그램을 따로 설치해야 볼 수 있다.

인터넷 검색엔진에서 찾을 수 없는 자료는 해당사이트에 직접 방문을 해야 자료를 열람할 수 있는데, 이 중에는 정보가치가 높은 곳이 의외로 많다.

이런 자료까지 속속들이 찾아내는 것은 하루아침에 되는 일은 아닐 것이다.

검색엔진에서 찾지못하더라도 내용이 우수한 사이트는 분류서비스나 다른 사이트의 소개코너에 등장하기 마련이므로, 평소 인터넷사이트를 열람할 때 꾸준히 정보소재에 대한 지식을 쌓아가는 노력이 필요하다.

권혜진 (정보검색사)

ADVERTISEMENT
ADVERTISEMENT