구독전용

[팩플] 무임승차? 필수 기술?…웹 크롤링 허용 범위 논란

중앙일보

입력 2022.04.24 15:00

팩플레터 228호, 2022. 4.22

Today's Topic 거미 로봇 키워도 돼? 안돼?

‘금요 팩플’ 설문 언박싱입니다! 지난 19일 화요일엔 ‘거미가 내려온다, 네이버가 화났다’ 레터를 보내드렸습니다. 박민제·이승호 기자가 취재했는데요. 오늘은 박민제 기자 취재 후기를 전해드립니다.

크롤링은 인터넷의 역사와 궤를 같이하는 기술입니다. 논문 『웹 크롤러 : 리뷰』 (Web Crawler: A Review)에 따르면 최초의 크롤러는 1993년 나온 월드 와이드웹 원더러(World Wide Web Wanderer)입니다. 처음엔 웹의 크기를 측정하는 데 사용했는데 나중엔 검색 엔진인 완덱스(Wandex)의 색인을 만드는 데 쓰였다고 합니다. 인터넷 세상에 원하는 정보를 찾아주는 검색 엔진은 크롤러 없이는 발전할 수 없었던 기술이죠.

그 후로 30년. 인터넷 세상은 그때와 비교해 말도 안 되게 커졌습니다. 처음 두 대의 컴퓨터를 연결했던 인터넷은 지금 전 세계 인구 63%인 49억 명을 연결하고 있으니까요. (ITU 디지털 개발 측정 보고서 2021) 인터넷 사용자가 늘어난 만큼 크롤링 기술의 쓰임새도 다양하게 진화했습니다. 검색 엔진을 너머 시장 트렌드, 이용자 반응, 경쟁사 전략 분석 등 인터넷 비즈니스 사업자라면 누구나 다 쓰는 필수 기반 기술이 됐습니다.

그럼에도 불구하고 크롤링은 여전히 논쟁적인 기술입니다. 특히 ‘데이터=돈’이 되는 빅데이터 시대에는 더더욱 그렇습니다. 데이터가 많아진 만큼 양질의 데이터베이스(DB)를 만드는 데 들어가는 피·땀·눈물은 더 커지기 마련이니까요. DB 제작자들에겐 자기 데이터를 쏙쏙 긁어가는 거미 로봇의 존재는 무임승차자 그 이상 그 이하도 아닐 겁니다.

그렇다고 이미 시장 지배적 사업자가 된 DB 제작자가 원하는대로 크롤링을 모두 막는다면 후발주자는 영원히 후발주자에 머무르게 되는 불공정한 경쟁환경이 굳어질 우려도 분명 있습니다. 정답을 내기 정말 어려운 문제죠.

지난 화요일 레터 ‘거미가 내려온다, 네이버가 화났다’ 설문조사에 보내주신 답변에서 독자분들도 비슷한 지점에서 고민이 많으셨던 점을 확인할 수 있었습니다. 자 그럼 이제 설문결과를 함께 보러 가시죠.

오늘 설문은 총 68명이 답해주셨습니다. 오늘도 감사합니다.

배너 클릭 시 구독페이지로 이동합니다. https://www.joongang.co.kr/factpl

배너 클릭 시 구독페이지로 이동합니다. https://www.joongang.co.kr/factpl

지난 팩플레터에서는 '웹 크롤링 어디까지 허용돼야 할까요?' 라는 질문을 드렸습니다.

그래픽=정다운 디자이너

그래픽=정다운 디자이너

‘웹 사이트 운영자가 허가하는 범위까지만 허용해야 한다’는 답변이 52.2%였습니다. 반면 ‘웹에 공개된 모든 데이터는 크롤링 가능해야 한다’는 답변은 47.8%였습니다. 두 답변을 택해주신 구독자분 비율이 큰 차이가 없을 만큼 팽팽했네요.

설문에 응해주신 분들의 선택 이유도 전해드립니다.
우선 크롤링 허용 범위를 제한해야 한다고 보신 분들의 의견입니다.

●날것의 데이터를 어떻게 가공하고 어떤 식으로 보여줄지에 대한 고민은 생각보다 아주 깊다. 그런 노력과 테스트 시간, 실패를 겪어가며 구축된 데이터이기 때문에 너무 과한 크롤링에는 쉽게 손들어주기 어렵다. 잘 정리되게 보이는 것 자체도 엄청난 공수와 에너지가 들어간다.

스타트업이 성장하고 더 많이 생겨나고 도전하는 것에는 큰 응원을 보낸다. 하지만 스타트업은 뭘 해도 괜찮아, 우리는 스타트업이니까 조금 봐주지 않을까라는 안일한 생각이 은은하게 배어있는 것에 대해 경각심을 가지면 좋겠다. 공룡들의 횡포라고만 날 세울 것이 아니라 지금이라도 양질의 데이터를 수집할 수 있는 조금 더 노력이 필요한 방법들을 찾으려 시도해보았으면 좋겠다.
DB는 인터넷 사업자의 자산이기 때문이다. DB를 쌓기 위해 개발자를 고용하고, 서버유지 비용을 지불하는 것 등이 다 사업자의 비용과 노력인데, 인터넷 산업에서 이러한 자산이 자산으로 잘 인식되지 않는 것 같다.
●크롤링 봇이 콘텐트 제공자 측 서버에 부하를 준다. 빅데이터 환경에서는 그 비중이 상당히 크다.

다음은 공개된 정보는 모두 허용해야 한다고 보신 분들의 의견입니다.

●결국 데이터는 소비자가 제공하는 것. 데이터를 수집하면서 아무 대가도 제공하지 않고, 그 데이터가 오로지 네이버/카카오만의 소유라고 주장하는 것에는 어폐가 있다. 시장은 소비자에게도 판매자에게도 유리하게 작동해야 하며, 데이터 사용을 자유롭게 함으로써 소비자의 이득을 높일 수 있다면 그것을 허용하는 것이 옳은 일이다.
●데이터 공개 범위를 설정할 수 있으니까, 타인이 이용하길 원하지 않는다면 비공개하면 되니까.
●데이터는 특정 기업의 소유가 아닌 소비자들이 만든 데이터, 그것을 보관 유지한다는 이유로 독점적 권리주장 안 된다.
●이미 불특정한 다수에게 무상으로 공개된 데이터이기 때문에 해당 데이터를 가지고 추가 부가가치를 만들어내는 게 사회의 부를 증대시키지 않을까.

오늘 팩플 언박싱 흥미로우셨나요?
저희는 다음 주 화요일에 다시 찾아뵐게요. 감사합니다.

팩플레터는 이렇게 운영되고 있어요
💌화요일, 이슈견적서 FACTPL_Explain이 담긴 레터를 발송합니다.
💌목요일, 팩플의 인터뷰와 칼럼이 담긴 FACTPL_View를 드립니다.
💌금요일, 화요일 레터의 설문 결과를 공개하는 FACTPL_Unboxing을 보내드려요.

관련기사

Innovation Lab