"챗GPT 데이터 수집? 안돼"…뉴욕타임스·로이터·니케이 막았다 [팩플]

중앙일보

입력

샘 올트먼 오픈AI CEO가 9일 서울 여의도 63빌딩에서 열린 대담회에 참석해 발언하고 있다. 사진 소프트뱅크벤처스

‘챗GPT 데이터 수집기 출입 금지’.
뉴욕타임스(NYT)와 로이터, 니케이 같은 해외 주요 언론사가 자사 사이트에서 오픈AI(챗GPT 개발사)의 데이터 수집을 금지했다. 아마존과 에어비앤비 같은 대형 플랫폼도 동일한 조치를 취했다. ‘기술 개발을 위해서’라는 AI 개발사의 명분에, ‘그건 네 지갑을 위한 기술’이라며 콘텐트 공급자들이 선을 그은 셈이다.

무슨 일이야

미국 IT 매체 더버지는 21일(현지시간) 뉴욕타임스가 자사 사이트에서 오픈AI의 웹크롤러(web-crawler) ‘GPT 봇’의 접근을 막았다고 보도했다. 웹 크롤러란 웹 페이지에 게시된 콘텐트를 자동으로 긁어가는 장치로, 주로 검색 엔진 등이 사용한다. 각 사이트는 국제인터넷표준화기구(IETF)의 권고에 따라 표준화된 문서(robots.txt)에 크롤링을 허용하는지 여부를 기재하는데, NYT는 오픈AI의 크롤러를 금지한다고 밝혀둔 것.

중앙일보 확인 결과, NYT 외에도 로이터·니케이, 지식검색 사이트인 쿼라(Quora) 등도 오픈AI의 데이터 대량 수집을 막아둔 것으로 나타났다. 아마존·에어비앤비·이케아 등도 자사 플랫폼 내의 제품·숙박 정보를 포함한 모든 데이터에 대해 같은 조치를 해둔 상태다. 고객을 위해 인터넷에 올려둔 정보를 오픈AI가 공짜로 가져다가 GPT 성능 키우는 데 쓰는 걸 좌시하지 않겠다는 의미다.

무슨 의미야

오픈AI가 지난 7일 인터넷의 정보를 긁어오는 웹 크롤러 '챗GPT봇' 출시를 공지하면서, 웹사이트의 크롤링을 원치 않을 경우 비허용하는 방법도 안내했다. 사진 오픈AI 홈페이지

앞서 지난 7일 오픈AI는 GPT봇의 출시를 자사 홈페이지에 알리는 동시에, ‘원치 않으면 비허용(disallow) 처리하라’ 라며 방법도 공지했다. 외신들은 신형 AI 모델 GPT-5를 개발 중인 오픈AI가 저작권 침해 논란을 피해가려는 것으로 본다. AI 학습에 남의 저작물을 무단 사용해 비판받자 ‘싫으면 막으세요, 방법도 알려드렸습니다’라고 면피성 선수를 치는 게 아니냐는 것.

웹 크롤링은 검색 엔진들이 주로 사용하는데, 콘텐트가 검색 결과에 노출되는 효과가 있다. 그래서 온라인 쇼핑몰들은 검색 엔진의 크롤링을 선택적으로 허용한다. 쿠팡이 구글 광고봇의 크롤링은 허용하지만, 경쟁사인 네이버 크롤링은 금지하는 식이다. 오픈AI는 GPT봇을 소개하며 “수집한 데이터는 AI 품질 개선에 활용될 수 있다”라고 안내하고 있다.

신재민 기자

이걸 알아야 해

챗GPT의 대중화 이후 해외에서는 콘텐트 창작자들과 AI 개발사 간 법적 공방이 한창이다. 오픈AI와 스태빌리티AI 같은 주요 AI 개발사들은 자사의 AI 모델이 어떤 데이터를 학습했는지 공개하지 않고 있다. 그래서 관련 소송이 잇따라 일어나고 있다. 스태빌리티AI는 사진·이미지 데이터베이스 회사 게티이미지로부터, 오픈AI·메타·깃허브 등은 작가와 개발자들로부터 “동의를 받지 않고 저작물을 AI 모델 훈련에 사용했다”라며 저작권 침해 손해배상 소송을 당한 상태다. 데이터 추적 플랫폼 등이 챗GPT가 NYT·로이터·월스트리트저널(WSJ) 등의 뉴스 기사를 학습했다고 분석하자, 전 세계 언론사 2000여 곳이 참여하는 뉴스미디어연합(INMA)은 AI 학습에 뉴스가 어느 정도 활용되고 있는지 조사하고 있다.

‘AI 기술 개발’ 명분과 ‘창작자 보호’ 사이에 긴장도 커지고 있다. AI 기업 친화적인 정책을 추진하고 있는 영국이 대표적이다. 영국 지식재산권부는 지난해 6월 AI 개발사에 광범위한 저작권 면책을 부여하는 정책을 발표했으나, 창작업계와 여론의 반발에 부딪혀 지난 2월 이를 공식 철회했다. 이후 지난 6월 구체적 강령을 만들기 위한 실무 그룹을 꾸렸는데, 여기에는 파이낸셜타임스·BBC·AP 같은 언론사, 스태빌리티AI, IBM·마이크로소프트(MS) 같은 빅테크, 창작자 협회 등이 참여한다.

정근영 디자이너

나랑 무슨 상관인데?

국내 AI 개발사들은 ‘토종 AI 발전을 위해서’라며 ‘저작권에 구애받지 않는 데이터 학습’을 주장하고 있다. 기존 저작권법(35조의 5)에 ‘공정 이용’ 조항이 있는데, 이를 보다 명확하게 규정해 위법 걱정 없이 AI 학습에 데이터를 사용할 수 있게 해달라는 요구다. 지난달 기획재정부는 ‘서비스산업 디지털화 전략’에서 AI 학습을 위한 크롤링 등의 면책 여부를 명확히 하는 방향으로 저작권법 개정 방향을 밝힌 바 있다.

그러나 민간 AI 개발사의 AI 기술 고도화를 ‘국익’이란 이유로 역시 민간 영역인 콘텐트 저작자의 권리보다 앞세울 수 없다는 주장도 나온다. 지난 6월 국회에서 열린 한국저작권법학회 세미나에서 박수호 한국음악저작권협회 과장은 “저작물을 학습한 AI의 결과물이 곧 원 저작자의 경쟁자가 되는 상황”이라고 우려했다. 생성 AI가 만든 음악·그림 등이 범람하면 인간 창작자의 저작물 가치가 떨어질 수 있다는 것. 현행 저작권법은 공정 이용 여부를 판단할 때 ‘해당 저작물의 시장 가치에 미치는 영향’을 고려해야 한다고 되어 있다.

22일 한국신문협회는 ‘생성형 인공지능(AI)의 뉴스 저작권 침해 방지를 위한 신문협회 입장’을 내고 “정당한 법률 근거 없이 뉴스 콘텐트를 AI 학습에 이용하는 것은 언론사의 권리 침해”라고 밝혔다. 협회는 네이버·카카오·구글·MS 등 국내외 빅테크에 대해 ①뉴스 저작권자와 이용기준 협의 ②‘글로벌 AI 원칙’ 준용 공표 ③생성형 AI 학습 데이터의 출처 등 공개 ④뉴스 콘텐트 이용 방식 구체적으로 명시 ⑤뉴스 저작물에 대한 적정한 대가 산정 기준 마련 등 5대 요구사항을 전달했다.

심서현 기자 shshim@joongang.co.kr