팩플

동의 없이 기사 읽고 똑똑해진 AI…韓 '저작권 전쟁' 시작됐다 [팩플]

중앙일보

입력

지면보기

권유진 기자 여성국 기자

AI 학습용 데이터의 저작권 논쟁이 거세지고 있다. 로이터=연합뉴스

인공지능(AI) 기술 개발과 창작자 보호는 양립할 수 있을까. AI학습에 사용된 데이터에 대한 콘텐트 공급자들의 ‘권리 찾기’가 본격화하고 있다.

무슨일이야

1일 IT업계에 따르면 한국신문협회는 “네이버 생성 AI 모델인 ‘하이퍼클로바X’가 언론사 동의 없이 뉴스 콘텐트를 학습에 활용한 것은 부당하다”며 지난달 28일 공정거래위원회에 네이버 뉴스 제휴 약관 개선을 요구했다. 신문협회는 “네이버가 언론사들과 뉴스 노출·제공을 위해 계약한 약관에 근거해 별도 공지 없이 뉴스 데이터를 AI모델 학습에 이용한 것은 부당하다”고 주장했다. 해당 약관은 ‘네이버는 서비스 개선, 새로운 서비스 개발을 위한 연구를 위해 직접, 공동으로 또는 제삼자에게 위탁하는 방식으로 정보를 이용할 수 있다’는 내용이다. 협회는 뉴스 유통이 아닌 AI 모델 학습에 이 조항을 적용해선 안된다는 입장이다. 네이버 측은 이와 관련 아직까지 별도 입장을 내놓지 않고 있다.

최수연 네이버 대표이사가 24일 서울 강남구 그랜드 인터컨티넨탈 서울 파르나스에서 열린 '팀 네이버 콘퍼런스 단(DAN) 2023'에서 초대규모 AI '하이퍼클로바X' 관련 발표를 하고 있다. 사진 네이버

이게 왜 중요해

◦ 생성 AI 시대, 뉴스 가치 재조명: 생성AI 모델간 경쟁이 치열해지면서 양질의 콘텐트 데이터 확보가 개발사들의 주요 과제가 됐다. '콩 심은데 콩 나고, 팥 심은데 팥 나듯' 양질의 데이터가 들어가야 AI모델이 똑똑해지기 때문. 개발사들이 AI학습에 필요한 데이터를 확보하는 방법은 크게 3가지다. 자체 보유 데이터 활용 및 데이터 구입, 정보통신산업진흥원(NIPA) 등이 제공하는 공개 데이터 활용, 웹 크롤링을 통한 수집 등이다. 웹 크롤링은 웹페이지를 긁어와 그 안에 있는 정보를 추출하는 기술. 방대한 데이터를 수집할 수 있지만 출처가 불분명한 질 낮은 콘텐트가 섞여 있어 문제가 많다. 반면 언론사 기사는 정제된 문장, 검증된 정보 출처 덕분에 AI 학습에 쓰기 좋다. 익명을 원한 IT 업계 관계자는 “네이버나 다음 블로그, 카페 등에 사용자들이 퍼나른 기사가 상당히 많다”며 “이미 여러 AI 학습에 많이 사용됐을 것”이라고 말했다.

◦ “저작권 보호하다 경쟁 뒤쳐지면?”: AI모델 개발사와 콘텐트 공급자 간 갈등은 전 세계적 현상이다. 문제는 국내에선 이 갈등에 ‘저작권 보호하다 기술 개발 속도가 늦어지면, 글로벌 경쟁에서 뒤처진다’는 명분이 추가된 것. 양측을 만족시킬 해법을 찾기 더욱 어려운 이유다. 국내 AI 개발사들은 “토종 AI 경쟁력을 키워야 한다”며 저작권에 구애받지 않는 데이터 학습을 주장하고 있다. 문체부 'AI 저작권 안내서'가 발표되자 국내 100여개 이상 AI 기업으로 구성된 초거대AI추진협의회는 '학습 데이터에 대해 적법한 권한을 확보할 것을 권고한다'는 문구를 안내서에서 삭제해야 한다고 건의했다. 이들은 “방대한 데이터의 이용 목적과 기간, 대가 등을 건건이 협의·계약하게 되면 글로벌 경쟁에 뒤처질 수 있다”고 주장했다.

박경민 기자

핵심 쟁점 뜯어보니

갈등의 핵심 쟁점은 저작권법(제35조의 5)에 있는 ‘공정 이용’(fair use) 조항을 AI 모델 학습에도 적용할 수 있는지 여부다. 공정 이용은 ‘문화 향상 발전’이라는 목표에 부합한다면 형식적 저작권 침해에 책임을 묻지 말아야 한다는 조항이다. 사기업이 영리 목적으로 AI 모델을 개발하는 데도 이 조항을 적용할 수 있는지에 대해서는 해석이 엇갈린다. AI 개발사들은 이를 보다 명확하게 규정해 AI 학습에 데이터를 합법적으로 사용할 수 있게 해달라 요구한다. 저작권 있는 모든 자료를 분류해 AI학습에서 배제하거나 저작권자와 협의해야 하면 사실상 AI 개발은 불가능하다는 주장이다.

정근영 디자이너

반면 저작권법 전문가들은 AI 기사 학습을 무조건 공정 이용으로 보긴 어렵다고 지적한다. 공정 이용 해당 여부는 비영리 목적인지, 본래 목적에 맞춰 최소한으로 저작물을 사용했는지, 사용 저작물이 전체에서 차지하는 비중이 얼마나 되는지 등을 종합적으로 고려해 판단한다. AI 모델 학습이 이 기준에 얼만큼 부합하는지 명확하지 않다. 인공지능법학회장인 최경진 가천대 법과대학 교수는 “저작권법은 매우 명확한 권리"라며 "예를 들어 교과서에는 저작권자 허락을 안 받고 저작물을 쓸 수 있지만, 대신 보상받을 권리를 가지고 있는 단체에 일괄적으로 정해진 요율의 저작권료를 지급해야 한다”고 설명했다. 그는 “AI라는 새로운 산업에 맞춰서 (기사 등에 대해서도) 합리적인 보상 기준을 책정해야 한다”고 지적했다.

해외는 어때

뉴욕타임스 본사. EPA=연합뉴스

해외에서도 공정 이용 조항에 대한 해석을 두고 갈등이 빚어지고 있다. 뉴욕타임스(NYT)는 지난달 27일(현지시간) 챗GPT 개발사 오픈AI와 마이크로소프트(MS)가 "저작권을 침해하고 지식재산권(IP)을 도용했다"며 뉴욕 맨해튼 연방지방법원에 소송을 제기했다. "기사의 대량 텍스트를 전문 그대로 통째로 가져갈 수 있기 때문에 공정 이용 대상이 아니다"라는게 NYT의 핵심 주장이다. NYT는 올 초부터 오픈AI 등과 콘텐트 대가 지불 계약 관련 협상을 진행했으나, 결렬되자 공격적으로 콘텐트 대가 '제 값 받기'에 나섰다.

반면 AI 개발사에 데이터를 제공하며 새로운 수익 창출에 나선 언론사도 있다. ‘비즈니스인사이더’, ‘폴리티코’ 등을 운영하는 대형 미디어 기업 ‘악셀스프링거’는 최근 오픈AI와 데이터 공급 계약을 맺었다. 악셀스프링거는 계열사 뉴스를 오픈AI에 학습용 데이터로 공급하게 된다. 블룸버그는 지난달 13일(현지시간) “악셀스프링거는 3년 계약을 통해 수천만 유로를 받게 될 것”이라고 보도했다.

권유진ㆍ여성국 기자 kwen.yujin@joongang.co.kr