당신네 AI가 우리 '뉴스·블로그'로 공부? 그럼 사용료는? [팩플]

중앙일보

입력

챗GPT 같은 생성 인공지능(AI) 서비스가 부상하면서 ‘데이터 사용권’을 둘러싼 갈등이 커지고 있다. AI 기반이 되는 대규모 언어 모델(LLM)을 구축하려면 방대한 데이터가 필요한데, LLM 개발사들이 인터넷에 공개된 데이터를 무단으로 가져다 AI 훈련에 쓴 데 대한 반발이 커지면서다. 이 AI로 기업이 수익을 추구한다면 데이터 제공자들에게 사용료를 제대로 지불해야 한다는 주장이 나온다.

일론 머스크 트위터 CEO는 19일(현지시간) “마이크로소프트(MS)가 트위터 데이터를 불법적으로 사용해 훈련했다”고 경고했다. 트위터 캡처.

일론 머스크 트위터 최고경영자(CEO)가 최근 포문을 열었다. 그는 지난 19일(현지시간) “마이크로소프트(MS)는 트위터 데이터를 이용해 불법적으로 훈련했다. 소송할 시간”이라고 주장했다. MS가 자사의 광고 플랫폼에서 트위터를 뺐다는 소식이 전해지자, MS에 역공을 가한 것. IT 매체 매셔블에 따르면, MS는 그동안 기업 고객들이 트위터·페이스북·인스타그램 등 여러 소셜 미디어(SNS) 앱에 접속해 계정을 한꺼번에 관리할 수 있는 서비스를 제공해왔다. 그런데 트위터가 지난 2월 다른 기업들이 자사 서비스와 트위터를 실시간 연동하려면 접속료(API fee)를 내라고 요구하자, 트위터 데이터를 다른 서비스나 연구개발에 활용하는 데 돈이 들게 됐다. 트위터가 부과한 API 요금은 월 4만 2000달러(약 5580만원) 수준. CNBC는 “머스크의 위협은 데이터 소유권이 생성 AI 경쟁의 전쟁터가 되고 있음을 보여주는 징후”라고 분석했다.

이게 왜 중요해

◦ 알고 보니 내 데이터: 챗GPT에게 어떻게 언어를 배웠냐고 물으면 “오픈AI의 언어 모델로서 인터넷에서 대규모 텍스트 데이터를 학습했다. 책, 기사, 웹사이트 등 다양한 종류의 데이터가 포함돼 있다”며 두루뭉술하게 답한다. 하지만 지난 2월 데이터 추적 플랫폼 ‘어플라이드X’와 대화 과정에서 로이터·뉴욕타임스·가디언·BBC·월스트리트저널(WSJ) 등 참고한 언론사 목록이 구체적으로 드러났다. 이에 WSJ는 투자자들에게 “기사를 AI 학습에 활용하려면 적절한 라이선스를 받아야 한다”고 밝히는 등 소송도 검토 중. 북미 언론사 2000여개가 소속된 뉴스미디어연합(NMA) 차원에서 AI 학습에 뉴스가 어느 정도 활용되고 있는지도 조사 중이다.

미국 커뮤니티 사이트 레딧. 일평균 5700만명이 방문하는 만큼 다양한 주제의 대화가 오간다. 사진 레딧

◦ 상업용? 그럼 얘기가 다르지: SNS와 언론사뿐 아니라 커뮤니티에서도 변화가 감지되고 있다. 일평균 5700만 명이 방문하는 미국 커뮤니티 사이트 레딧은 18일 API 유료화 방침을 밝혔다. 그동안 레딧의 대화 내용이 오픈AIㆍMSㆍ구글 등 빅테크 기업들의 AI 훈련에 공짜로 활용됐지만, 이젠 그 AI로 상업적 가치를 창출하게 된 만큼 돈 낼 때가 됐다는 것. 스티브 허프먼 레딧 CEO는 NYT와 인터뷰에서 “레딧의 데이터는 상당히 가치가 있다”며 “세계에서 가장 큰 회사들에 그걸 무료로 줄 필요는 없다”고 주장했다.

◦ 사라지는 오픈소스: 오픈AI는 챗GPT 직전 언어 모델인 GPT-3까지는 소스코드와 API를 공개했다. 하지만 지난달 내놓은 GPT-4부터는 관련 정보를 모두 비공개에 부쳤다. 오픈AI 공동 설립자이기도 한 머스크는 지난 17일 폭스 뉴스에 나와 “오픈AI는 구글과 균형을 맞추기 위한 비영리 단체로 시작됐지만, 지금은 (투자사) MS에 통제된 닫힌 소스 기반의 영리 기업이 돼버렸다”고 비판하며, 이에 대항하는 ‘트루스(truth) GPT’ 개발 계획을 밝힌 바 있다. 이미 AI 시장은 수익 경쟁에 돌입했다는 얘기다. 실제로 오픈AI는 지난달 기업용 API 판매를 시작했고, 최근엔 아마존이 기업용 AI 클라우드 서비스 ‘베드록’을 출시하는 등 B2B(기업 간 거래) 시장이 빠르게 AI 중심으로 재편되고 있다. AI 검색 플랫폼 스타트업 라이너의 김진우 대표는 “GPT-3.5에서 GPT-4로 넘어오면서 API 비용이 30배 정도 비싸졌다”며 “지금은 오픈AI가 독점하고 있는데, 경쟁이 더 치열해져야 가격이 인하되고 기술도 민주화될 것”이라고 전망했다.

챗GPT 개발사 오픈AI. AP=연합뉴스

나랑 무슨 상관인데

국내에서도 생성AI 언어 모델을 개발하고 AI 서비스로 수익화하려는 움직임이 활발하다. 오는 7월 초거대AI ‘하이퍼클로바X’를 공개하겠다고 예고한 네이버가 대표적. 네이버에 따르면, 하이퍼클로바는 챗GPT보다 한국어를 6500배 더 많이 학습했다고 한다. 50년 치 뉴스와 9년 치 블로그 등 네이버에서 ‘전체 공개’로 설정된 막대한 데이터 덕분이다. 네이버는 이 언어 모델을 활용해 다양한 소비자 대상 서비스와 글로벌 클라우드 사업을 구상 중이다.

그런데 네이버가 AI 개발에 활용한 뉴스와 블로그의 콘텐트 권리 문제가 최근 논쟁의 중심에 섰다. 포털 네이버의 뉴스서비스·뉴스검색 용도로 제공받은 콘텐트를 계열사나 제3자가 활용할 수 있게 제휴 약관을 개정하려다 언론사들의 반대에 부딪힌 것. 네이버로선 AI 기반 연구개발·사업 계열사들이 하이퍼클로바X를 활용하려면 필요한 조치다. 한국신문방송편집인협회·한국온라인신문협회·한국기자협회 등 언론계는 “사전 동의 없이 뉴스 서비스 이외 목적에 데이터를 활용해선 안 된다”는 입장이다. 현재 네이버는 언론사들과 수정안을 논의 중이다. 개인 창작자들이 쓰는 블로그 콘텐트의 경우 네이버는 휴대폰 번호 등을 비식별화했다고 밝혔지만, 개인정보 관련 문제가 불거질 가능성도 있다. 이탈리아는 개인정보 무단 수집 등의 이유로 챗GPT를 금지했다.

더 알면 좋은 것

다른 생성 AI 분야에서도 데이터 사용권 관련 소송이 진행 중이다. 지난해 11월 개발자이자 변호사인 매슈 버터릭은 코딩 AI ‘코파일럿’을 만드는 데 관여한 깃허브·MS·오픈AI 등을 상대로 집단소송을 제기했다. 수백만 명의 프로그래머들이 깃허브에 올려둔 코드를 깃허브 MS가 무단으로 도용해 AI 학습에 썼다는 주장이다. MS는 2018년 깃허브를 인수한 바 있다. 올 1월에는 사진DB 업체 게티이미지가 이미지 AI ‘스테이블 디퓨전’이 게티의 유료 이미지를 무단 학습했다며 개발사 스테빌리티 AI에 소송을 제기했다. 반면 셔터스톡은 오픈AI와 파트너십을 확대해 이미지 AI ‘달리’에 학습용 데이터를 제공하고, 달리가 만든 이미지를 판매하는 방식을 택했다.

전문가들 사이에서도 다양한 의견이 나오고 있다. 한국인공지능법학회 회장인 최경진 가천대 법학과 교수는 “무단 사용은 명백한 저작권법 위반이지만 이를 일일이 증명하기가 쉽지 않을 것”이라며 “개별 허락을 받지 않더라도 사용할 수 있도록 제도를 마련하고 수익 배분 등 이용 대가를 지불하는 방식을 모색할 필요가 있다”고 제안했다. 손승우 한국지식재산연구원장은 “빅데이터는 AI 개발의 기본인데 합법적 크롤링까지 막을 순 없다”고 말했다. 손 원장은 일본 등 텍스트 데이터 마이닝 면책 조항이 있는 국가를 소개하며 “한국에서는 저작권법 개정안이 계류 중인데 통과되면 전체 산업이 성장해 새로운 일자리와 먹거리 창출 효과가 있을 것”이라고 덧붙였다.

※ 지금 뜨는 기업ㆍ기술 궁금하세요? 요즘 핫한 테크 소식을 입체적으로 뜯어보는 ‘기사 +α’를 만나보세요. 👉 https://www.joongang.co.kr/factpl