머스크도 벼른다, AI 데이터 전쟁…저작권 문제 피해가는 日·EU [AI 패권전쟁]

중앙일보

입력

업데이트

지면보기

종합 04면

AI 개발 경쟁이 모델 경쟁에서 데이터 경쟁으로 확대되고 있다. AI 모델 구축 비용이 점차 낮아진다면 결국 데이터 격차가 AI의 경쟁력을 가를 변수가 될 수 있어서다. AI 석학으로 꼽히는 앤드류 응 스탠포드대 교수는 소량의 고품질 데이터로도 AI 성능을 개선할 수 있다는 ‘데이터 중심 AI’(data-centric AI)를 강조하며 데이터 파워에 힘을 싣고 있다. 줄리앙 쇼몽 허깅페이스 최고기술책임자(CTO)도 지난달 25일 중앙일보와 화상 인터뷰에서 “(AI를 연구하는 사람들이) 단순히 더 큰 모델을 쫓기보다는 학습용 데이터의 품질 개선에 초점을 맞추는 추세로 바뀌었다”라고 말했다.

그래픽=김현서 kim.hyeonseo12@joongang.co.kr

그래픽=김현서 kim.hyeonseo12@joongang.co.kr

데이터 가치가 커지다보니 특정 분야에서 자기만의 데이터를 축적한 기업들은 성능이 검증된 외부 AI 모델에 자사 데이터를 적용해 새로운 기회를 만들고 있다. HR테크 스타트업 원티드랩은 자체 보유한 500만 건의 채용 데이터 및 이용자⋅기업 데이터를 활용해 지난달 AI 기반 커리어 설계 서비스를 내놨다. 이 회사 황리건 플랫폼 총괄이사는 “개인정보 등 민감한 정보는 제거하고 이용자에게 동의받은 데이터를 사용해, AI가 채용 결과를 예측하도록 학습시켰다”고 설명했다. 글로벌 컨설팅 기업 EY도 마이크로소프트와 오픈AI의 AI 서비스를 활용해 전 세계 직원들의 급여 데이터를 학습시킨 챗봇을 만들었다.

문제는 AI 학습용 데이터를 어디서 구하느냐다. 챗GPT로 수억 명의 사용자를 확보한 오픈AI는 값비싼 명령어 학습 데이터(instruction tuning data)를 실시간으로 끌어 모으고 있다. 장두성 KT 융합기술원 기술담당 상무는 “AI 챗봇 사용자의 프롬프트(명령어) 입력과 그에 대한 피드백이 담긴 ‘명령어 학습 데이터’의 가치가 높다”라고 말했다. 이런 서비스 플랫폼이 없는 기업들은 갈수록 데이터 얻기가 어려워지고 있다. 이전과 달리 창작자는 저작권을, 개인은 프라이버시를, 데이터를 가진 기업은 제 값 받기를 주장하기 때문. 트위터를 인수한 일론 머스크 테슬라 최고경영자(CEO)는 지난달 “MS의 AI 학습에 트위터 데이터가 무단 사용됐다”며 소송을 예고했다.

AI 개발 업체들은 ‘공정 이용’(fair use)이라고 주장한다. 저작권법의 목적인 ‘문화의 향상 발전’이라는 목표에 부합한다면 형식적인 저작권 침해에 책임을 묻지 말아야 한다는 것. 일본·유럽연합 등은 저작권법에 유사한 면책 규정을 두고 있고, 한국도 AI 학습과 빅데이터 분석용 데이터 사용에 면책 조항을 두는 저작권법 개정안이 국회 계류 중이다.

로이터=연합뉴스

로이터=연합뉴스

기업의 데이터 수요를 감안해 과학기술정보통신부는 지난 4월 ‘초거대AI 경쟁력 강화 방안’을 발표하며 “고품질 말뭉치와 한국어 응용말뭉치를 2027년까지 130종 구축하겠다”고 발표했다. 하지만 현장에선 더 과감한 조치가 필요하다는 반응이다. 전병곤 프렌들리AI 대표(서울대 컴퓨터공학과 교수)는 “말뭉치로는 부족하다”며 “한국어 출판물을 전부 데이터셋으로 만든다든지, 영어 백과사전을 한국어로 번역해서 쓸 수 있게 해 주는 등 대규모 데이터 구축이 필요하다”고 말했다.

국내외 기업 간 AI 경쟁이 치열해지면서 한국어 데이터에 장벽을 치자는 주장도 나온다. 정부가 구축하는 데이터를 외국 빅테크들이 사용하지 못 하게 해달라는 것이다. 하정우 네이버클라우드 AI 이노베이션센터장은 “해외 빅테크 기업이 한국어 데이터를 제약 없이 학습에 활용하는 것을 막아야 한다”며 “국내 데이터가 해외에도 공유되면 국내 AI 경쟁력은 약화될 것”이라고 말했다.

그래픽=김현서 kim.hyeonseo12@joongang.co.kr

그래픽=김현서 kim.hyeonseo12@joongang.co.kr

AI 시대 데이터 정책에 관한 더 깊은 스토리는 The JoongAng Plus ‘팩플’에서 보실 수 있습니다.

AI 패권전쟁