올트먼 “우리 AI 밥 줘야지!” 도둑질도 부른 데이터 전쟁

  • 카드 발행 일시2024.05.21

Today’s Topic,
AI 전쟁 ‘총알’을 구하라,
막 오른 데이터 전쟁, 디워(D-war)①

인터넷 커뮤니티 ‘디시인사이드’가 상장한 뒤 가격이 치솟고 있다면? 미국에서는 그런 일이 실제로 일어났다. 지난 3월 미 증시에 상장된 인터넷 커뮤니티 ‘레딧’(Reddit)’의 주가는 연일 고공행진. 지난 16일(현지시간) 레딧이 ‘챗GPT’ 개발사 오픈AI와 자사 웹사이트에 게시된 데이터를 AI 학습에 사용할 수 있도록 계약을 맺었다고 발표하자, 시간 외 거래에서 주가가 62달러로 15% 급등했다.

스티브 허프먼 레딧 최고경영자(CEO)가 마스코트 스누를 껴안고 있다. 온라인 커뮤니티 플랫폼인 레딧은 지난 3월 뉴욕증시에 상장했다. AFP=연합뉴스

스티브 허프먼 레딧 최고경영자(CEO)가 마스코트 스누를 껴안고 있다. 온라인 커뮤니티 플랫폼인 레딧은 지난 3월 뉴욕증시에 상장했다. AFP=연합뉴스

아니, 데이터가 그렇게 돈이 되나? 그렇다. AI도 똑똑해지려면 밥을 잘 먹어야 해서다. 고품질 다양한 데이터가 AI의 주식(主食). 이 때문에 스타트업부터 AI 빅테크까지 ‘우리 AI’ 밥 챙기지 못해 안달인데. 아뿔싸 2026년이면 AI가 학습할 데이터가 고갈된다는 전망이 나온다. 밥 모자란다는 얘기가 나오자 도둑질까지 한다. AI 전쟁에서 혈투를 벌이고 있는 오픈AI와 구글이 저작권법을 무시하고 유튜브 영상을 녹취록으로 바꿔서 AI에 먹였다는 폭로가 나오기도.

‘오일머니’ 대신 ‘데이터머니’가 새로운 헤게모니가 될 것이란 전망이 허황된 얘기가 아니다. 석유에 버금가는 자원을 만들어낼 데이터 산업, 이 시장을 위해 뛰고 있는 데이터 기업, 누구냐 넌?

💬목차

1. AI 군비경쟁 1원칙, 데이터 확보
2. 데이터를 캐는 5가지 방법
3. 뜬다! 데이터 ‘요리사’ 800조 시장
4. K데이터 유망주 나가신다
5. 데이터 국가전에서 살아남기
6. 데이터 전쟁, 미래는

오혜정 디자이너

오혜정 디자이너

1. AI 군비경쟁 1원칙, 데이터 확보  

지난 3월 미 증시 상장과 함께 샘 올트먼 오픈AI 최고경영자(CEO)가 레딧의 3대 주주였다는 점이 뒤늦게 밝혀져 화제가 됐다. 올트먼이 주목한 레딧의 힘? 이들이 보유한 12억 명(월간활성이용자 기준) 이용자가 인터넷에 게시하는 각종 정보다. 수십억 명이 레딧에 올리는 정보를 AI 학습에 쓸 수 있기 때문.

‘나는 여전히 배고프다’: 더욱 똑똑해져야 하는 임무를 띈 생성 AI는 요즘 공부할 데이터가 없어서 문제. 텍스트는 물론 자율주행과 영상 제작 생성 AI 개발에 필요한 데이터를 구하는 데 기업들이 백방으로 나서는 중. AI 학습용 데이터 판매·중개를 하는 셀렉트스타의 황민영 부대표는 “모든 데이터가 부족하지만, 특히 영어 데이터에 비해 한국어 데이터는 거의 없다시피하다”고 말했다. 

S급 데이터 찾아요: 배고프다고 아무거나 먹을 순 없다. 중요한 건 ‘다양성’과 ‘품질’. 여러 질문에 음성으로 답해주고 그림도 그려주는 ‘팔방미인’, 즉 ‘멀티모달 AI’ 개발을 위해선 더 다양한 데이터를 학습해야 한다. 여기에 ‘고품질 데이터’ 확보도 중요해졌다. 신뢰할 만한 AI 모델을 만들려면 인터넷에 떠도는 데이터를 마구잡이로 학습해선 안 된다. 박찬준 업스테이지 수석연구원은 “중복되지 않고, 철자 오류와 문법 오류가 없으며, 일관성 있는 정보가 ‘고품질 데이터’”라며 “고품질 데이터를 문서 단위로 대량 학습해야 생성 AI가 전체 문맥을 잘 이해할 수 있다”고 말했다.