돈·시간 많이 드는 영상 제작…클릭 몇번이면 된다, 해결사 정체 [트랜D]

중앙일보

입력

트랜D

생성형 인공지능(AI)의 등장 이후 가장 많은 영향을 받은 분야 중 하나는 이미지 분야입니다. 생성형 AI는 애니메이션 인물, 캐릭터, 풍경 등 실사와 구별이 힘든 높은 수준의 결과물을 만듭니다. 하지만, 많은 생성형 AI 개발자와 회사는 움직이지 않는 이미지를 넘어 최근 동영상으로 관심 영역을 옮기고 있습니다. 이미지를 동영상으로 만들 수 있도록 여러 생성형 AI 기술이 개발 중입니다. 급변하는 AI 세계에서 텍스트-이미지 모델은 빠르게 발전하고 있지만, 텍스트-비디오 AI 모델은 아직 초기 단계입니다.

웹 기반 인공지능(AI) 플랫폼인 원더 스튜디오를 내놓은 원더 다이내믹스의 로고. 원더 다이내믹스

이미지를 넘어 영상 생성에 도전

오픈소스 기반 생성형 AI스테이블디퓨전(Stable Diffusion)은애니메이트 디퓨전(AnimateDiff), 디포럼(Deforum)과 같은 확장기능을 활용해 이미지를 기반으로 영상을 제작하는 것이 가능합니다. 이런 방식은 주로 수백, 수천장의 이미지를 만든 뒤 이를 이어 붙이는 방식으로 영상을 제작합니다. 동영상에서 프레임 단위로 이미지로 추출한 후 AI 모델과 여러 튜닝을 통해 AI가 이미지를 만듭니다.

수많은 이미지를 이어 붙이면 움직이는 동영상이 됩니다. 이때 이미지 사이에 어색한 부분이나 오차가 발생한 부분도 앞뒤 이미지를 인식해 AI가 보정할 수 있습니다. 오픈소스의 특성상 많은 기여자가 참여하면서 동영상을 제작하기 위한 다양한 기능이 계속해서 개발되고 있습니다.

최근 스테이블디퓨전은 텍스트나 이미지로 동영상을 제작할 수 있는 스테이블 비디오 디퓨전이라는 서비스를 공개했습니다. 스테이블 비디오 디퓨전은 576x1024 해상도로 4초 미만 길이의 동영상을 생성할 수 있습니다.

해당 서비스는 현재로서는 연구 목적으로만 사용할 수 있으며, 상업적 용도로는 사용할 수 없습니다. 아직 몇 초 수준의 짧은 동영상만 생성할 수 있고, 카메라 모션을 설정하거나 텍스트를 추가하는 등 옵션이 부족합니다. 사람 얼굴과 손 등을 제대로 생성하는 부분에도 한계가 있습니다. 상업 용도로 사용하려면 아직 시간이 필요해 보입니다.

에뮤 비디오 프롬프트 선택 화면. 메타데모랩

스테이블 디퓨전 외에 메타 같은 대형 기업도 최근 AI 동영상 제작 기술을 선보였습니다. 메타는 에뮤 비디오(EMU Video) 기능을 개발했습니다. 에뮤는 사용자가 텍스트나 이미지를 입력하면 동영상을 생성합니다. 메타는 해당 기능을 곧 페이스북과 인스타그램에 추가할 예정입니다. 영상은 물론 애니메이션 스티커나 GIF(Graphics interchange format) 같은 콘텐트를 생성해 채팅에 사용할 수도 있습니다. 이런 동영상 콘텐트를 누구나 쉽게 만들게 되면 페이스북과 인스타그램의 늘어나게 됩니다. 페이스북과 인스타그램 같은 소셜 서비스에서 더 많은 사람이 소통하고 머물 수 있는 요소가 됩니다.

클릭 몇 번으로 가능한 동영상 제작

생성형 AI 기반의 영상 제작 서비스와 도구는 이미 쉽게 접할 수 있습니다. 누구나 이메일로 가입하면 AI로 영상을 만들어 볼 수 있습니다. 몇 가지 비디오 생성 도구가 있지만, 대표적으로 런웨이(Runway)의젠2(Gen2)와피카랩스(Pika Labs)가 있습니다. 카이버에이아이(Kaiber.ai), 루멘5(Lumen5), 인비디오(InVideo) 등 여러 서비스도 무료로 사용할 수 있습니다.

런웨이는AI 기반 이미지 및 비디오 개발에 특화된 스타트업으로 스테이블 디퓨전 개발에 참여한 바 있습니다. 런웨이는젠1(Gen1)이라는 서비스에서 사용자가 텍스트와 영상 샘플을 제공하면 이에 맞는 영상을 제작하는 기능을 선보인 바 있습니다.

런웨이는 올해 업그레이드 버전인 젠2를 선보였는데, 젠2 개발을 위해 2억4000만 개의 이미지와 640만 개의 비디오 클립으로 구성된 교육 데이터 세트를 사용하여 모델을 개발했다고 밝혔습니다. 젠2에서는 사용자가 텍스트 프롬프트만 입력해도 영상을 만들 수 있습니다. 이미지를 업로드하면 이미지를 영상으로 만들기도 합니다. 아직 영상 길이가 짧아 제한적이고 생성된 영상이 뭉개지는 현상 등이 있지만, 시간이 지나면 상업화에 사용할 수 있을 정도 수준이 가능할 것으로 보입니다.

컴퓨터 그래픽(CG) 처리도 AI 활용이 가능합니다. 영화 '레디 플레이어 원'에 출연했던 배우 '타이 쉐리던'과 VFX 전문가 니콜라 토도로비치가 설립한 원더 다이내믹스는 스티븐 스필버그와 조 루소와 같은 헐리우드 유명 제작자들이 자문을 맡고 있습니다. 2021년 삼성전자의 투자회사인 삼성넥스트는원더 다이내믹스에 900만 달러를 투자한 바 있습니다.

원더 다이내믹스는 AI 기반 플랫폼 ‘원더 스튜디오(Wonder Studio)’를 개발하고 있습니다. 원더 스튜디오는 영상 제작보다는 기존 영상에 CG를 효과적으로 처리하는 것에 목표를 두고 있습니다. 아바타, 반지의 제왕 같은 영화는 CG 캐릭터가 필요한데 이때 전문적인 기술과 비용이 필요합니다. 또한, CG 작업에는 상당한 시간이 소요됩니다. 원더 스튜디오는 AI 시스템이 동영상을 분석해 CG 캐릭터를 자동으로 입혀줍니다.

AI가 만드는 영상의 미래

AI 기술의 발전으로 동영상 제작은 전문가들의 영역을 벗어나 몇 번의 클릭만으로도 누구나 쉽게 시작해 볼 수 있는 시대로 발전하고 있습니다. 동영상을 생성하는 기술은 사용자가 손쉽게 콘텐트를 선택하고 편집할 수 있도록 돕습니다. 이를 통해 누구나 창의적인 아이디어를 실제로 구현할 수 있도록 도와주고 있습니다.

동영상 제작은 많은 시간과 비용이 필요합니다. AI 생성 비디오는 콘텐트 제작을 간소화할 수 있는 잠재력 때문에 생성형 ai의 핵심 요소입니다. 하지만 딥페이크, 저작권 위반 등을 통해 악용될 가능성이 가장 높은 도구이기도 합니다. 이제 생성형 AI는 텍스트, 이미지를 거쳐 비디오 영역으로 나아가고 있습니다. 생성형 AI로 품질 높은 영상을 생성하는 시기에 도달하면 더 많은 영상 쏟아져 나올 것입니다. AI 중심의 영상 시대가 멀지 않았습니다.

윤준탁 IT 칼럼니스트