“중국판 소라 등장했다”... '비디오 생성형 AI' 공개한 中 스타트업은 어디?

중앙일보

입력

정황지 기자

차이나랩

중국의 스타트업 세븐볼케이노(Seven Volcanoes, 七火山)가 선보인 비디오 생성형 AI '에트나(Etna)'. Etna 공식 홈페이지 갈무리

「

中 스타트업, 중국판 '소라' 띄웠다

」

오픈AI(OpenAI)의 '소라(Sora)' 등장으로 비디오 생성형 AI가 세계적으로화두가 된 가운데, 중국의 한 스타트업이 소라와 똑 빼닮은 비디오 생성형 AI 모델을 깜짝 공개해 업계의 이목을 끌었다.

앞서 2월 15일 오픈AI는 텍스트를 입력하면 동영상을 생성하는 인공지능 모델 ‘소라’를 공개했다. 사용자가 제공한 텍스트 정보를 바탕으로 복잡한 장면을 최대 1분 길이의 비디오를 생성할 수 있는데, 이미지가 섬세하고 사실적일 뿐만 아니라 카메라 움직임까지 시뮬레이션할 수 있어 영상 업계 및 AI 업계에 큰 반향을 일으켰다.

지난 3월 5일 중국 광저우에 소재한 인공지능 스타트업 세븐볼케이노(Seven Volcanoes, 七火山)는 인공지능 전략 발표회를 열고 비디오 생성형 AI 모델 ‘에트나(Etna)’를 공개했다. 에트나의 구동 방식은 오픈AI 소라와 상당히 닮아 있었는데, 프롬프트에 명령어를 입력하자 15초 길이의 4K 해상도를 가진 동영상을 생성해냈다.

세븐볼케이노 최고 기술 책임자 황리창(黃禮強)은 “에트나는 중국 내에서 서비스되는 그 어떤 비디오 생성형 AI 모델보다 강력한 성능을 지녔다”면서 “뛰어난 화질, 풍부한 디테일, 강력한 이해 능력을 기반으로 생동감 넘치는 동영상을 생성한다”고 밝혔다.

세븐볼케이노, 어떤 영상 공개했나?

프롬프트에 “빛나는 식물들로 둘러싸인 신비로운 숲속의 요정”이라는 내용을 입력하자 카툰 형식의 동영상이 생성됐다. Etna 공식 홈페이지

세븐볼케이노는 인공지능 전략발표회에서 총 6편의 동영상을 공개했다. 프롬프트에 '선글라스를 착용한 여성이 거리에 서 있는 모습'이라는 내용을 입력하자 주황색 옷을 입은 한 여성이 선글라스를 낀 채 카메라를 응시하는듯한 모습을 담은 동영상이 생성됐다.

또 '빛나는 식물들로 둘러싸인 신비로운 숲속의 요정'이라는 텍스트를 입력했더니 열대 우림으로 보이는 배경 사이로 요정 캐릭터가 눈을 감았다가 뜨는 카툰 형식의 동영상을 생성해줬다. 이 외에도 '해변을 즐기는 여성', '빅토리아 왕관 새', '열대우림' 영상을 공개했다.

중국 네티즌들의 엇갈린 반응

중국 네티즌들은 각양각색의 반응을 보였다. 샤오홍슈(小红书) 갈무리

영상이 온라인에 공개되자 중국 네티즌들 사이에선 다양한 반응이 터져 나왔다. 한 네티즌은 중국 소셜미디어 샤오홍슈(小紅書)에 “미국의 인공지능 기술이 확실히 중국을 앞서고 있다”면서도 “그러나 예상했던 것보다 격차가 적은 편”이라며 "생성형 인공지능 개발에 있어 중국이 나름대로 선방하고 있다"고 주장했다.

그러나 일각에선 오픈AI 소라와 비교했을 때 기술적 한계가 명확하다는 반응도 나왔다. 일부 네티즌들은 “생성된 영상의 움직임이 너무 한정적이다”, “모든 영상에 슬로 모션이 걸려있는 것 같다”, “소라의 경우 새로운 차원의 비디오를 생성했는데, 세븐볼케이노 에트나의 경우 Runway Gen-2(미국 동영상 생성 AI 프로그램)의 업그레이드 버전에 불과해 보인다"라고 주장했다.

이 같은 반응을 예상이라도 한 듯 세븐볼케이노는 발표회 현장에서 부족한 점이 존재한다고 언급했다. 세븐볼케이노 최고 기술 책임자 황리창은 “오픈AI 소라의 경우 확산 트랜스포머(Diffusion Transformer)모델을 사용하여 머신러닝 데이터셋이 비디오로 구성되어 있다"면서 “이 덕분에 ‘소라’는 생성형 영상을 만드는 데 있어 유리한 조건을 가졌지만, 에트나의 경우 개발 초창기엔 확산 모델(Diffusion Model)만 사용하여 머신러닝 데이터셋이 이미지로만 이뤄져 있었다. 이로 인해 생성형 동영상 구현하는 데 있어 한계에 봉착했다”고 이유를 설명했다.

확산 트랜스포머(Diffusion Transformer): 확산 모델과 트랜스포머 아키텍처를 결합한 신경망 모델로, 비디오의 각 프레임 사이의 시간적 관계를 더 잘 모델링 하여, 자연스럽게 이어지는 프레임을 생성한다. 복잡한 배경, 다양한 인물, 복잡한 상호작용 등을 포함한 시나리오를 잘 이해하여 더욱 생생하고 현실감 있는 동영상을 생성해 낸다.

황리창은 이어 “최근 오픈AI가 확산 트랜스포머 기술을 입증해 내며 업계 혁신을 이끌었다”면서 “단기간 내에 해당 기술을 접목해 에트나 업그레이드에 총력을 다할 것”이라고 밝혔다.

실제로 세븐볼케이노는 "확산 모델에 트랜스포머 모델을 결합하자 단 2주 만에 눈에 띄는 성과를 보여줬다"고 밝혔다. “확산 트랜스포머 모델을 도입한 에트나 모델의 경우 최대 20초 분량의 동영상을 생성해냈고, 초당 60프레임에 달하는 프레임 레이트를 구현해냈다”고 밝혔다. “그러나 오픈AI ‘소라’에 비하면 기술격차가 여전히 큰 편”이라고 덧붙였다.

세븐볼케이노, 생성형 인공지능 상용화 '앞장'

세븐볼케이노의 숏폼 드라마 번역 시스템 ‘Lava’. 세븐볼케이노 공식 홈페이지

한편 세븐볼케이노는 인공지능 기술 상용화에도 박차를 가하고 있다. 앞서 세븐볼케이노는 딥러닝 인공지능 기반의 숏폼 드라마 번역 시스템 ‘Lava’를 선보였는데, 이 시스템을 사용하면 효율적인 현지화 작업(Localization)과 동영상 편집이 가능하다. ‘Lava’의 주요 기능으로는 영상 속 얼굴의 특징을 인식하여 다른 얼굴로 바꿔주는 ‘캐릭터 얼굴 스와프(角色換臉)’, 드라마 대사를 번역하여 더빙을 입혀주는 ‘대화 더빙(對白配音)’, 자막을 자동으로 번역하여 화면에 띄워주는 ‘자막 번역(字幕翻譯)’이 있다.

지난 2월 23일 세븐볼케이노는 중국의 빅 테크 기업 샤오미(小米)와 전략적 파트너십을 맺었다. 세븐볼케이노는 “숏폼 드라마 변환, 비디오 최적화 등 인공지능 분야의 풍부한 경험을 바탕으로 샤오미에 포괄적인 지원과 서비스를 제공할 것”이라고 밝혔다.

정황지 차이나랩 에디터