빅테크가 되레 추격중…두 이미지 생성 AI기업의 놀라운 실력 [트랜D]

중앙일보

입력

트랜D

생성형 인공지능(AI) 이미지 기술은 대규모 데이터 세트와 강력한 컴퓨팅 파워가 필요합니다. 따라서 주로 빅 테크 기업과 큰 투자를 받은 AI 스타트업이 주도적으로 이를 개발하고 있습니다. 구글, 마이크로소프트, 메타 등의 빅 테크 기업은 최근 앞다투어 생성형 AI 이미지 기술을 선보이고 있습니다.

하지만, 이미지 전문 AI 기업의 서비스는 빅 테크 기업의 서비스보다 뛰어난 품질과 성능을 자랑합니다. 미드저니와 스테이블디퓨전은 생성형 AI에서 가장 치열한 영역인 이미지 분야를 이끌고 있습니다. 이들은 이미지 생성은 물론 영상 제작 등 다양한 분야로 서비스 영역을 확장하면서 개인과 기업에 인기를 끌고 있습니다.

미국 콜로라도주박람회 미술전에서 1등상을 받은 인공지능 디지털 아트 '스페이스 오페라 극장'. 제이슨 앨런

빠르게 추격하는 빅 테크 기업

오픈AI와 협력해 챗GPT를 비롯한 생성형 AI 열풍을 주도한 마이크로소프트는 현재 이미지 생성 AI 모델인 달리(DALL-E)를 널리 보급하고 있습니다. 구글은 지난해 말 출시한 텍스트-이미지 AI 모델 이매진2(Imagen 2)를 기반으로, 최신형 이미지 생성 AI 도구 이미지FX를 최근 공개했습니다. 구글은 딥마인드가 개발한 이매진 모델을 바탕으로 정확성 높은 이미지 생성 모델을 개발했습니다.

중국의 대형 IT 기업인 알리바바, 텐센트 등은 현재 생성형 AI를 활용한 이미지 및 영상 제작 기술 개발에 주력하고 있습니다. 특히, 알리바바 그룹은 애니메이트 애니원(Animate Anyone), 라이브 포토(Live Photo) 등의 생성형 AI 알고리즘과 관련 논문을 발표하며 이미지 생성뿐만 아니라 이미지에서 영상으로의 변환 기술에도 집중하고 있습니다.

이러한 추세 속에서 여러 빅 테크 기업들이 이미지 생성 도구를 출시하고 업그레이드하고 있지만, 현재 실제로 널리 사용되는 대표적인 생성형 AI 이미지 도구로는 미드저니와 스테이블디퓨전이 대표적입니다. 국내외 생성형 AI 관련 커뮤니티와 게시판에서는 주로 미드저니와 스테이블디퓨전을 활용한 AI 이미지 결과물이 다수를 차지하고 있습니다.

구글이 2023년 말에 출시한 텍스트-이미지 AI 모델 이매진2(Imagen 2). 구글 딥마인드

미드저니와스테이블 디퓨전

고품질 생성형 AI 이미지는 대부분 미드저니와 스테이블디퓨전에서 생겨난다고 해도 과언이 아닙니다. 특히, 미드저니는 AI 이미지 제작 분야에서 꾸준한 사용과 발전을 이어가고 있습니다. 미드저니가 처음 선보인 2022년 버전 V1에서 현재의 V6까지의 발전 과정은 AI 이미지 분야가 얼마나 빠르게 진화해왔는지 명확하게 보여줍니다.

동일한 프롬프트를 사용했을 때 초창기와 현재의 결과물 간의 차이는 놀랍습니다. 불과 2년 만에 AI 이미지는 사람이 맨눈으로 구분하기 어려운 수준으로 발전했습니다. 특히, 최신 V6 버전을 공개한 미드저니 V6는 더욱 사실적인 묘사를 가능케 해 프로 사진 작가와 다름없는 수준의 이미지를 생성합니다.

미드저니의 진화 과정. 유튜브 채널 Curtis pyke 갈무리

미드저니는 초기에 디스코드 채널에서만 이용 가능했기 때문에, 디스코드를 사용하지 않는 이용자에게는 진입장벽이 존재합니다. 그러나 디스코드는 일반 웹사이트에서도 접속 가능하도록 플랫폼을 확장하고 있습니다. 또한, 니지저니(Niji Journey)와 같은 전문적인 애니메이션 이미지 생성 모델도 제공하여 빠르게 대중화를 이루어 가고 있습니다.

스테이블디퓨전을 개발하는 기업인 스태빌리티 AI는 스테이블디퓨전을 2022년 선보였습니다. 2023년 7월 SDXL이라는 개선 모델을 선보였고, 올해 2월 스테이블 캐스케이드라는 모델을 공개했습니다. 스테이블디퓨전은 하나의 대규모 언어 모델을 사용하는 데 반해, 캐스케이드는 세 가지 모델로 구성돼 더 빠르고 강력합니다. 이처럼 핵심 모델은 스태빌리티 AI가 업데이트하지만, 사용자들이 직접 새로운 기능이나 도구를 추가할 수 있는 점이 스테이블디퓨전의 강점입니다. 커뮤니티에 코드와 소스를 공유하면서 새로운 기능과 모델이 계속해서 생성되고 있습니다. 스테이블디퓨전에서 가장 널리 사용되는 GUI(그래픽 사용자 인터페이스) 중 하나인 AUTOMATIC 1111, ComfyUI라는 툴도 무료로 제공돼 누구나 사용 가능하고 계속해서 업데이트되고 있습니다.

사실, 스테이블디퓨전은 초기 진입 장벽이 상당히 높습니다. 사용자는 직접 고사양의 컴퓨터에 프로그램을 설치하고 파일을 올바르게 위치시켜야 하는 등의 복잡한 과정이 필요합니다. 새로운 기술이나 모델을 업데이트할 때에도 자동 지원이 아닌 경우, 파일을 직접 설치하고 명령어를 입력하는 등 일반 사용자가 이용하기에는 쉽지 않은 과정이 필요합니다.

그러나 스테이블디퓨전은 높은 자유도를 가지고 있어 다양한 창작이 가능하다는 이점이 있습니다. 사용자는 AI에게 직접 이미지를 학습시킬 수 있으며, 다른 사용자의 결과물을 무료로 쉽게 공유 받을 수도 있습니다. 허깅페이스와 시빗AI(Civit AI) 같은 오픈소스 커뮤니티에서는 다양한 스테이블 디퓨전 모델과 결과물을 무료로 다운로드할 수 있습니다. 이러한 오픈소스의 장점을 활용해 전 세계 사용자가 만든 고품질 학습 모델과 데이터, 결과물을 활용하여 이미지를 만듭니다.

스테이블 디퓨전 이미지 생성 과정. 스테이블 디퓨전

개인과 기업의 선택은?

미드저니는 매달 구독료를 내야 하는 유료 서비스로, 디스코드 플랫폼에서만 이용 가능한 불편함이 있습니다. 스테이블디퓨전은 한 번 설치하면 무료로 사용할 수 있고 이미지를 제작할 때 정교한 제어가 가능하지만, 고사양의 컴퓨터가 필요하고 진입 장벽이 높습니다. 보안과 데이터 프라이버시가 중요한 기업들은 주로 스테이블디퓨전을 선택하며, 이미지 생성에 대한 정교한 제어가 필요 없는 사용자들은 편리한 미드저니를 선호합니다.

앞으로 두 이미지 생성 AI는 빅 테크 기업의 경쟁을 뿌리치고 지금의 위치를 유지할 수 있을까요? 이미 해당 시장에 큰 영향력을 발휘하는 두 서비스는 구조는 다르지만 생성형 AI 시장에서 치열하게 경쟁하고 있습니다. 최근 미드저니는 스태빌리티 AI의 직원이 미드저니의 프롬프트와 이미지 데이터를 불법으로 대량 수집했다며 해당 계정을 정지시키기도 했습니다.

향후 빅 테크 기업은 이들을 인수해 자체 경쟁력을 향상할 수 있을 것입니다. 현재 어떤 빅 테크 기업이 이들을 인수할지는 관심사이며, 생성형 AI 이미지 분야는 앞으로 AI 스타트업과 빅 테크 간의 치열한 경쟁으로 인해 더욱 빠르게 발전할 것으로 보입니다.

윤준탁 IT 칼럼니스트