ADVERTISEMENT

인간보다 더 인간 같은 목소리…불붙는 ‘AI 보이스’ 시장

중앙일보

입력

지면보기

경제 07면

KT의 ‘AI 보이스 스튜디오(왼쪽)’와 네이버의 ‘클로바 더빙’. KT는 감성 더빙을, 네이버는 생산성을 강점으로 꼽는다. [각 사 캡처]

KT의 ‘AI 보이스 스튜디오(왼쪽)’와 네이버의 ‘클로바 더빙’. KT는 감성 더빙을, 네이버는 생산성을 강점으로 꼽는다. [각 사 캡처]

인간보다 더 인간 같은 ‘인공지능(AI) 보이스’ 시장이 빠르게 크고 있다. ARS(자동응답시스템) 서비스에서 듣곤 했던 딱딱하고 어색한 기계음을 상상하면 오산. 목소리 높낮이, 발화 속도, 감정까지도 미세하게 조정해 만들 수 있다. 쓰임새도 무궁무진하다. AI 보이스가 돈 되는 줄 아는 테크 기업들이 너나 할 것 없이 뛰어드는 이유다.

가장 최근에 AI 보이스 서비스(AI 보이스 스튜디오)를 내놓은 KT는 ‘감성 더빙’을 강점으로 내세운다. AI가 이용자가 낭독했던 감정을 살려 목소리를 만든다는 것. 애당초 목소리를 만들 때 중립·즐거움·화남·슬픔·침착함 중에서 컨셉을 선택해도 된다. 발화 속도·높낮이도 10단계로 세분되어있다.

아마존은 지난달 24일(현지시간) 미국 라스베이거스에서 열린 ‘리마스’ 컨퍼런스에서 AI 스피커 서비스 알렉사를 통해 고인의 목소리를 재현했다. 아마존은 이 기술을 구체적으로 어떻게 상용화할지 밝히지는 않았다. 국내에선 2020년 스타트업 네오사피엔스가 MBC 다큐멘터리 ‘너를 만났다’에서 세상을 떠난 어린 딸의 목소리를 복원시켜 화제가 되기도 했다.

여러 AI 보이스 서비스가 경쟁하는 가운데 승부처는 투입 대비 효율이다. 얼마나 적은 리소스를 투입해 금방 AI 보이스를 만들 수 있는지, 그리고 얼마나 다양한 목소리를 만들 수 있는지에서 갈린다. 기업들은 저마다 독자적인 기술을 개발해 생산성, 제작 속도, 목소리 가짓수 등으로 경쟁하는 중이다.

그래픽=김영옥 기자 yesok@joongang.co.kr

그래픽=김영옥 기자 yesok@joongang.co.kr

네이버의 ‘클로바 더빙’은 생산성을 강조한다. 짧은 녹음 데이터로도 금방 만들 수 있다는 건데, 과거엔 40시간~100시간 분량의 녹음 데이터가 필요했지만, 이제는 40분(400문장) 분량의 음성만 있으면 충분히 자연스러운 목소리를 만들 수 있다고 한다. 클로바는 2020년 2월 ‘클로바더빙’ 서비스를 처음 선보였다.

네오사피엔스는 대본 속 지문을 파악해 연기하는 AI 목소리를 개발했다. 배우가 대본에 적힌 감정에 따라 연기하는 것처럼, AI가 감정과 음성을 동시에 학습해 표현한다. ‘울적한 마음을 감추지 못하고 눈물을 보이며’, ‘황당하지만, 화를 누르는’, ‘씁쓸하게 포기한 듯’ 등 지문에 담긴 감정을 AI 보이스에 반영할 수 있다.

AI 보이스를 활용한 B2C(기업·소비자 거래) 서비스도 다양해졌다. AI 목소리가 가장 많이 쓰이는 곳은 동영상이다. 크리에이터가 직접 출현하지 않는 영상일수록 AI 보이스를 필요로 하기 때문이다. 네오사피엔스가 운영 중인 ‘타입캐스트’는 지속해서 내레이션 음성을 만들어야 하는 유튜버를 위해 구독 서비스로 운영된다. 매월 20분 분량의 AI 보이스, 영상을 제작하는 데 8900원(1년 구독 시)을 내면 된다. 네이버 클로바더빙과 KT의 AI 보이스 스튜디오는 각각 1만5000자, 4000자 분량의 AI 목소리를 공짜로 제작할 수 있다.

클로바더빙은 ‘요즘 육아 금쪽같은 내 새끼’ 같은 방송 프로그램에서도 성우 대신 활약 중이다. 전자책 플랫폼 밀리의서재는 타입캐스트를 통한 오디오북 생산 체제를 구축했다. 전문 성우를 활용해 오디오북을 녹음, 편집하려면 3주씩 걸리지만, AI 보이스를 활용하면 2~3일 만에 오디오북 한 권을 제작할 수 있기 때문이다.

ADVERTISEMENT
ADVERTISEMENT