ADVERTISEMENT

[팩플] "40분 녹음이면 100명 목소리 만든다"…불붙는 'AI 보이스' 시장

중앙일보

입력

인간보다 더 인간같은 '인공지능 목소리' 시장이 빠르게 크고 있다. ARS(자동응답시스템) 서비스에서 듣곤 했던 딱딱하고 어색한 기계음을 상상하면 오산. 목소리 높낮이, 발화 속도, 감정까지도 미세하게 조정해 만들 수 있다. 쓰임새도 무궁무진하다. 'AI 보이스'가 돈 되는 줄 아는 테크 기업들이 너나 할 것 없이 뛰어드는 이유다.

무슨 일이야

음성을 합성하는 TTS(Text to Speech) 기술은 예전부터 존재했다. 다만 과거엔 성우가 녹음한 음성에서 자음과 모음을 따로 뗀 뒤 소리를 붙이는 식으로 음성을 만들었다. 최근 달라진 것은 IT 기업들이 AI 기술을 접목해 TTS 기술을 자체적으로 고도화시킨다는 것.

● 내 감정도 그대로 담아준다: 가장 최근에 AI 목소리 제작 서비스(AI 보이스 스튜디오)를 내놓은 KT는 '감성 더빙'을 강점으로 내세운다. AI가 이용자가 낭독했던 감정을 살려 목소리를 만든다는 것. 애당초 목소리를 만들 때 중립·즐거움·화남·슬픔·침착함 중에서 컨셉을 선택해도 된다. 발화 속도·높낮이도 10단계로 세분화 되어있다.

● 돌아가신 할머니 목소리도: 아마존이 지난달 24일 미국 라스베이거스에서 열린 '리마스' 컨퍼런스에서 AI 스피커 서비스 알렉사를 통해 고인의 목소리를 재현했다. 아마존은 이 기술을 구체적으로 어떻게 상용화 할지 밝히지는 않았다. 국내에선 2020년 스타트업 네오사피엔스가 MBC 다큐멘터리 '너를 만났다'에서 세상을 떠난 어린 딸의 목소리를 복원시켜 화제가 되기도 했다.

KT가 19일 출시한 'AI 보이스 스튜디오'는 감정을 파악해 음성 제작에 활용하는 기능을 자랑한다. [KT]

KT가 19일 출시한 'AI 보이스 스튜디오'는 감정을 파악해 음성 제작에 활용하는 기능을 자랑한다. [KT]

이게 왜 중요해

‘AI 보이스가 진짜 사람 같을까.’ 이제 더는 중요하지 않은 질문이다. 대부분이 실제 사람 목소리와 분간할 수 없을 정도로 비슷하기 때문. 여러 AI 보이스 서비스가 경쟁하는 가운데 승부처는 투입 대비 효율이다. 얼마나 적은 리소스를 투입해 금방 AI 보이스를 만들 수 있는지, 그리고 얼마나 다양한 목소리를 만들 수 있는지에서 갈린다. 기업들은 저마다 독자적인 기술을 개발해 생산성, 제작 속도, 목소리 가짓수 등으로 경쟁하는 중.

● 400문장으로 목소리 뚝딱: 네이버의 '클로바 더빙'은 생산성을 강조한다. 짧은 녹음 데이터로도 금방 만들 수 있다는 건데, 과거엔 40시간~100시간 분량의 녹음 데이터가 필요했지만, 이제는 40분(400문장) 분량의 음성만 있으면 충분히 자연스러운 목소리를 만들 수 있다고 한다. 클로바는 2020년 2월 '클로바더빙' 서비스를 처음 선보였다.

● 지문처럼 표현하는 AI: 네오사피엔스는 대본 속 지문을 파악해 연기하는 AI 목소리를 개발했다. 배우가 대본에 적힌 감정에 따라 연기하는 것처럼, AI가 감정과 음성을 동시에 학습해 표현한다. '울적한 마음을 감추지 못하고 눈물을 보이며', '황당하지만, 화를 누르는', '씁쓸하게 포기한 듯' 등 지문에 담긴 감정을 AI 보이스에 반영할 수 있다.

그래픽=김영옥 기자 yesok@joongang.co.kr

그래픽=김영옥 기자 yesok@joongang.co.kr

AI 보이스 어디서 많이 쓰나

AI 보이스를 활용한 B2C(기업·소비자 거래) 서비스도 다양해졌다. 어떤 비즈니스 모델이 있는지 살펴보니.
● 유튜브와 함께 크는 시장: AI 목소리가 가장 많이 쓰이는 곳은 동영상. 크리에이터가 직접 출현하지 않는 영상일수록 AI 보이스를 필요로 하기 때문. 네오사피엔스가 운영 중인 '타입캐스트'는 지속해서 내레이션 음성을 만들어야 하는 유튜버를 위해 구독 서비스로 운영된다. 매월 20분 분량의 AI 보이스, 영상을 제작하는 데 8900원(1년 구독 시)을 내면 된다. 네이버 클로바더빙과 KT의 AI 보이스 스튜디오는 각각 1만5000자, 4000자 분량의 AI 목소리를 공짜로 제작할 수 있다.

네이버의 '클로바더빙' 서비스 화면. [네이버]

네이버의 '클로바더빙' 서비스 화면. [네이버]

● 전문 성우 대체하기도: 클로바더빙은 '요즘 육아 금쪽같은 내 새끼' 같은 방송 프로그램에서도 성우 대신 활약 중. 전자책 플랫폼 밀리의서재는 타입캐스트를 통한 오디오북 생산 체제를 구축했다. 전문 성우를 활용해 오디오북을 녹음, 편집하려면 3주씩 걸리지만, AI 보이스를 활용하면 2~3일만에 오디오북 한 권을 제작할 수 있기 때문.

KT vs 네오사피엔스 '최초' 논란

한편 스타트업 네오사피엔스가 KT의 AI 보이스 스튜디오에 대해 서비스 표절 의혹을 제기해 논란이 됐다. 김태수 네오사피엔스 대표는 19일 페이스북에서 "우리가 3년 전부터 서비스하는 타입캐스트와 똑같은 서비스를 KT가 내놓았다"며 KT와 네오사피엔스 두 회사의 서비스 화면·기능의 유사성을 지적했다. 이에 대해 KT는 "서비스 화면의 유사성에 대해선 인정하고 21일 해당 부분을 수정했다"고 밝혔다. 그러나 기술력에 대해서는 "KT는 음성 변조, 감정 합성 기술 관련 특허를 보유하고 있다"며 "사용자의 감정을 살린 음성을 합성하는 기술은 우리가 국내 최초가 맞다"고 주장했다.

네오사피엔스가 개발한 AI보이스 서비스 '타입캐스트' 화면.

네오사피엔스가 개발한 AI보이스 서비스 '타입캐스트' 화면.

배너 클릭 시 구독페이지로 이동합니다. https://www.joongang.co.kr/factpl

배너 클릭 시 구독페이지로 이동합니다. https://www.joongang.co.kr/factpl