클로바더빙. 네이버가 지난 10일 출시한 인공지능(AI) 더빙 서비스다. 동영상에 AI로 만든 '가짜 목소리'를 입힐 수 있다. 성인 남녀, 어린이, 기쁨과 슬픔 등 상황에 맞게 골라쓸 수 있는 목소리는 총 21종. 온라인에 올라온 사용후기는 '재밌다', '귀엽다', '생각보다 자연스럽다' 등등. 그런데 음성 AI, 재밌으면 괜찮은 걸까.
왜 만들었어?
-네이버는 음성 AI 시장에 주목하고 있다.
-김재민 네이버 서치앤클로바 보이스(이하 클로바더빙) 책임리더는 "음성은 터치만큼 자연스럽고, '모빌리티'와 '연결(커넥티비티)'이 강화될수록 효용성과 필요성이 모두 높아진다"고 말했다.
-김 책임리더는 "동영상에 음성을 넣고 싶지만 기술에 어둡고 목소리에 자신이 없었던 소상공인과 크리에이터에게 유용할 것"이라고 말한다. 네이버가 꼽는 음성 AI 시장은 뉴스, 광고, 오디오북, 전시 도슨트.
빅 픽쳐
-음성 AI 시장 경쟁은 지금도 치열하다. 아마존·구글·애플은 물론, 삼성·네이버·카카오·SKT·KT 등 국내외 IT 대기업이 뛰어들었다.
-핵심 기술은 크게 세 가지다.
①음성 인식(음성→텍스트): 목소리로 검색하기 → AI 스피커, AI 비서
②음성 합성(텍스트→음성): 입력한 글자 읽어주기 → 클로바더빙, 구글 웨이브넷
③음성 변환(음성A→음성B): 사이버 가수, 외국어 더빙(예: 한국말 하는 톰 크루즈)
-이중 음성 합성은 '가수 아이유가 오늘 일정을 말해준다'고 상상하면 된다. 일정이 적힌 텍스트를 바탕으로 아이유의 발음·속도·호흡을 추정해 아이유가 실제 읽은 것처럼 목소리를 내는 기술이다.
이게 왜 중요해?
-음성 AI가 대중화 단계에 들어섰다는 의미다.
-동시에, 음성 AI가 '딥페이크(오디오·비디오 조작)'에 악용될 가능성도 높아졌다.
-임종인 고려대 정보보호대학원 교수는 "가짜뉴스·딥페이크로 생긴 불신 풍조에 음성 조작까지 더해지면 사이버 공간에서 사람들이 떠나버릴 수 있다"며 "악당은 언제나 앞선 기술을 활용한다. 기업이 꼭 사업을 해야겠다면 부작용에 대해서도 대비해야 한다"고 강조했다.
-반면 같은 대학원 김승주 교수는 "역기능을 우려해 신기술의 발전을 막아선 안 된다. 일반에 데이터를 공개하는 등 집단지성으로 '가짜'를 구별하는 기술을 촉진하는 것이 바람직하다"고 말했다.
-익명을 원한 한 글로벌 AI 기업 임원은 "딥페이크는 겉보기엔 구분이 안 돼도 AI를 통하면 조작됐다는 걸 밝혀낼 수 있다"고 설명했다.
이전에는 없었어?
-2016년 9월 어도비는 20분가량의 음성 데이터로 당사자가 하지 않은 말을 한 것처럼 만드는 음성편집 기술 '어도비 보코'를 선보였다. "목소리도 포토샵 할 수 있다"는 취지.
-2017년 캐나다 스타트업 '라이어버드'는 짧은 음성 데이터로도 특정인의 목소리를 흉내낼 수 있는 AI 베타버전을 선보였다. 오바마와 트럼프의 '가짜 목소리' 샘플이 공개돼 있다. 가짜 티가 약간 난다.
-라이어버드 측은 "장애인 보조 도구, 원하는 사람의 목소리로 듣는 오디오북, 게임 내레이션 등에 쓰일 것"이라고 밝혔다.
-이들은 "사기, 신원 도용 등 악용 가능성을 안다. 하지만 우리가 아닌 누구라도 이런 기술을 개발할 것"이라며 "목소리도 위조된다는 게 널리 알려져야 '가짜 목소리'의 법적 증거능력이 없어진다. 책임감을 갖고 기술(API)을 세상에 전부 공개할 것"이라고 말했다.
(※위는 트럼프·오바마, 아래는 트럼프·오바마·힐러리 클린턴의 '가짜 목소리'다. 음성 파일 확인 ☞https://www.joongang.co.kr/article/23717278)
기업 입장은 뭐야?
-김재민 클로바더빙 책임리더는 "악용 가능성을 고민했다"고 인정했다. 이어서 "영상 원작자를 보호하기 위한 실명 인증, '클로바 더빙을 썼다'는 워터마크 부착, 불법·반사회 콘텐트 생성 금지 약관, 욕설·비속어 포함 시 합성음 생성 방지 등 기술적 제한을 적용하고 있다"고 말했다.
-김훈 카카오엔터프라이즈 음성처리파트장은 "현재 기술로는 '미션 임파서블 3'처럼 음성 몇 마디로 타인의 목소리를 완벽하게 흉내내는 것이 불가능하다. 걱정할 수준은 아니다"라고 했다.
앞으로는 어떻게?
-음성 AI는 생활 곳곳에서 쓰일 것으로 보인다. 다만, 기술 만능주의를 경고하는 목소리도 커지고 있다.
-뉴욕타임즈의 TV 다큐멘터리 '더 위클리'는 지난해 11월 AI 개발자들이 유명 팟캐스터 조 로건의 목소리로 만든 1분 44초짜리 위조 음성 영상을 공개했다.
-1월 20일 블룸버그는 AI가 파괴적으로 쓰일 수 있는 두 분야로 '얼굴 인식'과 '딥페이크'를 꼽았다. 이런 말을 인용했다. "기업은 올바른 기술을 만들 책임이 있다. 구글은 '가짜' 콘텐트를 발견할 수 있도록 데이터를 공개하고 있다. (순다 피차이 알파벳·구글 CEO)"
-순다 피차이는 같은 날 파이낸셜타임즈에 "AI에 규제가 필요하다는 것은 의심할 여지가 없다"는 글을 기고했다.
[팩플] "그래서, 팩트(fact)가 뭐야?"
이 질문에 답할 [팩플]을 시작합니다. 확인된 사실을 핵심만 잘 정리한 기사가 [팩플]입니다. [팩플]팀은 사실에 충실한 '팩트풀(factful)' 기사, '팩트 플러스 알파'가 있는 기사를 씁니다. 빙빙 돌지 않습니다. 궁금해할 내용부터 콕콕 짚습니다. '팩트없는 기사는 이제 그만, 팩트로 플렉스(Flex)해버렸지 뭐야.' [팩플]을 읽고 나면 이런 소리가 절로 나오게끔, 준비하겠습니다.
김정민 기자 kim.jungmin4@joongang.co.kr