[팩플]아이유 목소리 내게 말건다는데···'악당' 걱정은 커졌다

중앙일보

입력

업데이트

프랑스 유튜브 채널 '프렌치 페이커'의 딥페이크 영상에서 가짜 목소리를 내는 도널드 트럼프 대통령 [사진 '프렌치 페이커' 캡처]

클로바더빙. 네이버가 지난 10일 출시한 인공지능(AI) 더빙 서비스다. 동영상에 AI로 만든 '가짜 목소리'를 입힐 수 있다. 성인 남녀, 어린이, 기쁨과 슬픔 등 상황에 맞게 골라쓸 수 있는 목소리는 총 21종. 온라인에 올라온 사용후기는 '재밌다', '귀엽다', '생각보다 자연스럽다' 등등. 그런데 음성 AI, 재밌으면 괜찮은 걸까.

왜 만들었어?

-네이버는 음성 AI 시장에 주목하고 있다.
-김재민 네이버 서치앤클로바 보이스(이하 클로바더빙) 책임리더는 "음성은 터치만큼 자연스럽고, '모빌리티'와 '연결(커넥티비티)'이 강화될수록 효용성과 필요성이 모두 높아진다"고 말했다.
-김 책임리더는 "동영상에 음성을 넣고 싶지만 기술에 어둡고 목소리에 자신이 없었던 소상공인과 크리에이터에게 유용할 것"이라고 말한다. 네이버가 꼽는 음성 AI 시장은 뉴스, 광고, 오디오북, 전시 도슨트.

빅 픽쳐

-음성 AI 시장 경쟁은 지금도 치열하다. 아마존·구글·애플은 물론, 삼성·네이버·카카오·SKT·KT 등 국내외 IT 대기업이 뛰어들었다.
-핵심 기술은 크게 세 가지다.
①음성 인식(음성→텍스트): 목소리로 검색하기 → AI 스피커, AI 비서
②음성 합성(텍스트→음성): 입력한 글자 읽어주기 → 클로바더빙, 구글 웨이브넷
③음성 변환(음성A→음성B): 사이버 가수, 외국어 더빙(예: 한국말 하는 톰 크루즈)
-이중 음성 합성은 '가수 아이유가 오늘 일정을 말해준다'고 상상하면 된다. 일정이 적힌 텍스트를 바탕으로 아이유의 발음·속도·호흡을 추정해 아이유가 실제 읽은 것처럼 목소리를 내는 기술이다.

네이버가 지난 10일 출시한 '클로바더빙' 사용법. 5분 이내의 동영상에 원하는 목소리와 효과음을 넣을 수 있다. [사진 '클로바더빙을 소개합니다' 영상 캡처]

이게 왜 중요해?

-음성 AI가 대중화 단계에 들어섰다는 의미다.
-동시에, 음성 AI가 '딥페이크(오디오·비디오 조작)'에 악용될 가능성도 높아졌다.
-임종인 고려대 정보보호대학원 교수는 "가짜뉴스·딥페이크로 생긴 불신 풍조에 음성 조작까지 더해지면 사이버 공간에서 사람들이 떠나버릴 수 있다"며 "악당은 언제나 앞선 기술을 활용한다. 기업이 꼭 사업을 해야겠다면 부작용에 대해서도 대비해야 한다"고 강조했다.
-반면 같은 대학원 김승주 교수는 "역기능을 우려해 신기술의 발전을 막아선 안 된다. 일반에 데이터를 공개하는 등 집단지성으로 '가짜'를 구별하는 기술을 촉진하는 것이 바람직하다"고 말했다.
-익명을 원한 한 글로벌 AI 기업 임원은 "딥페이크는 겉보기엔 구분이 안 돼도 AI를 통하면 조작됐다는 걸 밝혀낼 수 있다"고 설명했다.

이전에는 없었어?

-2016년 9월 어도비는 20분가량의 음성 데이터로 당사자가 하지 않은 말을 한 것처럼 만드는 음성편집 기술 '어도비 보코'를 선보였다. "목소리도 포토샵 할 수 있다"는 취지.
-2017년 캐나다 스타트업 '라이어버드'는 짧은 음성 데이터로도 특정인의 목소리를 흉내낼 수 있는 AI 베타버전을 선보였다. 오바마와 트럼프의 '가짜 목소리' 샘플이 공개돼 있다. 가짜 티가 약간 난다.
-라이어버드 측은 "장애인 보조 도구, 원하는 사람의 목소리로 듣는 오디오북, 게임 내레이션 등에 쓰일 것"이라고 밝혔다.
-이들은 "사기, 신원 도용 등 악용 가능성을 안다. 하지만 우리가 아닌 누구라도 이런 기술을 개발할 것"이라며 "목소리도 위조된다는 게 널리 알려져야 '가짜 목소리'의 법적 증거능력이 없어진다. 책임감을 갖고 기술(API)을 세상에 전부 공개할 것"이라고 말했다.

(※위는 트럼프·오바마, 아래는 트럼프·오바마·힐러리 클린턴의 '가짜 목소리'다. 음성 파일 확인 ☞https://www.joongang.co.kr/article/23717278)

기업 입장은 뭐야?

-김재민 클로바더빙 책임리더는 "악용 가능성을 고민했다"고 인정했다. 이어서 "영상 원작자를 보호하기 위한 실명 인증, '클로바 더빙을 썼다'는 워터마크 부착, 불법·반사회 콘텐트 생성 금지 약관, 욕설·비속어 포함 시 합성음 생성 방지 등 기술적 제한을 적용하고 있다"고 말했다.
-김훈 카카오엔터프라이즈 음성처리파트장은 "현재 기술로는 '미션 임파서블 3'처럼 음성 몇 마디로 타인의 목소리를 완벽하게 흉내내는 것이 불가능하다. 걱정할 수준은 아니다"라고 했다.

앞으로는 어떻게?

-음성 AI는 생활 곳곳에서 쓰일 것으로 보인다. 다만, 기술 만능주의를 경고하는 목소리도 커지고 있다.
-뉴욕타임즈의 TV 다큐멘터리 '더 위클리'는 지난해 11월 AI 개발자들이 유명 팟캐스터 조 로건의 목소리로 만든 1분 44초짜리 위조 음성 영상을 공개했다.
-1월 20일 블룸버그는 AI가 파괴적으로 쓰일 수 있는 두 분야로 '얼굴 인식'과 '딥페이크'를 꼽았다. 이런 말을 인용했다. "기업은 올바른 기술을 만들 책임이 있다. 구글은 '가짜' 콘텐트를 발견할 수 있도록 데이터를 공개하고 있다. (순다 피차이 알파벳·구글 CEO)"
-순다 피차이는 같은 날 파이낸셜타임즈에 "AI에 규제가 필요하다는 것은 의심할 여지가 없다"는 글을 기고했다.

팩트로 FLEX, 팩플

[팩플] "그래서, 팩트(fact)가 뭐야?"

이 질문에 답할 [팩플]을 시작합니다. 확인된 사실을 핵심만 잘 정리한 기사가 [팩플]입니다. [팩플]팀은 사실에 충실한 '팩트풀(factful)' 기사, '팩트 플러스 알파'가 있는 기사를 씁니다. 빙빙 돌지 않습니다. 궁금해할 내용부터 콕콕 짚습니다. '팩트없는 기사는 이제 그만, 팩트로 플렉스(Flex)해버렸지 뭐야.' [팩플]을 읽고 나면 이런 소리가 절로 나오게끔, 준비하겠습니다.

김정민 기자 kim.jungmin4@joongang.co.kr