오바마 보다 더 진짜 같네...'립싱크 AI' 나왔다

중앙일보

입력 2017.07.17 21:43

SNS로 공유하기: 페이스북; 트위터

'오바마 AI'가 합성한 표정. [사진=워싱턴 대학교]

버락 오바마 전 미국 대통령은 뛰어난 연설가다. 그는 퇴임을 앞둔 지난해 미국의 IT 전문지 '와이어드' 11월 특집호에 객원 편집자로 참여해 AI의 미래 등에 대해 피력했다. 그는 당시 "나는 국가안보팀에 아직은 기계가 세상을 지배할 걱정을 하지 말고, 비국가 세력이나 적대적인 세력이 시스템에 침투할 능력을 걱정하라고 지시할 것 같다"고 밝힌 바 있다. 또 AI에 대해 "지금 우리가 하는 사이버 보안 작업과는 개념이 다르지 않다"면서 "AI를 사용하는 사람들의 삶이 나아질 것"이라고 전망했다.

하지만 흥미롭게도 오바마가 AI로 인해 가장 먼저 영향을 받을 것 같다. BBC뉴스의 17일(현지시간) 보도에 따르면 워싱턴대학교 컴퓨터 공학부 폴 알렌 센터 연구팀이 오바마의 목소리에 맞춰 립싱크로 말하는 '오바마 AI'를 만들었기 때문이다. 이들은 오바마의 고화질 영상을 합성해 목소리에 맞게 표정을 짓게 만들었다. 오바마의 연설 자료를 갖고 AI가 신경망 학습을 통해 음성에 입모양을 합성하는 방법을 익히는 식이었다. 연구팀은 자연스러운 입술 및 입 주변 근육의 움직임에 적당한 3D 포즈를 매칭해 제법 리얼한 오바마 연설 비디오를 만들어냈다.

워싱턴대학교 연구팀, 삼성 등 투자 받아 연구
영상 신경망 학습으로 오바마 표정 완벽 재현

영상의 왼쪽이 진짜 오바마, 오른쪽은 가짜다

▶영상 링크: https://youtu.be/UCwbJxW-ZRg

연구팀이 오바마를 선택한 이유는 공개된 비디오의 분량이 머신 러닝을 하기에 충분했기 때문이다. 케멜마셔 쉴저만 부교수는 "향후에 스카이프나 메신저로 채팅 같은 도구를 통해 누구나 컴퓨터 모델을 훈련시킬 수 있는 비디오를 수집할 수 있을 것'이라고 말했다. 공동 연구자인 스티브 사이츠 교수는 "화상 채팅을 할 땐 종종 연결이 끊기기도 하고 해상도가 낮아 불쾌함을 느끼는 반면, 오디오는 무난히 전달되는 편"이라면서 "오디오를 활용해 훨씬 더 높은 품질의 비디오를 제작할 수 있다면 멋질 것"이라고 말했다.

'오바마 AI'의 립싱크 영상 합성 과정. [사진=워싱턴 대학교]

연구팀은 '언캐니 밸리'를 넘어서기 위해 심혈을 기울였다고 한다. 언캐니 밸리란 일본의 로봇 연구자인 모리 마사히로가 1970에 발표한이론이다. 로봇의 생김새나 행동이 사람에 근접할수록 호감을 느끼는 경향이 있지만, 그것이 어느 한도를 넘어서 70~80%선에 들어서면 친밀도가 뚝 떨어지고 불쾌감을 느끼게 된다는 것이다.

연구팀은 사람들은 입 부분에 특히 민감해 치아를 제대로 만들지 앟거나, 턱이 잘못 움직일 경우엔 즉시 발견하고 가짜로 여긴다고 꼬집었다. 이들이 입 부분을 완벽하게 렌더링한 이유다. 직접 비디오를 합성하는 대신, 신경망 훈련을 통해 14시간 분량의 비디오를 보고 다양한 오디오 사운드를 기본 입 모양으로 변환하는 식으로 시간을 절약했다. 1시간 분량의 비디오만 갖고도 목소리와 말하기 패턴을 인식할 수 있는 알고리즘을 개발하는 것이 연구팀의 다음 목표다. 이 연구는 삼성·구글·페이스북·인텔과 워싱턴대학교 애니메이션 연구소의 자금 지원을 받아 이뤄졌다.

관련기사

이경희 기자 dungle@joongang.co.kr

The JoongAng

오바마 보다 더 진짜 같네...'립싱크 AI' 나왔다

#오바마

#버락 오바마

#AI

#인공지능

#머신러닝

#신경망 학습

#삼성

#구글

#인텔