ADVERTISEMENT

인공지능 컴퓨터에 풍부한 감정 주입 호감형 목소리의 ‘아바타’ 만든다

중앙선데이

입력

지면보기

468호 11면

퀴즈쇼 ‘제퍼디’에서 IBM의 인공지능 컴퓨터 왓슨(가운데)이 최강자 켄 제닝스(왼쪽), 브래드 러터와 겨루고 있다. [사진 IBM]

“컴퓨터, 사람처럼 말해야 매력적일까?”


 미국 IBM의 언어학자와 기술진, 홍보담당관들은 2009년 이런 질문에 맞닥뜨렸다. IBM이 인공지능형 컴퓨터 ‘왓슨’을 개발할 때다. 18개월 후 IBM은 실제 사람만큼은 아니지만 1968년 개봉된 영화 ‘2001: 스페이스 오디세이’에 나오는 로봇 HAL 9000보다 더욱 사람 같은 목소리를 만들어내는 데 성공했다.


?소프트웨어 개발자는 현재 컴퓨터에 ‘감정’을 불어넣는 데 몰두하고 있다. 컴퓨터가 상용화되고 하루하루 바쁘게 살던 사람들도 점점 음성 인식에 관심을 갖기 시작해서다.


 컴퓨터나 스마트폰뿐 아니라 각종 기계도 듣고 이해하고 말하기 시작했다. 컴퓨터 음성은 자동차나 장난감, 아마존에서 만든 ‘에코’ 스피커와 같은 가정용 기기까지 생활 전반에서 중요한 역할을 하고 있다.


?과학자들은 ‘대화형 에이전트’이라는 개념을 만들기 위해 노력하고 있다. 이는 기계로 하여금 실제 생활에서 사용되는 언어를 인식하고 인간의 명령에 반응하도록 하는 기술이다. 이것은 과학뿐 아니라 예술의 영역에 속하기도 한다.


일기예보, 도로 안내 그쳐현재 컴퓨터는 일기예보나 자동차 내비게이션에서 사용되는 정도, 즉 짧은 문구를 제외하고는 사람처럼 말하지 못한다.


?대부분의 소프트웨어 개발자는 인간과 비슷해 보이는 로봇을 보면 일종의 불안감과 혐오감이 생긴다는 ‘언캐니밸리 (Uncanny Valley)’ 현상을 알고 있다. 1970년 일본의 로봇 공학자 모리 마사히로에 의해 소개됐다. 그는 “사람들은 자신이 만든 그래픽 이미지가 인간의 실제 모습과 가까워질수록 오히려 거부감을 갖는다”고 설명했다. 이는 음성에도 적용된다.


?샌프란시스코에 있는 토이톡의 선임 연구원 브라이언 랭그너는 “이러한 현상은 (기계와 인간 간의) 생각 차이에 따른 것으로 보인다”며 “사람은 기계가 문제에 대한 답을 맞히면 모든 것을 다 해낼 수 있을 것이란 착각을 하고 있다”고 전했다. 토이톡은 바비인형 등에 디지털 음성을 탑재하고 있다.


?기계가 사람과 비슷한 수준의 언어를 구사하기 위해선 발음도 중요하지만 감정을 불어넣는 게 더 어려운 문제다. 인공지능 기술이 발달했지만 아직도 인간이 가진 풍부한 감성을 대신 전하기에는 부족한 상황이다. 현재는 머신러닝(기계학습)이나 인간의 감정이 섞인 음성 데이터를 통한 초기 연구 결과들이 나오고 있는 상황이다.

마이클 피크니 IBM 수석연구원이 음성 주파수를 설명하고 있다. [사진 콜 윌슨]

여러 방식 음성 DB화 진행음성 데이터는 여러 방식으로 모이고 있다. 가장 좋은 방법은 실제 사람에게 특정 문구를 여러 방식으로 발음하게 하는 것이다. 데이터베이스를 만들려면 한 사람당 최장 수백 시간의 녹음 과정을 거쳐야 한다.


?2013년 개봉된 공상과학영화 ‘그녀(her)’는 로봇 목소리에 감정을 불어넣는 것이 어렵지만 얼마나 중요한 것인지를 보여줬다. 영화 중 외로운 남성 회사원 호아킨 피닉스는 컴퓨터의 인공지능이 만들어낸 사만다와 사랑에 빠진다.


?이 여성의 목소리는 스칼릿 조핸슨이라는 배우가 녹음했다. 하지만 스파이크 존스 감독은 인간과 기계 사이에 로맨틱한 관계가 형성되지 않게 하기 위해 여성의 목소리가 기계처럼 들리도록 했다.


?현대 음성과학 기술의 시초는 카네기멜런대 언어기술연구소 교수인 앨런 블랙의 연구를 바탕으로 하고 있다. 블랙 교수는 “인공지능 음성기술이 많은 발전을 이뤘지만 완벽한 단계는 아니다”며 “우리가 컴퓨터에 명령해도 컴퓨터가 받아들이지 못하는 명령이 ‘감정을 갖고 말해봐’다”라고 말한다.


?사실 장난감 캐릭터처럼 흥미를 위한 음성 프로그램에 이런 차이는 그리 중요하지 않다. 웃음과 재미를 주는 게 목표이기 때문이다. 그러나 인간과의 소통을 바탕으로 하는 상업용 프로그램이라면 이야기는 달라진다. 토이토크 등의 회사 개발진은 만드는 제품이 단순히 사람에게 재미를 주는 게 아니라 장난감과 사람 간 일종의 유대관계를 만들어 내는 데 목적이 있다고 말한다.


컴퓨터 노래에 밥 딜런 불쾌IBM은 최근 TV 광고에 가수 밥 딜런과 자체 개발한 왓슨을 동시에 출연시켰다. 이 광고 영상에서 왓슨이 노래를 시작하자 밥 딜런은 불쾌한 듯 무대를 떠난다. 왓슨이 노래를 시작한 결과 그는 예상대로 음치였다.


 이 광고는 IBM이 추구하는 목표를 정확하게 보여준다. 사람과 똑같은 로봇을 만들려고 하는 게 아니라는 것이다.


 왓슨이 2011년 미국 ABC방송의 퀴즈쇼 ‘제퍼디’에 도전할 당시 IBM 연구진이 가장 어려워한 부분이 답은 간단명료하지만 발음을 잘못하는 것이었다. 이 회사 앤디 에런 연구원은 “(왓슨이 저지르는) 오류 중 발음 실수가 가장 많았다”고 설명했다.


 IBM 연구팀은 오류를 줄이기 위해 정확한 발음을 모은 데이터베이스를 만드는 데 1년 넘는 시간을 투자했다. 흔히 사용되지만 영어가 아닌 ‘브뤼 샴페인(brut Champagne)’이나 ‘카르페 디엠 (carpe diem)’ 등은 틀릴 수밖에 없는 문구다.


 IBM은 왓슨의 목소리를 만들기 위한 성우 25명의 면접을 봤다. IBM은 그들의 마음에 드는 목소리를 찾기 위해 노력했으며 어린 아이와 같은 목소리는 어떨지 확인하기 위해 녹음된 음성의 주파수를 변조해 들어봤다.


 IBM의 마이클 피크니 수석연구원은 “우리가 일종의 인격, 즉 페르소나를 나타내는 목소리를 사용했다면 모두가 꺼렸을 것”이라며 “우리는 지나친 감정이 담긴 목소리를 배제했다”고 말했다.


후보 대신 유권자와 대화연구진은 느리고 안정적이며 거부감이 없는 목소리를 원했다. 결국 그들은 기술진이라기보다 예술가처럼 목소리를 만들어 나갔다. 그들이 만든 목소리는 누가 들어도 컴퓨터 목소리였지만 긍정적이고 기운이 넘쳤다. 피크니 연구원은 “훌륭한 컴퓨터 인터페이스는 하나의 예술품이며, 그렇게 다뤄져야 한다”고 전했다.


 음성기술의 발달은 새롭고 흥미로운 방식으로 생활 전반에 적용될 전망이다. 사람과 대화하는 기계를 만들고 있는 이스라엘의 임퍼슨은 이제 정치 쪽으로도 관심을 보이고 있다. 임퍼슨은 선거 기간 중 정치인이 직접 표를 달라고 호소하는 게 아니라 일종의 ‘아바타’를 운영할 수 있다고 설명한다. 테드 크루즈나 도널드 트럼프의 개인 로봇들이 후보자가 가진 공약이나 이념을 전파할 수 있다는 것이다. 임퍼슨의 공동 창업자 에야 파이펠은 “유권자는 후보와 직접 대화를 나누고 싶어 한다”며 “(로봇의 목소리가 어떻든) 그들은 이해할 것이고, 언캐니밸리와 같은 문제도 전혀 없을 것”이라고 전했다.


번역=김영남 코리아중앙데일리 기자?kim.youngnam@joongang.co.kr

ADVERTISEMENT
ADVERTISEMENT