휴대폰에 “일본 지진” 말하면 뉴스·동영상 줄줄이 떠

중앙선데이

입력

달리는 기차 위에서 격투를 벌이던 안성기씨가 휴대전화기에 대고 “본부, 본부”를 외치던 장면을 기억하는 사람이 적지 않다. 음성인식으로 전화를 걸어 주는 기능을 강조한 1997년 휴대전화 광고였다. 경쟁 업체에서는 김혜수씨가 운전을 하다 “우리~집”이라고 속삭이던 광고를 내보냈다. 일일이 번호를 누르지 않고도 전화를 거는 기능은 대단한 관심을 끌었다. 하지만 몇 년 지나지 않아 열기가 사그라졌다. 키패드로 입력하는 것이 훨씬 정확하고 빨랐기 때문이다. 그로부터 10여 년이 지났다. 음성인식이 다시 정보통신기술(ICT) 분야의 격전지로 떠오르고 있다. 전자기기의 입력 방식이 키보드와 마우스에서 터치스크린과 음성인식으로 바뀌고 있기 때문이다.

모바일기기 음성인식 전쟁

“조막만 한 화면 더듬지 말고 말로 하세요”
길을 걷던 A씨는 얼핏 “일본에 큰 지진이 났다”는 말을 들었다. 스마트폰을 꺼낸 그는 ‘구글 검색’을 실행했다. 입력창 옆의 마이크 버튼을 누르고 “일본 지진 피해 상황”이라고 말했다. 스마트폰은 자동으로 인터넷을 검색해 관련 사이트 목록을 보여 준다. A씨는 뉴스 사이트에서 일본에서 규모 8.8의 강진이 발생해 피해가 심각하다는 속보를 볼 수 있었다. 유튜브에 접속하자 지진으로 인한 쓰나미가 일본 동부 해안지방을 휩쓰는 동영상이 바로 올라왔다. 이처럼 음성 검색은 10년 전 전화를 대신 걸어 주는 수준에서 눈부시게 발전했다.

2008년 음성검색 기능을 처음 내놓은 구글은 e-메일과 문자도 음성으로 전달하는 기술도 선보였다. 운전 중에도 자판을 두들길 필요 없이 “길이 막혀 30분쯤 늦을 것 같네요”라고 말하면 된다. 스마트폰이 이를 문자로 바꿔 상대방에게 전달해 준다. 구글코리아는 이런 기능을 포함한 ‘말로 쓰는 구글 모바일 서비스’를 지난해 내놨다. 한국어 서비스는 전 세계에서 영어에 이어 두 번째다. 구글의 모바일용 운영체제(OS)인 안드로이드의 최신 버전인 진저브레드(2.3)를 탑재한 ‘넥서스S’는 물론 프로요(2.2) 기반의 갤럭시S(삼성전자)·옵티머스2X(LG전자)·디자이어(HTC) 등에서도 이런 기능을 쓸 수 있다.

구글은 번역 분야에도 힘을 쏟고 있다. 에릭 슈밋 구글 회장은 스위스에서 열린 41차 다보스포럼에서 영어와 스페인어를 실시간으로 번역해 주는 음성인식 자동통역기를 세계에서 처음으로 공개했다. 그는 “한국어를 포함한 15개 국어 자동통역기를 조만간 출시한다”며 “지금부터 인류사에 진정한 혁명이 일어날 것”이라고 말했다. 이 회사는 이미 15개 언어를 음성으로 입력받아 50개 언어로 번역해 주는 스마트폰용 앱(응용 프로그램)을 내놓았다.

지난해 초 46만 명이던 국내 스마트폰 사용자는 최근 800만 명을 넘어섰다. 정보통신 전문 시장조사업체인 로아컨설팅은 올해 1650만 명이 더 늘어날 것으로 전망했다. 연말이면 국내 휴대전화 사용자의 절반은 스마트폰을 쓰게 된다는 의미다. 그만큼 음성인식을 활용할 기반이 넓어진 셈이다. 시장조사업체인 데이터모니터는 지난해 30억 달러 규모였던 세계 음성인식 시장 규모가 내후년에는 53억8400만 달러까지 성장할 것으로 전망했다.

음성인식의 미래는 더 밝다. 스마트폰에서 벗어나 다양한 기기로 확산되고 있다. MS는 “말하면 된다(Say it, get it)”라는 모토를 앞세운 ‘텔미’ 서비스를 시작했다. MS는 “왜 모바일기기의 작은 키보드를 더듬거리느라 고생해야 하느냐”고 반문한다. 게임을 하기 위해 리모컨을 들고 더듬거릴 필요도 없다. 그냥 “엑스박스, 플레이”라고 말하라는 게 MS의 제안이다.

자동차 분야에도 음성인식의 도입이 활발하다. 이미 기아자동차는 지난해 1월 MS의 차량용 OS인 ‘유보(UVO)’를 탑재한 시험 차량을 내놓았다. 유보는 ‘유어보이스(your voice)’의 약자로 음성으로 오디오·미디어기기를 조작할 수 있다. 자동차업계는 한 걸음 더 나아가 스마트카에도 도전하고 있다. 미디어기기 제어뿐 아니라 운행 상황과 자동차 상태까지 한눈에 파악하고 시동을 걸어 목적지까지 길 안내도 받을 수 있게 된다. 90년대 인기를 끌었던 ‘전격Z작전’에서 주인공 마이클이 “키트, 가자”하고 자동차에 말을 건넸던 것이 현실이 될 날이 멀지 않았다는 의미다.

다국적기업 vs 토종업체 대결
음성인식은 50년대 처음 개발된 오랜 기술이다. 휴대전화에 음성다이얼 기능이 탑재된 것도 10년이 넘었다. 그런데 왜 이제야 실생활에 접목되는 것일까. 컴퓨터 기술의 눈부신 발전과 거미줄처럼 깔린 무선통신망이 받쳐 주기 때문이다. 조원규 구글코리아 R&D센터 사장은 “음성인식 자체는 오래된 기술이지만 사람마다 발음과 사용하는 단어가 다르기 때문에 컴퓨터가 이를 정확하게 인식하려면 높은 성능이 필요하다”고 말했다.

현재 구글 시스템은 100만 개 정도의 단어를 인식하는데 기존의 모바일기기로는 이를 실시간으로 처리하기 어려웠다는 것이다. 그는 “구글의 음성인식 방식은 사용자가 말한 내용을 무선통신으로 서버에 전송해 처리한 뒤 결과를 다시 단말기로 보내 주는 방식”이라고 말했다. 이 시스템에는 학습 기능이 있어 음성인식 기능을 많이 쓸수록 억양·단어조합 등의 새로운 정보가 서버에 쌓여 더 정확한 결과를 얻을 수 있다는 것이 조 사장의 설명이다.

모바일에서 구글의 약진이 두드러지지만 경쟁사들이 손을 놓고 있는 것은 아니다. 사실 음성인식 솔루션으로 가장 돈을 잘 버는 업체는 미국의 뉘앙스다. 70여 개국에 음성인식 기술을 판매하는 다국적기업으로 지난해 12억 달러(약 1조3000억원)의 매출을 올린 것으로 추정된다. 구글이 음성인식 기능을 무료로 제공하는 대신 광고수익을 얻는 것과는 달리 뉘앙스는 기술 자체를 판매하는 것이다. 삼성전자·LG전자 등 국내 주요 정보기술(IT) 제조업체들도 뉘앙스에 음성인식 기술을 의존하고 있다. 삼성전자는 음성으로 TV를 조작할 수 있는 스마트셋톱을 발표한 데 이어 자체 개발한 스마트폰 OS인 바다에도 음성검색 기능을 탑재했다.

국내 업체들도 자체적으로 음성인식 기술을 개발하고 있다. 다음은 한국전자통신연구원(ETRI)의 기술을 바탕으로 지난해 6월 음성검색 서비스를 시작했다. ETRI의 이윤근 음성처리연구팀장은 “음성인식 기술 자체는 세계 최고 수준”이라며 “실제 사용 결과를 분석해 데이터베이스로 만드는 작업이 진척되면 속도와 정확도가 크게 개선될 것”이라고 자신했다. 다음과 구글보다 출발이 한 걸음 늦었던 네이버는 올해 초 세계 최고 수준의 한글 음성인식 기술을 자체 개발하며 반격에 나섰다. 네이버를 운영하는 NHN의 음성인식기술 연구팀장인 이상호 박사는 “지난해 20대에서 50대까지 국민 1000명을 모집해 100만 개 가까운 음성 데이터베이스를 만든 덕에 정확도가 높아졌다”고 말했다. 네이버는 앞으로 네이버 지도에서 길을 찾는 것은 물론 소셜네트워크서비스(SNS)인 미투데이나 메신저인 네이버톡에서도 음성으로 글을 쓸 수 있게 할 예정이다.