[J Report] 스마트폰 음성명령 비교해 보니

중앙일보

입력

업데이트

지면보기

경제 04면

9일 판매를 시작한 삼성전자 갤럭시S3 롱텀에볼루션(LTE)에는 ‘S보이스’가 탑재됐다. S보이스는 말로 하는 명령을 알아듣고 수행하는 기능으로, 애플 아이폰4S에 들어간 ‘시리(Siri)’의 대항마다. LG전자 역시 지난달 같은 기능인 ‘퀵보이스’를 소프트웨어 업그레이드를 통해 배포했다. 이보다 앞선 5월엔 팬택이 신제품 베가레이서2를 공개하며 ‘스마트보이스’를 내놓았다. 애플 역시 7월 중 시리를 한국어로도 서비스할 계획이다. 각 제조사들이 경쟁적으로 내놓은 음성 명령 수행 기능은 실제로 얼마나 잘 작동할까. 하루 종일 비가 내린 7일 금요일, 4개 스마트폰에 탑재된 음성 명령 기능을 직접 써보고 비교했다. 삼성과 팬택은 똑같이 미국 회사 ‘블링고’의 소프트웨어를 사용해 기능에 큰 차이가 없었다. 

 “오늘 우산 필요해?”

 뉴아이패드에 내려받은 한국어 버전의 시리는 날씨 정보를 불러오지 못했다. 아직 시험용이라 그런지 “웹 검색해 주겠다”는 대답만 반복했다. 그래서 영어로 물어봤다. “당신의 위치를 파악 중입니다”라고 영어로 답하더니 서울의 날씨를 띄워 보여주며 “네, 필요하겠네요” 하고 대답했다. S보이스는 “오늘 비와 천둥 번개. 현재 기온은 23도입니다”라며 서울의 날씨를 대화창에 바로 띄워줬다. 스마트보이스 역시 서울의 날씨를 검색해 바로 보여줬다. 퀵보이스는 조금 달랐다. “서울의 날씨를 검색합니다”라고 말한 뒤 대화 창을 빠져나가 네이버 날씨 검색 결과를 표시해 줬다.

 언뜻 보면 모두 비슷한 결과를 내놓은 것 같지만 사실 아니다. 네 개의 스마트폰 모두 우산이 날씨와 관련된 단어임을 알고 날씨 정보를 보여주는 데까지는 같았다. 하지만 시리만이 ‘네’라는 대답을 했다. 우산과 날씨의 상관관계를 넘어 비가 오면 우산이 필요하다는 걸 알고 있다는 뜻이다. 실제로 4개의 기능을 직접 사용해 보니 뭔가를 지시했을 때 수행하지 못하는 경우는 거의 없었다. 하지만 명령을 수행한 결과엔 차이가 조금 있었다. 근처 맛집을 찾아달라는 요구엔 모두 같은 결과를 내놓지만, 근처 로맨틱한 이탈리아 식당을 찾아달라고 했을 때 시리만이 ‘이탈리아 식당’ 중 ‘로맨틱하다’는 방문객의 평가가 있는 곳을 찾아주는 식이다.

 왜 이런 차이가 생기는 걸까. 시리가 더 나이가 많기 때문이다. 음성명령 수행 기능은 세 단계로 이뤄져 있다. 사람의 음성을 문장으로 바꿔 인식한 뒤 그 말의 뜻을 추론하고, 검색 등을 통해 적절한 답을 준다. 모든 단계는 각 회사의 자체 서버에서 일어나는데, 이 서버에는 음성과 문장에 대한 데이터가 축적된다. 사용 기간이 길수록, 많은 사람이 사용할수록 축적된 데이터가 많아지면서 더 정확한 답변을 내놓을 수 있는 것이다.

 이번엔 좀 더 복잡하게 물어봤다. “오늘 우산 필요해?”라고 질문한 뒤 “그 다음날은?” 하고 영어로 재차 물었다. 시리는 “토요일도 날씨가 좋을 것 같진 않다”고 대답하며 날씨를 띄워줬다. 연이어 “부산은?” 하고 물어봤다. 시리는 “내일 부산에 비가 올 것 같아요”라며 날씨를 보여줬다. 두 번째 질문 땐 서울과 날씨란 말을 하지 않았고, 세 번째 질문엔 날씨와 날짜를 말하지 않았지만 대답을 내놓았다. 시리는 그 전 대화를 기억하고 있다는 뜻이다. 특정 정보를 생략해도 시리는 이어지는 질문이라는 것을 이해하는 셈이다.

 다른 스마트폰으로도 해봤다. 첫 질문에 S보이스는 서울의 날씨를 보여줬고, 두 번째 질문에 주간 날씨를 보여줬다. 하지만 “부산은”이란 질문에는 “죄송합니다. 이해하지 못했습니다”라고 말했다. “부산 날씨”라고 하자 그제야 부산의 날씨를 검색했다. 스마트보이스 역시 마찬가지였다. 퀵보이스는 첫 질문의 대답을 검색 결과로 보여주기 때문에 대화창으로 되돌아가면 늘 첫 질문을 던지는 셈이 됐다. 그래서 두 번째, 세 번째 질문을 던져 대화를 이어갈 수 없었다.

 “달에 처음 간 사람이 누구냐” 같은 지식 관련 질문에도 시리는 “1969년 7월 21일 인류 최초로 닐 암스트롱이 달에 갔다”며 정확한 대답을 내놓았다. 검색 데이터베이스(DB) ‘울프람알파’에서 찾아낸 암스트롱의 약력과 사진을 보여주기도 했다. 하지만 국내 스마트폰은 질문을 정확하게 인식하지 못하거나 인식했더라도 “이해하기 어렵다. 웹 검색을 하겠느냐”고 물었다. 웹 검색을 실행시키면 달·처음·사람 같은 단어가 들어간 결과를 보여줬다.

 시리가 이렇게 대화의 맥락을 이해하는 것처럼 보이는 데는 이유가 있다. 시리는 미국 국방부 방위고등연구계획국 지원으로 2003년부터 6년간 진행된 인공지능 연구 프로젝트(CALO)에서 시작됐다. SRI인터내셔널은 프로젝트 중 음성 개인비서 연구부문만 분리시켜 2007년 시리란 벤처기업을 차렸다. 시리는 ‘언어 해석 및 인지 인터페이스(Speech Inerpretation and Recognition Interface)’의 약자다. 애플 측이 “시리는 음성 인식 기능이 아니라 가상 비서 기능”이라고 하는 것도 이 같은 이유에서다.

 시리가 세상에 처음 모습을 드러낸 건 2010년 4월. 아이폰용 애플리케이션(앱)을 개발해 앱스토어에 등록한 것이다. 이걸 본 애플의 창업자 스티브 잡스는 2억 달러(약 2300억원)에 시리를 사들였다. “안드로이드용과 블랙베리용 앱을 순차적으로 내놓겠다”던 시리 측의 애초 계획도 자연스레 무산됐다.

 사실 음성 명령 기능의 원조는 검색으로 세계를 제패한 구글이라고 할 수 있다. 구글은 2008년 영어 음성 검색 서비스를 시작했고, 2010년엔 한국어 서비스도 선보였다. 자체 서버를 운영하는 구글 역시 음성 데이터가 많이 쌓이면서 인식률이 높아졌다. LG전자가 퀵보이스를 개발하면서 구글이 공개한 음성 인식 관련 기술을 가져다 쓴 것도 이 때문이다. 하지만 시리처럼 감성적인 부분까지 고려해 답을 찾는 기능은 없다. 사용자의 명령을 정확히 수행하는 쪽에 초점을 맞췄기 때문이다.

 국내 포털업체들도 음성 검색에 관심을 기울이고 있다. NHN과 다음커뮤니케이션은 2010년부터 음성 검색 서비스를 하고 있다. 네이버를 운영하는 NHN은 6명으로 구성된 음성인식팀을 두고 자체 프로그램을 개발했고, 다음은 한국전자통신연구원(ETRI)과 관련 기술을 공동 개발했다. NHN의 경우 지난해 11월 소셜네트워크서비스(SNS)인 미투데이에도 말로 글을 올릴 수 있는 기능을 탑재했다.

▶ 관련기사

"한국어에 딱 맞는 음성 프로그램은 국내업체만…"

ADVERTISEMENT
ADVERTISEMENT