인간과 기계, 대화 할 수 있을까…현재, 입력된 용어 같은 목소리로 말해야

중앙일보

입력

지면보기

종합 45면

손가락 하나 까딱하기 싫은 날, 마루에 누워 이렇게 명령해 보자. “야, 텔레비전!

7번 틀어라. 에어컨, 넌 15분간만 찬바람을 내보내고, 커피포트는 물 좀 끓이렴. 전화기야!

중국집에 전화 좀 걸어줄래?” 당신의 명령에 모든 가전제품들이 일사불란하게 임무를 수행한다면 얼마나 편할까. 말귀를 알아 듣는 컴퓨터와 전화기가 속속 상품 진열대에 오르는 요즘 누구라도 한번쯤 이런 욕심을 내봄직하다.

한데 인간은 기계와 대화를 나누며 살아갈 수 있을까. 삼성종합기술원 김상룡 이사의 설명을 듣자. “지금 국내 기술수준으로도 충분히 이같은 통제 시스템을 만들 수 있습니다.

양산 체제를 갖춘다면 비용을 1백만원 미만으로 낮출 수 있지요. ” 그렇다면 이런 꿈이 바로 손안에 있다는 얘기. 하지만 그의 말은 거기서 끝나지 않는다.

“문제는 혼란이지요. 알아듣기는 하는데 조건이 까다로워요. 극도로 조용해야 하고, 목소리 톤도 일정해야 하며, 입력시켜 놓은 용어와 똑같이 말해야 합니다.

그렇지 않으면 가전제품들이 멋대로 켜졌다 꺼졌다 하며 뒤죽박죽 돼버립니다.”

명령을 내리는 찰나, 다른 잡음이 섞이면 못 알아듣고, 처음 기억시킨 목소리나 말투가 아니면 제대로 작동을 안한다.

'켜져라' 라고 기계에 인식을 시켜 놓고 '켜라' 또는 '켜지렴' 하는 식으로 말하면 전혀 반응이 없다.

이를 막기 위해 비슷한 소리에 전부 따르도록 만들면 TV나 라디오에서 나오는 음향에도 갈팡질팡하고 전화통화 내용도 명령으로 인식한다.

그러니 귀머거리 기계들보다 훨씬 골치 아픈 존재가 아닐 수 없다.

몇년전 개발된 음성인식 TV가 도중 하차한 것도 이런 문제 때문이었고. 이 대목에서 기계의 진화에 적잖은 두려움을 느꼈던 사람들은 안도의 한숨을 내쉬어도 좋으리라. 얼마전 '딥 블루' 라는 컴퓨터가 12년 무패 신화의 체스왕 게리 카스파로프를 무릎 꿇리자 많은 사람들은 인류를 제압한 기계의 탄생에 전율했다. 그러나 다행스럽게도 말을 알아듣는데 있어 인간인 당신을 능가하는 장치는 아직 없다.

내가 가르친 단어를 딴 사람이 발음하면 갑자기 먹통. 심지어 내가 감기기운의 목소리를 내도 작동불능이다.

이 문제를 극복한 장치가 있긴 하다.

하지만 이 경우 알아듣는 단어 수가 급감한다.

고작 3천단어 정도다.

이것도 세계 최고수준의 컴퓨터라야 가능한 얘기다.

궁극적인 문제는 대화형 언어의 인식여부다.

우리는 문장을 인식할 수 있고 앞뒤 문맥을 살피며 의미를 파악한다.

그러나 현재 시중에 나온 음성인식 제품의 경우 대부분 한 단어 (고립어) 를 기억시킨 뒤 그 명령에 따르도록 설계된 것이다.

최근 붐이 일고 있는 음성인식 전화기가 전형적인 예. LG정보통신과 삼성전자의 휴대폰은 '우리집' '회사' 등 고립어 20~30개를 입력시켜 놓고 필요할 때 이를 말하면 전화가 걸리는 방식이다.

세계 기술은 연속어 (문법에 맞는 글을 일정한 톤과 속도로 읽는 것) 를 인식하는 수준까지 도달했다.

그렇다 해도 사람들의 대화를 알아 듣는 건 요원한 얘기다.

가령 “속이 좀 허해서, 일단 민생고부터, 약간 이르긴 하지만…어때?” 하고 제안하면 우리야 어렵지 않게 알아듣지만 컴퓨터는 도저히 이해할 수가 없다.

거기에 옆사람의 재채기가 끼어들고 뻐꾸기시계가 울면 기계는 두손을 들고 만다.

그러니 작동이 간단하고, 잘못 작동돼도 큰 낭패가 아닌 제품에 국한해서만 입으로 명령이 가능한 현실이다.

기술이 무서운 속도로 진보하는 시대지만 대화형 언어를 알아듣는 건 빨라야 2007년, 제품화는 그보다 한참 뒤라야 가능하다는 게 전문가들의 진단이다.

그 10년은 얼마나 긴가, 혹은 짧은가.

강주안 기자

ADVERTISEMENT
ADVERTISEMENT