"말 알아듣는 컴퓨터" 멀지 않다|미·일의 개발현황과 전망

중앙일보

입력

컴퓨터에 지능을 부여하는 것은 과연 가능할까. 최근 미국과 일본은 과·민 합동으로 인공지능을 갖는 슈퍼컴퓨터개발계획을 세워놓고 치열한 경쟁을 벌이고있어 생각하는 컴퓨터의 출현도 전혀 불가능한 일만은 아닌 것 같다.
이같은 계획의 일환으로 과학자들은 우선 말을 알아듣고 스스로 말할 수 있는 컴퓨터개발에 박차를 가하고있다.
사람처럼 말하는 컴퓨터를 만드는 기술은 이미 실용화되고 있으며, 초보적인 단계지만 말을 알아듣는 컴퓨터도 등장하고 있다. 과연 복잡한 구두지시를 컴퓨터가 이해하고 명령을 처리할 수 있을지 컴퓨터의 음성인식개발현장을 알아본다.
컴퓨터가 말을 인식하도록 기능을 부여하는 것은 말을 하게 하는 것보다 훨씬 어려운 기술을 요한다. 음성합성은 특정음의 기본요소를 기억시켰다가 필요할 때 합성해내면 되지만 음성인식은 사람마다 음성·음색이 달라 의미를 혼동하지 않고 이해시키기가 어렵다. 컴퓨터는 아직 사람의 음성과 종이 구겨지는 소리를 구분하지 못하며 동일한 말이라도 서로 다른 사람이 할 경우에는 그것이 같다는 사실을 인식하기 어려워 자주 실수를 저지른다.
이밖에도 음성인식의 어려움은 엄청난 컴퓨터용량을 필요로 하는 점에도 있다.
수년 전 실시된 IBM의 한 실험에 따르면 1초간의 말을 인식하는데 IBM의 가장 큰 컴퓨터로 1시간이나 걸렸다고 한다.
현재 활용되고 있는 음성인식시스팀은 컴퓨터에 기억된 음성패턴에 화자의 말을 대조, 확인시키는 방식이다.
우선 화자마다 다른 진폭과 진동수를 지닌 음성파가 마이크를 통해 컴퓨터에 전달되면 컴퓨터는 순간순간 변형되는 파동을 강도에 따라 0과 1의 컴퓨터 언어인 디지틀로 바꿔준다. 보통 이 과정은 매회 8비트 단위로 매초 8천회의 빈도로 행해진다.
이렇게 디지틀화된 음파는 다시 통계분류법에 의해 각 파장에 얼마나 많은 에너지를 가진 것 인가로 구분되며, 구분된 신호는 컴퓨터에 미리 기억시켜준 단어의 음성패턴과 대조됨으로써 무슨 의미인지 결정된다.
따라서 음성인식은 전달되는 음성이 길수록 어렵게 되며 문장중에 연음현상 등 변칙적인 발음이 섞이면 더욱 곤란해진다.
이같은 음성인식의 제약을 극복하기위한 방법으로는 각 단어가 지닌 콧소리·센소리 등의 독특한 음운현상을 이용하거나 문법상 어떤 단어에 이어질 수 있는 단어들을 미리 규정해줌으로써 컴퓨터가 좀더 해석하기 쉽도록 하는 연구가 시도되고있다.
실제로 IBM의 경우는 단어 사이를 명확히 떼어줌으로써 5천단어내에서 말로 타자를 칠 수 있는 장치를 개발중이다.
MIT가 개발중인 장치는 특정화자가 일정한도내에서 떼어서 발음하는 말을 완전히 이해하며, 서로 다른 사람의 음성은 1만∼2만 단어 내에서 인식이 가능하다. 또 지금 개발중인 것은 제한된 단어나마 여러사람이 대화하듯 계속해서 말하는것을 알아듣게 하는 장치다.
음성인식·대화컴퓨터는 궁극적으로 두 사람이 대화하듯 되어야만 한다. 그렇다고 실용화가 아주 안된것은 아니다.
현재도 초보적인 단계이나마 음성인식컴퓨터가 여러곳에서 사용되고 있다. 미록히드사의 미사일공장과 제너럴일렉트릭사의 공장에서는 검사원들이 제품의 결점을 구두로 컴퓨터에 입력, 종이로 보고서를 만들 때보다 30%의 업무능력을 향상시켰다.
또 유나이티드 에어라인사의 시카고 오헤어 공항에 있는 화물취급자들은 화물의 행선지를 분류하는데 음성인식컴퓨터를 사용하고 있다.
또 밀튼 브래들리사는 텍사스 인스트루먼트사의 가정용 컴퓨터에 부착할 음성인식장치와 아타리사의 비디오게임기에 구두로 게임을 불러낼 수 있게 하는 장치를 개발중이다.
이와 함께 인텔사와 제너럴인스트루먼트사 등은 음성인식시스팀의 가격을 줄이기 위해 특정의 음성인식용 반도체 칩을 개발중이다.
컴퓨터과학자들은 이같은 일련의 적극적인 노력으로 멀지 않은 장래에 획기적인 개선책이 마련될 것으로 기대하고 있다. <선지에서>