컴퓨터의 음성인식

중앙일보

입력

로보트나 장난감의 경우 사람의 목소리를 알아듣고 명령에 따라 그대로 움직이는 것이 있는데 컴퓨터는 어떻게 사람의 목소리를 인식할 수 있고, 그 뜻을 이해할 수 있는가.

<답>
컴퓨터의 음성인식기능은 현재 외국의 경우 제한된 숫자의 단어를 알아들을 수 있는 수준까지 와있다. 그러나 아직 사람의 각기 다른 목소리를 동일하게 인식할수는 없어 미리 목소리를 입력시긴 사람의 말만을 알아듣는 정도에서 실용화되고있다.
즉 말소리로 치는 타자기의 경우 제한된 단어에 동일인이 사용할수 있는 정도까지는 개발이 됐다.
컴퓨터의 음성인식기능은 말하는 기능보다 훨씬 어렵다. 왜냐하면 말하게 하는 것은 특정음의 기본요소를 기억시켰다가 필요할 때 합성하면 되지만 음성인식은 사람마다 음성·음색이 달라 혼동하지 않고 기계가 알아듣게 하는 것이 어렵기 때문이다.
현재 쓰여지고 있는 음성인식시스템은 컴퓨터에 기억된 음성패턴과 말하는 사람의 음성을 대조 확인시키는 방식이다.
이 방식은 입력되는 음성을 고저·0점 교차율·자동상관계수 등 3개 요소로 나누어 분석한다. 음성의 고저는 발음의 길고 짧음, 높고 낮음등으로 나뉜다. 0점 교차율은 음성을 파형으로 인식해 0점선이 몇번 교차하는가를 가려내는 것이다. 이것은 음성이 갖는 특성중의 하나로 식별에 중요한 요소가 된다. 그리고 자동상관계수는 음성신호의 반복성을 분석하는 것이다. 자음은 반복성이 별로 없으나 모음은 이 반복성이 많아 모음인식에 큰 기능을 발휘한다.
이 세가지 요소를 기준패턴화해서 컴퓨터에 기억시킨후 컴퓨터에 말을 하게 되면 새로운 말을 디지틀 신호화한 후 기존의 패턴과 비교해 그 뜻을 인식하게 된다.
우리나라에서는 0∼9까지 숫자음성인식까지는 가능하나 일반용어는 아직 식별이 불가능한 수준으로 연구가 계속되고 있다.