초기엔 어순만 바꿔줘 부정확...요즘은 표현 축적해 완성도 높여

중앙선데이

입력

지면보기

207호 20면

자동통역(automatic speech translation) 기술은 크게 음성인식·자동번역·음성합성의 세 요소로 이뤄져 있다. 사람의 입에서 나온 말의 의미를 알아듣고 문자로 바꾸는 기술, 특정 문자로 입력된 문장을 원하는 다른 언어로 바꾸는 기술, 글로 쓰인 문장을 입에서 나오는 말처럼 소리로 바꾸는 기술이 그것이다. 이미 사용되고 있는 이 세 가지 기술들은 모두 독자적인 분야에서 쓰일 수 있다. 동시통역 장치를 완성하려면 이 세 가지 기술이 모두 합쳐져야 가능하다.

진화하는 자동통역기

음성인식 기술은 일반인에게 친숙한 기술이다. 음성인식은 국내에서도 이미 15년 전 삼성전자의 휴대전화 애니콜의 음성인식 다이얼 기능으로 일반에 알려졌다. 1997년 당시 애니콜 광고에서는 배우 안성기씨가 달리는 열차 지붕 위에서 몸싸움을 하는 장면이 나온다. 휴대전화에 ‘본부, 본부, 즉시 출동 바람’이라고 외쳐 전화를 걸자 헬기가 나타나 안성기씨를 구출한다.

제한된 특정단어를 인식하는 수준이었지만, 당시 꽤 인기를 끌었던 기능이다. 이후 음성 인식기술은 ‘ㄱ’ ‘ㅏ’ 등 음소는 물론 단어·문장 등을 모두 인식하는 수준으로 발전했다. 하지만 문장이 문법에 맞아야 하고, 사투리나 비속어 등도 없어야 한다. 주변에 소음이 있거나, 다른 사람이 같이 말을 할 경우엔 인식하기 어렵다. 한국전자통신연구원(ETRI)은 내년 초까지 한영 대화체에서 3만 단어급 문장을 90%까지 인식하는 정도로 기술 수준을 올려놓을 예정이다.

자동번역 기술은 통역기술의 핵심이다. 80년대까지는 ‘규칙 기반 방식’이 주를 이뤘다. 규칙 기반이란 번역할 때 언어별로 다른 어순 등 문법을 뜻이 통하게 전환하는 규칙을 정해두는 것을 말한다. 예를 들어 ‘주어+목적어+동사’ 순서인 우리말을 영어로 번역할 때는 ‘주어+동사+목적어’ 순서로 바꿔준다.

이 방법은 간단하긴 했지만, 실제로 번역을 해보면 의미 전달이 안 되는 경우가 많았다. 이후 90년대 들어서는 ‘말뭉치 기반’ 방식이 도입됐다. 다양한 표현과 숙어·패턴 등을 미리 입력해두고 사용하는 방식이다. 이후 2000년대로 오면서 규칙 기반과 말뭉치 기반 방식이 공존하는 수준으로 진화했다. 최근에는 이미 번역된 여러 가지 표현을 축적해 사용하는 ‘통계 기반’ 방식까지 도입되면서 완성도가 높아지고 있다.

자동통역의 마지막 단계인 음성합성은 음성 인식에 비해 기술이 간단한 편이다. 초기엔 각각의 단어를 미리 녹음해 둔 뒤 이를 조합해 사용하는 방식을 썼다. 최근에 비교적 널리 사용되고 있는 방법은 ‘음편 조합’이다. 단어보다 더 작은 소리 단위를 조합해 합성음을 만드는 방식이다.

ADVERTISEMENT
ADVERTISEMENT