쓸만해지는 음성 AI…회의·강연 녹음파일도 대화록으로 정리해준다

중앙일보

입력

"오늘 팀 회의는 누가 텍스트로 정리해놨지?"
"이번 주 전공 수업 말이야. 워드 파일로 된 강연 내용 보내줄 수 있을까?"

평상시 대화나 회의록, 인터뷰·강연·전화통화 등을 텍스트로 자동 변환해주는 편리한 서비스가 나왔다. 네이버는 앱에 음성파일을 업로드하거나, 음성을 직접 녹음하면 바로 대화록 형태의 문서를 만들어주는 '클로바노트'를 29일 출시했다.

네이버가 AI 기술을 바탕으로 회의, 통화 내용 등을 을 텍스트로 변환시켜주는 '클로바노트' 앱을 출시했다. 네이버의 음성 인식 기술 '클로바 스피치'가 적용된 이 앱은 참석자 목소리까지 구분할 수 있다. [네이버]

이용 방법은 간단하다. 모바일 앱을 설치한 뒤 녹음 버튼을 누르거나 음성 파일을 올리면 된다. 기자가 15분 정도 되는 인터뷰 녹취 파일을 올렸더니 약 30초 만에 텍스트로 변환해 보여줬다. 참석자 1·2·3과 같은 식으로 발언한 사람들의 목소리를 구분해 대화록으로 정리됐다. 텍스트 중간중간 원하는 부분을 클릭하면 해당 부분의 음성 파일이 함께 재생됐다. '소품'을 '소풍'으로, '포토제닉하셔서'를 '포토존이 커셔서'라고 잘못 알아듣는 경우가 간혹 있었다. '메모 다운로드' 버튼을 누르면 텍스트 파일을 다운받을 수도 있다. 텍스트로 변환할 수 있는 음성파일 분량은 1회당 최대 90분까지다.

클로바노트는 당분간 무료 베타(시험) 서비스로 운영된다. 네이버 측은 "매달 300분의 무료 사용 시간을 제공하며, '서비스 품질 향상을 위한 데이터 수집'에 동의하면 300분을 추가로 더 쓸 수 있다"고 설명했다.

음성을 인식해 문자로 번역하는 STT(Speech To Text) 기술은 수년 전부터 각종 앱·서비스에서 활용되고 있다. 다만 종전에는 낱개 단어나 문장 한두개를 알아듣는 수준에 그쳤는데, 네이버는 이를 고도화시켜 '클로바 스피치(CLOVA Speech)' 기술을 완성했다.

한익상 네이버 책임리더는 "대화·강연처럼 긴 문장을 인식하는 네스트(NEST, Neural End-to-end Speech Transcriber) 엔진과 참석자의 목소리 차이를 구분해주는 와이즈(WISE, Who Is Speaking) 엔진이 핵심 기술"이라고 설명했다. 네이버는 '클로바노트' 외에도 클로바 스피치 기술을 AI 콜센터(클로바 케어콜)와 네이버 동영상 뉴스 자동 자막서비스에 도입했다. 해당 기술·서비스가 확산될수록 이용자들이 직접 글자를 타이핑할 일은 크게 줄어든다.

네이버 '클로바노트' 서비스 화면. 기자가 15분 분량의 인터뷰 파일을 입력했더니 30초만에 대화록이 나왔다. '소품'을 '소풍'으로, '포토제닉하셔서'를 '포토존이 커셔서'라고 잘못 알아듣는 경우가 간혹 있었다. '메모 다운로드' 버튼을 누르면 텍스트 파일을 다운받을 수도 있다. 90분이 넘는 음성 파일을 업로드하면 90분까지의 음성 구간만 텍스트로 변환된다. [네이버]

음성 인식 기반 서비스는 네이버 외에 스타트업들도 최근 적극 도전하는 분야다. 앞서 4월 스타트업 리턴제로는 '비토'라는 앱을 출시, 50일 만에 누적 다운로드 5만건을 돌파했다. 음성통화 녹음 파일을 메신저 대화처럼 텍스트로 보여주는 게 특징이다. 월 4900~9900원의 요금을 내면 최대 1만 개의 통화를 텍스트로 변환할 수 있다. 2018년 설립된 리턴제로는 기술력을 인정받아 4월 카카오벤처스 등으로부터 총 25억원을 투자 유치하기도 했다.

유튜브 등 동영상 플랫폼 시장이 커지는 것도 STT 기술과 TTS(Text To Speech: 음성 합성 기술) 기술의 고도화를 앞당겼다. AI 스타트업 보이저엑스가 지난해 출시한 영상 편집 프로그램 '브루'는 AI가 영상 속 음성을 인식해서 자막을 빠르게 생성한다. 자막을 달기 위해 사람이 영상을 일일이 돌려보며 타이핑할 필요가 없어져 국내 유튜버들 사이에서 유명해졌다.

AI 스타트업 보이저엑스가 만든 '브루'는 유튜버들에게 인기가 많다. 영상 속 음성을 추출해서 자동으로 텍스트로 변환시켜주기 때문이다. 영상 파일을 보면서 자막을 일일이 달지 않아도 돼서 편리하다. [보이저엑스]

음성 합성, 즉 TTS 기술을 활용한 'AI 성우' 서비스도 나왔다. 스타트업 네오사피엔스가 지난해 출시한 '타입캐스트'는 텍스트만 입력하면 60여 종류의 AI 성우 목소리로 변환해주는 일종의 더빙 툴이다. 성별·연령대별로 다양한 목소리를 보유하고 있다. 단순히 기계음으로 음성을 만드는 것이 아니라, 유튜버나 전문 성우의 목소리를 활용해 음성 콘텐트를 자동 제작해 자연스럽다. 네오사피엔스는 코로나19 때문에 다양한 교육 자료를 만들어야 하는 교원들에게 이 서비스를 무료로 제공하기도 했다. 네이버도 지난 2월 목소리 녹음 없이 동영상에 AI 음성을 입힐 수 있는 '클로바 더빙' 서비스를 출시했다. 텍스트만 입력하면, 사람이 직접 녹음하지 않고도 더빙 콘텐트를 만들 수 있다. 영상 테마, 더빙 내용 등을 고려해 AI 음성의 속도나 볼륨을 조절할 수 있다.

하선영 기자 dynamic@joongang.co.kr