Today’s Topic
너의 목소리가 들려, 보여, 생겨
“엄마, 돈 좀 보내주세요.” “이거, 그놈 목소린데.”
보이스피싱을 하는 수법도, 범인을 찾는 수법도 나날이 고도화되고 있다. 인공지능(AI) 기반 음성 합성 기술로 타인의 목소리를 복제하는 게 쉬워졌고, 지난 사건 범인과 똑같은 목소리를 찾아내는 음성 인식 기술도 발전했기 때문이다. 챗GPT가 공개된 이후 전 세계가 ‘대화형 AI’에 꽂혀 있는 동안, 음성 AI엔 무슨 일이 있었던 걸까. AI와 문자 채팅까지 가능해졌으니 곧 말도 트게 되지 않을까. 그래서 지금은 생성 AI의 넥스트 스텝 ‘보이스 테크(Technology of Voice)’를 주목할 때다.
🧾목차
1. 예전의 내가 아냐
2. 음성 AI, 이런 것도 해?
3. 엔터 뉴 엔진, 보이스테크
4. 기업들의 빅픽처는
5. 숙제는 뭐지

그래픽=한호정
1. 예전의 내가 아냐
음성 AI도 지금의 챗GPT처럼 관심을 한몸에 받던 시절이 있었다. 애플이 처음 음성인식 AI 비서 ‘시리’를 내놓았을 때, 아마존의 AI 스피커 ‘알렉사’가 나왔을 때, 삼성이 ‘빅스비’로 열심히 쫓아가던 그때를 기억하시는지. 그런데 요새는 조용하다. 음성 AI는 그새 왜 찬밥 신세가 됐을까.
◦ 어디 있니, 알렉사: 2014년 혜성같이 등장한 AI 스피커 알렉사. 이름만 부르면 뭐든 다 해줄 듯 굴더니 정작 할 줄 아는 건 많지 않았다. 날씨도 알려주고, 음악도 틀어주고, 쇼핑도 도왔지만 그걸로는 부족했다. 음성 인식률이 낮은 탓에 못 알아듣거나 딴소리하기 일쑤니 자연스러운 티키타카는 언감생심. 사티아 나델라 마이크로소프트 CEO는 올해 2월 FT 인터뷰에서 “코타나, 알렉사, 시리 할 것 없이 하나같이 다 멍청하다”고 혹평했다.
◦ 갖고 싶다, 자비스: 그런데 생성 AI가 나타나며 상황이 달라졌다. 글 쓰고, 그림 그리고, 엑셀과 PPT까지 만들어준다. (생성 AI 쪼렙에서 만렙으로 거듭나고 싶다면? 팩플 리포트 ‘생성 AI, 어디까지 써봤니’ 추천) 원하는 지시사항을 ‘쓰면’ 바로 실행하는 AI 조수가 생겼으니, 그 지시를 손가락 대신 ‘말’로 할 수 있다면? 장준혁 한양대 융합전자공학부 교수는 “챗GPT는 대화형 UI(사용자 인터페이스)로 반향을 일으켰지만 답변은 문어체에 가깝다. 이를 더 간결한 구어체로 바꾸고, 맞춤형 음성을 제작해 페르소나(성격)를 부여한다면 마블의 ‘자비스’ 같은 만능 비서도 가능하다”고 말했다.
◦역전의 기회, 있을까: 글로벌 생성 AI 시장은 2022년 108억 달러(약 13조원)에서 2032년 1181억 달러(약 155조원) 규모로 성장한다고(프리시던스 리서치). 지금은 챗GPT 같은 ‘텍스트 투 텍스트(TTT)’ 서비스가 수익을 내지만, 점차 문자→음성으로 전환하는 ‘텍스트 투 스피치(TTS)’나 문자→영상의 ‘텍스트 투 비디오(TTV)’ 시장이 커질 전망이다. 음성 AI나 영상 AI는 아직 초기 시장인 만큼 챗GPT에 밀린 국내 기업에도 아직 기회가 있을 수 있다.