회원전용

[팩플] “카카오 관두고 만든 AI, 감정노동 끝낼 해결사”

중앙일보

입력 2021.09.17 12:28

팩플레터 142호, 20201.9.16

Today's Interview
음성 AI 스타트업 '리턴제로' 이참솔 대표

오늘은 목요 팩플, 인터뷰를 소개 드립니다.
취재하며 만나는 창업자들의 에너지는 늘 남다릅니다. 해결하고 싶은 문제가 있고, 그걸 다른 누구 아닌 내가 풀어야겠다는 열정과 실력이 가득한 이들이죠. 그런데 창업자 레시피엔 하나가 더 필요합니다. 지금 있는 곳이 어디든 현재의 익숙함 혹은 편안함을 벗어던질 수 있는 용기 말입니다. 최근 김정민 기자가 만나고 온 이참솔 리턴제로 대표는 이번이 두 번째 창업입니다. 그는 카카오에서 점점 일이 재미없어져서 뛰쳐 나왔다고 합니다. 도전하고 싶은 새로운 문제도 발견했다고 하고요. 리턴제로의 도전, 오늘 인터뷰에서 한 번 보시죠.

팩플레터 142호

팩플레터 142호

매일 9390시간의 음성이 텍스트로 바뀌는 곳. 통화 녹음을 채팅 화면처럼 보여주는 인공지능(AI) 앱 ‘비토’ 이야기다. 비토는 지난해 4월 베타 서비스 출시 후 지금까지 사용자 24만명을 모았다. 누적 다운로드 수는 38만회. 전화를 끊고 수초 내에 정확한 텍스트를 볼 수 있어 빠르게 입소문이 나고 있다. 지난달엔 국내 B2B 사업과 중국에 진출했다.

비토를 개발한 리턴제로는 2018년 창업한 AI 스타트업이다. KAIST 전산학과 동기인 이참솔 대표와 정주영 최고기술책임자(CTO), 이현종 개발팀장이 공동 창업했다. 리턴제로는 같은 멤버들의 두 번째 창업이기도. 2011년의 첫 창업 ‘로티플’은 그해 카카오에 인수됐다. 세 사람은 2015년까지 카카오에서 PC카톡과 카카오택시 등 핵심 서비스들을 개발했다.

팩플은 지난 2일 이참솔(37) 리턴제로 대표를 만났다. ‘넥스트 네이버·카카오’를 노리는 그는 잘나가는 카카오를 왜 뛰쳐나왔는지, 음성인식 AI가 미래의 일자리를 어떻게 바꿀지 차분하고도 분명하게 소개했다.

Big Wave: 아이폰, 카카오, 알파고

이 대표는 IT 업계의 큰 흐름에 매번 올라탔다. ‘아이폰 쇼크’에 첫 창업을 결심했고, ‘알파고 쇼크’에 두 번째 창업을 했다. 직원 100명도 안 되던 시절의 카카오에 들어가 “여러 사람이 같은 꿈을 믿을 때 낼 수 있는 힘이 얼마나 큰지” 배웠다. “새벽에든 산에서든 작은 장애가 나면 모든 팀원이 자발적으로 전쟁 치르듯 문제해결에 달려드는 힘”은 “당시 IT업계를 평정한 네이버에 도전하고, 세상을 바꿀 수 있던 힘”이었다. 그가 회사를 나올 때쯤 카카오 직원은 2000명으로 늘어 있었다.

원래 창업할 생각이 있었나.
“KAIST 기숙사에서 ‘창업하면 좋겠다’고 밤새 떠들던 학생들이긴 했다(웃음). 졸업할 때가 되니 닷컴버블도 끝나가고 창업할 분위기가 아니더라. 병역특례로 입사하거나 대학원에 가는 등 친구들이 각자의 삶을 살았는데, 2007년에 아이폰이 나왔다. 세상을 바꿀 단초 같았다. 그래서 모바일 소셜커머스 스타트업 ‘로티플’을 창업했다.”
결국 카카오행을 택했다.
“IT기업이라면 서비스에 최첨단 기술을 넣어야 한다고 생각했다. 몽상이었다. 그땐 지금처럼 간편결제가 안 됐다. 소비자 10명 중 8명이 중도에 결제를 포기했다. 서비스 검증에 실패하고, 피벗하려던 도중 인수 제안을 많이 받았다. 모바일 개발자가 절박한 시기였으니까. 운이 좋았다.”
카카오에선 뭘 배웠나.
“사람들의 문제와 시장을 직시하고 프로덕트를 만드는 법. 즉 기술 말고, ‘고객 먼저’라는 마인드다. 믿을 수 있는 동료들도 많이 만났다. 리턴제로 직원(40명) 절반이 KAIST 선후배, 절반이 카카오 출신이다.”
팩플레터 142호

팩플레터 142호

그런데 왜 다시 창업했나.
“회사가 커지자 내가 더 기여할 게 없다고 느꼈다. 더 솔직하게는, 처음으로 큰돈을 만져보니 일이 재미없어졌다. 퇴사하고 2~3년 놀았다. 세계 여행도 1년 다녀오고. 그러다 2016년에 알파고가 나왔다. 정말 큰 충격이었다. AI가 이세돌 9단을 이긴다니, 미친 일이었다. 머잖아 세상이 또 뒤집히겠단 생각이 들었다.”
그래서 바로 창업을?
“거대한 흐름이 오기 전에 해야 했다. 인터넷 시대, 모바일 시대와 달리 AI 시대엔 싸움의 중심에 데이터가 있다. 데이터는 빈익빈부익부다. 사람들이 많이 쓰는 서비스를 빨리 만든 쪽이 이긴다. 데이터가 모일수록 성능이 좋아지는 AI 플라이휠(Fly Wheel)을 구상하고 아이템을 찾기 시작했다.”
AI 플라이휠?
“쓸만한 서비스를 만들고, 거기서 데이터를 얻어 성능을 높여가면 사용자도 는다는 선순환 고리다. 좋은 예가 테슬라다. 테슬라는 자율주행이 완벽해지길 기다리지 않았다. 일단 테스트 주행을 하고, 사고가 나면 데이터를 모아 성능을 보완했다. 그 방법으로 테슬라는 10년째 실험실에만 갇혀있던 구글 웨이모를 단숨에 앞섰다.”
리턴제로는 무슨 뜻인가.
“우리의 핵심전략인 AI 플라이휠을 담은 이름이다. 서비스가 선형적으로 끝나는 게 아니라, 원형으로 돌면서 커나간다는 뜻이다. 프로그래밍 언어인 C에선 ‘함수가 성공했다(return 0;)’는 의미로 쓰이는 말이다. 근데 투자자들은 싫어하더라. 회사인데 리턴(수익)이 제로라 하면 어떡하냐고(웃음).”
리턴제로의 AI 플라이휠. 사진 리턴제로

리턴제로의 AI 플라이휠. 사진 리턴제로

동생과 싸우다 만든 AI

서비스 비토 얘길 해보자. 통화 녹음의 문자화, 어떻게 구상하게 됐나.
“경험에서 나왔다. 그 옛날 삼성 옴니아1 쓸 때부터 통화를 녹음하는 버릇이 있다. 문제가 생기면 필요할 것 같아서랄까. 하루는 동생이랑 ‘강아지를 집에 누가 데려오자 했는지’로 싸웠다(웃음). ‘증거 있다, 너 딱 기다려라’ 하고 내 통화 녹음 목록을 뒤졌는데, 도저히 못 찾겠는 거다. ‘내가 만든 정보를 내 휴대폰에서 내가 못 찾는 게 말이 되나’ 싶었다. 그때의 기억으로 비토를 만들었다.”
어떤 기술이 활용되나.
“한국어 음성을 문자로 변환하는 STT(Speech-to-Text)와 목소리를 구분하는 화자 분리, 두 가지 기술이 핵심이다. 통화는 극한 환경이다. 대화 주제와 말투에 제한이 없고, 주변 잡음도 많다. 말하는 중에 서로 끼어들고 발음도 잘 뭉개진다. 이걸 다 알아듣고, 지금 말한 사람이 누군지도 비토는 다 맞춘다. 두 기술 모두 최고 수준이라고 자부한다.”
좋은 기술이 늘 성공하진 않는다. 시장이 있어야 하는데.
“한국어 음성인식은 영어, 중국어, 스페인어 등에 비해 유난히 떨어진다. 시장이 작으니 진지하게 데이터를 모아온 곳이 없어서다. 영어, 중국어 음성인식 서비스는 적어도 5만~10만 시간 이상의 데이터가 이미 들어가 있다. 그런데 한국어 서비스는 1만 시간만 넘어도 ‘와 대단하다, 많이 모았다’는 얘기가 나오더라. 그래서 데이터를 많이 모으면 승산이 있겠다고 봤다.”
얼마나 모았나.
“올해 말에 바로 학습에 쓸 수 있는 데이터 2만 시간, 가공 안 된 로데이터(raw data) 100만 시간이 모일 것으로 보고 있다.”
사용자의 음성 통화엔 민감한 데이터도 많다.
“비토는 사용자 동의 없이는 데이터를 절대 수집하지 않는다. 동의하지 않으면 서버에 데이터를 아예 남기지 않는다. 실명인증도 안 한다. 사용자를 특정할 필요가 없으니까. 동의를 받은 데이터는 일차적으로 기계가 주소나 전화번호 등 개인정보를 지우고, 어떤 대화가 오갔는지 맥락을 파악할 수 없게 5~10초 단위로 쪼개 순서를 섞는다. 그 이후에 개인정보처리자 지위를 가진 전문 인력이 레이블링한다.”
 통화 녹음을 채팅으로 보여주는 AI 비토. 내용을 검색하거나 말풍선을 터치해 그 부분만 다시 듣는 것도 가능하다. 사진 리턴제로

통화 녹음을 채팅으로 보여주는 AI 비토. 내용을 검색하거나 말풍선을 터치해 그 부분만 다시 듣는 것도 가능하다. 사진 리턴제로

전화의 종말, 음성의 복권 

어떤 사람들이 주로 쓰나.
“24만 사용자의 50% 이상이 4050 세대, 사용자의 75%가 남성이다. 전화 업무가 많고 메모가 필수인 영업직, 공인중개사, 변호사, 의사, 기자, 선생님, 수리기사 등이 많이 쓴다. 청각 장애가 있는 분들도 좋은 평점을 남겨주신다.”
1020 세대일수록 통화량이 적어지는데, 한계가 있는 것 아닌가.
“사회가 개인화될수록, 나이가 어릴수록 통화량이 줄어드는 건 맞다. 한국인의 월평균 통화량이 2시간인데, 10대는 30분에 불과하다. 하지만 ‘음성 커뮤니케이션’에 대한 수요는 늘어날 거다. 음성은 사람이 가장 오랫동안 써온, 편안하고 편리한 소통 방법이기 때문이다.”
팩플레터 142호

팩플레터 142호

음성 수요가 는다? 어떻게 알 수 있나.
“온라인에서 여러 명이 실시간 고품질로 대화할 수 있는 기술 환경이 최근에서야 마련됐다. 코로나로 더 빨라졌고. 5년 전만 해도 모바일 기기에서 동시 대화는 10~20명이 한계였지만, 이젠 1000명도 가능하다. 클럽하우스, 트위터의 스페이스, 카카오의 음 같은 음성 SNS의 유행 모두 ‘음성으로의 복귀’ 조짐이다.”
음성인식 AI가 우리 삶에 줄 수 있는 가치가 뭘까.
“인간이 음성으로 주고받던 지식과 감성을 AI가 대체하게 될 거다. 24시간 만날 수 있는 나만의 친구, 비서, 변호사, 의사, 운전기사가 나온다는 뜻이다.”

“감정노동, 10년 뒤엔 해방”

지난달 중국에 진출했다. 요즘 IT기업 규제가 만만찮을 텐데.
“이제 와서 보면, 악수(惡手)였다. 중국 정부가 8월 말 발표한 개인정보보호법은 사업할 때 고객 정보를 쓰지 말라는 수준의 강경한 규제안이다. 최악의 경우 사업 철수도 검토 중이다.”
그렇다면 위기 아닌가.
“중국은 월평균 통화량이 4시간으로 굉장히 많고 사용자 절반이 통화 녹음을 한다. 안드로이드 사용자도 많다(아이폰은 통화 녹음 불가). 그런데 통화를 문자화하는 서비스가 없었다. 그래서 한 번 뚫어본 거지, 핵심 경쟁력을 키우러 중국에 간 건 아니었다. 중국어 음성인식은 이미 남들이 풀어버린 문제니까.”
리턴제로가 궁극적으로 하고 싶은 게 뭔가.
“음성에는 많은 정보가 있다. 감정이 대표적이다. 다정함, 냉담함, 흥분, 분노 등. 사람은 쉽게 눈치채지만 AI에겐 일일이 레이블링해 가르쳐야 하는 것들. 이걸로 사람을 감정 노동에서 해방시켜주는 AI를 만들 생각이다.”
감정 노동에서의 해방?
“글로벌 음성인식 시장의 큰 흐름이다. 미국, 중국을 필두로 AI 콜센터가 대세다. 국내에서도 우리 기술에 대한 기업 고객(B2B) 문의가 늘고 있다. 5년 뒤면 감정 노동을 해결할 수 있는 AI의 큰 모델이 나올 것이고, 10년 뒤면 어느 회사에 연락하더라도 대화 상대가 사람인지 기계인지 분간할 수 없고, 분간할 필요도 못 느끼는 상황이 올 거라고 본다.”
AI와 인간을 분간할 필요가 없다? 이유는?
“AI가 내 뉘앙스와 감정을 이해하면서 친절하게 응대하고 일 처리도 빠르다면, 사람들은 ‘왜 꼭 사람과 이야기해야 하지?’라고 생각하게 될 테니까. 한번 시작되면 돌이킬 수 없는 변화다.”
AI가 사람의 미묘한 뉘앙스까지 따라 할 수 있을까.
“할 수 있다. 사람도 데이터를 학습한 뉴럴 네트워크(신경망)에 의해 움직인다. 똑같은 구조로 AI를 가르치는데, 왜 안 되겠나. 지금은 AI의 두뇌 규모가 작을 뿐이다. 그런데 그 두뇌가 2~3년마다 1000배씩 커지고 있다. 이 속도라면 2030년 전에 사람과 구분할 수 없는 소통모델이 나올 거다.”
콜센터 등 인간 일자리 감소가 우려된다.
“기술의 발전이 사람을 대체하는 건 역사적으로 늘 있었던 일이다. 나는 감정 노동은 불필요한 고통이라고 생각한다. 누군가에게 친절을 강요하는 일이 매일 반복되는 게 정상적인가. 이런 고통을 줄일 수 있다면, 줄이는 편이 좋지 않겠나.”
AI로 누군가의 생계가 위협 받는다면, 시대의 흐름으로만 보기 어렵지 않나.
“기술이 아닌 정치와 사회가 ‘늦지 않게’ 풀어야 하는 영역이라고 생각한다. AI 시대가 오면 사람의 노동은 생계를 위한 노동이 아니라, 하고 싶어서 하는 노동으로 바뀐다. 패러다임이 전환되기 전에 기본소득제 등의 논의를 빨리 시작해야 한다. 놓치면 대재앙이 올 거다.”

“Next 네이버·카카오는 우리”

이참솔 비토 대표가 2일 오후 서울 서초구 리턴제로 사무실에서 중앙일보와 인터뷰를 하고 있다. 장진영 기자

이참솔 비토 대표가 2일 오후 서울 서초구 리턴제로 사무실에서 중앙일보와 인터뷰를 하고 있다. 장진영 기자

AI 시대에 리턴제로가 하려는 건.
“시대가 크게 바뀔 때 큰 기업이 나온다. 20년 전 네이버가 그랬고, 10년 전 카카오가 그랬다. AI는 세상을 아직 못 바꿨다. 육체 노동은 로보틱스가, 감정 노동은 AI가 대체하는 시대가 곧 온다. 그 기술의 부가가치가 어마어마해질 시기에, 그 기술을 가장 잘 다루는 회사가 우리가 되었으면 한다.”
음성인식 기술만으로 넥스트 네이버·카카오가 될 수 있을까.
“우리는 음성인식만 하는 팀이 아니다. 데이터를 모아 AI를 발전시키는 팀이다. 팀에 음성인식 전공자는 1명도 없다. 다들 AI와 서비스를 잘하는 사람들이다. 그렇게 한국어 음성인식 AI 사용량이 제일 많은 서비스를 만들어냈다.”
“데이터는 빈익빈부익부”라고 말했듯, 큰 기업이 유리하다. 인수 제안을 받는다면?
“(인수되는 건) 플랜B도 아니고, 플랜C 이하로 생각한다. 우리 팀이 잘해낼 가능성이 내 눈에 보이니까. 물론 대규모 트래픽과 자본을 가진 큰 회사에 유리한 싸움이긴 하다. 하지만 서비스, 프로덕트, 모델, 파이프라인의 힘으로 이길 수 있다. 그게 테슬라, 유튜브, 틱톡이었다.”

※ 위 인터뷰는 9월 16일 팩플레터 구독자들에게 이메일로 먼저 발송되었습니다. 잘나가는 기업들에 대한 이슈 해설, IT 리더들의 인터뷰와 칼럼을 이메일로 받아보시려면 팩플레터를 구독하세요.

Innovation Lab

ADVERTISEMENT