3대 AI 번역기 비교해보니, 딥엘 자연스럽고 구글은 원문 충실, 파파고 한글↔일어 강점

중앙선데이

입력

업데이트

AI 번역기 3개 비교해보니

대화형 인공지능(AI) 서비스 ‘챗GPT’가 영문으로 쓰고 네이버의 AI 번역기 ‘파파고’가 국문으로 번역한 책 『삶의 목적을 찾는 45가지 방법』 [연합뉴스]

“현대사회에서는 자신을 다른 사람과 비교하고 외부의 인정이나 승인을 구하는 함정에 빠지기 쉽다. (…) 우리 자신을 다른 사람과 비교하는 것은 우리 자신에게 불공평할 뿐만 아니라, 결코 진정으로 다른 사람들의 투쟁, 도전, 경험을 알 수 없기 때문에 허무에 대한 연습이기도 하다.”

현자의 잠언일까? 이것은 인간 기획자가 대화형 인공지능(AI) 서비스 ‘챗GPT’에게 자기계발서 단골 화두를 영어로 물어 답을 얻은 후 네이버의 AI 번역기 ‘파파고’에게 국문 번역을 시켜 엮은 『삶의 목적을 찾는 45가지 방법』(이하 『45가지』)의 한 구절이다. “인쇄를 제외하고 총 30시간 만에 완성됐다”는 이 책은 지난 달 22일 출간된 후 7천부가 넘게 팔리며 이미 2쇄를 찍었다.

왜 번거롭게도 AI에게 먼저 영어로 묻고 또다른 AI에게 번역시키는 수고를 감수했을까. 책을 기획한 스노우폭스북스의 서진 대표는 이렇게 설명했다. “한국어로 질문했을 때 1천 자 내외의 답변을 생성하며 (…) 설득과 공감을 주기에 턱없이 부족한 텍스트밖에 생성하지 못했다. 때문에 영문으로 질문을 했고 3천자 내외의 원고를 얻을 수 있었다.” 기획자는 독자가 직접 AI 번역 퀄리티를 비교할 수 있도록 영어 원문도 책에 나란히 실었다. 즉 책을 낸 사람도, 사는 사람도 ‘AI가 어디까지 할 수 있나 보자’는 의도가 담긴 책인 것이다.

챗GPT 열풍에 AI 번역도 관심 집중

챗GPT 열풍이 일어나면서 덩달아 AI 번역기, 즉 인공신경망 기반 딥러닝을 활용한 번역기에 대한 관심도 급증하고 있다. 『45가지』의 사례처럼 챗GPT도 영어로 대화할 때 더 풍부한 결과를 얻을 수 있고 ‘달리2(Dall-E2)’ 같은 이미지 생성 AI는 아직은 영어로만 쓸 수 있기 때문에 번역기를 동원하는 경우가 많아서 그렇다. 그렇다면 AI 번역기의 수준은 어디까지 와 있을까?

『45가지』에는 인생에 대해 ‘어디서 많이 들은 것 같은 좋은 말’들이 제법 그럴듯하게 나열되어 있다. 하지만 어색한 곳들도 발견되는데, 맨 앞의 인용문에서 ‘허무에 대한 연습’ 부분도 부자연스럽다. 영어 원문을 보면 an exercise in futility(‘헛고생’이란 뜻의 관용구)를 잘못 번역한 것임을 알 수 있다. 책 출간 후 20일이 지난 지금 다시 파파고를 돌려보면 ‘헛된 연습’이라는 조금 나은 번역을 내놓는데, 그동안 AI가 학습을 했다고 추정할 수 있다.

그래픽=김이랑 kim.yirang@joins.com

그렇다면 토종 번역 AI 파파고의 라이벌인 미국 구글의 번역기와 독일 AI 번역기 ‘딥엘(DeepL)’은 이 문장을 어떻게 번역할까? 2017년 처음 공개된 딥엘은 (구글 번역은 2007년, 파파고는 2016년 공개) 자체 전문가 블라인드 테스트 결과 구글 번역보다 훨씬 우수하다는 평가를 받았다고 주장하고 있으며, 올해 1월 말 한국어 서비스를 시작한 이후 국내 사용자들 사이에 과연 ‘자연스러운 번역이 일품’이라는 입소문을 타고 있다. 전세계적으로는 10억 명이 넘는 사용자가 있다.

『45가지』에서 파파고가 ‘허무에 대한 연습’이라고 번역한 부분을 구글 번역기는 ‘무의미한 행동’으로 번역했고 딥엘은 ‘헛된 노력’이라고 번역해서 같은 실수를 하지 않았다. 이번에는 첫 문장이 인상적인 영문 소설로 손꼽히는 스콧 피츠제럴드의 『위대한 개츠비』(1925)의 처음 부분을 구글 번역, 파파고, 딥엘에게 번역하도록 해보았다.

결과물〈그래픽 참고〉을 보면 파파고와 구글 번역은 모두 원문의 의미를 큰 오류 없이 전달하고는 있지만 문장 구성과 말투가 어색하고 특히 아버지가 자식에게 하는 말을 존댓말로 번역해서 한국 문화에 맞지 않는다. 즉 초벌 번역으로만 쓸 수 있는 수준이다. 반면에 딥엘은 결과물을 그대로 최종 번역문으로 사용할 수 있을 정도로 맥락적 정확성과 자연스러움에서 완성도가 높다. 그렇다면 확실히 딥엘이 경쟁사들보다 우수한 것일까? 이번에는 사회과학서로 다시 세 AI 번역기의 성능을 실험해 보았다. ‘10년간 서울대 도서관 대출 1위’로 유명한 스테디셀러인 재레드 다이아몬드의 『총, 균, 쇠』(1997)의 주요 구절이다.

AI 번역기 비교해보니 [문소영]

파파고 요컨대, 유럽의 아프리카 식민지화는 백인 인종주의자들이 추측하는 것처럼 유럽인들과 아프리카인들 자체의 차이와는 아무런 관련이 없었다. 오히려, 그것은 지리학과 생물지리학의 사고, 특히 대륙의 다른 지역, 축, 야생 동식물 종들의 집합 때문이었다.

구글번역 (첫문장 위와 비슷해 생략) 오히려 그것은 지리학 및 생물지리학의 우연, 특히 대륙의 서로 다른 지역, 축, 야생 동식물 종군에 기인한 것이었습니다.

딥엘 (첫문장 위와 비슷해 생략) 오히려 지리와 생물지리, 특히 대륙의 서로 다른 지역, 축, 야생 동식물 종의 집합에 따른 우연 때문이었죠.

여기에서도 딥엘이 가장 자연스럽게 읽히는 번역문을 내놓았다. 그러나 원문을 존중한 정확성 면에서는 구글 번역이 낫다고도 볼 수 있다. ‘지리학적, 생물지리학적 우연’이 ‘대륙의 서로 다른 면적, 축(의 방향), 야생 동식물 종군’을 포함하는 게 원문의 내용이기 때문이다. 파파고는 우연(accidents)을 ‘사고’로 번역했고 세 번역기 모두 책의 맥락에서 ‘면적’으로 봐야 하는 areas를 ‘지역’으로 번역했다.

K팝 인기로 국문→영문 번역시장 성장

사회학 박사 출신으로서 사회과학서를 주로 번역하는 김모 번역가는 “AI 번역기가 어려운 글을 만날 때, 원시적인 번역기들은 아예 비문인 결과물을 내놓는 반면, 뛰어나다는 번역기들은 원본을 대충 뭉뚱그려 말이 되는 문장을 만드는데 원본을 보면 오역인 경우가 있다. 후자의 경우, 잘못된 것을 눈치채지 못하니 오히려 더 위험할 수 있다”고 경고했다.

결론적으로 딥엘이 돋보이지만 우열을 섣불리 결론 내기는 어려운 상태다. 파파고가 영어→한국어 번역에서 구글과 딥엘에 비해 다소 약해 보이지만, 한국어↔일본어 쌍방향 번역에 있어서는 구글 번역보다 강하다는 것이 사용자들의 중론이다. 한국어 초보인 일본 전업주부가 파파고를 활용해 국내 웹툰 ‘미래의 골동품 가게’를 일본어로 번역한 작품으로 지난 12월 2022 한국문학번역상 웹툰 부문 신인상을 수상해 큰 논란이 일어날 정도였다.

그렇다면 국문을 영문으로 번역하는 작업에서 AI 번역기의 성능은 어떨까? 최근 몇 년간 K-팝, K-드라마·영화를 위시한 한국문화가 세계에서 맹위를 떨치고 개인 방송 크리에이터들까지 유튜브 등의 플랫폼을 기반으로 해외 팬들을 얻게 되면서 한국어의 외국어 번역 수요와 시장이 급속도로 성장하고 있다.

영화 ‘기생충’의 2020년 아카데미 작품상 수상 뒤에는 한국 영화에 정통한 미국 평론가 달시 파켓의 영어 자막이 있었다. 지난해 정보라 단편집 『저주토끼』가 부커상 최종 후보에 오른 데에도 중앙일보 홍진기 창조인상을 수상한 한국인 번역가 안톤 허가 있었다. 번역의 중요성을 인정해서 부커상은 비영어권 부문에서 번역가를 원작자와 한 팀으로 후보에 올린다. 이들을 AI가 대체할 수 있을까?

AI 번역기 비교해보니 [문소영]

안톤 허를 사로잡았다는 『저주토끼』의 첫 문장 “저주에 쓰이는 물건일수록 예쁘게 만들어야 하는 법이다.”를 세 AI 번역기로 돌려보니, 파파고와 구글 번역은 원문을 부분적으로 왜곡하거나 애매하게 만든 반면 딥엘은 원문의 뜻을 정확하게 전달하는 영어 번역을 선보였다. 비록 부커상 후보에 오른 인간 번역가의 감칠맛 나는 번역을 따르지는 못하나, 문학적 완성도가 중요하지 않은 영역에서는 충분히 사용할 수 있음을 눈으로 확인하는 순간이었다.

이와 관련해서 국내 주요 출판사인 민음사의 양희정 인문교양 편집부장은 “고품격 번역가들은 AI가 대체할 수 없다고 본다”며 이렇게 설명했다. “지금 AI가 어느 수준까지는 번역을 꽤 하는 것처럼, AI 이전 시대에도 번역가들은 노력하면 어느 정도 선까지는 모두 비슷한 수준으로 번역할 수 있었다. 그러나 마지막 2%를 어떻게 하느냐에 따라 고품격 번역가와 그렇지 않은 번역가가 확연히 갈렸다. 그 2%는 창의성과 깊이의 차이인데, 그 차이는 번역가가 얼마나 많이 고전을 읽고 소화했느냐에 달려 있다. 고전을 섭렵해야 문화의 수많은 맥락을 알아서 번역 원문을 제대로 이해하고 변주가 가능하다.” 또한 양부장은 “앞으로의 번역 시장은 이러한 소수의 고품격 번역가들과 AI를 적극 활용하며 하향평준화된 수준으로 대량생산을 하는 번역가들로 양분될 것”이라고 덧붙였다.

사회과학 전문인 김 번역가의 경우, 초벌번역에도 AI를 사용하지 않는다며 “초벌번역 정도는 내가 실시간으로 영문을 보고 손으로 타이핑을 해도 번역기와 비슷한 퀄리티가 나온다. 제대로 된 만족스러운 문장을 만드는 데 시간이 오래 걸리는데 그것은 번역기가 해주지 않는다”고 설명했다.

그는 또 이렇게 덧붙였다. “다만 번역 작업을 하는 중에 원저자에게 질문을 해야 하는 경우가 많은데, 명색이 번역가로서 이메일 질문지에 어색한 영어를 쓰면 부끄러운 일이기 때문에 일단 내가 영어로 쓴 메일 내용을 번역기를 돌려 한국어로 옮겨 자연스러운지 확인하는 등으로 활용한다. 요즘은 챗GPT에게 영어 글을 올리고 교열해 달라고 하면 문법 오류를 고치고 더 세련된 표현으로 바꾸어 준다고 들었다. AI가 전문 번역가를 대체하지는 않겠지만, 일상적이고 단순한 번역의 영역에서는 번역가를 적잖게 대체할 것이 분명해 보인다.”

문소영 문화전문기자 symoon@joongang.co.kr