‘누나’를 ‘아가씨’로 해석해줘 살인극, AI 번역 믿을 만 한가

중앙선데이

입력

업데이트

코딩 휴머니즘

최근 네이버 파파고나 구글 번역을 사용해 보면 깜짝 놀라곤 한다. CNN이나 BBC 같은 외국 언론 기사를 한글 지문으로 번역하여 읽어 봐도 거의 어색하지 않고 자연스럽다. 예전처럼 주어·동사·접속사가 뒤죽박죽 섞여서 새로운 언어를 창조한다든지 이해가 되지 않는 문장으로 번역하는 일이 많이 개선되었다. 최근 인공지능(AI)을 활용한 통·번역 기술이 비약적으로 발전했기 때문이다.

컴퓨터가 하는 번역을 ‘기계번역’이라고 한다. 기계번역의 역사는 60년 전으로 거슬러 올라간다. 1950년대 냉전 초기, 미국이 러시아어를 빠르게 해석하기 위해 처음 시도했다. 당시 번역이란 2차 세계대전의 당락을 결정지었던 독일군 암호 해독과 같은 일이었다. 다만 번역기라고 해봐야 러시아-영어사전을 단순히 컴퓨터에 집어넣어 단어 하나하나를 해석하는 수준이라, 전체 문장을 완벽하게 번역하는 것은 어려웠다.

이런 기계번역의 수준을 높인 것은 컴퓨터 하드웨어 기업인 ‘아이비엠(IBM)’이었다 1980년대 IBM의 연구진은 통계를 활용하면 번역 품질을 획기적으로 높일 수 있다는 점을 깨달았다. 인간이 번역한 수많은 결과물을 분석해 데이터화하면 통계적으로 어떤 단어 다음에 어떤 단어가 나오는지를 산출할 수가 있었다. 이러한 기법을 ‘통계기반 기계번역(SMT, Statiscal Machine Translation)’이라고 부른다. 다만 통계가 적중할 확률을 높이려면 데이터 확보가 관건이었다.

2006년, 인터넷 전체를 데이터베이스화할 수 있는 구글(Google)이 데이터 확보에 앞서가면서 제대로 된 번역기를 만들기 시작했다. 바로 구글 번역기다. 물론 만족할 만한 수준은 아니었다. 여전히 어색했다. 누가 봐도 ‘기계번역’이라는 걸 쉽게 느낄 수 있는 수준이었다.

일본 원폭 투하도 기계번역 오해 개입

그런데 구글 번역의 퀄리티가 급상승한 일이 벌어졌다. 2016년 11월, 구글은 모종의 업그레이드를 비밀리에 진행했다. 이용자들은 놀라기 시작했다. 뉴욕 타임스는 ‘위대한 인공지능의 각성’이란 제목으로 이 ‘사건’을 기사화하기도 했다. 기사는 영어 소설 『위대한 개츠비』를 소설가 무라카미 하루키의 일본어 번역본과 구글의 일본어 번역 결과를 직접 비교했다. 당시 도쿄대 레키모토 준 교수는 하루키의 번역보다 구글 번역이 더 명확하다는 결론을 내렸다. 다만 “작은 부자연스러움”이 있다는 점을 명확히 했다.

구글이 업그레이드한 것은 이전의 SMT를 개선한 기술이었다. 이 기술을 가리켜 ‘인공신경망 기계번역(NMT, Neural Machine Translation)이라고 한다. NMT 기법도 데이터를 이용한다는 점에서 SMT와 같지만, 이 방법은 전혀 다르다. 인간이 시행착오를 겪으면서 무언가를 배우듯이 우리 뇌의 뉴런을 모방한 AI 프로그램을 만들었는데, 이게 인공신경망이다. 그리고 수많은 데이터가 입력된 AI는 스스로 학습하고, 가장 자연스럽다고 예측하는 결과를 내놓게 됐다. 이미 우리는 이런 방식을 목격한 적이 있는데, 바로 ‘알파고’다. 알파고 역시 수많은 바둑 기보로 학습한 뒤 가장 이길 수 있는 확률이 높은 자리에 돌을 두는 방식으로 이세돌을 상대했다.

구글은 현재 133개 언어를 번역할 수 있다. 한국어 번역만 놓고 보면 네이버 ‘파파고’가 번역 품질이 더 우수하다고 이용자들은 말한다. 같은 맥락으로, 중국어 번역은 중국에서 만든 서비스가 더 좋다고 평한다. 결국 AI라고 할지라도 국가와 문화적 차이에 기인한 번역의 한계를 극복하기엔 좀 더 시간이 필요할지도 모르겠다.

한 예로, 영화 ‘타짜’에서 김혜수가 한 대사 “나 이대 나온 여자야”를 구글 번역기로 돌려보면 결과는 다음과 같다. “I’m a girl from this age (나 이 시대의 여자야)”. 우리는 대사 속 ‘이대’가 ‘이화여대’를 의미한다는 것을 알지만, 전혀 다른 뜻이 되고 말았다. 이 글을 읽고 있는 독자라면 이 문장을 파파고(papago.naver.com)에서 어떤 결과가 나올지 직접 실행해 보는 것도 좋겠다. 영화 번역 담당자라면 ‘타짜’를 미국에서 상영하기 위해 이 문장을 어떻게 번역해야 할까. ‘이대’를 ‘이화여대’로 직접 표현해야 할까. 아니면 문맥상 미국 여자 명문대인 ‘웨슬리(Wellesley College)’로 바꿔야 할까. 이처럼 번역 작업을 단순히 단어의 올바른 해석으로만 한정 지을 순 없다. 시간-장소-상황(T.P.O)에 따라, 그 문장이 가진 표면적인 정보 전달뿐만 아니라 이해와 공감의 영역까지 고려해야 한다. 그리고 언어가 사용되는 상황마다 뜻의 변화가 일어나는 ‘사용역(register)’까지도 고려해야 한다. 언어가 잘못된 뜻으로 전달되면 걷잡을 수 없는 결과를 초래하기 때문이다.

지난해 전북 정읍의 살인사건이 그랬다. 당시 중국인 A씨와 같은 직장 동료의 남편(한국인) B씨는 술을 마시다가 소통을 위해 스마트폰의 앱 번역기를 실행했다. A씨는 앱에 대고 중국어로 “오늘 재미있었으니 다음에도 누나(직장 동료)랑 같이 놀자”라고 말했는데, 번역기가 누나를 ‘아가씨’로 번역했다. 그러자 B씨는 “아내가 있는 내가 왜 아가씨(접대부)를 불러서 노느냐”라고 화를 내며 A씨에게 폭행을 가했다. 갑자기 봉변을 당한 A씨는 자신이 무시당했다는 생각에 B씨에게 흉기를 휘둘렀던 것이다.

일본 원폭 투하도 번역의 오해가 개입했다. 1945년 포츠담회담에서 연합국은 일본의 무조건 항복을 요구하는 최후통첩을 보냈고 이에 일본 총리가 응답하면 전쟁은 바로 종료될 분위기였다. 이미 이탈리아와 독일이 항복했으니 일본의 항복은 정해진 수순이었다. 당시 일본 총리는 성명서에 ‘모쿠사츠(もくさつ)’라는 일본어 표현을 썼는데, 이게 참 애매했다. 일본 총리는 판단을 ‘유보한다’라는 뜻으로 사용했는데, 그 단어는 ‘무시한다’라는 뜻도 있다. 하필이면 일본 국영통신사는 영문 기사를 쓰면서 기계적으로 번역하여 ‘ignore(무시하다)’라는 표현을 사용했고 이에 뉴욕타임스는 ‘일본이 최후통첩을 ’무시하여‘ 미 함대가 공격에 나설 것’이라는 기사를 냈다. 며칠 후 히로시마에는 원폭이 떨어졌다. ‘모쿠사츠’의 의미가 잘못 전달됐다는 견해는 미국 국가안보국(NSA)이 공개한 문건에서도 인정하고 있다.

한국 수능 영어, 영국인 교사도 못 풀어

최근 AI는 문서 번역뿐만 아니라 실시간 통역 도움도 준다. 하지만 아직은 사람이 아니라 AI라는 점을 고려해야 한다. 즉, 번역의 한계가 존재한다는 뜻이다. 안타깝게도 아직은 번역을 AI한테만 믿고 맡길 수는 없다. 결국 AI 번역이 발전하면 외국어 학습은 필요 없을 것이라는 극단적인 전망은 옳지 않다. 외국어 학습이란 단순 번역이 아니라 그 언어가 지닌 문화까지 이해하는 일이기 때문이다. 그 문화란 매우 포괄적이어서 정치, 경제, 법과 제도, 문학과 예술, 도덕, 종교, 풍속뿐만 아니라 무형의 자산 그리고 그 언어를 쓰는 집단의 신념과 이념까지도 내포하게 된다. 따라서 외국어 학습을 단순 기능적 번역으로만 한정 지을 순 없다.

같은 유럽 지역이라도 독일과 프랑스 사람에게 다리(bridge) 사진을 보여주면 서로 다른 느낌으로 표현하기도 한다. 독일인은 ‘아름답다’, ‘우아하다’ 등의 표현을 많이 쓰고 프랑스인은 ‘견고하다’, ‘튼튼하다’라는 표현을 많이 사용한다. 아마도 독일어에서 다리(Brücke)는 여성명사이고, 프랑스어에서 다리(pont)는 남성명사이다 보니 그러한 경향이 표현에서도 나타날 수 있다. 이러한 특성은 그 언어와 함께 그 원어민의 특성을 이해해야 알 수 있다.

우리나라에서도 꽤 유명한 ‘영국 남자(Korean Englishman)’의 유튜브 채널을 보면 한국의 영어 수능 문제를 영국인 교사·고등학생들이 풀어보는 영상 시리즈가 있다. 놀라운 건, 문제를 제대로 풀지 못한다는 것. 학생들은 제한된 시간 안에 영어 지문을 읽고 문제를 풀게 했지만, 그들 지문을 채 읽지도 못했다. 영국 영어 교사도 모를 정도로 단어가 어려운 것은 둘째치고 원어민도 사용하지 않는 옛날 영어 단어가 수능 시험에 등장하고 있다는 것이 현실이다. 우리가 학교에서 10년을 넘게 영어를 배워도 외국인 앞에서 꿀 먹은 벙어리가 되는 이유를 이 ‘영국 남자’ 유튜브 영상을 보면 깨닫게 된다. 그동안 우리가 배운 영어는 원어민이 사용하는 실제 영어가 아니라 대한민국 상황에 특화된 입시 영어일 뿐이다. 우리나라만 놓고 보면, AI 번역 기술이 하루 빨리 발전하기를 기다리기보단 영어 교육의 개선이 더 빠른 해결책이 될 수도 있다.

오민수 멀티캠퍼스 minsuu.oh@multicampus.com 정보산업공학을 전공했고 코딩을 배웠으나 글쓰기를 더 좋아한다. 멀티캠퍼스에 입사 후 삼성그룹 파워블로거, 미디어삼성 기자를 병행하면서 ‘디지털 전환’과 관련한 글쓰기를 시작했다. 현재는 ‘멀티캠퍼스’에서 IT 생태계의 저변을 넓히는 일을 하고 있다.