토종 AI, 한국어 맞춤 학습으로 구글 AI보다 똑똑해졌다

중앙일보

입력

한국형 인공지능 언어모델을 개발한 한국전자통신연구원 김현기 박사가 10일 오후 대전 한국전자통신연구원에서 본지와 만나 인터뷰하고 있다. [프리랜서 김성태]

한국형 인공지능 언어모델을 개발한 한국전자통신연구원 김현기 박사가 10일 오후 대전 한국전자통신연구원에서 본지와 만나 인터뷰하고 있다. [프리랜서 김성태]

[인터뷰] 김현기 ETRI 책임연구원 

2016년 12월 대전 유성구에 위치한 한국전자통신연구원(ETRI) 대강당. 당시 국내 인공지능(AI) 전문가들의 이목을 집중시킨 사건이 이곳에서 일어났다. 국내 순수 기술로 개발 중이던 AI ‘엑소브레인’이 사람과의 지식대결에서 큰 점수 차로 승리한 것이다.

ETRI, 국산 언어모델 ‘코버트’ 개발 #구글 만든 ‘버트’ 보다 정확도 높아 #국내 AI 업체, 국산 기술 무료 사용 #AI비서·챗봇 등 AI서비스 개선 기대 #토종 AI 엑소브레인, 전문직 취업이 최종 목표

당시 ‘EBS 장학퀴즈’에 참가한 엑소브레인은 2016년도 수능 만점자, 장학퀴즈 상·하반기 왕중왕 등 4명의 쟁쟁한 경쟁자들을 제치고 우승을 거머쥐었다. 같은 해 3월 구글의 알파고가 바둑으로 이세돌을 꺾은 이후, 지식 소통 분야에서도 AI가 사람을 앞서기 시작했다는 것을 보여준 대표 사례가 됐다.

2016년 12월 31일 방송된 EBS 장학퀴즈에서 토종 AI인 엑소브레인이 600점 만점에 510점을 차지해 2위를 무려 160점 차로 따돌리고 우승했다. 당시 미래창조과학부가 지원한 엑소브레인 사업은 2013년부터 시작돼 2020년 종료된다. [사진 EBS]

2016년 12월 31일 방송된 EBS 장학퀴즈에서 토종 AI인 엑소브레인이 600점 만점에 510점을 차지해 2위를 무려 160점 차로 따돌리고 우승했다. 당시 미래창조과학부가 지원한 엑소브레인 사업은 2013년부터 시작돼 2020년 종료된다. [사진 EBS]

엑소브레인이 이같은 성과를 거둘 수 있었던 것은 ‘언어지능’ 때문이다. 엑소브레인은 한 마디로 ‘말귀를 알아듣는’ AI다. 당시 개발 1단계였지만 딥러닝·머신러닝 기술을 도입해 약 12만권 도서를 학습한 결과, 엑소브레인은 장학퀴즈 진행자가 던지는 질문의 의미를 해석할 수 있었고 이를 기반으로 정확히 검색을 수행해 답을 찾았다.

그런데 엑소브레인 등 AI의 이같은 언어능력이 더욱 발전하게 됐다. AI의 언어능력을 결정하는 소프트웨어(SW)인 ‘언어모델’이 한국어의 특성까지 반영해 최적화됐기 때문이다. 10일 ETRI는 최첨단 한국어 언어모델 ‘코버트(KorBERT)’ 개발에 성공했다고 발표했다. 현재도 이용되고 있는 챗봇, AI 비서 등 인공지능 서비스가 더욱 정교해질 수 있다는 데 의미가 있다. 그간 구글이 개발한 ‘버트(BERT)’ 언어모델을 주로 이용해온 AI 서비스 개발 업체는 국산화한 언어모델을 무료로 사용할 수 있게 됐다. 언어모델 개발을 비롯해 엑소브레인 사업을 총괄하고 있는 김현기 ETRI 책임연구원과 임준호 선임연구원을 ETRI 본원에서 만났다.

한국형 인공지능 언어모델을 개발한 한국전자통신연구원 김현기 책임연구원은 2013년부터 20여개 유관기관이 개발에 참여하고 있는 엑소브레인 사업을 총괄하고 있다. [프리랜서 김성태]

한국형 인공지능 언어모델을 개발한 한국전자통신연구원 김현기 책임연구원은 2013년부터 20여개 유관기관이 개발에 참여하고 있는 엑소브레인 사업을 총괄하고 있다. [프리랜서 김성태]

인공지능이 한국어를 더 잘 알아듣게 됐다. 어떤 장점이 있나.
지금도 인공지능의 언어능력은 많은 분야에 이용되고 있다. 포털에서 뉴스 내용을 분석해 정치·경제·사회로 분류하는 역할도 지금은 AI가 하고 있다. 사용자가 육성으로 던지는 질문을 인식해 원하는 답을 내주는 AI 스피커나 AI 비서에도 언어모델이 필수적으로 사용된다. 여러 고객센터에서 이용되는 챗봇도 마찬가지다. 한 마디로 AI가 언어를 해석하고, 답까지 찾아주는데 이런 기능의 정확도가 더욱 높아지게 된다.
지금까지 없던 새로운 AI 서비스 개발될 수 있겠나.
그렇다. 사람이 언어를 가지고 처리하는 거의 모든 분야에 쓰일 수 있기 때문이다. 향후 엑소브레인이 법률·특허 분야에서 전문가들을 보조하는 역할을 하도록 서비스를 개발 중이다. 예를 들어 “국회에서 국회의원이 앉는 자리는 누가 정해주나요?”라고 질문하면 AI가 국회법에 관련 조항을 찾아 설명해준다. 직접 찾는 것보다 훨씬 빠르다. 특허 분야에서도 그동안 출원·등록된 특허가 있는지 물어보면 바로 찾아볼 수 있도록 인공지능을 개선할 수 있다. 이를 위해서는 언어를 정확히 인식하는 게 기본이다.
한국전자통신연구원 임준호 선임연구원이 10일 오후 대전 한국전자통신연구원에서 본지와 만나 인터뷰하고 있다. 임 선임연구원은 실제로 코버트에게 한국어를 학습시키는 데 주요한 역할을 했다. [사진 프리랜서 김성태]

한국전자통신연구원 임준호 선임연구원이 10일 오후 대전 한국전자통신연구원에서 본지와 만나 인터뷰하고 있다. 임 선임연구원은 실제로 코버트에게 한국어를 학습시키는 데 주요한 역할을 했다. [사진 프리랜서 김성태]

인공지능에게 한국어를 학습시킨다는 게 어려웠을 것 같다.
맞다. 형태변화가 대체로 일정한 영어에 비해 한국어는 접두사와 조사가 다양하다. 접두사나 조사가 붙으면 단어가 다르게 인식될 수 있다. 이 때문에 의미의 최소단위인 형태소를 위주로 학습량을 늘렸다. 구글이 다국어를 공용으로 처리하기 위해 만든 버트와 결정적으로 다른 부분이다. 최근 10년간의 뉴스 기사와 위키피디아 등 백과사전을 위주로 학습시켰다. 학습한 텍스트의 양이 총 23기가바이트나 됐다. 형태소 갯수로치면 총 47억개로 구글의 버트보다 학습량 자체도 많다.
구글의 버트와 코버트, 어느 것이 우수한가.
코버트가 우수하다. 5개 평가항목에서 평균 4.5% 더 정확했다. 검색된 결과에서 질문의 정답이 들어있는지 아닌지를 판단하는 ‘단락 순위화’ 능력은 최대 7.4%나 더 정확했다.
구글이 개발한 알파고는 바둑으로 세계 유수의 프로 바둑 기사들을 이겼다. 그러나 게임의 규칙 안에서 연산하는 인공지능과 다변화하는 실제 세계에서의 언어를 학습하는 인공지능 엑소브레인에는 차이가 있다. [사진 유튜브 캡처]

구글이 개발한 알파고는 바둑으로 세계 유수의 프로 바둑 기사들을 이겼다. 그러나 게임의 규칙 안에서 연산하는 인공지능과 다변화하는 실제 세계에서의 언어를 학습하는 인공지능 엑소브레인에는 차이가 있다. [사진 유튜브 캡처]

인공지능 하면 알파고를 많이 떠올린다. 언어능력을 기본으로 한 엑소브레인과 뭐가 다르나.
알파고가 바둑으로 여러 프로기사를 이겼는데, 바둑과 같은 게임의 경우 규칙이 하나다. 승·패 게임의 규칙은 확실하다. 불확실성이 낮다. 그런데 사람이 사용하는 언어는 매일 매일 상황에 따라 변한다. 게임처럼 폐쇄된 세계가 아니라 수많은 불확실성이 있는 ‘오픈 월드’에서 답을 내야 한다. 답을 낼 수 있는 문제인지부터 불확실한데 이를 판단해야 한다. 그만큼 개발이 어렵고 고도의 기술이 요구된다.
기술을 홈페이지에 올려서 무료로 배포했는데.
그렇다. 홈페이지에서 신청서를 작성하면 간단하게 다운로드 받아 이용할 수 있다. 인공지능이 한국어를 정확히 인식하지 못해 어려움을 겪고 있는 국내기업을 위한 것이다. 지금은 버트를 이용하고 있지만, 곧 코버트를 이용하게 될 것이다. 향후 통·번역 등 인공지능 서비스가 보다 정확해지는 데 도움이 될 것이다.
향후 목표는.
코버트가 영어로 구사할 수 있도록 분야를 넓혀갈 것이다. 2013년부터 시작된 엑소브레인 사업의 최종 목표는 전문직종에 취업까지 가능하도록 인공지능의 언어능력을 올려놓는 것이다.

대전=허정원 기자 heo.jeongwon@joongang.co.kr

ADVERTISEMENT
ADVERTISEMENT