인공지능(AI) 바둑 프로그램 ‘알파고’의 끝은 어디일까. 이미 인간을 훌쩍 뛰어넘은 알파고가 더 강력해져 돌아왔다. 돌아온 알파고는 인간의 지식을 받아들이지 않고 스스로 성장했다.

과학전문지 네이처에 논문 실려 #기보 입력 안 한 최신 ‘알파고 제로’ #강화학습만으로 최고 기력 달성 #커제와 대결 ‘알파고 마스터’ 능가 #“알파고 스스로 자신의 스승 됐다”

과학 전문 국제학술지 ‘네이처(Nature)’에 19일 ‘사람의 지식 없이 바둑 마스터하기(Mastering the game of Go without human knowledge)’라는 논문이 실렸다. 저자는 데미스 허사비스 구글 딥마인드 최고경영자와 데이비드 실버 수석개발자, 아자황 박사 등 15명이다.

논문에 따르면 새 버전의 알파고는 기보를 전혀 입력하지 않고 스스로 훈련하는 강화학습만으로 기존 알파고를 뛰어넘었다. 새 버전은 ‘0’에서 새로 시작했다는 뜻에서 ‘알파고 제로(AlphaGo Zero)’로 이름 붙였다.

이로써 소문만 무성했던 ‘기보 없이 성장하는 알파고’의 존재가 확인됐다. 허사비스 CEO는 지난 1월 독일 뮌헨에서 열린 ‘2017 디지털·라이프·디자인(DLD) 콘퍼런스’에서 “알파고가 새로운 한계를 시험하고 있다”며 “두 번째 단계로 알파고에 기보를 입력하지 않고 처음부터 자체 강화학습만으로 기력을 향상하는 테스트를 하고 있다”고 말했다. 하지만 그 결과에 대해선 알려진 바가 없었다.

8000만 건 강화학습 … 40일 만에 성장

이름처럼 ‘알파고 제로’는 출발선부터 이전 버전과 전혀 다르다. 이전 알파고는 먼저 사람의 기보를 입력한 다음 강화학습을 통해 기력을 끌어올렸다. 이 때문에 처음부터 어느 정도는 기존 바둑의 기본적인 틀이나 모양 등을 습득한 상태였다. 그다음 사람처럼 반복적인 훈련 과정을 통해 기력을 향상하는 방식으로 개발이 진행됐다.

하지만 ‘알파고 제로’는 기보를 입력하지 않기 때문에 바둑에 대한 사전 지식이 전혀 없었다. 모든 것을 처음부터 스스로 깨우쳤다. 훈련은 무작위 착수에서부터 시작했고, 약 8000만 건의 강화학습을 통해 스스로 답을 찾아 나갔다. 구글 딥마인드의 표현대로 “알파고가 스스로 자신의 스승이 된 것”이다.

구글 딥마인드 측은 논문을 통해 “우리는 바둑의 기본 룰을 제외하고는 기보나 정석, 포석 등 가이드라인을 전혀 입력하지 않았다. 강화학습만 반복한 결과, 알파고 제로가 기존의 알파고보다 높은 경지에 다다른 것을 확인할 수 있었다”고 밝혔다. 이어 “심지어 개발 기간도 과거 버전일 때와 큰 차이가 나지 않았고, 성장 속도도 안정적이고 점진적이었다”고 밝혔다.

사람의 바둑과 다른 전략 깨우쳐

이렇게 개발된 알파고 제로는 기존 알파고를 모두 뛰어넘었다. 알파고 제로는 이전 알파고 가운데 가장 강력한 ‘알파고 마스터’를 상대로 90%의 승률을 기록했다. 알파고 마스터는 지난 5월 중국의 커제 9단에게 3대0으로 승리했던 버전이다. ‘논문에 따르면 알파고 제로와 알파고 마스터가 제한시간 2시간으로 100번 맞붙은 결과, 알파고 제로가 89승11패로 앞섰다.

알파고 제로의 놀라운 기력은 수치로도 확인할 수 있다. ‘ELO 레이팅(바둑 실력을 수치화한 국제 바둑 랭킹)’으로 표기한 알파고 제로의 점수는 5185점이다. 알파고 마스터(4858점)보다 300점 이상 높다. 지난해 3월 이세돌 9단과 맞붙었던 알파고 버전(3739점)보다는 약 1500점, 2015년 10월 판후이 2단과 맞붙었던 알파고 버전(3144점)보다는 2000점 이상 더 높다.

더 놀라운 사실은 알파고 제로가 현 단계에 오르는 데 걸린 기간이 40일에 불과했다는 점이다. 논문에 따르면 알파고 제로가 이세돌 9단과 대결했을 버전의 알파고를 앞선 건 학습이 시작된 지 불과 36시간 만이었다. 학습이 시작된 지 72시간 뒤에는 이세돌 9단과 대결했던 버전의 알파고를 상대로 100전100승을 거뒀다.

스스로 성장한 알파고가 기보 입력을 바탕으로 성장한 알파고를 넘어섰다는 것은 어떤 의미일까. 구글 딥마인드 측은 논문을 마무리하며 “학습 초기 단계에서는 기보를 입력한 알파고가 수행 능력이 앞서 나가고, 프로기사의 착수를 더 잘 이해했다. 하지만 시간이 지날수록 스스로 강화 학습한 알파고의 경기력이 전반적으로 훌륭한 것을 관찰할 수 있었다”며 “사람이 그간 쌓아온 바둑에 대한 접근법과는 질적으로 다른 전략을 알파고 제로가 깨우친 것 같다”고 분석했다.

"강화학습, 지도학습보다 좋은 결과”

감동근 아주대 전자공학과 교수는 “지도학습(기보 입력 학습)은 가이드라인을 제시해 편견이나 고정관념에 갇히는 한계 상황이 발생할 수 있다”며 “이 논문은 바둑의 영역에서 강화학습이 지도학습보다 좋은 결과를 낼 수 있다는 사실을 증명했다는 점에서 의미가 있다”고 설명했다.

정아람 기자 aa@joongang.co.kr