ADVERTISEMENT

신(新) AI ‘알파 제로’ 4시간 만에 체스 정복, 바둑은 하루 걸려

중앙일보

입력

업데이트

구글 딥마인드의 새로운 인공지능(AI) '알파 제로(Alpha Zero)'가 4시간 만에 체스를 정복했다. 바둑은 하루가 걸렸고, 쇼기(일본 장기)는 2시간이 채 걸리지 않았다.

구글 딥마인드는 이 같은 내용을 담은 논문을 5일 'arXiv(아카이브)'에 등록했다. 논문 제목은 '범용 강화 학습 알고리즘으로 체스와 쇼기 정복하기(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm)'. 아카이브는 수학, 물리학, 천문학 등 분야의 출판 전 논문을 제공하는 곳이다.

논문에 따르면 '알파 제로'는 인간의 기보 없이 성장한 '알파고 제로'을 범용으로 만든 버전이다. 이 때문에 이름에서 '알파' 다음에 바둑을 뜻하는 '고(Go)'를 뺐다.

'알파 제로'는 자신의 모태인 '알파고 제로'처럼 인간 지식의 도움 없이, 게임의 룰만 입력해 스스로 성장하는 게 특징이다. 차이점이 있다면 '알파고 제로'가 바둑에 한정된 것과 달리, '알파 제로'는 여러 게임에 적용될 수 있도록 알고리즘을 범용화했다.

이렇게 탄생한 '알파 제로'에 쇼기의 룰만 입력하고 강화 학습한 결과, '알파 제로'는 2시간이 채 되지 않아 현존하는 가장 강한 쇼기 AI '엘모(Elmo)'를 앞질렀다. 체스 역시 강화 학습 4시간 만에 가장 강한 체스 AI '스톡피쉬(Stockfish)'를 따라잡았다.

바둑은 조금 더 시간이 걸렸다. 지난해 3월 이세돌 9단과 대결 당시의 버전인 '알파고 리'를 이기는 데는 8시간 정도가 소요됐다. 자신의 모태이자, 기존 바둑 AI 가운데 가장 강한 '알파고 제로'를 추격하는 데는 24시간 정도가 걸렸다.

'알파 제로'는 다른 AI와 비교해 마치 '사람처럼' 사고하는 듯한 양상도 보였다. '스톡피쉬'나 '엘모'가 여러 가능성을 광범위하게 비효율적으로 탐색하는 것과 달리, '알파 제로'는 심층 신경망을 통해 선택적으로 소수의 가능성을 집중 탐구했다.

초당 탐색 수를 비교하면, 체스에서 '스톡피쉬'가 초당 7000만개의 수를 탐구할 때 '알파 제로'는 초당 8만개의 수를 연구했다. 쇼기에서 '엘모'가 초당 3500만개의 수를 탐구할 때, '알파 제로'는 초당 4만개의 수를 탐구했다.

또한 다른 AI와 비교할 때, 생각 시간이 길수록 결과물의 질이 크게 향상되는 것을 관찰할 수 있다. 마치 사람이 생각할 시간이 많아질수록 더 좋은 아이디어를 떠올릴 가능성이 커지는 것처럼 말이다.

논문은 바둑용에서 출발한 AI가 훨씬 짧은 시간 동안 효율적인 방식으로 여러 게임을 정복했다는 것을 다시 강조하며 끝을 맺는다. '알파 제로'의 등장으로 '알파고'의 범용화는 게임을 넘어 다른 분야로 더욱 빠르게 진행될 것으로 보인다.

정아람 기자 aa@joongang.co.kr

ADVERTISEMENT
ADVERTISEMENT