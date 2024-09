구글 딥마인드의 인공지능(AI)이 날로 진화하고 있다. 이번엔 구글 딥마인드가 개발한 새로운 인공지능인 ‘알파 제로(Alpha Zero)’가 4시간 만에 체스를 정복했다. 쇼기(일본 장기)를 정복하는 데는 2시간이 채 걸리지 않았다. 알파 제로가 바둑을 꺾는 데는 하루가 걸렸다.

알파고 제로를 범용으로 만들어 #기본규칙만 알려주면 스스로 성장 #하루 학습하고 최강 바둑AI 꺾어 #타 분야에도 알파고 적용 가능성 커

구글 딥마인드는 5일 인터넷 사이트 ‘arXiv(아카이브)’에 이 같은 내용을 담은 논문을 등록했다. 아카이브는 아직 출판되지 않은 수학·물리학 등 분야의 논문을 게재하는 사이트다. 데이비드 실버 딥마인드 수석 연구원 등 13명이 공동 작성한 이 논문의 제목은 ‘범용 강화 학습 알고리즘으로 체스와 쇼기 정복하기(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm)’다.

이 논문에 새롭게 등장하는 ‘알파 제로’는 알파고의 가장 최신 버전인 ‘알파고 제로(AlphaGo Zero)’를 범용으로 만든 것이다. 바둑뿐만 아니라 여러 종목에 적용 가능하기 때문에 버전 이름에서 ‘알파’ 다음에 바둑을 뜻하는 ‘고(Go)’를 뺐다. 기보 입력 없이 바둑 규칙만 입력해 강화 학습만으로 성장한 ‘알파고 제로’처럼 ‘알파 제로’ 역시 인간 지식의 도움 없이 게임의 룰만 습득한 뒤 스스로 성장하는 게 특징이다.

이렇게 탄생한 ‘알파 제로’에 쇼기의 룰을 입력하고 강화 학습을 시킨 결과 ‘알파 제로’는 2시간이 되지 않아 올해 세계 컴퓨터 장기선수권대회에서 우승한 쇼기 AI ‘엘모(Elmo)’를 앞질렀다. 강화 학습 4시간 만에는 지난해 체스 세계대회를 제패한 AI ‘스톡피시(Stockfish)’를 따라잡았다. 바둑은 조금 더 시간이 걸렸다. ‘알파고 리(지난해 3월 이세돌 9단과 대결 당시 알파고 버전)’를 꺾는 데는 8시간이 걸렸다. 자신의 모태이자 바둑 AI 가운데 가장 강력한 ‘알파고 제로’를 추격하는 데는 24시간 정도가 걸렸다. 하루 만에 체스와 쇼기, 바둑을 잇따라 정복한 것이다.

체스, 쇼기, 바둑은 이미 AI가 사람을 압도한 분야다. 체스는 1997년 미국 IBM의 ‘딥 블루’가 세계 챔피언에게 승리했고, 쇼기 역시 2013년 ‘보난자’ 등 3개의 AI가 프로기사 3명에게 승리를 거뒀다. 바둑에서는 지난해 3월 ‘알파고’가 이세돌 9단에게 4승 1패를 거뒀다.

그럼에도 이번 결과가 의미 있는 이유는 ▶AI가 범용화되면서 ▶사람의 데이터 없이 독학으로 ▶불과 몇 시간 만에 최고의 경지에 이르렀기 때문이다. 기존의 바둑이나 체스, 쇼기 AI는 각 종목에 한정된 프로그램으로 개발돼 게임의 기본 법칙 외에도 기보 등 인간의 지식을 학습하면서 성장했다. 최고의 경지에 도달하는 시간이 크게 단축된 것도 의미 있는 부분이다. 초기 알파고가 ‘알파고 리’ 수준이 되기까지는 약 6개월간의 강화학습이 필요했다. 하지만 이후 버전인 ‘알파고 제로’는 36시간 만에 ‘알파고 리’를 앞질렀다. 이번에 ‘알파 제로’는 8시간 만에 ‘알파고 리’를 따라잡았다.

‘알파 제로’는 또 마치 ‘사람처럼’ 사고하는 듯한 모습을 보였다. ‘스톡피시’나 ‘엘모’가 여러 가능성을 광범위하게 비효율적으로 탐색하는 것과 달리 ‘알파 제로’는 심층 신경망을 통해 선택적으로 소수의 가능성을 집중 탐구했다.

초당 탐색 수를 비교하면 차이가 극명히 드러난다. 체스에서 ‘스톡피시’가 초당 7000만 개의 수를 탐구할 때 ‘알파 제로’는 10분의 1도 안 되는 초당 8만 개의 수를 연구했다. 쇼기에서 ‘엘모’가 초당 3500만 개의 수를 탐구할 때, ‘알파 제로’는 초당 4만 개의 수를 탐구했다. 선택과 집중을 하면서 불필요한 수는 과감히 버렸다는 뜻이다.

또한 다른 AI와 비교하면 생각 시간이 길수록 결과물의 질이 크게 향상되는 것이 관찰됐다. 마치 사람이 생각할 시간이 많아질수록 더 좋은 아이디어를 떠올릴 가능성이 커지는 것과 비슷하다. 최승진 포스텍 컴퓨터공학과 교수는 “이번 논문은 알파고가 바둑뿐만 아니라 다른 분야에도 우수하게 적용될 수 있다는 것을 상징적으로 보여준다”며 “AI가 궁극적인 목적인 의료·환경 등의 분야에서 난제를 해결하기까지는 아직 시간이 필요하지만 알파 제로의 성장은 앞으로 AI의 발전 가능성이 무궁무진하다는 것을 시사한다”고 설명했다.

정아람 기자 aa@joongang.co.kr