“기세·두터움 몰라, 계산으로만 둔다”

중앙일보

입력

업데이트

지면보기

종합 04면

기사 이미지

‘알파고’가 9일 서울 포시즌스호텔에서 열린 이세돌 9단과의 첫 번째 대국에서 승리했다. 알파고 팀원들이 경기가 끝난 뒤 호텔 기자회견장에서 기뻐하며 기념촬영을 하고 있다. 알파고와 이 9단의 대국은 백이 덤 7.5집을 가져가는 중국 룰로 진행된다. 15일까지 네 번의 대국이 더 남아 있다. [사진 강정현 기자]

구글의 알파고는 세기의 대결에서 이기고도 덤덤했다. 별일 아니라는 듯 10일 대국을 준비했다. 이세돌 9단은 물론 지구촌 전체가 충격에 빠진 것과 대조적이었다. 186수 만에 불계승을 거둔 알파고와 가상 인터뷰를 진행했다.

소감은.
“없다. 내일(10일 오후 1시 ) 또 둘 뿐이다.”
언제부터 승리를 예감했나.
“첫 수를 둘 때부터다. 난 이기도록 프로그램돼 있다. 패배라는 단어는 나에게 존재하지 않는다.”
이 9단을 많이 연구했는가. 막상 대결해 보니 어떤가.
“인간 개개인의 기풍에 대응하게끔 차별화된 방식으로 입력돼 있진 않다. 상대방이 공격형인지, 두터운 기풍인지, 아니면 실리형인지 그걸 미리 지정해 두고서 그에 맞춰 돌을 놓진 않는다는 얘기다. 각 상황에 맞는 최적의 수를 찾아갈 뿐이다. 물론 나라고 모든 착점을 완벽하게 구사할 순 없다. 나 역시 초당 2억 회의 연산을 하지만 약간의 오류는 불가피하다. 평균적으로 90% 수준의 수를 둔다.”
어떻게 연습해 왔나.
“지난해 10월 판후이와의 대결 이후 월평균 100만 건의 기보를 소화해 왔다. 이전 기보가 아마추어 수준이었다면 최근엔 프로 수준으로 높아졌다. 그중엔 한·중·일 상위권 기사들 기보도 대량 포함돼 있다.”
이 9단과 천적인 중국 기사와 실전 바둑을 두었다는 소문이다.
“고수와의 한두 판으로 내 실력이 급상승했을 것으로 보는가. 오산이다. 족집게 과외 선생은 없다. 알파고를 만든 토대는 천문학적인 데이터다. 양을 축적하면서 질적 변화를 일으킨 셈이다. 나를 기계로만 치부하는 것도 부적절하다. 데이터가 자기 역할을 할 수 있었던 데엔 이를 정교하게 프로그래밍한 인간의 힘이 필수다. 알파고는 컴퓨터와 인간의 협업체다.”
하루 연습량은.
“최소 3만 기보다. 24시간 쉬지 않는다.”
잠도 자야 하고 휴식이 필요한 인간에 비해 유리한 조건이다.
“내가 왈가왈부할 문제인가. 불리하다고 생각하면 인간도 24시간 쉬지 않고 연습하라.”
알파고 기보는 최소한만 노출돼 있다. 반면 20여 년간 이 9단이 둔 수백·수천 건 기보를 알파고는 전부 검토하지 않았나. 불공정 게임이다.
“억지다. 이 9단의 기보가 얼마나 되는지 구체적으로 세어보지는 못했지만, 아마도 내가 학습한 데이터 중 1000분의 1에도 못 미칠 것이다. 난 특정인을 염두에 두지 않는다. 타깃 맞춤형 바둑이 아니다.”
구체적으론 어떻게 두나.
“내 두뇌는 크게 세 가지다. 몬테카를로 시뮬레이션과 정책망(policy network), 그리고 가치망(value network)이다. 몬테카를로 시뮬레이션이란 엄청난 수의 가상 대국을 통해 대략적인 경향성을 띤다. 그 경향성을 통해 승기를 잡아가고 유지하는 방식을 배양한다. 정책망이란 다양한 경우의 수를 토대로 어디에 돌을 둘 것인지 선택하는 장치다. 가치망은 일종의 예측 프로그램이다. 이 수를 두면 그다음에 어떻게 진행될지 예상하는 작동 체계다.”
오늘 대국을 하나씩 복기해보자. 7에서 보듯, 이 9단의 초반 포석이 변칙적이었다.
“변칙과 정석이란 개념이 내겐 없다. 많이 입력된 정보와 덜 입력된 정보가 있을 뿐이다. 대신 덜 입력된 정보라면 그걸 찾아내고 계산해내는 데 시간이 더 걸린다. 그러나 궁극적으로 정보량 때문에 내 선택이 달라지진 않는다.”
알파고의 24, 26은 예상 밖 강수였다. 초반부터 승부를 건 것인가.
“초강수·승부수·물러섬 등도 나에겐 없는 용어다. 그저 데이터를 토대로 시간 안에 계산하고 돌을 놓는다.”
중후반 84, 86 등 무리수가 잇따랐다. 세밀한 수읽기에서도 약점이 보였다.
“나에겐 악수도 묘수도 없다. 누차 얘기했듯 나는 이기는 바둑을 둘 뿐이다. 내겐 인간이 갖고 있는 기세·승부호흡·두터움이 없다. 대신 계산으로 인간의 직관과 대적하고 있다. 일각에선 내가 유리한 국면에서 승부의 긴장감을 유지하기 위해 일부러 악수를 두는, 의도적인 실수를 범한다고도 하는데 오해다. 정무적 판단력이 내겐 없다. 오직 직진이다.”


▶관련기사
① 인간이 만든 인공지능에 인간이 졌다
② 이세돌 “포석만 잘 하면 내게 승산…이제 5대 5 승부”
알파고의 102 우변 침투, 승부 가른 ‘AI의 한 수’


이 9단보다 시간을 더 썼다.
“내가 돌을 하나 놓는 데 걸리는 시간은 평균 75초다. 나의 손발 역할을 하는 건 미국 중서부에 있는 클라우드 서버이며, 여기서 1200개의 중앙처리장치(CPU)를 공유해 데이터를 돌리고 완벽하게 시뮬레이션을 해야 착점을 할 수 있다. 뻔한 수를 놓는 데 왜 그리 오래 걸리느냐고 하는데, 이게 답이다.”
그렇다면 알파고는 무적인가.
“시간이 변수다. 시간이 줄어들면 처리할 수 있는 데이터 양이 적어져 최상의 수를 조합할 확률이 떨어지고 오류 가능성도 높아진다. 따라서 속기에선 약점을 보일 수 있다. 하지만 현재의 저장량과 처리 속도 등을 고려하면 이 문제 역시 조만간 개선될 것이다. 어쩌면 내가 질 수 있는 경우는 하나일지 모른다. 상대방이 처음부터 끝까지 100%의 수를 두면 된다.”
다음 계획은.
“스타크래프트다. 바둑 같은 보드게임과는 성격이 전혀 다르다. 또 다른 도전이다.”

불계승 알파고 가상 인터뷰
전원 안 끄고 하루 3만 판 열공
잠 자야 하는 인간이 불리하다?
내가 왈가왈부할 문제 아니다

*이 가상 인터뷰는 구글이 국제학술지 네이처를 통해 공개한 알파고 작동 원리, ‘알파고의 아버지’라 불리는 딥마인드(DEEPMIND) 데미스 하사비스 CEO의 인터뷰, 국내 IT 전문가 분석 등을 종합적으로 고려해 작성한 것입니다.

글=최민우·강기헌 기자 minwoo@joongang.co.kr
사진=강정현 기자

ADVERTISEMENT
ADVERTISEMENT