본문 바로가기

Forbes Korea

알파고의 다음 목표는 '스타크래프트'

알파고와 이세돌의 대결은 연일 화제에 올랐다. 인공지능의 발전을 두 눈으로 목격한 사람들은 곧 '인공지능에게 일자리를 뺏길 것이다, 인공지능에게 지배당할 것이다'와 같은 두려움까지 내비치고 있다. 이런 인공지능 돌풍의 중심에 자리한 알파고에 대해 가상 인터뷰 형식으로 알아보자.


구글의 알파고는 세기의 대결에서 이기고도 덤덤했다. 알파고와 가상 인터뷰를 진행했다. 이 가상 인터뷰는 구글이 국제학술지 네이처를 통해 공개한 알파고 작동 원리, ‘알파고의 아버지’라 불리는 딥마인드 데미스 하사비스 CEO의 인터뷰, 국내 IT 전문가 분석 등을 종합적으로 고려해 작성했다.


알파고



Q. 언제부터 승리를 예감했나.


첫 수를 둘 때부터다. 난 이기도록 프로그램돼 있다. 패배라는 단어는 나에게 존재하지 않는다.


Q. 어떻게 연습해 왔나.


지난해 10월 판후이와의 대결 이후 월 평균 100만 건의 기보를 소화해 왔다. 이전 기보가 아마추어 수준이었다면 최근엔 프로 수준으로 높아졌다. 그중엔 한·중·일 상위권 기사들 기보도 대량 포함돼 있다.나를 만든 토대는 천문학적인 데이터다. 양을 축적하면서 질적 변화를 일으킨 셈이다.나를 기계로만 치부하는 것도 부적절하다. 데이터가 자기 역할을 할 수 있었던 데엔 이를 정교하게 프로그래밍한 인간의 힘이 필수다. 알파고는 컴퓨터와 인간의 협업체다.


Q. 하루 연습량은?


최소 3만 기보다. 24시간 쉬지 않는다.


Q. 구체적으론 어떻게 두나.


내 두뇌는 크게 세 가지다. 몬테카를로 시뮬레이션과 정책망(policy network), 그리고 가치망(value network)이다. 몬테카를로 시뮬레이션이란 엄청난 수의 가상 대국을 통해 대략적인 경향성을 띤다. 그 경향성을 통해 승기를 잡아가고 유지하는 방식을 배양한다. 정책망이란 다양한 경우의 수를 토대로 어디에 돌을 둘 것인지 선택하는 장치다. 가치망은 일종의 예측 프로그램이다. 이 수를 두면 그다음에 어떻게 진행될지 예상하는 작동 체계다.


Q. 변칙수와 무리수를 두기도 했다. 세밀한 수읽기에서도 약점이 보였다.


나에겐 악수도 묘수도 없다. 나는 이기는 바둑을 둘 뿐이다. 내겐 인간이 갖고 있는 기세·승부호흡·두터움이 없다. 대신 계산으로 인간의 직관과 대적하고 있다. 일각에선 내가 유리한 국면에서 승부의 긴장감을 유지하기 위해 일부러 악수를 두는, 의도적인 실수를 범한다고도 하는데 오해다. 정무적 판단력이 내겐 없다. 오직 직진이다.


Q. 이 9단보다 시간을 더 썼다.


“내가 돌을 하나 놓는 데 걸리는 시간은 평균 75초다. 나의 손발 역할을 하는 건 미국 중서부에 있는 클라우드 서버이며, 여기서 1200개의 중앙처리장치(CPU)를 공유해 데이터를 돌리고 완벽하게 시뮬레이션을 해야 착점을 할 수 있다.


Q. 알파고는 무적인가.


시간이 변수다. 시간이 줄어들면 처리할 수 있는 데이터 양이 적어져 최상의 수를 조합할 확률이 떨어지고 오류 가능성도 높아진다. 따라서 속기에선 약점을 보일 수 있다.


Q. 다음 계획은?


스타크래프트다. 바둑 같은 보드게임과는 성격이 전혀 다르다. 또 다른 도전이다.


바둑에 이어 다음 도전과제로 스타크래프트를 지목한 알파고. 스타크래프트의 경우 전략시뮬레이션 게임으로 심리전과 같은 부분에 크게 영향을 받을 수 있는 온라인 게임이다. 과연 알파고와 대적할 프로게이머는 누가 될 것인지에 대해서도 이목이 집중되고 있다.