심층학습기술(Deep Learning)과 강화학습기술(Reinforcement Learning) 조합으로 최강의 전투력 확보

구글의 알파고가 바둑최강 이세돌을 격파하면서 알파고의 학습 방법에 대한 관심이 높아지고 있다. 구글은 아직까지 알파고의 동작 원리에 대한 정확한 설명을 내놓지 않고 있어 궁금증은 더욱 증폭되고 있는 상황이다.

이세돌 9단과 알파고의 바둑 대결로 전세계적으로 한층 더 유명해진 구글 딥마인드는 2010년 영국 런던에서 인공지능 기업으로 창업했다. 이후 2014년 구글이 4,800여억원에 인수한 후 인공지능 바둑 프로그램인 알파고를 개발함으로써 세상에 널리 알려지게 되었다.

본지가 확인한 바에 따르면 알파고의 소프트웨어에는 바둑의 정석이 적용되지 않은 것으로 알려져 있다.

대신에 그동안 이루어졌던 대국 결과를 신경망에 입력하는 교사방식의 학습과 AI 바둑기사 끼리의 대국에서 승리하면 상금을 주는 강화학습 방식만을 사용하여 세계 최강의 바둑기사를 격파하기에 이르렀다.

알파고는 2105년 10월까지 1,000여명의 전세계 프로바둑 기사와 모두 3,000만번의 대국을 벌임으로써, 바둑역사 자체에 새로운 기록을 남겼다.

딥마인드가 개발한 바둑 AI는 심층학습기술(Deep Learning)과 강화학습기술(Reinforcement Learning)을 조합시켰다는 점에서 독창적인 기술로 평가받는다.

심층 학습이란 소위 교사방식의 학습으로 이번의 경우 역대 유명 바둑기사들의 기보를 데이터베이스화하여 바둑 AI를 만드는 것이며, 강화학습 방식이란 빅데이터를 이용해 만든 바둑 AI 끼리 대국을 시켜 이긴 바둑 AI에 상금을 주면서 이긴 쪽을 계속 진화시켜 나가는 방식이다.

이런 학습 방식은 비디오 게임에서 이긴 경우의 알고리즘을 개발팀이 계속 강화시켜가는 것과 똑같은 이치이다.
 

조남욱 기자
저작권자 © 데일리그리드 무단전재 및 재배포 금지