围棋让三子还能击败前代,最强AlphaGo如何炼成?
来源:媒体聚焦   发布时间:2017-11-19 01:55:47    次浏览   


     
     
     


      △ 左:Julian Schrittwieser 右:David Silver
     刚刚,这个史上最强围棋AI的两位主要开发者,David Silver和Julian Schrittwieser,做客知名网站reddit,展开一场超级问答AMA。
     他们是谁?
     比较关注AlphaGo的朋友对其中一位应该不会陌生,David Silver是AlphaGo团队负责人,也是上一代AlphaGo的主要作者。从首尔到乌镇,都有他的身影。关于David Silver我们在之前报道黄士杰的文章里也有提及。
     名字更长的Julian Schrittwieser,是这次新一代AlphaGo的三位并列主要作者之一,而且非常年轻。2013年,Schrittwieser本科毕业于奥地利的维也纳技术大学;同年9月,Schrittwieser加入DeepMind。
     此前DeepMind关于AlphaGo和星际2的研究论文中,Schrittwieser也都有参与。
     OK,背景交代到这里。
     干货时间开始。
     


     以下问答经过量子位编辑整理。
     最强AlphaGo是怎么炼成的
     提问:深度强化学习本来就是出了名的不稳、容易遗忘,请问你们是如何让Zero的训练如此稳定的?
     下图显示了在自我对弈强化学习期间,AlphaGo Zero的表现。整个训练过程中,没有出现震荡或者灾难性遗忘的困扰。
     


     David Silver:AlphaGo Zero所用的算法,与策略梯度、Q-learning之类的传统算法完全不同。通过使用AlphaGo搜索,我们大大改进了策略和自我对弈结果,然后用简单的基于梯度的更新来训练下一个策略和价值网络。
     这似乎比渐进的、基于梯度的策略改进要稳定得多,梯度策略可能会忘记之前的优化。
     提问:为什么这次AlphaGo Zero就训练了40天?训练3个月会怎么样?
     David Silver:我想这是一个人力和资源优先级的问题。如果我们训练了3个月,我想你还会好奇训练6个月会发生什么 :
     提问:看完论

上一页: 是否担心被指控涉入庆富案?马英九听到后大笑三声    下一页:Pixel2发货推迟谷歌将免费赠送一个LiveCase