AlphaGo Zero的进化意义

林育中
2017-10-26
分享
Line

AlphaGo Zero采单纯的强化学习，不用输入原始数据，仅凭自我训练建立模式、函数，用较少的资源、较短的学习时间，完胜之前由打谱学习的各式版本。DeepMind

10月19日《Nature》刊登了一篇题为“Mastering the game of Go without human knowledge”的文章。做为前1、2年AlphaGo人工智能所向披靡新闻的遗绪，媒体只轻描淡写的提起新版的AlphaGo Zero只花了3天学习就以100：0的悬殊比数完胜以前所有的版本，包括AlphaGo Fan、AlphaGo Lee以及最强的AlphaGo Master。因为没有棋赛、没有事件，报导到此为止。

这件事在基础科学上当然是重要的，所以能上《Nature》。这次文章的重点是以前诸版本AlphaGo的学习方式是监督学习(supervised learning)与强化学习(reinforcement learning)，神经网络架构为卷积神经网络(Convolutional Neural Network；CNN)与分离政策(separated policy)－分开评估位置与棋步的价值；AlphaGo Zero用强化学习(reinforcement learning)自我训练，神经网络架构为剩余神经网络(Residual Neural Network；RNN)与双重政策(dual policy)－联合评估位置与棋步的价值。

其中最大的差异是监督学习加强化学习对比单纯的强化学习：前者是指输入的数据先经过人类的标志(label or tag)，经由学习这些人为处理过的数据，并反馈这些学习成果，由人工智能试图找出一个模式或函数，用以预测或决策；单纯的强化学习不用输入原始数据，仅凭自我训练建立模式、函数。单纯的强化学习或无监督学习一直是人工智能努力的目标，因为数据库难得，而经专家标志过的数据更是稀有。

用白话来说，以前的AlphaGo要先打谱学棋。黄士杰博士讲他在开始训练 AlphaGo 围棋时请他学弟、妹收集了许多棋谱，后来使用的是Gokifu棋谱数据库。AlphaGo Zero不仅棋谱没有标志，连棋谱也没有！就像电影《太极一》的副标－从零开始！它完全是在只给定明确的围棋规则后，自己跟自己下棋、学习长棋的。它用较少的资源(仅4颗TPU)、较短的学习时间(3天)学习，然后完胜之前由打谱学习的各式版本，这个例子是单纯强化学习一个优异的例子。

但是科学上的意义与商业上看到的意义是不同的。对于除了医疗数据外大数据比较缺乏的台湾，这个单纯强化学习的例子告诉我们在有些应用上没有大数据也可以达成优异的结果，这些领域七大黑洞公司所占的先天优势就少很多，也是新入者可以考虑的领域。另外，研究发现尽管在对局中AlphaGo Zero占尽优势，但是在预测职业棋手的棋着时，先前以打谱学棋的版本略胜一筹。这显示人类行为的不完全理性特质，这也就是说在人类行为分析以及预测的应用上，人类还有一些可以发挥的空间。

如果你恰好也下围棋的话，这个研究还另有人文趣味。首先，尽管AlphaGo Zero在学习过程中像人类的学习依次进入重视吃子、发展死活的概念到最终关注全局的均衡，并且逐渐发展出开局、手筋、死活、劫、官子、先手、杀龙、型、势、地域等概念，但征子的概念在它学习较晚的阶段才发展出来，这很令人费解。它也发展出新定石，譬如在星位(四4)旁边(四5)的碰，这对于已经下了几千年的围棋实在很令人惊讶，尤其国内围棋以前是双方各在星位摆座子的，没有小目、目外、三3、高目等的，几千年来人类竟然没有发展出这些定石。

最后，AlphaGo Zero在训练时间够长、棋力渐近饱和时，自己对战的结果总是白半目胜，围棋先手的贴目数要改了！