【高速运算应用-学研之星】深度强化式学习人工智能技术走入真实世界的应用

林佩莹／台北
2020-11-16
分享

交通大学吴毅成教授聚焦AI如何从虚拟环境走入真实世界的应用

AlphaGo人工智能为其软件与世界围棋棋王李世乭对弈而一战成名，许多专家认为至少还要十年才能达成，由此人工智能(AI)开始在各个领域崭露头脚。2017年AlphaGo的开发团队进一步发表 AlphaGo Zero，采用更进阶的「深度强化式学习(Deep Reinforcement Learning；DRL)」技术，其特点在于AI训练过程无需数据科学专家的棋谱数据，一切从「零知识」开始，让DRL的研究进入新的里程碑。交通大学吴毅成教授旗下研究团队参与科技部AI研究计划「DRL技术之应用研究」，聚焦AI如何从虚拟环境走入真实世界的应用。

2020年2月该团队刊登论文于AAAI-20，发表改良AlphaGo Zero软件的新方法，称为「PBT (Population Based Training)」，不单以AlphaGo Zero自我对弈方式训练，而是同时训练十多组程序随机互打，以获得更好的训练成果，亦省下近 10 倍的计算资源。

值得一提的是，这个训练成果超越了Facebook的FAIR研究中心所研发的OpenGo成果，而OpenGo围棋程序是当时同规格中最强开放源码围棋程序，吴毅成团队可以将获胜率从起初47%提升到74%，这种成长超过20%以上的技术，是一项重大突破的研究成果。

DRL的研究第一阶段利用持续精进演算法，延伸用在下围棋上的AI应用，吴毅成一直认为围棋之于AI的研究，好比果蝇之于生物界遗传学上的贡献，而围棋的千变万化特性是训练DRL很适合的应用问题。

目前吴毅成团队已进入第二个阶段的应用，将打造一个强度够强、行为像人的电玩游戏机器人，称为「AI Bot」。透过DRL技术开启与电脑游戏公司合作，并利用AI技术，改善如游戏本身的拟人化、具备多种强度、多变行为等游戏的设计需求，并协助开发者进行游戏弱点侦测，及有效降低游戏公司开发AI的门槛与资金，提升台湾电脑游戏产业的前瞻发展。

第三阶段则朝向整合虚拟与真实技术的研究，选择自驾模型赛车做为试炼的场域，其成果展现于2019年参加在Las Vegas举办的实体赛车竞赛总决赛，一举获得世界赛第三名的佳绩。过去这些实体应用如机器人研究已累积发展多年经验，精确度的调校，大多需要仰赖人为编写规则或繁复工具才能取得有用特徵，最后再利用演算法归纳以做出最佳决策，对DRL 的研究而言，与其靠人为编写规则与紧密的修改演算法，不同一切从零开始，靠同时训练多组程序随机互打而调整弹性的作法，该技术带来多样性的解决办法。

由于平行运算上的需求，DRL的研究一直需要大量的运算资源，吴毅成认为国网中心提供TWCC (Taiwan Computing Cloud Service)的高速运算资源，对台湾的学术研究，或是产业界发展新的技术与产品有非常巨大效益。他举前述的围棋为例做对比，Facebook掷上亿美元的研发经费，而台湾的研究团队相对有限仅数百万的经费，其后面主要运算资源即是来自TWCC平台，吴毅成的研究团队表示，若无TWCC平台庞大的支持，是难以达成的。

DRL以自我学习为基础的AI技术才刚起步，前面仍有许多重要的挑战横亘其间，透过不断加强自我学习的演算法之后，已经从下围棋、玩电玩与模拟自驾赛车的场域中，找到令人刮目相看的结果，这些研究未来应能帮助解决许多实体应用问题包括无人机、自驾车等生活应用问题，这些都需要TWCC的重要奥援，因此他由衷期望国网中心能够在既有的步伐上，继续往前迈进，并造福整个台湾的AI研究的社群。

关键字

交大 AlphaGo

加入已选取到「关键字追踪」什麽是「关键字追踪」