【高速运算应用-学研之星】深度强化式学习人工智能技术走入真实世界的应用 智能应用 影音
Event
DFORUM

【高速运算应用-学研之星】深度强化式学习人工智能技术走入真实世界的应用

  • 林佩莹台北

交通大学吴毅成教授聚焦AI如何从虚拟环境走入真实世界的应用
交通大学吴毅成教授聚焦AI如何从虚拟环境走入真实世界的应用

AlphaGo人工智能为其软件与世界围棋棋王李世乭对弈而一战成名,许多专家认为至少还要十年才能达成,由此人工智能(AI)开始在各个领域崭露头脚。2017年AlphaGo的开发团队进一步发表 AlphaGo Zero,采用更进阶的「深度强化式学习(Deep Reinforcement Learning;DRL)」技术,其特点在于AI训练过程无需数据科学专家的棋谱数据,一切从「零知识」开始,让DRL的研究进入新的里程碑。交通大学吴毅成教授旗下研究团队参与科技部AI研究计划「DRL技术之应用研究」,聚焦AI如何从虚拟环境走入真实世界的应用。

2020年2月该团队刊登论文于AAAI-20,发表改良AlphaGo Zero软件的新方法,称为「PBT (Population Based Training)」,不单以AlphaGo Zero自我对弈方式训练,而是同时训练十多组程序随机互打,以获得更好的训练成果,亦省下近 10 倍的计算资源。

值得一提的是,这个训练成果超越了Facebook的FAIR研究中心所研发的OpenGo成果,而OpenGo围棋程序是当时同规格中最强开放源码围棋程序,吴毅成团队可以将获胜率从起初47%提升到74%,这种成长超过20%以上的技术,是一项重大突破的研究成果。

DRL的研究第一阶段利用持续精进演算法,延伸用在下围棋上的AI应用,吴毅成一直认为围棋之于AI的研究,好比果蝇之于生物界遗传学上的贡献,而围棋的千变万化特性是训练DRL很适合的应用问题。

目前吴毅成团队已进入第二个阶段的应用,将打造一个强度够强、行为像人的电玩游戏机器人,称为「AI Bot」。透过DRL技术开启与电脑游戏公司合作,并利用AI技术,改善如游戏本身的拟人化、具备多种强度、多变行为等游戏的设计需求,并协助开发者进行游戏弱点侦测,及有效降低游戏公司开发AI的门槛与资金,提升台湾电脑游戏产业的前瞻发展。

第三阶段则朝向整合虚拟与真实技术的研究,选择自驾模型赛车做为试炼的场域,其成果展现于2019年参加在Las Vegas举办的实体赛车竞赛总决赛,一举获得世界赛第三名的佳绩。过去这些实体应用如机器人研究已累积发展多年经验,精确度的调校,大多需要仰赖人为编写规则或繁复工具才能取得有用特徵,最后再利用演算法归纳以做出最佳决策,对DRL 的研究而言,与其靠人为编写规则与紧密的修改演算法,不同一切从零开始,靠同时训练多组程序随机互打而调整弹性的作法,该技术带来多样性的解决办法。

由于平行运算上的需求,DRL的研究一直需要大量的运算资源,吴毅成认为国网中心提供TWCC (Taiwan Computing Cloud Service)的高速运算资源,对台湾的学术研究,或是产业界发展新的技术与产品有非常巨大效益。他举前述的围棋为例做对比,Facebook掷上亿美元的研发经费,而台湾的研究团队相对有限仅数百万的经费,其后面主要运算资源即是来自TWCC平台,吴毅成的研究团队表示,若无TWCC平台庞大的支持,是难以达成的。

DRL以自我学习为基础的AI技术才刚起步,前面仍有许多重要的挑战横亘其间,透过不断加强自我学习的演算法之后,已经从下围棋、玩电玩与模拟自驾赛车的场域中,找到令人刮目相看的结果,这些研究未来应能帮助解决许多实体应用问题包括无人机、自驾车等生活应用问题,这些都需要TWCC的重要奥援,因此他由衷期望国网中心能够在既有的步伐上,继续往前迈进,并造福整个台湾的AI研究的社群。


关键字