识别语音和影像模态让对话机器人得以察言观色

台北讯
2019-12-18
分享

中央大学信息工程学系教授蔡宗翰。

擅于吟诗作对、素有「AI 界李白」称誉的NTU IoX中心专案主持人中央大学信息工程学系教授蔡宗翰，发表的研究主题为「多模态对话机器人」，象徵此对话机器人不只理解语言、文字，还能观察人的动作与表情，既可察言又能观色，足以克服当今AI对话理解系统「无法精准掌握用户意图与情绪」之罩门。

蔡宗翰表示，综观多模态对话机器人架构，首先透过多模态信息整合模块，融合接收到的多种信息，再透过对话管理模块决定回应方式。但回应方式包含多种模态，必须将信息裂解至多种模态分别输出。例如可用的模态包含了文字或语音回应、选项回应、影像回应、表情回应、实体动作回应等等。

蔡宗翰以Meccanoid 2.0机器人组装为情境，阐述如何训练多模态对话机器人担任新手的助教。Meccanoid 2.0有头、身体、脚等不同部件，其间需靠螺丝锁定，但假使某一步骤的方向错误，后面就锁不起；于是蔡宗翰请人实际组装，收集他们在组装过程中的提问，但最终仅收到几十个问题，无法满足机器学习训练要求。

蔡宗翰决定分开处理语言、影像两个模态。针对语言，藉由世界最大的Amazon Mechanical Turk群众外包平台募集180人，请他们就原来的几十个问题变换问法，产生3,800个问题；影像部份采取「数据增补」概念，利用人们将特定部件转来转去的影像模态，巧妙地充实训练数据。

建立语言与影像模态的目的，即是制作「多模态意图分类器」。当有人提出「螺丝该怎麽锁」问句，便可利用现今最强大的BERT模型识别其语意；尽管前述问句并未指明究竟是Meccanoid 2.0哪个部位的螺钉，但可透过使用者发问时的影像，经由Yolo-V3神经网络产生物件识别结果，就能了解他是在组装哪个部位的过程卡关，如此对话机器人便能给予准确的指导与协助。

关键字

中央大学 AI 机器人

加入已选取到「关键字追踪」什麽是「关键字追踪」

识别语音和影像模态 让对话机器人得以察言观色

识别语音和影像模态让对话机器人得以察言观色