识别语音和影像模态 让对话机器人得以察言观色 智能应用 影音
DForum0522
Event

识别语音和影像模态 让对话机器人得以察言观色

中央大学信息工程学系教授蔡宗翰。
中央大学信息工程学系教授蔡宗翰。

擅于吟诗作对、素有「AI 界李白」称誉的NTU IoX中心专案主持人中央大学信息工程学系教授蔡宗翰,发表的研究主题为「多模态对话机器人」,象徵此对话机器人不只理解语言、文字,还能观察人的动作与表情,既可察言又能观色,足以克服当今AI对话理解系统「无法精准掌握用户意图与情绪」之罩门。

蔡宗翰表示,综观多模态对话机器人架构,首先透过多模态信息整合模块,融合接收到的多种信息,再透过对话管理模块决定回应方式。但回应方式包含多种模态,必须将信息裂解至多种模态分别输出。例如可用的模态包含了文字或语音回应、选项回应、影像回应、表情回应、实体动作回应等等。

蔡宗翰以Meccanoid 2.0机器人组装为情境,阐述如何训练多模态对话机器人担任新手的助教。Meccanoid 2.0有头、身体、脚等不同部件,其间需靠螺丝锁定,但假使某一步骤的方向错误,后面就锁不起;于是蔡宗翰请人实际组装,收集他们在组装过程中的提问,但最终仅收到几十个问题,无法满足机器学习训练要求。

蔡宗翰决定分开处理语言、影像两个模态。针对语言,藉由世界最大的Amazon Mechanical Turk群众外包平台募集180人,请他们就原来的几十个问题变换问法,产生3,800个问题;影像部份采取「数据增补」概念,利用人们将特定部件转来转去的影像模态,巧妙地充实训练数据。

建立语言与影像模态的目的,即是制作「多模态意图分类器」。当有人提出「螺丝该怎麽锁」问句,便可利用现今最强大的BERT模型识别其语意;尽管前述问句并未指明究竟是Meccanoid 2.0哪个部位的螺钉,但可透过使用者发问时的影像,经由Yolo-V3神经网络产生物件识别结果,就能了解他是在组装哪个部位的过程卡关,如此对话机器人便能给予准确的指导与协助。