视讯识别的技术与机会

徐宏民
2020-04-28
分享
Line

近年来深度学习技术中卷积网络(CNN)的高度发展，才激励产业与学界重新检视视讯识别的机会。法新社

急速增加的摄影机使得监看人力逐渐无法负荷，「视讯识别」一直是长久以来安全监控领域的杀手级应用。但碍于技术发展，过去不曾真正落实，直到近年来深度学习技术中卷积网络(CNN)的高度发展，才激励产业与学界重新检视视讯识别的机会。在应用上，视讯识别可以满足诸多需求：例如影片拍摄分类，安全监控中的摔倒侦测、尾随进入建筑、爬墙，购物情境中的产品销售热区、结帐安全，自驾车中的事件判断，或是医疗照护中的老人看护、复健动作侦测等。

与影像识别不同，许多视讯事件必须透过连续画面才能判断：例如单看手部高举，无法分辨接下来的动作是抓头发或是出手打人。所以视讯识别必有效的参考多个连续画面来做判断，可以想像运算量以及模型复杂度会比单画面的影像识别来得高。

在大分类上，视讯识别可以区分为「视讯分类」(video classification)以及「动作识别」(action recognition)。前者仅需将影片分门别类(如婚礼、会议、晚会、运动类型等)，一般只要参考场景或主要物件等就可以大致分类完成。研究发现，多张画面对于正确率的提升并不大，一般认为视讯分类(和影像分类一样)是目前相对成熟的技术。视讯分类技术时常用来整理大量的视讯数据库如个人的拍摄、电影制作、甚至是广告分类、追踪等，偏向于消费者端的需求。

在动作识别上，连续画面以及物件的动线影响了识别的效果。所以过去的研究致力于如何有效描述画面变化。许多人提出先使用CNN来纪录每个画面的内容(场景以及物件)，再结合时序模型(如LSTM)来抓取画面的动态变化，所以类似于ConvLSTM的模型成为个中主流。另外传统电脑视觉中的光流(optical flow)技术可以描述连续画面间各个像素的可能移动方向，也被拿来作为「动态」画面，成为视讯识别中相当重要的信息来源，但缺点是速度相当缓慢，因为计算画面间的光流十分耗时，而且无法直接与深度学习网络端对端的结合。有人主张使用CNN来逼近光流、或是直接使用视讯压缩标准中的motion vector等来取代光流的高成本运算。

既然利用连续画面识别十分重要，目前的主流做法是直接将2D的卷积加上额外时间维度扩充为3D卷积，不过会大量增加模型的参数以及运算量。关键的问题是各个视讯事件(动作)有不同的时序速度，如何决定适合的时间分辨率成了棘手的问题。还好，最近提出的SlowFast模型提供了相当不错的均衡方式。

视讯识别在安全领域有极高影响性，比如在工程、工厂的运作中，动作侦测十分关键，决定了良率以及安全性。但这方面的侦测需要关注更多细节，例如操作人员是在敲击？旋转？还是拉动某个开关？这些差异可能只在细微的部份呈现，极具挑战。因此近年兴起「细精度动作分类」，可以加上类似attention模块来解决精细关注的问题。甚至利用人体姿态识别自动标记出人体各个关节点，接着参考关节点的移动来进行细部识别。

多样性摄影机在各个应用场域快速成长，已无法使用人力监控，特别是在许多高成长的应用场域，如交通、零售、工业安全、医疗照护等，更需要智能化的判断。而且许多新颖的应用还没被开发，如「视讯预测」：判断被稽查的嫌疑犯是否有开枪意图、家中监控的摄影机在小孩发生危险前能预先提出警报。摄影机为国内重要的产业链，对于视讯识别的技术发展，实在不能轻忽。

徐宏民
台大资工系教授

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士，专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员，慧景科技(thingnario)共同创始人，NVIDIA AI Lab计划主持人；曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会；十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。