急速增加的摄影机使得监看人力逐渐无法负荷,「视讯识别」一直是长久以来安全监控领域的杀手级应用。但碍于技术发展,过去不曾真正落实,直到近年来深度学习技术中卷积网络(CNN)的高度发展,才激励产业与学界重新检视视讯识别的机会。在应用上,视讯识别可以满足诸多需求:例如影片拍摄分类,安全监控中的摔倒侦测、尾随进入建筑、爬墙,购物情境中的产品销售热区、结帐安全,自驾车中的事件判断,或是医疗照护中的老人看护、复健动作侦测等。
与影像识别不同,许多视讯事件必须透过连续画面才能判断:例如单看手部高举,无法分辨接下来的动作是抓头发或是出手打人。所以视讯识别必有效的参考多个连续画面来做判断,可以想像运算量以及模型复杂度会比单画面的影像识别来得高。
在大分类上,视讯识别可以区分为「视讯分类」(video classification)以及「动作识别」(action recognition)。前者仅需将影片分门别类(如婚礼、会议、晚会、运动类型等),一般只要参考场景或主要物件等就可以大致分类完成。研究发现,多张画面对于正确率的提升并不大,一般认为视讯分类(和影像分类一样)是目前相对成熟的技术。视讯分类技术时常用来整理大量的视讯数据库如个人的拍摄、电影制作、甚至是广告分类、追踪等,偏向于消费者端的需求。
在动作识别上,连续画面以及物件的动线影响了识别的效果。所以过去的研究致力于如何有效描述画面变化。许多人提出先使用CNN来纪录每个画面的内容(场景以及物件),再结合时序模型(如LSTM)来抓取画面的动态变化,所以类似于ConvLSTM的模型成为个中主流。另外传统电脑视觉中的光流(optical flow)技术可以描述连续画面间各个像素的可能移动方向,也被拿来作为「动态」画面,成为视讯识别中相当重要的信息来源,但缺点是速度相当缓慢,因为计算画面间的光流十分耗时,而且无法直接与深度学习网络端对端的结合。有人主张使用CNN来逼近光流、或是直接使用视讯压缩标准中的motion vector等来取代光流的高成本运算。
既然利用连续画面识别十分重要,目前的主流做法是直接将2D的卷积加上额外时间维度扩充为3D卷积,不过会大量增加模型的参数以及运算量。关键的问题是各个视讯事件(动作)有不同的时序速度,如何决定适合的时间分辨率成了棘手的问题。还好,最近提出的SlowFast模型提供了相当不错的均衡方式。
视讯识别在安全领域有极高影响性,比如在工程、工厂的运作中,动作侦测十分关键,决定了良率以及安全性。但这方面的侦测需要关注更多细节,例如操作人员是在敲击?旋转?还是拉动某个开关?这些差异可能只在细微的部份呈现,极具挑战。因此近年兴起「细精度动作分类」,可以加上类似attention模块来解决精细关注的问题。甚至利用人体姿态识别自动标记出人体各个关节点,接着参考关节点的移动来进行细部识别。
多样性摄影机在各个应用场域快速成长,已无法使用人力监控,特别是在许多高成长的应用场域,如交通、零售、工业安全、医疗照护等,更需要智能化的判断。而且许多新颖的应用还没被开发,如「视讯预测」:判断被稽查的嫌疑犯是否有开枪意图、家中监控的摄影机在小孩发生危险前能预先提出警报。摄影机为国内重要的产业链,对于视讯识别的技术发展,实在不能轻忽。
徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。