在深度学习影像研究中,最时常被拿来展示的,应是「物件侦测」(object detection)技术,其目的为在给定的影像中标定出有兴趣的(目标)物件,提供物件位置边框以及类别(如人、车、单车、巴士、号志等)。
物件侦测在各种信号来源(摄影机、激光雷达、雷达等)提供精准的传感能力,标定物件位置,这样的核心技术关乎所有的智能应用,包括ADAS、自动驾驶、安全监控、人机互动、交通控制、运动、医学影像判断、瑕疵检测、AR/VR等。
跟影像分类相比,这是更具挑战的工作,因为必须从影像或是视讯中标定出多种物件的位置。物件的尺寸可能差异甚大、被其他物件遮蔽(只能看到部分外观),环境的光影变化(逆光、阴影),同类差异(不同品种、颜色的狗)、视角差异(平视、空照、俯角等),或是得在有限资源(耗能、时间)内完成大量物件侦测。
几十年来电脑视觉研究试着在这关键的物件侦测技术上带来突破。可以想像一下,电脑如何在由一堆影像像素值中标定可能的物件?框列出可能位置,再逐一判断是否有物件存在,是工程上「较容易」实现的方式。一般而言有三个主要步骤:候选区域(region proposal)计算、物件分类、以及后处理。
穷举出所有大大小小的候选区域是不敷成本的,早期策略是参考画面的线条、纹理等推估出可能的物件位置。例如目前还时常被使用的效率算法Selective Search,它考量了同个物件可能具有类似的颜色纹理,并使用阶层的方式判断可能物件的位置。另一个快速方式EdgeBox,则是考量边缘的分布来标定可能的物件边框。
在深度学习带来突破前,都是使用低端特徵值,进行初略的推估,为了怕有缺漏,一般会使用大量(数千)的候选区域,进行接下来的物件判断。可以想像绝对会耗费非常多的计算资源,所以这个步骤对于侦测品质以及效率至关重要。
而一系列深度学习技术的开始,则是让候选区域的推估更加准确,因为使用了多层卷积之后更具有语意的特徵值来推估可能的物件区域,就像是考量附近的(高端)画面特性来猜测物件的可能范围,更加有效率以及准确,不需要「盲目」测试大量候选区域。
有了候选物件区域之后,接下来得判断是否有特定的物件存在。在早期大都使用区域内纹理的分布做为特徵值,接着使用分离器,例如SVM,来做判断。常有的方法有HoG,利用剃度(影像数值相邻的差异)的量级以及变化方向来描述纹理。
另一个时常使用的方法为区域特徵值,找出小区块内特殊点的位置,然后计算这些特殊点的编码分布(如BoW)来最为判断依据。这些方法看似简单,但在十年前已经可以在某些应用领域成为实际产品,例如ADAS中的车辆侦测等。当然深度学习兴起之后,采用更具有语意的特徵值来判断特定物件,大大提升侦测效能。
至于物件侦测的评定方式,最常使用则是IoU(Intersection over Union),来计算侦测出来的物件标的和真实位置有都少重叠,所以物件边框的位置跟类别判断的准确度,会大大影响效能。同样的,如果物件较小,或是稠密排列,都是物件侦测的极大挑战。
深度学习技术崛起,利用庞大的参数,对于候选区域选取、物件判断等都更准确,而且不再被切割为无关的执行步骤,而是端对端的一起优化,让这些技术在今日产业应用逐渐扩展。
接下来我们要面对产品化的实际问题:直接使用开源的深度学习物件侦测演算法就可以直接做为产品?应用场域会遇到什麽问题?效能(速度、正确率)如何提升?还得收集训练数据吗?在新的传感器(雷达、激光雷达)如何做物件侦测?一系列的讨论,了解物件侦测研究成为实际产品得跨过那些陷阱。
徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。