G2
活动+

人脸辨识—从理论到产品

  • 徐宏民

似乎一夕爆发,最近许多国内外的企业都将「人脸辨识」列为主要的产品。这些公司横跨各种类型,包括芯片、软件、系统 、金融、交通、安全、服务等。显然目前人脸辨识的学术突破,已经可以落地为实际应用,并成为很多跨领域的公司极度看好的核心技术。前阵子在硅谷举办NVIDIA GTC 2019,我们也分享了如何产品化人脸辨识技术,之后收到很多工业界与会者非常正面而且热烈的评价。显然硅谷的产业链也十分在乎这项关键技术。

我们根据10年来人脸辨识的研究经验以及有幸参与数个人脸辨识产品落地(其中某项产品全球已超过80万用户使用),将主要的技术因素,整理成5个关键,包括:前处理程序、深度学习网络主干、训练成本函数、训练(测试)资料集、以及应用情境。

前处理技术主要是在人脸侦测,目前采用的方法大多是利用一般深度学习的物件侦测核心来做修改,所以正确率已有非常大的提升。除了人脸位置侦查外,也同时抓取人脸几个特殊位置(如人中、瞳孔、下巴、鼻尖等),用以矫正人脸大小以及方向,以供叠合辨识。目前的挑战在于低分辨率、以及低亮度的人脸,均还有努力的空间。

整体而言,网络的架构对性能影响其实没那么大,除非运算效能有特殊限制考量(比如在存储器或是运算能力有限的终端平台)。近来人脸辨识的技术突破点在哪里里?我们发现最关键的环节在于训练资料集以及训练人脸辨识网络所使用的成本函数(cost functions)。

训练资料集的数量与深度学习的准确度有高度的相关性。所以目前大部分的产品开发都会尽量使用到所有可得的资料集(包括公开的资料集或是自行收集标注的)。但是研究发现,量级越大的资料集,错误率越高;原因是仅使用查找引擎收集,标注清除的成本过高,正确性可议。所以在训练的过程中,就需要容错的考量。此外,不同资料集内每个人物的个数以及每个人的照片张数不一,也会影响训练的质量。最重要的是,目前这些公开资料集因为社群使用人口的关系,有著严重的资料分布偏差(bias),白人占大部分,所以训练出来的辨识模型,对于深色皮肤的人种,辨识率较低。这是在设计全球通用的产品时,必须考量的因素。而且公开资料集中,带眼镜的人脸较少,对于辨识眼镜人口较多的亚洲地区,需要利用资料增益的方法,增加与实际场域吻合的训练资料集。

成本函数的目的是为了训练深度学习网络能将同一位人物在不同状况(时间、光影、装扮、角度等)所拍摄的人脸,产生一致的深度特征值(为了辨识为同一个人)。可以想象这是非常艰难的问题。从2013年前的传统特征(eigenface、LBP、sparse coding等),到深度学习技术的导入时开始使用的分类函数等,在近来研究中都发现还是有很大的局限性,原因是完全忽略这些高维度人脸是以特殊的结构(manifold)分布。直到最近提出的一系列large-margin成本函数,才达到性能的巅峰。主要的精神在于训练的过程中,不仅要将不同的人的人脸透过深度学习辨识无误,还进一步希望取得的特征值,在不同人间,还得维持很大的差异性。在实际应用上,能大大提升人脸辨识的稳定度。

当然落地的产品场域也会影响设计的准则,如何设计适合的成本函数来考量特殊的人脸辨识应用(低分辨率、跨年龄、逆光、3D等)都有不一样的考量。 这也是将系统设计为工业级产品的著力点。同样的,接下来我们会看到人脸辨识在跨领域的应用上,有令人刮目相看的新机会。

徐宏民(Winston Hsu)现任台大资工系教授及NVIDIA AI Lab计画主持人。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与辨识、前瞻技术商业模式等领域。为讯连科技研发团队创始成员,曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验,近年与国内外企业合作,将深度学习技术落实到产品,并协助成立深度学习(人工智能)团队。曾获ACM MM 2014 Grand Challenge Multimodal Award、杰出信息人才奖、吴大猷先生纪念奖等国内外大奖。