似乎一夕爆发,最近许多国内外的企业都将「人脸识别」列为主要的产品。这些公司横跨各种类型,包括芯片、软件、系统 、金融、交通、安全、服务等。显然目前人脸识别的学术突破,已经可以落地为实际应用,并成为很多跨领域的公司极度看好的核心技术。前阵子在硅谷举办NVIDIA GTC 2019,我们也分享了如何产品化人脸识别技术,之后收到很多工业界与会者非常正面而且热烈的评价。显然硅谷的产业链也十分在乎这项关键技术。
我们根据10年来人脸识别的研究经验以及有幸参与数个人脸识别产品落地(其中某项产品全球已超过80万用户使用),将主要的技术因素,整理成5个关键,包括:前处理程序、深度学习网络主干、训练成本函数、训练(测试)数据集、以及应用情境。
前处理技术主要是在人脸侦测,目前采用的方法大多是利用一般深度学习的物件侦测核心来做修改,所以正确率已有非常大的提昇。除了人脸位置侦查外,也同时抓取人脸几个特殊位置(如人中、瞳孔、下巴、鼻尖等),用以矫正人脸大小以及方向,以供叠合识别。目前的挑战在于低分辨率、以及低亮度的人脸,均还有努力的空间。
整体而言,网络的架构对性能影响其实没那麽大,除非运算效能有特殊限制考量(比如在存储器或是运算能力有限的终端平台)。近来人脸识别的技术突破点在哪里?我们发现最关键的环节在于训练数据集以及训练人脸识别网络所使用的成本函数(cost functions)。
训练数据集的数量与深度学习的准确度有高度的相关性。所以目前大部分的产品开发都会尽量使用到所有可得的数据集(包括公开的数据集或是自行收集标注的)。但是研究发现,量级越大的数据集,错误率越高;原因是仅使用查找引擎收集,标注清除的成本过高,正确性可议。所以在训练的过程中,就需要容错的考量。此外,不同数据集内每个人物的个数以及每个人的照片张数不一,也会影响训练的品质。最重要的是,目前这些公开数据集因为社群使用人口的关系,有着严重的数据分布偏差(bias),白人占大部分,所以训练出来的识别模型,对于深色皮肤的人种,识别率较低。这是在设计全球通用的产品时,必须考量的因素。而且公开数据集中,带眼镜的人脸较少,对于识别眼镜人口较多的亚洲地区,需要利用数据增益的方法,增加与实际场域吻合的训练数据集。
成本函数的目的是为了训练深度学习网络能将同一位人物在不同状况(时间、光影、装扮、角度等)所拍摄的人脸,产生一致的深度特徵值(为了识别为同一个人)。可以想像这是非常艰难的问题。从2013年前的传统特徵(eigenface、LBP、sparse coding等),到深度学习技术的导入时开始使用的分类函数等,在近来研究中都发现还是有很大的局限性,原因是完全忽略这些高维度人脸是以特殊的结构(manifold)分布。直到最近提出的一系列large-margin成本函数,才达到性能的巅峰。主要的精神在于训练的过程中,不仅要将不同的人的人脸透过深度学习识别无误,还进一步希望取得的特徵值,在不同人间,还得维持很大的差异性。在实际应用上,能大大提昇人脸识别的稳定度。
当然落地的产品场域也会影响设计的准则,如何设计适合的成本函数来考量特殊的人脸识别应用(低分辨率、跨年龄、逆光、3D等)都有不一样的考量。 这也是将系统设计为工业级产品的着力点。同样的,接下来我们会看到人脸识别在跨领域的应用上,有令人刮目相看的新机会。
徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。