人脸識別—从理论到产品

徐宏民

2019-05-14

似乎一夕爆发，最近许多国内外的企业都将「人脸識別」列为主要的产品。这些公司横跨各种类型，包括芯片、軟件、系统、金融、交通、安全、服务等。显然目前人脸識別的学术突破，已经可以落地为实际应用，并成为很多跨领域的公司极度看好的核心技术。前阵子在硅谷举办NVIDIA GTC 2019，我们也分享了如何产品化人脸識別技术，之后收到很多工业界与会者非常正面而且热烈的评价。显然硅谷的产业链也十分在乎这项关键技术。

我们根据10年来人脸識別的研究经验以及有幸参与数个人脸識別产品落地(其中某项产品全球已超过80万用户使用)，将主要的技术因素，整理成5个关键，包括：前处理程序、深度学习網絡主干、训练成本函数、训练(测试)數據集、以及应用情境。

前处理技术主要是在人脸侦测，目前采用的方法大多是利用一般深度学习的物件侦测核心来做修改，所以正确率已有非常大的提升。除了人脸位置侦查外，也同时抓取人脸几个特殊位置(如人中、瞳孔、下巴、鼻尖等)，用以矫正人脸大小以及方向，以供叠合識別。目前的挑战在于低分辨率、以及低亮度的人脸，均还有努力的空间。

整体而言，網絡的架构对性能影响其实没那么大，除非运算效能有特殊限制考量(比如在存儲器或是运算能力有限的终端平臺)。近来人脸識別的技术突破点在哪里？我们发现最关键的环节在于训练數據集以及训练人脸識別網絡所使用的成本函数(cost functions)。

训练數據集的数量与深度学习的准确度有高度的相关性。所以目前大部分的产品开发都会尽量使用到所有可得的數據集(包括公开的數據集或是自行收集标注的)。但是研究发现，量级越大的數據集，错误率越高；原因是仅使用查找引擎收集，标注清除的成本过高，正确性可议。所以在训练的过程中，就需要容错的考量。此外，不同數據集内每个人物的个数以及每个人的照片张数不一，也会影响训练的品质。最重要的是，目前这些公开數據集因为社群使用人口的关系，有著严重的數據分布偏差(bias)，白人占大部分，所以训练出来的識別模型，对于深色皮肤的人种，識別率较低。这是在设计全球通用的产品时，必须考量的因素。而且公开數據集中，带眼镜的人脸较少，对于識別眼镜人口较多的亚洲地区，需要利用數據增益的方法，增加与实际场域吻合的训练數據集。

成本函数的目的是为了训练深度学习網絡能将同一位人物在不同状况(时间、光影、装扮、角度等)所拍摄的人脸，产生一致的深度特征值(为了識別为同一个人)。可以想像这是非常艰难的问题。从2013年前的传统特征(eigenface、LBP、sparse coding等)，到深度学习技术的导入时开始使用的分类函数等，在近来研究中都发现还是有很大的局限性，原因是完全忽略这些高维度人脸是以特殊的结构(manifold)分布。直到最近提出的一系列large-margin成本函数，才达到性能的巅峰。主要的精神在于训练的过程中，不仅要将不同的人的人脸透过深度学习識別无误，还进一步希望取得的特征值，在不同人间，还得维持很大的差异性。在实际应用上，能大大提升人脸識別的稳定度。

当然落地的产品场域也会影响设计的准则，如何设计适合的成本函数来考量特殊的人脸識別应用(低分辨率、跨年龄、逆光、3D等)都有不一样的考量。这也是将系统设计为工业级产品的著力点。同样的，接下来我们会看到人脸識別在跨领域的应用上，有令人刮目相看的新机会。

人脸識別—从理论到产品

徐宏民台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

Auden TechDay 2026 「星地融合 ‧ 智联万物 ‧ 共创无限未来」

人脸識別—从理论到产品

徐宏民 台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

Auden TechDay 2026 「星地融合 ‧ 智联万物 ‧ 共创无限未来」

徐宏民台灣大學信息工程学系教授