人脸識別—深度卷积網絡带来的突破

徐宏民

2018-07-31

近来人脸識別的稳定度可以提升到满足产业应用，在于两个主要因素：深度卷积網絡的发展以及大量的人脸训练數據。亚马逊

人脸識別中，取出强健的有效特征值，即使在不一样的光源、拍摄时间、些微的表情、视角变化，仍能正确判断，是数十年来研究的挑战工作。而近来人脸識別的稳定度可以提升到满足产业应用，在于两个主要因素：深度卷积網絡的发展以及大量的人脸训练數據。

卷积網絡利用层状的结构来逐步表示影像中的复杂信號，由低端的线条到高端富有语意(semantic meaning)的物件、情境等。每个阶层皆有数十个（到百个）卷积单元的单元组成—可以想像在各层输入画面进行特殊的样式检测，再将诸多检测结果（反应强度）交给下一层继续检测。一般阶层个数由数个到上百个，端看基底網絡架构以及应用复杂度。目前人脸識別的主流是采用ResNet型态(在2015年底由任职于微软研究院的何凯明博士率先提出)的基底網絡。

識別时，取出末端一层網絡输出做为人脸（高纬）特征值。过去的方法，不管是特征脸、局部二值模式、稀疏编码等，一般类似于使用一到两层的卷积运算来逼近，相对上，称为「浅层」作法。与深度卷积網絡来比，参数使用量（复杂度）低，特征值描述能力相当薄弱。更重要的，当利用大量數據训练卷积網絡时，这些重要的检测样式还可以由训练样本中自动学出，目的是为了让最后的識別效果达到最好。之前的方法，常从经验当中判断设计，不一定吻合应用情境。

目前在国际研究社区也分享了相当多的人脸训练數據，甚至达到百万人的数目。为何可以收集到这些數據？主要来自于網絡名人（明星、新闻人物）以及社群网站上的公开相簿。但是这也衍伸出其他的问题，比如说这些免费人脸數據中绝大部分为西方人，绝少戴眼镜，画质清晰，在实际场域上还有某些技术问题得克服，但是已经大大降低數據收集耗时、耗费的问题。

除數據外，训练卷积網絡的目标函数（Cost Function）也占了非常重要的角色，比如说单使用常用的交叉熵（Cross-Entropy）来训练人脸識別的稳定度，远远比不上Large Margin 的系列作法—因为不只在训练網絡中将人脸正确预测，还得让不属于同个人的人脸特征值分隔遥远，反之，则得十分接近。

利用目标函数，还有增益训练數據的技术，还可以训练網絡解决人脸光影变化过大、化妆、眼镜的问题，甚至是低分辨率的人脸識別。在特殊的安全应用上，更可以部分解决人脸伪装的问题，最近我们获得国际伪装人脸識別竞赛冠军，也验证了这些作法。

人脸識別技术发展逐渐成熟，更可能溢出传统安控领域而成为「个人化」的基础引擎，而影响各种应用情境。如果整合我们擅长的硬件（系统、芯片）技术，似乎在产业应用上也带来了新的机会！

系列文见<人脸識別的核心问题与商机>、<人脸識別的技术环节>

人脸識別—深度卷积網絡带来的突破

徐宏民台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

Auden TechDay 2026 「星地融合 ‧ 智联万物 ‧ 共创无限未来」

人脸識別—深度卷积網絡带来的突破

徐宏民 台灣大學信息工程学系教授

作者其他文章

推荐活动

邦博士快讯

Auden TechDay 2026 「星地融合 ‧ 智联万物 ‧ 共创无限未来」

徐宏民台灣大學信息工程学系教授