智能应用 影音
MongoDB
ST Microsite

人脸识别的技术环节

人脸识别的一般步骤为:人脸侦测、人脸校正、人脸特徵值的撷取。而人脸特徵值的撷取则是技术最核心的问题。法新社

人脸识别的核心问题,不管是人脸确认(face verification)或是人脸识别(face identification),都必须在人脸上取出具有「辨别度」的特徵值。

也就是说,同个人的多张照片,即使在不一样的光源、时间、打扮、些微的表情、视角变化之下拍摄,还具有非常类似的高维数值(可以想像在高维空间中非常相近的点群),相反地,对于不同人的照片,需很容易区别,在高维空间中维持相当的距离。

这目标听起来很直觉,但是研究人员几十年来的努力到最近才有突破性的发展。

人脸识别的一般步骤为:人脸侦测、人脸校正、人脸特徵值的撷取。目的在照片中,找到人脸的位置,利用人脸的特徵点(如嘴角、人中、眼睛等)为锚点,将人脸校正到同一个比较基准,然后取出特徵值来进行识别。

早期的人脸侦测大多基于效率的考量,利用组合一系列简易的运算来检测画面中的可能人脸,甚至可以在镜头的硬件中实现。但是在实际场域中的应用仍然有诸多限制,直到这几年深度卷积神经网络(Convolutional Neural Network;CNN )的使用,才让侦测率大大提升。

人脸特徵值的撷取是最核心的问题。早期广泛采用的方法为特徵脸(eigenface),这是1991年MIT提出的方法,原理是人脸具有大致的轮廓,可以找出特徵人脸为基础来线性组合出各个人脸。理论上同一个人的线性组合参数应该类似,所以就用这些组合参数来作为人脸特徵值。

此外,还可以利用人脸各个器官之间的相对位置、比例等作为特徵值。或是利用邻近像素的亮度差来表示特徵值的局部二值样式(Local Binary Patterns;LBP)。或是将人脸特定位置的外观,利用具代表性的小区块进行编码的稀疏编码法(sparse coding)。这些技术都为人脸识别的落实往前推进一步。为求系统稳定,大部分应用系统都采用鸡尾酒作法,也就是混搭各种特徵值。

为何早期使用人脸识别的场域不多呢?因为错误率所造成的困扰远大于技术的效率。举例来说,保全系统使用人脸识别作为门禁卡,如果错误率5%的话,每100人次进出,就有5次需要人为介入,不胜其烦。

技术的正确率、稳定度的提升关乎可否全面落实到产品上,也就只有等到深度学习(更真确为卷积神经网络)技术的突破,才让人脸识别数十年的研究有机会在产业界带来广泛应用的机会,而且有机会溢出传统安控领域而成为「个人化」的基础引擎。

前文请见<人脸识别的核心问题与商机>

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。