Reserch
活动+

人脸辨识的核心问题与商机

  • 徐宏民

随著摄影镜头的普及以及安全防护的需求,近来人脸辨识相关技术成为产业界关心的对象。搭配运算速度的提升、深度学习技术的突破、以及许多使用者端、企业端、政府端各种实质应用情境,也触发除了指纹、虹膜等生物特征辨识之外的产业机会。

人脸辨识的定义常有许多混淆,一般是为了了解拍照的目标为何人。举例来说,进来银行的人是谁,如果直接可以辨识,我们会有多几秒的时间可以知道他是VIP吗?黑名单?喜欢什么样的商品?该找谁服务呢?

但是也容易与其它技术混淆。例如人脸属性侦测,目的是为了了解标的年龄、性别、人种、打扮等,用途在于购物安全(如自动贩卖机的年龄限制)、目标群众大致统计等。

另一非常类似的领域为表情侦测:区分微笑、严肃、生气等表情,可以用于客服或是使用者满意度分析;目前驾驶安全技术上,也会有驾驶打瞌睡、不专心等透过人脸判断的技术。

人脸辨识核心可以大致区分为两个问题:人脸确认(face verification)以及人脸识别(face identification)。前者的定义主要是给两张人脸,必须回答是否为同一人,例如自动通关时扫描护照,同时比对摄影以及官方人脸资料;或是iPhone解锁等安全确认情境。

人脸识别主要是在大规模的人脸资料库中(可能每人有一到多张)照片,找出提供的照片是否在资料库内?是哪里一个人?警政的人脸查找、安全监控、或是进出管制等,大多属于这个范畴。

虽然两个问题看起来类似,但是后者较为挑战,当资料库内需要识别的人变多时,比对速度会变慢、特征值(表示人脸的高纬度资料)间会大大的混淆。

辨识的讯号来源也不局限于2D的人脸照片,包括大家已熟知在手机上的3D点云、走路的姿势(声音)、甚至是在空间移动对Wi-Fi讯号的影响等,都有不同的应用。

这几年精进的人脸辨识技术早已跳脱早期仅限安防使用的局限性,并且看到原本在云端的功能,逐渐落地到设备端。例如具有辨识功能(自动开锁)的门铃、利用人脸来提供个人化服务、广告内容、存取功能、开关设备等。

诸多应用发现,人脸辨识更需要软硬集成,如光线变化时如何自动调整镜头硬件?辨识用的影像(视讯)该如何压缩?我相信在智能应用转型的契机,对于产业界也是另一个相当大的机会!

徐宏民(Winston Hsu)现任台大资工系教授及NVIDIA AI Lab计画主持人。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与辨识、前瞻技术商业模式等领域。为讯连科技研发团队创始成员,曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作以及新创经验,近年与国内外企业合作,将深度学习技术落实到产品上,并且协助成立深度学习(人工智能)团队。曾获ACM MM 2014 Grand Challenge Multimodal Award、杰出信息人才奖、吴大猷先生纪念奖等多项国内外大奖。