Reserch
订报优惠

智能产品开发没有免费的训练资料

  • 徐宏民
资料是训练深度学习网络重要的关键,而训练资料的累积,绝对是智能技术公司的珍贵资产。(图片来源:Pixabay)

最近在几个中文网站都看到类似的文章下著耸动的标题”人脸辨识系统是否有种族、性别歧视?”故事源自于纽约时报的一篇文章以及其所引用麻省理工学院最近发表的某篇论文。大意是说经过实测三家公司(Microsoft, IBM, 以及大陆的Face++)的人脸辨识API(应用程序接口), 发现在深肤色的人种上,辨识效果奇差,甚至错误率达到35%。

基于好奇,我把两篇出处文章都找出来看了一下。其实这里的「人脸辨识」只是人脸的性别属性侦测(男或是女),并非较复杂的人脸辨识系统。

这三家公司的在线系统,应该都是使用卷积神经网络(CNN; 深度学习网络针对影像的特别结构)的作法,我们实验室内部也有一套系统,在数十种人脸属性(例如:性别、种族、年龄区间,戴眼镜、墨镜等)的辨识上,正确率已经相当的高了,尤其是高画质的正脸相片。

我的猜测单纯是训练资料的问题,因为深色肌肤的女性资料本来就是少数,所以当初训练评测的时候,并没有特别被注意。而且这类别也可能不是公司产品重视的标的族群。

过去一段期间协助几个产品上线,每个产品都有它想解决的标的、客群、应用情境,资料绝对是训练深度学习网络重要的关键,公司内部得再花时间以及经费来额外收集资料协助产品落地,不可能单用网络上学术界常使用的数据集。所以,训练资料的累积,绝对是智能技术公司的珍贵资产。

当然,如何以最低成本收集所需的训练资料,这在学术界或是Internet公司都是行之有年的研究以及工程策略上的问题。在视觉辨识使用的训练资料,一般而言都是利用社群媒体(例如:Flickr、Instagram、YouTube等)上大量的(免费)照片、视频、文字等,下载之后,利用人工(可以自行雇用或是利用Amazon Mechanical Turk)来标注。

当然也可以利用算法自动清理后作为训练的样本。为省下昂贵的人工标注,我们在2013年曾尝试过几种自动收集过滤的方式,作为人脸属性侦测器的训练资料。在这个工作当中,我们还真的发现地域性必须考量进来,所以照片的GPS位置也是个考量因素,因为多样性(Diversity)是训练资料的重要特质。这也刚好可以解决文前所提的深肤色女性辨识效果不好的问题!

徐宏民(Winston Hsu)现任台大资工系教授及NVIDIA AI Lab计画主持人。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与辨识、前瞻技术商业模式等领域。为讯连科技研发团队创始成员,曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作以及新创经验,近年与国内外企业合作,将深度学习技术落实到产品上,并且协助成立深度学习(人工智能)团队。曾获ACM MM 2014 Grand Challenge Multimodal Award、杰出信息人才奖、吴大猷先生纪念奖等多项国内外大奖。