智能产品开发没有免费的训练数据

徐宏民
2018-03-06
分享
Line

数据是训练深度学习网络重要的关键，而训练数据的累积，绝对是智能技术公司的珍贵资产。(图片来源：Pixabay)

最近在几个中文网站都看到类似的文章下着耸动的标题”人脸识别系统是否有种族、性别歧视？”故事源自于纽约时报的一篇文章以及其所引用麻省理工学院最近发表的某篇论文。大意是说经过实测三家公司（Microsoft, IBM, 以及大陆的Face++）的人脸识别API（应用程序界面），发现在深肤色的人种上，识别效果奇差，甚至错误率达到35%。

基于好奇，我把两篇出处文章都找出来看了一下。其实这里的「人脸识别」只是人脸的性别属性侦测（男或是女），并非较复杂的人脸识别系统。

这三家公司的在线系统，应该都是使用卷积神经网络（CNN; 深度学习网络针对影像的特别结构）的作法，我们实验室内部也有一套系统，在数十种人脸属性（例如：性别、种族、年龄区间，戴眼镜、墨镜等）的识别上，正确率已经相当的高了，尤其是高画质的正脸相片。

我的猜测单纯是训练数据的问题，因为深色肌肤的女性数据本来就是少数，所以当初训练评测的时候，并没有特别被注意。而且这类别也可能不是公司产品重视的标的族群。

过去一段期间协助几个产品上线，每个产品都有它想解决的标的、客群、应用情境，数据绝对是训练深度学习网络重要的关键，公司内部得再花时间以及经费来额外收集数据协助产品落地，不可能单用网络上学术界常使用的数据集。所以，训练数据的累积，绝对是智能技术公司的珍贵资产。

当然，如何以最低成本收集所需的训练数据，这在学术界或是Internet公司都是行之有年的研究以及工程策略上的问题。在视觉识别使用的训练数据，一般而言都是利用社群媒体（例如：Flickr、Instagram、YouTube等）上大量的（免费）照片、视频、文字等，下载之后，利用人工（可以自行雇用或是利用Amazon Mechanical Turk）来标注。

当然也可以利用演算法自动清理后作为训练的样本。为省下昂贵的人工标注，我们在2013年曾尝试过几种自动收集过滤的方式，作为人脸属性侦测器的训练数据。在这个工作当中，我们还真的发现地域性必须考量进来，所以照片的GPS位置也是个考量因素，因为多样性（Diversity）是训练数据的重要特质。这也刚好可以解决文前所提的深肤色女性识别效果不好的问题！

徐宏民
台大资工系教授

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士，专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员，慧景科技(thingnario)共同创始人，NVIDIA AI Lab计划主持人；曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会；十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。