智能产品开发没有免费的训练數據

徐宏民
2018-03-06
數據是训练深度学习網絡重要的关键,而训练數據的累积,绝对是智能技术公司的珍贵资产。(图片来源:Pixabay)
數據是训练深度学习網絡重要的关键,而训练數據的累积,绝对是智能技术公司的珍贵资产。(图片来源:Pixabay)

最近在几个中文网站都看到类似的文章下著耸动的标题”人脸識別系统是否有种族、性别歧视?”故事源自于纽约时报的一篇文章以及其所引用麻省理工学院最近发表的某篇论文。大意是说经过实测三家公司(Microsoft, IBM, 以及大陆的Face++)的人脸識別API(应用程序界面), 发现在深肤色的人种上,識別效果奇差,甚至错误率达到35%。

基于好奇,我把两篇出处文章都找出来看了一下。其实这里的「人脸識別」只是人脸的性别属性侦测(男或是女),并非较复杂的人脸識別系统。

这三家公司的在線系统,应该都是使用卷积神经網絡(CNN; 深度学习網絡针对影像的特别结构)的作法,我们实验室内部也有一套系统,在数十种人脸属性(例如:性别、种族、年龄区间,戴眼镜、墨镜等)的識別上,正确率已经相当的高了,尤其是高画质的正脸相片。

我的猜测单纯是训练數據的问题,因为深色肌肤的女性數據本来就是少数,所以当初训练评测的时候,并没有特别被注意。而且这类别也可能不是公司产品重视的标的族群。

过去一段期间协助几个产品上线,每个产品都有它想解决的标的、客群、应用情境,數據绝对是训练深度学习網絡重要的关键,公司内部得再花时间以及经费来额外收集數據协助产品落地,不可能单用網絡上学术界常使用的数据集。所以,训练數據的累积,绝对是智能技术公司的珍贵资产。

当然,如何以最低成本收集所需的训练數據,这在学术界或是Internet公司都是行之有年的研究以及工程策略上的问题。在视觉識別使用的训练數據,一般而言都是利用社群媒体(例如:Flickr、Instagram、YouTube等)上大量的(免费)照片、视频、文字等,下载之后,利用人工(可以自行雇用或是利用Amazon Mechanical Turk)来标注。

当然也可以利用演算法自动清理后作为训练的样本。为省下昂贵的人工标注,我们在2013年曾尝试过几种自动收集过滤的方式,作为人脸属性侦测器的训练數據。在这个工作当中,我们还真的发现地域性必须考量进来,所以照片的GPS位置也是个考量因素,因为多样性(Diversity)是训练數據的重要特质。这也刚好可以解决文前所提的深肤色女性識別效果不好的问题!

现任台灣大學信息工程学系教授,曾任富智捷(MobileDrive)技术长暨副总经理,推动ADAS及智能座舱系统产品进入全球车用市场。纽约哥伦比亚大学电机博士,专精于机器学习、电脑视觉、自驾车、机器人等领域。为讯连科技研发团队创始成员,慧景科技(thingnario)共同創始人,NVIDIA AI Lab計劃主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会,担任多家科技公司AI策略顾问。
智能应用 影音