Seagate

少量标注样本的机器(深度)学习

  • 徐宏民

这几年许多学者关注著「少量样本」的机器(或深度)学习技术,目的是在标注资料很少的情形下,依然让算法收敛到稳定的效能。IE.edu

资料的可得性决定机器(深度)学习算法的可靠度。过去已经有许多研究指出,同一个算法,当(标注的)训练资料愈多时,通常算法的正确率或是稳定度就越高。但在真实的情境中,训练资料通常是缺乏的,成为应用落地的障碍。

资料不足,通常原因是资料的可得性低或是标注成本高。比如说,在工业检测上,如果生产线时常更换,要得到大量的检测资料是有难度的;在医学上,标注的成本较高, 因为医护人员的有限时间及专业门槛。

为了解决这个问题,除了之前提过利用自我监督(self-supervised)的机会外,这几年许多学者关注著「少量样本」(few-shot)的机器(或深度)学习技术,目的是在标注资料很少的情形下,依然让算法收敛到稳定的效能。

按照目前的研究进展,我们将少量样本学习的方法大致分为三类,包括:data augmentation(资料生成)、metric learning(度量学习)、以及meta learning(元学习)。之前已经讨论过在标记资料少的情形下,要刻意生成资料是有问题的。而后两类都先缺省标记资料少的情形下,来优化算法。

因为少量样本,无法学习到稳定的分类器,所以度量学习希望透过少量样本的深度特征比对进行分类,训练方式让同类别的样本有较小的距离,不同类则较远。而元学习则是训练一套深度网络,在使用少量样本微调时依然有稳定的分类效果,所以学习的目标不是为了优化训练资料的分类效能,而是训练网络可以稳定「调适到」新的问题中,即使提供少量标记资料。

弱监督(weakly-supervised)学习则是在给定不完全标注的资料中训练。例如在医学上,仅知道病人患有某种疾病,但是不晓得在所有检验资料中何处关联最大,那就在学习中利用attention(关注)的方式找到这些隐藏因子。目前最经典的范例是大量的X光肺部病变中,仅仅给予病人的确诊疾病,透过算法(利用影像的2D attention),找到X光中重要的病征区域。类似的想法应该也可以使用在工业生产检测或是生产优化上。

标记训练资料不足的缺陷,是在工业领域中必须坦然接受的问题。在近期内可以解决的方式是利用metric learning,善用取得标记成本较低的资料训练,然后再转移到少量标注的新工作中,或是meta learning中的训练策略。不过最大的机会还是在找到自我学习的pre-training方式,善用大量未标注的资料。

徐宏民(Winston Hsu)现任台大资工系教授及NVIDIA AI Lab计画主持人。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与辨识、前瞻技术商业模式等领域。为讯连科技研发团队创始成员,曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验,近年与国内外企业合作,将深度学习技术落实到产品,并协助成立深度学习(人工智能)团队。曾获ACM MM 2014 Grand Challenge Multimodal Award、杰出信息人才奖、吴大猷先生纪念奖等国内外大奖。