少量标注样本的机器（深度）学习

徐宏民
2019-10-30
分享
Line

这几年许多学者关注着「少量样本」的机器（或深度）学习技术，目的是在标注数据很少的情形下，依然让算法收敛到稳定的效能。IE.edu

数据的可得性决定机器（深度）学习演算法的可靠度。过去已经有许多研究指出，同一个演算法，当（标注的）训练数据愈多时，通常演算法的正确率或是稳定度就越高。但在真实的情境中，训练数据通常是缺乏的，成为应用落地的障碍。

数据不足，通常原因是数据的可得性低或是标注成本高。比如说，在工业检测上，如果生产线时常更换，要得到大量的检测数据是有难度的；在医学上，标注的成本较高，因为医护人员的有限时间及专业门槛。

为了解决这个问题，除了之前提过利用自我监督(self-supervised)的机会外，这几年许多学者关注着「少量样本」(few-shot)的机器（或深度）学习技术，目的是在标注数据很少的情形下，依然让算法收敛到稳定的效能。

按照目前的研究进展，我们将少量样本学习的方法大致分为三类，包括：data augmentation（数据生成）、metric learning（度量学习）、以及meta learning（元学习）。之前已经讨论过在标记数据少的情形下，要刻意生成数据是有问题的。而后两类都先缺省标记数据少的情形下，来优化算法。

因为少量样本，无法学习到稳定的分类器，所以度量学习希望透过少量样本的深度特徵比对进行分类，训练方式让同类别的样本有较小的距离，不同类则较远。而元学习则是训练一套深度网络，在使用少量样本微调时依然有稳定的分类效果，所以学习的目标不是为了优化训练数据的分类效能，而是训练网络可以稳定「调适到」新的问题中，即使提供少量标记数据。

弱监督（weakly-supervised）学习则是在给定不完全标注的数据中训练。例如在医学上，仅知道病人患有某种疾病，但是不晓得在所有检验数据中何处关联最大，那就在学习中利用attention（关注）的方式找到这些隐藏因子。目前最经典的范例是大量的X光肺部病变中，仅仅给予病人的确诊疾病，透过演算法（利用影像的2D attention），找到X光中重要的病徵区域。类似的想法应该也可以使用在工业生产检测或是生产优化上。

标记训练数据不足的缺陷，是在工业领域中必须坦然接受的问题。在近期内可以解决的方式是利用metric learning，善用取得标记成本较低的数据训练，然后再转移到少量标注的新工作中，或是meta learning中的训练策略。不过最大的机会还是在找到自我学习的pre-training方式，善用大量未标注的数据。

徐宏民
台大资工系教授

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士，专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员，慧景科技(thingnario)共同创始人，NVIDIA AI Lab计划主持人；曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会；十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。