智能应用 影音
Microchip
Event

少量标注样本的机器(深度)学习

这几年许多学者关注着「少量样本」的机器(或深度)学习技术,目的是在标注数据很少的情形下,依然让算法收敛到稳定的效能。IE.edu

数据的可得性决定机器(深度)学习演算法的可靠度。过去已经有许多研究指出,同一个演算法,当(标注的)训练数据愈多时,通常演算法的正确率或是稳定度就越高。但在真实的情境中,训练数据通常是缺乏的,成为应用落地的障碍。

数据不足,通常原因是数据的可得性低或是标注成本高。比如说,在工业检测上,如果生产线时常更换,要得到大量的检测数据是有难度的;在医学上,标注的成本较高, 因为医护人员的有限时间及专业门槛。

为了解决这个问题,除了之前提过利用自我监督(self-supervised)的机会外,这几年许多学者关注着「少量样本」(few-shot)的机器(或深度)学习技术,目的是在标注数据很少的情形下,依然让算法收敛到稳定的效能。

按照目前的研究进展,我们将少量样本学习的方法大致分为三类,包括:data augmentation(数据生成)、metric learning(度量学习)、以及meta learning(元学习)。之前已经讨论过在标记数据少的情形下,要刻意生成数据是有问题的。而后两类都先缺省标记数据少的情形下,来优化算法。

因为少量样本,无法学习到稳定的分类器,所以度量学习希望透过少量样本的深度特徵比对进行分类,训练方式让同类别的样本有较小的距离,不同类则较远。而元学习则是训练一套深度网络,在使用少量样本微调时依然有稳定的分类效果,所以学习的目标不是为了优化训练数据的分类效能,而是训练网络可以稳定「调适到」新的问题中,即使提供少量标记数据。

弱监督(weakly-supervised)学习则是在给定不完全标注的数据中训练。例如在医学上,仅知道病人患有某种疾病,但是不晓得在所有检验数据中何处关联最大,那就在学习中利用attention(关注)的方式找到这些隐藏因子。目前最经典的范例是大量的X光肺部病变中,仅仅给予病人的确诊疾病,透过演算法(利用影像的2D attention),找到X光中重要的病徵区域。类似的想法应该也可以使用在工业生产检测或是生产优化上。

标记训练数据不足的缺陷,是在工业领域中必须坦然接受的问题。在近期内可以解决的方式是利用metric learning,善用取得标记成本较低的数据训练,然后再转移到少量标注的新工作中,或是meta learning中的训练策略。不过最大的机会还是在找到自我学习的pre-training方式,善用大量未标注的数据。

徐宏民(Winston Hsu)现任富智捷(MobileDrive)技术长暨副总经理以及台大信息工程学系教授。哥伦比亚大学电机博士,专精于机器学习、大规模影像视讯查找与识别。为讯连科技研发团队创始成员,慧景科技(thingnario)共同创始人,NVIDIA AI Lab计划主持人;曾任IBM华生研究中心客座研究员、美国微软研究院客座研究员。习惯从学术及产业界的角度检验技术发展的机会;十余年产学合作及新创经验。曾获2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018伪装人脸识别冠军、杰出信息人才奖、吴大猷先生纪念奖等国内外研究奖项。