
數據的可得性决定机器(深度)学习演算法的可靠度。过去已经有许多研究指出,同一个演算法,当(标注的)训练數據愈多时,通常演算法的正确率或是稳定度就越高。但在真实的情境中,训练數據通常是缺乏的,成为应用落地的障碍。
數據不足,通常原因是數據的可得性低或是标注成本高。比如说,在工业检测上,如果生产线时常更换,要得到大量的检测數據是有难度的;在医学上,标注的成本较高, 因为医护人员的有限时间及专业门槛。
为了解决这个问题,除了之前提过利用自我监督(self-supervised)的机会外,这几年许多学者关注著「少量样本」(few-shot)的机器(或深度)学习技术,目的是在标注數據很少的情形下,依然让算法收敛到稳定的效能。
按照目前的研究进展,我们将少量样本学习的方法大致分为三类,包括:data augmentation(數據生成)、metric learning(度量学习)、以及meta learning(元学习)。之前已经讨论过在标记數據少的情形下,要刻意生成數據是有问题的。而后两类都先缺省标记數據少的情形下,来优化算法。
因为少量样本,无法学习到稳定的分类器,所以度量学习希望透过少量样本的深度特征比对进行分类,训练方式让同类别的样本有较小的距离,不同类则较远。而元学习则是训练一套深度網絡,在使用少量样本微调时依然有稳定的分类效果,所以学习的目标不是为了优化训练數據的分类效能,而是训练網絡可以稳定「调适到」新的问题中,即使提供少量标记數據。
弱监督(weakly-supervised)学习则是在给定不完全标注的數據中训练。例如在医学上,仅知道病人患有某种疾病,但是不晓得在所有检验數據中何处关联最大,那就在学习中利用attention(关注)的方式找到这些隐藏因子。目前最经典的范例是大量的X光肺部病变中,仅仅给予病人的确诊疾病,透过演算法(利用影像的2D attention),找到X光中重要的病征区域。类似的想法应该也可以使用在工业生产检测或是生产优化上。
标记训练數據不足的缺陷,是在工业领域中必须坦然接受的问题。在近期内可以解决的方式是利用metric learning,善用取得标记成本较低的數據训练,然后再转移到少量标注的新工作中,或是meta learning中的训练策略。不过最大的机会还是在找到自我学习的pre-training方式,善用大量未标注的數據。