少量標註樣本的機器（深度）學習

徐宏民

2019-10-30

這幾年許多學者關注著「少量樣本」的機器（或深度）學習技術，目的是在標註資料很少的情形下，依然讓算法收斂到穩定的效能。IE.edu

資料的可得性決定機器（深度）學習演算法的可靠度。過去已經有許多研究指出，同一個演算法，當（標註的）訓練資料愈多時，通常演算法的正確率或是穩定度就越高。但在真實的情境中，訓練資料通常是缺乏的，成為應用落地的障礙。

資料不足，通常原因是資料的可得性低或是標註成本高。比如說，在工業檢測上，如果生產線時常更換，要得到大量的檢測資料是有難度的；在醫學上，標註的成本較高，因為醫護人員的有限時間及專業門檻。

為了解決這個問題，除了之前提過利用自我監督(self-supervised)的機會外，這幾年許多學者關注著「少量樣本」(few-shot)的機器（或深度）學習技術，目的是在標註資料很少的情形下，依然讓算法收斂到穩定的效能。

按照目前的研究進展，我們將少量樣本學習的方法大致分為三類，包括：data augmentation（資料生成）、metric learning（度量學習）、以及meta learning（元學習）。之前已經討論過在標記資料少的情形下，要刻意生成資料是有問題的。而後兩類都先預設標記資料少的情形下，來優化算法。

因為少量樣本，無法學習到穩定的分類器，所以度量學習希望透過少量樣本的深度特徵比對進行分類，訓練方式讓同類別的樣本有較小的距離，不同類則較遠。而元學習則是訓練一套深度網路，在使用少量樣本微調時依然有穩定的分類效果，所以學習的目標不是為了優化訓練資料的分類效能，而是訓練網路可以穩定「調適到」新的問題中，即使提供少量標記資料。

弱監督（weakly-supervised）學習則是在給定不完全標註的資料中訓練。例如在醫學上，僅知道病人患有某種疾病，但是不曉得在所有檢驗資料中何處關聯最大，那就在學習中利用attention（關注）的方式找到這些隱藏因子。目前最經典的範例是大量的X光肺部病變中，僅僅給予病人的確診疾病，透過演算法（利用影像的2D attention），找到X光中重要的病徵區域。類似的想法應該也可以使用在工業生產檢測或是生產優化上。

標記訓練資料不足的缺陷，是在工業領域中必須坦然接受的問題。在近期內可以解決的方式是利用metric learning，善用取得標記成本較低的資料訓練，然後再轉移到少量標註的新工作中，或是meta learning中的訓練策略。不過最大的機會還是在找到自我學習的pre-training方式，善用大量未標註的資料。

少量標註樣本的機器（深度）學習

徐宏民國立台灣大學資訊工程學系教授

推薦活動

硬體資安白皮書

邦博士快訊

少量標註樣本的機器（深度）學習

徐宏民 國立台灣大學資訊工程學系教授

推薦活動

硬體資安白皮書

邦博士快訊

徐宏民國立台灣大學資訊工程學系教授