背景及動機 - 對不平衡的資料有效率的訓練和自我訓練的門檻分析

Chapter 1 Introduction

1.1 背景及動機

這篇論文主要解決的問題有兩個，一是在自我訓練(self-training)中設定門檻 (threshold)的分析，利用它得到更多的改善；二是在不影響效能的情況下，降低處理資料不平衡(imbalance data)問題的訓練時間(training time)。

自我訓練是 semi-supervised learning 的一種方法。semi-supervised learning 是同時利用到了未標記的(unlabeled)和已標記的(labeled)資料來分類的學習方法。較 supervised learning 多利用了為標記資料的資訊，直覺上 semi-supervised learning 的表現會比較好，事實上相配的模型假設和問題結構也是必須的。

假設現在有一個二維分類問題，我們要分類紅色和藍色如 figure 1.。

Figure 1 supervised learning 的一個例子，L 為用來決定類別的邊界

以標記為藍色和紅色的資料大概可以直線 L 來分開兩類，不過在 figure 2.考慮了未標記資料後，將判斷邊界設在 Y 軸上更為合理。

Figure 2 semi-supervised learning 的一個例子，考慮未標記資料後，判斷邊界設在 Y 軸上更為合理

自我訓練可能是最早被提出的 semi-supervised learning 方法，簡單地說就是一個監督式分類器(supervised classifier)不斷地教自己。大部份的形式如，分類器 C 在分類未標記資料 U 時，發現 U 中有一些範例可以用來使自己分類得更好，這些範 例便被加上虛擬標記(pseudo-label)，然後跟已標記資料一起作為 C 的訓練資料。

後來發展而成的 ensemble-driven self-training of multiple classifiers[1]裡為基本自我訓練的骨架加上了類似 bootstrap 的方法，從未標記資料中隨機選取的子集合 U’，用以代替 U 在每個迴圈中被分類，然後選出範例加入已標記資料，並再從 U 和 U’的差集合中選取資料填滿 U’使之大小固定。除此之外選出範例的準則則是分

4 則是自然數，這三維的空間複雜度為 100/5*k+99/5*k+98/5*k+……+1/5*k = (|U’|+1)*|U’|/2*k/5，搜尋好的參數需要耗費很多時間在測試它們。因為 MCS 的合併方式不同，有時候少數分類器分得好的地方會被其他多數分類器所影響，最後輸出的結果反而分不好，當每個分類器表現越好越明顯。在處理不平衡資料時，

由於合併的方法是將各分類器輸出的預測信心值轉換成排名後平均，再計算 Area Under FROC Curve(AUC)。這時可能會有一筆資料兩個分類器將它排名得低，但另一個排得高的情形。轉換為排名後平均很可能使它因為大部份分類器的排名而無

5 稀少類別的資料複製得跟大量存在的類別一樣，相對地 down-sampling 是從具眾多資料的類別中隨機取出符合稀有類別數量的子集合，資料經過取樣後，類別之間的平衡就消除了，這時再開始分類的工作。

Down-sampling 雖然因為使用的資料少而能訓練得很快，但也因此而表現不如 up-sampling，而 up-sampling 則是因為使用的資料多，訓練得比較慢。這篇論文提出一個方法使用在不平衡資料的分類時，同時具有 down-sampling 使用資料少而快，以及 up-sampling 的良好表現兩種優點。主要的想法是從 down-sampling 開始，

用類似 boosting 的方法使分類模型逼近為 up-sampling。一開始使用 down-sampling 來分類已標記資料，並不斷將分類錯誤的部份加入 down-sampling 裡來使得模型逼近 up-sampling，直到分類錯誤小於某一個既定的值（如 1%）為止。

我們以 KDDCUP08 的資料來做實驗。以門檻為基礎的自我訓練，我們發現在自

我訓練中使用預測信心值門檻， AUC 比 supervised learning 高 2.4% ，比 ensemble-driven self-training of multiple classifiers 好 0.5%。

而以 down-sampling 逼近 up-sampling，可以擁有 up-sampling 1.3 倍的訓練速度，

同時幾乎與 up-sampling 的效能一樣。

Chapter 2 Related Works

在文檔中對不平衡的資料有效率的訓練和自我訓練的門檻分析 (頁 7-13)