Chapter 1
Introduction
1.1 背景及動機
這篇論文主要解決的問題有兩個,一是在自我訓練(self-training)中設定門檻 (threshold)的分析,利用它得到更多的改善;二是在不影響效能的情況下,降低處 理資料不平衡(imbalance data)問題的訓練時間(training time)。
自我訓練是 semi-supervised learning 的一種方法。semi-supervised learning 是同時 利用到了未標記的(unlabeled)和已標記的(labeled)資料來分類的學習方法。較 supervised learning 多利用了為標記資料的資訊,直覺上 semi-supervised learning 的 表現會比較好,事實上相配的模型假設和問題結構也是必須的。
假設現在有一個二維分類問題,我們要分類紅色和藍色如 figure 1.。
2
Figure 1 supervised learning 的一個例子,L 為用來決定類別的邊界
以標記為藍色和紅色的資料大概可以直線 L 來分開兩類,不過在 figure 2.考慮了 未標記資料後,將判斷邊界設在 Y 軸上更為合理。
3
Figure 2 semi-supervised learning 的一個例子,考慮未標記資料後,判斷邊界設在 Y 軸上更為合理
自我訓練可能是最早被提出的 semi-supervised learning 方法,簡單地說就是一個 監督式分類器(supervised classifier)不斷地教自己。大部份的形式如,分類器 C 在 分類未標記資料 U 時,發現 U 中有一些範例可以用來使自己分類得更好,這些範 例便被加上虛擬標記(pseudo-label),然後跟已標記資料一起作為 C 的訓練資料。
後來發展而成的 ensemble-driven self-training of multiple classifiers[1]裡為基本自 我訓練的骨架加上了類似 bootstrap 的方法,從未標記資料中隨機選取的子集合 U’,用以代替 U 在每個迴圈中被分類,然後選出範例加入已標記資料,並再從 U 和 U’的差集合中選取資料填滿 U’使之大小固定。除此之外選出範例的準則則是分
4 則是自然數,這三維的空間複雜度為 100/5*k+99/5*k+98/5*k+……+1/5*k = (|U’|+1)*|U’|/2*k/5,搜尋好的參數需要耗費很多時間在測試它們。因為 MCS 的合 併方式不同,有時候少數分類器分得好的地方會被其他多數分類器所影響,最後 輸出的結果反而分不好,當每個分類器表現越好越明顯。在處理不平衡資料時,
由於合併的方法是將各分類器輸出的預測信心值轉換成排名後平均,再計算 Area Under FROC Curve(AUC)。這時可能會有一筆資料兩個分類器將它排名得低,但另 一個排得高的情形。轉換為排名後平均很可能使它因為大部份分類器的排名而無
5 稀少類別的資料複製得跟大量存在的類別一樣,相對地 down-sampling 是從具眾多 資料的類別中隨機取出符合稀有類別數量的子集合,資料經過取樣後,類別之間 的平衡就消除了,這時再開始分類的工作。
Down-sampling 雖然因為使用的資料少而能訓練得很快,但也因此而表現不如 up-sampling,而 up-sampling 則是因為使用的資料多,訓練得比較慢。這篇論文提 出一個方法使用在不平衡資料的分類時,同時具有 down-sampling 使用資料少而 快,以及 up-sampling 的良好表現兩種優點。主要的想法是從 down-sampling 開始,
用類似 boosting 的方法使分類模型逼近為 up-sampling。一開始使用 down-sampling 來分類已標記資料,並不斷將分類錯誤的部份加入 down-sampling 裡來使得模型逼 近 up-sampling,直到分類錯誤小於某一個既定的值(如 1%)為止。
我們以 KDDCUP08 的資料來做實驗。以門檻為基礎的自我訓練,我們發現在自
6
我 訓 練 中 使 用 預 測 信 心 值 門 檻 , AUC 比 supervised learning 高 2.4% , 比 ensemble-driven self-training of multiple classifiers 好 0.5%。
而以 down-sampling 逼近 up-sampling,可以擁有 up-sampling 1.3 倍的訓練速度,
同時幾乎與 up-sampling 的效能一樣。
7