• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12

2.5 隨機森林分類演算法

有了向量化後的文本,將會利用機器學習對文本向量建立分類模型。本研究將會使 用隨機森林分類演算法對文本進行分類,而我們也會介紹隨機森林、解釋選擇的理 由、以及過去利用隨機森林進行文本的研究。

2.5.1 機器學習介紹

我們能夠利用電腦進行輔助運算,處理複雜資訊,但這些前置作業像處理模式及運 行規則都是由人類所負責,若這些作業也能一併交給電腦處理就好。於是,為了使 電腦更加接近人腦,人工智慧領域也就因此誕生。機器學習為人工智慧的一環,主 要負責從資料中自行找出相關規則,並將此規則預測於未知資料上。因為只要按照 一定格式架構資料並選擇適當的演算法,所以相當容易上手,並廣泛使用在各個領 域上,像是醫學、生物、金融及自然語言處理。

機器學習演算法大致分成 3 個領域:資料分類、迴歸分析及資料分群。前兩類 屬於監督式學習,也就是在已知預測結果輔助下訓練出資料的規則模型,兩者差別 在資料分類是預測分類類別,而迴歸分析則是預測一個區間的數值;資料分群則是 希望模型自行找出資料各自群體分佈的非監督式學習。在作者歸屬研究中,資料分 類的演算法是最常用的,例如:支援向量機(SVM)、決策樹與隨機森林、樸素貝葉 斯分類器、最近鄰居演算法及最近相當熱門的類神經網路[15]。以往作者歸屬研究 都是著重在文本的語言特徵選取並比較兩兩向量間的距離,機器學習方式則需加 上演算法的選取。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

13

圖 2.3:決策樹範例

2.5.2 決策樹及隨機森林介紹

決策樹是利用訓練資料提供的訊息進行分類,通常為是/否分類,而樹的每個非葉 節點都是一個決策邏輯,圖 2.3 就是依照圖 2.1 的文本向量建構的決策樹。常用的 決策樹算法有 ID3、C4.5 及 CART,彼此差別在對於特徵作為樹的分類決策點不 同,以每次分類來說,首先先決定選擇從哪個特徵作為接下來的決策點,並使最後 分類效果最好。傳統上是使用 Information Gain 及 Entropy 以觀察從何特徵切割,

能使分群後的亂度降低,亂度越低分類效果越好。至於 CART 決策樹,則是利用 Gini index 來選擇從哪個特徵切割能使純度提高,純度越低代表分割的兩個類別內 的資料越趨近於單一類別,分類效果也越好,後續講到的隨機森林也是由 CART 決 策樹所構成。而在資料只有兩個類別時,被視作決策點的特徵因為可以有效區別不

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

14

同類別,所以直覺上可以視作是類別間的差異,本論文在作者間及文本類型間的重 要特徵就是基於這點尋找。

若單個決策樹預測效果不好,那結合複數棵決策樹是否能提高預測性?隨機 森林[16]就是基於這想法而建成的分類演算法。核心觀念為集結眾樹之力進行訓練,

並對每棵樹進行多數決,找出測試資料的可能類別。隨機森林除了建構複數棵樹外,

為了避免每棵樹太過相近,所以樹的資料會是以放回抽取的方式選擇,所以每棵樹 的訓練資料皆不同,提高樹的多樣性。舉例來說:如果有 600 個資料,在放回抽樣 後選取 600 個後,扣掉重複剩 400 個,這 400 個將作為這棵樹的訓練資料。除此 之外,也隨機選取每棵樹所使用的特徵數量,通常會是所有特徵數量取根號或是 log 值。樹的數量選擇也是重點[17],通常越多效果越好,但超過飽和點後也會無 意義的加長訓練時間,需針對資料的特徵及資料數量找出適當值。

隨機森林模型內部有著自己的評估機制,可以使用 Out-of-bag(OOB)評估模型 的好壞。OOB 是利用每棵樹大約有 1/3 不會用到的訓練資料,作為該樹的測試資 料,以上段資料為例:400 個資料構成的樹,使用剩下 200 個資料作為測試,觀察 類別被預測成功的比例佔測試資料比例,最後將所有棵樹平均後即得到該隨機森 林模型的 OOB 分數,越高代表越成功,不過後續實驗會使用 OOB 錯誤率(1-OOB) 作為評估,越接近 0 預測效果越好。透過 Breiman 在 1996 發表的論文[18],OOB 評估分數與在同樣訓練資料大小下的測試資料所得到準確率一致,這代表無須另 外從原始資料切割額外的測試資料做模型評估,能夠完整使用所有資料進行訓練,

這對資料稀少的文本有著很大幫助,且不太受稀疏型資料影響分類效果。也因為 OOB 評估機制,會針對一些分類不理想的資料加強訓練,提高準確率。在隨機機 制下,也不會有過度擬合的問題發生。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

15

2.5.3 隨機森林的相關研究

機器學習中使用隨機森林作為分類及預測相當普及,主要都會用在生物辨識或是 圖形識別上,而對於文本的作者歸屬與作者驗證的運用也不算少數[19][20][21]。在 文本分類研究中,隨機森林在研究中經常扮演著與其他演算法共同比較的角色,像 是透過部分訊息使用隨機森林與支援向量機找出文本所描述的主要事件詞組[22]、

使用不同分類演算法找出文本背後可能的資訊[23]或是觀察波蘭語文章在各項分 類時的表現並評估[24]。當然除了實體文本,隨機森林也用在網路上的文本分析處 理,像是對推特的發文分析背後的年齡層與性別[25]、篩選並排除發文中的霸凌推 文[26]、以及對郵件進行過濾及個人化篩選[27]等。

除了研究特定目標外,也有從不同層面來研究隨機森林的對於文本分類的表 現:使用具有跨類別及跨主題的通用語言特徵,觀察不同語言下的分類表現[28]、

建立語言現象識別及推理判斷的特徵規則,提高分類後的文本蘊含識別[29]、參照 搜尋引擎中動態變化詞組建立隨機森林分類模型,列出重要特徵詞組,並觀察投資 者的情緒指數[30],本論文的研究則為這 3 個研究的混合:「同主題不同作者」及

「同作者不同類型」、提出具情境性的語言特徵、及觀察類別間的重要特徵詞組,

這些研究也提供了本論文從機器學習中選擇隨機森林分類演算法的說服力。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

16

第 3 章 語言特徵研究方法

為了檢測各語言特徵是否能夠在同主題區分不同作者及在同作者區分不同類型文 本,本章節將會先對實驗來源進行解說:各研究方向下向量空間模型的母體文本如 何選取、「同主題不同作者」內《自由中國》作者及文本的選擇、「同作者不同類型」

中雷震發表於公領域《自由中國》社論文章及私領域雷震日記的文本。各研究方向 下的母體文本及研究文本進行逐篇斷詞並標註詞性後,依照不同語言特徵建立向 量空間模型並將文本轉換成文本向量並正規化。各語言特徵在向量空間模型所建 立基準特徵,會參照各研究方向下斷完詞後的母體文本,並依照出現次數作為各文 本向量的維度特徵,也就是詞組。本研究使用的語言特徵多為詞彙或詞彙與詞性組 合,在解釋選擇理由後也會為了找出明確的情境性語言特徵進一步對細部篩選。有 了文本斷詞並轉換成文本向量前處理過程後,才能作為後續電腦能接受的數值資 訊再進一步作分析。

有著各類別在不同研究方向、不同語言特徵的文本向量後,將會利用隨機森林 進行分類,建立觀察整體的預測模型,計算「同主題不同作者」對於不同作者及「同 主題不同類型」雷震不同類型文本模型的 OOB 錯誤率。為了進一步找出類別間的 差異詞組為何,將建立各類別間的模型並找出決策點,彙整出不同觀察層面的平均 OOB 錯誤率及類別間分類重要詞組,最後找出各類別的獨特性詞組,觀察獨特性 詞組在原始文本中的表現並依照常用語言特徵及本研究提出語言特徵分類觀察。

最後也彙整本研究提出的語言特徵,依照隨機森林找出來的重要特徵,觀察合併後 分類效果與單一語言特徵的分類效果優劣,圖 3.1 為整體實驗流程。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

17

圖 3.1:實驗流程圖