分類模型選擇及建立 - 以詞性組合為基礎之中文語言特徵研究

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 3.8：不同研究方向下的參數及語言特徵選擇

3.2 分類模型選擇及建立

透過機器學習方式找出文本作者相當普遍，不同類型文本所適用的分類演算法也不盡相同，需先找出最為合適的以提高預測能力。目前作者歸屬中常見的分類演算法為 LinearSVC 及 Naïve Bayes 這兩種，前者為針對文本使用的線性 SVM，找出區隔文本間在座標上點的線條或是平面；後者則是因文本特徵間大多為相互獨立關係而利用貝氏定理對文本分類，2.5.1 提到的隨機森林雖然在分類上並無如上述兩者分類準確，但卻容易從決策點觀察文本間分類情況，且對於過於資料數值過於鬆散的文本也有奇效[38]。

因為本研究主要想觀察提出的情境性語言特徵在分類上的表現以及類別間詞組的差異，所以需要考慮到分類器是否容易觀察，在這情況下，隨機森林的決策點相比於其他分類演算法的數學式更容易理解，也更容易觀察分類情況。另外，因為

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

要評估分類模型的表現，勢必需要將資料分割成訓練及測試資料兩個部分，但隨機森林內部的 Out-of-bag(OOB)能夠直接評估模型的好壞，使得資料能夠充分被運用。

而重要特徵數值機制，能計算出分類模型內各個特徵對於有效分類的貢獻分數，找出對於分類的效果最大的詞組，這也能作為不同類別間的差異。

為了觀察本研究在分類的表現，我們選擇隨機森林和其他常用的分類演算法，

對於本論文在「同主題不同作者」及「同作者不同類型」兩個研究方向下的文本進行有效評估。圖 3.3 與圖 3.4 為兩種研究方向下的分類準確率，X 軸為本論文提出的語言特徵及一般常用的語言特徵，Y 軸則是準確率分數，越高分類越準確。分類演算法我們選擇 Multinomial Naïve Bayse、LinearSVC、決策樹及隨機森林共 4 種，

參數則是以 scikit-learn 套件包的預設值為主，資料分割皆為各類別文本 80%訓練、

20%測試。圖 3.3 為在 9 個類別底下，隨機森林有著近 5 成的成功預測，且大多高於其他分類演算法；而圖 3.4 則是 3 個類別有著近 8 成的成功預測，相當接近於一般常用語言特徵預測結果，最後我們選擇隨機森林分類演算法作為我們後續對模型研究的基礎。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3.3：同主題不同作者，各演算法分類準確率

圖 3.4：同作者不同類型，各演算法分類準確率

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

得到處理完成的各類別文本向量後，本研究將採用隨機森林分類器，藉由機器學習的方式觀察各類別的分類情況。每個研究方向、語言特徵都會建立 1 個分類模型，舉例來說，「同主題不同作者」在語言特徵名詞+名詞下，將 9 位作者類別的所有文本建立預測模型，當有個同類型的文本輸入時，模型將會預測該文本的作者為誰；此外，為了找出類別間彼此差異詞組為何，也會針對兩兩類別建立各自的預測模型。前者的多類別模型主要是觀察整體的分類情況，後者雙類別模型則是明確找出類別間詞組使用差異。

CART 決策樹在分類時，會挑使分類後純度提高的特徵維度，也就是詞組。純度越高分割後類別趨近於越少，該決策點作為類別間的差異性也越明顯。而同樣概念的隨機森林，在訓練資料與詞組特徵都是隨機的情況下，重要特徵會是以統計的方式計算，找出該模型在分類上重要決策點的詞組。為了觀察類別間是否存在獨特性詞組，本研究選用雙類別模型觀察重要特徵後，再與其他類別結果整合。如果是直接選用多類別模型，雖然也能找出作為整體分類的重要特徵，但卻無法有效解釋是區隔哪些類別。假設詞組 A 能將作者分成 5 位與 4 位 2 類，但卻不能明確解釋是在哪些類別有著差異；但若是雙類別，詞組 A 在資料分割上會使結果各趨近於單一類別，明確看出是這兩個類別產生差異，這就有辦法找出類別間的獨特性詞組為何。

本研究的隨機森林分類器採用機器學習常用的套件包 Scikit-learn 作為開發使用，程式開發語言為 python。隨機森林分類器 RandomForestClassifier 內，樹的樹木參照 Oshiro 等人論文[17]選擇 256 顆；葉節點為 2，即最後至少要有 2 個文本符合詞組決策結果；模型隨機參數 random_state 的數值選擇可以確保每次建立的模型結果皆一致，本研究選擇 0~9，後續的 OOB 評估數值及重要特徵數值為這 10 個模型的平均值，以避免結果太過極端。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中以詞性組合為基礎之中文語言特徵研究 - 政大學術集成 (頁 33-37)

分類模型選擇及建立

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2 分類模型選擇及建立

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學