• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

86

4.3 語言特徵整合預測

本論文提出了 3 種共 7 類語言特徵作為不同研究方向下的觀察,但在一般文本分 類時並不會只使用單一語言特徵作為類別間分類的依據,通常會由複數個語言特 徵結合以提高分類準確率,像是 n-gram 就是將 n 個字詞組合觀察,而結合過程也 包含了許多其他語言特徵。所以為了提高本論文提出的語言特徵在分類上的準確 率,將結合各類一定比例語言特徵內的詞組做為新的語言特徵,並觀察對比於以單 一類別分類時是否有效提升。

為了有效整合語言特徵,必須尋找能有效區分不同類別的詞組作為新的語言 特徵的詞組向量,我們採用隨機森林分類模型的函式 feature_importances_的重要特 徵數值來評估選擇哪些詞組。在 4.2.1 小節,我們基於雙類別模型內的重要特徵數 值找出類別重要特徵,本節主要目的是觀察整體分類情況,所以將採用多類別模型 重要特徵數值的高低來選擇詞組。因為數值越高代表分類效果越好,所以選擇了 3 種共 7 類語言特徵重要特徵數值最高的前 10 個、前 20 個及前 30 個構成的語言特 徵。之後同樣依照 3.1.2 小節的步驟建立各類別的文本向量,輸入隨機森林分類器 後,觀察本研究提出的語言特徵及常用語言特徵建構的多類別分類模型 OOB 錯誤 率與 3 個新的語言特徵建構模型 OOB 錯誤率的差異。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

87

圖 4.6:新的語言特徵與一般常用語言特徵的 OOB 錯誤率比較

圖 4.7:新的語言特徵與本研究提出語言特徵的 OOB 錯誤率比較

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

88

從圖 4.6 與圖 4.7 可觀察出當整合越多語言特徵時,OOB 錯誤率也越低,分類 表現也越好。在「同主題不同作者」,最佳為綜合前 30 個語言特徵,OOB 錯誤率 低於 0.3,比一般常用語言特徵的標點符號 0.384 表現還佳,當與本研究提出的單 一語言特徵比較時則有著約 2 成的大幅改善,而在「同作者不同類型」綜合語言特 徵的 OOB 錯誤率也比原始單一語言特徵有所降低。

相較於以詞組在母體出現數量作為選擇基準,模型分類效果更好的重要特徵 詞組能夠更加降低模型的 OOB 錯誤率,但為何即便結合了各語言特徵重要特徵數 值最高前 10、20、30 名詞組的語言特徵,建立出的多類別模型在「同主題不同作 者」下還是有約 3 成的錯誤率?原因可能為情境性語言特徵詞組數量的問題。比 起大多類別都會使用的一般常用語言特徵詞組,情境性語言特徵詞組在各類別文 本中數量本來就相對較少,且不一定各個文本都會出現,這使得先天上我們無法有 著媲美一般常用語言特徵的分類效果,但也換取了情境解釋性及類別的獨特性詞 組觀察。另外,同個主題下以 9 位作者建立分類模型而有著 7 成正確率已經算是 相當好的結果表現。

至於結合情境性語言特徵所建立新的語言特徵,其本質也是詞性與詞彙組合 的子集合,那為何不直接選擇 bigram、trigram 再篩選的問題。雖然 n-gram 在各種 文本分類上表現都不錯,但本研究希望找出情境性詞組作為後續類別間觀察對象,

比起從 n-gram 建立篩選規則,直接提出情境性語言特徵的規則比較直觀,未來對 情境性語言特徵的修改也比較方便。結合後新的語言特徵也都是情境性的詞性組 合,也兼具分類效能及情境解釋性。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

89