• 沒有找到結果。

4.2 類別獨特詞組尋找

4.2.1 各類別重要特徵詞組尋找

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

44

4.2 類別獨特詞組尋找

在有著雙類別模型的可預測前提下,本節要探討類別間的重要特徵及如何找出其 獨特性詞組。當一個詞組對於兩個類別分類效果越強,越代表這詞組表現出這兩個 類別間的差異。我們將彙整各類別間的重要特徵,回頭觀察原始文本並分析其獨特 性,也進一步比較本論文提出語言特徵與常用語言特徵找出的獨特性詞組不同點。

4.2.1 各類別重要特徵詞組尋找

隨機森林會透過特徵在決策點採用的數目,決定特徵的重要性。Scikit-learn 提 供的隨機森林分類器中存在函式 feature_importances_,能自動幫忙統計各個特徵佔 所有特徵的比例,特徵總和為 1。舉例來說,選擇形容詞+名詞的語言特徵並觀察 雷震與殷海光分類模型在使用函式後的詞組數值,得到「自由(VH)中國(Nc)」的分 數為 0.0855,而「安全(VH)措施(Na)」的分數為 0.000125。當詞組數值越大,代表 兩兩類別在該詞組差異性越高;數值越小,兩兩類別在該詞組差異性越小。不過,

當某詞組數值越接近 0 時可能有兩種情況:類別間該詞組使用性高且極度相近,

以至於選做決策點也不易明顯分割資料;類別間該詞組使用性趨近於 0,選做決策 點無法有效分割。本研究在雙類別模型建立時,有可能某些詞組兩個類別的文本都 沒使用,造成無意義存在,且這類比例也不少,為了要兼顧分類有效性及較具情境 性詞組,本論文語言特徵建立的文本向量大多為後者,所以後續重要特徵及獨特性 詞組的觀察會以差異度最大的詞組為優先考量。

實驗上,為了找出各類別的重要特徵詞組,我們會先觀察不同語言特徵下所有 模型的重要特徵後,根據類別對其所有詞組依照 feature_importances_數值排序。在 雙類別模型下,各語言特徵在「同主題不同作者」會有 36 個分類模型,每個類別 會對應到其他 8 個類別,而「同主題不同類型」只有 3 個分類模型,每個類別對應

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

45

其他 2 個類別。為了觀察方便,依照同個類別彙整所有語言特徵一併尋找重要特 徵詞組。語言特徵會分成「一般常用的語言特徵」及本論文提出的「情境性語言特 徵」2 類,以下為重要特徵詞組尋找步驟:

1. 找出包含該類別的所有雙類別模型,並列出各自詞組數值。

2. 當與其他類別所有數值皆大於閥值時,詞組將視為該類別的重要特徵。

3. 詞組所有數值的平均,將作為詞組在該類別的權重值。

4. 針對不同語言特徵重複步驟 1~3,最後依照類別分類,並以詞組權重排序。

舉例來說,雷震與其他 8 位作者在某個語言特徵下的 8 個分類模型,並列出所有 詞組的 feature_importances_數值。假如說「民主(Na)國家(Na)」這詞組與其他位作 者的數值皆大於閥值,我們就能說雷震在這詞組容易與其他作者間產生區別,也就 是具有獨特性。因為所有數值總和為 1,而 100 個詞組平均值為 0.01,本論文選擇 0.01 作為閥值,當大於這個數值時,代表著該詞組在分類使用上高於平均值。另 外,我們也給雷震在「民主(Na)國家(Na)」與其他作者的差異權重,也就是與其他 作者間數值的平均值,越高代表這詞組越對類別表現獨特。最後整合雷震在其他語 言特徵得到的重要特徵詞組,並按照權重排序。得到各個類別的重要特徵後,就能 觀察詞組對於該類別的重要性及使用情況。重要特徵詞組權重越高,表示使用上可 能遠高於其他類別,或是遠低於其他類別。所以得到重要特徵詞組後,還得回頭觀 察類別間在該詞組的使用頻率。

除了針對各類別排序外,我們也觀察在原始文本中,類別在該詞組的使用頻率。

我們將每個類別的所有文本合併成單一文本,計算詞組在文本中的相對頻率,計算 方式與公式 3.1 一致,在與其他類別比較下,觀察在分類上是否因作為重要分類特 徵,而與其他類別的相對頻率有著明顯差異。有些詞組同時出現在不同的語言特徵 裡,像是「可以(D)說(VE)」就同時出現在副詞+動詞及情態詞組合裡,在排序過程 中僅保留權重最高的數值。

。 標點 0.105112 32342, 43464, 39441, 22876, 32221, 36138, 28547, 39174, 29748

, 標點 0.096012 82027, 73149, 74952, 88206, 57386, 87139, 79453, 72053, 82637

? 標點 0.081293 2437, 4567, 4416, 2200, 665, 1863, 4316, 1999, 4804

不(D)是(SHI) 0.123617 1494, 1840, 2278, 484, 556, 1289, 2010, 1110, 2274 民主(VH)政治(Na) 0.106029 425, 111, 153, 0, 0, 191, 283, 52, 56

。 標點 0.181927 32342, 43464, 39441, 22876, 32221, 36138, 28547, 39174, 29748

, 標點 0.102492 82027, 73149, 74952, 88206, 57386, 87139, 79453, 72053, 82637

「 標點 0.084092 9245, 16638, 9527, 16387, 8874, 4574, 6345, 14029,

不(D)是(SHI) 0.132241 1494, 1840, 2278, 484, 556, 1289, 2010, 1110, 2274 可(D)言(VE) 0.120953 142, 211, 14, 242, 9, 83, 163, 0, 48

。 標點 0.126134 32342, 43464, 39441, 22876, 32221, 36138, 28547, 39174, 29748

, 標點 0.097243 82027, 73149, 74952, 88206, 57386, 87139, 79453, 72053, 82637

這件事 trigram 0.085829 94, 0, 736, 44, 36, 0, 0, 26, 8

不(D)是(SHI) 0.147022 1494, 1840, 2278, 484, 556, 1289, 2010, 1110, 2274 最(Dfa)大(VH) 0.105176 173, 244, 28, 88, 280, 91, 119, 274, 104

。 標點 0.162674 32342, 43464, 39441, 22876, 32221, 36138, 28547, 39174, 29748

, 標點 0.122304 82027, 73149, 74952, 88206, 57386, 87139, 79453, 72053, 82637

事實上 bigram 0.089881 299, 166, 278, 836, 357, 42, 270, 52, 312

不(D)是(SHI) 0.18227 1494, 1840, 2278, 484, 556, 1289, 2010, 1110, 2274 很(Dfa)明顯(VH) 0.155094 47, 22, 0, 264, 0, 25, 182, 26, 16

, 標點 0.180197 82027, 73149, 74952, 88206, 57386, 87139, 79453, 72053, 82637

‧ 標點 0.111938 865, 200, 444, 154, 2524, 374, 214, 314, 328

? 標點 0.110107 2437, 4567, 4416, 2200, 665, 1863, 4316, 1999, 4804

) 標點 0.095444 975, 344, 2055, 308, 7770, 857, 383, 2325, 1505

這一 bigram 0.078561 818, 3558, 2958, 1892, 68, 424, 1439, 575, 240

。 標點 0.072009 32342, 43464, 39441, 22876, 32221, 36138, 28547, 39174, 29748

自由世界的 trigram 0.065282 0, 44, 28, 22, 258, 50, 220, 196, 24

不(D)是(SHI) 0.177432 1494, 1840, 2278, 484, 556, 1289, 2010, 1110, 2274 最(Dfa)大(VH) 0.140637 173, 244, 28, 88, 280, 91, 119, 274, 104

。 標點 0.112133 32342, 43464, 39441, 22876, 32221, 36138, 28547, 39174, 29748

」 標點 0.109083 9009, 16217, 9402, 16321, 8743, 4242, 6326, 13833, 8039

「 標點 0.103893 9245, 16638, 9527, 16387, 8874, 4574, 6345, 14029, 8096

, 標點 0.094291 82027, 73149, 74952, 88206, 57386, 87139, 79453, 72053, 82637

: 標點 0.078054 2390, 2428, 2569, 4553, 5360, 3393, 1231, 4271, 745

不(D)是(SHI) 0.103861 1494, 1840, 2278, 484, 556, 1289, 2010, 1110, 2274 不(D)應(D) 0.097462 283, 89, 194, 176, 136, 432, 144, 0, 344

。 標點 0.123829 32342, 43464, 39441, 22876, 32221, 36138, 28547, 39174, 29748

: 標點 0.104745 2390, 2428, 2569, 4553, 5360, 3393, 1231, 4271, 745

在這種 trigram 0.089247 63, 200, 97, 0, 68, 25, 226, 13, 8

? 標點 0.083537 2437, 4567, 4416, 2200, 665, 1863, 4316, 1999, 4804

, 標點 0.080306 82027, 73149, 74952, 88206, 57386, 87139, 79453, 72053, 82637

而不是 trigram 0.08017 189, 55, 167, 0, 18, 208, 276, 0, 96

不(D)是(SHI) 0.112069 1494, 1840, 2278, 484, 556, 1289, 2010, 1110, 2274 民主(Na)自由(VH) 0.086386 110, 100, 111, 22, 63, 191, 188, 157, 64

, 標點 0.113838 82027, 73149, 74952, 88206, 57386, 87139, 79453, 72053, 82637

: 標點 0.102984 2390, 2428, 2569, 4553, 5360, 3393, 1231, 4271, 745

。 標點 0.101069 32342, 43464, 39441, 22876, 32221, 36138, 28547, 39174, 29748

我的 bigram 0.071446 110, 33, 250, 0, 27, 308, 415, 967, 264

不(D)是(SHI) 0.12323 1494, 1840, 2278, 484, 556, 1289, 2010, 1110, 2274 先生(Na)說(VE) 0.122808 0, 11, 28, 44, 0, 8, 19, 222, 8

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

62

表 4.20:同主題不同作者,羅鴻詔在一般常用語言特徵下所有重要特徵詞組 詞組 語言特徵 分類權重 所有類別在該詞組的相對頻率

(雷震,殷海光,夏道平,傅正,龍平甫,蔣勻田,朱伴耘,胡適,羅鴻詔)

: 標點 0.131168 2390, 2428, 2569, 4553, 5360, 3393, 1231, 4271, 745

。 標點 0.116961 32342, 43464, 39441, 22876, 32221, 36138, 28547, 39174, 29748

則 高頻 0.107068 2437, 1219, 1028, 1298, 2189, 3734, 792, 601, 9233

, 標點 0.096826 82027, 73149, 74952, 88206, 57386, 87139, 79453, 72053, 82637

各國的 trigram 0.092981 47, 0, 0, 0, 63, 67, 25, 13, 224

並不是 trigram 0.079395 220, 166, 264, 22, 244, 100, 170, 287, 448

? 標點 0.074482 2437, 4567, 4416, 2200, 665, 1863, 4316, 1999, 4804

、 標點 0.072137 5283, 6440, 4430, 8403, 5672, 4192, 2651, 5003, 1874

其 高頻 0.070602 5330, 1574, 2903, 2706, 3383, 5556, 3876, 1097, 10434

是一個 trigram 0.070462 393, 488, 347, 220, 330, 141, 364, 745, 88

而 高頻 0.067595 6777, 5764, 4833, 6555, 3641, 7203, 7564, 3409, 13308

這不是 trigram 0.067256 63, 78, 42, 44, 9, 50, 57, 78, 216

( 標點 0.067037 1415, 366, 2069, 1496, 6450, 1539, 214, 2051, 3219

) 標點 0.063164 1415, 355, 2055, 1452, 6395, 1505, 214, 2025, 3211

; 標點 0.054893 2814, 2150, 2014, 2486, 4423, 4350, 1370, 4298, 1289

「 標點 0.044168 9245, 16638, 9527, 16387, 8874, 4574, 6345, 14029, 8096

」 標點 0.04277 9009, 16217, 9402, 16321, 8743, 4242, 6326, 13833, 8039

有一個 trigram 0.021887 252, 144, 208, 88, 95, 67, 264, 222, 88

不(D)是(SHI) 0.104512 1494, 1840, 2278, 484, 556, 1289, 2010, 1110, 2274 不(D)應(D) 0.090881 283, 89, 194, 176, 136, 432, 144, 0, 344

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

64

表 4.22:同作者不同類型,社論在一般常用語言特徵下所有重要特徵詞組 詞組 語言特徵 分類權重 所有類別在該詞組的相對頻率

(社論,文章,日記)

, 標點 0.091545 82027, 86182, 102233

。 標點 0.069872 32342, 31313, 44312

? 標點 0.063989 2437, 1356, 1313 我 高頻 0.059185 629, 3527, 12793 有人說 trigram 0.055499 31, 63, 92

; 標點 0.053928 2814, 1804, 703 得不好 trigram 0.049426 16, 34, 135

、 標點 0.048986 5283, 5460, 10079

「 標點 0.043421 9245, 6362, 2033

? 標點 0.040412 6635, 5554, 14614 的 高頻 0.040412 54386, 48876, 11133

! 標點 0.037748 676, 407, 395

」 標點 0.037346 9009, 6261, 2021 我在 bigram 0.035982 0, 213, 208 了一個 trigram 0.030455 142, 60, 260

我們 高頻 0.027968 10896, 4407, 1660 一個月 trigram 0.02636 47, 53, 107

未 高頻 0.02552 912, 915, 3206

: 標點 0.025201 2390, 2681, 1175 又 高頻 0.02313 1289, 1682, 5004 得很 bigram 0.016411 31, 110, 319 說這是 trigram 0.016168 16, 28, 58

好 高頻 0.01453 346, 464, 2084

自由(VH)中國(Nc) 0.088659 346, 188, 1263

很(Dfa)不(D) 0.077439 0, 31, 86 很(Dfa)好(VH) 0.076398 47, 97, 285 民主(VH)國家(Na) 0.067846 236, 60, 11 言論(Na)自由(VH) 0.067349 16, 207, 51

不(D)是(SHI) 0.064204 1494, 1024, 405 民主(VH)政治(Na) 0.061617 425, 335, 31

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

66

表 4.24:同作者不同類型,文章在一般常用語言特徵下所有重要特徵詞組 詞組 語言特徵 分類權重 所有類別在該詞組的相對頻率

(社論,文章,日記)

。 標點 0.093078 32342, 31313, 44312

, 標點 0.075965 82027, 86182, 102233 的 高頻 0.051314 54386, 48876, 11133

( 標點 0.047344 1415, 2218, 812

) 標點 0.045309 1415, 2215, 815 我 高頻 0.044727 629, 3527, 12793 未 高頻 0.042964 912, 915, 3206

? 標點 0.042525 6635, 5554, 14614

、 標點 0.038974 5283, 5460, 10079

「 標點 0.03219 9245, 6362, 2033

」 標點 0.031984 9009, 6261, 2021 得不好 trigram 0.030531 16, 34, 135 了一個 trigram 0.027235 142, 60, 260 一個人 trigram 0.022551 79, 41, 121 一個月 trigram 0.01982 47, 53, 107

而 高頻 0.019427 6777, 9121, 3812 好 高頻 0.018968 346, 464, 2084 或 高頻 0.018677 2673, 3514, 379 找不到 trigram 0.018276 63, 16, 61

又 高頻 0.015826 1289, 1682, 5004

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

67

表 4.25:同作者不同類型,文章在情境性語言特徵下所有重要特徵詞組

詞組 分類權重 所有類別在該詞組的相對頻率

(社論,文章,日記) 自由(VH)中國(Nc) 0.117361 346, 188, 1263

人(Na)說(VE) 0.078379 31, 72, 126 可以(D)說(VE) 0.072978 252, 338, 28 民主(VH)政治(Na) 0.065195 425, 335, 31 不(D)好(VH) 0.061968 31, 60, 847 很(Dfa)不(D) 0.055183 0, 31, 86 很(Dfa)好(VH) 0.053733 47, 97, 285 更(D)進一步(D) 0.051747 16, 85, 7

好(VH)的(DE) 0.047272 63, 132, 53 很(Dfa)大(VH) 0.04245 47, 150, 105 很(Dfa)久(VH) 0.032443 0, 34, 93

更(D)是(SHI) 0.030457 94, 160, 31 多(Neqa)年(Nf) 0.024451 47, 75, 50

不(D)到(VCL) 0.021959 79, 25, 111 可(D)知(VK) 0.021084 63, 69, 73 不(D)知(VK) 0.020864 126, 150, 400

不(D)到(P) 0.017842 79, 66, 127 不(D)在(P) 0.016792 94, 66, 283 小(VH)事(Na) 0.015117 16, 31, 20 這樣(VH)作法(Na) 0.014559 0, 16, 19

無(VJ)人(Na) 0.013685 94, 88, 141

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

70

表 4.4 到表 4.26 呈現了不同研究方向下各類別重要特徵詞組,依照重要特徵 數值作為權重並由大至小排序。可以看出在找出的重要特徵詞組數量上,情境性語 言特徵比一般常用語言特徵還多。在一般常用語言特徵的重要特徵詞組結果大致 分成 2 類:整體數量較多的標點符號、以及使用數量別於其他類別的高頻詞、bigram 及 trigram。標點符號大多為常用的如「,」、「。」等,這些在文本上使用數量多且 各類文本分布數量穩定,使得各類別變化能穩定觀察,自然成為區別類別的重要特 徵詞組。但也僅限於常用的標點符號,「‧」就是大多類別不常用但龍平甫很常用 的例子,因為該作者的文本中常常有著外國人名,第 2 類大多屬於這個意思。第 2 類的高頻詞、bigram 及 trigram 找出的重要特徵詞組就能看出些微獨特性,較標點 符號有情境性但整體數量偏少,該類別選作重要特徵詞組通常分布數量顯著於其 他類別,像是雷震的「民主國家的」、殷海光的「在事實上」,之後的獨特性詞組挑 選也是基於此。

在情境性語言特徵上,由於本論文是基於類別可解釋性角度選擇的語言特徵,

可以看出類別找到的重要特徵詞組大多比一般常用語言特徵具情境性,能看出不 同研究方向下各類別在其文本常使用的詞組及部分核心想法。舉例來說:「民主(Na) 國家(Na)」、「自由(VH)中國(Nc)」為各作者都會使用到的重要特徵詞組,雖然都有 提到但使用數量皆不一致進而產生區別,這也反映了「同主題不同作者」的「同主 題」的部分;也有些詞組其他作者幾乎不怎麼使用,但自身使用數量上顯著的重要 特徵詞組,如殷海光的「大(VH)帽子(Na)」及傅正的「行政(Na)改革(VC)」。

而在「同作者不同類型」,由於日記與社論及文章的差異過大,可以看出不管 在一般常用語言特徵或是情境性語言特徵,日記找出的重要特徵詞組多為其他 2 個 類別文本使用上有所差距,像是「下午二時半」、「今日(Nd)天晴(VH)」使用數量較 多,當然也有如「的」在日記使用上比其他類別還低的重要特徵詞組,之後將透過 獨特性詞組進一步篩選。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

71

圖 4.5:獨特性詞組的界定,兩者皆為重要特徵詞組,

但只有左圖的詞組 A 為雷震的獨特性詞組