• 沒有找到結果。

4.1 分類模型評估

4.1.2 雙類別模型

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

36

圖 4.2:不同研究方向雙類別模型在各語言特徵平均 OOB 錯誤率

4.1.2 雙類別模型

圖 4.2 為不同研究方向下,雙類別模型在各語言特徵平均 OOB 錯誤率。跟圖 4.1 一樣,X 軸為語言特徵,並由藍線區隔常用與本研究提出。Y 軸為 OOB 錯誤率,

與多類別模型不同,數值是由該研究方向下所有模型 OOB 錯誤率的平均:「同主 題不同作者」為 9 位作者兩兩組合共 36 個模型的平均,而「同作者不同類型」為 3 種類型組合的平均值。因為類別數只有 2 個,所以我們可以看到 OOB 錯誤率表 現比圖 4.1 的 9 個類別及 3 個類別還好。折線分布也與多類別類似,但數值更低,

「同主題不同作者」在不同語言特徵間的更大。由於雙類別模型主要是希望觀察出 類別間的差異,所以將更進一步觀察類別在不同情況下的差異。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

37

圖 4.3:同主題不同作者,各作者與其他作者平均 OOB 錯誤率

圖 4.3 為在「同主題不同作者」各作者在不同語言特徵下與其他作者的平均 OOB 錯誤率,如:雷震與其他 8 位作者建構名詞+名詞語言特徵的分類模型後,將 8 個分類模型的 OOB 錯誤率取平均值,作為雷震與其他作者在這語言特徵的平均 差異。在同個語言特徵下,若某位作者比其他位作者的平均 OOB 錯誤率高時,代 表該位作者在該語言特徵上無法有效與其他作者產生區分;反過來說,若平均 OOB 錯誤率較低時,代表容易區別於其他作者。

在各個語言特徵相互比較,可看出藍線右側的一般常用語言特徵數值低於本 論文提出的情境性語言特徵大多,作者間除了標點符號外差距並不大,至於各個作 者在情境性語言特徵則是有著不同的表現。從整體上來看,雷震數值大多高於其他 作者,這是因為《自由中國》中的社論多為雜誌共同修訂,也剛好就是雷震負責,

這使得雷震在修訂其他作者的社論時可能不經意加入自己的語言風格。雖然我們 原本假設情境性語言特徵包含的作者資訊不受影響,但在集體修訂下還是表現出 了一致性,導致雷震無法與其他作者產生區別。不過,在名詞+名詞與形容詞+名詞

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

38

圖 4.4:同作者不同類型,各類型與其他類型平均 OOB 錯誤率

這兩類比較接近主題的語言特徵就相對不會受到修訂的影響,表現出作者文本之 間的差異。至於朱伴耘與龍平甫則是整體 OOB 錯誤率偏低,代表這兩位作者在這 些語言特徵上可能有著獨特性;另外,殷海光在各語言特徵的 OOB 錯誤率皆平均,

代表並無特別顯著或特別模糊的分類。各個作者可能有著易於區別其他作者或是 使用相近的語言特徵,之後將更細部觀察類別間的語言特徵優劣表現。

至於圖 4.4「同作者不同類型」的雷震文本,雖然只有 3 個類別,但很明顯別 於圖 4.3 的折線分布,整體分布較於平緩。社論與文章這兩個類別在各個語言特徵 點分布幾乎重疊,而日記則是別於其他兩類且數值極低,這代表日記在所有語言特 徵都和社論及文章有著明顯區別。而社論與文章線之所以重疊,主要是因為只有 3 個類別,代表日記在和其他類別間的 OOB 錯誤率極低,屬於日記的文本幾乎不會 被分類成社論與文章;至於社論與文章,因為 OOB 錯誤率為與其他兩個類別平均,

而與日記又趨近於 0,這代表社論及文章的平均 OOB 錯誤率可視作彼此間的 OOB 錯誤率。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

39

表 4.1:同主題不同作者各類別間 OOB 錯誤率最大(右上)及最小(左下)語言特徵 (紅字為各作者最大,藍字為各作者最小)

表 4.2:同主題不同作者各類別間 OOB 錯誤率平均值 (紅字為各作者最大,藍字為各作者最小)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

40

先前有了研究方向及類別的平均 OOB 錯誤率,接下來觀察更細部的兩兩類別 間在不同語言特徵下的差異。表 4.1 為「同主題不同作者」兩兩作者間 OOB 錯誤 率最大及最小的本研究提出語言特徵,右上角粉色區塊為 OOB 錯誤率最大,而左 下為藍色區塊為 OOB 錯誤率最小,比較上僅選擇情境性語言特徵。右上角的紅字 與左下角的藍字分別代表該類別與其他類別中數值最大及數值最小的組合,可能 會有重複。而表 4.2 為兩兩類別在所有語言特徵 OOB 錯誤率的平均值,每個類別 也都有紅字與藍字作為該類別與其他類別的最大最小值,也有可能重複。類別中的 紅色數值越多,代表該類別與其他類別在文本分類時的準確率越低;藍色數值則剛 好相反,類別越多代表該類別與其他類別差異越大,區別性越強。

從表 4.1「同主題不同作者」語言特徵中,可觀察出作者與其他作者之間在何 個語言特徵下詞組使用差異最大、何個差異最小,例如:雷震在否定組合與程度組 合與其他作者的 OOB 錯誤率最高,意味著區別性越低,而在名詞+名詞組合中大 多數值最低,代表著在該語言特徵的詞組能與其他作者區別;羅鴻詔則是以名詞+

動詞及形容詞+名詞組合數值最高,副詞+動詞組合最低,這代表語言特徵並沒有 絕對分類上的優勢及劣勢。從整體來看,36 個 OOB 錯誤率最大的語言特徵以名詞 +動詞組合、程度詞組合及形容詞+名詞組合最多,而另外 36 個 OOB 錯誤率最小 的語言特徵則多為副詞+動詞組合及名詞+名詞組合,雖非絕對但稍微能看出情境 性語言特徵在分類上的優劣情況。

從類別來看,表 4.2 中雷震、傅正與胡適的 OOB 錯誤率分數皆高,雷震更有 4 個紅色數值,代表與其他作者文本間差異並不大,獨特性詞組可能較少,而龍平 甫與朱伴耘分數平均皆低,表示做為與其他類別間不同的獨特性詞組可能越多,而 這也在擁有 6 個藍色數值的龍平甫最為明顯,這些結果也與圖 4.3 各作者折線圖的 整體分布相近。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y