• 沒有找到結果。

以詞性組合為基礎之中文語言特徵研究 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "以詞性組合為基礎之中文語言特徵研究 - 政大學術集成"

Copied!
118
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University. 碩士論文. 政 治 Master’s Thesis 大. 立. ‧ 國. 學 ‧. 以詞性組合為基礎之中文語言特徵研究. n. al. Ch. engchi. er. io. in Chinese Texts. sit. y. Nat. A Study of Part-of-Speech Pair-based Language Features. i n U. 研 究 生:江易倫 指導教授:劉吉軒. 中華民國一零六年七月 July 2017. v.

(2) 以詞性組合為基礎之中文語言特徵研究 A Study of Part-of-Speech Pair-based Language Features in Chinese Texts. 研 究 生:江易倫. Student : Yi-Lun Jiang. 指導教授:劉吉軒. Advisor : Jyi-Shane Liu. 立. 政 治 大. 國立政治大學. ‧ 國. 碩士論文. 學. 資訊科學系. ‧. io. sit. y. Nat. A Thesis. er. Submitted to Department of Computer Science. n. a. v. l C Chengchi University National ni. hengchi U. In partial fulfillment of the Requirements For the degree of Master In Computer Science. 中華民國一百零六年七月 July 2017.

(3) 摘要 在作者歸屬的研究中,語言特徵的選擇一直是很重要的一環,因為會反映到整個 預測結果表現。大多數常用的語言特徵雖然在分類上表現優異,像是高頻詞彙、 n-grams、及標點符號等,但這些語言特徵內的詞組卻無法解釋分類間的因果關係 及相互差異。為了解決這問題,本論文提出詞性組合、否定程度組合及情態詞組 合共 3 種具有語言學意義的語言特徵作為輔助驗證,並以雷震這位作者的文本為 基準,探討在「同主題不同作者」及「同作者不同主題」兩個研究方向上是否適. 政 治 大 模型分類表現,並透過重要特徵數值找出各詞組作為決策點的權重。最後希望能 立 用。本論文將會使用隨機森林演算法建立分類模型,使用 OOB 錯誤率評估分類. ‧. ‧ 國. 學. 從分類規則中,找出不同作者以及不同類型間語言特徵的獨特性詞組並做解釋。. 關鍵字:作者歸屬、語言特徵、隨機森林. n. er. io. sit. y. Nat. al. Ch. engchi. ii. i n U. v.

(4) Abstract In the study of authorship attribution, the choice of language features have always been a very important part because it reflects the performance of the whole prediction. Most of the commonly used language features are excellent in classification, such as word frequencies, n-grams, and punctuation, but the phrases within these language features can not explain the causal relationship between categories and the differences between them. In order to solve this problem, this paper proposes 3 kinds of linguistic meaning. 政 治 大 authors with same topics" and 立"different genres with same author" is applied on the two as a auxiliary verification, and based on the Lei-Chen 's text, discussed "different. ‧ 國. 學. research directions. In this paper, we will use the random forest algorithm to establish the classification model, use the OOB error rate assessment classification model. ‧. classification performance, and through the important feature values to find the weight. sit. y. Nat. of each phrase as a decision point. Finally, we hope to find out unique phrases of. al. n. and explain them.. er. io. different authors and different genres of language features from the classification rules. Ch. engchi. i n U. v. Keywords: Authorship Attribution, Language Features, Random Forest. iii.

(5) 目錄 第 1 章 緒論 .................................................................................................................. 1 1.1 研究背景 ........................................................................................................... 1 1.2 研究目的與動機 ............................................................................................... 2 1.3 研究資料 ........................................................................................................... 3 1.4 論文架構 ........................................................................................................... 4 第 2 章 文獻探討 .......................................................................................................... 5. 政 治 大 2.2 中文斷詞介紹 ................................................................................................... 6 立 2.1 作者歸屬研究 ................................................................................................... 5. ‧ 國. 學. 2.3 語言特徵 ........................................................................................................... 7 2.4 向量空間模型 ................................................................................................... 9. ‧. 2.5 隨機森林分類演算法 ..................................................................................... 12. sit. y. Nat. 2.5.1 機器學習 .............................................................................................. 12. al. er. io. 2.5.2 決策樹及隨機森林介紹 ...................................................................... 13. v. n. 2.5.3 隨機森林的相關研究 .......................................................................... 15. Ch. engchi. i n U. 第 3 章 語言特徵研究方法 ........................................................................................ 16 3.1 資料前處理 ..................................................................................................... 17 3.1.1 研究文本選取、斷詞及標註詞性 ...................................................... 18 3.1.2 語言特徵的選擇與文本向量建立 ...................................................... 20 3.2 分類模型選擇及建立 ..................................................................................... 27 3.3 結果如何評估 ................................................................................................. 31 第 4 章 研究成果及分析 ............................................................................................ 33 4.1 分類模型評估 ................................................................................................. 33 4.1.1 多類別模型 .......................................................................................... 34 iv.

(6) 4.1.2 雙類別模型 .......................................................................................... 36 4.1.3 綜合評估分析 ...................................................................................... 41 4.2 類別獨特詞組尋找 ......................................................................................... 44 4.2.1 各類別重要特徵詞組尋找 .................................................................. 44 4.2.2 各類別獨特性詞組尋找 ...................................................................... 71 4.2.3 結果分析 .............................................................................................. 84 4.3 語言特徵整合預測 ......................................................................................... 86. 政 治 大 第 5 章 結論與未來展望 ............................................................................................ 90 立 4.4 小結 ................................................................................................................. 89. References...................................................................................................................... 92. ‧ 國. 學. 附錄 ................................................................................................................................ 96. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. v. i n U. v.

(7) 第 1 章 緒論. 1.1 研究背景 近年來因為科技的進步與工具的方便性,使得越來越多學者開始利用電腦計算與 統計的方式分析其所擅長領域的資料,試圖找出不同於以往的有用資訊及拓展新 的研究角度。經濟學家想要找出市場金錢流動的脈絡、檢察官想要從一群嫌疑犯內. 政 治 大 由電腦計算分析方式指引出通往目標的明亮道路。當然不只用在現今的研究,對於 立. 特定出犯人為誰、主管想找出公司內哪個商品近期內極具銷售潛力等,這些都能藉. ‧ 國. 學. 過去的資訊也可能找出不同的解釋成果,像是畫家的辨識及文章作者歸屬等。 數位人文是利用計算分析思維,以科學的角度來找出人文所觀測不出的特徵. ‧. 或是背後隱藏的涵義,再加以解釋的研究。而文本的分析上,因為近年各國推廣的. sit. y. Nat. 紙本數位化的緣故,算是最為普遍且易上手的研究,但仍需有著相關背景知識才有. al. er. io. 能力解釋手上的數據結果。以文字為出發點的研究方式相當多元,例如關鍵字尋找. v. n. 及文章作者歸屬等,但在同個研究目標下也會因為不同方式而會有不同結果,像是. Ch. engchi. i n U. 最著名的「紅學」儘管這數十年兩岸學者以各種統計數據及文章內容分析,仍無法 對於後 40 回的作者有個確切定論[1]。 除了簡單統計文本資訊外,機器學習技術在數位人文領域內一直佔有一席之 地,不僅是在簡單數據分析上,對於大量資料處理更有著不錯的表現。將處理後文 本資訊交由機器代為訓練的方式早已行之有年,而且預測準確率也逐漸增高,電腦 的預測運算也越來接近人腦判斷,甚至能找出具有意義的特徵性及關聯性,並對該 領域學者提供新的研究方向。. 1.

(8) 1.2 研究目的與動機 每個人都有著自己獨特的個性,且隨著所處於不同場合、不同時代,所說的話語可 能也會有所不同,這些變化也會反映在文字上,就如同個性和生活習慣般,不同文 章之間就能用這種細微特徵來做區隔。《哈利波特》的作者 J.K.羅琳以 Robert Galbraith 男性身分化名寫的偵探小說《The Cuckoo’s Calling》,也在語言學家發現 兩者的詞彙長度分布極為相似而被揭穿[2];前任美國總統歐巴馬在其首度勝選及. 政 治 大 小說題材不同,個人寫作習慣也仍會不經意的顯露在作品內;後者則是能看出相較 立. 就職的演講稿中,第一人稱多為「我們」且整體用語上較為易懂[3]。前者敘述即便. 於前幾任演講稿,新任總統在用語上有著親民性。雖然現今運用在作者歸屬上的語. ‧ 國. 學. 言特徵相當多元,像是利用詞頻或詞彙組合來區隔不同文本間差異,這些語言特徵. ‧. 雖然透過機器學習方式能夠有效區別不同作者,但卻無法輕易觀察模型內差異點. io. er. 釋性,那當一開始就改選擇較具情境性的語言特徵呢?. sit. y. Nat. 為何。假若能找出差異特徵,詞頻與詞彙組合等也只能看出使用偏好,不具背後解. 為了驗證情境性語言特徵的可行性,本研究想要找出當某位作者在共同主題. al. n. v i n Ch 下,特定的語言特徵是否能夠區別該作者及其他作者間的不同;再者,同位作者在 engchi U 不同場合下撰寫的文章,是否能利用特定語言特徵找出其差異。除了本研究提出的 3 種語言學上可行且有意義的語言特徵組合外,也採用一般作者歸屬常用的語言特 徵作為輔助檢測,觀察本研究提出的語言特徵,是否既具有不同作者或不同類型區 辨能力,又包含個人資訊或是主題資訊。. 2.

(9) 1.3 研究資料 本研究將以雷震這位作者為基準,探討他在《自由中國》內發表的文章與其他作者 間的差異,並同時研究其私底下的日記,有沒有在面對大眾而撰寫的社論文章用語 有所區隔。 《自由中國》為雷震與胡適於 1949 年在台北創辦的半月刊,內容主推自由主 義、言論自由精神等。但隨著總統蔣介石因韓戰爆發而重獲美國援助後,強權政府. 政 治 大 判國民黨政策,這也引起蔣介石的不滿。最後在 1960 年雷震被逮捕入獄, 《自由中 立 的建立,使得文章從一開始的反共主張,風格越來越偏向檢討台灣內部的問題,批. 國》遭到停刊[4]。 《自由中國》雖然發行時間僅 11 年,但卻對後世有著深遠影響,. ‧ 國. 學. 像是提到新聞自由及言論自由,為反抗威權統治的先驅刊物。 《自由中國》總共有. y. Nat. 藝類相關文章。. ‧. 23 卷 5 期,作者有雷震、殷海光、夏道平、胡適等,除了社論文章外,也有著文. 根據內容分成 3 個時間段,並作為該冊的標題:. al. v i n Ch 第一個十年(1948~1960):雷震在《自由中國》發行期間的日記 engchi U n. 1. 2. 3.. er. io. sit. 《雷震日記》則是由傅正收集了雷震 1948 到 1977 年間的私人日記修訂成冊,. 獄中十年(1961~1970):雷震入獄期間的日記 最後十年(1971~1977):雷震出獄後的日記. 因為是雷震私底下的日記,正好能夠與雷震在自由中國發表的社論文章相互比較, 判斷在公私領域間用語的差異,且因為內容又分成 3 個時間段,亦可作為不同時 期雷震的心境也會反映在當時的日記上。. 3.

(10) 1.4 論文架構 研究流程圖如圖 1.1 所示,第一章簡述作者歸屬的研究背景、本論文想要解決哪類 問題以及問題相關資料。第二章則介紹作者歸屬研究、文字如何斷詞、文章中的語 言特徵選取、文本向量的轉換方式,以及機器學習演算法在處理自然語言的選擇及 使用。第三章為實驗設計,在文本前處理後,該選擇哪些語言特徵建立文本向量, 如何建立分類模型及參數調整,最後結果如何評估。第四章比較分類模型內的各項. 政 治 大 探討實驗過程中的不足及未來需要加入的研究,以及還可以觀察出那些結果,最後 立. 變數下的數值,找出類別重要特徵,並進一步篩選出類別的獨特性詞組。第五章會. 附錄會放上本研究所使用語言特徵建構的文本向量詞組與頻率。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 1.1:研究流程圖 4. v.

(11) 第 2 章 文獻探討. 2.1 作者歸屬研究 作者歸屬研究早從 19 世紀就開始,當時僅以簡單統計方式分析結果,而且辨識效 果也不慎理想,主要是因為研究人員與實際該領域相關人員不見得有所重合,使得 即便有著研究成果,也無法有效的解釋為何彼此間有所差異。在電腦問世後,分析. 政 治 大 間差異的可能性,另外,過往推測有效的語言特徵也有能力進入實作的階段,複雜 立 工具的使用上也變得普遍,這對該領域作者重拾了使用統計分析的方式解釋作者. ‧ 國. 學. 的計算方式也因此提出,像是文本間的 TF-IDF 計算方式。而現今機器學習的技術 發展及類神經網路的運用,能夠做到像是人腦般的邏輯判斷及理解力來區別不同. ‧. 作者間的差異,並提出差異的解釋[5][6][7] 。. sit. y. Nat. 現今在文本的作者歸屬上,從找出作者間的特徵,轉換為單純解決作者為誰的. al. er. io. 問題,像是犯罪嫌疑人的尋找及抄襲比對等,不過這不代表前者已經不再重要。現. v. n. 今各國的數位人文計畫將過往重要文本資料以光學掃描技術電子化後,就能進行. Ch. engchi. i n U. 進一步的研究,像是甲骨文與漢代竹簡[8]的分析等,都是因為在科技進步下才能 夠在不遺失原有資訊進行的研究。另外,文本出土位置及撰寫時間也是輔助分析的 重點,因為可能包含些跟作者相關的重要資訊,進而影響文章內容,例如:地方用 語、社會風情、生活文化等。像是胡適在《紅樓夢考證》[9]中就提到,《紅樓夢》 故事背景就是反映了曹雪芹的家庭環境及當時的上流社會文化。 目前作者歸屬研究主要分成 4 類:作者驗證、抄襲比對、作者資訊提取及文本 風格檢測[10]。作者驗證希望找出某篇文章的作者為誰,一般會先由專家特定出候 選作者的文章以比對。但若處理日常生活文章,像是部落格或是社群媒體的發文, 候選作者範圍是沒有限制的,困難度也相當的高,所以研究上大多以作家或爭議文 5.

(12) 學為主;抄襲比對目的是要找出兩篇或是多篇文本間的相似程度[11],現今常用在 大型考試的作文比對及法律上嫌疑犯的文章比較;作者資訊提取目的是要看出該 文章是否包含除了主體之外的資訊,像是作者的生活環境、個性、喜好等[12],亦 或是反映出整個社會的文化氛圍;文本風格檢測類似於作者驗證,但該文章可能有 複數作者執筆,所以希望找出哪個段落最有可能為哪位作者所撰寫或是補足。本研 究主要著重在觀察「同主題不同作者」的作者驗證,及「同作者不同類型」的作者 資訊提取上。. 立. 2.2 中文斷詞介紹. 政 治 大. ‧ 國. 學. 在歐美語系中,詞與詞之間是以空白作為間隔,所以很明確的能夠理解詞彙在句子. ‧. 中的相對位置,計算詞頻也比較容易。但在中文的語句架構上,句子是由字元所組. y. Nat. 合而成,且因為詞彙間並沒有以空白隔開,過去文言文甚至沒有標點符號,所以必. er. io. sit. 須先經過語法斷詞後才能做後續解釋及處理,否則僅靠單一字元無法充分表達整 個文章的含意。過去斷詞以電腦執行是相當困難的,必須先透過人工標記詞彙,將. al. n. v i n Ch 拆成獨立字元的文本逐一比對標註後,一篇文章的斷詞才算完成,但精準度卻相當 engchi U 的低,這種結果是無法有效率的對文本進行詞頻計算與分析。. 因為網際網路的發展,每天產生的資訊量也越來越多,這之中莫過於包含了一 些新詞出現,而這些新詞有可能會被舊有斷詞系統認定成未知詞而沒辦法有效斷 詞。雖然藉由字元間的關聯組合能找出部分未知詞,但對於低頻未知詞的效率就沒 有那麼高,例如人名或是縮詞。雖然現在斷詞系統有餘力應付目前存在的未知詞, 但難保未來是否有能力解決,所以斷詞系統也須隨著時代而更新。現今則有多種斷 詞演算法存在,搭配不同文本的權威詞字典後準確率可以近百分之百,使用上也相 當便捷。. 6.

(13) 本論文希望在進行文本斷詞時不單單僅獲得斷詞結果,更希望能得到每個斷 詞相對應的詞性,這對之後使用語言特徵分析有著更高的保障。研究上我們採用中 研院的 Chinese Knowledge Information Processing(CKIP)線上斷詞系統作為我們斷 詞的工具,因為 python 內的自然語言處理工具 NLTK [13]雖然方便,但卻沒有提 供歐美語系以外語言的處理。而在中文斷詞還有另一個斷詞工具 jieba 能解決語系 間的問題,雖然有著不錯的斷詞表現,但詞性標註上仰賴詞彙資料庫而使得大半斷 詞結果詞性不明確,甚至無法標註。透過 CKIP 對文本斷詞後,詞性可細分至「普. 政 治 大. 通名詞」或「代名詞」而非只標註「名詞」 ,這對之後本研究提出的語言特徵詞性 篩選上有著很大幫助。. 立. ‧ 國. 學. 2.3 語言特徵. ‧. y. Nat. 每位作者在寫文章時都會在無意識中使用某些字或是詞彙,而這些能反映出作者. er. io. sit. 的特色並作為作者風格及特徵,也被稱作「語言特徵」 。語言特徵涵蓋的主題與類 別非常的廣,且持續在成長當中,畢竟人們的用詞也會隨著時代而有所變遷,反過. al. n. v i n Ch 來說,有那些語言特徵是仍舊維持不變的呢?以《A survey of modern authorship engchi U. attribution methods》[10]這篇論文整理的內容為例,作者在撰寫時通常會因為要呼 應內容而使得文章詞彙會受到主題性所影響,這導致在不同主題文本間的比較上 會有著不一致的立場,最後結果變成題材分類而非作者辨識。所以在研究上必須找 出無關主題且眾人常用的詞彙,例如:通用詞、功能詞、標點符號等。通用詞代表 著一般文章中常用的詞,像是「我」 、 「而且」,而功能詞則除了常用外,也不會因 為上下文而有所影響使用,像是「的」 、 「了」[14]。這些既不太受主題影響且無形 中能表露作者特徵,在比較上也因為頻率高而方便相互比較。這些無關主題且具有 作者辨識的語言特徵,其頻率排序分布在圖表上通常會呈現長尾效應,也就是大多. 7.

(14) 出現次數都集中在前幾名,這也使得各作者在這類詞彙使用上一旦出現變化就會 有相當急遽的差異。目前在作者歸屬的研究中,大多採用通用詞與功能詞作為文本 間辨識的依據,結果也顯示在作者驗證上是有效的。不過,語言特徵中後段尾巴部 分的詞彙通常更具有表現作者的語言特徵,但在分類上因為出現頻率低而結果不 是很理想,如果能找出作者在各詞彙間的關聯規則,其附加價值就會比單純比較常 用詞彙更高,這也是本論文要研究的項目。 在電腦尚未問世前,語言特徵的使用大多是以單字、詞彙及句子作為出發基礎,. 政 治 大 電腦輔助處理下,可以做的分析問題更多了,像是詞性統計、n-grams 以及使用 TF立. 像是頻率、平均長度及豐富度,作者文章的習慣性錯誤也能作為分辨的依據。而在. IDF 比較不同文章關鍵字,或是找出句子的語法架構或是建立語意網。近年除了早. ‧ 國. 學. 已廣為人知的機器學習工具外,類神經網路技術也對語言特徵地尋找提供了很大. ‧. 的幫助,像是文章的語意標註及規則架構整理,詞彙與詞彙間不再毫無關聯,而是. y. Nat. 視作相互連結的有向性網路,最後找出作者的特徵片段,解釋上比起簡單詞彙尋找. er. io. sit. 的結果更具說服力,但相對需要進階技術,且過程對語言學者而言不易理解。 一開始的論文[10]內提到單純採用頻率作為基礎的語言特徵,比以複雜句法規. al. n. v i n Ch 則等語言特徵具有更高的辨識精確率,但相對的也會捨棄掉大量分類資訊,這些資 engchi U. 訊通常是語言學家想要觀察的。另外,中文文本雖然也能夠使用通用詞與功能詞等. 高頻詞作為語言特徵使用,但首先要解決斷詞問題。其次,中文在詞彙意義上比歐 美語系更加複雜,同詞彙有複數語意,同語意也同樣有複數詞彙,所以斷詞後的詞 彙在分類上不見得比歐美語系文本有效,這是中文文本處理上的劣勢,但也可說是 優勢。穩定詞代表該詞彙意義不會被其他詞彙替代,像是「是」 、 「的」 ,所以算是 一般作者使用上的通用詞;非穩定詞則是容易被其他詞彙取代,像是「獲得」及「取 得」之間意義是相關的,這就會建成一群同意義的詞彙,而我們就能藉此找出作者 在這意義上偏好使用的詞彙。穩定詞頻率高分類效果高,非穩定詞頻率較低分類效. 8.

(15) 果低,但後者包含的附加價值比前者高很多。 雖然至今有無數的語言特徵運用在作者驗證上,但並非每種都能有效達到目 的且不見得為預想的結果,研究者只能盡力讓自己的實驗更加接近事實。此外,利 用語言特徵觀察出的現象也不能明確作為某位作者的資訊,頂多作為提供解釋的 手段罷了,除非語言特徵一開始就是建立在專家整理的範圍內。另外,外在參數也 是可以考慮的條件。我們可以利用語言特徵找出文章背後的資訊,當然也可以用已 知的資料對語言特徵做前篩選,像是不符合文章描述時間或地點的屬性,這也能有 效提高預測準確率。. 立. 政 治 大. ‧ 國. 學. 2.4 向量空間模型. ‧. 雖然電腦能夠處理複雜分析,但需建立在固定輸入輸出上,像是作者文章之類,必. y. Nat. 須先轉換成電腦能夠識別的語言格式才能做後續研究及比較。在文本間的抄襲比. er. io. sit. 較上是以簡單的字串比對比例作為作者間是否抄襲,更進階則是概念上的比對,但 這相對又花太多成本,所以折衷上會希望對每個文本找出其獨特的特徵進行比較,. al. n. v i n Ch 既比單純字串比對準確又能節省比對時間。擷取文本特徵的方式很多,目前最通用 engchi U. 方式為對文本建立向量空間,既能有效將文本資訊擷取出來,又具備文本間相互辨 識的能力。 向量空間模型(Vector Space Model)能夠將文本轉換成向量表示形式,建立方式 是先藉由找出向量維度的詞組,再利用不同的演算法計算該詞組的權重。權重計算 方式有很多種,例如詞頻、TF-IDF、DF、n-grams,更深入還有主成分分析、期望 交叉熵等,這些方式都能有效建立文本的特徵向量,但需考慮是否皆適用於欲辨識 的文本集合上。以圖 2.1 為例,假設我們選擇人稱代名詞作為文本向量中的維度詞 組並計算其出現頻率,在文本 A 中「我」出現了 20 次,「我們」出現 0 次;. 9.

(16) 圖 2.1:向量空間模型建立範例. 立. 政 治 大. 在文本 B 中「我」出現 40 次,而「我們」出現 75 次。若這時有個文本 C,「我」. ‧ 國. 學. 出現 35 次,「我們」出現 60 次,再比較歐基里德距離或是餘弦距離後得到文本 B 和文本 C 距離比文本 A 和文本 C 的距離近,所以我們判斷文本 B 和文本 C 可能. ‧. 為同一作者所寫。. y. Nat. sit. 本研究採用最基礎的詞頻統計方式,根據出現次數取前 N 名詞彙組合作為文. n. al. er. io. 本間彼此比較文本向量的詞組,若文本向量間向量夾角越小,也就是餘弦數值越低,. i n U. v. 則文章越可能出自同一人之手。不過會出現個問題:因為高頻詞前段大多為毫無意. Ch. engchi. 義或是通用的詞彙,這使得我們儘管在文本比較上得到顯著的比較結果,卻無法解 釋為何這些詞組對這位作者有所意義存在,且如果文本主題一致,向量的詞組也大 多為主題性相關的詞彙。像是同場運動比賽的不同評論若以高頻詞彙作為文本向 量詞組,儘管已先清除通用詞與功能詞,詞組大多可能還是跟運動相關的術語,這 使得區別的準確率降低。. 10.

(17) 圖 2.2:高頻詞出現數量折線圖及解釋. 政 治 大 頻率閥值以刪除後段詞組。圖 立 2.2 為中研院提供的平衡語料庫內辭彙由大到小出現. 另外,有些真正的資訊會隱藏在相對低頻的詞彙內,所以不能盲目的設立出現. ‧ 國. 學. 次數折線圖,整體呈現長尾效應,其定義上代表著前 20%的詞彙掌握著 80%的總 辭彙數量,而這現象大多在辭彙頻率排序或是產品銷售中出現。紅色區塊為大多數. ‧. 文本都會採用的辭彙,數量使用較多且使用變化容易觀察,但也因為皆為通用辭彙. sit. y. Nat. 所以包含的解釋資訊較低,如: 「的」 、 「是」 、 「在」 。綠色與黃色區塊則是代表著剩. al. er. io. 下約 80%的詞彙,後段黃色區塊具備文本情境特色,但因使用數量普遍較低使得. v. n. 難以代表該類別文本整體表現,如: 「傳記」、「封鎖」 、 「柳琴」等。中段綠色區塊. Ch. engchi. i n U. 則兼具類別間分類效果及辭彙的情境解釋性,如:「可以」、「自己」、「他們」等, 本論文主要是基於選擇各語言特徵綠色區塊的詞組進行研究,觀察以具有情境性 的語言特徵作為文本向量詞組下,是否也能做到作者間或類別間辨識的能力,所以 文本向量的語言特徵選擇範圍是相當重要的。本研究提出的語言特徵都是以詞性 為主,所以會先經過詞性清理,判斷何種詞性較能包含使用者資訊後,再做為向量 空間的維度讓文本轉換使用。. 11.

(18) 2.5 隨機森林分類演算法 有了向量化後的文本,將會利用機器學習對文本向量建立分類模型。本研究將會使 用隨機森林分類演算法對文本進行分類,而我們也會介紹隨機森林、解釋選擇的理 由、以及過去利用隨機森林進行文本的研究。. 2.5.1 機器學習介紹. 政 治 大 行規則都是由人類所負責,若這些作業也能一併交給電腦處理就好。於是,為了使 立 我們能夠利用電腦進行輔助運算,處理複雜資訊,但這些前置作業像處理模式及運. 電腦更加接近人腦,人工智慧領域也就因此誕生。機器學習為人工智慧的一環,主. ‧ 國. 學. 要負責從資料中自行找出相關規則,並將此規則預測於未知資料上。因為只要按照. y. Nat. 域上,像是醫學、生物、金融及自然語言處理。. ‧. 一定格式架構資料並選擇適當的演算法,所以相當容易上手,並廣泛使用在各個領. er. io. sit. 機器學習演算法大致分成 3 個領域:資料分類、迴歸分析及資料分群。前兩類 屬於監督式學習,也就是在已知預測結果輔助下訓練出資料的規則模型,兩者差別. al. n. v i n Ch 在資料分類是預測分類類別,而迴歸分析則是預測一個區間的數值;資料分群則是 engchi U. 希望模型自行找出資料各自群體分佈的非監督式學習。在作者歸屬研究中,資料分. 類的演算法是最常用的,例如:支援向量機(SVM)、決策樹與隨機森林、樸素貝葉 斯分類器、最近鄰居演算法及最近相當熱門的類神經網路[15]。以往作者歸屬研究 都是著重在文本的語言特徵選取並比較兩兩向量間的距離,機器學習方式則需加 上演算法的選取。. 12.

(19) 立. ‧ 國. 學 圖 2.3:決策樹範例. ‧ sit. y. Nat. 決策樹及隨機森林介紹. io. n. al. er. 2.5.2. 政 治 大. i n U. v. 決策樹是利用訓練資料提供的訊息進行分類,通常為是/否分類,而樹的每個非葉. Ch. engchi. 節點都是一個決策邏輯,圖 2.3 就是依照圖 2.1 的文本向量建構的決策樹。常用的 決策樹算法有 ID3、C4.5 及 CART,彼此差別在對於特徵作為樹的分類決策點不 同,以每次分類來說,首先先決定選擇從哪個特徵作為接下來的決策點,並使最後 分類效果最好。傳統上是使用 Information Gain 及 Entropy 以觀察從何特徵切割, 能使分群後的亂度降低,亂度越低分類效果越好。至於 CART 決策樹,則是利用 Gini index 來選擇從哪個特徵切割能使純度提高,純度越低代表分割的兩個類別內 的資料越趨近於單一類別,分類效果也越好,後續講到的隨機森林也是由 CART 決 策樹所構成。而在資料只有兩個類別時,被視作決策點的特徵因為可以有效區別不. 13.

(20) 同類別,所以直覺上可以視作是類別間的差異,本論文在作者間及文本類型間的重 要特徵就是基於這點尋找。 若單個決策樹預測效果不好,那結合複數棵決策樹是否能提高預測性?隨機 森林[16]就是基於這想法而建成的分類演算法。核心觀念為集結眾樹之力進行訓練, 並對每棵樹進行多數決,找出測試資料的可能類別。隨機森林除了建構複數棵樹外, 為了避免每棵樹太過相近,所以樹的資料會是以放回抽取的方式選擇,所以每棵樹 的訓練資料皆不同,提高樹的多樣性。舉例來說:如果有 600 個資料,在放回抽樣. 政 治 大 之外,也隨機選取每棵樹所使用的特徵數量,通常會是所有特徵數量取根號或是 立. 後選取 600 個後,扣掉重複剩 400 個,這 400 個將作為這棵樹的訓練資料。除此. log 值。樹的數量選擇也是重點[17],通常越多效果越好,但超過飽和點後也會無. ‧ 國. 學. 意義的加長訓練時間,需針對資料的特徵及資料數量找出適當值。. ‧. 隨機森林模型內部有著自己的評估機制,可以使用 Out-of-bag(OOB)評估模型. y. Nat. 的好壞。OOB 是利用每棵樹大約有 1/3 不會用到的訓練資料,作為該樹的測試資. er. io. sit. 料,以上段資料為例:400 個資料構成的樹,使用剩下 200 個資料作為測試,觀察 類別被預測成功的比例佔測試資料比例,最後將所有棵樹平均後即得到該隨機森. al. n. v i n Ch 林模型的 OOB 分數,越高代表越成功,不過後續實驗會使用 OOB 錯誤率(1-OOB) engchi U. 作為評估,越接近 0 預測效果越好。透過 Breiman 在 1996 發表的論文[18],OOB 評估分數與在同樣訓練資料大小下的測試資料所得到準確率一致,這代表無須另 外從原始資料切割額外的測試資料做模型評估,能夠完整使用所有資料進行訓練, 這對資料稀少的文本有著很大幫助,且不太受稀疏型資料影響分類效果。也因為 OOB 評估機制,會針對一些分類不理想的資料加強訓練,提高準確率。在隨機機 制下,也不會有過度擬合的問題發生。. 14.

(21) 2.5.3 隨機森林的相關研究 機器學習中使用隨機森林作為分類及預測相當普及,主要都會用在生物辨識或是 圖形識別上,而對於文本的作者歸屬與作者驗證的運用也不算少數[19][20][21]。在 文本分類研究中,隨機森林在研究中經常扮演著與其他演算法共同比較的角色,像 是透過部分訊息使用隨機森林與支援向量機找出文本所描述的主要事件詞組[22]、 使用不同分類演算法找出文本背後可能的資訊[23]或是觀察波蘭語文章在各項分. 政 治 大 理,像是對推特的發文分析背後的年齡層與性別[25]、篩選並排除發文中的霸凌推 立. 類時的表現並評估[24]。當然除了實體文本,隨機森林也用在網路上的文本分析處. 文[26]、以及對郵件進行過濾及個人化篩選[27]等。. ‧ 國. 學. 除了研究特定目標外,也有從不同層面來研究隨機森林的對於文本分類的表. ‧. 現:使用具有跨類別及跨主題的通用語言特徵,觀察不同語言下的分類表現[28]、. y. Nat. 建立語言現象識別及推理判斷的特徵規則,提高分類後的文本蘊含識別[29]、參照. er. io. sit. 搜尋引擎中動態變化詞組建立隨機森林分類模型,列出重要特徵詞組,並觀察投資 者的情緒指數[30],本論文的研究則為這 3 個研究的混合:「同主題不同作者」及. al. n. v i n Ch 「同作者不同類型」、提出具情境性的語言特徵、及觀察類別間的重要特徵詞組, engchi U 這些研究也提供了本論文從機器學習中選擇隨機森林分類演算法的說服力。. 15.

(22) 第 3 章 語言特徵研究方法 為了檢測各語言特徵是否能夠在同主題區分不同作者及在同作者區分不同類型文 本,本章節將會先對實驗來源進行解說:各研究方向下向量空間模型的母體文本如 何選取、 「同主題不同作者」內《自由中國》作者及文本的選擇、 「同作者不同類型」 中雷震發表於公領域《自由中國》社論文章及私領域雷震日記的文本。各研究方向 下的母體文本及研究文本進行逐篇斷詞並標註詞性後,依照不同語言特徵建立向. 政 治 大 立基準特徵,會參照各研究方向下斷完詞後的母體文本,並依照出現次數作為各文 立 量空間模型並將文本轉換成文本向量並正規化。各語言特徵在向量空間模型所建. ‧ 國. 學. 本向量的維度特徵,也就是詞組。本研究使用的語言特徵多為詞彙或詞彙與詞性組 合,在解釋選擇理由後也會為了找出明確的情境性語言特徵進一步對細部篩選。有. ‧. 了文本斷詞並轉換成文本向量前處理過程後,才能作為後續電腦能接受的數值資. sit. y. Nat. 訊再進一步作分析。. al. er. io. 有著各類別在不同研究方向、不同語言特徵的文本向量後,將會利用隨機森林. v. n. 進行分類,建立觀察整體的預測模型,計算「同主題不同作者」對於不同作者及「同. Ch. engchi. i n U. 主題不同類型」雷震不同類型文本模型的 OOB 錯誤率。為了進一步找出類別間的 差異詞組為何,將建立各類別間的模型並找出決策點,彙整出不同觀察層面的平均 OOB 錯誤率及類別間分類重要詞組,最後找出各類別的獨特性詞組,觀察獨特性 詞組在原始文本中的表現並依照常用語言特徵及本研究提出語言特徵分類觀察。 最後也彙整本研究提出的語言特徵,依照隨機森林找出來的重要特徵,觀察合併後 分類效果與單一語言特徵的分類效果優劣,圖 3.1 為整體實驗流程。. 16.

(23) 圖 3.1:實驗流程圖. 學. ‧ 國. 立. 政 治 大. ‧. Nat. er. io. sit. y. 3.1 資料前處理. 每位作者所寫的文章會因為場合、時間的不同而會有著不同的格式,像是書信或評. al. n. v i n Ch 論等。所以當要清理一篇文章時,首先評估是否有著固定的格式,並確認自己研究 engchi U 的目標為何。以本論文為例, 《自由中國》包含標題、作者、撰寫時間,日記有著. 撰寫日期,雖然各有著其重要性,但本研究主要是希望觀察語言特徵在各類別的表 現,所以在選擇上僅以內文及類別作為首要考量。挑選出的文本分成用於建立向量 空間模型的文本母體及各研究方向下的研究文本,3.1.1 將會講述文本選取範圍及 類別相關資訊,並對文本進行斷詞及標註詞性,列出斷詞後各文本的詞數。3.1.2 將 詳細說明本研究提出的語言特徵理由及如何進一步篩選詞性,向量空間模型的如 何建立,最後將各類別文本轉換成電腦能夠分析的簡單數值向量。. 17.

(24) 3.1.1 研究文本選取、斷詞及標註詞性 為了找出符合「同主題不同作者」及「同作者不同類型」兩個研究方向的文本, 本論文以雷震作為基準點,觀察: 1.. 同主題不同作者:《自由中國》內,雷震與其他作者間的差異. 2.. 同作者不同類型:雷震發表在公領域的社論、文章與私人領域的日記間的 寫作差異. 政 治 大 且文本發表多於 20 篇的作者為主,最後得到 9 位作者:雷震、殷海光、夏道平、 立 在「同主題不同作者」 ,本論文選擇發表在《自由中國》內不包含文藝類作品. 傅正、龍平甫、蔣勻田、朱伴耘、胡適及羅鴻詔。其中雷震、殷海光、夏道平、傅. ‧ 國. 學. 正這 4 位作者有同時發表社論及文章兩個類型,我們選擇較為接近雜誌主題的社. ‧. 論為主。雖然社論會透過雜誌共同修訂,我們假設只會影響虛詞與通用詞等語句流. y. Nat. 暢度,而情境性語言特徵詞組等作者表現資訊則不受影響。社論撇除複數作者,其. er. io. sit. 他作者的文本也有進行個別篩選,詳細數值紀錄於表 3.1。另外,聶華苓雖然也符 合超過 20 篇的資格,但作品大多屬於文藝性質而排除。至於作為這些作者的向量. al. n. v i n C《自由中國》 空間母體,我們選擇所有發表於 h e n g c內非文藝類,也就是同個主題的文本, hi U 作為後續各語言特徵建立文本向量的基準。. 在「同作者不同類型」,選擇雷震發表於公領域《自由中國》的社論及文章、 以及私領域的日記共 3 種文本類型,社論為代表雜誌立場、文章為個人對主題看 法、而日記則是生活的紀錄,表 3.2 整理了各類型數值。雷震的日記我們則是以年 份作為單位,30 年共 30 篇,雖然只有 1948~1960 這 13 篇與社論與文章撰寫時間 點重疊,但本研究主要觀察語言特徵在不同類別的比較,所以偏重在整個私領域類 型文本而非單一時間段,以避免遺漏掉重要訊息。而此研究的文本向量則採用所有 雷震文本作為母體,本研究為社論、文章及日記 3 個類型為向量空間母體的輸入。. 18.

(25) 兩個研究方向的向量空間母體文本相關數值將會在表 3.3 呈現。 我們選擇中研院的中文斷詞 CKIP 作為文章斷詞的工具,因為能夠在斷詞過程 中順便為文章標註詞性,詞性準確率遠比開放工具 jieba 好很多,且包含更深入的 詞性解釋。至於 python 中提供的自然語言工具 NLTK 就只適用於歐美語系,對於 中文處理效果不佳。本論文研究中使用的程式語言為 python,透過 CKIP 提供的 API 連結,可以將字串傳出後,回傳斷詞後的結果。像是: 「今天天氣很好」 ,透過 CKIP 線上斷詞後將會得到「今天(Nd)/天氣(Na)/很(Dfa)/好(VH)」的斷句。有了各. 政 治 大 表 3.1~3.3 也有著各文本斷完詞後的詞數統計。 立. 文本的斷詞,就能找出本研究使用的語言特徵出現頻率,作為向量空間的特徵詞組。. ‧ 國. 學 2193. 備註. a l27 38C h. 3341. sit. y 29. n. 夏道平. 平均詞數. io. 殷海光. 文本篇數. er. 雷震. Nat. 作者名稱. ‧. 表 3.1:同主題不同作者,《自由中國》9 位作者篇數與詞彙數. n U engchi 1895. 傅正. 20. 龍平甫. 41. 5593. 蔣勻田. 31. 3878. 朱伴耘. 29. 5489. 胡適. 30. 2552. 羅鴻詔. 27. 4625. 2273. 19. iv. 社論 社論 社論 社論. 去除被翻譯文章.

(26) 表 3.2:同作者不同類型,雷震 3 種類型文本篇數與詞彙數 文本類型. 文本篇數. 平均詞數. 備註. 社論. 29. 2193. 文章. 61. 5234. 包含筆名原之道. 日記. 30. 41114. 1 年 1 篇,共 30 篇. 政 治 大 表 3.3:兩個研究方向下向量空間母體對應的文本、篇數及總詞彙數 立 3157. 雷震日記(1948~1960). 3649. 雷震日記(1961~1970). 4208. 雷震日記(1971~1977). 1587. ‧ 國. 自由中國(非文藝類). 總詞彙數 8236941 627464. ‧. 篇數. 學. 文本. 146480. n. er. io. al. sit. y. Nat. 459489. Ch. engchi 3.1.2 語言特徵的選擇與文本向量建立. i n U. v. 為了選擇有意義的語言特徵作為文本向量的詞組,我們參考語言學家研究後提出 3 種在文本使用可能具有作者間或題材間差異的語言特徵。詞性組合為 n-grams 的子 集合,而我們所要觀測特定詞性組合如名詞+名詞、名詞+動詞、形容詞+名詞及副 詞+動詞[31]。這些詞性組合在一般文本使用頻率上相當高,且都能看出個人特徵, 而我們也會避免採用儘管符合條件但沒有意義的組合,如名詞+名詞底下的數詞+ 量詞或是副詞開頭為「的(DE)」等,表 3.4~3.7 為詞性組合中所採納的詞性,以確 保找出的結果具情境性。否定詞與程度詞+複數任意詞組合都是在既有詞組前賦予. 20.

(27) 相反或比較的意義,因為這類詞彙意思大多一樣且數量也多,可以從此看出作者或 主題間使用上的差異,後續的任意詞數目選擇最多 2 個,在這範圍下比較能看出 完整架構,像是「最(Dfa)重要(VH)」與「最(Dfa)重要(VH)的(DE)」 。否定詞我們依 照《自由中國》內文本使用頻率,選擇「未」 、 「無」 、 「非」 、 「不」及「沒」這 5 個 常見的作為詞性組合的開頭。程度詞則採用丁聲樹[32] 、朱德熙[33]、劉月華[34]、 李泉[35] 及張誼生[36] 5 位學者發表的程度副詞集合,取最少出現在 3 位學者的程 度副詞作為我們研究程度詞組合的開頭詞彙共 22 種。情態詞+動詞中的情態詞集. 政 治 大 各情態詞用法及語境分類下直接採用可能詞彙共 319 個,表 3.8 為否定組合、程度 立 合,我們採用謝佳玲[37]在比較漢語與英文情態詞後建立的漢語情態詞系統,無視. 組合及情態詞組合所採納的詞組。另外,我們也找了 3 個作者歸屬中常用的語言. ‧ 國. 學. 特徵作為輔助比較:詞彙出現頻率、標點符號及 n-grams,3 者詞組也皆為選擇出. ‧. 現次數並由大至小排序。詞彙單純統計文本中的各詞彙出現次數,標點符號也是統. n. al. er. io. sit. y. Nat. 計出現頻率,n-grams 則是觀察兩個詞彙組合及三個詞性組合的出現分布。. Ch. engchi. 21. i n U. v.

(28) 表 3.4:詞性組合中所採納 CKIP 的名詞詞性標記 簡化標記. 對應的 CKIP 詞類標記. Na. Naa, Nab, Nac, Nad, Naea, Naeb. /*普通名詞*/. Nb. Nba, Nbc. /*專有名稱*/. Nc. Nca, Ncb, Ncc, Nce. /*地方詞*/. Ncd. Ncda, Ncdb. Nd. 治 /*位置詞*/ 政 Ndaa, Ndab, Ndc, Ndd 大 /*時間詞*/ 立. 字數大於1. /*名物化動詞*/. Nv1,Nv2,Nv3,Nv4. 學 ‧. ‧ 國. Nv. 備註. sit. y. Nat. 對應的 CKIP 詞類標記. al. n. Da. io. 簡化標記. CDaa hengchi. er. 表 3.5:詞性組合中所採納 CKIP 的副詞詞性標記. i n U. v. /*數量副詞*/. Dfa. Dfa. /*動詞前程度副詞*/. Dfb. Dfb. /*動詞後程度副詞*/. Di. Di. /*時態標記*/. Dk. Dk. /*句副詞*/. D. Dab, Dbaa, Dbab, Dbb, Dbc, Dc,. /*副詞*/. Dd, Dg, Dh, Dj. 22.

(29) 表 3.6:詞性組合中所採納 CKIP 的動詞詞性標記 簡化標記. 對應的 CKIP 詞類標記. VA. VA11,12,13,VA3,VA4. /*動作不及物動詞*/. VAC. VA2. /*動作使動動詞*/. VB. VB11,12,VB2. /*動作類及物動詞*/. VC. VC2, VC31,32,33. 立. VJ. /*動作謂賓動詞*/. VG1, VG2. /*分類動詞*/. y /*狀態不及物動詞*/. VH22 /*狀態使動動詞/ a VH16, v i l C n VI1,2,3 h e n g c h i U /*狀態類及物動詞*/. n. VI. VF1, VF2. VH11,12,13,14,15,17,VH21. io. VHC. /*動作句賓動詞*/. er. VH. Nat. VG. VE11, VE12, VE2. ‧. VF. /*雙賓動詞*/. 學. VE. VD1, VD2. ‧ 國. VD. sit. VCL. /*動作及物動詞*/ 政 治 大 VC1 /*動作接地方賓語動詞*/. VJ1,2,3. /*狀態及物動詞*/. VK. VK1,2. /*狀態句賓動詞*/. VL. VL1,2,3,4. /*狀態謂賓動詞*/. 23.

(30) 表 3.7:否定詞、程度詞及情態詞選取詞彙範圍 語言特徵. 選取詞彙範圍. 否定詞. 未,無,非,不,沒. 程度詞. 甚,甚為,何等,至,至為,些微,益發,稍許,何其,不甚,好生,殊,太,最,更,比 較,很,稍,略,多,挺,非常,十分,稍微,多麼,極,好,怪,稍稍,不大,格外,極 其,頂,越發. 情態詞. 預期,怕,猜想,會,疑心,不至於,或許,可想,臆測,不盡然,預料,不見得,可 望,猜,預計,懷疑,猜測,敢情,未必,推測,恐怕,揣測,恐,料想,不致,說不 定,未嘗,莫非,要,將,可能,豈,想,也許,大概,難不成,預測,難保,估計,難. 治 政 大 道,難說,搞不好,估量,勢將,肯定,判斷,一定,準,研判,無疑,想必,絕然, 立 當,自然,注定,必將,相信,定,料定,堅信,應該,自當,認定,免不了,確然, ‧. ‧ 國. 學. 絕對,推斷,勢必,斷定,穩,該,難免,推論,鐵定,自,未免,絕,斷,必定,想當 然,八成,篤定,預斷,簡直,諒,深信,應當,定然,當然,必然,不免,必,不信, 無非,以為,確信,認為,當真,究竟,著實,實在,明明,分明,真,確定,誠然, 是,真的,確實,委實,確,的確,到底,覺得,似乎,恍若,看來,依稀,好似,儼 然,感覺,顯然,疑似,恍如,彷彿,顯得,看似,好像,看,據聞,據悉,據說,謠. Nat. y. sit. n. al. er. io. 傳,據報,傳說,傳聞,聽說,耳聞,外傳,傳言,風聞,聽聞,許,可以,行,得以, 犯不著,不必,無庸,無須,任憑,不妨,得,准許,默許,免,不用,不克,容,成, 何妨,可,毋須,放任,甭,能,讓,無妨,大可,同意,容許,好,不打緊,准,允許, 能夠,無法,不許,用不著,自應,強迫,必當,務須,莫,須得,逼,犯得著,勿, 何須,叫,逼迫,最好,命令,用得著,理當,切莫,務,理應,理該,非得,必須, 需要,切勿,別,應,須,該當,必得,何必,務必,要緊,要求,包準,打包票,保 證,擔保,包管,應允,允諾,包,承諾,不足,足以,夠,堪,足夠,無可,配,寧願, 肯,甘於,堅持,不甘,敢於,樂於,甘心,巴不得,樂意,指望,祈盼,勇於,敢, 願,但願,期望,企盼,巴望,決心,甘願,試圖,企圖,盼望,願意,力圖,懶得,. Ch. engchi. i n U. v. 執意,盼,膽敢,期盼,硬要,期待,寧可,寧肯,希望,渴望,決意,恨不得,不 屑,想要,期許,無意,無心,企望,不圖,情願,料到,竟,難怪,怪不得,未料, 終歸,果,甚至,不想,反倒,想不到,訝異,果真,果然,反而,終究,沒想到,畢 竟,竟然,不料,驚料,甚而,無怪乎,居然,無怪,料中,原來,幸虧,遺憾,後 悔,好在,虧,惋惜,可惜,幸好,還好,總算,悔恨,懊悔,多虧,慶幸,幸而,虧 得,難得. 24.

(31) 圖 3.2:使用高頻詞建立雷震文本的向量流程. 立. 政 治 大. 文本向量的維度採用本論文提出的 3 種語言特徵以及常用的語言特徵 3 種,. ‧ 國. 學. 但為了要建立文本間一致的比較基準,我們必須先尋找建立文本向量的母體,也就 各研究方向下的文本集合。母體我們選擇「同主題不同作者」 《自由中國》非文藝. ‧. 類所有文章,及「同作者不同類型」雷震發表在《自由中國》的文章社論及雷震日. y. Nat. sit. 記作為向量空間提取特徵詞組的母體。如果我們想要建立某個文本在某個語言特. n. al. er. io. 徵下的文本向量時,我們會先從母體找出該語言特徵下按照出現次數排序前 N 個. i n U. v. 作為文本向量的詞組,再觀察這 N 個詞組在某個文本中的出現狀況,最後該文本. Ch. engchi. 會得到 N 維且數值為詞組出現頻率的向量。N 的維度越大雖然分類效果越好,但 太大也會在分類過程浪費不必要的資源,本研究 N 的數值選擇一般向量空間模型 的基礎維度值 100,也就是建立的文本向量為 100 維。圖 3.3 詳細說明了建立流程, 透過在「同主題不同作者」及「同作者不同類型」中的母體,我們得到各自對應於 語言特徵的特徵維度,最後找出各類別文本在這維度下詞組的出現頻率,轉換成新 的文本向量。舉例來說, 「同主題不同作者」的母體是《自由中國》非文藝類文章, 語言特徵為高頻詞,於是我們就尋找在母體出現頻率前 100 個的詞彙作為該向量 空間模型的基準,若語言特徵為本研究提出的語言特徵如名詞+名詞等,則是尋找. 25.

(32) 符合篩選條件的組合,以符合條件的前 100 個詞組作為基準特徵。當雷震有篇已 斷詞文章輸入時,模型會找出文章內各個維度對應的詞組數目作為該維度的數值, 最後得到該文本的向量,每個維度為該維度詞組在文本出現頻率。整體轉換結束後, 每個類別的文本都會得到不同語言特徵建構而成的文本向量。但因為每個文本詞 數不同使得文本向量無法有效比較,所以必須透過正規化的步驟才能在比較時有 個基準點。正規化後每個維度的數值計算採用相對次數,也就是該詞組出現在該文 本次數轉換每百萬詞出現次數。公式 3.1 為詞組相對頻率計算方式,TF 為該詞組. 政 治 大 RF。有了 RF,我們就能不受文本大小限制下比對不同文本向量。 立 RF =. 學. 𝑇𝐹 × 1,000,000 𝐷. ‧. ‧ 國. 在文本中出現的次數,D 代表整個文本中詞彙總出現次數,最後會得到相對頻率. 公式 3.1:相對頻率計算方式. sit. y. Nat. al. er. io. 表 3.8 為 3.1 節資料前處理的總結,統整了不同研究方向下參數及語言特徵的. v. n. 選擇:各研究方向各自所要觀察的對象以及選擇的文本範圍、語言特徵使用的母體. Ch. engchi. i n U. 為何及選擇哪些語言特徵。有了研究文本、基準母體及語言特徵,我們就能透過向 量空間模型將文本轉換為文本向量,後續就能利用電腦內的分類模型進行分類評 估及文本間的差異詞組尋找。. 26.

(33) 表 3.8:不同研究方向下的參數及語言特徵選擇. 立. 政 治 大. ‧. ‧ 國. 學 y. Nat. er. io. al. sit. 3.2 分類模型選擇及建立. v. n. 透過機器學習方式找出文本作者相當普遍,不同類型文本所適用的分類演算法也. Ch. engchi. i n U. 不盡相同,需先找出最為合適的以提高預測能力。目前作者歸屬中常見的分類演算 法為 LinearSVC 及 Naïve Bayes 這兩種,前者為針對文本使用的線性 SVM,找出 區隔文本間在座標上點的線條或是平面;後者則是因文本特徵間大多為相互獨立 關係而利用貝氏定理對文本分類,2.5.1 提到的隨機森林雖然在分類上並無如上述 兩者分類準確,但卻容易從決策點觀察文本間分類情況,且對於過於資料數值過於 鬆散的文本也有奇效[38]。 因為本研究主要想觀察提出的情境性語言特徵在分類上的表現以及類別間詞 組的差異,所以需要考慮到分類器是否容易觀察,在這情況下,隨機森林的決策點 相比於其他分類演算法的數學式更容易理解,也更容易觀察分類情況。另外,因為 27.

(34) 要評估分類模型的表現,勢必需要將資料分割成訓練及測試資料兩個部分,但隨機 森林內部的 Out-of-bag(OOB)能夠直接評估模型的好壞,使得資料能夠充分被運用。 而重要特徵數值機制,能計算出分類模型內各個特徵對於有效分類的貢獻分數,找 出對於分類的效果最大的詞組,這也能作為不同類別間的差異。 為了觀察本研究在分類的表現,我們選擇隨機森林和其他常用的分類演算法, 對於本論文在「同主題不同作者」及「同作者不同類型」兩個研究方向下的文本進 行有效評估。圖 3.3 與圖 3.4 為兩種研究方向下的分類準確率,X 軸為本論文提出. 政 治 大 演算法我們選擇 Multinomial Naïve Bayse、LinearSVC、決策樹及隨機森林共 4 種, 立 的語言特徵及一般常用的語言特徵,Y 軸則是準確率分數,越高分類越準確。分類. 參數則是以 scikit-learn 套件包的預設值為主,資料分割皆為各類別文本 80%訓練、. ‧ 國. 學. 20%測試。圖 3.3 為在 9 個類別底下,隨機森林有著近 5 成的成功預測,且大多高. ‧. 於其他分類演算法;而圖 3.4 則是 3 個類別有著近 8 成的成功預測,相當接近於一. y. sit. io. n. al. er. 型研究的基礎。. Nat. 般常用語言特徵預測結果,最後我們選擇隨機森林分類演算法作為我們後續對模. Ch. engchi. 28. i n U. v.

(35) 立. 政 治 大. ‧ 國. 學. 圖 3.3:同主題不同作者,各演算法分類準確率. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.4:同作者不同類型,各演算法分類準確率. 29.

(36) 得到處理完成的各類別文本向量後,本研究將採用隨機森林分類器,藉由機器 學習的方式觀察各類別的分類情況。每個研究方向、語言特徵都會建立 1 個分類 模型,舉例來說, 「同主題不同作者」在語言特徵名詞+名詞下,將 9 位作者類別的 所有文本建立預測模型,當有個同類型的文本輸入時,模型將會預測該文本的作者 為誰;此外,為了找出類別間彼此差異詞組為何,也會針對兩兩類別建立各自的預 測模型。前者的多類別模型主要是觀察整體的分類情況,後者雙類別模型則是明確 找出類別間詞組使用差異。. 政 治 大 度越高分割後類別趨近於越少,該決策點作為類別間的差異性也越明顯。而同樣概 立. CART 決策樹在分類時,會挑使分類後純度提高的特徵維度,也就是詞組。純. 念的隨機森林,在訓練資料與詞組特徵都是隨機的情況下,重要特徵會是以統計的. ‧ 國. 學. 方式計算,找出該模型在分類上重要決策點的詞組。為了觀察類別間是否存在獨特. ‧. 性詞組,本研究選用雙類別模型觀察重要特徵後,再與其他類別結果整合。如果是. y. Nat. 直接選用多類別模型,雖然也能找出作為整體分類的重要特徵,但卻無法有效解釋. er. io. sit. 是區隔哪些類別。假設詞組 A 能將作者分成 5 位與 4 位 2 類,但卻不能明確解釋 是在哪些類別有著差異;但若是雙類別,詞組 A 在資料分割上會使結果各趨近於. al. n. v i n Ch 單一類別,明確看出是這兩個類別產生差異,這就有辦法找出類別間的獨特性詞組 engchi U. 為何。. 本研究的隨機森林分類器採用機器學習常用的套件包 Scikit-learn 作為開發使 用,程式開發語言為 python。隨機森林分類器 RandomForestClassifier 內,樹的樹 木參照 Oshiro 等人論文[17]選擇 256 顆;葉節點為 2,即最後至少要有 2 個文本符 合詞組決策結果;模型隨機參數 random_state 的數值選擇可以確保每次建立的模 型結果皆一致,本研究選擇 0~9,後續的 OOB 評估數值及重要特徵數值為這 10 個 模型的平均值,以避免結果太過極端。. 30.

(37) 3.3 結果如何評估 我們想要觀察本論文提出的具情境性語言特徵與一般語言特徵,在不同研究方向 下的預測表現,並進一步找出是否各類別有者相對於其他類別的獨特性詞組。為此, 我們先利用 OOB 錯誤率評估各研究方向、各語言特徵下,多類別模型及雙類別模 型的相互比較,觀察語言特徵的表現,最後找出符合獨特性詞組規則的重要詞組特 徵,最後回到原始文本觀察,大致評估流程如下:. 政 治 大 一般常用語言特徵及本論文提出的語言特徵間 OOB 錯誤率差異 立. 1.. 比較「同主題不同作者」 、 「同作者不同類型」的多類別與雙類別模型,在. 2.. 找出「同主題不同作者」 、 「同作者不同類型」雙類別模型內各類別間的重. ‧ 國. 學. 要特徵,並按照獨特性規則找出各類別的獨特詞組,最後回頭觀察在原始. 以重要特徵為基準,整合本論文提出的語言特徵,與「同主題不同作者」 、. y. Nat. 3.. ‧. 文本內的表現,證明是否相較其他類別具有獨特性. er. io. sit. 「同作者不同類型」多類別模型的 OOB 錯誤率觀察比較 重要特徵為該模型語言特徵詞組的集合,也就是作為向量空間母體的前 100 個. al. n. v i n Ch 語言特徵詞組,其數值代表被選為樹的決策點比例,數值越高代表被選取機會比其 engchi U 他詞組越高,在雙類別模型內可視作兩兩類別間的差異大小。圖 3.3 為夏道平與朱 伴耘在名詞+名詞隨機森林模型內,其中一棵樹的部分架構,可以看到當文本在「民 主(Na)政治(Na)」這詞組相對數量大於 63.5 時,及決策結果為 False,這棵決策樹 會判定作者為朱伴耘,若為 True 則會繼續往下個決策點分類,重要特徵就以這些 詞組做為決策點出現頻率給予數值。Scikit-learn 套件包的隨機森林分類器,函式 feature_importances_會透過 OOB 評估過程中剩下 1/3 資料觀察出 100 個詞組在這 模型內整體的分類表現優劣,並給予相對應的重要特徵數值。因為相總為 1,除以 總詞組數 100 後代表平均每個詞組為 0.01,後續選擇重要特徵時會以超過平均作. 31.

(38) 立. 政 治 大. 圖 3.5:夏道平與朱伴耘在名詞+名詞隨機森林模型內部分樹架構. ‧ 國. 學. 為考量。而另一個函式 oob_score 能計算該模型的 OOB 評估分數,分數越高分類. ‧. 越理想,本研究後續會以常用的 OOB 錯誤率(1-OOB 分數)作為模型間的評估。因. y. Nat. sit. 為 OOB 錯誤率也可以直接視作預測結果表現,像是 OOB 錯誤率 0.25 代表著約有. n. al. er. io. 該分類模型在類別區別上會有 25%的錯誤率,後續將會透過不同層面如語言特徵. i n U. v. 間或類別間的平均 OOB 錯誤率的比較,觀察之間有何差異性。. Ch. engchi. 32.

(39) 第 4 章 研究成果及分析 這章節會評估由語言特徵建構而成的隨機森林模型,並觀察內部重要特徵及找出 各類別獨特之詞組。首先先利用 OOB 錯誤率評估各種模型,判斷及分析在不同條 件下的差異;再來觀察雙類別模型的重要特徵,透過函式統計出各類別相較於其他 類別顯著的詞組,最後按照獨特性規則歸納出獨特詞組。因為作為分類上單一語言 特徵太過單調且大多預測不佳,最後會將各語言特徵依照不同比例彙整成新的語. 政 治 大. 言特徵,觀察預測結果是否有改進。. 立. ‧ 國. 學. 4.1 分類模型評估. ‧. 本研究針對每個語言特徵都有建立兩個分類模型,多類別模型及雙類別模型。前者. sit. y. Nat. 觀察整體分類的結果,像是某篇文章會被歸屬於 9 位作者其中之一;而雙類別則. al. n. 有 36 個預測模型,3 個類型文本會有 3 個。. Ch. engchi. er. io. 是兩兩類別間建立 1 個模型,目的主要是找出後續重要特徵而非預測,9 位作者會. i n U. v. 透過 OOB 錯誤率評估多類別及雙類別模型的表現,越低表示模型表現越好。 多類別模型會評估各語言特徵在不同研究方向下的 OOB 錯誤率,而雙類別模型則 會以類別間、語言特徵間以及不同研究方向作為評估分數,OOB 錯誤率會是以平 均的方式建立。另外,因為 random_state 的數值會使預測結果固定,為了求結果趨 近一致,本研究選擇 0~9 共 10 個數值建構成的模型,也代表同條件 OOB 錯誤率 會有 10 個,最後結果為這 10 個的平均值,之後的重要特徵數值也是 10 個模型的 平均數值結果。為了要看出情境性語言特徵表現而捨棄分類表現較優的常用語言 特徵,所以在預期上模型分類表現前者 OOB 錯誤率理應會高於後者,但後續重要 特徵詞組觀察上則包含較多資訊。 33.

(40) 立. 政 治 大. 圖 4.1:不同研究方向多類別模型在各語言特徵的 OOB 錯誤率. ‧ 國. 學 ‧. 4.1.1 多類別模型. y. Nat. sit. 圖 4.1 為不同研究方向下,多類別模型在各語言特徵的 OOB 錯誤率。X 軸為語言. n. al. er. io. 特徵,Y 軸為 OOB 錯誤率分數,折線為不同研究方向在不同語言特徵下的表現,. i n U. v. 至於垂直藍線是為了區隔本論文提出情境性語言特徵及常用語言特徵的表現,左. Ch. engchi. 邊為情境性語言特徵 3 類共 7 個,右邊為 4 個常用語言特徵。可看出一般常用語 言特徵會比本論文提出的語言特徵 OOB 錯誤率還低,並以高頻詞最低,分類效果 最佳。在「同主題不同作者」下,情境性語言特徵平均 OOB 錯誤率高達 55%,代 表模型內有 55%的分類結果是錯的,與常用語言特徵數值差距甚大;而在「同作者 不同類型」平均也有約 24%的錯誤率,與常用語言特徵數值接近,整體趨於水平 線。 不同研究方向之間 OOB 錯誤率差異如此巨大,除了因為選擇的語言特徵,要 達到情境性表現的目的而相對捨棄了分類效能外,更重要的是兩個研究方向的類. 34.

(41) 別數量不同。 「同主題不同作者」有著 9 位作者,而「同作者不同類型」只有 3 種 類型文本,結合圖 4.1 結果能得到: 1.. 「同主題不同作者」有 9 個類別,平均分類錯誤率為 55%. 2.. 「同作者不同類型」有 3 個類別,平均分類錯誤率為 24%. 通常類別越少分類效果越好,其理由大多為分類的候選變少,就算隨意猜中的機率 也高,例如:今天有某篇匿名文本,已確定是某群作者內的其中一位所撰寫,如果 候選作者有 9 位,隨意猜測機率為 1/9,但若候選作者只有 3 位,猜測機率提高至. 政 治 大 類的情況就不易發生,就像是常用的高頻詞與 bigram,而本論文也會在 4.3 節結合 立. 1/3,後續研究的雙類別模型更是到達 1/2。當然,如果語言特徵選擇的好,胡亂分. 語言特徵以改善分類結果。. ‧ 國. 學. 為何高頻詞作為分類效果表現如此優異?主要因為是眾人常用的詞組,包含. ‧. 了通用詞及虛詞,數值上的差距可看出類別的使用習慣,而本論文提出語言特徵雖. y. Nat. 具情境解釋性,本身數值使用上就偏低,差距也不太容易觀察。但一旦發現差異詞. er. io. sit. 組,就能明確的看出類別間的情境差異而非較無意義的語句使用差異。至於為何 「同作者不同類型」情境性與常用語言特徵數值差異不大,要到後續觀察雙類別模. n. al. Ch. 型的類別間差異後才能找出解答。. engchi. 35. i n U. v.

(42) 立. 政 治 大. ‧ 國. 學. 圖 4.2:不同研究方向雙類別模型在各語言特徵平均 OOB 錯誤率. ‧ sit. y. Nat. 4.1.2 雙類別模型. n. al. er. io. 圖 4.2 為不同研究方向下,雙類別模型在各語言特徵平均 OOB 錯誤率。跟圖 4.1. i n U. v. 一樣,X 軸為語言特徵,並由藍線區隔常用與本研究提出。Y 軸為 OOB 錯誤率,. Ch. engchi. 與多類別模型不同,數值是由該研究方向下所有模型 OOB 錯誤率的平均:「同主 題不同作者」為 9 位作者兩兩組合共 36 個模型的平均,而「同作者不同類型」為 3 種類型組合的平均值。因為類別數只有 2 個,所以我們可以看到 OOB 錯誤率表 現比圖 4.1 的 9 個類別及 3 個類別還好。折線分布也與多類別類似,但數值更低, 「同主題不同作者」在不同語言特徵間的更大。由於雙類別模型主要是希望觀察出 類別間的差異,所以將更進一步觀察類別在不同情況下的差異。. 36.

(43) 立. 政 治 大. 圖 4.3:同主題不同作者,各作者與其他作者平均 OOB 錯誤率. ‧ 國. 學. 圖 4.3 為在「同主題不同作者」各作者在不同語言特徵下與其他作者的平均. ‧. OOB 錯誤率,如:雷震與其他 8 位作者建構名詞+名詞語言特徵的分類模型後,將. y. Nat. sit. 8 個分類模型的 OOB 錯誤率取平均值,作為雷震與其他作者在這語言特徵的平均. n. al. er. io. 差異。在同個語言特徵下,若某位作者比其他位作者的平均 OOB 錯誤率高時,代. i n U. v. 表該位作者在該語言特徵上無法有效與其他作者產生區分;反過來說,若平均 OOB. Ch. engchi. 錯誤率較低時,代表容易區別於其他作者。. 在各個語言特徵相互比較,可看出藍線右側的一般常用語言特徵數值低於本 論文提出的情境性語言特徵大多,作者間除了標點符號外差距並不大,至於各個作 者在情境性語言特徵則是有著不同的表現。從整體上來看,雷震數值大多高於其他 作者,這是因為《自由中國》中的社論多為雜誌共同修訂,也剛好就是雷震負責, 這使得雷震在修訂其他作者的社論時可能不經意加入自己的語言風格。雖然我們 原本假設情境性語言特徵包含的作者資訊不受影響,但在集體修訂下還是表現出 了一致性,導致雷震無法與其他作者產生區別。不過,在名詞+名詞與形容詞+名詞. 37.

(44) 立. 政 治 大. 圖 4.4:同作者不同類型,各類型與其他類型平均 OOB 錯誤率. ‧ 國. 學. 這兩類比較接近主題的語言特徵就相對不會受到修訂的影響,表現出作者文本之. ‧. 間的差異。至於朱伴耘與龍平甫則是整體 OOB 錯誤率偏低,代表這兩位作者在這. y. Nat. sit. 些語言特徵上可能有著獨特性;另外,殷海光在各語言特徵的 OOB 錯誤率皆平均,. n. al. er. io. 代表並無特別顯著或特別模糊的分類。各個作者可能有著易於區別其他作者或是. i n U. v. 使用相近的語言特徵,之後將更細部觀察類別間的語言特徵優劣表現。. Ch. engchi. 至於圖 4.4「同作者不同類型」的雷震文本,雖然只有 3 個類別,但很明顯別 於圖 4.3 的折線分布,整體分布較於平緩。社論與文章這兩個類別在各個語言特徵 點分布幾乎重疊,而日記則是別於其他兩類且數值極低,這代表日記在所有語言特 徵都和社論及文章有著明顯區別。而社論與文章線之所以重疊,主要是因為只有 3 個類別,代表日記在和其他類別間的 OOB 錯誤率極低,屬於日記的文本幾乎不會 被分類成社論與文章;至於社論與文章,因為 OOB 錯誤率為與其他兩個類別平均, 而與日記又趨近於 0,這代表社論及文章的平均 OOB 錯誤率可視作彼此間的 OOB 錯誤率。. 38.

(45) 表 4.1:同主題不同作者各類別間 OOB 錯誤率最大(右上)及最小(左下)語言特徵 (紅字為各作者最大,藍字為各作者最小). 立. 政 治 大. ‧. ‧ 國. 學. Nat. n. al. er. io. sit. y. 表 4.2:同主題不同作者各類別間 OOB 錯誤率平均值 (紅字為各作者最大,藍字為各作者最小). Ch. engchi. 39. i n U. v.

(46) 先前有了研究方向及類別的平均 OOB 錯誤率,接下來觀察更細部的兩兩類別 間在不同語言特徵下的差異。表 4.1 為「同主題不同作者」兩兩作者間 OOB 錯誤 率最大及最小的本研究提出語言特徵,右上角粉色區塊為 OOB 錯誤率最大,而左 下為藍色區塊為 OOB 錯誤率最小,比較上僅選擇情境性語言特徵。右上角的紅字 與左下角的藍字分別代表該類別與其他類別中數值最大及數值最小的組合,可能 會有重複。而表 4.2 為兩兩類別在所有語言特徵 OOB 錯誤率的平均值,每個類別 也都有紅字與藍字作為該類別與其他類別的最大最小值,也有可能重複。類別中的. 政 治 大 好相反,類別越多代表該類別與其他類別差異越大,區別性越強。 立. 紅色數值越多,代表該類別與其他類別在文本分類時的準確率越低;藍色數值則剛. 從表 4.1「同主題不同作者」語言特徵中,可觀察出作者與其他作者之間在何. ‧ 國. 學. 個語言特徵下詞組使用差異最大、何個差異最小,例如:雷震在否定組合與程度組. ‧. 合與其他作者的 OOB 錯誤率最高,意味著區別性越低,而在名詞+名詞組合中大. y. Nat. 多數值最低,代表著在該語言特徵的詞組能與其他作者區別;羅鴻詔則是以名詞+. er. io. sit. 動詞及形容詞+名詞組合數值最高,副詞+動詞組合最低,這代表語言特徵並沒有 絕對分類上的優勢及劣勢。從整體來看,36 個 OOB 錯誤率最大的語言特徵以名詞. al. n. v i n Ch +動詞組合、程度詞組合及形容詞+名詞組合最多,而另外 36 個 OOB 錯誤率最小 engchi U. 的語言特徵則多為副詞+動詞組合及名詞+名詞組合,雖非絕對但稍微能看出情境 性語言特徵在分類上的優劣情況。 從類別來看,表 4.2 中雷震、傅正與胡適的 OOB 錯誤率分數皆高,雷震更有 4 個紅色數值,代表與其他作者文本間差異並不大,獨特性詞組可能較少,而龍平 甫與朱伴耘分數平均皆低,表示做為與其他類別間不同的獨特性詞組可能越多,而 這也在擁有 6 個藍色數值的龍平甫最為明顯,這些結果也與圖 4.3 各作者折線圖的 整體分布相近。. 40.

(47) 表 4.3:同作者不同類型各類別間 OOB 錯誤率最大及最小的語言特徵(左表). 及平均值(右表)(紅字為各類型最大,藍字為各類型最小). 政 治 大 最小值,而右表為同類別間的語言特徵平均值,與表 4.1 和表 4.2 架構相同。因為 立 表 4.3 為「同作者不同類型」各類別與其他類別的 OOB 錯誤率,左表為最大. 只有 3 種類型,可以很清楚看出社論、文章與日記間的差距。社論與文章在名詞+. ‧ 國. 學. 名詞的 OOB 錯誤率有 0.354,遠比社論與日記和文章與日記的模型表現還差,而. Nat. sit. y. ‧. 日記則是與社論及文章類別的文本能夠完整分類。. er. io. 4.1.3 綜合評估分析. al. n. v i n Ch 透過隨機森林對於不同研究方向、不同語言特徵得到的數值,依照不同條件畫出的 engchi U 圖表,可以得到以下幾個結果: 1.. 類別模型在「同主題不同作者」下 OOB 錯誤率數值皆高,而在「同作者 不同類型」數值較低且不會隨著語言特徵的不同而有所變化。. 2.. 雙類別模型因為類別數較多類別模型的 9 位作者及 3 個文本類型還少, 隨機分類的成功率較高,使得平均 OOB 錯誤率相對較低。. 3.. 透過建立不同類別間的模型,可以利用 OOB 錯誤率觀察出類別間在與其 他類別或是單一類別語言特徵的數值差異,並找出類別在與其他類別於 不同語言特徵分類上的優劣。. 41.

(48) 第一點為本論文提出的情境性語言特徵與一般常用語言特徵間相互比較,從 圖 4.1 至圖 4.4 可看出後者分類效果皆優於前者,但本論文目的是為了觀察後續類 別間在具情境性詞組下的差異性,而非僅為了觀察分類,所以分類效果不佳是可接 受的,但問題是分類效果也不能太差。在 4.1.1 小節的多類別模型時,55%的 OOB 錯誤率表現實在很難說具有分類的效果,所以在 4.3 節會透過尋找重要特徵詞組合 併的方式來改善此問題。 「同主題不同作者」與「同作者不同類型」為何折線圖上前者高低起伏且前者. 政 治 大 者共有 9 位作者,也就是在隨機森林中會從 9 個類別中選出 1 個類別做為預測的 立. 平均 OOB 錯誤率偏高,而後者趨於水平且偏低?理由主要為類別構成的因素:前. 結果,而後者則只有 3 個類別。若是隨機選取結果,後者預測成功率會比前者高,. ‧ 國. 學. OOB 錯誤率也會偏低,雙類別模型則是只剩 2 個類別選 1 個。儘管得出的 OOB 錯. ‧. 誤率可能有著誤差,本研究利用隨機森林的函式 random_state 建立 10 個固定的隨. y. Nat. 機模型平均值減少誤差。此外,後續的重要特徵詞組及獨特性詞組尋找,也會進一. er. io. sit. 步作數值篩選,以解決模型評估失誤的問題。至於為何「同作者不同類型」在圖中 的折線會比「同主題不同作者」還要平緩?主要是因為 3 個類別中,社論與文章雖. al. n. v i n Ch 然之間有著差異,但與日記差別太大,使得 OOB 錯誤率趨近於 0,分類模型數值 engchi U 大多為社論與日記之間的差異,又剛好各個語言特徵上的差異數值變化不大,結果. 就是一條水平折線。 一般常用的語言特徵與本論文提出的情境性語言特徵比較起來,在折線圖上 前者的 OOB 錯誤率大多會比後者低很多,尤其是高頻詞。在以高頻詞作為語言特 徵時,虛詞通常占了絕大部分的比例,例如:的、之、而、或…等詞彙,這些虛詞 詞彙在文章的使用相當頻繁,所以很容易包含作者寫作風格,當數量一有變化就能 馬上察別,也因此常作為分類要素。至於本研究提出的語言特徵則是根據不同語言 特徵清除雜質過後的結果,而剩下的詞組也大多數量不高,甚至幾乎沒有,所以變. 42.

參考文獻

相關文件

Kristensen et al., “Prevalence of psoriatic arthritis in patients with psoriasis: a systematic review and meta-analysis of observational and clinical stud- ies, ” Journal of

Jeejeebhoy FM, Zelop CM, Lipman S, et al; for the American Heart Association Emergency Cardiovascular Care Committee, Council on Cardiopulmonary, Critical Care, Perioperative

• label embedding: PLST, CPLST, FaIE, RAk EL, ECC-based [Tai et al., 2012; Chen et al., 2012; Lin et al., 2014; Tsoumakas et al., 2011; Ferng et al., 2013]. • cost-sensitivity: CFT,

Reading: Stankovic, et al., “Implications of Classical Scheduling Results for Real-Time Systems,” IEEE Computer, June 1995, pp.. Copyright: All rights reserved, Prof. Stankovic,

Recent preclinical data by Nardone et al (2015) indicate that olaparib may enhance endocrine therapy efficacy and circumvents resistance; as a consequence, addition of olaparib to

Compass and straightedge constructions, In John K.Baumgart et al (Eds), Historical topics for the mathematics classroom ( 31st yearbook)( p.193 ). Reston,

Arbenz et al.[1] proposed a hybrid preconditioner combining a hierarchical basis preconditioner and an algebraic multigrid preconditioner for the correc- tion equation in the

In x 2 we describe a top-down construction approach for which prototype charge- qubit devices have been successfully fabricated (Dzurak et al. Array sites are de­ ned by