適用於中文史料文本之作者語言模型分析方法研究 - 政大學術集成

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政治大. ‧ 國. 學. 適用於中文史料文本之作者語言模型分析方. ‧. 法研究. Nat. io. sit. y. An Enhanced Writer Language Model for er. n. Chinese a Historical Corpora iv l C n hengchi U. 研究生：梁韶中指導教授：蔡銘峰. 中華民國一百零六年七月 July 2017.

(2) 106. 碩士論文. 立. 政治大. ‧. ‧ 國. 學. n. al. er. io. sit. y. Nat. 適用於中文史料文本之作者語言模型分析方法研究. 政治大學資訊科學系. 梁韶中. Ch. engchi. i Un. v.

(3) 適用於中文史料文本之作者語言模型分析方法研究 An Enhanced Writer Language Model for Chinese Historical Corpora 研究生：梁韶中指導教授：蔡銘峰. Student：Shao-Zhong Liang Advisor：Ming-Feng Tsai. 國立政治大學資訊科學系. 立. 治政碩士論文大. ‧ 國. 學 ‧. A Thesis. er. io. sit. y. Nat. submitted to Department of Computer Science National Chengchi University in partial fulfillment of the Requirements. n. a l for the degree of i v n C h Master U engchi in Computer Science. 中華民國一百零六年七月 July 2017.

(4) 致謝. 在研究所的這三年真是人生中一段很難得的經歷，在此期間除了課業方面的學習外，在事情處理的態度和方法上也有所進步，像是接計畫、當助教等等很多事情都是以前從未接觸過的，這對個性害羞的我. 治政大這些，還記得第一次進實驗室看到有別於其他實驗室的無印良品風格立的內裝修，心裡真是非常嚮往，不過和式座椅對下盤硬如我的人來說. 真是一大挑戰，非常感謝蔡銘峰老師收我進實驗室，我才有機會經歷. ‧ 國. 學. 實在沒辦法做太久(笑)，除了環境之外實力堅強的學長們也都非常照顧人，尤其是奕安學長，幾乎可以說是我在學期間的重要支柱，從課業. ‧. 上的問題、助教的教學內容到最後的畢業程序幾乎無問不答，非常棒. y. Nat. 的一位學長，除此之外也要感謝我的同儕高璽君，常常在我情緒低落的時候陪我一起運動和探討未來的志向，最後還是要感謝我的家人，. n. al. er. io. 謝。. sit. 有他們的陪伴，我才能順利完成學業，踏入人生下一階段的旅程，謝. 國立政治大學資訊科學系 July 2017. Ch. n U engchi. 1. iv. 梁韶中.

(5) 適用於中文史料文本之作者語言模型分析方法研究. 中文摘要因應近年來數位典藏的趨勢日漸發展，越來越多珍貴中文歷史文本選擇進行數保存，而保存的同時會面對文本的作者遺失或從缺，進而影響文本的完整性，而本論文提出了一個適用於中文史料文本作者分析的方法，主要是透過語言模型的建構，為每一位潛在的作者訓練出一個專屬的語言模型，而搭配不同的平滑方法能避免掉某一受測文本單詞出現的機率為零的機率進而造成計算上的錯誤，而本論文主要採用改良式 Kneser–Ney 平滑方法，該平滑方法因其會同時考慮到 N 詞彙語言模型的高低頻詞的影響，而使其成為建構語言模型普遍選擇的平滑方式。若僅將每一位潛在作者的所有文章進行合併訓練成單一的語言模型會忽略掉許多特性，所以本篇論文在取得附有價值的歷史文本之外，又加入後設資料 (Metadata) 進行綜合分析，包括人工標記的主題分類的統計資訊，使建構出來的語言模型更適配受測文本，增加預測結果的準確性。和加入額外的自定義的字詞以符合文本專有名詞的用詞習慣，還會在一般建構語言模型的基礎上，加入長字詞的權重，以確定字詞長度對預測準確度的關係。最後還會採用遞歸神經網路 (Recursive neural networks) 結合語言模型進行作者預測，與傳統的語言模型分析作進一步的比較。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 2. i Un. v.

(6) An Enhanced Writer Language Model for Chinese Historical Corpora. Abstract In recent years, the trend of digital collections has been developing day by day, and more and more precious Chinese historical corpora have been selected for preservation. The preservation of the corpora at the same time will face the loss or lack of the authors, thus affecting the integrity of the corpora. A method for analyzing the author of the Chinese historical text is mainly through the construction of the language model, for each potential author to train a specific language model, and with a different smoothing method can be avoided zero probability of words and the error is caused by the calculation. This paper mainly adopts the Interpolated Modified KneserNey smoothing method, which will take into account the influence of higher order and lower order n-grams string frequency. So, Interpolated Modified Kneser-Ney smoothing is become a very popular way to construct a general choice of language models. The combination of all the articles of each potential author into a single language model will ignore many of the features, so this paper in addition to the value of the historical corpora, but also to add the metadata to integrate analysis, including the statistical information of the subject matter classification of the artificial mark, so that the constructed language model is more suitable for the measured text, increase the accuracy of the forecast results, add additional custom words to match the language of the proper nouns, in addition. But also on the basis of the general construction language model, the weight of the long word to join, to determine the length of the word on the relationship between the accuracy of prediction. Finally, recursive neural networks language models are also used to predict the authors and to make further comparisons with the traditional language model analysis.. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 3. i Un. v.

(7) 目錄致謝. 1. 中文摘要. 2. Abstract 第一章緒論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 前言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 N 詞彙語言模型與其缺點 . . . . . . . . . . . . . . . . . . . . . . . . 1.3 遞歸神經網絡語言模型 (Recurrent Neural Net Language Model) . . . . 1.4 研究目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 第二章相關文獻探討 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 平滑方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 第三章研究方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Kneser-Ney 語言模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Kneser-Ney 平滑法 . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 改良式 Kneser-Ney 平滑法 . . . . . . . . . . . . . . . . . . . . 3.1.3 改良式語言模型套件 Kenlm . . . . . . . . . . . . . . . . . . . 3.2 遞歸神經網絡語言模型（recurrent neural network language model, RNN LM） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 遞迴神經網路語言模型套件 Tensorflow . . . . . . . . . . . . . 3.3 適用中文文本之改良 . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 斷詞問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 人工關鍵詞 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 長字詞加權 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 第四章實驗結果與討論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 實驗設定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 實驗流程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 資料集以及資料前處理 . . . . . . . . . . . . . . . . . . . . . . 4.1.3 斷詞工具 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.4 語言模型評估函式 . . . . . . . . . . . . . . . . . . . . . . . . 4.2 實驗結果分析與討論 . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 改良式 Kneser-Ney 語言模型與遞迴神經網路語言模型比較 . 4.2.2 改良式 Kneser-Ney 語言模型長字詞加權 . . . . . . . . . . . . 第五章結論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 附錄 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 4. i Un. v. 3 1 1 1 2 3 4 4 6 6 7 9 10 11 12 13 13 14 14 16 16 16 18 19 19 21 21 24 28 30.

(8) 圖目錄實驗簡易流程圖 . . . . . . 過多的換行符號 . . . . . . 長字詞的權重與預測準確度長字詞的加權後示意圖 . .. 立. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 政治大. 學 ‧. ‧ 國 io. sit. y. Nat. n. al. er. 圖 4.1 圖 4.2 圖 4.3 圖 4.4. Ch. engchi. 5. i Un. v. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 17 19 25 25.

(9) 表目錄表 4.1 作者文章數與單詞數統計 . . . . . . . . . . . . . . . . . . . . . . . 表 4.2 去除社論後作者文章數與單詞數統計 . . . . . . . . . . . . . . . . 表 4.3 改良式 Kneser-Ney 語言模型與遞歸神經網路語言模型作者預測準確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 表 4.4 傅正測試文本 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 表 4.5 夏道平測試文本 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 表 4.6 殷海光測試文本 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 表 4.7 羅鴻詔測試文本 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 表 4.8 胡適測試文本 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 表 4.9 雷震測試文本 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 表 4.10 長字詞加權作者預測準確率實驗一 . . . . . . . . . . . . . . . . . 表 4.11 長字詞加權作者預測準確率實驗二 . . . . . . . . . . . . . . . . . 表 4.12 長字詞加權作者預測準確率實驗三 . . . . . . . . . . . . . . . . . 表 4.13 長字詞加權平均作者預測準確率 . . . . . . . . . . . . . . . . . .. 立. 政治大. ‧. ‧ 國. 學. Nat. n. al. er. sit. y. 改良式 Kneser-Ney 語言模型之文章作者預測結果 . . . . . . 改良式 Kneser-Ney 語言模型之文章作者預測結果 . . . . . . 遞迴神經網路語言模型之文章作者預測結果 . . . . . . . . . 遞迴神經網路語言模型之文章作者預測結果 . . . . . . . . . 長字詞加權改良式 Kneser-Ney 語言模型之文章作者預測結果長字詞加權改良式 Kneser-Ney 語言模型之文章作者預測結果. io. 表1 表2 表3 表4 表5 表6. Ch. engchi. 6. i Un. v. . . . . . .. . . . . . .. . . . . . .. . . . . . .. 18 18 22 22 22 23 23 23 24 26 26 26 27 30 31 32 33 34 35.

(10) 第一章緒論. 1.1. 前言. 立. 政治大. 在這個大數據分析成為顯學的時代裡，許多既有的實體文本漸漸朝向數位化保存過度，其中包括了許多富有重要意義的歷史相關文本，當有了大量的文本後，人. ‧ 國. 學. 們便可以透過自然語言處理、統計、資料探勘等等技術對文本進行深度分析，進而得到一些有用的資訊，像是作者識別、情緒字資訊、文章架構分析等等，而如. ‧. 果以人工的方式要進行這樣的分析則需大量與文本相關的專業知識，絕非對文本無基本的認識的一般人能夠進行作業的，而本篇論文則採用建構語言模型的方式. Nat. sit. y. 對文本進行有價值的分析，語言模型可以用統計式的角度做切入對分析提供幫. io. 助，在搭配文本相關專家的協助，相信分析過後的資料將有很強的可用性，而目. n. al. er. 前語言模型在不同的自然語言處理議題中被廣泛使用，像是語音辨識、詞性標注、機器翻譯和資訊檢索等等領域。. 1.2. Ch. engchi. i Un. v. N 詞彙語言模型與其缺點. 語言模型是一種字詞的機率分佈，簡單的定義是給定某字串，這串字出現的可能性有多大；而 N 詞彙語言模型即為給定連續的 N 個詞，那麼第 N+1 個詞可能會是什麼，其出現的機率又是多少。語言模型會統計訓練集中出現的每個詞或一個以上的詞所組成的字串出現的頻率，並以機率值的形式記錄該組詞出現在整個訓練集中的比例，有了訓練集中的統計資料後，我們就能對測試文本進行最大似然估計（Maximum likelihood estimation, MLE）以計算訓練文本與測試文本的相似程度，計算方法如下 C(w1 , w2 , · · · wi−1 , wi ) wk C(w1 , w2 , · · · , wi−1 , wk ). P (wi | w1 , w2 , · · · , wi−1 ) = P. (1.1). C(w1 , · · · , wi−1 )表示 w1 到 wi−1 這字串在訓練集中出現的次數，而(1.1)式即 1.

(11) 表示在給定 w1 , w2 , · · · , wi−1 條件下，出現 wi 的機率值。當測試文本得到的估計數值愈高則代表該測試文本與訓練集越相像，在 N 詞彙語言模型中以 N=1 為例，其意義為每個詞都是獨立的存在，每個詞出現的機率都僅和自己在文章中的佔比有關，但如果詞跟詞是相關聯的呢？以 N=2 為例，即詞出現的機率會與前面一個詞有關，如果與前兩個詞有關，則是 N=3 的情況，以此推斷，如果與前 N-1 個詞相關則稱之為 N 詞彙語言模型，這裡所說的詞是以英文中的”word“為單位，每個詞都是一個字，字跟字以空格分開，但是中文的詞則不一定是由單一一字所組成，所以在建構中文語言模型時需仿造英文的處理方式將詞跟詞進行分開，分開的方法稱之為”斷詞“。我們在採用傳統的 N 語言模型對文本進行分析時，存在著以下缺點: 1. N 詞彙語言模型將每一個詞都視為相互獨立的，並不會考慮詞跟詞間的關聯性，舉例來說，當訓練集為 ”打籃球”, ”打棒球”， ”打羽毛球” 三字串時，並沒. 政治大為零，表示訓練資料與測試資料不相像，而因以上皆為球類運動類型，所以這顯立然沒有考慮到實際應用上的語詞關聯性。. 有”打桌球”，所以當測試資料為 ”打桌球” 時，在計算最大似然估計時得分就會. ‧ 國. 學. 2.當訓練集沒有涵蓋到所有可能出現的字詞組合時則會有資料稀疏的問題，這會造成最後在計算困惑度（perplexity）時會出現除以零的錯誤，這也是第一項. ‧. 缺點的延伸，所以就須使用平滑方法（smoothing）來改善此問題，在第二節會介. sit. y. Nat. 紹幾種常見的平滑方法。本論文所採用平滑方式的為改良式 Kneser-ney 平滑方法，是一種混合型的平滑方法，他透過絕對打折法（absolute discounting）減去固. er. io. 定的數值以有效改善低階 n 詞彙中的高頻詞所造成最大似然估計結果的偏移，和用補插回退（interpolated back-off）的方式將未出現在訓練集上的字串改以低. n. al. i Un. v. 階 n 詞彙的方式計算以改進資料稀疏問題，因改良式 Kneser-ney 平滑方法的全面性及綜合性使得其成為語言模型中所廣泛採用的平滑方法。. 1.3. Ch. engchi. 遞歸神經網絡語言模型 (Recurrent Neural Net Language Model). 除了採用基於馬可夫假設（Markov assumption）的改良式 Kneser-ney 語言模型外，還會加入遞歸神經網絡語言模型作為比較，在馬可夫假設下，句子中可能出現的詞是從該詞前面的有限個詞所得出。而遞歸神經網絡語言模型則非基於馬可夫假設的語言模型，此種做法會考慮更多的上下文訊息，讓每個詞出現的機率得之於前面所出現過的所有詞而不僅限於前 n 個，此模型也是一種參數模型，其中的參數和詞的嵌入向量和 N 詞彙語言模型相同，都是使用最大似然估計得出，遞歸神經網絡語言模型是目前越來越多人採用建構語言模型的作法之一。. 2.

(12) 1.4. 研究目的. 在這許多歷史文本都已完成數位建檔的今天，很多文本因其年代久遠，確切的作者已無從得知，又或是文本同時收錄於多位作者的作品集裡而產生爭議，或是因當時的時空背景下作者選擇匿名發布，而我們在這篇研究所想做的事就是透過統計式語言模型辨識出那些文本正確的作者，而在對文本有研究專家的協助下，我們將能對辨識結果進行驗證。在一般的未署名、匿名、或筆名的作者辨識中，如果透過人工的方式則需一定的語言敏感度才能瞭解特定作者的用字遣詞習慣，還有對文章的歷史背景有充分的了解才能排除可疑的作者，而對文本出版的時間順序的掌握才能幫助我們從似是而非的作者群中找出正確作者，這些是需要專家們大量的專業知識與統計作業的，而本研究則是藉由語言模型的幫助為每一位作者建立一份專屬的語言模型，從而學到作者的用字遣詞習慣，再將不能確定作者的未知文本和各自的語言模型進行機率計算，進而預測出最有可能的執筆者。更進. 政治大一步的研究是為作者的語言模型做特化，我們會統計每一位作者所著的文章主題立類別在將其依百分比作為權值，而利用此權值可增加預測作者的準確度，再經由. ‧ 國. 學. 文本相關專家的輔助下，篩選出作者在特定時間點內可能出現與否的文本，以確定預測結果的客觀性與正確性。而除了傳統的語言模型預測外，還會與遞歸神經網絡語言模型預測結果進行交叉分析，使得本研究的匿名作者辨識結果具有很強. ‧. io. sit. y. Nat. n. al. er. 的可靠性。. Ch. engchi. 3. i Un. v.

(13) 第二章相關文獻探討政治大在著數據稀疏的問題，以至於估計的機率值偏離真實機率值，而且 N 詞彙語言立模型並不能對文章的上下文距離過長的字串進行估計，並總會低估訓練集中不. 在 N 詞彙語言模型中，用最大似然估計作為某個字串出現的機率，但這樣存. ‧ 國. 學. 相鄰近的字串出現機率，使不相鄰的詞所得最大似然估計值為0，而平滑方法（smoothing）就是用來解決此問題，其作法是給 N 詞彙語言模型中的零機率或低. ‧. 機率字串指派非零機率值的方法，常見的做法分為兩種，回退（back-off）和打折. y. sit. io. n. al. er. 言模型。. Nat. （discounting），打折法是指將某個非零 n 詞彙字串的機率值分派給訓練集中出現次數較少或為零的事件，而回退法即指採用 N-1 詞彙的機率值來建立 N 詞彙語. 2.1. 平滑方法. Ch. engchi. i Un. v. Good-Turing Discounting(GT)[3] Good–Turing 平滑方式最早是由 Alan Turing 的助手 I. J. Good 於 1953 年提出，為一種打折的平滑方式，計算方法如下: ∗ PGT =. C∗ N. (2.1). N 為所有字串出現次數的總和，其中 C ∗ 為 Good-Turing 平滑計數，算法如下： C ∗ = (C + 1). NC+1 NC. (2.2). C 為某 n 詞彙字串出現的次數， NC 為出現次數為 C 的 n 詞彙字串個數，我們已從書架取書做舉例，下列為書架上的書何其所對應的數量:. 4.

(14) 蔣介石日記阿 Q 正傳 5 8. 狂人日記 2. 理想國夢遊者帝國落日資本論 1 1 1 0. 史記 0. 經由此平滑分配後拿到書架上未出現過的“史記”的機率為 3 N1 = 1 ∗ = 1.5 N0 2 1.5 ∗ PGT (史記) = = 0.083 18. C ∗ (史記) = (0 + 1) ∗. 而拿到“夢遊者”的機率為 N2 2 = 1 ∗ = 0.67 N1 3 0.67 ∗ PGT (夢遊者) = = 0.037 18 從這個結果我們可以得出原本用最大似然估計計算會得到 0 機率值的”史記“，經. 政治大. C ∗ (夢遊者) = (1 + 1) ∗. 立. ‧ 國. 學. 由平滑計算後所得值為 0.083 ，而“夢遊者”在最大似然估計下的值為 0.055 ，調整過後則下降到 0.037 ，由此就避免了 0 機率值的產生。但是我們也可以從結果很. ‧. 直觀地看出該平滑法的缺點，在於其分配的原則並不能反應實際的機率值，因為原本機率值非0的詞彙經由分配給未出現過的詞彙後，竟然未出現過的詞彙所得的. Nat. sit. n. al. er. io. Katz’s back-off model[6]. y. 機率值高出出現過詞彙的機率值許多，這就是此種平滑法的缺點。. Ch. i Un. v. Katz’s back-off model 是一種回退型的平滑方法，通常會搭配 Good-Turing 折扣法一起使用，算法如下: PKatz (wi | wi−n+1 , · · · , wi−1 ) =. engchi. ( i−n+1 ···wi−1 wi ) dr C(w C(wi−n+1 ···wi−1 ). if C(wi−n1 · · · wi ) > K. αwi−n+1 ···wi−1 PKatz (wi | wi−n+2 · · · wi−1 ) otherwise (2.3) 公式裡的 α 值為回退係數， dr 為打折係數， r 值為 C(Wi−n+1,··· ,Wi−1 Wi ) ，此打折係數為使用者自行設定，通常是根據 r 值來決定的，對於 r 值大於一個特定長數值 K（通常設為 5 ）則不進行打折，而對於 r 值小於常數值 K 且大於 1 的狀況， r+1 ，這是由 Good-Turing 折扣法計算出來的近似值，則給定打折係數 dr = (r+1)n rnr 在經此平滑法計算後，無論測試集中的 n 詞彙字串是否有在訓練集中出現過，都. 不會出現計算最大似然估計出現0的情況，又如果退回使用 n-1 詞彙字串機率值時，也遇到未出現過的字串，則再退回 n-2 詞彙即可，其原理是所有出現過 n 詞彙機率總和為1，乘上一個打折係數使之變小，使得總和小於 1 ，而減少的部分再通過回退分配給沒有出現在訓練集上的低階 n 詞彙，而最後經此分配計算後的機率總合也還是會等於 1 。 5.

(15) 第三章研究方法政治大使用的語言模型改良式 Kneser-Ney 立平滑方法做進一步介紹，本篇論文即基於此種. 上一章我們介紹了一些傳統的語言模型的建構方式，接下來我們會對當前最廣泛. 平滑方法的基礎上對中文文章的作者預測進行特化，接者我們會介紹建構此語言. ‧ 國. 學. 模型所選用的套件及選用原因，除了傳統的語言模型外，我們還會加入遞歸神經網路語言模型作為對比，並且介紹實作神經網路的套件及選用原因，在本章的最. y. Nat. io. sit. Kneser-Ney 語言模型. er. 3.1. ‧. 後，我們會針對中文文本特化的部分與建構語言模型所需的前處理做說明。. al. n. iv n C h e n g c h i U Kneser-Ney 平滑方法進 counting Smoothing）的基礎上進一步發展出來的，在對. Kneser-Ney 平滑法是一種打折型的平滑方法，是在絕對折扣法（Absolute Dis行介紹之前，會先說明絕對折扣法的核心作法。絕對折扣法是一種打折型的平滑方法，其基本原理也是從較常出現的 n 詞彙字串的出現機率減去一部分，再將減去的部分分配給沒有出現的 n 詞彙字串， Church & Gale (1991) [2]對此提出的方法如下，首先，他們先從訓練語料庫中切分出 2200 萬個詞當作留存語料庫（held-out corpus）使用，接者他們對留存語料庫做雙詞彙字串的詞頻統計，他們統計出在此留存語料庫中出現次數為 4 次的雙詞彙字串（例如： go to ， ”ride bike” ， ”have to” 等等），之後他們再對另一個 2200 萬詞彙的訓練語料庫分別統計這些雙詞彙字串出現的次數（例如： count(”go to”)=3 、 count(”ride bike”)=3 、 count(”have to”)=4 ），再將這些出現次數取平均，他們發現：在第一個2200 萬詞的留存語料庫中出現 4 次的雙詞彙字串，在另外一個 2200 萬詞的訓練語料庫中僅平均出現 3.23 次，下表為在訓練集語料庫出現次數從 0 到 9 次的雙詞彙字串，對應到留存語料庫中的平均的出現次數，從表中可發現其中的規律為除了出現次數為 0 和 1 的雙詞彙字串，在留存語料庫出現的平均次數相當於訓練集語料庫出現次數減去數值 0.75 。 6.

(16) 留存語料庫中雙詞彙字串次數 0.0000270 0.448 1.25 2.24 3.23 4.21 5.23 6.21 7.21 8.26. 訓練語料庫中雙詞彙字串次數 0 1 2 3 4 5 6 7 8 9. Absolute discounting 就是直觀地應用上述的結果，將從每一個記數中減去一. 政治大的機率值，之後從這個機率值減去一個較小的 d 值並不會有太大的影響，而減去立的這個數值則透過補差的方式分配到低階詞彙機率值上，而由上述統計結果得個絕對的數值 d ，因為我們已從出現次數較多的 n 詞彙字串得到了一個較為穩定. ‧ 國. 學. 出，出現次數介於 2 到 9 的差值較為固定，而我們會對 0 和 1 的 d 值做特別處理。以雙詞彙語言模型模型為例，含補差的絕對折扣法的等式如下： C(wi−1 − d) + λ(wi−1 )P (wi ) C(wi−1 ). ‧. PAbsDiscount (wi | wi−1 ) =. Nat. y. (3.1). sit. 等式的第一項為折扣過後的雙詞彙字串的機率值，第二項則為乘上補差權. er. io. 重 λ 的單詞彙字串的機率值，按上述結果，我們可以直接把 d 值設為 0.75 ，至於. al. iv n C 小節我們就可以在此基礎上介紹衍生的平滑法。 h e nKneser-Ney gchi U n. 出現次數為1的雙詞彙字串折扣 d 值則設為 0.5 ，至此機率值的分配完成，在下一. 3.1.1. Kneser-Ney 平滑法. Kneser-Ney 平滑法[7]是基於絕對則扣法之上擴展而來，其處理低階的單詞彙的機率方式更為細緻，我們已下面例句作為說明，如果我們要為以下句子填入適當的詞，該填入什麼詞較為適當：. • 我習慣騎上學。照一般的常識我們會直觀的填入”腳踏車“這個詞，但是”大壩“這個詞在我們的語料庫中出現的頻率非常高，因為”三峽大壩“是我們語料庫的高頻詞，如果採用的是單詞彙模型，這裡的”大壩“會比”腳踏車“具有更高的機率值，最終模型會預測”大壩“這個詞填入而非”腳踏車“，這個結果顯然並不正確，因為一般的平滑 7.

(17) 方法並沒有考慮到前面的詞為何，在此較為理想的結果是只有在當前一個詞是“三峽”時，“大壩”才會分到一個較高的機率值，因為即便“大壩”在語料庫中出現的頻率非常高，該詞也都是隨者“三峽”一起出現。改進的方法是，我們不使用一般的 p(wi ) 來衡量 wi 這個詞出現的可能性的，而是使用 Pcontinuation 來代替，其含義為將 wi 該詞作為一個新的接續詞的可能性，這裡我們先對接續詞作定義，以上述“三峽大壩”為例，其中的”三峽“稱為『詞首』，而“大壩”則為『詞尾』，而在訓練語料庫中『詞尾』前面所接的不同的詞數稱為『前接詞數』，相對於此，『詞首』前面所接的不同的詞數稱為『後接詞數』，在 Pcontinuation 中，我們要考慮前接詞的影響，也就是說，以單詞彙語言模型做舉例，為了評估 Pcontinuation ，我們要需要考慮使用詞尾 w 來生成不同雙詞彙字串的數量，也就是指當前的詞為 wi 而前接詞 wi−1 不同而生成的雙詞彙字串類型，例如： wi =“相機”，不同的雙詞彙字串類型就可能包括“數位相機”、“底片相. 政治大同考慮雙詞彙模型的機率值，當遇到新的雙詞彙字串時，我們就視為一個新的前立接詞並列入統計。. 機”、“旁軸相機”等等，就其意義而言，如果我們要建構單詞彙語言模型則必須連. ‧ 國. 學. 當前的詞是wi ，例如”相機“，加上前接詞所構成的雙詞彙為 wi−1 wi ，其中 wi−1 為前接詞，而所有 wi−1 wi 構成的集合數量等於前接詞 wi−1 的數量。接著. ‧. 我們將此計數值除上所有的雙詞彙字串類型的數量（以 | (wj−1 , wj ) : C(wj−1 wj ) > 0 |. y. Nat. 表示），就能得到調整過後的 Pconnection (wi ) 機率值，公式如下：. sit. wj. n. al. | wi−1 : C(wi−1 wi ) > 0 | | (wj−1 , wj ) : C(wj−1 wj ) > 0 |. er. io. Pcontinuation (wi ) = P. i Un. v. 也就是所有不同的 (w( i − 1)wi ) 雙詞彙字串的數量就等於出現在單詞 wi 前面的所. Ch. engchi. 有不同的詞 wi−1 的數量，經由此公式調整過後的一個僅出現在“三峽”後面的高頻詞“大壩”就只能獲得一個較低的接續機率，而此接續機率也就是 Kneser-Ney 平滑法的核心概念。補差 Kneser-Ney 平滑法接者我們可以再結合上述所提的絕對折扣法和補插回退法可得出補插 KneserNey 平滑法，也是一般 Kneser-Ney 平滑法所代指的平滑法，我們以二詞彙模型為例，公式如下： max(CKN (wi−n+1 · · · wi ) − d, 0) CKN (wi−n+1 ) · · · wi−1 + λ(wi−n+1···wi−1 )Pcontinuation (wi | wi−n+2 · · · wi−1 ). PKN (wi | wi−n+1 · · · wi−1 ) =. 其中 max(CKN (wi−n+1 · · · wi ) − d, 0) 的用意是要確保最後的計數再減去絕對數值 d 之後不會變為負數。接者，我們將 p(wi ) 替換成上述所提的 Pcontinuation (wi ) ， λ 則 8.

(18) 是一個正規化常數，是用來分配之前從高頻詞的減去的機率值給未出現過的低評詞的機率值用的，乘上 Pcontinuation (wi ) 也就是回退回低階模型的意思。 λ 公式如下： λ(wi−n+1 · · · wi−1 ) =. d CKN (wi−n+1 · · · wi−1 ). · | {w : CKN (wi−n+1···wi−1 w , w) > 0} |. 其中調整後的計數函數 CKN 取決於最高階 n 詞彙（以五詞彙語言模型為例，最高階 n 詞彙即為五詞彙字串）和低階 n 詞彙（非最高階 n 詞彙字串）， CKN 公式如下. ( count(·), 最高階 N 詞彙 CKN (·) = continuation count(·), 非最高階 N 詞彙. 在五詞彙模型中，最高階 n 詞彙採用普通計數，低階 n 詞彙則需使用接續計數，以上為普通 Kneser-Ney 平滑法的介紹。由於 Kneser-Ney 平滑法是一種綜合多種. 政治大傳統 N 詞彙語言模型中最廣泛使用的平滑方法，之後的許多對語言模型效能的立改進都是以 Kneser-Ney 平滑方法為基礎衍生而來，其中效果最好的為 Chen &. 平滑方法所得來的，對於分配機率值的方式較為全面、合理，使得其成為建構. ‧ 國. 學. Goodman (1998) [1]提出的改良式 Kneser-Ney 平滑方法，我們將在下一小節介紹之，該平滑方法也是本篇論文所採用的主要方法。. ‧ sit. y. Nat. 3.1.2 改良式 Kneser-Ney 平滑法. er. io. 改良式 Kneser-Ney 平滑方法的改進在於折扣係數 D(c) 的選擇，在這裡有三個折扣係數 D(1) 、 D(2) 、 D(3) 分別對應到語言模型中出現一次、兩次和三次的字串，將 D 帶入後的改良式 Kneser-Ney 的公式如下：. n. al. Ch. i Un. v. e n g c(w c h1,i· · · , wn) − D(c)). PKN (wN | w1 , · · · , wn−1 ) = P. w. c(w1 , · · · , wn−1 , w). 其中 D(c) 為   0,  D , 1  D2 ,    D3 ,. if c = 0 if c = 1 if c = 2 if c ≥ 3. 而和 D1 、D2 、D3 對應的則扣數值分別為:  N1  D1 = 1 − 2 N1 +2N2 ∗ 1 ∗ D2 = 1 − 3 N1 N +2N2   N1 D3 = 1 − 4 N1 +2N2 ∗. N2 N1 N3 N2 N4 N3. 若D(c) 依照此折扣數值建置語言模型，將有較佳的預測準確度。. 9.

(19) 3.1.3. 改良式語言模型套件 Kenlm. 本篇論文用來建構改良式 Kneser-Ney 語言模型的套件為 Kenlm[4] ，其為 Kenneth Heafield 等，於 2013 年所提出，選用此套件的原因是其為原生實作包含補差的改良式 Kneser-Ney 平滑法套件，其優點為可以使用固定大小的記憶體和各種容量的硬碟去執行資料量巨大的模型，在 Kenneth 的實驗中僅用了 2.8 天、 140GB 的記憶體就建構出包含1260億單詞的語言模型，其處理速度非常的快速，此套件在處理資料量不大的模型效率也有極高的效率，作者用來建構包含 3.02 億個單詞的模型的記憶體用量僅為 SRILM 的 7.7 %，建構時間也僅有 SRILM 的 14 %。此套件在建構語言模型[5]時分為四個步驟：. • 計數(counting) • 調整計數(adjusting count) • 正規化(normalization). 立. 政治大. ‧ 國. 學. • 補差(interpolation). ‧. 以對第 N 階的 N 詞彙語言模型為例，在計數步驟會先統計長度為 N 的字串數. sit. y. Nat. 量，每一句話的開頭會加入 <s> 標籤，句尾則會加入 </s> 作為標籤，句首和句尾的標籤也算為獨立單詞，N 階字串會以雜湊表 (hash table) 的方式存入硬碟，並. er. io. 以64位元的 MurmurHash 方式將單詞標籤存於記憶體，而當記憶體存滿時，則會將計數值也結合到雜湊表中再存轉存入硬碟，如此就能重複利用有限的記憶體。. n. al. i Un. v. 在調整計數步驟，原本的計數 c 將會替換成調整計數 a ，替換方程式如下： ( a(w1n ), if n = N or w1 =< s > | v : c(vw1n ) |, otherwise. Ch. engchi. 調整計數會將語料庫的所有 n 詞彙字串做後序排列，之後再依序計算調整計數。演算法會不斷的比較每個詞的調整計數與原本連續的 N 詞彙字串計數做比對，在決定哪一個計數要作為輸出或增加。同時在此步驟，也會統計平滑方程式所需的計數，對每個長度為 n 的字串，在調整計數 k 屬於[1,4]，演算法會統計 n 詞彙的 tn,k ，而 tn, k 為計算折扣係數 D 之用。正規化的步驟即計算 Kneser-Ney 語言模型的機率值 u 和補差回退係數 b ，最後一步則是將等式中的補差係數加入做遞迴計算，以得出補差過後的最終機率值 P ，當補插回退到一元字串時遞迴將會結束。經由以上四步驟，語言模型即建構完成。. 10.

(20) 3.2. 遞歸神經網絡語言模型（ recurrent neural network language model, RNN LM））. 為採用遞迴神經網路所建構的語言模型，遞迴神經網路是人工神經網路的一種，該種語言模型的建構方式不同於馬可夫假設下的語言模型，每個詞所出現的機率都取決於前面所有的詞，而非僅僅為前 n 個詞， RNN LM 不採用固定長度的上下文，而是用重複連結替代，可以把經過隨意時間長度的資訊重複放到網路中，但困難點就是如果詞跟祠間距離較長的話，用隨機梯度下降法學習詞跟詞間的關係性是比較困難的。 RNN LM 是用來處理具有序列性的資料用的，序列性的資料包括語音（音節的序列）、影片（圖片的序列），與傳統的神經網路不同之處在於，傳統的神經網路中從輸入層到隱藏層再到輸出層，不同層之間是全鏈接的，但是在同一層之間的節點是獨立於彼此的，之間並無鏈接，基於此種特性，並不能使用傳統的神經網路來建構語言模型，因為在預測句子下一個出現的字時，須. 政治大取決於前面出現過的單字，單字與單字間具有相依性存在。而在RNN中，一個序立列當前的輸出與上一時期個輸出也有關性存在，因其會記憶上一個輸出的訊息並. ‧ 國. 學. 用於目前輸出的計算當中，也就是隱藏層之間的節點會相互鏈接，隱藏層除了包括當前輸入層的輸出外還會包括上一時期隱藏層的輸出。隱藏層可以看作是網. ‧. 路的記憶，可以捕捉到之前所有時間的訊息，而輸出層只會取決於當前時期的隱藏層，但隨者時間的推進，隱藏層的權重會隨著循環而產生權重指數級爆炸或消. sit. y. Nat. 失的問題（Vanishing gradient problem），所以可以搭配長短期記憶（Long-Short Term Memory）來解決。. n. al. er. io. 遞迴神經網路包含三個部分: • 輸入層 (input layer, x). Ch. engchi. i Un. v. • 隱藏層 (hidden layer, context layer, s) • 輸出層 (output layer, o) 其公式為：. x(t) = w(t) s(t) = f (U xt + W st1 ) o(t) = g(V st ) x(t) 表示在時間 t 的文字輸入，時間 t 的輸出為 o(t) ， x(t) 是由當前出現的字詞 w(t) 和 t-1 的隱藏層串接得出， o(t) 表示下一個可能出現的字的機率分佈，其中隱藏層的 U, W 和輸出層的 V 皆為權重參數， g 為 softmax fuction ，其目的為保證最後的機率分布是在可用的範圍內，而 f 是一個非線性方程式，可以是基本的對數方程式 (tanh) ，本實驗則採用 LSTM 單元取代。 11.

(21) 我們的實驗模型參數則依照 Zaremba[8]所建議的設定，再訓練的初始時，第一個單詞的隱藏層 s(-1) 是不存在的，我們可設為一個很小的數，像是 0.1 ，本實驗則固定設為 0 ，當要處理的資料量很大的時候，初始值就不是那麼重要，當進入下一個時期時 s(t+1) 是從 s(t) 複製過來的，輸入向量的長度等於訓練集的不重複的詞彙數量，加上隱藏層的大小，本實驗設為 200 ，當訓練資料集愈大，則隱藏層的大小也要愈大。訓練的過程會分為幾個時期，初始的權重都不大，我們訓練的方法是用一般的反向傳播演算法和隨機梯度下降，初始的學習率（learning rate）是 1.0 ，每個時期的學習率直至指定時期前維持不變，在指定時期之後就將學習率減半，然後進入下一個時期，直到最後的機率值收斂為止，本實驗的指定時期設為 4 ，通常要經過 10 至 20 個時期此數值才會進行收斂。每個時期的錯誤向量（error vector）是由交叉熵（cross entropy）所計算得出，錯誤向量則由反向傳播. 政治大去調整網路權重，經過這樣多次的訓練後，就會將網路修正到誤差極小範圍內的立輸出結果。通常反向傳播只會傳到上一個時期（τ = 1）之前，網路的權重只. （backpropagation）做更新，反向傳播的作用是是讓網路利用不同時期的誤差值. ‧ 國. 學. 會根據當前時期的錯誤向量做更新，而這是較為簡易版的反向傳播法，現在普遍的做法是採用跨時期反向傳播（backpropagation through time, BPTT），跨時期. io. al. er. 遞迴神經網路語言模型套件 Tensorflow. n. 3.2.1. sit. Nat. 播就可以在幾個時期中的隱藏層內記住更多的額外資訊，。. y. ‧. 反向傳播可以以看作是一般反向傳播演算法的延伸，錯誤向量會經由重複鏈接（recurrent connections）反向傳播回特定的時期（τ），所以採用跨時期反向傳. Ch. engchi. i Un. v. 我們實作遞迴神經網路語言模型所選用的工具為 Tensorflow. 1. ，其為 Machine. Intelligence research 組織的 Google Brain 團隊所開發的機器學習函式庫，是專門為深度神經網路（deep neural networks）所發展出來的，其為使用數據流圖來達到數值計算的開源函式庫。數據流圖中的節點 (Nodes) 表示的數學運算，而邊（Edges）表示在它們之間傳送的多維數據陣列（或 Tensors ）。此架構在實作上很靈活，選用此系統的原因是可以直接透過他的 API 來實現桌機、伺服器或行動裝置上的部署，不需要透過額外特殊的硬體就可以開發，其所選用的開發程式語言為 Python ，以 Python 作為開發語言具有開發速度快與可讀性強的優點，底層性能相關的程式碼則選用 C++ 與 Cuda ，採用 C++ 使得整體開發效率非常快速，這也是我們選用此套件之原因。 1. https://www.tensorflow.org/. 12.

(22) 3.3. 適用中文文本之改良. 最早的語言模型應用僅適用於英文文本使用，如果要建構以中文為基礎的語言模型則需做一些前置處理，所以在開始之前我們必須要比較一下中文與英文的差異，兩者中最根本的不同為對“詞“的定義。以英文來說，文章是由單詞（word）所構成，文章的最小單位即為單詞，而中文文章的最小單位也是由詞所構成，但是英文中的詞僅為單一一字，在切分下去則為不能表意的字母，但中文詞則不同，單詞中的在切分下去的每個字有很大的衣部分都能代表一個完整的意思，舉例來說，「少子」中的這個詞可且切分為「少」與「子」兩字，兩字都有其意思，所以該如何將中文句子正確切分成能反應作者意思的詞就為重要，舉例來說：「下雨天留客天留我不留」如果將每個字切開單獨來看：. 政治大「下 / 雨 / 天 / 留 / 客 / 天 / 留 / 我 / 不 / 留」立我們可以從上例看出，中文裡的單字雖然有其意思，但並不能完整反映出整句話. ‧ 國. 學. 意思，所以在建構中文語言模型之前，須先處理斷詞問題。. ‧. 3.3.1 斷詞問題. y. Nat. sit. 英文的詞與詞之間是使用空格做為區隔。而中文的詞則不同，中文裡的詞長度並. io. 非固定，詞可由多個字所組成，也可僅為單一一字，同樣的字所組成的詞可表示. n. al. er. 的意思也可能略有差異，所以在處理中文斷詞這部分的工作會比英文困難得多，. i Un. v. 沿用上例，根據不同的斷詞準則我們會得到以下幾種結果：「下雨天 / 留客 / 天留 / 我不留」. Ch. engchi. 「下雨天 / 留客天 / 留我不 / 留」. 因斷詞的不同則有兩種截然不同的意思，所以正確的斷詞可說是建構中文語言模型最重要的前處理工作之一，而因英文字跟字中間有空格作為間隔，所以以空格為準，我們可以很簡單的對英文進行斷詞，以「I love my job」為例，斷詞後的結果為: 「I / love / my / job」斷詞的方式僅此一種，並不會產生歧義，而中文的字則不具有那麼強的獨立性。在做中文斷詞前須有一份中文詞典，所斷的詞以詞典為基準，詞典所涵蓋的詞愈多愈好，為了斷詞的準確性，最好的做法是為文章所屬的類別或特性準備相應的使用者詞典，斷詞的順序會以使用者詞典為優先，採用使用者詞典可提升相同類別或特性的文章斷詞的一致性，藉此斷詞的準確性才能上升。當辭典庫與使用者自定義詞典多到一定的量時，查找詞典就會佔據大量的斷詞時間，為了加速斷詞進程，我們採用的方法是為詞典庫建立一顆專屬的詞典樹（Trie 樹），該樹將存 13.

(23) 有詞典庫中所有的單詞與詞後面所接的另外一詞的機率值。而斷詞的參照方式即將欲斷句子與詞典樹進行比對，再依照詞典樹所記錄的詞將句子切分成所有可能的組合，之後再將所有的組合以有向無環圖（Directed acyclic graph, DAG）表示，最後再依照詞典樹所記錄的機率值大小來計算出最好的斷詞方式。而對於字典庫中未出現的未知詞的處理，將搭配 HMM Viterbi 2 演算法計算出字與字之間可以合成新詞彙的機率值，以免遇到未知詞時被不正確的斷開，藉此斷詞的工作才算完成。. 3.3.2 人工關鍵詞本研究使用人工關鍵詞做為上述輔助斷詞之自定義詞典，人工關鍵詞即為文本擁有者根據文本所提供之內容以及自身的專業背景，判定為對文本分析相對. 政治大. 重要之特定字詞，這些詞彙包含人名、地名等專有名詞，對於提昇斷詞效果以及提昇後續主題詞彙群聚結果有相當的幫助。此外，本研究也利用詞頻統計以. 立. 及 TF-IDF 的方法輔助，修正人工關鍵詞的標記結果。我們擷取出各篇文章中高. ‧ 國. 學. 詞頻以及高 TF-IDF 權重之字詞，並觀察其中是否含有某些不合常理之字詞，再. Nat. io. sit. y. 長字詞加權. er. 3.3.3. ‧. 藉由文本擁有者之專業知識還原其正確的斷詞方式，最終便能獲得符合文本特性之自定義詞典，達到更佳的斷詞結果。. 在處理完中文斷詞之後，我們就可以進行配合中文文本使用上的演算法改進。如. n. al. Ch. i Un. v. 斷詞的部分所述，中文詞與英文詞之間相異的部分在於，中文詞的長度並不固. engchi. 定，一個字到四個字間較為常見，但更多字的詞也有，比如：「蘇維埃聯邦」，就是一個由五個字構成的詞，因為中文所具有的這種特性，所以我們可將詞的長度納入考量。接者我們觀察中文詞的長度與寫作風格間的關係，我們發現當作者所用的長字詞越多，越能反應作者的寫作風格，因為越長的字詞其所能表達的意義越明確，舉例來說「少」字可當形容詞形容數量上較小隻事物，也可當名詞「多」的反意思，也可表示一個人較為年輕，其一詞具有多重意思，而如果和「子」字連用為「少子」，其意思則較為明確一點，但還是具有不只一種意思，可以只他人最小的孩子或是泛指一般年幼的兒子，而如果我們繼續增加字詞的長度，在最後加入「化」成為「少子化」，意思就變成非常明確，就是少生孩子的這種現象，而如果作者反覆使用這種意思明確的詞，我們就越能從文章中找出特定的作者出來。為了實現此一目標，我們首先要對長字詞的長度作定義，也就是對詞的長度設立一門檻值 α ，當詞的字數大於此門檻值時我們就認定為長字詞，之後為了 2. https://en.wikipedia.org/wiki/Viterbi_algorithm. 14.

(24) 凸顯長字詞對文章預測的影響力，我們會將長字詞做加權。以單詞彙語言模型為例，也就是詞發生的機率僅與單一一詞在文章出現的次數有關，通常中文文章裡最常出現的單詞普遍由一字詞或二字詞所組成，所以為了凸顯長字詞的特性，我把門檻設為三字或以上的詞為長字詞，並且以此類推，在二詞彙語言模型中就把門檻值設為四個字，三詞彙語言模型門檻則設為六個字等等，接者我們就能為長字詞的語言模型機率值乘上一個適當的權重 W ，加權後的公式則為： ( Pkn (wn | w1 , · · · , wn−1 ) ∗ W, if word length > α Pkn (wn | w1 , · · · , wn−1 ), if word length ≤ α 對於大於門檻值的字串我們才為之額外乘上一個權重，反之則無。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 15. i Un. v.

(25) 第四章實驗結果與討論政治大文本上的傳統語言模型的改進，以及所選用建構語言模型之工具，本章節我們將立. 前一章節我們介紹了傳統語言模型與遞迴神經網路的差異，還展示了適用於中文. 近一步對兩種方法進行預測準確率比較，之後還會將傳統語言模型與改進結果做. ‧ 國. 學. 對比，希望能證明本論文所提出的方法能在準確度上擁有較好提升。. ‧. 4.1 實驗設定. sit. y. Nat. io. 在實驗的史料文本部分，我們所使用的資料集為自由《中國雜誌》1 ，其為一半月. er. 刊雜誌，由雷震、胡適適、杭立武、張佛泉等人創立，由胡適擔任發行人，主要的編輯是雷震和殷海光。於中華民國發行，其收錄的範圍是 1949 年 11 月 20 日至. al. n. iv n C hengchi U 1960 年 9 月 4 日間共 23 卷又 5 期，內容包含言論自由、地方自治、司法獨立、憲. 法、軍隊等等相關議題以及其主張，為眾多史學專家在研究台灣民主運動所用。. 4.1.1. 實驗流程. 實驗流程如圖4.1，我們首先會對所有文章進行前處理，之後先會將每位作者文章，抽出 10 篇文章作為測試資料集，六位作者總共 60 篇文章，之後再將每位作者不包含社論的所有文章各自依照傳統語言模型的方法、加權後的傳統語言模型與遞迴神經網路語言模型的方法，建構出三組語言模型，最後在對測試集的 60 篇文章分別計算在每位作者的語言模型下所得到的 perplexity 值，藉此來推斷出最有可能的作者，最後會統計預測的準確度，以比較傳統語言模型、遞迴神經網路語言模型與長字詞加權後的傳統語言模型的異同。 1. https://zh.wikipedia.org/wiki/%E8%87%AA%E7%94%B1%E4%B8%AD%E5%9C%8B. 16.

(26) 政治大. 立. ‧ 國. 學. 裾ਁ扃‫ے‬稗. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 4.1: 實驗簡易流程圖本實驗的流程為依照使用者字典斷詞後再建立語言模型，之後依照所有作者的測試文本在個別語言模型中進行 perplexity 數值計算，之後再將選出單篇測試文本在哪位作者的語言模型中獲得最低的perplexity值，以預測出可能的作者。. 17.

(27) 4.1.2. 資料集以及資料前處理. 我們將從自由中國文本中選取文章數較多且具有代表性（創刊人、學術權威等等）的六位作者進行文章預測，所選作者為傅正、夏道平、殷海光、羅鴻、胡適、雷震六位，作者文章數與總單詞數如表4.1。文章數 49 65 82 27 32 91. 傅正夏道平殷海光羅鴻詔胡適雷震. 總單詞數 139776 126087 343807 121367 93293 380471. 表 4.1: 作者文章數與單詞數統計. 政治大. 立. 其中雷震、傅正、殷海光、夏道平這四位作者因其部份文章屬於社論類文. ‧ 國. 學. 章，而社論類文章在撰寫時可能受到編輯的修正與篡改，導致文章用詞可能與原作者的習慣用詞有所出入，所以我們在進行實驗實會將四位作者的文章數予以去除，以反應作者真實的寫作風格，去除後的文章數與總單詞數請參照表4.2。. n. Ch. engchi. y. sit er. io. al. 總單詞數 94839 56376 256314 121367 93293 318438. ‧. Nat. 傅正夏道平殷海光羅鴻詔胡適雷震. 文章數 29 27 55 27 32 62. i Un. v. 表 4.2: 去除社論後作者文章數與單詞數統計. 在前處理部份，我們需與先將每位作者的原始文本做一致的處理。通常在文章中，我們習慣以換行表示分段，但是再將傳統紙本文章轉向數位化保存的時後，會因為傳統紙本欄位長度的關係，所以在文章中超出欄位的每一個句子，作者都會換行繼續寫，但在文章數位化的同時常常會一併將所有的換行符號記錄下來，如圖4.2，以至於數位化後的文章記錄了過多無用的換行符號，而如果用人工判讀的方式找出句子太長的換行或是分段的換行，將會需要非常大量的人工判讀時間，而且也不能做出完全準確的區分，所以在前處理時會將所有換行符號予以移除。在前處理階段我們並不會將標點符號或是停止詞移除，因為這兩項正是反映作者寫作風格的重要指標之一，我們可從作者的一般用詞與各式標點符號或介系詞的連用機率，正確的學出作者的寫作習慣。在處理完所有文章後，我們會將單一作者的所有文章放入個別的文檔之中，每篇文章會以換行符號區隔開來，前處理至此完成，接下來會進入斷詞的部份。 18.

(28) 圖 4.2: 過多的換行符號. 政治大. 換行符號以 \n 表示. 立. 斷詞工具. 學. ‧ 國. 4.1.3. 在斷詞處理部分，我們使用開源斷詞工具─結巴中文分詞(jieba2 )幫助我們進行斷. ‧. 詞的工作，由於結巴最初是以簡體中文開發，在斷詞表現簡體中文較優於繁體中文，但是近期結巴發佈了針對繁體中文的的字典，在使用該字典後繁體中文的斷詞表現已獲得有效提昇。另一方面，我們也透過結巴提供的自定義詞典功能建立. Nat. sit. y. 了使用者字典(即前述使用者辭典)，此字典亦由薛化元教授團隊所提供，該團隊. n. al. er. io. 擁有足夠的歷史相關知識，以及對《自由中國》文本的了解，所提供的字典對於斷詞有相當的幫助。. 4.1.4. 語言模型評估函式. Ch. i Un. engchi. v. Perplexity 是一種衡量自然語言處理領域中，語言模型的好壞的指標。 perplexity 為對於語言模型所估計的一句話出現的概率，其計算方法如下：. 1. P P (S) = P (W1 W2 . . . WN )− N s 1 = N P (Wi | W1 W2 . . . WN ) v uN uY 1 N = t P (Wi | W1 W2 . . . Wi−1 ) i=1. 2. https://github.com/fxsjy/jieba. 19.

(29) 以雙詞彙字串為例，計算方式如下： v uN uY N P P (S) = t i=1. 1 P (wi | wi−1 ). 其中，對於第一個詞，就是使用p(w1 |w0 )，w0 表示句子的起始，是一個占位符。 Perplexity 數值越小越好，相對應的就是，我們預測的句子出現的機率越大越好。 Perplexity 直觀理解 Perplexity 表示的是平均分支系數（average branch factor）。即平均來說，我們預. 政治大字隨機組成的序列。由於這 10 個數字隨機出現，所以每個數字出現的概率是。立也就是在每個點，我們都有 10 個相等機率的候選答案供我們選擇，於是我們測下一個詞時有多少種選擇。舉例而言，對於一個長度為 N ，由 0-9 這 10 個數 1 10. ‧. ‧ 國. 學. 的 perplexity 就為 10（有 10 個可能的答案）。具體計算過程如下： v uN uY 1 N P P (S) = t 1 i=1 10. sit. y. Nat. n. al. er. io. 當我們在看到一個語言模型其 perplexity 是 90 時，我們就可以直觀的理解為，平均情況下這個語言模型預測下一個詞時，其認為有 90 個詞可能地可以作為. i Un. v. 下一個詞的合理選擇，所以當測試資料在訓練集中所得的 perplexity 值越低，該訓練集與測試集就越適合。. Ch. engchi. 20.

(30) 4.2. 實驗結果分析與討論. 在此一節中我們將進行兩組實驗，實驗一為在改良式 Kneser-Ney 語言模型與遞迴神經網路語言模型下，計算 60 篇測試文章在六位作者的語言模型個別所得的 Perplexity 值與對比預測的結果，而第二組實驗則是傳統語言模型對比本論文所提出的長字詞加權語言模型的預測結果，以驗證此方法在準確度是否有所提升。第一組實驗的詳細預測數值與結果會附於附錄表格中，而表格的表示方式為，第一列固定為該篇作者的名子加上文章編號，文章編號僅為實驗記錄所用，並沒有實際上的意義，編號與篇名的對應關係會在下一小節做說明，表格會顯示測試集中的每一篇文章在六位作者中分別所得的 Perplexity 值，每一篇文章的 Perplexity 值在某一位作者的語言模型中的數值為最低時，我們將認為該篇文章為該作者所寫，並且將該值以綠色匡底標起來，在表格的最後，我們會列出每位作者的預測的準確率。. 立. 政治大. ‧ 國. 學. 4.2.1 改良式 Kneser-Ney 語言模型與遞迴神經網路語言模型比較此次實驗所選用的60 篇文本名稱與文章編號如表4.4至表4.9，改良式 Kneser-. ‧. Ney 語言模型的詳細預測結果為附錄表1與附錄表2，我們可以從結果得知傳統語. sit. y. Nat. 言模型預測準確率非常不錯，傅正、殷海光、羅鴻詔與雷震四人的準確度都為 1，即 10 篇文章皆能準確預測出來，而剩下的兩人夏道平與胡適的預測準確度都. io. 高達 0.8 與0.7 ，即 10 篇文章能有 8 篇和 7 篇文章準確判別出作者，其結果相較. n. al. er. 隨機猜測的準確率 61 高出許多，從此結果我們可以得出使用改良式 Kneser-Ney 語言模型對正確的作者預測確實有很大的幫助。. Ch. engchi. i Un. v. 而遞迴神經網路語言模型的詳細預測結果為附錄表3 與附錄表4 ，可以從結果得知遞迴神經網路語言模型的預測準確度較傳統語言模型差一點，準確率為 1 的作者僅有傅正、羅鴻詔兩位，雖然在胡適的預測準確率由 0.7 小幅度提升至 0.8 ，但殷海光的預測準確率卻由 1.0 下降至 0.8 ，雷震的準確率甚至由 1.0 下降至 0.6 ，雖然整體結果稍微較傳統語言模型差一點，但是其結果跟隨機預測的準確率相比仍高上許多，所以還是一樣對於作者預測有很多的幫助。. 21.

(31) 改良式 Kneser-Ney語言模型與遞歸神經網路語言模型預測結果如下表所示：. 傅正夏道平殷海光羅鴻詔胡適雷震. mKN LM 1.0 0.8 1.0 1.0 0.7 1.0. RNN LM 1.0 0.8 0.8 1.0 0.8 0.6. 表 4.3: 改良式 Kneser-Ney 語言模型與遞歸神經網路語言模型作者預測準確率. 立. y. ‧. n. al. sit. 表 4.4: 傅正測試文本. er. io 文本編號 13 23 24 41 50 54 59 6 60 64. 政治大. 學. Nat. 34 39 42 44 45 8. 文本標題個人自由乎？國家自由乎？一個免試升學學校教員對免試升學的意見請政府切實保障人權！地方自治乎？省府官治乎？ ─對省府所擬地方自治法規七種修正草案的總評左舜生先生的答辯請重視海外對總統連任問題的看法海外人士的十二點國是意見關於反共團結運動對本屆地方選舉的檢討從責任政治說到反對黨. ‧ 國. 文本編號 12 21 26 28. i Un. v. 文本標題說給英國人聽美國大選雜感憶烏尤胡適言論集（乙編）吳國楨事件發展中的平議林肯新傳為「被誣衊了的資本主義」一書之被擅刪改，向行政院經濟安定委員會工業委員會抗議論政治責任一九五二年的世局本屆立法院面臨考驗. Ch. engchi. 表 4.5: 夏道平測試文本. 22.

(32) 文本編號 13 22 24 25 43 48 5 7 75 9. 文本標題我憶孟真先生怎樣擊敗俄國科學與社會羅素論權力莫斯科的寒夜美國政治制度相對論─一個較豐富的真理（上）請勿濫用「學術研究」之名自由主義底蘊涵（上）胡適與國運表 4.6: 殷海光測試文本. 政治大. 文本標題作之君作之師？駁斥閻錫山氏的「大同之路」（上）駁斥閻錫山氏的「大同之路」（下）蘇俄與西方知與行之概念的分析論宣傳陽明學說述評（下）史大林對民族主義之苦鬥民族主義之理論的檢討─盧騷與黑格爾兩家思想之比較日本會不會再事侵略？. 立. ‧. ‧ 國. 學. n. al. 文本編號 11 12 13 18 2 27 29 3 30 4. Ch. engchi. er. io. 表 4.7: 羅鴻詔測試文本. sit. y. Nat. 文本編號 14 15 16 20 22 25 27 3 4 8. i Un. v. 文本標題追念吳稚暉先生從「到奴役之路」說起中國古代政治思想史的一個看法丁在君與徐霞客民主與極權的衝突論初唐盛唐還沒有雕板書記美國醫學教育與大學教育的改造者弗勒斯納先生共產黨統治下決沒有自由「容忍與自由」─「自由中國」十週年紀念會上講詞史達林雄圖下的中國表 4.8: 胡適測試文本. 23.

(33) 文本編號 17 27 50 51 52 59 62 70 80 9. 文本標題我們要以工作對付工作現任與現役一字之差（苗栗縣長選舉糾紛）民主政治就是輿論政治貢獻給立法院幾點意見（上）監察院之將來（二）國民大會要走到那裏去？（上）論輿論之本質（上）謹獻對於國防制度之意見學生時代救國活動的回憶八高三年和中京景物（四續）表 4.9: 雷震測試文本. 4.2.2. 政治大. 改良式 Kneser-Ney 語言模型長字詞加權. 立. 在此一小節我們會將改良式 Kneser-Ney 語言模型與長字詞加權過後的改良. ‧ 國. 學. 式 Kneser-Ney 語言模型做比較，為了增加實驗的準確度，我們會分別實做三次實驗，最後將三次實驗取平均值以得出最後的結果，每一次實驗都將在每一位作者. ‧. 的語料庫中抽取不同的 10 篇文章作為測試集，剩餘的文章則為訓練集，長字詞加權的方法則依照第三章所述，總字數超過門檻值時才予以加權，我將加權值統. y. Nat. 一設為 2 倍，其原因在於 2 倍對於預測準確率將有最好的效果，其結果是由上一. sit. 節的傳統語言模型實驗乘上不同的權重所得出的，可參考圖4.3實驗，在 1.3 倍、. n. al. er. io. 1.6 倍和 2.5 倍加權後的結果雖然在胡適的預測準確度高於加權前，但是在夏道平的結果卻都低於加權前，唯有 2 倍權值對胡適的預測準確度有提升而夏道平的準. Ch. i Un. v. 確度沒有下降，經由此結果我選用 2 倍權值作為長字詞加權的權重。而門檻職則. engchi. 依照第三章所述，以大於兩字的詞才認定為長字詞。預測結果表格的左邊表示一般改良式 Kneser-Ney 語言模型預測的結果，以 mKN LM 表示，表格的右邊則表示加權過後的改良式 Kneser-Ney 語言模型預測的結果，以 mKN LM(weighted) 表示。. 24.

(34) 圖 4.3: 長字詞的權重與預測準確度. 學 ‧. ‧ 國. 立. 政治大. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 4.4: 長字詞的加權後示意圖以雷震的部分語言模型為例，左邊的模型為加權前，右邊為加權後，模型的第一列為取對數後的機率值，第三列為回退係數，可以從圖示看到加權後的長字詞如「官僚政治」、「急轉直下」、「中國共產黨」等的機率值都有所提升. 25.

(35) mKN LM 1.0 0.8 1.0 1.0 0.7 1.0. 傅正夏道平殷海光羅鴻詔胡適雷震. mKN LM (weighted) 1.0 0.8 1.0 1.0 0.8 1.0. 表 4.10: 長字詞加權作者預測準確率實驗一. 實驗一所選用的測試集同表4.3至表4.8，從實驗一可得知，六位作者中有五位的預測準確率並沒有提升，但是胡適先生文本預測準確率從 0.7 提升至 0.8 ，也就是說在長字詞加權後語言模型中，胡適的 10 篇測試文章的預測中的篇數由 7 篇提升至 8 篇，雖然另外五位作者在最後的準確度上沒有上升，但是由預測錯誤. 政治大. 的那幾篇文章中觀察，應該是正確文章的 perplexity 的數值卻更往預測錯誤的文章的 perplexity 數值靠近，詳細的預測結果可參考附錄表1、2、5、6，附錄1、2為. 立. ‧ 國. 學. 傳統的改良式 kneser-Ney 語言模型預測結果，附錄5、6為長字詞加權過後的改良式 Kneser-Ney 語言模型預測結果。. y. sit. er. io. al. mKN LM (weighted) 1.0 1.0 0.9 1.0 1.0 0.9. ‧. Nat. 傅正夏道平殷海光羅鴻詔胡適雷震. mKN LM 1.0 1.0 0.9 1.0 0.7 0.9. n. iv n C 表 4.11: 長字詞加權作者預測準確率實驗二 hengchi U 實驗二的結果與實驗一相似，六位作者中的五位作者預測準確度並沒有提升，但是在胡適的準確度上從 0.7 提升至 0.9 ，就單一一位作者而言這種幅度的提升是非常長顯著的。. 傅正夏道平殷海光羅鴻詔胡適雷震. mKN LM 0.88 1.0 1.0 1.0 0.9 0.7. mKN LM (weighted) 0.88 1.0 1.0 1.0 0.9 0.9. 表 4.12: 長字詞加權作者預測準確率實驗三. 26.

(36) 實驗三在設定上有別於實驗一與實驗二，因為作者傅正、夏道平與羅鴻詔去除社論後的文章數以後三位作者剩下的文章篇數為 29 篇、 27 篇與 27 篇，再分別扣除實驗一與實驗二的文章數後，分別只剩下 9 篇與 7 篇可用來作為測試資料集，所以在最後的準確度表現上，我們會用到小數點第二位來表現。而在預測準確度上也與實驗一結果類似，僅有雷震一位作者在準確度上有所上升，其中比較有趣的一點在於，雷震的訓練文本的六位作者中最多的，我們預期雷震的準確率始終是最高的，可是實驗三的結果雷震的準確率反而是最低的，其原因經由專家解釋，可能是因為雷震身為主編輯的關係導致他可能會將其他作者的文章做些用詞上的修改，因為這個原因導致其他作者的文章用詞與雷震本人相仿，以至於他自身的文章預測準確度降低。. 小結. 政治大 mKN LM mKN LM (weighted) 立 0.96 0.96. 傅正夏道平殷海光羅鴻詔胡適雷震. ‧. ‧ 國. 0.93 0.97 1.0 0.9 0.93. 學. 0.93 0.97 1.0 0.77 0.87. al. er. io. sit. y. Nat. 表 4.13: 長字詞加權平均作者預測準確率. n. 雖然在第一組實驗中，遞迴神經網路語言模型相比於傳統神經網路語言模型在預. Ch. i Un. v. 測準確度上並沒有如預期般的超越，但這也提供了之後實驗所改進的方向。而在. engchi. 第二組實驗的三次小實驗中，平均結果如表4.13所列，我們可以從結果得知，相較於一般改良式 Kneser-Ney 語言模型，在加入長字詞權重的後，在預測準確度較低的兩位作者上面的確是有顯著的提升，平均準確度甚至提升至 0.9 以上，也就是接近全部預測準確，對於實驗的結果，改進的幅度可說是非常理想。. 27.

(37) 第五章結論政治大. 本研究基於效能優異的改良式 Kneser-Ney 語言模型之基礎上，增加了針對中文史料文本上的改進，我們使用中文長字詞意思較為明確的特性，以更能準確的反映. 立. 作者的寫作風格，而在斷詞的部分，我們利用 Jieba 分詞的繁體中文詞庫以及歷史. ‧ 國. 學. 文本相關領域的專家定義的人工關鍵詞典解決了中文的斷詞問題，在實驗的驗證上，我們利用機率模型中的困惑度（perplexity）作為確定預測作者的工具。. ‧. y. Nat. 在實驗中我們將長字詞加權後的改良式 Kneser-Ney 語言模型與一般改良式 Kneser-Ney 語言模型做比較，結果顯示加入長字詞權重的結果對於預測準確度. sit. 的提升確實有很大的幫助，除此之外我們還加入了遞迴神經網路語言模型的預測. n. al. er. io. 結果作為對比，以增加實驗內容的豐富程度。. i Un. v. 語言模型最初的應用距今已好幾十年，期間對於準確度方面的改進，大多聚焦於平滑方法（smoothing）之上，但是現有的改進方法並沒有多少是專門針對中. Ch. engchi. 文文本做特化處理的，而本論文以當今效能最好的改良式 Kneser-Ney 平滑法為基底，以中文史料文本的長字詞特性作為突破口，以作者預測準確度的提升作為收場，這樣的結果對於以後的中文語言模型的發展應用上起到些許的貢獻。之後的研究目標會著重於非歷史文本的不同類型的中文文本之應用，以其確定本論文所提的方法能適用於絕大多數的中文文本。又或調整長字詞的門檻或是嘗試不同加權的權重，以得出更好的預測結果，以期使中文語言模型相關的應用效能都能獲得提升。. 28.

(38) 參考文獻 [1] S. F. Chen and J. Goodman. An empirical study of smoothing techniques for language modeling. In Proceedings of the 34th annual meeting on Association for Computational Linguistics, pages 310–318. Association for Computational Linguistics, 1996.. 政治大 estimation methods for estimating probabilities of english bigrams. Computer Speech 立 & Language, 5(1):19–54, 1991.. [2] K. W. Church and W. A. Gale. A comparison of the enhanced good-turing and deleted. ‧ 國. 學. [3] I. J. Good. The population frequencies of species and the estimation of population parameters. Biometrika, 40(3-4):237–264, 1953.. ‧. [4] K. Heafield. Kenlm: Faster and smaller language model queries. In Proceedings of. y. Nat. the Sixth Workshop on Statistical Machine Translation, pages 187–197. Association. er. io. sit. for Computational Linguistics, 2011.. [5] K. Heafield, I. Pouzyrevsky, J. H. Clark, and P. Koehn. Scalable modified kneser-ney. n. al. i Un. v. language model estimation. In ACL (2), pages 690–696, 2013.. Ch. engchi. [6] S. M. Katz. Estimation of probabilities from sparse data for the language model component of a speech recogniser. IEEE Int. Conf. Acoust, Speech and Signal Processing, 35(3):400–401, 1987. [7] R. Kneser and H. Ney. Improved backing-off for m-gram language modeling. In Acoustics, Speech, and Signal Processing, 1995. ICASSP-95., 1995 International Conference on, volume 1, pages 181–184. IEEE, 1995. [8] W. Zaremba, I. Sutskever, and O. Vinyals. Recurrent neural network regularization. arXiv preprint arXiv:1409.2329, 2014.. 29.

(39) 附錄夏道平. 殷海光. 羅鴻詔. 胡適. 雷震. 416.742 1596.287 928.820 830.829 650.458 299.431 779.431 500.462 691.621 442.544 1024.157 1114.863 2300.157 841.186 1099.360 1360.627 1611.046 939.730 1304.336 1021.981 1472.237 1500.679 1373.271 1420.441 2941.246 909.505 1227.796 1161.458 1457.465 1315.108. 548.036 1707.533 1202.337 1605.271 1031.231 1062.706 1522.800 844.760 1290.993 1105.504 767.529 763.422 1542.219 555.094 939.245 901.802 1486.219 711.592 761.158 992.488 1116.890 1311.802 1208.565 1329.783 2136.631 981.855 1155.852 1025.949 1315.064 1100.379. 459.175 2716.934 1738.299 2064.148 1281.854 1322.416 2034.410 877.526 1583.494 1328.252 964.258 1124.986 3070.179 836.364 1460.098 1320.592 2149.966 1122.155 1196.973 1754.351 822.026 767.898 563.038 772.096 934.112 587.809 619.481 495.772 516.119 691.777. 493.591 2564.663 1777.861 2071.410 1640.045 1734.168 2383.254 1056.129 1559.123 1118.726 1098.513 1248.390 2826.708 1028.865 1538.978 1517.165 2101.345 1105.696 1375.689 1598.146 1643.959 1546.852 1286.015 1401.437 1739.400 1209.787 1236.659 1545.266 1357.947 1379.066. 747.485 1988.059 1407.632 1728.148 1027.192 1088.789 1572.694 1039.486 1508.396 1261.613 963.937 1004.061 1868.216 489.233 1221.318 1011.281 1491.233 1041.463 1212.362 1356.082 1237.403 1309.289 1296.428 1610.058 2714.357 1008.214 1203.194 1086.391 1451.365 1157.964. 530.464 2203.194 1123.893 979.368 964.358 854.053 1315.278 655.729 1099.203 677.489 929.030 1231.118 3464.410 692.413 1021.252 1370.584 1870.158 862.567 1236.326 803.481 1622.903 1449.889 1294.857 1502.381 1957.037 992.234 1241.822 1333.339 1441.193 1410.057. engchi. y. sit. er. n. Ch. ‧. io. al. 政治大. 學. ‧ 國. 立. Nat. 傅正12 傅正21 傅正26 傅正28 傅正34 傅正39 傅正42 傅正44 傅正45 傅正8 夏道平13 夏道平23 夏道平24 夏道平41 夏道平50 夏道平54 夏道平59 夏道平6 夏道平60 夏道平64 殷海光13 殷海光22 殷海光24 殷海光25 殷海光43 殷海光48 殷海光5 殷海光7 殷海光75 殷海光9. 傅正. i Un. v. 表 1: 改良式 Kneser-Ney 語言模型之文章作者預測結果. 30.

(40) 夏道平. 殷海光. 羅鴻詔. 胡適. 雷震. 1527.110 1204.441 1297.221 1498.735 1532.944 1212.868 1594.818 1375.219 1175.941 1639.070 1361.923 908.505 1170.591 2160.666 835.138 2017.250 1919.669 1114.886 778.134 2880.035 1559.555 1100.189 874.650 1388.119 934.972 1085.410 1141.524 2009.347 4967.100 2392.627 1.0. 1244.422 1008.675 1052.889 1383.881 1503.810 1071.334 1381.021 1207.295 1126.734 1476.847 1014.752 694.348 904.951 1653.887 876.739 1846.629 1474.158 878.459 624.505 2217.105 1811.438 1089.250 979.777 1651.530 1165.980 965.443 1510.412 1668.852 3950.253 1897.176 0.8. 1635.524 1097.099 1277.869 1337.498 1682.676 1283.715 1767.367 1152.488 1042.917 1937.831 1495.268 749.655 1129.932 3090.990 620.022 3427.845 2062.145 986.912 593.423 2073.620 2903.136 1105.185 1402.728 2215.701 1483.640 1113.381 2121.562 2567.230 3050.143 3025.428 1.0. 804.424 724.450 796.121 809.493 910.000 667.471 601.977 793.893 543.607 1195.060 2419.734 2568.403 2396.810 1679.660 2204.442 1178.611 2355.480 1304.697 1856.712 1617.130 2056.982 1122.686 1303.706 1806.127 1497.927 1055.971 1693.512 2359.407 2222.136 2468.900 1.0. 1495.186 1227.802 1259.615 1639.961 1682.507 1373.417 1674.692 1315.414 1405.726 1609.144 811.340 567.055 810.793 1337.352 839.582 1515.421 1052.256 660.084 401.961 1932.940 2222.188 1296.272 1139.276 1850.552 1196.753 1163.049 1708.315 1643.327 4578.713 2020.008 0.7. 1449.736 1015.397 1168.117 1241.483 1518.255 1004.027 1747.560 1137.918 1051.812 1493.702 1428.506 770.017 1223.888 3093.825 725.423 3088.475 2128.838 1298.132 596.761 1848.584 1266.171 518.190 361.138 472.846 414.259 454.066 784.896 1443.353 1620.986 1895.502 1.0. engchi. y. sit er. n. Ch. ‧. io. al. 政治大. 學. ‧ 國. 立. Nat. 羅鴻詔14 羅鴻詔15 羅鴻詔16 羅鴻詔20 羅鴻詔22 羅鴻詔25 羅鴻詔27 羅鴻詔3 羅鴻詔4 羅鴻詔8 胡適11 胡適12 胡適13 胡適18 胡適2 胡適27 胡適29 胡適3 胡適30 胡適4 雷震17 雷震27 雷震50 雷震51 雷震52 雷震59 雷震62 雷震70 雷震80 雷震9 準確率. 傅正. i Un. v. 表 2: 改良式 Kneser-Ney 語言模型之文章作者預測結果. 31.

(41) 夏道平. 殷海光. 羅鴻詔. 胡適. 雷震. 544.149 603.207 437.191 366.454 486.05 475.675 733.322 696.237 872.034 593.593 1004.617 1217.452 1264.066 1024.7 1358.053 375.587 936.961 994.656 851.973 1072.722 1034.921 1071.698 1532.925 1374.262 903.317 997.558 1094.186 4764.251 821.233 801.122. 769.071 1002.921 698.206 815.21 807.036 1202.36 1025.916 907.444 1143.478 870.827 583.644 848.976 743.648 647.391 802.733 509.798 479.395 519.193 535.437 728.631 791.273 791.264 1024.3 1090.614 749.664 815.383 1133.309 2636.986 713.533 607.767. 1278.999 1727.272 1346.639 1513.661 1218.016 2060.481 1558.832 2090.666 2087.811 1046.922 981.813 1694.833 1333.436 1042.314 1574.512 1073.25 743.256 881.611 1258.741 1507.261 592.193 550.762 967.46 667.279 371.241 788.314 431.678 706.178 391.703 522.935. 1101.665 951.972 916.62 809.679 703.826 1065.373 1107.658 1087.166 1171.045 1015.396 734.073 1216.187 1077.243 816.346 933.602 899.76 692.885 1112.428 893.936 1016.895 1061.166 891.934 920.509 988.778 837.384 857.624 997.792 1289.493 766.765 747.329. 983.656 1088.982 784.764 845.417 891.943 1210.702 1119.209 1135.696 1101.791 724.631 621.656 1123.609 930.992 678.707 917.574 901.927 630.898 684.344 907.867 930.318 855.913 828.842 925.321 1144.728 882.13 729.174 1093.179 2048.346 702.148 703.943. 886 722.56 1073.951 520.444 666.812 546.301 1387.331 1132.277 1538.284 1042.736 904.142 643.389 977.818 1087.196 1325.699 348.598 738.485 590.946 908.224 1167.307 978.33 952.065 1590.929 1315.343 715.528 1102.542 1140.368 2366.491 798.338 662.756. engchi. y. sit. er. n. Ch. ‧. io. al. 政治大. 學. ‧ 國. 立. Nat. 傅正12 傅正21 傅正26 傅正28 傅正34 傅正39 傅正42 傅正44 傅正45 傅正8 夏道平13 夏道平23 夏道平24 夏道平41 夏道平50 夏道平54 夏道平59 夏道平6 夏道平60 夏道平64 殷海光13 殷海光22 殷海光24 殷海光25 殷海光43 殷海光48 殷海光5 殷海光7 殷海光75 殷海光9. 傅正. i Un. v. 表 3: 遞迴神經網路語言模型之文章作者預測結果. 32.