• 沒有找到結果。

適用於中文史料文本之標記式主題模型分析方法研究 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "適用於中文史料文本之標記式主題模型分析方法研究 - 政大學術集成"

Copied!
45
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政 治 大. ‧ 國. 學. 適用於中文史料文本之標記式主題模型分析. ‧. 方法研究. Nat. io. sit. y. An Enhanced Topic Model Based on Labeled er. n. LDA for Chinese Historical Corpora a iv l C n hengchi U. 研 究 生:陳奕安 指導教授:蔡銘峰. 中華民國 一百零五 年 十一 月 November 2016.

(2) 105. 碩 士 論 文. 立. 政 治 大. ‧. ‧ 國. 學. n. al. er. io. sit. y. Nat. 適 用 於 中 文 史 料 文 本 之 標 記 式 主 題 模 型 分 析 方 法 研 究. 政 治 大 學 資 訊 科 學 系. 陳 奕 安. Ch. engchi. i Un. v.

(3) 適用於中文史料文本之標記式主題模型分析方法研究 An Enhanced Topic Model Based on Labeled LDA for Chinese Historical Corpora 研 究 生:陳奕安 指導教授:蔡銘峰. Student:Yi-An Chen Advisor:Ming-Feng Tsai. 國立政治大學 資訊科學系. 立. 治 政 碩士論文 大. ‧ 國. 學 ‧. A Thesis. er. io. sit. y. Nat. submitted to Department of Computer Science National Chengchi University in partial fulfillment of the Requirements. n. a l for the degree of i v n C h Master U engchi in Computer Science. 中華民國 一百零五 年 十一 月 November 2016.

(4) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v.

(5) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v.

(6) 致謝. 回想起來,在研究所期間學到的東西真的是不少,無論是修課、 當助教、接計畫,其中許多東西都是過去未曾接觸過的,對我來說真 的是一大挑戰,感謝蔡銘峰老師當初收我進實驗室,我才能夠經歷這. 政 治 大. 麼多。銘峰老師用心經營的實驗室環境,讓我們總能夠在忙碌的課程 或者寫程式之餘享受悠閒的午後,碩一時幾乎所有同學都驚呼實驗室. 立. 的開放空間以及木質地板。除此之外銘峰老師在學習方面也幫助我很. ‧ 國. 學. 多,由於在學期間老師緊迫盯人的防守,無論是自己的課業或是計畫 上的進度都讓人不敢馬虎。感謝數位人文計畫的所有成員,這兩年多 所給予的幫助對我來說都十分重要,除此之外也要感謝實驗室的學. ‧. 長、學弟們,有你們在真的讓實驗室生活精采不少,特別要感謝劉. y. Nat. 澤,感謝你在碩一的時候陪我度過無數的夜晚?痾我是指走回宿舍,. sit. al. er. io. 對於許多事情也給我有用的建議,也要感謝禔多以及哲立,感謝三位 大大 Carry 當初助教修課兩頭燒的小碩一,當然你們三個湊一起時的. n. 屁話連發也著實令人懷念。感謝雅琪在我論文忙碌以及低潮之時的陪. Ch. i Un. v. 伴,以及最後實驗統計檢定部分的強大支援,謝謝妳的心意。還有要. engchi. 感謝我的摯友 Justin H. ,感謝你在口試前一晚提供食宿,滷白菜超好 吃的。最後我要感謝我的家人、朋友,你們的不嫌棄還有言語的砥 礪,像是「你今天寫了幾個字?」,都激勵著我,才讓這篇論文能夠 順利完成,謝謝各位,感恩!. 陳奕安 國立政治大學資訊科學系 November 2016. 3.

(7) 適用於中文史料文本之標記式主題模型分析方法研究. 中文摘要 本論文提出了一個適用於中文史料文本主題分析方法,主要是根據 標記式隱含狄利克雷分布(Labeled Latent Dirichlet Allocation,LLDA) 演算法,使其可以透過人工標記的中文文本找出特定主題的相關詞 彙。在我們提出的演算法中,我們加上主題種子字詞(Seed Words) 資訊,以增強 LDA 群聚過後的結果,使群聚過後的詞彙與主題的關 聯度能夠獲得提昇。近年來,隨著網際網路的普及以及資訊檢索的蓬 勃發展,同時由於數位典藏的資料成長,越來越多的實體書藉被編輯. 政 治 大. 成數位版本並且加上後設資料(Metadata),在取得這些富有價值的 歷史文本資料後,如何利用文字探勘技術(Text Mining)在這些資料. 立. ‧ 國. 學. 上變成一項重要的研究議題。其中,如何從大量文本史料中辨識出文 章主題更是許多學者感興趣的方向,而 LDA 主題模型則是在文字探 勘領域中非常經典的方法。在此研究中我們發現傳統 LDA 對於群聚 後的主題描述存在些許問題,包括主題類別的高隨機性以及個別主題. ‧. 的低易讀性,使得後續的解讀工作變得十分困難,因此我們採用了 由 LDA 衍生出的標記式主題模型 Labeled LDA 演算法,限定能夠產生. Nat. sit. y. 的主題類別以降低期隨機性,此外我們還加入了考量中文字詞的長度. io. 以及自定義的相關種子字詞等改進,使群聚出的主題詞彙能夠與主題. er. 更加相關,更加容易描述。實驗部分,我們利用改良後的演算法提取 出主題詞彙,並進行人工標記,接著將標記的結果作為正確解答來計. al. n. iv n C h e Precision,MAP)等資訊檢索之評估 算平均準度均值(Mean Average ngchi U. 方法作為評估,結果證實以長字詞以及種子字詞為考量所群聚出的結 果皆優於傳統主題模型所群聚出的結果;此外,我們也將最終的結果 與 TF-IDF 權重計算後的字詞進行比較,並由實驗結果可見其兩者之間 的差異性。. 4.

(8) An Enhanced Topic Model Based on Labeled LDA for Chinese Historical Corpora. Abstract This paper proposes an enhanced topic model based on Labeled Latent Dirichlet Allocation (LLDA) for Chinese historical corpora to discover words related to specific topics. To enhance the traditional LDA performance and to increase the readability of its clustered words, we attempt to use the information of seed words and the Chinese word length into the traditional LDA algorithm. In this study, we find that the traditional LDA exists some problems about topic descriptions after clustering. We therefore apply the Labeled LDA algorithm, which is derived from traditional LDA, with the proposed improvements of considering the lengths of the words and related seed words. In our experiments, Mean Average Precision (MAP) is used to evaluate our experiment results based on the topics words labeled manually by historical experts. The experimental results shows that the proposed method of considering both Chinese word length information and seed words is better than the traditional LDA method. In addition, we compare the proposed results with the TF-IDF weighting scheme, and the proposed method also outperforms the TF-IDF method significantly.. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 5. i Un. v.

(9) 目錄 口試委員會審定書(中文). 1. 口試委員會審定書(英文). 2. 致謝. 3. n. engchi. 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. y. ‧ 國. io. Ch. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ‧. Nat. al. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 學. Abstract 第一章 緒論 . . . . . . . . . . . . . . . . . . . . . . . 1.1 前言 . . . . . . . . . . . . . . . . . . . . . . 1.2 傳統主題模型與其限制 . . . . . . . . . . . 1.3 研究目的 . . . . . . . . . . . . . . . . . . . 第二章 相關文獻探討 . . . . . . . . . . . . . . . . . . 2.1 主題模型之應用 . . . . . . . . . . . . . . . 2.2 適用於已附標記之文本 . . . . . . . . . . . 2.3 英文中的長字詞 . . . . . . . . . . . . . . . 第三章 研究方法. . . . . . . . . . . . . . . . . . . . . 3.1 傳統主題模型簡介 . . . . . . . . . . . . . . 3.2 隱含狄利克雷分布 LDA . . . . . . . . . . 3.3 標記式 LDA . . . . . . . . . . . . . . . . . 3.4 適用中文文本之改良 . . . . . . . . . . . . 3.4.1 斷詞問題 . . . . . . . . . . . . . . . 3.4.2 長字詞優先 . . . . . . . . . . . . . 3.4.3 加入已知資訊 . . . . . . . . . . . . 第四章 實驗結果與討論 . . . . . . . . . . . . . . . . 4.1 實驗設定 . . . . . . . . . . . . . . . . . . . 4.1.1 資料集以及資料前處理 . . . . . . . 4.1.2 斷詞工具 . . . . . . . . . . . . . . . 4.1.3 量化評估標準 . . . . . . . . . . . . 4.2 實驗結果分析與討論 . . . . . . . . . . . . 4.2.1 長字詞優先 . . . . . . . . . . . . . 4.2.2 考量種子字詞 . . . . . . . . . . . . 4.2.3 與傳統關鍵字提取方法比較 . . . . 4.3 小結 . . . . . . . . . . . . . . . . . . . . . . 第五章 結論 . . . . . . . . . . . . . . . . . . . . . . . 參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. sit. 立. 政 治 大. er. 中文摘要. i Un. v. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5 1 1 1 2 4 4 5 5 7 7 8 11 13 13 14 15 17 17 17 19 19 23 23 24 28 29 30 32.

(10) 圖目錄 圖 3.1 主題於文章內文分布示意圖 [3] . . . . . . . . . . . . . . . . . . . . 圖 3.2 LDA 模型圖形表示法(plate notation) . . . . . . . . . . . . . . . 實驗簡易流程圖 . . . . . . . . 文本檢索系統 . . . . . . . . . . 演算法前參數 η 之敏感度測試 評量結果比較圖 . . . . . . . .. 立. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 政 治 大. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 學 ‧. ‧ 國 io. sit. y. Nat. n. al. er. 圖 4.1 圖 4.2 圖 4.3 圖 4.4. Ch. engchi. 7. i Un. v. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 10 11 17 19 23 26.

(11) 表目錄 表 3.1 演算法及公式之符號表示 . . . . . . . . . . . . . . . . . . . . . . .. 9. 表 4.1 原始文本與附標記文本之統計資料 . . . . . . . . . . . . . . . . . . 表 4.2 主題標記之名稱及主題詞彙整理 . . . . . . . . . . . . . . . . . . . 表 4.3 主題詞彙結果比較。此表擷取主題二、三、十二、十六,分別 代表「自由民主的基本概念」、「法治」、「在野黨」以及「軍 隊」,每個主題顯示排序前 15 的主題詞彙,其中,粗 粗 體 字 表示更 改演算法後新出現三字詞(含)以上的詞彙。 . . . . . . . . . . . . . 表 4.4 主題模型對個主題之平均準確度(Average Precision @50) . . . . 表 4.5 主題模型對個主題之平均準確度之二(Average Precision @50) . 表 4.6 傳統關鍵字提取方法與主題模型之平均準確度比較(AP@50) . . 表 4.7 各組實驗與演算法之平均準度均值(Mean Average Precision) . .. 18 22. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 8. i Un. v. 24 25 27 28 29.

(12) 第一章 緒論. 1.1. 前言. 立. 政 治 大. ‧ 國. 學. 隨著大數據時代的來臨,有越來越多的實體文本被轉為數位版本的形式儲存。在 擁有大量的文本資料之後,人們便能透過資料科學(Data Science)等技術進行文 本分析,並希望能夠從中得出真正有用的資訊,比如文章脈絡、趨勢,以及一些 透過人工閱讀難以發現的特性,而主題模型(Topic Modeling)的出現對於這項. ‧. 工作則有顯著的幫助。在機器學習(Machine Learning)與自然語言處理(Natural Language Processing)等相關領域裡,主題模型是一種統計模型,被用於挖掘系. Nat. sit. y. 列文本中所隱含的抽象主題,此概念最早始於1998年,但其真正被廣泛應用則是. er. io. 於 Latent Dirichlet Allocation (LDA) 演算法 [4] 被提出之後。. n. al. ni C h限制 U 1.2 傳 統 主 題 模型 與 其 engchi. v. LDA 屬於典型的詞袋模型(Bag-of-words Model),詞袋模型是資訊檢索領域中 一種最基本的文件資料表示法。其將文件中出現的詞彙,想像是放在袋子裡零散 而獨立的物件,如此一個袋子代表一篇文件1 。LDA 將文章視為一組詞彙所集結 而成的一個集合,詞彙與詞彙之間並無順序以及先後關連。 LDA 演算法可以將文 章以多個主題的機率分布來表示,而每個主題又以詞彙的機率分布來表示,再藉 由所群聚出的主題詞彙,人們便可以解釋這些主題,例如:演算法產生出主題詞 彙「太陽能、核電廠、火力發電、污染」,可以解讀該主題可能為「能源與環境 污染」概念之主題。 在 LDA 演算法出現之後,此演算法改變了傳統文章的表示形式,有許多的後 續應用在之後被提出,然而,傳統 LDA 演算法仍有以下限制與缺點: 1. http://terms.naer.edu.tw/detail/1679006/. 1.

(13) 1) 無 法適 用 於 附 含標 記 之 文 本 由於 LDA 演算法屬於無監督式學習(Unsupervised Learning),無監督式學 習是一種機器學習的方式,此學習方式在訓練模型時不需人力來輸入標籤, 為監督式學習(Supervised Learning)和強化學習(Reinforcement Learning) 等策略之外的一種選擇 [8]。因此,使用 LDA 時只需要將全文輸入便能得到 其主題分布的結果,對於擁有文本但對其文本一無所知的使用者相當方便, 但對於熟悉該文本的使用者,或者擁有附含主題標記之文本的使用者而言, 他們已知部分文章隸屬於某些主題,對於演算法來說這是相當有用的資訊, 但在傳統 LDA 演算法裡,這些資訊將無法納入考量; 2) 產生主 題 隨 機性 不一 LDA 演算法所產生的主題具有隨機性,每次聚出的主題種類與主題詞彙略 有不同,也約略影響了每次群聚出的主題分布,將造成使用者對主題種類判 別的困難;. 立. 3) 主 題 詞 彙 難以 解 釋. 政 治 大. ‧ 國. 學. 由於 LDA 屬於詞袋模型(Bag-of-words Model),其所產生的主題詞彙是零 碎且不連續的,對於不熟悉文本或非該文本領域專業人士而言,欲解讀這些 詞彙之集合所代表的意義將十分的困難。. ‧. y. Nat. 對於這些問題,近年來也陸續有學者提出改善的方法,Ramage 等人提出. sit. 了 Labeled-LDA (2009) [13] 讓傳統 LDA 演算法可以加上已標記的資訊,Wang 與 Robert 等. er. io. 人先後提出了 Topical N-grams (TNG, 2007) [16] 與 Phrase-Discovering LDA (PDLDA, 2012) [11] 欲改善主題詞彙難以解釋之問題,詳細的介紹將於下一個章節做解釋。. n. al. 1.3. Ch. 研究目的. engchi. i Un. v. 本研究欲將 LDA 演算法套用於中文文本之中,上述 LDA 演算法所發現的問題, 同樣發生於於中文文本之中,而本研究亦提出了一些方法加以改良,以下為主要 之研究目的: 1) 將 LDA 適用 於 附 含 標 記之 文 本 之中 在本研究中,我們試圖將 LDA 演算法應用於一已附標記之中文文本,欲藉 由其所群聚出的主題詞彙找出不同於已知主題,額外的表示詞彙。除此之 外,我們希望藉由標記資料中的已知資訊來強化主題群聚之結果,在標記資 料之中,某些字詞屬於已知主題當中的已知詞彙,這些字詞透過人工標記, 已經確定與所屬主題有一定關聯性,我們稱之為種子字詞,我們希望能夠將 這些詞彙納入演算法之考量。 2.

(14) 2) 針 對中 文文 本 進行 演 算 法 之改 良 如上所述我們欲將 LDA 演算法應用置中文文本之中,在本研究我們欲針對 中文文本進行改良,我們由中文文本的斷詞問題發現一些特性,由於在中文 領域裡一個「字」並不能完整的表達一個意思,一般認為「詞」才是最簡小 有意義的一個單位,而其中長字詞更能夠明確的表達特定詞意,故本研究將 詞的長度也納入生成主題詞彙之考量因素。 3) 強 化 主 題 群聚 結 果 以 及 增進 其 易 讀 性 最後,藉由以上的改良方法,我們希望能夠改善傳統 LDA 演算法主題群聚 之隨機性,降低主題群聚詞彙過於零散的問題,同時我們希望可以增進群聚 詞彙結果之易讀性,使得群聚的結果更加容易描述。. 總結來說,本研究之研究目的亦在於突破與改良上述傳統 LDA 演算法的的限 制與缺點,並且將其套用於中文文本史料中,基於傳統的 Labeled-LDA 演算法,. 政 治 大 開發出專用於中文文本,同時考量長字詞、種子字詞等混合方法的主題模型(稱 立. 為增強 LDA ),並預期能夠找出較佳的詞彙表示該主題,使各主題分類更明確易. ‧. ‧ 國. 學. io. sit. y. Nat. n. al. er. 讀。. Ch. engchi. 3. i Un. v.

(15) 第二章 相關文獻探討 政 治 大 研究直接將 LDA 應用於各類已知問題中,如文本分析、分類問題、主題探勘等研 立 究;另一方面,也有部分研究針對其演算法之缺點進行改良。以下我們將針對主 LDA 演算法自發表以來已有許多的相關研究,其中主要分為兩個方向:大部分的. ‧ 國. 學. 題模型之應用以及演算法改良部分來介紹其相關研究。. ‧. 2.1. 主題模型之應用. sit. y. Nat. 有關主題模型的應用有非常多的研究,包括垃圾郵件過濾(Spam Filtering)[2]. io. n. al. er. 、電信系統的詐欺偵測(Fraud Detection)[18] 、實體解析(Entity Resolution)[1]. i Un. v. 以及音訊、影像處理(Image Processing)[6, 14, 5] 問題等等,此部份之研究大多 將相同類型的大量文件集中起來(例如垃圾信件、詐欺訊息等等),並且學習出. Ch. engchi. 此類文件中的隱含主題,再將新的文檔套用至已經訓練好的模型,藉以計算出新 文檔之主題分布,而後進行後續的分類判斷。在影像處理相關的研究中,則是透 過一些訊號轉換的演算法,將影像轉換為類似文字形式的編碼,如此即可將影像 當成文章處理;此外,也有些研究將 LDA 應用於即時檢索系統 [17] ,將文章以 主題分布的形式表現,並進行後續的檢索工作。 在中文文本方面,多數 LDA 應用中文文本的相關研究屬於分類問題以及自動 產生摘要等應用 [21, 20] ,將 LDA 模型自動產生出來的詞彙作為分類問題中的特 徵值,相對於傳統詞頻統計以及 TF-IDF 的表示法,以主題以及主題所產生的詞 彙表示一篇文章,也有學者將標記式主題模型 [13] 應用於中醫理論之中,希望可 以由病理的描述自動產生處方 [19] 。這些研究皆將 LDA 模型作為工具來使用, 可見其應用範圍之廣泛。. 4.

(16) 而猶如前一章節所述,傳統 LDA 演算法仍面臨以下一些問題:無法適用於附 含標記之文本、產生主題隨機性不一,以及主題詞彙難以解釋等問題。以下幾類 研究則針對上述問題進行改良:. 2.2. 適用於已附標記之文本. 傳統 LDA 演算法 [4] 屬於無監督式學習,所應用之文本並無需任何人工標記以及 其訓練集,但倘若文本本身已附含標記之訊息,原始演算法沒辦法將這類資訊加 入計算,為了解決 LDA 演算法不適用於已附標記文本的問題, Ramage 及 Hall 學 者等人提出了 Labeled LDA 演算法 [13] ,他們透過每篇文章的標記資料,限制每 篇文章的主題數量,每篇文章所表示的主題各有不同而不再是同樣的 k 個主題,. 政 治 大. 此舉同時也限制了文章內的字詞所能分配的主題種類以及數量,降低了詞彙分布 的隨機性。 LLDA 演算法成功將已附標記文本應用於原始 LDA 演算法之中,而. 立. 且由於主題限制的原因,也一併降低了 LDA 演算法產生主題之隨機性,主題中的. ‧ 國. 英文中的長字詞. ‧. 2.3. 學. 字詞也更加相關。下一章節將對 Labeld LDA 演算法進行詳細的介紹。. y. Nat. sit. er. io. 除了產生主題之過度隨機性,主題描述困難亦是傳統 LDA 演算法的問題之一, 由於群聚出的詞彙過於離散,若非對於文本有相關了解或是該主題類別的專 業人士,僅憑藉單字與單字之間的關聯而欲描述該主題類別將是非常困難的工. n. al. i Un. v. 作,此類情況在中文文本上更為明顯。針對主題描述困難的議題,下面兩個工. Ch. engchi. 作提出了可能的解決辦法: Wang 及 McCallum 等人提出了 Topical N-grams 演算 法(TNG, 2007)。他們在抽取主題詞彙的同時,用隨機的方式連接前字詞, 使得主題字詞不再是一個一個獨立的 unigram,而是 bigram 或者 bigram 以上 的 n-gram 字 詞 , 他 們 企 圖 讓 一 個 主 題 可 以 擁 有 更 多 的 線 索 去 的 描 述 [16] ; 而 Robert 與 William 等人(2012)則基於 TNG 演算法的概念,更進一步的想要找 出文檔中的片語字詞(Phrase),並開發了 Phrase-Discovering LDA (PDLDA) 演算 法 [11] ,其將 Hierarchical Pitman-Yor Processes (HPYP) [15] 作為選定相連詞彙的 辦法,找出更符合詞意的片語字詞,而相對於長字詞,片語在詞語的表達更加明 確, PDLDA 亦希望藉由片語字詞在主題詞彙中出現,可以更加地改善主題描述 問題。 上述工作分別解決了 LDA 演算法無法將標記納入考量以及改善主題描述不 易的問題。其中, TNG 以及 PDLDA 演算法皆針對 LDA 演算法於主題詞彙描述 不易之問題進行改良,並且在群聚的結果之中可以看到一定的成效,不過這類方 法對於主題生成之隨機性並沒有抑制的效果。除此之外,這兩個演算法也是基 5.

(17) 於 LDA 演算法進行改良,因此並無法適用於已附標記文本,也因為如此,本研究 欲承襲相同概念,開發出一套基於 Labeled LDA ,能夠增進群聚詞彙易讀性的改 良方法。 對於中文的文本,中英文之間字(Charactor)與詞(Word)的意義並不相 同,相較於英文的詞,中文的詞的概念更接近英文中相連字詞,為此,本研究也 嘗試將相連字詞的概念轉換成中文的長字詞問題,希望藉由增加長字詞出現的比 例,可以使得 LDA 演算法對於中文文本史料的主題描述更加容易。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 6. i Un. v.

(18) 第三章 研究方法 政 治 大 出 LDA 演 算 法 有 著 「 無 法 立適 用 於 附 含 標 記 之 文 本 」、「 產生 主 題 隨 機 性 不 前 兩 個 章 節 , 我 們 簡 單 的 介 紹 了 LDA 演 算 法 以 及 其 相 關 的 應 用 , 並 且 指 一」、「主題詞彙難以解釋」等問題。接下來我們要闡述本研究的研究方法,本. ‧ 國. 學. 研究主要是基於標記式主題模型所做的修改,並且再進一步針對中文文本進行演 算法的改良。在本章節的前半部,我們將會從傳統的主題模型開始介紹起;並於. Nat. y. ‧. 後半部說明與本研究演算法所改進的部份以及方法。. er. io. sit. 3.1 傳 統 主 題 模 型 簡 介. al. n. iv n C hengchi U 等相關領域裡,主題模型(Topic Model)是被用來發現在一系列文檔中所隱含的. 在機器學習(Machine Learning)與自然語言處理(Natural Language Processing) 主題分布。假設一篇文章在撰寫的時候代表某一種主題,我們可以推測在這篇文. 章之中的某些特定的詞彙出現之頻率將會大於或小於其他主題的文章,即不同 主題所代表的詞彙將會有所不同,舉例來說:在討論狗的文章中,「骨頭」與 「狗」等詞會可能的出現頻率較高;在討論貓的文章中,「貓砂」與「貓」等詞 彙可能的出現頻率較高,而「於是」或者「關於」這類一般性詞彙出現的頻率則 會大致相同。 如同於緒論中所提到,主題模型之概念最早於 1998 年由 Papadimitriou 及 Raghavan 等學者所提出 [12] ,另一位學者 Thomas Hofmann 則是在 1999 年導入了機率 的概念並且發表了 Probabilistic Latent Semantic Indexing (PLSI) [9] ;然而最受歡迎 也最具代表性的主題模型則是 LDA ,其是由 Blei 等人於 2003 年所提出並且實 作,將文章所隱含主題由單一主題轉變為多重主題表示。. 7.

(19) 隱含狄利克雷分布簡稱 LDA ,其為一種主題模型,其可以將文章從既有的文 章對文字形式,轉變成文章對主題、主題對文字之機率分布的形式表示。舉例來 說,以下有五組句子: • 我喜歡吃香蕉以及蘋果 • 今天早餐吃烤土司配一顆蘋果 • 機車與汽車都會排放廢氣 • 弟弟最近買了一台機車 • 一般來說公車上禁止飲食. 政 治 大 總數為二, LDA 將會產生如下結果: 立. 將這些句子作為輸入,由 LDA 演算法運算過後即可自動產生主題,假使設定主題. ‧ 國. 學. • 句子一、二:100% 主題 A. ‧. • 句子三、四:100% 主題 B. y. Nat. • 句子五:50% 主題 A 、50% 主題 B. sit. • 主題 A :30% 蘋果、15% 香蕉、15% 早餐、15% 土司 . . . (而透過這些詞彙. er. io. 可以將此主題解釋為「食物」). n. al. v. • 主題 B :30% 機車、15% 汽車、15% 廢氣、15% 公車 . . . (並且,透過這些. ni Ch 詞彙可以將此主題解釋為「交通」) U engchi. 由上面的例子可知, LDA 演算法將每個文章以多個主題的混合型態表示,並且可 以產生相對應的詞彙集以及詞彙的機率來表示一個主題。透過每個主題所產生的 主題詞彙,使用者便能夠解釋該主題(如:蘋果、香蕉、土司皆屬於食物類,可 以推測該主題為「食物相關」主題),同時也可以觀察到 LDA 屬於典型的詞袋模 型1 (Bag-of-words Model),其將文章視為多組詞彙所集結而成的一個集合,每 組詞彙代表著一種主題,詞彙與詞彙之間並無順序以及先後關連。. 3.2. 隱 含狄 利 克 雷 分 布 LDA. 接下來我們將從主題分布的原理到主題字詞的推論,更仔細的介紹 LDA 演算法。 首先, LDA 遵從以下兩個步驟,將字詞從文件集中的每篇文章取出: 1. http://terms.naer.edu.tw/detail/1679006/. 8.

(20) 符號. 描述. K. 主題總數. D. 文章總數. V. 文集總相異字數. 政 治 大. 文章 d 含標記主題數. M, Md. 文章 d 總字數 立. wi. 文章中 wi 之字詞權重. zi. 文章中 wi 所分配之主題. β. 主題中詞彙分布 ∼ Dir(η). Φk Λ λ `(w). al. iv n C 文章主題 h ek 標記初始值,即人工標記 ngchi U. n. α. b. 狄利克雷分布 β 之前參數. io. η. 文章中主題分布 ∼ Dir(α). sit. Nat θ. y. 文章中第 i 個字詞. ‧ 國 wi. ‧. 文章主題標記之映射矩陣. 學. L. er. N, Nd. 狄利克雷分布 θ 之前參數 文章主題標記. 主題標記 Λ 之向量表示形式 w 字詞長度 字詞權重之基底 表 3.1: 演算法及公式之符號表示. 9.

(21) Topics gene dna genetic .,,. Topic proportions and assignments. Documents. 0.04 0.02 0.01. life 0.02 evolve 0.01 organism 0.01 .,,. brain neuron nerve .... 0.04 0.02 0.01. data 0.02 number 0.02 computer 0.01 .,,. 1.. Figure 1: The intuitions behind latent Dirichlet allocation. We assume that some 圖 3.1: 主題於文章內文分布示意圖 [3] number of “topics,” which are distributions over words, exist for the whole collection (far left). Each document is assumed to be generated as follows. First choose a distribution over the topics (the histogram at right); then, for each word, choose a topic assignment (the colored coins) and choose the word from the corresponding topic. The topics and topic assignments in this figure are illustrative—they are not fit from real data. See Figure 2 for topics fit from 隨機選擇一個主題的分布 data.. 政 治 大. 立. ‧ 國. (The interpretation of LDA as a probabilistic model is. 學. model assumes the documents arose. 2. 對文章中的每個字詞: fleshed out below in Section 2.1.). formally define a topic to be a distribution over a fixed vocabulary. (a)We隨機從第一步驟產生的主題分布中挑選一個主題. ‧. For example the genetics topic has words about genetics with high probability and the evolutionary biology has words about evolutionary biology with high probability. We assume that these (b)topic 隨機地從已知對應詞彙分布中挑選一個詞彙 topics are specified before any data has been generated.1 Now for each document in the collection, we generate the words in a two-stage process.. y. Nat. sit. 1. Randomly choose a distribution over topics. 這個機率模型很直覺的反映出了一篇文章表示著多重主題,每篇文章都有不同的. er. io. 2. For each word in the document 主題分布(步驟一),且每篇文章的每個字詞皆是由其中一個主題中所挑選出 (a) Randomly choose a topic from the distribution over topics in step #1. 來,而該主題的主題字詞又是由先前的文章分布中所聚集出來的(步驟二)。. al. n. iv n C This statistical model reflects the intuition multiple topics. Each 利用以下數位符號,我們可以對整體過程做更正式的描述: h eproportion h i #1);Uexhibit nthatg documents document exhibits the topics with di↵erent (step each word in each document c 將所有的主題以 β 表示,而 β 是在每個主題下各個字詞的機率分布(如圖一 (b) Randomly choose a word from the corresponding distribution over the vocabulary.. 1. Technically,1:K the model assumes that kthe topics are generated first, before the documents.. 中的左半窗格)。 θd 表示第 d 個文章中各主題所佔比例(如圖一右側簡易直方圖 3. 所示)。 zd 表示第 d 篇文章的主題分配,其中 zd,n 是文章 d 中的第 n 個字所分配 到的主題(如圖一中央上色部分)。最後, wd 表示從第 d 篇文章所觀察到的字 (此為固定不變的元素),文章中的第 n 個字為 wd,n 。 我們將上面所提到的符號 用來描述 LDA 主題分布的生成過程,可以產生出以下式子: p (β1:K , θ1:D , z1:D , w1:D ) =. K Y i=1. p (βi ). D Y. p (θd ). d=1. YN n=1.  p (zd,n | θd ) p (wd,n | β1:K , zd,n ) . (3.1). 這個式子說明了 LDA 的主題分布有著一連串的相依性,舉例來說,字詞所分配的 主題 zd,n 機率相依於該文章的主題分布 θd ;而所觀察到的主題字詞 wd,n 又與該詞 所分配到的主題 zd,n 以及所有主題 β1:K 有所關連。這些相依性是在生成過程中的 統計假設,在統計學裡稱作聯合機率分配,他們定義了 LDA 本體,並且能夠以圖 二的圖形表示法來表現。 10.

(22) ✓d. Zd,n. Wd,n. N. η. k. D. K. 圖 3.2: LDA 模型圖形表示法(plate notation) Figure 4: The graphical model for latent Dirichlet allocation. Each node is a random variable and is labeled according to its role in the generative process (see Figure 1). The hidden nodes–the topic proportions, assignments and topics—are unshaded. The observed 接著我們要進行的部分是 LDA 的計算問題,即在我們擁有(欲觀察的)文章 nodes—the words of the documents—are shaded. The rectangles are “plate” notation, which 後要如何計算出主題與文章之間的條件機率,也就是所謂的後驗機率計算。利用 denotes replication. The N plate denotes the collection words within documents; the D plate 先前所標示的符號, LDA 的後驗機率為: denotes the collection of documents within the collection. p (β1:K , θ1:D , z1:D , w1:D ) (3.2) (βdescribing | w1:Dof )= a graphical language pfor families probability distributions.5 . The graphical model 1:K , θ1:D , z1:D p (w1:D ) for LDA is in Figure 4. These three representations are equivalent ways of describing the probabilistic assumptions behind LDA.. 立. 政 治 大. ‧. ‧ 國. 學. In the next section, we LDA describe the inference algorithms for LDA. However, we first pause to 3.3 標記式 describe the short history of these ideas. LDA was developed to fix an issue with a previously developed probabilistic model probabilistic latent semantic analysis (pLSI) [21]. That model was 我們知道 itself a probabilistic version of the seminal work on latent semantic analysis [14], which LDA 可以適用大多數的文件集,但卻僅限於沒有標記資料的文件集,然 revealed the utility of the singular value decomposition of the document-term matrix. From 而現今仍有非常多的資料集是擁有標記的,如網路新聞、部落格文章底下會有許 this matrix factorization perspective, LDA can also be seen as a type of principal component 多關鍵字分類,許多社群網路平台(如 Twitter 、 Facebook )也有提供 hashtag 的 analysis for discrete data [11, 12]. 標記功能,我們假設這些分類的關鍵字及 hashtag 標記能夠代表該文章的主題,則. y. Nat. sit. 這些資訊應該納入 LDA 主題分布的考量之中,故某些學者提出監督式的 LDA ,. n. al. er. io. 2.2 使傳統 Posterior computation for LDA LDA 演算法能夠在推論主題模型時將該資訊納入其中。. i Un. v. 依照 to Ramage 等人所提出的標記式隱含迪利克雷分布(Labeled LDA),我 We now turn the computational problem, computing the conditional distribution of the topic們將可以簡單地用預先觀察到的文章主題(即人工標記的主題分類)去限制主 structure given the observed documents. (As we mentioned above, this is called the posterior.) Using our notation, the posterior is 題模型。下面的演算法為 Labeled LDA 演算法的生成過程,其中所使用的符號. Ch. engchi. 與前述傳統 LDA 演算法相同,而另外增加的符號是 ,, Λ p( 1:K , ✓1:D ,Λz1:D w(d) ) 1:D表示該篇文章所標 p( 1:K , ✓1:D , z1:D | w1:D ) = . (2) p(w1:D ) 記的主題種類,其值是非 0 即 1 的整數陣列,從此文章與主題之間的分布 θ關 有關而是同時受限於 The 係不再只與 numerator isα the joint distribution Λ of 值。在演算法中,步驟一、二依序從每個 all the random variables, which can be easily 主題 kfor 下依照迪利克雷分布的前參數(prior)η 抽出主題中字詞的分布 ,接 computed any setting of the hidden variables. The denominator is the marginalβprobability of the observations, which is the probability of seeing the observed corpus underα any 著傳統 LDA 演算法將從每篇文章 d 中依照另一迪利克雷分布的前參數 抽出topic model. In theory, itθ(d) can,但在 be computed summing the將被限制在只與該文章有關的標 joint distribution over every possible 各主題的分布 Labeledby LDA 中, θ(d) instantiation of the hidden topic structure. 記 Λ(d) 中。如此一來,可以確保步驟九當中(同本文章節三的第二小節所提及) 5. The field of graphical models is actually more than a language for describing families of distributions. It 所有文章字詞所分配到的主題 zd,i 皆被該文章既有之主題標記所限制。 is a field that illuminates the deep mathematical links between probabilistic independence, graph theory, and algorithms for computing with probability distributions [35].. 為了實現此一目標,在 Labeled LDA 中我們首先利用主題標記的前參數 Φk 產 (d). 生出每篇文章的標記 Λ(d) ,接著定義 λ(d) = {k | Λk = 1} 為文章標記之向量。如 (d) 此我們便能為每篇文章 d 定義出一個大小為 7 Md 乘以 K 的映射矩陣 L , Md 即為. 11.

(23) Algorithm 1 Labeled LDA 之生成過程 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: 14:. for all topic k ∈ {1, ..., K}: do Generate βk = (βk,1 , ..., βk,V )T ∼Dir(· | η) end for for all document d: do for all topic k ∈ {1, ..., K}: do (d) Generate Λk ∈ {0, 1} ∼Bernoulli(· | Φk ) end for Generate α(d) = L(d) Generate θ(d) = (θl1 , ..., θlMd )T ∼Dir(· | α(d) ) for all i in {1, ..., Nd }: do (d) (d) Generate zi ∈ {λ1 , ..., λMd } ∼Mult(· | θ(d) ) Generate wi ∈ {1, ...V } ∼Mult(· | βzi ) end for end for. 政 治 大.

(24)

(25) 該文章的標記主題數量(Md =

(26) λ(d)

(27) ),各列 i ∈ {1, ..., Md } ,行 j ∈ {1, ..., K} : ( (d) 1 if λi = j (d) (3.3) Lij = 0 otherwise.. 立. ‧ 國. 學. ‧. 換句話說,當此矩陣 L(d) 的第 i 行中的第 j 列的元素為 1 時,即表示第 i 篇文章 恰擁有主題 j 的主題標記,反之,元素為 0 時,表示該文章所擁有的主題標記不. T. (d). er. io. (d). sit. y. Nat. 為主題 j 在得到此矩陣 L(d) 之後,我們將它投影至狄利克雷主題前參數 α 的參數 矩陣上(其中, α = (α1 , ..., αK )T ): α(d) = L(d) × α = (αλ1 , ..., αλM ). n. al. d. iv. (3.4). n U e n g c hΛi (d) = {1, 0, 1, 0} ,這代表 λ(d) = 例來說,我們假設 K = 4 ,而某篇文章d的標記. Ch. 我們可以明顯的看出此映射矩陣的維度與該文章所標記的主題數量成正比。舉 1, 3 ,如此一來 L(d) 將會變成:. .  1 0 0 0 . 0 0 1 0. 接著,演算法將根據迪利克雷分布的前參數 α(d) 來抽出主題分布 θ(d) ,而此時 的 α(d) = L(d) × α = (α1 , α3 )T ,如此便將能將主題分布限制在文章所標記的主題. 一以及主題三之中。再透過 Gibbs Sampling [7],我們便能夠訓練出文章內每個字 詞所對應的主題機率。 P (zi = j | z−i ) ∝. i nw −i,j + ηwi. (·). n−i,j + η T 1. (d). ×. n−i,j + αj (d). n−i,· + αT 1. (3.5). 在上面的式子中, P (zi = j | z−i ) 表示在排除字詞 wi 所分配的(舊)主題 zi 的前. i 提之下,字詞 wi 被分配到新主題 j 的機率;其中, nw −i,j 表示主題 j 裡字詞 wi 的. 12.

(28) (·). 數量, −i 表示這個數量排除當前欲分配的字詞 zi ; n−i,j 則表示主題 j 裡所有字 (d) (d) 詞數量的加總,而 n−i,j 表示主題 j 裡的字詞在文章 d 裡的數量, n−i,· 表示所有 主題底下的字詞在文章 d 裡的數量(即文章總字數); η T 1 以及 αT 1 分別表示所 有字詞之 η 值加總以及所有文章之 α 值加總。從公式(3.5)中我們可以看到,在不 參考 η 以及 α 這兩個前參數的前提之下,字詞 wi 被分配到新主題 j 的機率正比於 主題 j 當中字詞 wi 出現的機率(左)乘以文章 d 當中含有主題 j 的機率(右)。 透過標記式 LDA 演算法,我們已經有效的將文章的主題分布限制在文章的標 記之中,並且透過實驗可以發現群聚出的主題詞彙相較於傳統 LDA 演算法更加 的集中,意義更加的明顯。接著我們將繼續以適用中文文本為宗旨進行其他的改 良。. 治. 3.4 適 用 中 文文 本 之改政 良. 立. 大. 由於傳統 LDA 演算法最早是適用於英文文本,在將 LDA 套用至中文文本時會遇. ‧ 國. 學. 到一些問題,其中一個主要的問題源自於中英文之間對於「字」與「詞」所描述. ‧. 的意義並不相同。在英文中,每個單字(Word)是由字元(Character)組成,而 中文則是以詞作為最小的的單位元;在英文中的一個句子中可以將每個單字獨立 來看,每個字皆能表達完整意思,但中文則否,例如:. sit. y. Nat. 「今天天氣晴朗」. er. io. 若將每個單字切開來看: 「今 / 天 / 天 / 氣 / 晴 / 朗」. n. al. v. 雖然每個字都有其意義,但卻不能表達完整意思。因此在套用 LDA 演算法至中文. ni Ch 文本之前,斷詞的問題是必須優先解決的。 U engchi 3.4.1 斷 詞問 題. 在斷詞工作的處理上,中文斷詞相對於英文斷詞困難許多,在此延續上一小節所 使用之例子,假設原句為: 「今天天氣晴朗」,而根據斷詞方法的不同將有以下 幾種可能結果: 「今天 / 天氣 / 晴朗」 「今 / 天天 / 氣 / 晴朗」 「今 / 天 / 天 / 氣 / 晴 / 朗」 其中,如何得到「今天 / 天氣 / 晴朗」此一正確結果,便是重要的課題之一;倘若 在英文文本之中: 「Today is a sunny day」 只要以空格作為分界便可以輕易斷句 成 「Today / is / a / sunny / day」 ,但中文裡並沒有此類將詞語特意獨立之特性。 故要達成中文斷詞必須要先有一個字典,並且該字典之詞庫越大越好,但是現實. 13.

(29) 的問題是並沒有一個字典包含所有的詞彙,根據不同類型的文本,所欲切分之詞 彙也有所相異,因此在進行中文斷詞工作的時候,還需要依據文本特性的自定義 字典,一旦擁有此自定義字典,斷詞的效果方能獲得顯著提升。 隨著詞庫字典以及個人的定義字典越來越大,詞彙量大到一定的程度後,字 典的查詢工作將會消耗大量的時間,為了節省此一部分所消耗的時間,在進行查 詢工作之前,我們可以將整本字典建立成一個字典樹(Trie 樹),此一字典樹保 存著所有單字詞,以及該單字所接續下一個字的機率值。建立完字典樹之後,在 斷詞的時候即可將原句子逐一比對,判斷原句中是否含有符合字典樹裡所包含 的字詞,從而得到原句裡所有的切分組合,再將所有的組合以一個有向無環圖 (Directed acyclic graph, DAG)表示,最後再計算出最佳的切分方式,得到初步 的斷詞結果。. 治 政 單字詞斷開,因此還需要透過 HMM Viterbi 演算法,計算出單字詞與單字詞之間 大 立 可以合成新詞彙的機率值,藉此我們才能獲得最終的結果。 然而,對於未知的詞彙(即不存在於字典中的詞彙),在剛才的結果中會以. ‧. ‧ 國. 學. 人工關鍵詞. 本研究使用人工關鍵詞做為上述輔助斷詞之自定義詞典,人工關鍵詞即為文本擁. sit. y. Nat. 有者根據文本所提供之內容以及自身的專業背景,判定為對文本分析相對重要之 特定字詞,這些詞彙包含人名、地名等專有名詞,對於提昇斷詞效果以及提昇後. er. io. 續主題詞彙群聚結果有相當的幫助。此外,本研究也利用詞頻統計以及 TF-IDF 的. al. n. iv n C 高 TF-IDF 權重之字詞,並觀察其中是否含有某些不合常理之字詞,再藉由文本 hengchi U 擁有者之專業知識還原其正確的斷詞方式,最終便能獲得符合文本特性之自定義. 方法輔助,修正人工關鍵詞的標記結果。我們擷取出各篇文章中高詞頻以及. 詞典,達到更佳的斷詞結果。. 3.4.2. 長字詞優先. 在解決了中文斷詞問題之後,我們便可以開始進行針對中文文本之演算法改良。 首先我們發現在中文的詞彙裡有一種現象,字詞越長所能表現的意義愈顯明確, 例如「大」字可以形容體積、容量、數量、強度上超過一般,或是超過比較的對 象,「大」字也可以是名詞,指相對於「小」的字詞,或者年紀較大的人;相對 於「大」,「大學」的意義較明確一些,但仍然可以表示成國家教育機構之最高 學府,或者是四書《論語》、《孟子》、《大學》、《中庸》中的《大學》;而 持續增加字詞的長度,六字詞的「國立政治大學」所能表現的意義更加的明確, 指的是位於臺北市木柵區,台灣的國立大學之一。. 14.

(30) 基於這樣的一個特性,在中文斷詞的處理中,除了考量字詞出現的頻率,也 考量了字詞的長度,讓字數較長的詞彙能夠優先處理。同時,在增強 LDA 的演算 法裡,我們也將字詞的長度當做考量之一,讓 LDA 在抽取主題詞彙的時候能夠以 長字詞為優先。 要將長字詞納入演算法之中,首先我們要看到公式(3.5)中第一項的分子部 i 分,可以發現若要影響字詞被分配至某個主題底下將會受到 nw −i,j 以及 ηwi 所影. 響,而主題 j 之中所含字詞 wi 之數量為分配後觀察而得,並不能夠更動,因此若 想要以字詞長度做為影響群聚結果的條件,我們可以從 η 這個參數著手。 為了實現此一目標,我們首先給定每個字詞一個相對應的權重 wi ,並且定義 權重向量 W = {w1 , w2 , . . . , wV } ,其中: wi = b`(wi ). (3.6). 政 治 大. 在上面的公式中,我們先定義 `(wi ) 為字詞 wi 之長度(舉例來說, w1 = 大學 ,. 立. ‧ 國. 學. 則 `(w1 ) = 2 ),而 b 則視為基底的參數( b 為大於 1 之整數)。接著我們會使用 到 Hadamard 乘法(又稱元素乘法[10]) ◦ ,此一乘法能夠對兩個相同維度之矩陣 或向量進行元素間的相乘,並且產生相同維度之結果,其定義如下: A◦B =.      a11 a12 a13 a11 a12 a13 a11 b11 a12 b12 a13 b13 ◦ = a21 a22 a23 a21 a22 a23 a21 b21 a22 b22 a23 b23. ‧. . y. Nat. sit. 有了 Hadamard 乘法之後,我們即可重新給定新的 η 值 ηˆ ,我們會預先將 W 內的. n. al. ηˆ = W ◦ η. Ch. engchi. er. io. 所有元素標準化至總和為 1 ,接著將原始 η 值與字詞權重 W 相乘:. i Un. v. (3.7). 接著演算法將依循狄利克雷分布從前參數 ηˆ 抽出主題中的詞彙分布 β ,而此時 的 ηˆ 已經包含了字詞的長度資訊作為權重。. 3.4.3. 加入已知資訊. 以上方法已經成功將字詞長度納入考量之中,接下來我們希望能夠將已知的標記 資訊加入至演算法之中。由於 LLDA 演算法已經將傳統 LDA 由無監督式演算法 進一步修改為半監督式演算法,使用者在使用的同時對該文本或欲觀測的主題已 有初步的了解,因此我們假設文本的已知主題下已經有一些既定的主題詞彙,我 們將這些詞彙稱作種子字詞。 種子字詞 種子字詞,是由文本擁有者所認定能夠真實表現某些主題內容的主題詞彙,以本 15.

(31) 研究所使用之文本《自由中國》為例:在主題「外交/聯合國問題」之中,「聯 合國」、「康隆報告」以及「共同防禦條約」等字詞為文本擁有者所認定,與該 主題十分相關的詞彙,我們希望藉由先前提及的權重概念,將種子字詞納入考 量,間接影響其他與該字詞共同出現的詞彙,提昇演算法所群聚出的詞彙質量。 同樣的,在斷詞處理中我們也將這些種子字詞加入至自定義詞典中,以確保斷詞 的正確性。 有了這些種子字詞之後,我們便能依循上述長字詞優先的權重調整方法,將 權重向量 W 重新定義為: ( 1 wi = wi. if wi is seed word otherwise.. (3.8). 在上述判斷式中,權重向量 W 已經先經過長字詞的權重調整,並且已經將各個元. 政 治 大 第二度的權重調整,可以更加地將提高種子字詞的權重,並同時考量了其他長字 立 詞的權重。最後,我們同樣依照公式(3.7)來得到新的 ηˆ ,並且在乘上 η 之前,先 素標準化至總和為 1 ,故我們可以確定所有的 wi 的值皆小於 1 ,如此一來經由. ‧ 國. 學. 將 W 內的元素再標準化一次。. ‧. 如上所述,種子字詞是依照使用者(文本史料擁有者)所認定能夠真實表示 主題意義的詞彙,因此,在種子字詞的提取方面亦是採取人工標記的方式,由使. io. sit. y. Nat. 用者在事前標記好各個主題所可能隱含的種子字詞,並由以上的權重向量公式將 其納入演算法之中。. er. 本研究所使用之種子字詞是由薛化元教授團隊所提供,由團隊史學家以其經. al. n. iv n C 子字詞,隨著實驗的進行,將能產生出強化過後的主題群聚結果,團隊史學家們 hengchi U 可以根據所產生的主題詞彙新增或刪減種子字詞,而後再將後標記的新種子字詞. 驗統整出該主題所應包含的詞彙。此外,我們所提出的方法亦能夠找到更多的種. 加入演算法之中,如此便能循序漸進地改善效能。. 16.

(32) 第四章 實驗結果與討論 政 治 大 良。本章節將進一步對我們所提出的方法進行驗證,希望透過與傳統標記式主題 立. 前一章節我們介紹了主題模型 LDA 以及本研究針對標記式中文文本所進行的改. ‧. ‧ 國. 學. 模型 Labeled LDA 以及傳統關鍵字提取方法 TF-IDF 比較,可以證明加入中文長字 詞之特性以及含有已知資訊的種子字詞的群聚方法,擁有較好的群聚結果。. 4.1 實 驗 設 定. sit. y. Nat. n. al. er. io. 4.1.1 資 料集 以及 資 料前 處理. Ch. i Un. v. 在實驗的史料文本部分,我們所使用的資料集為《自由中國》雜誌,其為一半月 刊的雜誌,由胡適以及雷震等人所創辦,並於中華民國發行,以擴展民主自由空. engchi. 間為宗旨的政治刊物,其收錄的範圍是 1949 年至 1960 年間共 23 卷又 5 期,內容 包含言論自由、地方自治、司法獨立、反對問題等相關議題以及其主張,為眾多. 圖 4.1: 實驗簡易流程圖 本實驗分為兩個階段,首先左側為資料前處理部分,其中包含斷詞、去除標點符號以及 一字詞部分;右側則來到主要實驗階段,此部份將分別運行傳統 LLDA 以及本研究之增 強 LDA ,並將群聚結果交由人工判讀正確答案,進行後續的驗證工作。其中「人工關鍵 詞」與「種子詞彙」同屬原始資料集與人工標記部分,此流程圖為方便理解而將這兩組 資料獨立呈現。. 17.

(33) 原始文本. 附標記文本. 3,651. 1,973. 文本總字數. 16,171,034. 7,569,758. 去除標點符號及英文. 13,700,366. 4,399,346. 4,917,782. 2,696,892. 258,658. 178,289. 文章篇數. 處理後總詞數(二字詞以上) 處理後相異詞. 表 4.1: 原始文本與附標記文本之統計資料 史學專家在研究台灣民主運動所用。 本研究所使用之《自由中國》文本是由國立政治大學雷震研究中心 1 薛化元 教授團隊所提供,原始文章共 3651 篇,約一千六百多萬字,其中,附含主題標記. 政 治 大 於一字詞在中文裡不太能夠表達完整意義,故實驗中我們除了移除標點符號外, 立 同時也將一字詞移除,處理過後的文本總詞數剩下兩百多萬個。. 之文章數有 1973 篇,統計後約七百多萬字(經斷詞處理後為四百多萬詞),而由. ‧ 國. 學. 本研究所含之標記資訊包含文章主題、種子字詞以及人工關鍵詞,其中所有 的標記資訊包含後續驗證所需之解答均由文本擁有者,亦即國立政治大學雷震研. ‧. 究中心薛化元老師團隊所提供,團隊人員皆為相關研究背景,並且為熟悉文本之. sit. y. Nat. 專業人士。. io. 在文章主題之標記部分,《自由中國》文本中共含有 23 個主題,並且各個主. er. 題皆有與主題相關的種子字詞(主題二十三:文藝類除外),有主題標記的文本 之中,每個文本皆包含一個以上的主題,除此之外,在進行實驗之前我們額外在. al. n. iv n C hengchi U 所有的文章都加上主題零的標記,我們將該主題定義為一般類的主題,其目的在. 於篩選各篇文章皆有出現的通用詞彙,使其他主題所群聚出的詞彙獨特性能夠更 加地顯著,同時也可以確保文本中僅含一種主題標記的文章,所群聚出的詞彙仍 保有「分配」的空間。 而有關種子字詞以及人工關鍵詞則如同第三章第四小節所述,種子字詞為文 本擁有者所認定與某類主題相關的詞彙,能夠應用於演算法之中進而增強主題詞 彙的群聚結果;人工關鍵詞則是針對實驗資料集,並由文本擁有者認定對於其文 本分析富含意義的詞彙,這些詞彙包含種子詞彙,為斷詞處理中必定要斷詞正確 的字詞,並且會加入至自定義詞典當中。 1. http://leichen.nccu.edu.tw/leichen/. 18.

(34) 圖 4.2: 文本檢索系統 此檢索系統專為文本群聚結果標記所建置,標記人員可以透過此系統查詢群聚詞彙位於 文本中之位置,並觀察詞彙前後文,做為判斷該詞彙是否與主題相關的依據之一。本檢 索系統僅公開於國立政治大學校內使用,網址為:http://clip.csie.org/DHP/. 4.1.2. 斷詞工具. 立. 政 治 大. ‧ 國. 學. 在斷詞處理部分,我們使用開源斷詞工具─結巴中文分詞(jieba2 )幫助我們進行. ‧. 斷詞的工作,由於結巴最初是以簡體中文開發,在斷詞表現簡體中文較優於繁體 中文,但是近期結巴發佈了針對繁體中文的的字典,在使用該字典後繁體中文的 表現已獲得有效提昇。另一方面,我們也透過結巴提供的自定義詞典功能建立了. y. Nat. 使用者字典(即前述人工關鍵詞部分),此字典亦由薛化元教授團隊所提供,該. sit. n. al. er. io. 團隊擁有足夠的歷史相關知識,以及對《自由中國》文本的了解,所提供的字典 對於斷詞有相當的幫助。. 4.1.3 量 化 評估 標準. Ch. engchi. i Un. v. 我們利用資訊檢索中對檢索系統的評量方法,作為增強 LDA 所群聚出字詞的量化 評量。我們將群聚出的結果以人工標記出正確答案,標記部分仍由團隊中熟悉文 本之史學專家,根據其自身經驗進行初步之判定,並且與實際文本交叉比對(透 過額外建置之文本檢索系統)後所得之結果,而後我們便能透過以下方法來評量 結果: 2. https://github.com/fxsjy/jieba. 19.

(35) 準 確 度 / 查 準率 ( Precision) ) Precision 指的是群聚結果的準確度,意即在群聚結果中含有與群聚主題相關字詞 的比例,其公式如下: P recision =. |{relevant words} ∩ {clustered words}| |{clusered words}|. (4.1). 從公式中可以看到準確度是取所有群聚的結果裡,與欲群聚之主題(檢索系統中 的 Query )有相關的字詞數,所有結果中若出現較多的相關字詞,則準確度值越 高,其值越高越好,最大值為 1。 召 回 率 / 查 全率 ( Recall) ). 政 治 大. 相較於準確度希望群聚結果之中相關字詞出現比例越高越好,召回率所注重的是. 立. Recall =. |{relevant words} ∩ {clusered words}| |{revelant words}|. 學. ‧ 國. 所有與主題相關之字詞中被群聚至該主題的比例,其公式如下: (4.2). ‧. 與準確率相同,召回率的值介於 1∼0 之間,其值越高越好。. Nat. er. io. sit. y. 平 均 準 確 度 (Average precision) ). 在每個主題下我們所標記為正確答案的字詞數量不一,而由於準確度與總相關字. n. al. i Un. v. 詞數成正比,若直接使用準確度來作為評量,對於正確答案較少的主題較難看出 其成效,故我們使用平均準確度以及召回率作為最終的評量標準,其公式如下: Pn (P (k) × rel(k)) AveP = k=1 (4.3) |{revelant words}|. Ch. engchi. 其中, P 即為準確度,而 rel(k) 表示該字詞是否與主題相關,若相關則是 1,反 之為 0。此外,平均準確度也可以設定僅計算群聚結果排序前 n 個結果: Pn (P (k) × rel(k)) AveP @n = k=1 min(m, n). (4.4). 其中, m 指的是所有正確字詞之數量,計算的時候分母取 m 與 n 的最小值,假 設所有正確字詞的數量為 12 ,而 n = 10 ,此時則僅計算 10 個字詞的平均準確 度。. 20.

(36) 平 均 準 確 度均 值 ( Mean average precision) ) 平均準確度均質為平均準確度的延伸,主要用來評量整個檢索系統,將每 次 query 所算出的平均準確度再取平均: PQ M AP =. q=1. AveP (q) Q. (4.5). 公式中, Q 為檢索系統中之 Query ,而本實驗中所算的 MAP 之 Q 則是主題類 別,依每種主題所計算出之平均準確度作為最後的評測。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 21. i Un. v.

(37) n. al. er. Ch. engchi. 22. i Un. v y. ‧ 國. 原始種子數 2 6 5 3 3 6 7 10 4 8 8 4 1 5 1 6 7 8 9 5 2 8 -. 表 4.2: 主題標記之名稱及主題詞彙整理. sit. io. 主題一 主題二 主題三 主題四 主題五 主題六 主題七 主題八 主題九 主題十 主題十一 主題十二 主題十三 主題十四 主題十五 主題十六 主題十七 主題十八 主題十九 主題二十 主題二十一 主題二十二 主題二十三. ‧. 標記文章數 21 160 59 163 83 33 34 61 44 23 13 102 44 42 80 65 201 156 69 35 188 241 479. 學. Nat. 主題名稱 刊物的立場與反省 自由民主的基本概念 法治 表現自由/出版法問題 其他基本權問題 責任閣制/責任政治 行政中立──國民黨退出軍警特 司法 立法院問題 監察 考試 在野黨 國民黨體質改造/國民黨問題 地方自治 地方選舉問題 軍隊 教育/救國團 外交/聯合國問題 總統三連任問題/修憲/國大 反共救國會議 反共 經濟/財政 文藝. 立. 群聚後標記詞數 8 57 31 50 61 36 4 66 35 39 37 40 5 42 49 60 37 57 35 9 40 50 -. 政 治 大. 新增字詞數 7 53 30 48 58 32 4 61 32 31 31 36 4 38 48 57 34 55 28 7 39 47 -.

(38) 政 治 大. 圖 4.3: 演算法前參數 η 之敏感度測試. 實驗結果分析與討論. ‧ 國. 學. 4.2. 立. ‧. 此一小節我們將呈現增強 LDA 對中文字詞的改進成果,並且依續對質化以及量化 的結果進行分析。我們以原始 LLDA 的結果作為基準,而後與長字詞優先以及考. sit er. 長字詞優先. io. 4.2.1. y. Nat. 量種子字詞的方法比較。. al. n. iv n C hengchi U 首先我們看到中文裡長字詞優先部份的改良,根據公式,我們將長字詞權重調整. 為 b = 10 、 η = 0.1 ,而 α = 0.001。其中,字詞權重基底 b 以及前參數 α 採用預設 值,而 η 值則是透過敏感度測試,由 0.01 至 0.18 以每 0.01 為單位進行調整而得到 (如圖 4.3)。其群聚之結果如下表 4.3。在表 4.3 當中我們列舉了四種主題,首. 先可以看到的是各主題中 LLDA 的表現結果,在有限制條件的演算法之下,各個 主題所群聚出的字詞已經有一定程度的相關性,像是主題二裡面「自由」、「民 主」、「平等」等詞,或是主題十六的「軍人」、「軍官」、「軍隊」等詞,這 些字詞所表現的主題意義已十分相近。在增強 LDA 的部份我們可以看到僅考量長 字詞的情況之下,群聚出的字詞已經改變許多。在新的群聚結果裡有非常多的新 字詞出現,而其中又以長字詞居多,像是主題二裡面出現了「自由經濟」、「資 本主義」等詞彙,主題三則有「司法行政部」、「懲治貪汙條例」等超過四字詞 的詞彙出現,這些詞彙如同我們所預期的,符合中文裡長字詞更能明確表現詞意 的特性。原演算法所獲得的結果會出現「政府」、「國家」、「社會」等較普遍 的詞彙,對於一般使用者來說,這些普遍性詞彙較通俗易理解,而改良過後的增 強 LDA 演算法則能夠得到像是「司法行政部」、「圓山飯店」以及「懲治貪汙條 23.

(39) 主題二. 主題三. LLDA. ENLDA-len. LLDA. ENLDA-len. 自由、民主、 國家、政治、 人民、思想、 社會、個人、 反共、政府、 他們、組織、中 國、平等、個人 自由. 自由、個人自 由、自由 由主 義 、 平等、個人、 個體、群體、 權威、君主、 民權、中山先 生 、容忍、自 自由 經濟、資本主 義 、愛民. 法律、法治、 人民、憲法、 政府、總統、 國家、行政、 民主、機關、 美國、規定、守 法、議會、命令. 蔡金塗、司法 行 政 部 、監所、 羅氏、治外法 權、陪審員、 圓山飯店、附 徵、白鵬、升 等考試、主席 台、懲治貪污 條 例 、行仁、搗 毀、高 高等 法 院. 主題十二 LLDA. 治 政 LLDA 大 反對黨、政黨、 軍人、軍事、 立 新黨、在野黨、 軍官、官兵、. ENLDA-len. ENLDA-len. 執政黨、民主政 治、在朝黨、 組黨、強大、在 野、黨員、政 政黨 政 治 、執政、領 袖、知 知識 分 子. 軍官、官兵、軍 隊、軍人、軍 中、士兵、海 軍、退除役、 新軍、國防會 議、勞軍、部 隊、待遇、國 軍、空軍. 政府、軍隊、 待遇、生活、 我們、士兵、 訓練、軍中、人 員、海軍、國軍. Nat. sit. y. ‧. ‧ 國. 學. 反對黨、政黨、 民主、人民、政 治、民主政治、 國家、國民黨、 新黨、政府、執 政黨、在野黨、 組織、政權、問 題. 主題十六. n. al. er. io. 表 4.3: 主題詞彙結果比較。此表擷取主題二、三、十二、十六,分別代表「自 由民主的基本概念」、「法治」、「在野黨」以及「軍隊」,每個主題顯示排序 前 15 的主題詞彙,其中,粗 粗體字 表示更改演算法後新出現三字詞(含)以上的詞 彙。. Ch. engchi. i Un. v. 例」等意義明確的詞彙(甚至是專有名詞、人名等等),對於已熟知文本的史學 家來說,該類字詞將是較佳的觀察目標。. 4.2.2. 考量種子字詞. 接著我們繼續看到考量種子字詞的結果,此部份我們根據公式 3.7 將各主題標記 之種子字詞權重調整為 1,剩餘的詞彙權重則是延續公式 3.5 以及公式 3.6 所生成 之 wi ,將長字詞一併納入考量。在實驗中我們所擁有的原始文本標記共有 23 個 主題,其中第 23 個主題(文藝類)未含有種子字詞之標記,故評量的時候不予採 計。下表 4.4 中我們列舉剩餘 22 個主題排序前五十的平均準確度(AP@50)並且 計算其均值(MAP),並且以 TF-IDF 關鍵詞提取方法以及 LLDA 演算法作為實 驗的基線(Baseline)。. 24.

(40) LLDA. 0.0270 0.1948 0.0420 0.0354 0.2553 0.1273 0.2738 0.3310 0.2283 0.3558 0.1738 0.1534 0.0000 0.1425 0.2143 0.2527 0.1295 0.2742 0.2165 0.3426 0.0958 0.3463 0.1915. 0.0027 0.5062 0.0889 0.4784 0.2610 0.3279 0.0000 0.5029 0.2996 0.3134 0.2411 0.4761 0.1240 0.4063 0.5541 0.6059 0.4747 0.4885 0.2894 0.2922 0.4210 0.3309 0.3402. 增強LDA (長字詞) 0.0259 0.3865 0.2542 0.4673 0.5717 0.0981 0.2500 0.5822 0.3670 0.4730 0.2497 0.4327 0.3583 0.5116 0.6222 0.5963 0.5342 0.5334 0.3463 0.1559 0.4088 0.3721 0.3908. 政 治 大. 學. 增強LDA (長字詞+種子字詞) 0.0368 0.4103 0.2919 0.4579 0.5244 0.2768 0.2628 0.5969 0.3691 0.4767 0.2925 0.3868 0.4000 0.4424 0.6216 0.6435 0.5350 0.5328 0.3654 0.2506 0.3945 0.3734 0.4065. sit. y. ‧. ‧ 國. 立. Nat. 主題一 主題二 主題三 主題四 主題五 主題六 主題七 主題八 主題九 主題十 主題十一 主題十二 主題十三 主題十四 主題十五 主題十六 主題十七 主題十八 主題十九 主題二十 主題二十一 主題二十二 MAP. TF-IDF. io. er. 表 4.4: 主題模型對個主題之平均準確度(Average Precision @50). al. n. iv n C h e n g c h i U LDA 演算法的群聚結果 中應該出現的詞彙。而後,隨著實驗的進行,我們將增強 在實驗中,我們演算法所使用之種子字詞為團隊史學家所認定在該主題分類. 交由團隊史學家進行分析,進而從中抽取出最終與主題相關的結果字詞(表 4.2. 中含有各主題最終標記的統計資訊)。最後,我們再利用這些詞彙計算最終的評 量分數。在表 4.4 中我們可以看到在大部分的主題底下增強 LDA 的平均精準度皆 優於傳統 LLDA ,而平均準確度均值的表現,增強 LDA 在僅考量長度字詞以及加 入種子字詞之 MAP 值分別為 0.3908 以及 0.4065 ,相對於傳統 LLDA 的 0.3402 有 著 14.87% 以及 19.49% 的提升。 因應主題隨機性之處理 由演算法得知,標記式主題模型限制了主題詞彙的分配,並且在某種程度上降 低了主題群聚詞彙的隨機性,但在上面的實驗中,這樣的隨機性對實驗結果仍 會產生些許影響,為了降低主題隨機性對實驗結果所造成的影響,以提升實驗 準確性,我們將所有的實驗執行數次(表格 4.5 中所顯示數據為每組執行三十次. 25.

(41) (a) 平均召回率 @ K. (b) 平均準確度均值 @ K. 圖 4.4: 評量結果比較圖. 治 政 大 是一個樣本,透過統計軟體進行顯著性檢定,檢定結果為通過並且為非常顯著 立 ( p-value 小於 0.01 )。. 之結果),並且將每組實驗數據計算一次 MAP 值,而後我們將每次的結果當成. ‧ 國. 學. 在表 4.5 中我們可以發現,。另外,由表 4.4 中可以看到主題一以及主題七在 對照組中表現普遍低落,即使加上主題隨機性的處理仍不見起色,此兩組主題分. ‧. 別表示「刊物的立場與反省」以及「行政中立──國民黨退出軍警特」,在標記. sit. y. Nat. 的文章篇數稍嫌不足(參考表 4.2 ),經討論後亦認為主題一屬於意義較不明確 之標記,可能為整體表現低落的原因之一。. al. er. io. 除了平均準確度,我們還可以看到增強 LDA 在種子召回率的表現,透過圖. v. n. 4.4a 我們可以看到在不同演算法底下各個主題的平均召回率(@K),平均而言,. Ch. i Un. 增強 LDA 在平均召回率的表現上皆優於兩組 Baseline ;在 K=50 的情形底下,僅 考量長度的增強 LDA 演算法的平均召回率有 0.5088 ,而加入種子字詞後則是增. engchi. 加至 0.5188 ,對比傳統 LLDA 演算法的 0.4877 分別提昇了 4.3% 以及 6.4% 。另 外,從平均精準度均值的圖表(圖 4.4b)中可以看到,在 K=50 之後其值逐漸上 升,其原因有二:首先可以看到的是群聚詞彙的分佈區間,標記為正確的主題詞 彙大約分布在一百組詞彙中前 30 個字詞以及後 30 個字詞,其原因在於即使調整 了長字詞以及種子字詞的權重, LDA 仍屬於統計模型,詞頻仍是影響詞彙於主 題內分佈的主要因素之一,加入權重資訊僅能幫助有一定詞頻的詞彙更能分配至 相關主題下,並不影響原先即為高詞頻的詞彙;另一個可能原因在於各個主題中 所標記為正確答案的主題詞彙平均僅有 38.5 個,根據公式 4.4 中平均準確度的算 法,分母為 K 值與總相關字詞數量之最小值,故分母不變的情況之下分子逐漸增 加,均值自然逐漸提昇。. 26.

(42) LLDA. 0.19146 0.19146. 0.34121 0.34212 0.33987 0.34019 0.34016 0.34034 0.34123 0.34159 0.34171 0.34024 0.34166 0.34288 0.33941 0.34244 0.34042 0.34136 0.34201 0.34108 0.34118 0.34191 0.34195 0.34177 0.34186 0.34171 0.33947 0.34097 0.34067 0.34434 0.34114 0.34073 0.34125. 政 治 大. engchi. y. sit er. n. Ch. 增強LDA (長字詞+種子字詞) 0.37030 0.37599 0.37468 0.39235 0.37216 0.36643 0.38104 0.38997 0.40406 0.37326 0.38523 0.38375 0.37968 0.38146 0.38399 0.40646 0.40982 0.39365 0.37985 0.37237 0.39662 0.38398 0.38361 0.40945 0.38096 0.39589 0.37417 0.39671 0.35232 0.39652 0.38489. ‧. io. al. 增強LDA (長字詞) 0.36968 0.36494 0.37884 0.36337 0.39026 0.36496 0.39080 0.37703 0.39167 0.37204 0.38804 0.39151 0.37098 0.37600 0.36896 0.35689 0.37910 0.39261 0.38416 0.37919 0.37993 0.37919 0.36982 0.38308 0.37762 0.37269 0.38208 0.38447 0.38496 0.36339 0.37761. 學. ‧ 國. 立. Nat. MAP-1 MAP-2 MAP-3 MAP-4 MAP-5 MAP-6 MAP-7 MAP-8 MAP-9 MAP-10 MAP-11 MAP-12 MAP-13 MAP-14 MAP-15 MAP-16 MAP-17 MAP-18 MAP-19 MAP-20 MAP-21 MAP-22 MAP-23 MAP-24 MAP-25 MAP-26 MAP-27 MAP-28 MAP-29 MAP-30 Mean. TF-IDF. i Un. v. 表 4.5: 主題模型對個主題之平均準確度之二(Average Precision @50). 27.

(43) 增強LDA 0.0247 0.3477 0.2501 0.3288 0.4787 0.2086 0.2917 0.4125 0.2467 0.2549 0.1752 0.2948 0.2609 0.4201 0.6350 0.5556 0.4381 0.4338 0.2743 0.1578 0.3701 0.2870 0.3249. 政 治 大. ‧. ‧ 國. 立. LLDA 0.0000 0.3668 0.0443 0.3687 0.2520 0.2493 0.0000 0.3381 0.1904 0.1332 0.1789 0.3464 0.1250 0.3766 0.5651 0.4875 0.4003 0.4088 0.2301 0.1152 0.3770 0.2514 0.2639. 學. TF-IDF 0.0130 主題一 0.1948 主題二 0.0434 主題三 0.0344 主題四 0.2079 主題五 0.0939 主題六 0.2738 主題七 0.3014 主題八 0.2318 主題九 0.2677 主題十 0.1321 主題十一 0.0530 主題十二 0.0000 主題十三 0.1158 主題十四 0.2110 主題十五 0.2347 主題十六 0.1291 主題十七 0.2409 主題十八 0.0998 主題十九 0.1429 主題二十 主題二十一 0.0923 主題二十二 0.3031 0.1553 MAP. y. Nat. 4.2.3 與 傳統 關鍵 字提 取 方法 比較. n. al. Ch. engchi. er. io. sit. 表 4.6: 傳統關鍵字提取方法與主題模型之平均準確度比較(AP@50). i Un. v. 在此組實驗中,我們將主題模型所產生之主題詞彙與傳統關鍵詞提取技術(TFIDF)所產生之關鍵詞進行比較,實驗目的有二:一、觀察兩種方法所提取出 的字詞有無差異;二、觀察加入種子字詞是否能增近新的隱含詞彙之生成。 在 TF-IDF 的方法當中,我們將 1494 篇文章(去除文藝類)重新分類成 22 篇長 文(22 類主題),將相同主題標記的文章視為同一篇文章,若該文章有兩種以上 的主題標記,則以相同內容重複在不同篇長文內的方式處理,最後擷取各新文章 中 TF-IDF 值排序前 100 之詞彙進行比較評估。 在評估方式方面我們仍然使用平均準確度以及平均準確度均值作為評估的標 準,但在正確答案的部份有著些許的差異,為了能夠觀察出加入種子字詞是否能 夠群聚其他與主題相關的隱含詞彙,在此部份的增強 LDA 之中,我們所採用的種 子字詞仍為原始版本的種子字詞(參照表 4.2 第四欄),而最終拿來計算成績的 正確字詞則改為將群聚後標記的字詞減去原始版本種子字詞的「新增字詞」(參 照表 4.2 第六欄),實驗結果如表 4.6 所示。. 28.

(44) 實驗一 實驗二 實驗三. TF-IDF. LLDA. 0.1915 0.1915 0.1553. 0.3402 0.3413 0.2639. 增強LDA (長字詞) 0.3908 0.3776 -. 增強LDA (長字詞+種子字詞) 0.4065 0.3849 0.3249. 表 4.7: 各組實驗與演算法之平均準度均值(Mean Average Precision) 此表格整理以上各組實驗數據,第二組實驗所採用之數據為三十組實驗的平均值 (Mean),其餘皆為平均準度均值的結果。 由結果可以看到,傳統 TF-IDF 所提取之結果與主題模型所群聚之結果的關 聯性不高,以 MAP 來看準確度僅有 0.1553 ,表示大部分由主題模型找出的隱含 詞彙,透過 TF-IDF 並無法找到。同時,我們也看到在個別主題當中,絕大部分 的主題加入種子字詞後,準確度皆有一定程度的提升,而某些主題底下更有高於. 政 治 大. 兩倍的提升,由此可見種子字詞對於群聚隱含詞彙的影響力。另一方面我們也看 到主題十以及主題二十二(「監察」以及「經濟財政」)底下,TF-IDF 的表現約. 立. 略優於主題模型。. ‧. ‧ 國. 小結. 學. 4.3. y. Nat. 在實驗階段,我們首先對資料集進行斷詞、去除標點符號以及一字詞等前處理,. sit. 接著將主題標記以及種子字詞標記加入至演算法之中。實驗結果發現,在考量長. er. io. 字詞作為權重之後,各主題之間所群聚出之主題詞彙,其表現意義更加明確,並 且有更多的人名及專有名詞出現在前一百個群聚結果之中,此結果將有利於專業 人士進行文本分析。此外,我們將事後標記的種子字詞加入其中,並且利用召回. n. al. Ch. engchi. i Un. v. 率(Recall)以及平均準確度均值(Mean Average Precision)做為驗證,由結果可 知本論文中提出的增強型 LLDA 演算法於中文文本的主題聚類的表現上皆優於傳 統的 LLDA 演算法,最後我們再與傳統關鍵詞提取的 TF-IDF 方法比較,驗證了 主題模型所群聚出詞彙的獨立性。. 29.

(45) 第五章 結論 政 治 大 適用中文史料文本的分析方法,我們企圖利用中文長字詞意明確的特性,加上自 立 行定義的主題詞彙(我們稱之為種子字詞),讓主題模型所群聚的隱含主題詞彙. 本研究基於傳統的標記式主題模型(Labeled Latent Dirichlet Allocation),開發了. ‧ 國. 學. 更加明確易讀且切合其主題意義。種子字詞是文本擁有者所認定,與某些主題相 關的詞彙,換句話說也隱含了一些已知知識在其中,我們希望能將這些資訊加入. ‧. 群聚演算法的考量,加強主題詞彙的群聚結果。為此,我們發表了增強 LDA ,我. y. Nat. 們在主題群聚的演算法之中加入了權重的概念,使長字詞以及種子字詞擁有較高 的權重,除此之外我們在每篇文章的主題標記當中加入一般類主題,藉以提昇其. er. io. sit. 他主題之群聚結果,使群聚出的主題詞彙與該主題更加相關。. 在應用於中文文本部分,我們利用 Jieba 分詞的繁體中文詞庫以及自行定. n. al. Ch. i Un. v. 義之人工關鍵詞解決了中文的斷詞問題,並且在實驗之前去除意義較為發散的. engchi. 一字詞。實驗的驗證方面則分別利用檢索系統(Retrieval System)當中的準確 度(Precision)、召回率(Recall)以及平均準度均值(Mean Average Precision) 作為最後的評量方法。其中,群聚詞彙之正確標記是以本研究提供之文本檢索 系統為輔助,由熟悉資料集文本之專業領域人員進行標記的動作。在實驗中我 們將增強 LDA 演算法與傳統標記式主題模型(LLDA)與傳統關鍵字提取方法 (TF-IDF)進行比較,結果發現長字詞與種子字詞的加入確實能讓演算法群聚出 更多有意義之隱含詞彙,並且通過統計方法中的 T 檢驗(Student’s t-test),這些 詞彙能夠回饋給文本擁有者或專業領域人員作進一步的分析,使其對該文本有更 進一步的了解。. 30.

(46) LDA 主題模型出現至今約十餘年,期間有相當大量的相關研究,足見其重要 性與受關注的程度,然而大多數的研究聚焦在其後續應用之開發,較少研究針對 其演算法部分進行改良,此狀況於中文文本甚為明顯;而本研究則主要關注於群 聚詞彙之易讀性的改良,並且嘗試由中文詞語特性來切入,對於後續主題模型應 用於中文文本分析應有些許貢獻。 在未來研究方向則可以對語言特性做更深入的分析,如詞性對詞語意義的影 響,此外,也能將改良後的模型套用至以往常見的應用下,例如:文件分類、資 訊檢索、摘要提取等應用。然而,本研究最大的限制在於文本的收集,文本擁有 者必須對相關領域有一定的了解,才能夠對個別主題進行標記,或者提供自行定 義的詞彙,應用門檻相對提高。不過現今的社群網路平台多有提供標記的功能, 相信未來要取得已附標記之文本的難度應會有一定程度的降低,本研究的應用亦 會更加廣泛。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 31. i Un. v.

參考文獻

相關文件

Yuen Shi-chun ( 阮 仕 春 ) , Research and Development Officer (Musical Instrument) of the Hong Kong Chinese Orchestra, is the foremost innovator in the construction

A Cloud Computing platform supports redundant, self-recovering, highly scalable programming models that allow workloads to highly scalable programming models that allow workloads to

In the third quarter of 2002, the Census and Statistics Department conducted an establishment survey (5) on business aspirations and training needs, upon Hong Kong’s

If necessary, you might like to guide students to read over the notes and discuss the roles and language required of a chairperson or secretary to prepare them for the activity9.

A marble texture can be made by using a Perlin function as an offset using a Perlin function as an offset to a cosine function. texture = cosine( x +

To illustrate how LINDO can be used to solve a preemptive goal programming problem, let’s look at the Priceler example with our original set of priorities (HIM followed by LIP

運用 Zuvio IRS 與台日比較文化觀點於日本文化相關課程之教學研究 Applying Zuvio IRS and Perspective on Cultural comparison between Taiwan and Japan to Teaching

According to the related researches the methods to mine association rules, they need too much time to implement their algorithms; therefore, this thesis proposes an efficient