基於主題模型之社群媒體內容分析探索 - 政大學術集成

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政治大. ‧ 國. 學. 基於主題模型之社群媒體內容分析探索. ‧. Exploring Topic Models for Analyzing the Contents of. n. al. y er. io. sit. Nat. Social Media. i n U. Ch. v. ngchi 研究e生：廖舒婷指導教授：陳恭. 中華民國一百零五年七月 July 2016. i.

(2) 基於主題模型之社群媒體內容分析探索 Exploring Topic Models for Analyzing the Contents of Social Media 研究生：廖舒婷. Student：Shu-Ting Liao. 指導教授：陳. Advisor：Kung Chen. 國立政治大學政治資訊科學系碩士論文. 大學. ‧ 國. 立. 恭. ‧ y. sit. Nat. A Thesis. er. io. submitted to Department of Computer Science. n. a National Chengchi Universityv. i l C n U h e n gofctheh iRequirements in partial fulfillment for the degree of Master in Computer Science. 中華民國一百零五年七月 July 2016 ii.

(3) 致謝時光飛逝，兩年研究所生涯即將告一段落，在政大求學這兩年真的過得很充實，能夠成就本篇研究論文，完成我人生的重要目標，首先要感謝我的指導教授陳恭老師，在研究過程中給予很多資源和學習機會，讓我充分學到所需的專業知識。每當遭遇瓶頸時，老師總是靈機一動，提出更好的建議。老師認真的態度也感染我要努力完成學業及論文。也謝謝老師辛苦授課，我在課堂上習得許多新技術與知識，尤其老師的翻轉式教學和幽默的風格，讓原本看似枯燥的課程變得生動有趣許多。. 政治大很多寶貴的指導與建議，使我的研究得以更加完善。也要謝謝研究所同學夥伴們立另外要特別感謝鄭宇君教授與陳百齡教授，在跨領域知識和資料分析上給予. ‧ 國. 學. 以及實驗室學長共同努力奮戰、相互激勵。. 最後要感謝天上的阿公保佑我求學順利，感謝我的爸爸、媽媽、弟弟，還有. ‧. 我的先生，在我念書壓力最大的時候，總是替我加油打氣，提醒我莫忘回學校念. sit. y. Nat. 書的初衷，讓我以正向的態度面對繼續往前走。尤其感謝我的先生，從研究所報. al. er. io. 名考試的第一天開始到最後的畢業口試，一路都陪伴著我並給予我最大的支持，. v. n. 讓我能夠無後顧之憂做我想做的事，完成碩士學業，謝謝！. Ch. engchi. i n U. 廖舒婷. iii. 謹識.

(4) 摘要隨著網路文章訊息量的快速增長，傳統內容分析已無法在短時間內有效地處理和解析龐雜文本潛在意義，為此，本研究嘗試建置一套以非監督式學習主題模型技術為核心的工具，結合自然語言處理可協助研究學者快速處理與探索大量中文資料，挖掘蘊藏的知識。並透過整合自動化的評估機制，提供模型效果好壞之參考。另由於主題模型所產出的結果仍需要人工判讀，因此本研究再利用視覺化技術呈現，以輔助研究學者詮釋結果。本研究以太陽花學運期間六個來源收集資料為實驗對象，包括 Facebook、. 政治大於大量中文文本內容探索，有助於減少人工處理和手動作業，並縮短整個資料分立 Twitter 以及四大即時新聞報，實驗結果顯示本研究建置之工具可以有效地應用. ‧ 國. 學. 析時程。藉由主題模型技術，我們得以探討社群媒體和新聞媒體關注議題之異同，而研究過程也發現不只台灣民眾以及新聞媒體關心太陽花學運，來自香港、大陸. ‧. 等世界各地的網友亦藉由社群媒體平台主動關注或發表意見。另依據主題的分布. sit. y. Nat. 情況，亦可作為話題熱門度的指標。. al. er. io. 最後，本研究進行模型效度評估，觀察衡量主題模型應用於不同性質中文文. v. n. 本資料之可行性與限制。此外，本研究透過文本歸類計算取得資料集主題的組成. Ch. engchi. i n U. 便可作為初步篩選資料集之重要特徵，從而提出未來可延伸發展的方向。. iv.

(5) Abstract Recently, the data retrieved from the internet are too large for traditional content analysis methods to handle and extract high quality insights in reasonable amounts of time. To address this issue, we develop a data analysis system based on unsupervised topic modeling method. In particular, we focus on applying this tool to process Chinese texts. By a proper integration with the Chinese tokenization tool, jieba, our system is able to explore and analyze Chinese documents rapidly yet effectively. Besides, the system also automatically performs a quantitative evaluation of the quality of the. 政治大 model works. Finally, as the outputs produced by topic modeling rely on human 立 generated model, which is useful for the user to get an idea quickly about how well the. interpretation, we present a method for visualizing topic modeling results to help end-. ‧ 國. 學. users understand and interpret what topics have been discovered.. ‧. To evaluate our system, six Chinese text data sets of different network media sources. sit. y. Nat. are used for experiment. The result in this study shows the proposed system can be. io. er. applied to analyze large volumes of unlabeled Chinese text and help reduce manual work, and shorten the amount of time required. We then compare the topics found from. al. n. v i n social media with those from C online news. It is observed h e n g c h i U that Taiwan’s Sunflower. Movement not only received great attention from people in Taiwan, overseas users in Hong Kong or China also express their concerns and opinions through social media. Furthermore, according to topic distribution, we can also find hot topics easily. Finally, we conduct some experiments to evaluate and understand the limiting factors of the propose system. An interesting finding is that our system can act as a data filter tool where the composition of data sets can be computed and used to define the filters for quick selection of relevant data sets from large data sets.. v.

(6) 目錄第一章緒論.................................................................................................................. 1 1.1 研究背景與動機.............................................................................................. 1 1.2 研究目的.......................................................................................................... 4 1.3 研究成果.......................................................................................................... 5 1.4 章節概要.......................................................................................................... 9 第二章相關研究與技術背景.................................................................................... 10 2.1 文字探勘........................................................................................................ 10 2.2 主題模型概述................................................................................................ 11. 政治大. 2.2.1 潛在語意分析..................................................................................... 12. 立. 2.2.2 機率潛在語意分析............................................................................. 13. ‧ 國. 學. 2.2.3 隱含狄利克雷分布............................................................................. 15 2.3 主題模型評估方法........................................................................................ 18. ‧. 2.3.1 Perplexity ............................................................................................ 18. y. Nat. 2.3.2 Topic Coherence .................................................................................. 19. sit. 2.3.3 Topic Distance ..................................................................................... 20. n. al. er. io. 2.4 詞袋模型........................................................................................................ 20. i n U. v. 2.5 模組化............................................................................................................ 21. Ch. engchi. 2.6 工作佇列技術................................................................................................ 21 第三章系統設計與架構............................................................................................ 23 3.1 分析流程........................................................................................................ 23 3.2 系統架構........................................................................................................ 24 3.3 資料來源........................................................................................................ 25 3.4 前處理作業模組............................................................................................ 27 3.4.1 斷詞處理............................................................................................. 27 3.4.2 詞性標記............................................................................................. 28 3.4.3 停用字剔除......................................................................................... 29 vi.

(7) 3.4.4 詞頻統計............................................................................................. 30 3.5 資料格式轉換................................................................................................ 31 3.6 主題模型建置模組........................................................................................ 31 3.7 評估模組........................................................................................................ 36 3.8 視覺化模組.................................................................................................... 37 3.9 使用者操作模組............................................................................................ 39 3.10 工作佇列架構.............................................................................................. 40 第四章實驗結果與評估............................................................................................ 41 4.1 實作環境........................................................................................................ 41 4.2 資料概況分析................................................................................................ 42. 政治大. 4.3 主題模型結果分析與討論............................................................................ 43. 立. 4.3.1 Facebook 主題模型 ............................................................................ 44. ‧ 國. 學. 4.3.2 Twitter 主題模型 ................................................................................ 46 4.3.3 新聞四大報主題模型......................................................................... 47. ‧. 4.3.4 綜合比較............................................................................................. 54. sit. y. Nat. 4.4 主題模型評估................................................................................................ 56. io. er. 第五章結論與建議.................................................................................................... 58 5.1 結論................................................................................................................ 58. n. al. Ch. i n U. v. 5.2 未來發展與建議............................................................................................ 59. engchi. 5.2.1 系統限制............................................................................................. 59 5.2.2 系統之延伸應用................................................................................. 60 參考文獻...................................................................................................................... 61. vii.

(8) 圖次圖 1-1、Google Trends for “Topic Model” ................................................................... 3 圖 1-2、主題模型結果(範例) ....................................................................................... 6 圖 1-3、主題模型視覺化(範例) ................................................................................... 7 圖 1-4、主題一致性評估結果 ..................................................................................... 8 圖 1-5、主題組成分析 ................................................................................................. 8 圖 2-1、文字探勘架構圖 ........................................................................................... 11 圖 2-2、SVD 模型示意圖 .......................................................................................... 12 圖 2-3、PLSA 模型示意圖......................................................................................... 13. 政治大. 圖 2-4、PLSA 概念圖................................................................................................. 14. 立. 圖 2-5、LDA 結構示意圖 .......................................................................................... 15. ‧ 國. 學. 圖 2-6、LDA 模型示意圖 .......................................................................................... 16 圖 2-7、工作佇列示意圖 ........................................................................................... 22. ‧. 圖 3-1、主題模型分析流程圖 ................................................................................... 24 圖 3-2、系統架構圖 ................................................................................................... 25. y. Nat. sit. 圖 3-3、錯誤的斷詞(範例) ......................................................................................... 28. n. al. er. io. 圖 3-4、調整後的斷詞(範例) ..................................................................................... 28. i n U. v. 圖 3-5、詞頻統計(範例) ............................................................................................. 31. Ch. engchi. 圖 3-6、config_info 檔案內容(範例) ......................................................................... 34 圖 3-7、topic_words 檔案內容(範例) ........................................................................ 34 圖 3-8、doc_topics 檔案內容(範例)........................................................................... 35 圖 3-9、輸出檔案分類(範例) ..................................................................................... 36 圖 3-10、主題字彙網路圖(範例) ............................................................................... 38 圖 3-11、使用者介面 ................................................................................................. 39 圖 3-12、工作佇列架構圖 ......................................................................................... 40 圖 4-1、每日發文量 ................................................................................................... 43 圖 4-2、蘋果日報報導範例之一 ............................................................................... 50 viii.

(9) 圖 4-3、蘋果日報報導範例之二 ............................................................................... 51 圖 4-4、聯合新聞網報導範例 ................................................................................... 53 圖 4-5、網絡關係圖 ................................................................................................... 54 圖 4-6、主題字彙網路圖:即時新聞最大議題詞彙 .................................................. 55 圖 4-7、資料集主題組成 ........................................................................................... 56. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. ix. i n U. v.

(10) 表次表 3-1、詞性標記結果(範例) ..................................................................................... 29 表 3-2、部分停用字列表 ........................................................................................... 30 表 3-3、perplexity 的計算結果 .................................................................................. 32 表 3-4、主題模型系統輸出檔案 ............................................................................... 33 表 4-1、軟硬體配置 ................................................................................................... 41 表 4-2、蒐集資料統計 ............................................................................................... 42 表 4-3、Facebook_3 主題模型結果 ........................................................................... 44 表 4-4、Facebook_2 主題模型結果 ........................................................................... 45. 政治大. 表 4-5、Facebook_diff 主題模型結果 ....................................................................... 46. 立. 表 4-6、Twitter 主題模型結果 ................................................................................... 47. ‧ 國. 學. 表 4-7、自由電子報主題模型結果 ........................................................................... 48 表 4-8、蘋果日報主題模型結果 ............................................................................... 49. ‧. 表 4-9、中時電子報主題模型結果 ........................................................................... 52 表 4-10、聯合新聞網主題模型結果 ......................................................................... 53. y. Nat. n. al. er. io. sit. 表 4-11、主題模型評估 ............................................................................................. 57. Ch. engchi. x. i n U. v.

(11) 第一章緒論 1.1 研究背景與動機隨著資訊科技的快速發展以及網際網路 Web2.0 技術的蓬勃興起，各種社群媒體 (Social Media)讓使用者有多種平台可以隨意進行創作分享與交流意見、經驗及觀點。現今主要社群媒體工具平台包含部落格、Wikipedia、Facebook、Twitter、網路論壇等等，內容更趨於多元，能夠以不同形式豐富呈現包括文本、圖像、音樂. 治政和影片等。社群媒體使得人與人之間的溝通不再受到時間與地理位置限制，其與大立傳統媒體之最大差異性在於打破了以往資訊單向傳播模式，讓使用者透過社群媒 ‧ 國. 學. 體平台上主動參與、自行產生內容、相互交流並且零時差即時地向全球傳遞內容。. 的普及使得社群網站變成許多人生活中不可或缺的一環。. Nat. y. ‧. 傳遞模式的改變讓訊息接收者角色變成了訊息生產者，此外，再加上智慧型手機. io. sit. Facebook 以社交互動分享生活經驗為主，除了能夠建立人際關係，Facebook. n. al. er. 平台所提供的粉絲專頁與社團等功能常被用於公開發布大量的資訊，藉由使用者. Ch. i n U. v. 按讚、回應或分享貼文得到反饋。而 Twitter 因為在內容發表上限制 140 個字數. engchi. 長度，使用者必須以更精煉簡短的詞彙和語句表達，使得 Twitter 文章內容避免了冗長且複雜的陳述而顯得更加精簡扼要，如此也更有利於使用者之間的即時互動和回應。社群媒體功能不僅止於社交分享個人紀事，一旦重大事件發生，社群媒體也成為強大跨時間地域的資訊交流平台。民眾不再像以往一樣單方面依賴電視、報紙或是網路新聞去獲取新聞與事件資訊，愈來愈多人透過社群媒體網站取得資訊快速了解世界上正在發生什麼事情。例如 2010 年末的阿拉伯之春，Twitter 和 Facebook 就扮演著訊息傳遞和集結的重要角色，使得反政府革命能迅速蔓延至 1.

(12) 北非與中東阿拉伯世界 17 國，並因此能在短期時間內順利推翻長久以來的獨裁政權，可見訊息擴散速度與渲染效應明顯優於各大傳統媒體。這場阿拉伯之春也被許多人稱為推特革命或臉書革命。另一方面，在台灣無論是 2013 年洪仲丘軍中遭虐死案，民眾們透過網路號招 25 萬名白衫軍上街或是太陽花運動創造 50 萬人遊行紀錄都改寫了學生運動的歷史。網友在社交群媒體平台上表示關注與表達正反意見，使得多元觀點可以快速被分享無窒礙。針對大規模線上公眾討論與分享內容進行分析從中探勘焦點議題不僅具有學術研究價值也成為熱門的商業應用。例如 IBM 的 Social Media Analytics 輿論. 政治大群媒體上每天快速不斷產生累積的龐雜訊息量，使得在資料擷取、處理與分析等立分析平台1和國內廠商開發的 OpView 社群媒體監測與分析服務2。然而也因為社. 各個環節都形成極大的挑戰。. ‧ 國. 學. 面對網路上過多的資料量以及各樣多元形式的內容，由於大多是非結構性資. ‧. 料，所謂的非結構性資料是指內容長短不一、沒有規律或明確的結構可以以固定. y. Nat. 的型態呈現。這類型資料無法以傳統關聯式資料庫以事先定義的結構化的表格、. er. io. sit. 資料欄位直接對資料操作與分析。因此，非結構性的資料使得資料分析更加困難。對研究人員而言，如何從龐大的非結構性資料訊息中萃取出有用的資訊進行分析. al. n. v i n C 「文字探勘」便是解決這一類問題的有效方法之具有相當的挑戰性與研究價值， hengchi U 一。. 所謂「文字探勘」指的是對大量文本執行編輯、組織與分析的過程，以發現其隱含的特徵關聯，提供分析師或決策者特定的訊息(如：摘要、關鍵字)[1]。許多資料分析工具也因此技術而發展，如何選擇合適的資料分析工具，資料規模與處理速度漸成為重要考量。雖然可以透過資料檢索系統給定搜尋的字串來找出相關資料，但不一定是符合閱讀者所感興趣且具有意義的資訊。主題模型(Topic 1. IBM Social Media Analytics in http://www.ibm.com/analytics/us/en/business/social-mediaanalytics/ 2 OpView in http:// www.opview.com.tw 2.

(13) Model)3是近幾年來最熱門的文字探勘應用在內容分析上的技術，圖 1-1 顯示關鍵字”Topic model”在 Google Trends4上的趨勢(取用日期 2016 年 7 月 13 日)，它能夠從文本資料中自動學習並抽取出隱藏的主題結構技術，將複雜的內容抽象化組織成為若干有意義的”topic”(主題)，因其具備有良好的數學基礎和擴展性而被廣泛的應用與發展。透過主題模型這項技術，我們得以對大規模文本發展深度的內容分析。. 政治大. 學圖 1-1、Google Trends for “Topic Model”. ‧. ‧ 國. 立. (資料來源：Google Trends,2016). sit. y. Nat. n. al. er. io. 由於先前研究較少以中文社群媒體內容作為主題模型的主要分析對象，為此，. i n U. v. 本研究嘗試應用主題模型技術於中文社群媒體，並評估主題模型對於解析中文社. Ch. 群媒體內容的可行性與限制。. engchi. 3. 維基百科，2016，”Topic Model”。https://en.wikipedia.org/wiki/Topic_model，取用日期:2016 年 7月4日 4 Google Trends 是 Google Labs 中的一項服務，可以針對特定關鍵字統計在特定時間內熱門程度的變化趨勢 in https://www.google.com.tw/trends/ 3.

(14) 1.2 研究目的面對不斷增長的資料及繁雜的訊息內容，資料規模與分析速度已成為發展資料分析工具的重點需求。為了協助研究學者能快速有系統地進行大資料探索，進而能專注在有興趣的內容分析上並從中獲取知識，本研究旨在以主題模型為核心技術，結合自然語言處理與自動化評估機制，建構一套資料分析基礎工具。主題模型採用非監督式機器學習方式，可有效地加速分析速度，將大規模且非結構性文字資料轉化成有意義的資訊，研究人員得以快速掌握資料的脈絡，找到有興趣的主題. 政治大. 或重點來源資料做進一步分析，亦能節省原本資料篩選階段需要投入的大量人力. 立. 時間成本。. ‧ 國. 學. 此外，由於目前國內文獻較少運用主題模型對中文社群媒體內容進行分析，為此，本研究以六種來源收集的中文社群媒體資料和即時新聞資料進行主題模型. ‧. 分析與實驗對照，藉此觀察主題模型運用在不同性質中文資料之效果與適用性，. sit. y. Nat. 亦是本研究的研究重點之一。. io. al. er. 然而，主題模型產出的結果還是需要經由人工判讀進而解釋其意義，因此本. v. n. 研究嘗試將所得結果再利用視覺化的方式呈現，使主題具體意義更為浮現，有效. Ch. engchi. 協助研究人員迅速判讀結果從中找出關鍵訊息。. 4. i n U.

(15) 1.3 研究成果本研究依循一般資料探勘程序，提供探索大量中文文本的標準作業流程，除了可應付於未來不同案例的應用上，亦有助於相關研究人員對整體分析工作的掌握。本研究在系統的實作上使用模組化設計建置基於主題模型為核心的資料分析基礎架構，並嘗試將其它資料探索所需的各項程序作業，例如：自然語言處理、資料格式轉換、結果視覺化等，整合在一個共通的介面上。以非監督式學習主題模型進行文本內容解析，可減少大資料處理和分析的複雜度，讓研究學者可以快速. 政治大相較於過去主題模型研究多運用在英文文本的分析上，本研究以太陽花學運立. 得到研究結果。. ‧ 國. 學. 為研究對象，收集兩大社群媒體與四大即時新聞報文章，進行跨不同性質的資料集主題分析，實驗結果證明了本系統應用於大量中文資料的可行性，藉由結合適. ‧. 當自然語言處理，包括：斷詞、詞性標記、特徵詞擷取等功能，可對大規模非結. sit. y. Nat. 構性中文文本進行半自動化內容分析。例如：Facebook 粉絲頁內容的分析發現其. io. al. er. 中擁有特別關注太陽花學運且屬性相關之社團持續追蹤並轉發太陽花學運訊息，. v. n. 如下圖 1-2 所示，灰色話題區塊顯示有特定屬性的社團關注學運事件與分享。. Ch. engchi. 5. i n U.

(16) 立. 政治大. ‧. ‧ 國. 學. 圖 1-2、主題模型結果(範例). 另本系統提供視覺化的方式來呈現主題模型結果，利用網路圖形表示主題與. Nat. sit. y. 主題之間詞彙的關聯性，可幫助研究者更容易分辨主題之間的差異性，快速地看. n. al. er. io. 圖釋義，如圖 1-3。. Ch. engchi. 6. i n U. v.

(17) 立. 政治大. Nat. er. io. sit. y. ‧. ‧ 國. 學圖 1-3、主題模型視覺化(範例). al. 而本系統所整合的自動評估機制可提供判斷模型效能好壞之參考，我們探討. n. v i n Ch 了主題模型對於不同特性的中文文本分析之可行性，結果如圖 1-4，Twitter 資 engchi U 料集在主題一致性度量表現最差(分數最低)，是故主題模型不適用在內容字數過少之中文文本。. 7.

(18) 治政圖 1-4、主題一致性評估結果大立 ‧ 國. 學. 此外，本研究提出計算各個來源的主題組成，透過將文章與其最相關的主題進行歸類整理，藉此得以了解各個來源所關注的焦點是否集中在某些特定的議題. ‧. 上如圖 1-5，我們發現不同來源資料如四大即時新聞報對於同樣事件各有不同報. y. sit. io. n. al. er. 之可能。. Nat. 導主軸之傾向。此分析方法亦提供未來主題模型發展成為資料分析初步快篩工具. Ch. engchi. 圖 1-5、主題組成分析 8. i n U. v.

(19) 1.4 章節概要本論文之章節架構共分為五章，第一章為緒論，針對本論文的研究背景動機與目的以及研究成果作說；第二章文獻探討，對文字探勘、主題模型相關技術，包含發展歷史、演算法以及模型的評估方法等進行探討，另外也探討模組化和工作佇列技術之相關文獻，作為本研究之研究方法參考；第三章詳細說明本論文可達成研究目的之研究方法，將資料分析流程拆解成數個環節步驟說明，依序包括資料蒐集、資料預處理、資料分析、評估以及資料視覺化；第四章針對實驗結果進行. 政治大. 闡釋與評估；第五章為結論與建議，歸納總結本研究實驗結果，並提出未來研究. 立. 可發展或延伸的方向與建議。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 9. i n U. v.

(20) 第二章相關研究與技術背景由第一章的研究背景與動機可知主題模型對於龐大資料分析的價值，因此本章首先對主題模型相關知識和技術進行文獻探討，作為後續內容的研究基礎。本章結構分為：第一節主要介紹文字探勘；第二節針對主題模型演算法加以探討；第三節討論本研究所運用的模型評估度量；第四節介紹詞袋模型；第五節至第七節則說明實作系統所需之相關資訊技術。. 2.1 文字探勘. 治政大面對鉅量資料，文字探勘技術是一種可以從大量的文本中萃取出關鍵概念以及資立料內容的關聯性的過程，以獲取可用的資訊及知識。與資料探勘最大差異在於處. ‧ 國. 學. 理的資料結構，文字探勘所處理的資料大多屬於半結構化或非結構化之文本，而. ‧. 資料探勘則是對結構化文本進行分析，因此在進行文字探勘時，需要先將文本中. y. Nat. 的文字進行處理，透過斷詞、特徵萃取等技術，再將原本資料整理淨化並轉換成. er. io. sit. 適合後續處理與分析的資料格式。. 由 Tan[2]所提出的文字探勘運作架構如圖 2-1 所示，此架構圖主要分成兩個. n. al. 階段:. Ch. engchi. i n U. v. 1. 文本萃取：將文本轉換成可以處理的中間形式，中間形式可以是基於文本呈現，以每一個文本表示一個分析實體(entity)。也可以是基於概念，每個實體以一個物件或特定領域概念代表； 2. 知識淨化：利用分群、分類或視覺化呈現等探勘技術歸納出文本集中彼此的關聯性和模式。基於概念的中間形式則可透過關聯規則發現、預測模型等技術進行資訊萃取。. 10.

(21) 簡略來說，文字探勘先將文本單元化，以特徵為基礎包含字、詞、概念等層次，並以分群、分類、預測模型等分析技術進一步對文本萃取出有價值的資訊。. 政治大. 學. ‧ 國. 立圖 2-1、文字探勘架構圖. (資料來源：AH Tan,1999). ‧. 文字探勘隨著資訊超載的現象而愈來愈受到重視，除了常被應用於文件分群、. y. Nat. 文件分類外，許多研究發展更深層文字探勘的演算法與計算模型做資訊萃取，主. io. sit. 題模型便是近年來最熱門的主題萃取技術，透過大量的文本訓練，我們得以在短. n. al. er. 時間內擷取文字中的重要精華。. Ch. engchi. i n U. v. 2.2 主題模型概述主題模型是一種基於統計方法與機率分布理論發展而來，透過自動分析大量文本資料中的詞頻，以及根據字詞與字詞的共現程度分析內在的關聯性，將一系列有相似分佈規律的詞彙組織成主題，用來表示出更具意義的資料特徵。. 11.

(22) 2.2.1 潛在語意分析主題模型的發展歷史可上推到 Scott Deerwester 等學者於 1990 年所提出的潛在語意分析(Latent Semantic Analysis, LSA)[3]開始。LSA 延伸 VSM 引入語意空間，以「字詞-文本」矩陣來表示字詞與文本之間以及字詞與字詞之間的關聯性。LSA 利用奇異值分解(Singular Value Decomposition, SVD)技術，藉由降維處理，將高維度的「字詞-文本」所組成的向量空間投影至一個低維度由特徵向量組成新的語意(Latent Semantic)空間如圖 2-2 所示。此作法可以有效減少語意空間的雜訊，. 政治大步分析，則可以透過向量計算比對兩文本之間內容的相似性。經由 LSA 分析，立. 使 LSA 較能描述文本與詞彙之間的關聯，推論出文本內隱含的資訊。若要進一. ‧ 國. 學. 同義詞(兩個字詞形態不同，但語意相同)會對映著相同或相似的主題，由此可解決同義詞問題。然而 LSA 無法有效處理一詞多義(一個字詞有不同的意義)問題，. ‧. 且 LSA 的計算複雜度也可能因為分析大量的資料量而過高。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2-2、SVD 模型示意圖5. 5. X 是詞和文件的矩陣;U 與𝑉 𝑡為正交矩陣;∑ 為對角矩陣，且主對角線元素由大而小排序 12.

(23) 2.2.2 機率潛在語意分析 Thomas Hofmann 等學者在 1999 年提出機率潛在語意分析(Probabilistic Latent Semantic Analysis, PLSA)[4]改善 LSA 的問題。PLSA 利用機率模型強化了潛在主題(latent topic)的概念，如圖 2-3 所示為生成機率模型。其中實心的節點 d 和 w 表示可觀察到的文本和字詞，空心的節點 z 則是觀察不到的隱藏變數，在主題和詞彙可觀測的情況下，使用機率密度的函式觀察其語意上的關聯性。. 立. 政治大. ‧. ‧ 國. 學圖 2-3、PLSA 模型示意圖6. y. sit. io. n. al. er. Nat. (資料來源：Thomas Hofmann ,1999). Ch. i n U. v. PLSA 假設每一組文本字詞組(d,w)都是由下列過程所產生：. engchi. 1. 選擇一篇文本 d 服從機率為𝑃(𝑑 ) ;. 2. 從文本 d 中選擇一個潛在主題 z～𝑃 ( 𝑧|𝑑); 3. 從 z 中生成詞彙～𝑃 (𝑤| 𝑧) 。 PLSA 的聯合機率分布以公式(1)表示： 𝑃 (𝑤, 𝑑 ) = ∑𝑧 𝑃 (𝑧)𝑃 ( 𝑑|𝑧) 𝑃(𝑤| 𝑧) = 𝑃(𝑑 ) ∑𝑧 𝑃( 𝑧|𝑑) 𝑃 (𝑤| 𝑧) (1). PLSA 模型圖中的符號代表意義如下:d:文本索引。z:所有主題。w:所有的字詞。N:文本中所有字詞。M:所有文本 6. 13.

(24) 𝑃 (𝑤 |𝑧)和𝑃 (𝑧| 𝑑)是待推估的模型參數。PLSA 基於字詞與文本雙層級模式和分析其共現的規律，使用期望最大值(Expectation Maximization, EM)算法來估計模型參數。與 LSA 比較，PLSA 定義了機率模型，它的每一個變數以及相對應的機率分布都具明確的物理意義，並且能有效解決一詞多義問題。然而，PLSA 訓練出來的模型無法有效的直接應用在未訓練過也就是新的文本上，因為 PLSA 沒有對「文本-主題」這一個層級提供合適的機率模型，仍視其為模型參數，且是在訓練樣本時所得到的。PLSA 模型所需的參數量便會隨著文本數量而呈線性增長，圖 2-4 為 PLSA 的概念圖，假設共有 M 個文本，設定 K 個主題數目，將文本對. 政治大增長，也容易造成 over-fitting 的現象。立. 應到主題就會需要 K x M 個參數，隨著文本與模型參數的增加使得計算量大幅. …. Topic 2. Topic K. ‧. ‧ 國. 學. Topic 1. n Doc 1. er. io. sit. y. Nat. al. i n C Doc h 2 e n g c h… i U 圖 2-4、PLSA 概念圖. 14. v. Doc M.

(25) 2.2.3 隱含狄利克雷分布針對 PLSA 的缺點，Blei 等學者於 2003 年進一步提出隱含狄利克雷分布(Latent Dirichlet Allocation, LDA)[5]來克服這些問題。LDA 與 PLSA 類似，都是生成模型(generative model)，允許由隱藏變數來解釋觀察到的值。LDA 在文本層提供了機率模型，是一個三層 Bayesian 機率模型，包含詞、主題、文本三層架構。每篇文章上的主題機率分布是一個基於 Dirichlet 的事前分布，改善 PLSA 模型侷限在用來訓練模型文本上的問題。LDA 將文本上的語意高度抽象化，視文本為多個. 政治大個主題會包含語意相近的詞彙。立. 主題所組成，而每一個主題則是各個詞彙以不同比例混合而成。一般而言，每一. ‧ 國. 學. LDA 結構示意圖如圖 2-5 所示，將文本集與主題關聯，每一篇文章包含有多個不同比例的主題，而文本中的每一個詞都由其中的一個主題所生成。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 2-5、LDA 結構示意圖. 15. v.

(26) LDA 機率圖模型如圖 2-6 所示，每一篇文本生成的方式簡述如下： 1. 決定文本的長度； 2. 對一篇文本選擇主題機率分佈：決定 θ ~ Dirichlet(α)，參數 α 決定文本的主題機率分佈 θ； 3. 對文本中每一個詞彙重複以下過程： [1] 根據 θ 選擇一個隱含主題 z ~ Multinomial(θ) ； [2] 根據 z 和參數 β 生成詞彙 w~ Multinomial(𝜑)。. 立. 政治大. ‧. ‧ 國. 學. n. al. (資料來源: Blei ,2003). Ch. engchi. er. io. sit. y. Nat. 圖 2-6、LDA 模型示意圖7. i n U. v. 在 LDA 模型中，根據文本的生成規則和給定文本的內容之下，其所有可觀測的變數和隱藏變數之聯合分佈如公式(2)所示: 𝑀 𝑁 𝑃(𝑊, 𝑍, 𝜃, 𝜑; 𝛼, 𝛽 ) = ∏𝐾 𝑖=1 𝑃 (𝜑 𝑖 ; 𝛽 ) ∏𝑗=1 𝑃 (𝜃𝑗 ; 𝛼) ∏𝑡=1 𝑃 (𝑍𝑗,𝑡 |𝜃𝑗 )𝑃(𝑊𝑗,𝑡 |𝜑𝑧𝑗,𝑡 ) (2). 對於一個有 K 個主題、詞列表大小為 V 的主題模型，不同於 PLSA，LDA 的參數個數與訓練集中的文本數量無關。. 7. LDA 模型圖中的符號代表意義如下:α：Dirichlet 參數，表示在潛在主題中的文本分布。β： Dirichlet 參數，表示字詞在潛在主題中的分布。𝜑:主題- 字詞分佈，每個主題的字詞分佈 θ：文本 - 主題分佈，每個文本的主題分佈。Z：文本中每個字的特定主題。W：所有文本的字詞。N：單篇文本中字詞的總數。K：所有主題數量。M：所有文本數量。方框表示迭代。 16.

(27) LDA模型有兩個需要推算的參數值，一個是各主題下的詞彙分佈，一個是各文本的主題機率分布，也就是根據可以觀察到的文本與詞彙學習推算找到一組𝜑 和𝜃使機率值P (w|𝜑, θ)最大。在主題建模之中最常用的取樣方法是吉布斯取樣（Gibbs Sampling）[6]，在母體機率分佈未知而個別樣本機率已知的狀況下，透過大量的抽樣及演算法的迭代計算，其樣本分佈會逐漸收斂並趨近於母體的機率分佈。 LDA具有下列特點： 1. 具有可靠的機率理論基礎與清楚的內在結構，可進一步進行數值計算的處理與分析；. 立. 政治大. 2. 優秀的擴展能力，可以將各種元數據(metadata)，如作者、時間維度等特徵. ‧ 國. 學. 加入模型中形成一個新的模型；. ‧. 3. 良好的降維能力，可以將原本高維度的詞彙空間降維到由一組主題所構成，為相對較小的主題空間上，有助於降低文本表示成本；. y. Nat. n. al. er. io. 語料的分析。. sit. 4. LDA 模型是以無監督式學習方法進行訓練，因此更適合用於大規模文本. Ch. engchi. i n U. v. LDA是近年來主題模型發展與應用的主流演算法，由於LDA是機率生成模型，可以利用高效的機率推論算法進行計算，加上LDA模型計算過程與文本數量無關，對於龐大非結構性以至於難以用人工方式進行分析的資料集大多仰賴LDA 挖掘出主要議題或進行分類。如David[7]等學者透過LDA分析出ACL從1978年到 2006年之間的文獻內容主題，進一步總結各個研究主題隨時間之消長與變化。在資訊檢索領域，對資料擷取特徵建立文本檢索模型是種挑戰，尤其是短文本類型， Phan[8]等學者發現可透過LDA演算法改善搜尋引擎分類器在短文本分類上的表. 17.

(28) 現。Zhao[9]等學者則嘗試使用LDA和其擴展的Twitter-LDA分別分析傳統新聞媒體與Twitter上的話題並了解其差異。Brody[10]等學者則使用LDA探勘網友的評論意見進一步進行情感分析。在中國大陸則有透過LDA來分析新聞話題的演化以幫助使用者快速瞭解和獲取新聞內容[11]，另也有使用LDA決定微網誌中的意見領袖[12]。以台灣而言，就目前發展的相關研究來說有運用LDA在繁體中文的微網誌分類出內容主題[13]。亦有研究[14]利用LDA分析報紙社論、民意論壇文章和PTT內容，進一步探討台灣網友對鄰國議題的情緒關聯。上述研究多肯定LDA 對於發現和探索大規模文本中隱藏主題結構的價值，但由於較少研究是以主題模. 政治大. 型對中文社群媒體內容進行分析，因此，本研究將運用LDA主題模型技術對中文社群媒體內容進行主題挖掘。. 立. ‧. ‧ 國. 學. 2.3 主題模型評估方法. n. al. er. io. sit. y. Nat. 2.3.1 Perplexity. Ch. engchi. i n U. v. Perplexity 是普遍被用在衡量主題模型建模能力的標準，若一個主題模型在測試的資料集上獲得較低的 perplexity 值，則可能代表模型對於新的文本有更好的預測能力。LDA 作者 Blei 就是透過計算 perplexity 值來決定主題數目，使用的公式如公式(3)： 𝑝𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝐷𝑡𝑒𝑠𝑡 ) = exp{−. ∑𝑀 𝑑=1 𝑙𝑜𝑔𝑃(𝑊𝑑 ) ∑𝑀 𝑑=1 𝑁𝑑. } (3). 其中Ｍ代表測試資料集文本的數量，𝐷𝑡𝑒𝑠𝑡 為測試文本集，𝑊𝑑 是測試文本中可以觀測的到的字詞，𝑁𝑑 是字詞數量。本研究係以計算 perplexity 值決定主題數目。. 18.

(29) 2.3.2 Topic Coherence 然而 Perplexity 值不能很好的代表主題詞彙可被理解的程度[15]。另一方面，在文字探勘領域上，無監督式學習方法具有無須經過人工加工處理的好處，但其結果可能不易被人所理解。主題模型並無法保證訓練出來的主題詞彙可以有效被解讀。例如，主題是:{農夫，農業，食品，米，收割}，此主題可以很容易被解讀是農業相關的主題，因為主題中字詞之間的一致性(Coherence)很高。然而如果主題是:{音樂，小狗，手機，安排，水果}，則因為字詞語意的連貫性較低，也比較不會同時出現在文章段落裡。對此，Newman 等學者提出 Topic Coherence 評估方. 治政大 information(PMI)的方法如公式(4)，並藉由參照額外的語料庫，如 Wikipedia，來立自動分析主題的詞對(word pair)在一個固定長度的移動窗（sliding window）內共法作為衡量主題模型品質的指標 [16] ，他們提出基於 Point-wise mutual. ‧ 國. 學. 同出現的頻率，若兩個詞彙經常同時出現，計算後的 PMI 值會相對較高。當 PMI 數值為 0 時，則表示兩個詞彙沒有關聯性，藉此作為決定主題詞對在語意上相關. ‧. Nat. 𝑗). 𝑖. (4). y. 𝑝 (𝑤 ,𝑤 ). PMI(wi,wj) = log 𝑃(𝑤 )𝑖𝑝(𝑤𝑗. sit. 的程度。. n. al. er. io. Mimno 等學者則進一步改善 Newman 等學者的方法提出計算主題一致性分數是. v. 根據主題內出現機率較高的詞彙做為代表，分析其在文本中共現相依的程度[17]，計算方法如公式(5)： 𝐶(𝑡: 𝑉. (𝑡). Ch. ) =. engchi. i n U. (𝑡 ). (𝑡 ). Ｆ(𝑣𝑚 , 𝑣𝑙 )+ε ) (𝑡 ) Ｆ(𝑣𝑙 ). 𝑚−1 ∑𝑀 𝑚=2 ∑𝑙=1 log (. (5). 其中Ｆ(𝑣)是詞𝑣在文本中出現的頻率，Ｆ(𝑣,𝑣 ′)表示詞𝑣與詞𝑣 ′在文本中共現的次數，𝑉 (𝑡) 是主題中出現機率排名前Ｍ個的詞彙。𝐶(𝑡: 𝑉 (𝑡) )數值越大代表該主題的質量愈好，反之𝐶(𝑡: 𝑉 (𝑡) )數值越低時，表示該主題的質量越差。根據實驗，此計算方法比PMI評估更接近人工檢驗的標準，另此方法是以原本建置模型的文本集作為主題詞彙共同出現機率的參照，在實際運作上更為簡便，因此本研究採用此. 19.

(30) 度量方法計算主題的一致性分數來評估模型的品質好壞。另有研究實驗指出ε值越小越可以增加計算的穩定度[18]，因此本研究中設定ε = 10 −12 。. 2.3.3 Topic Distance 由於主題模型中各個主題可以表示為在詞彙上的機率分布，因此我們可以透過計算兩個機率分布之間的距離公式如 Hellinger 距離指標得到兩個主題之間的. 政治大的 Hellinger 距離值就愈小，相反的若主題之間愈是獨立，Hellinger 距離值就愈立距離來衡量它們之間的差異程度[19][20]。當兩個主題分布愈相近時，它們之間. ‧ 國. 學. 高。計算兩個主題 x 與 y 的 Hellinger 距離如公式(6)。本研究以 Topic distance 度量做為另一個評估的參考。. ‧. io. n 2.4 詞袋模型. y. Ch. i n U. (6). sit. √∑|W| ( β − √βyi )2 i=1 √ xi. er. Nat. al. 1 √2. Hs (βx , βy ) =. engchi. v. 詞袋模型（bag of words model）是文本表示法的一種，由 Zellig Harris[21]所提出，他假設語言由不同的結構組成，而各個結構可以獨立運作，這些不同的結構會有相似的特徵，所以可以透過部份特徵來推斷整體的特徵。詞袋模型被廣泛應用在自然語言處理（NLP）領域。主題模型便以詞袋模型來表示文本，把整個文本當成是詞的集合，忽略任何字詞的順序或語法，文本中每一個字詞代表空間中的一個維度，形成文本向量，以便於後續進行向量計算。例如：文本 A 的內容為：「學運期間，鎮暴警察驅離佔領行政院的學生」;文本 B 的內容為: 「學生轉攻行政院的行動，受到警察強力驅離」，文本 A 與文本 B 20.

(31) 以（學運、警察、驅離、佔領、行政院、學生、行動）七個詞形成維度，可以分別表示成（1，1，1，1，1，1，0）和(0，1，1，0，1，1，1，1)的向量。. 2.5 模組化模組化(Module)設計，所謂的模組化基本意義是針對於具有特定用途及機能的構造單元(unit)使其標準化，因而容易裝配或分解的一種理念或設計，如此可選擇必要的基本構造單元組合成不同的產品或系統，達成多功能彈性化的目的。此概念應用在程式設計上，將程式模組化後具有標準化和分割性的特點，物件之間可以. 政治大具有縮短管理發展的時間，使程式更具有彈性，容易被瞭解等優點[22]。立. 彼此相容，可以隨任務需要而進行組合、拆解並重複使用。程式模組化的好處是. ‧ 國. 學 ‧. 2.6 工作佇列技術. sit. y. Nat. 工作佇列（work queues，又名 task queues）如圖 2-7 所示主要的概念就是將較耗. io. er. 時的任務放在後端進行排程處理，不要讓前端的應用程式或使用者一直等待。這. al. 裡我們將工作包裝成訊息的格式，透過 work queue 來管理，後端的 worker 執行. n. v i n 緒會獲取任務然後執行。如C 果同時有很多任務產 h e n g c h i U 生時，我們可以建立多個. workers 來分攤這些任務。使用工作佇列的其中一個好處就是可以很容易的平行處理多項任務，當任務量增加時，只要增加新的 worker 即可立即分擔整個系統的負載，提供良好的擴充性。考量龐大的資料量需要長時間運算處理，本實驗系統實作工作佇列。. 21.

(32) 圖 2-7、工作佇列示意圖 (來源：http://byplacebo.tistory.com/category/Architecture). 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 22. i n U. v.

(33) 第三章系統設計與架構 3.1 分析流程 Fayyad等學者[23]定義知識探索流程（knowledge discovery in databases, KDD），包括選擇資料、資料轉換、資料探勘及結果解讀，也就是從原始數據到發現有用知識的整個資料分析過程，並且指出KDD最終目的就是從資料中挖掘出有用的潛在訊息。本研究以KDD為基礎，提出主題模型分析流程如圖3-1，可區分為四個工作階段概述如下：. 立. 前處理作業：蒐集特定事件的文本資料形成資料集，再對文本進行斷詞、清. 學. ‧ 國. 1.. 政治大. 理雜訊等步驟對每篇文章萃取出具有代表性的重要特徵，使後續分析資料的. 2.. ‧. 品質更加完善；. 資料轉換：將資料轉換成主題模型所需的特定資料格式的過程，以bag of. y. Nat. io. 主題模型建模：利用主題模型自動計算分析文章內含有哪些主題以及每個主. n. al. er. 3.. sit. words來表示資料；. Ch. i n U. 題所佔的比例，以進一步探討文本的主題結構； 4.. engchi. v. 模型評估與釋義:對建置的模型進行效能評估，且以視覺化的方式呈現結果幫助解釋資料。. 上述一連串的程序可視所得的結果情況重複執行調整。. 23.

(34) 政治大. 立圖 3-1、主題模型分析流程圖. ‧. ‧ 國. 學. 3.2 系統架構. sit. y. Nat. io. er. 本研究實作之主題模型分析系統主要考量了穩定性、維護性、可再度利用性以. al. v i n Ch 所示，在各功能模組開發上使其獨立化並允許擴充。系統包含五個主要模組： engchi U n. 及研究後續的發展性等要素，以模組化設計方式建構本系統，系統架構如圖 3-2. 使用者操作模組、前處理作業模組、主題模型建置、評估模組與視覺化模組，每一模組皆可獨立執行且與其他模組無相依關係，使整個系統的後續擴充與維護更為容易。我們將於後續章節逐一說明五個模組。. 24.

(35) 圖 3-2、系統架構圖. 政治大. 立. 3.3 資料來源. ‧ 國. 學. 基本上，本研究所建置之資料分析系統可接受所有文字格式檔案，我們以太陽花. ‧. 運動資料作為實驗的語料庫。. y. Nat. sit. 2014年3月18日至4月10日期間，因質疑立法院內政委員會國民黨籍召委張慶. n. al. er. io. 忠以30秒時間宣布完成《海峽兩岸服務貿易協議》的委員會審查，引發大學生與. i n U. v. 公民團體占領立法院事件，提出四大訴求包括退回服貿、兩岸協議監督法制化、. Ch. engchi. 先立法，再審查服貿、召開公民憲政會議等，占領立法院議場長達二十多日才在立法院長王金平作出承諾後退場，被稱為318學運、太陽花學運或是太陽花運動。期間有許多民眾在社群媒體上參與討論與發表個人意見，透過社群媒體的快速流動與擴散，不僅引起廣泛關注也讓學運議題熱度持續，社群媒體也因此聚集大量具有探討性的民意與公眾價值。本研究使用水火計畫8所蒐集共享的學運期間六個不同來源之文本資料，包括 Facebook、Twitter以及四大新聞報，分別是:自由電子報、蘋果日報、中時電子報、 8. 水火計畫(NCCU-QUT 國際合作團隊) :https://sites.google.com/a/newliteracies.co.cc/floodfire 25.

(36) 聯合新聞網作為語料庫(corpus)進行分析。各個資料蒐集開始時間為2014年3月11 日開始到4月18日，有關蒐集方式與篇數統計說明如下： 1. Facebook資料集：主要蒐集Facebook上的貼文，但因為Facebook不開放關鍵字搜尋功能的API，因此僅能以粉絲專頁(Facebook pages)做為資料蒐集單位，透過2014年318太陽花運動事件倡議組織相關粉絲頁：黑色島國青年陣線與反黑箱服貿協議為出發點，以其貼文被分享次數設定蒐集門檻蒐集相關臉書粉絲頁的貼文內容。例如：門檻值2須符合粉絲頁內容被分享 2次才能加入種子紛絲頁。對Facebook資料集分別整理後，「Facebook_3」. 政治大絲頁7030則貼文。「Facebook_2」是門檻值設定為2即採低門檻蒐集的資料立. 為門檻值設定3為採高門檻所蒐集到的粉絲頁的貼文內容，共計有21個粉. 集，包含了147個粉絲頁37795則貼文。為了能夠更暸解兩個不同門檻值所. ‧ 國. 學. 收集到的資料有何差異性，我們將門檻值設定2收集的粉絲頁減掉門檻值. sit. y. Nat. 入分析。. ‧. 設定3的粉絲頁所得到的資料集「Facebook_diff」包含有29504則貼文也加. io. al. er. 2. Twitter資料集：主要是以關鍵字蒐集Twitter上的文章，關鍵字使用依序為:. v. n. 「服貿」、「立法院」、「立院」、「 CongressOccupied」、「サービス. Ch. engchi. i n U. 貿易」、「国会」、「台湾国会」、「太陽花」、「學運」、「學潮」、「國會」、「馬英九」、「行政院」、「罷課」、「ExecutiveOccupied」、「taiwanoccupy」、「#sunflower」、「sunflowermovement」、「318 學運」、「318」、「林飛帆」、「陳為廷」、「黃國昌」、「仰寧」，共24 個關鍵字，我們只取系統辨識語系為漢字之貼文內容，共計151985筆貼文，並且對其做清洗移除重複轉推貼文即開頭為RT之文章。此外，考量過短的貼文因無足夠的特徵訊息，經過刪除全文字數少於130字的貼文後，最後整理得到12606筆資料做為主題模型twitter實驗資料集。. 26.

(37) 3. 四大即時新聞資料集：四大新聞皆以相同關鍵字蒐集資料，所使用的關鍵字為「太陽花、「學運、「服貿」、「立法院」、「立院」、「行政院」、「林飛帆」、「陳為廷」、「黃國昌」、「馬英九」，共10個關鍵字。自由電子報取得有6552篇報導、蘋果日報有1276篇報導中時電子報1502篇報導、聯合新聞網則有1890篇報導。在資料儲存與管理的部分，本系統建置MySQL資料庫，將未經處理的資料先暫存，主要欄位分別是文本編號(id)、發文時間(create_at)、內文(content)、發文者名稱(user_name) 、主題分布(topic_info)。之後經過主題模型分析，再將結果存入，以便用於後續的查詢。. 立. 政治大. ‧ 國. 學. n. al. er. io. sit. y. Nat. 3.4.1 斷詞處理. ‧. 3.4 前處理作業模組. i n U. v. 「詞」是自然語言處理中最基本的處理單位，由於中文文本不像英文文本可以明. Ch. engchi. 顯地以空格做為詞與詞之間的分隔，所以中文文本必須用更精準的切字方法進行斷詞處理。現行較為普遍被使用的斷詞工具有中研院研發的(Chinese Knowledge Information Processing Group, CKIP) 中文斷詞系統9，和 Python 語言實作的 Jieba 開源斷詞程式庫10。礙於 CKIP 沒有對外公布技術細節且所提供的線上服務有資料處理量的限制，無法一次傳送大量文本11，是以本研究採用 Jieba 作為斷詞系統主要核心程式。. CKIP 中文斷詞系統：http://ckipsvr.iis.sinica.edu.tw/ jieba 結巴中文分詞：https://github.com/fxsjy/jieba 11 CKIP 使用說明：http://ckipsvr.iis.sinica.edu.tw/apply.htm 9. 10. 27.

(38) 特殊詞彙像是專有名詞，如：人名、地名、組織名稱等或是從社群網站創造出來的新生詞彙或網路用語，對於這些類型詞彙因為尚未收入在斷詞詞庫中容易造成錯誤的斷詞結果。斷詞錯誤的情形如圖 3-3 為例，原始句子為：「學生反對黑箱《海峽兩岸服貿協議》的太陽花學運如火如荼的進行之際，各地的聲援也是源源不斷！」，然而因為斷詞系統內的詞庫沒有「海峽兩岸服務貿易協議」和「太陽花學運」這兩個專有名詞，所以這兩個詞彙被斷成「海峽兩岸」、「服務」、「貿易」、「協議」與「太陽」、「花」、「學運」。經過人工加入詞彙之後便可以正常辨識如圖 3-4。在本研究過程中對於未知詞的處理是經由人工視斷詞結. 政治大. 果反覆調整補充辭典來改善斷詞辨識的正確性，經人工建立的詞彙增加約有 772 筆詞彙。. 立. ‧ 國. 學. Nat. n. al. Ch. engchi. er. io. 圖 3-4、調整後的斷詞(範例). sit. y. ‧. 圖 3-3、錯誤的斷詞(範例). i n U. v. 3.4.2 詞性標記詞性標記(Part of Speech, POS)，即針對內文中的每一個詞彙進行詞性分析及標記。詞性基本可以分類為以下兩種： 1.. 實詞：名詞、動詞、形容詞、助動詞、數詞、量詞、代詞、副詞;. 2.. 虛詞：介詞、連詞、助詞、嘆詞、擬聲詞。. 經實驗觀察本研究分析的文本其重要關鍵詞彙的詞性主要集中在「名詞」、「動詞」、「形容詞」，此外本研究所使用的社群媒體資料內容包含使用者發文 28.

(39) 常在文字段落中加入的顏文字、繪文字，用來代替圖像表示不同情緒，例如「^_^」表示笑臉，這一類型的文字符號在詞性標記階段會被標記為字符串，為了避免這些表情符號干擾後續主題模型分析，本研究僅保留被標記為「名詞」、「動詞」、「形容詞」之詞彙進行後續分析，如表3-1。表 3-1、詞性標記結果(範例). 詞性標註抗議 (nz) 學生 (n) 代表 (n) 所 (c) 要求 (v) 的 (uj) 《 (x) 兩岸協議監督條例 (n) 》 (x) ， (x) 是 (v) 希望 (v) 在 (p) 未來 (t) 與 (zg) 對岸 (n) 簽訂 (v) 類似 (v) 《 (x) 服務貿易協議 (n) 》 (x) 的 (uj) 協定(n)時 (d) ，. 政治大告 (n) 後 (f) ， (x) 才能立(v) 著手 (v) 開始 (v) 協商 (n) 。 (x). (x) 一定 (d) 要 (v) 先 (d) 召開 (v) 公聽會 (n) ， (x) 雙方 (n) 才能 (v) 協商 (n) 締結 (v) 計劃 (n) ， (x) 而且 (c) 要 (v) 送入 (v) 立法院 (l) 報. ‧ 國. 學 ‧. 3.4.3 停用字剔除. y. Nat. sit. 為避免無用的輸入造成產生無用的結果，亦「垃圾進，垃圾出」（Garbage in,. n. al. er. io. Garbage out, GIGO），停用字剔除階段便可以幫助清雜訊。在Newman等學者的. i n U. v. 研究指出沒有先經過適當的清理步驟的資料會干擾LDA訓練出來的主題內容的. Ch. engchi. 可理解性，因此需要反覆檢視主題模型輸出結果，移除無效的字彙來增加主題的有效性[24]。在調整停用字的過程中，可以發現有些類型詞彙在文本中出現很普遍但相較於其他詞彙較不具意義且沒有分析之價值如：「拿著、接到、專線」等。此外經觀察發現大部份的單一字元因為無法表達較完整的概念，例如：「和、去、到、及、與、可」等，無法成為關鍵性的詞彙，因此也剔除單一字元詞彙，以確保增加文本特徵詞之品質。本研究亦參考「中央研究院平衡語料庫詞集及詞頻統計」. 29.

(40) 資料12，為根據五百萬詞(token)，帶有標記的中央研究院平衡語料庫所計算出的詞頻統計資料，收錄了語料庫中所有的詞項(type)共55300個詞。我們取統計資料中頻率最高的前100個詞彙，做為本研究用的中文停用字如表3-2。表 3-2、部分停用字列表. 停用字列表的，是，一，在，有，個，我，不，這，了，他，也，就，人，都，說，而，我們，你，了，要，之，會，對，及，和，與，以，很，種，中，的，大，能，者，每，次，把，三，其，讓，此，做，再，所以，只，與，沒有，則，著，她，那，上，但，年，還，可以，時，最，自己，為，來，所，他們，兩，各，上，可，為，或，好，等，又，將，後，因為，於，由，從，更，被，才，已，卻，地，並，位，得，想，去，呢，表示，到，. 治政大可以，將，如果，可能，不過，如此，特派記者，本報記者，直播，報導，立拿著，換來，轉錄，影像，圖片，看似，時段，接到，版面，側門，事情， ‧ 國. 學. 專線，假裝，很大，中餐，廣編特輯，總計，形容，大廳，設法，身上，日子，那邊，數量，感到，形狀，回到，共有，全數，運用，二度，具有，例. ‧. 如，像是，公分，搞不懂，比起，不算，網址，不到，是否，變得，就算，點閱，部分，看看，擺在，當作. n. al. er. io. sit. y. Nat 3.4.4 詞頻統計. Ch. engchi. i n U. v. 經過斷詞、詞性篩選與剔除停用字步驟後，再針對出現次數過少的詞彙，其較不具有鑑別力，也會增加分析成本。本研究計算出詞頻統計，依詞頻高低排序後，移除詞頻較低的詞彙只保留出現頻率超過 5 次以上之詞彙作為後續分析的重要詞彙。此功能會產生一個文字檔案(.txt)如圖 3-5 所呈現包含資料集的詞彙與詞彙統計次數。. 12. 「中央研究院平衡語料庫詞集及詞頻統計(Word List with Accumulated Word Frequency in Sinica Corpus 3.0)」是根據中央研究院平衡語料庫(五百萬詞)所計算出的詞集及詞頻統計資料，每一筆詞包含詞類、詞頻(在語料庫中出現的次數)、還有照詞頻排序至此詞的累積頻率(100 為總頻率和)。 30.

(41) 政治大. 圖 3-5、詞頻統計(範例). 立. ‧ 國. 學. 3.5 資料格式轉換. ‧. 經過前處理作業後，本研究接著將資料格式轉換為主題模型使用的格式即以詞袋. y. Nat. 對文本中任意一詞彙的選擇將不受語意影響。. n. al. Ch. engchi. er. io. sit. 格式表示的文本特徵向量，忽略文本內容語法和詞序列的資訊，換言之主題模型. i n U. v. 3.6 主題模型建置模組本研究考量資料規模與分析速度的需求，主要是以開源的 Python 程式庫 Ge nsi m13 作為核心程式實作 LDA 演算法。其具有跨平台的特性之外，未來亦方便與其他工具整合使用。. 13. genism: Topic modeling for humans in https://radimrehurek.com/gensim/ 31.

(42) 在建置模型之前需要設定主題數目，也就是文本集中所有文章共享的主題數目。我們採用計算 perplexity 值的方式來決定主題的數目。表 3-3 呈現各個資料集計算不同主題數目下所得到的 perplexity 值，因此本實驗便各設定 10 個主題具有最小的 perplexity。表 3-3、perplexity 的計算結果. Facebook_3. Facebook_2. 400. Perplexity. Perplexity. 500. 300. 政治大. 200 100. 立. 0. 20. 30. 40. 50. 10. 20. 主題數目. Facebook_diff. io. 200. al. n. 0 10. 20. 30. 40. 主題數目 C h. v. i n U 10. 50. engchi. 自由電子報. 20. 30. 50. 主題數目. 蘋果日報. 800. 2000. 600. 1500. Perplexity. Perplexity. 40. y. 120 100 80 60 40 20 0. sit. 400. 主題數目. er. Perplexity. 600. 50. Twitter. Nat. Perplexity. 800. 40. ‧. 1000. 30. 學. ‧ 國. 10. 600 500 400 300 200 100 0. 400 200. 1000 500. 0. 0 10. 20. 30. 40. 10. 50. 20. 30. 主題數目. 主題數目. 32. 40. 50.

(43) 聯合新聞網. 800. 1000. 600. 800. Perplexity. Perplexity. 中時電子報. 400. 200. 600 400 200 0. 0 10. 20. 30. 40. 10. 50. 20. 30. 40. 50. 主題數目. 主題數目. 政治大 3-6 紀錄使用者檔案資訊以及建置模型設定的參立. 主題模型分析程式執行完後的輸出檔案說明如表 3-4 所示。第一個輸出檔 (config_info) 如圖. 數;topic_words 輸出檔則是主題模型結果，儲存成文字檔顯示每一個主題所包含. ‧ 國. 學. 的詞彙和機率值，如圖 3-7，此外也儲存成 csv 檔方便使用者進一步利用。. ‧. doc_topics 輸出檔案則包含該文本的主題分佈與原文本內容資訊，如圖 3-8。最. sit. y. Nat. 後，系統再將 doc_topics 檔案加以歸類，依其分布比例最高的主題歸類放置在所. io. al. n. 3-9。. er. 屬的主題資料夾下，方便使用者可以選擇不同主題資料夾去檢視相關文件，如圖. i n C 表 3-4、主題模型系統輸出檔案 hengchi U. 檔案名稱. 檔案格式. 說明. config_info. .txt. 記錄主題模型參數. topic_words .txt. doc_topics. v. 記錄每個主題所包含的詞彙以及每一個詞彙在主題. .csv. 上的機率分布. .txt. 記錄主題在各個文本上的分布. .csv. 33.

(44) 立. 政治大. ‧. ‧ 國. 學. 圖 3-6、config_info 檔案內容(範例). n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 3-7、topic_words 檔案內容(範例). 34. v.

(45) 立. 政治大. ‧. ‧ 國. 學 er. io. sit. y. Nat. n. a圖l 3-8、doc_topics 檔案內容(範例) i v n Ch U engchi. 35.

(46) 立. 政治大. ‧. ‧ 國. 學. 圖 3-9、輸出檔案分類(範例). 3.7 評估模組. sit. y. Nat. n. al. er. io. 針對所建立的模型效果好壞的評估，本研究實作了兩項度量指標，根據兩個面向. i n U. v. 來評估主題模型產出結果的品質，其主要目的是能夠對主題模型建置的結果自動進行評估。. Ch. engchi. 透過 Mimno 等學者所提出的 Topic Coherence 評估方法，分別對每一個主題出現機率最高的前 10 個詞彙去計算兩兩詞彙組之間的一致性分數，最後計算平均該資料集所有主題的一致性分數。另外，使用 Hellinger 距離公式計算得到兩兩主題分布之間的距離即該資料集主題之間的差異程度，作為模型評估的另一個度量方法。. 36.

(47) 3.8 視覺化模組如何對所產出的結果快速地從中獲取知識是非常重要的，因此此階段重點為如何運用視覺化技術讓主題模型的結果可以更清楚的被顯現出來，因為主題模型分析是機器由下往上產生不會自動判讀命名每一個主題內容，尤其在真實的應用中，常常因為所產生的主題內容互相之間出現有共通詞彙的情形，造成不易區分和歸類主題。為了協助研究者進行主題模型結果的判讀，我們透過製作主題字彙網路圖形. 政治大的意義，將主題中獨立(exclusive)的詞彙顯示在圖的外圍，這些獨立的詞彙也相立. 來表現出主題詞彙與主題詞彙之間的關係，以機率最高的前十個詞彙表示該主題. ‧ 國. 學. 對具有該主題的代表性，而主題之間重複出現的共同詞彙則呈現在圖的中心，以灰色的線連結建立其關係。因為我們只考慮主題之間是否有重複的詞彙，所以各. ‧. 個主題之間以無向連結。藉此得以表現主題與主題之間的詞彙之差異，產出檔案. n. al. er. io. sit. y. Nat. 如下圖 3-10。. Ch. engchi. 37. i n U. v.

(48) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 3-10、主題字彙網路圖(範例). 38. v.

(49) 3.9 使用者操作模組以簡易操作為原則設計使用者操作介面如圖 3-11，欄位一為結果檔案寄送的使用者個人信箱。欄位二為使用者選擇上傳要分析的 csv 檔案。欄位三為 csv 檔案要分析的內容欄位。欄位四開始到欄位六為前處理作業相關參數，需要使用者選擇要保留做分析的詞性(預設是保留全部詞性)。欄位五提供使用者輸入要保留詞頻大於多少的詞彙(預設為三次)。欄位六則為上傳使用者設定好的停用字檔案，格式為文字檔(.txt)。欄位七之後是主題模型所需輸入的參數，包含主題數目的. 政治大而一次訓練的文本數量，預設為一次訓練全部文本。立. 設置和執行次數(iteration)，預設為使用者所輸入的主題數目乘以兩倍的數值，. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 圖 3-11、使用者介面 39. i n U. v.

(50) 3.10 工作佇列架構為應付龐大的資料量及其處理與分析需要較長的執行時間，實作工作佇列架構來處理這類型需求，可將耗時的分析工作置入工作佇列中並等待分配至後端多個 workers 來處理，亦實現可高度擴展性的系統，運作流程如圖 3-11 所示，詳細說明如下： 1.. 用戶端對系統發出請求；. 2.. 將工作放置到佇列(Task Queue)進行排程處理；. 4.. 任務執行完後透過 Email 將系統輸出檔案寄給使用者。. ‧. ‧ 國. 學. 3.. 治政工作排程(Scheduler)負責把 task 從 Task Queue 大依序傳遞給後方的立 worker 處理；. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 3-12、工作佇列架構圖. 40. v.

(51) 第四章實驗結果與評估本章將陳述本研究之實驗過程與結果。本實驗係運用主題模型探索分析社群媒體與即時新聞在太陽花學運期間產生的內容。首先對資料集文本進行前置處理作業包括斷詞、擷取特定詞性的詞彙、過濾過低詞頻，接著透過主題模型 LDA 演算法建置模型自動萃取文本內的主題資訊，並分析討論社群媒體與即時新聞關注話題是否有異同，最後利用自動評估的度量方法來衡量模型的品質。. 4.1 實作環境. 治政大表 4-1 說明本論文建置主題模型分析系統使用的軟硬體配置，實作系統建置於立 ‧. 說明. n. al. 記憶體. 8G. 硬碟. 256GB SSD. 程式撰寫語言. Python. 資料庫. MySQL. Ch. engchi. 41. er. 2.4 GHz Intel Core i5. sit. y. MAC OS X. io. CPU. 表 4-1、軟硬體配置. Nat. 作業系統. 學. 項目. ‧ 國. MAC 系統上，以 Python 語言編寫。. i n U. v.

(52) 4.2 資料概況分析各個資料集概況說明如表 4-2，社群媒體的文本數量較高但平均字數較少。我們從圖 4-1 觀察看到各個來源文章發佈的時間頻率，高峰期大致集中在 4 個發展事件的時間點：3 月 18 日占領立院、3 月 23 日行政院衝突、3 月 30 日五十萬人凱道遊行、4 月 10 日學運退場。Facebook 討論量最多的兩個時段是分別是在 3 月 19 日，也就是學生 3 月 18 日深夜開始佔領立法院到隔天 3 月 19 日達到高峰，與 3 月 23 日行政院警察驅離抗議學生事件則達到最高峰。此外於 3 月 30 日有五. 政治大得當天成為另一波 Facebook 社群聲量的小高點。而 Twitter 上的發文量明顯在 3 立. 十萬人凱道集會遊行聲援反服貿運動，許多參與群眾在現場打卡或上傳照片，使. ‧ 國. 學. 月 23 日行政院發生暴力衝突達到最高峰。四大即時新聞也明顯從學生占領國會之後開始大幅的發布，其中攻佔行政院及 330 凱道大遊行兩次事件，成為學運期. ‧. 間新聞報導量的最高峰。社群媒體對於太陽花學運的討論聲量在學生退出議場之. sit. io. n. al. i n U. 表 4-2、蒐集資料統計. Ch. er. 幅數量。. y. Nat. 後逐漸消退，而即時新聞則是因為服貿爭議未歇還持續追蹤報導，維持一定的篇. e n g c文本數 hi. v. 類別. 資料集. 社群媒體. Facebook_3. 7030. 244. Facebook_2 Facebook_diff. 37795 29504. 207 213. Twitter 自由電子報. 12606. 135. 6552. 550. 蘋果日報. 1276. 774. 中時電子報. 1502. 707. 聯合新聞網. 1890. 661. 即時新聞. 42. 平均文章長度.

(53) 圖 4-1、每日發文量. 立. 政治大. ‧. ‧ 國. 學. 4.3 主題模型結果分析與討論本論文從兩個面向進行分析與探討:. Nat. 2.. Facebook, Twitter 與四大新聞報導議題層面的差異性。. n. al. er. sit. y. Facebook 以不同門檻設定所收集到的資料內容的差別。. io. 1.. Ch. i n U. v. 為了解決上述問題，在本論文中以每一篇文章為單位進行主題模型建置，依. engchi. 主題詞彙機率分佈排名分別列出該主題出現機率最高的前十名詞彙當作核心詞彙來解釋主題模型產出的結果。其次，我們探討各個來源資料的主題組成比例，透過歸類每篇文章至其最相關的主題下，統計每個主題的文章數量，再將其百分比化以作為主題組成比例和大小排序的依據，藉此加以了解不同來源資料集的主題傾向是否集中討論某些特定議題或是均勻發散於多個主題，而主題內的文本數量愈多表示這個主題受到較多的關注。我們將實驗結果分成以下三個小節依序詳細說明。. 43.

(54) 4.3.1 Facebook 主題模型 Facebook 各門檻資料集訓練得到的主題與其核心詞語如表 4-3、表 4-4、表 4-5 所示，表中 ID 代表主題編號。從主題詞彙大抵都能得知各主題的意義並間接觀察出粉絲頁屬性。從結果明顯看出「Facebook_3」資料集除了 T8 主題之外多聚焦在反服貿相關的話題，由此可見，Facebook 門檻 3 的粉絲頁與學運高度相關，其中第一大主題文章數量就佔了總量約 28%。而門檻 2「Facebook_2」的資料集則看到夾雜了一些與學運無直接相關話題如 T1、T7。. 政治大論的話題因此更加浮現，如 T 提到泛民、基本法與 T 提到香港人、王維基，便立從「Facebook_diff」的結果則可以看到主題的比例變的更平均，一些外圍討 4. 5. ‧ 國. 學. 可以明顯觀察到是討論香港政治的社群分享引用了台灣太陽花學運粉絲頁給自己的社群香港人觀看，對應當時香港熱烈討論的政治議題，親中派封殺泛民派的. ‧. 王維基開設電視執照。此外，T3 有出現綠黨關鍵字和 T9 為反核四話題，說明了. n. al. 編號. 主題詞彙(前 10 個). y. sit. io. 表 4-3、Facebook_3 主題模型結果. er. Nat. 那些關心反核、綠黨的社團亦特別有意識關注學運。. Ch. engchi. i n U. v. 文本數量 %. 排名. T0. 警察行政院學生驅離暴力立法院佔領抗議警力受傷. 27.8%. 1. T1. 聲援立法院佔領佔領立法院物資學生支援反服貿抗爭守. 12.3%. 2. 護. T2. 學運學生反服貿林飛帆衝突陳為廷凱道佔領立法院退場. 12.1%. 3. T3. 服貿協議訴求服貿審查學生立法院張慶忠監督黨團退回. 8.8%. 4. 8.7%. 5. 服貿. T4. 服貿影響問題議題衝擊服貿協議學者支持關心投資 44.

(55) T5. 服貿佔領立法院立法院爭議貿易國會無雙審議內政關心. 7.4%. 6. 6.1%. 7. 審服貿. T6. 學生民主學運支持立法院太陽花太陽花學運力量捍衛民主訴求. T7. 民主學生支持魏揚講堂太陽花學運學運宣講勇氣力量. 6.0%. 8. T8. 法律民主政治憲政憲法體制審議問題行政權力. 5.8%. 9. T9. 監督民主兩岸協定草案政院人權立法院訴求保障施壓. 3.8%. 10. 政治大. 表 4-4、Facebook_2 主題模型結果. 立主題詞彙(前 10 個). 文本數量. ‧ 國. 學. 編號. 排名. 35.3%. 1. 13.4%. 2. 10.0%. 3. T3. i U e h n c g 服貿影響問題勞工貿易服貿協議衝擊服務業競爭政治. 8.0%. 4. T4. 聲援關心物資學生電視反服貿安全民主歷史立法院. 8.0%. 5. T5. 行政院學生佔領佔領立法院驅離反服貿抗爭暴力立法院. 5.9%. 6. 學生立法院學運反服貿抗議太陽花學運林飛帆聲援訴求. y. Nat. 服貿. sit. T0. ‧. %. T2. 民主訴求服貿服貿協議立法院監督學生退回服貿審查民. v ni. n. al. er. 問題公義電影醫院香港人宣傳教育影響生態選舉. io. T1. 意. Ch. 抗議. T6. 學生凱道聲援和平訴求太陽花理性黑箱民主抗爭. 5.4%. 7. T7. 土地政治問題政策資源核四體制年輕人意志王家. 5.3%. 8. T8. 服貿問題學生民主法律研究醫療機制立法院工會. 4.1%. 9. T9. 驅離學生學運抗議暴力中正一分局訴求違法政院魏揚. 4.0%. 10. 45.