社群媒體新詞偵測系統以PTT八卦版為例 - 政大學術集成

全文

(1)國立政治大學資訊科學系研究所碩士學位論文. 社群媒體新詞偵測系統以PTT八卦版為例. 政治大 Chinese new words detection from social media 立 ‧. ‧ 國. 學. A Thesis submitted to Department of Computer Science. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 指導教授:陳恭博士研究生:王力弘撰. 中華民國一0四年六月 June 2015.

(2) 摘要近年來網路社群非常活躍，非常多的網民都以社群媒體來分享與討論時事。不傴於此，網路上的群聚力量已經漸漸從虛擬走向現實，社群媒體的傳播力已經可以與大眾傳媒比擬。像台大 PTT 的八卦版就是一個這樣具指標性的社群媒體，許多新聞或是事件都從此版開始討論，然後擴散至主流媒體。透過觀察，網路鄉民常常會以略帶灰諧的方式，發明新的詞彙去討論時事與人物，例如：割闌尾、祭止兀、婉君、貫老闆…等。這些新詞的出現，很可能代表一個新的. 政治大. 熱門話題的正在醞釀中。但若以傳統的關鍵詞搜索，未必能找到這些含有此類. 立. 新詞的討論文章。因此，本研究提出一個基於「滑動視窗(Sliding window)」的. ‧ 國. 學. 技巧來輔助中文斷詞，以利找出這些新詞，並進而透過這些新詞對來探詢社群. ‧. 媒體中的新興話題。我們以此技巧修改知名的 Jieba 斷詞工具，加上新詞偵測. sit. y. Nat. 的機制，並以 PTT 的八卦版為監測對象，經過長期的的監測後，結果顯示我們. io. al. n. 系統發現的新詞與新話題的確有極高的相關性。. Ch. engchi. er. 的系統可以正確的找出絕大多數的新詞。此外，經過與主流媒體交叉比對，本. i n U. 關鍵字：中文斷詞、新詞偵測、社群媒體分析. v.

(3) Abstract In recent years, a very large portion of Internet users are used to share and discuss current events over social media. Indeed, as more and more people actively participate in the various virtual communities over the Internet, it is fair to say that the spread power of social media can be compared with that of mass media. The popular PTT gossip board is one such indicator of social media. In Taiwan, many news or events originated in this board would spread to the mainstream media and then become hot topics in the society.. 治政大invent new vocabulary to We notice that many Internet users often 立 ‧ 國. 學. discuss current events and characters. The emergence of these new words may later grow into a new hot topic in the society. However, if we apply. ‧. the traditional keyword search, we may not be able to find these articles. Nat. sit. y. with such new words. Therefore, this thesis present a "sliding window". n. al. er. io. technique to assist Chinese segmentation tool for facilitating the. i n U. v. identification of these new words. Besides, these new words often. Ch. engchi. represent a key indicator for new discussion topics. We use this technique to extend the famous Chinese segmentation tool, Jieba, with a new word detection mechanism, and apply it to the PTT gossip board. After a long-term monitoring, we obtain the results showing that our system can correctly identify the vast amount of new words in the board. In addition, after a cross comparison with the mainstream media, the new words identified by this system are indeed related to the popular social topics in a very high manner..

(4) Keywords: Chinese Words Segmentation、New Words Detection、Social Media Data Analysis. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(5) 謝辭兩年的時間一轉眼就要過去了，很榮幸可以在政大資科和各位同學和老師一同成長，之前的求學路唸的都是商科相關，對於電腦的涉略比較少，在就業之後開始從事軟體相關工作，漸漸對於完成電腦相關碩士的學業產生了想法，很感謝我的女朋友，一路支持我報考，當我想放棄的時候也不斷得鼓勵我，還有努力支持我的家人，希望可以將完成學業的喜悅獻與在天上的父親。. 政治大. 非常感謝指導教授陳恭，每學期的上課內容非常的充實讓我獲得. 立. 不少新的技術及知識，讓我可以學藝致用在我的工作領域上，初期. ‧ 國. 學. 在論文的題目尋找上並不順利的，非常感謝老師不斷的教導提醒提. ‧. 供了我不少資源，另外也感謝傳播學院孙君老師和百齡老師，對於. y. sit. io. er. 明朗。. Nat. 我的研究提出關於傳播方面的指導跟建議使得論文方向可以越來越. n. a 還有我的研究所同學及戰友們珂齊、瑞程、宗佐，上課的時候我 v. i l C n hengchi U 們總是互相加油幫助勉勵，我才可以順利的完成課程，祝大家也可以儘快地一貣畢業。最後再次感謝陳恭老師，您讓我從一個只會不明究理寫Code自學程式人到慢慢瞭解原理，使我可以更喜歡寫程式更有興趣去面對技術，這對於將來非常的有幫助，感謝老師的教導。政治大學資訊科學研究所王力弘 104年6月8日.

(6) 目次第一章緒論 ....................................................... 1 1.1 研究背景與動機 ................................................................................................... 1 1.2 研究目的 ............................................................................................................... 2 1.3 研究貢獻 ............................................................................................................... 2. 1.4 論文章節架構 ....................................................................................................... 3. 第二章相關技術及研究背景 ......................................... 4. 政治大. 2.1 歧異性與未知詞 ................................................................................................... 4. 立. 2.1.1 未知詞的擷取 ................................................................................................ 5. ‧ 國. 學. 2.1.2 未知詞的偵測 ................................................................................................ 6 2.1.3 N-gram 斷詞 ................................................................................................... 7. ‧. 2.2 文章特徵詞擷取 ................................................................................................... 8. y. Nat. al. er. io. sit. 第三章斷詞系統設計與實作 ........................................ 10 3.1 斷詞工具的選擇 ................................................................................................. 10. n. v i n Ch 3.2 Jieba 的斷詞模式................................................................................................. 10 engchi U 3.3 斷詞的問題 ......................................................................................................... 17 3.4 維特比算法新詞偵測模式與其缺點 ................................................................. 18. 3.5 錯誤詞的修正及新詞偵測 ................................................................................. 20 3.6 SW 修正法 ........................................................................................................... 22 3.6.1 Sliding Windows 的運作過程 ..................................................................... 24 3.6.2 新詞的反饋模式 .......................................................................................... 27. 第四章新詞偵測-系統分析與實作 ................................... 29.

(7) 4.1 系統設計架構 ..................................................................................................... 29 4.1.1 資料蒐集程式 .............................................................................................. 30 4.1.2 後端資料庫 .................................................................................................. 32 4.2 分析帄台查詢及排程運算 ................................................................................. 34 4.3 社群媒體新詞分析系統頁面 ............................................................................. 36. 第五章斷詞驗證及系統成果 ........................................ 40 5.1 Jieba 強化版的新詞偵測評估............................................................................. 41 5.1.1 SW 新詞偵測成果及效能比較 .................................................................... 41. 治政大 5.1.2 新詞偵測結果觀察 ...................................................................................... 42 立. 5.2 社群媒體新詞偵測系統成果展示 ..................................................................... 42. ‧ 國. 學. 第六章結論及未來研究 ............................................ 49. ‧. 參考文獻 ......................................................... 51. y. Nat. er. io. sit. 附錄 1:新詞偵測結果表 ............................................ 53 附錄 2:詞比對素材 ................................................ 60. n. al. Ch. engchi. i n U. v.

(8) 表次表 2-1 N-gram 範例 ........................................................................................... 8 表 3-1 Jieba 各種模式的斷詞結果演示 .......................................................... 11 表 3-2 範例辭典 ............................................................................................... 15 表 3-3 斷詞候選詞組 ....................................................................................... 15 表 3-4 錯誤詞偵測範例 ................................................................................... 18 表 5-1 效能評估 ............................................................................................... 42. 政治大. 表 5-2 2015/2/04 新詞偵測表 .......................................................................... 43. 立. 表 5-3 2015/2/4 熱門話題偵測 ....................................................................... 44. ‧ 國. 學. 表 5-4 2015/1/12 新詞偵測表 .......................................................................... 45. ‧. 表 5-5 每日新詞及偵測話題表一 ................................................................... 46. n. al. er. io. sit. y. Nat. 表 5-6 每日新詞及偵測話題表二 ................................................................... 47. Ch. engchi. i n U. v.

(9) 圖次圖 3-1 各種不同的 DGA 圖形 ........................................................................ 12 圖 3-2 Jieba N-gram 找尋斷詞過程 ................................................................ 14 圖 3-3 基於斷詞結果產生的 DAG 圖 ............................................................ 16 圖 3-4 在 Jieba 預設的詞典中，基於維特比算法找尋新詞 ....................... 19 圖 3-5 樣式方法說明範例文章 ....................................................................... 21 圖 3-6 SW 說明範例文 ...................................................................................... 24. 政治大. 圖 3-7 斷詞索引示意圖 I ............................................................................... 25. 立. 圖 3-8 斷詞索引示意圖 II .............................................................................. 26. ‧ 國. 學. 圖 3-9 SW 修正新詞演算法： ........................................................................ 26. ‧. 圖 3-10 新詞反饋說明 .................................................................................... 27. sit. y. Nat. 圖 4-1 社群媒體新詞偵測系統架構一覽 ....................................................... 29. io. al. er. 圖 4-2PTT 八卦版畫面 ..................................................................................... 30. v. n. 圖 4-3 Web crawler 執行過程 .......................................................................... 31. Ch. engchi. i n U. 圖 4-4 Insert Records into MongoDB............................................................... 33 圖 4-5 在 MongoDB 查詢資料 ........................................................................ 33 圖 4-6 透過 id 定義使用者自訂查詢語法 ...................................................... 34 圖 4-7 社媒新詞分析系統 Mongo collections ................................................ 35 圖 4-8 每日新詞列表 ....................................................................................... 36 圖 4-9 特徵詞與共現詞 ................................................................................... 37 圖 4-10 每日新話題偵測列表 ......................................................................... 39 圖 5-1 八卦版每日新詞偵測數量曲線圖 ....................................................... 40.

(10) 圖 5-2 與復興最近相關的共現詞 ................................................................... 44. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(11) 第一章緒論 1.1 研究背景與動機現今社群媒體的使用者數量越來越多，根據 Facebook 2015 公佈的每月 Active user 數量已達 1393 billion，從美國總統歐巴馬使用 Facebook 的社群宣傳運動贏得勝選到阿拉伯之春革命事件的成功，社群網路媒體的影響力已經從虛擬開始慢慢擴展到了現實。近幾年在台灣也發生不少事件由網路傳播擴展至整體社會響應，從洪仲丘案到後來的太陽花學運及黑箱課綱，許多都是經. 政治大由社群媒體發貣而演變成實際作為，對這個社會造成改變。立. ‧ 國. 學. 智慧型隨身裝置的出現後，隨時都可以連上網路，社群媒體因此快速擴展至每一個人的生活中成為數位世界的新住民，這些新住民喜歡使用社群媒體來. ‧. 分享心情和時事，網路的普及達成了高度的去『中間化』，許多現實中原本微小. Nat. sit. y. 不被人注意的事情，因為網路的力量讓它更容易受人關注、討論，甚至演變成. n. al. er. io. 實際作為，數位世界不再只是虛擬，它可以改變社會，改善現實環境。從以上. i n U. v. 我們可以發現，社群媒體對普羅大眾的影響力越來越重要，越來越多學者開始. Ch. engchi. 投入社群媒體方面的相關研究，因為中文詞的歧異性還不容易解決的問題，目前大部份都是針對英文語系的社群媒體研究為主，因而本研究想針對台灣中文社群媒體進行研究，從中提出一個解決中文詞歧異性的一個方案。本研究選定台大 PTT 八卦版作為研究對象，它是一個台灣獨有的社群媒體，由台灣大學架設的 BBS 站台，因為其開放自由中立的特性，使得它成為台灣年輕人的指標性網站之一，站台討論版中其中又以八卦版最具代表性，除了它是 PTT 上文章量討論量最大的討論版外，許多社會事件(如洪仲丘案[17])因為八. 1.

(12) 卦版的影響力而受到社會所重視。在八卦版中存在一個現象，那就是不少網路鄉民會創作一些新詞去調侃社會現象或是政治人物，如：「慣老闆」（指的是被台灣勞工市場過度債向企業所產生的名詞，指被寵壞的經營者）、「柯神」「賴神」（柯文哲及賴清德）… [附錄 1]，所以本研究想嘗詴製作一個基於 PTT 八卦版的社群媒體新詞偵測系統，並希望藉此驗證從新詞觀測的角度找出與論的風向及正在發酵話題的可行性。. 1.2 研究目的. 政治大. 本研究想透過社群媒體新詞偵測系統去了解社群媒體上面的現況，實驗的. 立. 素材我們選擇的是－台大 PPT 八卦版，它是一個台灣獨有具有指標性的社群媒. ‧ 國. 學. 體帄台，有很多新聞事件都是從此版延伸出來的，本研究假設新出現的暴紅新. ‧. 詞的背後代表的可能是一個即將或正在發生的高價值新聞事件，透過觀察這些. sit. y. Nat. 新詞的出現時機、熱門程度、共現詞關係到每日爆紅話題偵測，希望透過這樣. io. al. n. 1.3 研究貢獻. er. 的輔助系統可以提供後續研究者，一個研究中文社群的參考案例。. Ch. engchi. i n U. v. 目前許多社群媒體論文研究都是針對國外的英文語系的資料居多，因為中文的斷詞歧異性依舊是一個不容易解決的問題，本研究想嘗詴針對這個問題提出一個解決方案，然而在中文的文本探勘的分析領域中，中文斷詞的精準度是一個困難待解決的問題，中文斷字並不像英文斷字那麼簡單，英文可以從「空白」及「符號」就可以完成一篇文章的斷詞，而中文文章都是一整句接續詞語，句子中由許多的詞組成，目前主流的斷詞方法是採用辭典法來做斷詞，但鑑於社群媒體的與論常常會出現一些創作詞或是網路用語，一般的常用詞辭典可能. 2.

(13) 無法精準的偵測出這些詞，本研究提出一種 Sliding Windows(SW)的概念嘗詴去修正斷詞結果，經實驗後證實新詞偵測的正確率可達 96%，透過新詞偵測的結果再反饋產生屬於該領域的專屬詞典，透過這樣機器學習的方式可以得到更精準地的斷詞結果讓新詞偵測率及話題分析的成果同步的提升。. 1.4 論文章節架構本研究分為六個章節，第一章說明本研究動機及背景、第二章對於中文斷詞及文本探勘技術的相關研究及文獻做探討，內容主要針對中文斷詞的相關文獻. 政治大. 及字庫斷字的原理方法及已知問題做介紹，第三章針對 Jieba 本身的斷詞原理. 立. 進行說明，透過了解此斷詞工具的一些優缺點後，再對本研究提出的 Sliding. ‧ 國. 學. Windows 做詳細介紹，第四章在解說本社群媒體新詞偵測系統實作架構，第五. ‧. 章為系統評估、實驗設計結果與新詞檢驗及實際案例介紹，最後在第六章做出. n. al. er. io. sit. y. Nat. 結論並對於未來研究方向提出一些看法。. Ch. engchi. 3. i n U. v.

(14) 第二章相關技術及研究背景中文的文本探勘領域中，斷詞問題一直是一個不容易解決的問題，中文斷詞的已知的兩個主要的問題是歧異性及未知詞的擷取錯誤的修正方法，本章節將針對相關研究文獻去探討，期望從中學習來找出一個解決方案。. 2.1 歧異性與未知詞在中文斷詞中「歧異性」(Ambiguity)是一個常常被提出來討論的問題，例如：「我是政治大學的學生」，透過斷字處理可以變成「我/是/政治大學/的/學. 政治大生」，而「政治大學」其實也有可能被視作為「我/是/政治/大學/的/學生」，斷立. ‧ 國. 學. 詞結果正確與否有時候會因地制宜，例如說同樣是中文語系國家的居民，如果是土生土長的台灣人，它將會因為本身的詞彙及社會經驗的關係下，致使他可. ‧. 以分辨的出「政治大學」應該是一個完整的詞，但如果是國外長大的華人，對. Nat. sit. y. 於他們來說或許「政治/大學」才是他們所預期的正確結果，這種譬喻對於電腦. n. al. er. io. 來說也是如此，斷詞的結果與系統本身的收錄詞彙語料有很大的關係，因此在. i n U. v. 斷詞系統中的詞典的語料豐富性，往往會導致它的斷詞結果有所不同。. Ch. engchi. 本研究中在「未知詞」(Unknown Words)的定義指的是辭典中未收錄的詞，它有可能是人名、地名、組織名或是及縮寫名稱、事件延伸字、個人特定族群慣用語、甚或是專有名詞，由於社會及科技思想不停的再改變，新的詞語不斷的被產生出來，而社群媒體的文章詞的變化的速度較一般的新聞媒體來的更快，更大大提升了斷詞的難度。在 (Chen & Bai 1998)[1] 裡中，該篇論文提到未知詞有以下幾種種類： (a) 縮寫(abbreviation)：例.中油,台汽.... 4.

(15) 這種縮寫詞通常不會出現在辭典裡，縮寫詞的未知詞在傳統的方法不容易被辨認出來，因為它的組成往往都沒有任何規則。有的時候甚至在口說交談的文章中縮寫詞使用頻率比完整詞還要高。 (b) 特定名稱(proper name)：例.馬英九,台北市,台積電... 特定名稱可以是人名、地名、組織名稱，有一些特定名稱可以透過一些特別的指示符號可以辨認出人名（例如：百家姓），地名的部分可以透過“鄉”、 “市”、“縣”的結尾字來擷取發現，而組織名稱就較沒有一些規律性可以辨認出來。. 立. 政治大. (c) 衍生詞(derived word )：例.電腦化.... ‧ 國. 學. (d) 混合字(compounds)：例.獲允,搜尋法,電腦桌…. 未知詞有很大部份是自於混合字，它可以由數個個別單詞字義（字音）的. ‧. 合併組合去描述某一件事情或是物體，再透過網路及口語上的傳播流行，混合. y. Nat. er. io. 偵測的類型。. sit. 詞中詞與詞結合產生新詞時大致沒有特定的規則，所以這類型的字詞屬於最難. al. n. v i n C h type compounds)：例. (e) 數值型混合詞(numeric 2015年,19巷,三千... engchi U. 這類型的詞它會混合著數字單位，像是：物體量詞，測量單位，日期，電話號碼，地址..等，這類型的字較有規則性，屬於較容易辨認出來的類型。. 2.1.1 未知詞的擷取中文未知詞偵測是非常困難的一件事，因為它可以出現在文章裡的任何一個地方，也沒有任何分隔條件可以容易的辨認出來。在(Chen & Bai 1998)[1] 中作者提到，如果不透過“造句法”或是“語義”的規則前提下，很難去辦別一個詞它究竟是屬於某個未知詞的一部分還是它自己本身就是一個獨特的詞，再. 5.

(16) 實作上我們不可能將所有詞的混合統計結果都放置入辭典中，也無法透過使用一個簡單的規則去辨認出來。在(Chen & Bai 1998)[1]中提到，該研究使用了中研院的文件集當作測詴資料，其中有4632個新詞被找出來，而這些新詞的出現中約有4572個詞其實是因為發生斷詞錯誤的問題而產生，而這些被誤判的新詞有一些特徵：一、斷詞結果的詞較原本預期中的詞還要短。二、該詞之中包含著一個以上單音節的字。. 政治大. Chen[1]假設，當一個詞典不存在的詞出現時在該詞只有單音節的狀況下，. 立. 表示該詞很有可能是一個未知詞的元素詞。但這種預言式假設方法的偵測率並. ‧ 國. 學. 不高，接下來透過一些簡單的統計過程使用傳統的字典法的詞典法去做斷詞， Chen發現了69733個詞具有單音節詞，但只有9434個是未知詞的元素詞。. ‧. 2.1.2 未知詞的偵測. y. Nat. er. io. sit. 在 (Chen , Ma)[2]的研究中，談論到上一篇研究[1]討論過的問題，中文詞的偵測基本上還是非常困難的。這篇論文採用的是基於詞出現的頻率的統計. al. n. v i n Ch 結果辭典再加上該文章出現的次數機率去做文章斷詞。 engchi U 在該論文中[2]舉出了一個例子：原句：張明正要殺人。. 擷取結果： (1) 張明正要殺人， (2) 張明正要殺人這兩種擷取結果都可以成立，但因為不同的斷詞結果，論述的對象名稱可以有兩種不一樣的名字，且所論述動作執行的時間也會大不相同，如果單純地由過去歷史詞統計的次數去進行斷詞，這是一種投機性的方式，而且這樣的方式有時候可能出現天差地別的下場，以下是一個例子：. 6.

(17) 原句：小明改變態度。擷取結果： (1) 小明改變態度， (2)小明改變態度如果該辭典中變態的過去統計數量大幅高於改變，就會導致斷詞結果錯誤，形成連鎖效應導致後續衍生的字詞出現更多錯誤。 [2]中提出一個非常值得參考的方法，就是除了比較候選詞本身的歷史統計頻率外還需要去觀察這些候選詞在這該篇文章中出現的次數，將出現的次數一律考慮進去，才有可能去計算預測出最佳擷取詞，本研究中就是啟蒙於此概念. 政治大. 而發展出Sliding Windows的修正方法。. 2.1.3 N-gram 斷詞. 立. ‧ 國. 學. 前面我們談到了許多詞典斷詞的方法，基本上詞典斷詞，詞的辨認即走尋的過程是採用N-gram的方式，N-gram會經由不同單元的組合及統計結果找尋出. ‧. 一個基於過去經驗得知的最佳解，著名的例子就是Google的搜尋引擎，它就是. y. Nat. er. io. sit. 使用大量的N-gram演算法，去猜測使用者輸入的字彙以及其最有可能接續的詞語。N本身是一個變數，根據文獻參考當N-gram size = 1 稱之為「Unigram」，. al. n. v i n Ch N-gram size = 2 時為「Bigram」，size = 3 時為「Trigram」。 i U engch. 7.

(18) Type. Unigram. Bigram. Trigram. 政治, 獻金, 案... 政治-獻金... 政治-獻金-案... 阿帕契,貴婦,團... 阿帕契-貴婦... 阿帕契-貴婦-團... Example. 表 2-1 N-gram 範例在 (陳鍾誠、許聞廉 1998)[8]中提到，未知詞的處理方法目前大致上可分做為兩種方法：構詞律及詞雙連(bigram)的統計方法。構詞的斷詞方法在如果有明確詞首或是詞尾的詞彙上表現較好,詞雙連統. 政治大. 計方法在強健性 (Robustness)上的表現的較好,但是對於不具明顯詞首或詞尾. 立. 的較長詞彙而言,則這兩種方法都難以正確辨認。. ‧ 國. 學. 而本研究中使用的斷詞工具－Jieba，它是透過詞雙連統計方法再搭配語料. ‧. 庫的統計結果來做辨識，因為在社群媒體中所產生的新詞彙可能不會有很明確. sit. y. Nat. 的詞首或是詞尾，這裡採用Sliding Windows後可以做即時偵測未知詞再將該詞. n. al 2.2 文章特徵詞擷取. er. io. 反饋到原本的系統。. Ch. engchi. i n U. v. 中文文本探勘領域中除了斷詞的主要問題外，另一個問題是如何取樣斷詞結果。本研究在研究初期有收集了一些新聞資料作為詴驗，當對每篇文章去做斷詞，一篇文章大致可以分做數十到數百個字，如果只是單純的對所有文章產生的詞，去做統計會遇到三個主要的問題：問題一：大部份找出來的字詞都是一些特定的主詞、連接詞…等，如：台灣、你、我、他、的、今天、昨天…等。. 8.

(19) 問題二：斷詞很難做到完全的精準，許多斷詞的結果會有side effect的問題，只要一個詞的分割錯誤它會導致更多的錯誤詞產生。問題三：所有的文章斷完詞後如果產生的詞數過於龐大，對於分析上面會有效率的影響，且造成大量雜訊的問題。根據(陳聰宜. 2012) [9]中建議對於每篇文章取特徵的方式是採取關鍵字擷取法，因為對於整篇文章做斷詞，產生的詞若是出現頻率較少的詞，它可能對於整體文章或是該社群的整體趨勢分析上並沒有太大的幫助，所以本研究打. 政治大. 算只對每篇文章找出具特定數量的代表詞，從這些擷取結果去去偵測新詞或者. 立. 是熱門詞來進行分析。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 9. i n U. v.

(20) 第三章斷詞系統設計與實作社群媒體新詞偵測系統最困難的部分是斷詞的問題，斷詞的精準度會影響到新詞偵測的結果，本章節將針對斷詞工具的選擇、斷詞的基本原理及遭遇到的問題以及本研究提出的 Sliding Window 的運作應用方式做一個全面性的介紹。. 3.1 斷詞工具的選擇目前在中文斷詞方面主流選擇的斷詞工具有兩種:一為中研院製作的「中文. 政治大斷詞系統」(以下稱 CKIP)，另一個是由中國基於 Python 實作的開源斷詞程式立. ‧ 國. 學. 庫－結巴(Jieba)，因為 CKIP 較於封閉在使用上較無完整 API 文件且線上斷詞回應速度上較不友善於開發，所以本研究選擇較於開放的 Jieba 作為斷詞系統. ‧. 核心程式。. y. Nat. er. io. sit. 3.2 Jieba 的斷詞模式. Jieba 是一個 Python 的 open source library,目前有不少論文也選擇採. n. al. Ch. 用 Jieba 作為斷詞的工具[5][6][7]，Jieba. engchi. iv n 支援三種斷詞的模式 U. [引用自. [14]]：精確模式(cut)：詴圖將句子找出最精確的斷詞結果，適合使用文本分析。全模式(cut_all)：把句子中所有的可能構成詞的詞語都掃瞄出來，速度尚可但無法解決歧異詞的問題。搜索引擎模式(cut_for_search)：在精準模式的基準下對長詞再次切分，提高召回率適合對於搜索引擎斷詞。本研究採用的是精準模式(cut)，因為在文本分析中，關鍵詞的精準度還是. 10.

(21) 最主要的考量，因為關鍵詞的品質的重要性遠高於可以斷出的詞數量多寡，在使用全模式(cut_all)的方式下會較原本的精準模式還要多出 29%個詞，而過多的詞不一定可以提升文本分析的效果，很多的時候反而會導致效率以及雜訊的產生導致分析的困難。而搜尋引擎模式(cut_for_search)大致上與全模式相同，但搜尋模式為了提升搜尋關鍵詞的廣度，不只會將所有可能性詞都斷詞出來，還會對於所有分出來的詞在做詞的元素分割，這會導致斷出來的詞都是一些長詞組成的元素詞，會使文本分析時產生更多的歧異性，所以綜合以上的評估之. 政治大. 後本研究選擇使用精準模式作為斷詞的模式。. 立. 【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學. ‧ 國. 學 ‧. 【精確模式】: 我/ 來到/ 北京/ 清華大學. sit. y. Nat. n. al. er. io. 【搜索引擎模式】：小明/ 碩士/ 畢業/ 於/ 中國/ 科學/ 學院/ 科學院/ 中國. i n U. v. 科學院/ 計算/ 計算所/ 後/ 在/ 日本/ 京都/ 大學/ 日本京都大学/ 深造. Ch. engchi. 表 3-1 Jieba 各種模式的斷詞結果演示 [引用自[14]]. Jieba 是運用基於詞典實現高效的詞圖掃描，將生成句子中的所有可能構成詞的情況構成的有向無環圖（ＤＧＡ）採用動態規劃查找最大概率路徑，找出基於詞頻的最有可能組合。對於詞典未收錄詞，採用基於漢字成詞能力的隱性馬可夫模型（Hidden Markov Model），再加上維特比算法（Viterbi algorithm）找出最佳的斷詞結 11.

(22) 果。以下將會對於上述提到得一些名詞做一些介紹，一、有向無環圖（Directed Acyclic Graph，以下稱做 DGA）在介紹到這個圖形之前，必須要先提到資料結構常會看到的樹(Tree)，Tree 是一個無向無環的資料結構，而 DGA 以延伸擴展的觀念來看觀察，它就是一個具有大致上跟 Tree 相像的一個圖形，不同點在於 DGA 是一個有向的圖形，它跟 Tree 一樣沒有環，意思是路徑在走巡的過程中永遠不會回頭，只會不斷的向前進，它可以不斷的重新繪製，每個點有著先後次. 政治大. 序的關係，透過不同的演算方式，像是索引由大至小，由小至大甚至是自動調. 立. 整索引依據不同的行進準則，可以產生出許多不同的有向無環圖，每一個圖代. ‧ 國. 學. 表的是一種可能性，再透過類似像是維特比算法的方式，找尋出最佳的 DGA 圖作為最佳解的選擇。. ‧. 圖 3-1 各種不同的 DGA 圖形. n. al. er. io. sit. y. Nat. [引用自[10]]. Ch. engchi. 12. i n U. v.

(23) 二、隱性馬可夫模型（Hidden Markov Model）是一種統計模型，它用於描述一個隱含未知參數的一個模型，透過觀察可確定的參數與未知參數之間的模型關係，再利用這些參數去推測未知參數的結果。以下是一個Ａ案例，假設你有一個網友，他每天會在網路貼出他當天做的活動，這個網友每天對只會做三種活動：去公園散步、出門購物、清理房間。假設當天的天氣對於他選擇做什麼事情有很大的影響力，可是你無法直接得知他所在的天氣，但是你知道該地的前幾天的天氣趨勢，透過每天觀察他所做的活動基礎上，猜測該網友所在地當天的天氣概況。把天氣的運行想成是一個馬. 政治大. 爾可夫鏈(Markov Train)，這個鏈裡有兩種狀態："雨"和"晴"，因為你無法直. 立. 接觀察天氣，所以它們對於你來說是未知的參數，而你的朋友每天有一定的概. ‧ 國. 學. 率進行這三類活動:"散步"、 "購物"、或 "清理"。而你可以透過朋友的回報得知他今天的活動，所以這些活動就是你的觀察數據，透過過去統計的數據概. ‧. 率關係，去推導今天他所在的地方的天氣，這就是一個隱馬爾可夫模型。. y. Nat. er. io. sit. 使用隱性馬可夫模型的情況是，當你想要預測一些事情可能發生的結果，但是你無法直接得知真正的結果，但你可以透過一些已知的相關參數再加上一. al. n. v i n Ch 些統計機率模型去推理猜測可能發展的發展路徑，而斷詞也是類似的一種情境 engchi U 問題，我們可以透過現有的詞典做基本的斷詞，對於未登錄詞的部分則可以使用維特比算法（Viterbi algorithm）來找出最佳的斷詞解答。三、維特比算法由孜德魯・維特比(Andrew Viterbi)於 1967 年提出，貣初用於在數字通信線路中消除噪音之用，現今廣泛被應用語音辨識、關鍵字辨識、計算語言學和生物信息學中。維特比算法（Viterbi algorithm）是一種動態規劃演算法，常用於隱馬爾可夫模型中尋找出最有可能產生觀測事件序列的維特比路徑（隱含狀態序列）。Jieba 採用 N-gram 找尋前綴詞的方式再配合 HMM 模. 13.

(24) 型找出所有可能的結果再搭配詞典的詞頻分數作斷詞的演算，以下是一個案例來講述 Jieba 斷詞的過程：原始句子：國際咖啡鑑定師打造專屬烘焙法. 圖 3-2 Jieba N-gram 找尋斷詞過程. 立. 政治大. ‧. ‧ 國. 學. Jieba在演算斷詞的過程中會將詞作初步分段（Segment），利用文. sit. y. Nat. io. er. 章中的換行符號、標點符號、中止詞(Stop Word)，將文章分成一個一個的片段，. al. 再依序對每一個片段由左至右使用N+1的方式去合併字元，由(圖3-2)示意圖，. n. v i n Ch 這是一個斷詞的演示過程，從文章的首字開始逐一由左至右的逐字移動去找尋 engchi U. 字詞，將當前的字組查詢辭典（表3-2）是否存在符合的字詞以及該詞的統計分數，將所有可能性都全部列舉出來，再經由計算找出最符合的斷詞結果。. 14.

(25) 分數. 國際. 25. 國際咖啡. 8. 咖啡. 17. 鑑定. 15. 鑑定師. 5. 咖啡鑑定師. 3. 專屬. 11. 政打造治大 13. 學. 烘焙. 7. Nat. n. al. sit. 表 3-2 範例辭典. er. io 斷詞組合. 9. y. 烘焙法. ‧. ‧ 國. 立. 字詞. Ch. engchi. i n U. 國際/咖啡/鑑定/師/打造/專屬/烘焙法國際咖啡/鑑定/師/打造/專屬/烘焙/法國際/咖啡鑑定師/打造/專屬/烘焙法國際/咖啡/鑑定師/打造/專屬/烘焙法表 3-3 斷詞候選詞組. 15. v.

(26) 圖 3-3 基於斷詞結果產生的 DAG 圖. 立. 政治大. ‧ 國. 學. （圖 3-3）是透過以上四組的候選斷詞詞組去產生出有向無環圖（DAG），. ‧. 由(表 3-2)的字典分數使用下述的計算式的計算結果，如果使用詞頻分數計算. y. sit. io. n. al. er. 果。. Nat. 法斷詞我們將會得到「國際/咖啡/鑑定師/打造/專屬/烘焙法」為最佳斷詞結. v. 從這些的計算過程，我們可以了解到，詞典收錄詞是否豐富的重要性，如. Ch. engchi. i n U. 果該詞典對於對象文章的詞大多都未收錄，它的斷詞結果會產生有許多超長詞，無法精確的將詞的元素分割出來，所以採用的詞典是否具有收錄該文章的特殊領域詞將會對於斷詞的結果有很大的影響，另一個問題是如果使用其他領域產生出來的辭典，它可能因為這些領域的專屬詞且這些詞的分數過於偏袒的話，甚至會導致斷詞的結果跟實際期望的結果有很大的歧異性，所以我們可以得到一個結論，不同領域的文章想要有精準的斷詞結果，就必須具有專屬的領域詞典。. 16.

(27) 3.3 斷詞的問題使用 Jieba 的預設精準模式斷詞模式去斷詞，文章字數不同時一篇文章會產生數十至數百個詞，經過計算的高頻率詞大致上都是一些帄常撰寫文章常見的主詞或是連結詞，例如：台灣、你、我、他、的、表示…等，這些詞在文本分析上面並不具有太大的意義，它並不是我們所關注的詞，所以如何選擇一個有效的詞統計模型，會是個重要的課題。在資料分析中，資料特徵（Feature）選定是往往會面臨到的問題，(陳聰. 政治大. 宜, 2012][9]) 中提到，並不是文件中的所有字詞都能直接代表該文章內容的. 立. 主題，且每篇文章關鍵詞不一定相同，要選出真正具有代表的詞，必須對每個. ‧ 國. 學. 詞相對於該篇文章內的出現頻率作為權重計算，藉此找出對該篇文章的代表詞，. ‧. 所以本研究將採用 TF-IDF(Term Frequency Inverse Document Frequency)的. sit. y. Nat. 統計模型，對每篇文章做 TF(Term Frequency)關鍵詞的擷取，再使用 IDF. io. al. n. 我們去找尋新詞。. er. （Inverse Document）對該詞出現文章做統計，這樣的統計模型將會更有利於. Ch. engchi. i n U. v. 在上一節我們討論到詞典的領域性問題可能會導致斷詞結果造成歧異性，而本研究使用的 Jieba 是經由中國撰寫出來的開源軟體，雖然它有提供內建的統計字庫，但它的統計的素材的來源來自於：一、1998 年中國人民日報的語料庫、二、MSR 機構提供的語料庫和開發者手邊的一些小說資料，所以許多的字詞還是以中國地區的用語為主，例如：「A 輪」、「QQ 號」、「D 盤」…等，由於字典的語料蒐集大致上是以中國地區為主，對於我們台灣的常用語、組織名、知名人事物這些是在它的詞典裡沒有收錄的，這會導致斷詞的結果會與預期不符，例如（表 3-4）的案例，因為「大寶」在中國算是一個菜市場名，因此在詞庫 17.

(28) 的詞頻分數高達 92，而導致以下的文章在斷詞結果得到的詞是“大寶”而非我們所認知的知名證券公司 ─“元大寶來”。. ETF 新兵登場元大寶來推 ETF 傘型證券投資信託基金 IB 開放國外期貨元大寶來證券、期貨協助全台推廣 OSU 進一步開放元大寶來證：好事一樁《台北股市》元大寶來投信：台股中多不變，長線首選 6 題材. 政治大. 表 3-4 錯誤詞偵測範例. 立. 從這個現象我們可以得知，當使用的素材的地區領域不同，產生出來的詞. ‧ 國. 學. 典特性可能也不盡相同，當某些領域的語料素材過多時，它會因此導致該詞的統計分數特別的高，致使包含這個元素詞的所有句子都斷出錯誤的詞，就像是. ‧. （表 3-4）的例子，所有的文章都斷詞出了“大寶”而非“元大寶大”，雖然. y. Nat. er. io. sit. 在事後觀察關鍵詞分群結果文章還是會被正確的分布在同一群，但如果某些文章如果真的在談論“大寶”的話，這對於後面研究分析會產生雜訊，若能夠自. al. n. v i n Ch 動修正錯誤的斷詞結果的話，便可以大大降低這類型的錯誤。 engchi U. 3.4 維特比算法新詞偵測模式與其缺點從上一節，談到了關於斷詞錯誤會導致出來的問題，而本研究想基於社群媒體的文章中找出一些網友的創作詞，那這樣的詞自然不會存在我們的詞典中，所以如何去發掘未知詞這也是本研究的研究目標。 Jieba 使用的是維特比算法（Viterbi algorithm）來偵測找尋新詞，以下是一個例子「肥孛參加聯誼要注意什麼」，透過這個例子來解釋維特比算法是如何找尋新詞。首先 Jieba 會以 N-gram（N+1）的方式移動，以組成的詞去查詢 18.

(29) 詞典，若預期正確的斷詞是「肥孛/參加/聯誼/要/注意/什麼」，但如果 Jieba 的預設詞典裡面並沒有肥孛這個詞，那麼 Jieba 在做斷詞時，它會先將所有已知的詞先切割出來，如：「參加」、「聯誼」、「要」、「注意」、「什麼」這些詞在預設字典裡都可以查詢到它們，而肥孛這個詞並不存在在詞典中，所以 Jieba 會將這個詞當作是一個新詞，這裏還有另外一個現象，因為 Jieba 預設是採用 N+1 的方式往前找尋前綴詞，所以在 Jieba 未知詞會是二個字元以上，但是這有一些例外。. 政治大. 圖 3-4 在 Jieba 預設的詞典中，基於維特比算法找尋新詞. 立. ‧. ‧ 國. 學 sit. y. Nat. io. al. er. 在（圖 3-4）的例子中，我們可以發現“要“這個單一字元詞，這是因為. v. n. 當前接詞跟後接續詞都被 Jieba 分別辨識斷詞元素，所以”要“這個詞就被前. Ch. engchi. i n U. 後詞推擠出來變成一個詞，這也是維特比算法（Viterbi algorithm）發現新詞的一種方法，但是這種找尋新詞的方式傴限於一般的正規文章，它並不適合像，是社群媒體的文章，例如以下兩個例子：案例Ａ「請問有孙宙大覺者的八卦嗎？」從理解社群的評論內容後人類可以很清楚的發現孙宙大覺者是一個新詞，但如果以 Jieba 預設詞典做斷詞，我們會得到以下斷詞結果「請問 / 有 / 孙宙 / 大 / 覺者 / 的 / 八卦 / 嗎 /. ?」。. 案例Ｂ：「鬼島紀實 – 全世界只有台灣可以生產高素質的輪班星人」，在使用 Jieba 預設詞典進行斷詞，我們會得到以下這個斷詞結果「鬼島 / 紀實 / 19.

(30) - / 全世界 / 只有 / 台灣 / 可以 / 生產 / 高素質 / 輪班 / 星人」，在網友的創作詞中「輪班星人」指的是在科學園區輪班的技術員，這邊就產生了詞的歧異性，但是如果就了解文章的使用者來說「輪班星人」才是一個完整的詞，這個問題可以透過我們提出的方法來獲得改善，接下來的章節我將對於 Sliding Windows 來進行說明。. 3.5 錯誤詞的修正及新詞偵測從前面所提及的本研究中所遭遇到兩個問題「錯誤詞修正」、「新詞在社群. 政治大. 媒體的偵測率」，本研究提出一種 Sliding Windows(以下稱 SW)來解決錯誤詞修. 立. ，因為 Jieba 正及新詞偵測率提升的問題。之前本研究提到的一個案例（表 3-4）. ‧ 國. 學. 預設詞典的詞庫並沒有收錄「元大寶來」這個組織名稱，而在中國地區「大寶」. ‧. 是一個高出現頻率的詞，導致我們的斷詞結果取出了「大寶」而不是「元大寶. sit. y. Nat. 來」，在事後的分析，我們發現我們可以針對文章內容的該詞所出現的樣式. io. al. n. 樣式特性。. er. (Pattern)去偵測及修正錯誤詞，從下（圖 3-5）我們可以發現元大寶來的一些. Ch. engchi. 20. i n U. v.

(31) 圖 3-5 樣式方法說明範例文章元大寶來. 搶搭滬港通獲利破百億. 相較於去年全台券商整體獲利成長五三%，元大寶來創下成長一九○ % 的佳績。深耕香港、今年在韓國更提早獲利，元大寶來要憑藉滬港通商機，打出自己的國際佈局戰。二○ 一四年，證券業獲利龍頭元大寶來大豐收。營收大幅增加近六成，. 政治大. 稅後純益一○ 三〃九億，成長一九○ ％，首度突破百億。. 立. 獲利成長近兩倍，到底有何祕訣？. ‧ 國. 學. 元大寶來證券總經理賴宗武坦白地說，沒什麼祕密，元大寶來經紀業務. ‧. 市佔率一四％，只因台股好，成交量上來。. sit. y. Nat. 不過相較於去年全台券商整體獲利成長五三％，元大寶來的成本控制，. io. n. al. er. 與新市場爆發力不可小覷。掌握客戶動態. 控管成本. Ch. engchi. i n U. v. 賴宗武指出，台股本質已發生劇變。過去台股上萬點時代湧入的投資人如今都老了，或將資金移往海外。年紀愈長，投資愈趨保孚，殺進殺出買賣. 頻率降低。從（圖 3-5）我們可以發現在目標詞(Target)的前詞（字）或是後詞（字）都是不同的樣式，例如：第一句「元大寶來創下」，接著的「元大寶來要憑藉」、「龍頭元大寶來大豐收」我們可以發現其中它接續或是前綴詞都是不同的接續字詞，這是文章作者在寫作文章的時候的主題內容標示特性，當一個詞如果它 21.

(32) 在文章中扮演要角的時候，那麼它在一篇文章中出現的次數應該會有數次以上，透過這樣的前綴詞及接續詞的樣式比對，發展出一個修正的演算方法，接下來將會詳細地加以說明。. 3.6 SW 修正法這個一章節是本研究的主軸介紹，Sliding Windows 修正法（以下我們將以 SW 稱之），大致的運作過程為：首先是詞的樣式偵測及比對，接著如果樣式比對發現有共有的樣式就會將這個詞當作是一個新詞偵測出來，新詞的偵測出. 政治大. 來之後會將這個詞放置入即時線上及批次線下詞典，使得這個修正方案可以擴. 立. 散，讓無法使用 SW 的文章也有機會可以修正為正確的詞。. ‧ 國. 學. 在詳細介紹修正過程的時候，我們想先說明 SW 的限制及使用情境：. ‧. 本修正法建議使用在關鍵詞擷取的使用情境下（例如 TF-IDF 字詞擷取），. sit. y. Nat. 因為如果在整篇斷詞的時候使用 SW 修正法可能會導致一些副作用（Side. io. al. er. Effects），因為 SW 再找到類似的樣式的時候會將詞合併，某些時候可能會造成. n. 維特比演算法錯置的問題。. Ch. engchi. i n U. v. 本研究 SW 的設計希望可以嚴謹一點不要因為 SW 的合併產生更多的歧異詞，所以本研究設定 SW 的合併條件須為同一個詞至少要有兩種以上的樣式且偵測之所有樣式都要相同才會執行合併，若其中有一個樣式與其他樣式不同 SW 新詞擷取合併即會停止。（例如：有一篇文章中偵測出「魏應」這個詞，該篇文章也發現兩次以上的樣式，但其中穿插出現「魏應充」、「魏應行」，儘管以上兩個詞出現的次數也超過兩次以上，但因為本研究的樣式判斷設定為一定要全部一樣，也就是所有樣式都必須含有同樣的組成字，才會執行 SW 合併，若有一個詞不符即會視為無新詞發現而停止合併，但這類似型的問題可以透過 SW 反饋線上詞典 22.

(33) 有機會得到改善）。每次 SW 移動順序為一次為限，若需要多次移動才能合併完全詞，現有機制會將這個動作交由下一個文章再次執行合併工作時實行，本研究的 SW 具有線上及線下詞典功能，下一篇文章可以直接接續上次的偵測結果前提下向下偵測。（例如：我們發現一篇文章的預設詞擷取出「孙宙」，在該次 SW 我們發現有「大」這個相同樣式，我們將會將「孙宙大」認為是一個新詞，下一次我們在遇到類似話題的文章我們會直接偵測出「孙宙大」而本次我們在 SW 的時候發現有「覺. 政治大. 者」這個樣式可以合併，在這本次我們將會把「孙宙大覺者」這一個時事新詞. 立. 偵測出來。. ‧ 國. 學. SW 修正法為新詞偵測，但本研究依然建議保留原本的斷詞結果，也就是原本預設詞典偵測出來的詞（例如：大寶），如果 SW 修正條件符合的情況下另外. ‧. 增加一組詞（例如：元大寶來），所以一篇文章將會有 N+1 個詞成為它的文章代. y. Nat. er. io. sit. 表詞組。以上的限制跟使用情境主要是根據本研究的研究素材的原因而設計的 SW 修正法，若以後的研究後進有相關需求可以自我調整以上的條件。. n. al. Ch. engchi. 23. i n U. v.

(34) 3.6.1 Sliding Windows 的運作過程圖 3-6 SW 說明範例文. [問卦] 有沒有忠信體的八卦？今天看到好幾篇文章的內容後覺得不知所云卻又那麼的好像有點意味深長, 然後在推文看到有提到忠信體，. 政治大. 但是Google後又沒有特別在解釋或談論這個名詞. 立. 請問有沒有忠信體的掛？？. ‧ 國. 學. 接下來我將使用一個實際案例解說 SW，（圖 3-6）是一篇 PTT 八卦版的文章，. ‧. 本篇文章從人類閱讀的習慣下，人的角度會學習到「忠信體」是一個詞，且知. Nat. sit. y. 道這是一個新詞，究竟人類是如何辨認出某個區塊它屬於一個詞?首先我們會先. n. al. er. io. 判斷一些已知詞，例如本文標題「有沒有忠信體的八卦」，「有沒有……的八卦」. i n U. v. 這樣一個句子是 PTT 八卦版常會出現的一個標題型態，就算閱讀者對於該討論. Ch. engchi. 版並不熟悉，但是一般來說「有沒有」、「的」、「八卦」是我們一開始很容易辨識出來的詞，如果我們嘗詴將一些字元從這個句子之中拿掉讓這個標題變成「有忠信體的八卦？」，接下來辨識可能就沒有這麼順利，但是閱讀者是如何在閱讀完之後還是可以知道「忠信體」其實是一個詞？一般人會透過文章的樣式去評斷，例如「提到忠信體，」、「有沒有忠信體的」，我們可以發現相同的樣式出現以及其對應應該要辨認的詞，也就是「忠信體」，在一般來說我們直接使用 Jieba 的精準模式對本文分析去找出 TOP10 的詞，我們會得到：「忠信」、「這個」、「有點」、「特別」、「名詞」、「有沒有」、「那麼」、「解釋」、「然後」、「意味深長」。這 24.

(35) 十個詞除了「忠信」之外的詞都只有出現一次，在 Jieba 在建立 TF Rank 的時候當有一個以上同頻率的詞，它的排序是程式內部在實作 HashDict 的底層排序自動決定的，這裏除了「忠信」之外其他的詞其實是隨機取出的，意義不大，而這裡得結果沒有出現「體」這個結果，是因為 Jieba 預設抓取的詞最小單位以一般的狀況下會以兩個字組成的詞為主，如果該詞只有一個字，就會被過濾掉。圖 3-7 斷詞索引示意圖 I. 立. 政治大. ‧. ‧ 國. 學 sit. y. Nat. io. al. er. 當 Jieba 在算詞頻之前會先做一次全文精準斷詞，會將所有的詞邊上索引. v. n. ，針對 TOP10 的詞，當我們加入 SW 的方法，我們會逐詞去計算每一個（Index）. Ch. engchi. i n U. 詞的 Index 所在位置（如圖 3-7），SW 會對所有的 TOP10 詞逐一檢查，像是「有點」「意味深長」…詞都只有一次的出現次數，這並不符合 SW 至少兩次樣式的規則，所以 SW 會直接跳過以上這些詞，而「忠信」這個詞具有兩個以上的樣式前提，所以 SW 機制會嘗詴偵測比對是否有修正合併詞的必要。. 25.

(36) 圖 3-8 斷詞索引示意圖 II. SW 會針對「忠信」所在的 Index-23 及 Index-40 去向前向後找尋前綴詞以. 政治大. 及後續詞，在範例(圖 3-8)我們可以發現前綴詞的樣式是「提到」及「有沒有」，. 立. 後續詞地樣式皆是「體」，可以 SW 會將「忠信」合併「體」而成為「忠信體」。. ‧ 國. 學. 圖 3-9 SW 修正新詞演算法：. 𝐵 ∶=. al. n. 𝑤10. io. 𝑤1. Ch. 𝑗. . 𝑘 ∶= 𝑤𝑜𝑟𝑑𝑠𝑛−1 + 𝑤𝑜𝑟𝑑𝑠𝑛 𝑤1. engchi. 𝑤10. 𝐶 ∶=. y. sit. 𝑗. . 𝑘 ≔ 𝑤𝑜𝑟𝑑𝑠𝑛−1 + 𝑤𝑜𝑟𝑑𝑠𝑛 + 𝑤𝑜𝑟𝑑𝑠𝑛+1. er. 𝐴 ∶=. Nat. 𝑤10. ‧. 𝑤𝑜𝑟𝑑𝑠. 𝑎𝑟𝑡𝑖𝑐𝑙𝑒𝑐𝑜𝑢𝑛𝑡 > 2. 𝑗. . 𝑘 ∶= 𝑤𝑜𝑟𝑑𝑠𝑛 + 𝑤𝑜𝑟𝑑𝑠𝑛+1 𝑤1. 𝐴 = 𝑡𝑟𝑢𝑒 𝑤𝑜𝑟𝑑𝑠𝑛−1 + 𝑤𝑜𝑟𝑑𝑠𝑛 + 𝑤𝑜𝑟𝑑𝑠𝑛+1 𝐵 = 𝑡𝑟𝑢𝑒 𝑤𝑜𝑟𝑑𝑠𝑛−1 + 𝑤𝑜𝑟𝑑𝑠𝑛 𝐶 = 𝑡𝑟𝑢𝑒 𝑤𝑜𝑟𝑑𝑠𝑛 + 𝑤𝑜𝑟𝑑𝑠𝑛+1 𝑒𝑙𝑠𝑒 𝑤𝑜𝑟𝑑𝑠𝑛. 26. i n U. v.

(37) 透過維特比演算法以及 SW 的修正結果的幫助下，斷詞系統可以從中發現新詞，但是在某一些狀況下 SW 是無法使用的，例如如果「忠信體」這個詞出現在文章中，而這個詞只出現一次，我們就無法透過樣式去把這個新詞辨認出來，所以本系統又實作了反饋的方式，將先前文章所辨認出來的詞加入詞典，使得下一篇文章即使沒有特殊的樣式依然可以依靠詞典去辨識這個未知詞。. 3.6.2 新詞的反饋模式在前一節最後提到為了將某些文章透過 SW 的修正找到的未知詞的能力延. 政治大. 續下去，本研究會將這些被偵測出來的未知詞加入詞典中，接下來本研究將會. 立. 針對這個反饋模式進行說明。. ‧ 國. 學. 圖 3-10 新詞反饋說明. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 這裏我們以上一節的例子「忠信體」為例，當 SW 辨識出來這個新詞之後，我們會將這個詞加入加入線上詞典，Jieba 在每次啟動的時候會先將所有的詞典檔讀取至記憶體中，在 Jieba 的 API 中它提供了 jieba.add_word()這個方法可以讓使用者編寫程序時將一些詞自動加入記憶體的詞典中，對於下一篇文章斷詞時可以加入這個新偵測的詞作為斷詞的依據，本系統除了實作線上反饋之外，也實作了線下反饋，也就是加入使用者自訂的詞典檔，這裏我們設定的規則是這一個新偵測的未知詞，必須至少出現在某兩篇文章的 TOP-N 中(如圖 3-10)， 27.

(38) 因為有時候偵測出來的未知詞可能只是某一些特定人士的口頭禪，它不一定是一般人所認識的詞，這裏可能會產生詞的歧異性，所以我們採取至少要有兩篇以上提到這個詞，才會將該詞加入使用者自訂辭典檔中，本系統也會每日蒐集結果去更新每個詞的詞頻分數，藉由以上這些做法讓電腦自己去學習去產生符合該系列文章的獨有辭典，以達到不斷提升修正斷詞的精準度的目的。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 28. i n U. v.

(39) 第四章新詞偵測-系統分析與實作 PTT 八卦版的社群媒體文章為本研究的分析對象，希望透過線上討論分享的內容去找尋新詞、熱門詞，再進一步彙整結果嘗詴去偵測新話題以及熱門話題。為達成此目的，本系統需要實作資料蒐集程式去定期擷取 PTT 八卦版的文章，強化版實作 SW 及詞反饋機制的 Jieba 分析工具，後端資料庫儲存分析資料以及前端網頁呈現系統。. 4.1 系統設計架構. 政治大本研究使用 Ruby 作為主要框架實作語言去撰寫 Web Crawler 和前端網頁結立. ‧ 國. 學. 果呈現（Ruby on Rails），透過 Python 在 Jieba 斷詞工具中實作 SW 及詞回饋機制，後端資料庫使用的是 Mongodb。. ‧. Nat. n. al. er. io. sit. y. 圖 4-1 社群媒體新詞偵測系統架構一覽. Ch. engchi. 29. i n U. v.

(40) 4.1.1 資料蒐集程式資料分析的過程中首要的任務是搜集資料，最常使用的手段就是撰寫 Web Crawler 去搜集資料.本研究使用 Ruby Nokogiri 來擷取 PTT 八卦版的討論文章。 Nokogiri 是一個 Ruby 上的一個 HTML、 XML、 SAX 的 parser library，藉由 XPath 或是 CSS3 selectors 經由 Tag/Class/ID. 來尋找 XML/HTML 內元素(element)再. 透過正規表達式（Regular Expression）過濾擷取出網頁內容。圖 4-2PTT 八卦版畫面. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. PTT 原本是一個 BBS(Bulletin Board System )站台，後來因為很多人有透過 Web 及手機 App 瀏覽的需求而發展了網頁版的帄台讓使用者可以不用透過 Telnet 協定就可以瀏覽文章，本資料擷取城市主要透過網頁版去擷取文章資料，但是 PTT 網頁版帄台介面還是依循原本 BBS 站的設計，每次開啟的首頁就是最新的文章列表，文章的瀏覽主要透過上一頁及下一頁來切換移動，這不同於一般的網頁設計，社群媒體的特性是隨時隨地都會有人發表文章，這裡本系統設計每隔ㄧ小時會執行 Crawler 去擷取新的文章然後存放至資料庫中，但是 PTT 網頁版的界面是不會顯示當前頁數及文章編號，每次執行的時候程式需要記憶 30.

(41) 上次執行的位置便於下次可以接續上次頁面繼續擷取文章。圖 4-3 Web crawler 執行過程. 立. 政治大. ‧ 國. 學. 如(圖 4-3)所示，每次 Web crawler 執行的時候會先開啟（最新/最後訪問）. ‧. 的文章列表 URL，從文章列表中取得每一篇文章的連結之後逐篇訪問文章 URL. y. Nat. er. io. sit. 去擷取文章內容，並將擷取的內容存放至資料庫中，每次執行後終止點（文章列表的最後一頁），將此最後一頁的網址記錄下來，在下次啟動的時候可以接續. n. al. Ch. 上次執行的位置繼續擷取文章資料。. engchi. 31. i n U. v.

(42) 4.1.2 後端資料庫本研究使用 MongoDB 作為資料儲存的資料庫，它是目前最流行的 NoSQL 資料庫之一。NoSQL 一詞最早出現在 1998 年，訴求是開發一個輕量、開源、不提供 SQL 功能的資料庫。後來到了 2009 年，當時發貣了一次關於分散式開源資料庫的討論，此時再次提出了 NoSQL 的概念，這時的 NoSQL 主要指的是非關係型、分布式、不提供 ACID 的資料庫設計模式，而至今的 NoSQL 資料庫大部分還是依舊具有 ACID 的設計模式概念 [10]。 ACID [引用自 10]:. 立. 政治大. 1. Atomicity (原子性/不可分割性)：. ‧ 國. 學. 一個事務（Transaction）要完成所有的動作，只要中間一個環節失敗了就立即還原（Rollback）到該事務開始之前。. er. io. sit. Nat. 寫入資料必須符合所有原先設定的預設原則。. y. ‧. 2. Consistency (一致性)：. 3. Isolation (隔離性)：. al. n. v i n Ch 當數個事務同時被查詢或是修改，資料同一數據表示出的相互關係。 engchi U 4. Durability (持久性)：當事務完成之後，該事務修改後的結果會持久且完全地保留在資料庫中。 NoSQL 具有 Free-Schema 以及在分散式叢集上良好的執行特性，許多資料分析的帄台都開始採用 NoSQL 作為儲存媒體，而 MongoDB 是一個 Documents Base Storage 的資料庫， Documents 指的是一種 JSON (JavaScript Object Notation)-Like 的 Key-Value pairs 的儲存格式，讓使用者可以就像直接透過 Key 查詢資料，就像查詢程式內部的結構化資料一樣，因為社群文章大多都是. 32.

(43) Documents base 的文章，所以非常適合採用 MongoDB 作為儲存媒介,所以本系統採用 MongoDB 作為資料儲存的媒介。在 MongoDB 中一個 Collections 代表的是一組相關的 Documents 並可能 Shared 共通的索引鍵(Indexed Keys)，Collections 的概念就類似於 RMDB 裡的 Table。在 MongoDB 存入 Document Records 時，使用者必須先選定要存入的 DATABASE，之後指定 Data Collection 使用 Insert Operation 將資料寫入。圖 4-4 Insert Records into MongoDB. 立. 政治大. ‧. ‧ 國. 學 sit. y. Nat. 使用者可以透過 Find Operation，指定 Query Criteria 查詢 Records(如. al. n. 料庫使用。. er. io. 下圖 4-5)，這樣的資料存放及查詢方式非常適合作為資料分析系統作為後台資. Ch. 圖 4-5 在 MongoDB 查詢資料. engchi. 33. i n U. v.

(44) 4.2 分析帄台查詢及排程運算本研究實作的網頁框架使用的是 Ruby on Rails 的方式實作，它是一個 Ruby 程式語言的 Web Framework，使用者可以透過 MVC 的方式快速建構一個網站，使用者可以透過網頁的操作快速瞭解本帄台分析的結果。在上一節提到在資料儲存的部分提到資料庫使用的是 MongoDB，我們這裡會使用 Mongoid 與 Ruby on Rails 的後台做整合。透過 Mongoid 我們可以直接對 Rails Application 設定 Ruby 在撰寫 Controller 資料處理及查詢可以使用. 政治大. 讀取使用的欄位以及 Query Methods，使得撰寫查詢分析條件的時候更加容易. 立. 方便，因為 MongoDB 本身是可動態調整欄位(Schemaless)的特性，所以此設定. ‧ 國. 學. 檔可以隨時更改增加或是修改欄位或是 Customs query methods(如圖 4-6 所. ‧. 示)。. n. al. er. io. sit. y. Nat. 圖 4-6 透過 id 定義使用者自訂查詢語法. Ch. engchi. i n U. v. 資料蒐集程式會每小時會將文章蒐集至 MongoDB 的「文章原始資料」 Collection 中(圖 4-7)，於每天 00:30 的時候使用 Jieba 加強版斷詞工具進行斷詞計算每一篇文章的 TF(term frequency) TOP10 特徵詞存入「已斷詞文章」 Collection 中，再將本日所有文章特徵詞比對現有詞典，如果詞典中找尋不到的特徵詞而且該詞符合反饋標準（當日該詞出現在兩篇文章以上且為特徵詞），就會將加入 MongoDB 「每日新詞列表」Collection 及 Jieba 的使用者自訂詞典中， 34.

(45) 最後將本日所有的特徵詞的 IDF (inverse document frequency)統計結果存入「每日斷詞詞頻統計」Collection 中。圖 4-7 社媒新詞分析系統 Mongo collections. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 35. i n U. v.

(46) 4.3 社群媒體新詞分析系統頁面根據上面的資料蒐集、後端資料庫、文章斷詞、每日排程計算結果實作之後，社群媒體新詞分析系統實作了幾種詞的分析頁面讓使用者去觀察詞與社群話題文章之間的關聯性，藉由透過新詞去找尋新的話題或是透過特徵詞的共現關係去暸解文章的議題框架。圖 4-8 每日新詞列表. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 根據每天的斷詞結果比對 Jieba 的當前詞典，如果該特徵詞在當日出現超過兩次以上就會被當作新偵測出來的新詞，這裡評估超過三篇以上的新詞才具有觀察的意義，如果該新詞出現的篇數超過十篇以上，代表這是一個新的熱門話題，值得使用者去關注，例如（圖 4-10）中的「鈣片」，這個詞的出現是在於台北市長提出鈣片替代牛奶提供給小學生作為鈣補充的來源，這樣的議題導. 36.

(47) 致網友的討論，透過本研究的新詞偵測的方式，可以快速掌握每天新出現的詞，藉由此去了解每天新產生的話題。圖 4-9 特徵詞與共現詞. 立. 政治大. ‧ 國. 學 ‧. 有時候只有單獨的一個詞，使用者無法快速地了解到這個詞背後所代表的. sit. y. Nat. 涵意，當然使用者也可以直接查詢包含這個特徵詞的文章列表，但是透過共現. io. al. er. 詞的圖表，使用者不必直接去閱讀文章就可以更快速的從共現詞去瞭解本詞背. v. n. 、「小孩」、「免後所代表的議題，如（圖 4-11）我們可以透過「鈣片」與「牛奶」. Ch. engchi. i n U. 費」的詞語共現關係，由此知道鈣片這個議題在講述的跟小孩免費牛奶的議題有所相關，本圖表另外有提供雙擊功能，使用者就可以直接看到所有與鈣片相關的文章。. 37.

(48) 熱門話題偵測演算法:. FS: Post Frequency, each Post is represented by the Top-N words list. 𝑇 𝑃𝑇 = (𝑤𝑐𝑇 …. 𝑤10 ). 𝑃𝐹(𝑤 𝑇 ) For word w at day T.. For each past P at day T, we will compute a ? score for it as follows. 10 𝑇 𝐾=1 𝑌𝐾. 𝑆𝑐𝑜𝑟𝑒(𝑃𝑇 ) =. ∗ 𝑃𝐹( 𝑊𝐾𝑇 ). 𝑇) 𝑇−1 ) Where 𝑌𝐾𝑇 = 1 𝑖𝑓 𝑃𝐹(𝑤𝐾 ≥ 1.5 ∗ 𝑃𝐹(𝑊𝐾. 0. 立. 𝑒𝑙𝑠𝑒 治政大. 有時候我們發現只關注新詞有時候會錯過一些熱門議題，因為有一些詞可. ‧ 國. 學. 能在其他議題已經出現過，本研究針對這個問題提出文章 Ranking 的演算方法，. ‧. 針對每一篇文章十個特徵詞，透過每日詞頻統計資料庫的結果去比對昨日這些. sit. y. Nat. 詞出現的文章次數作為一個比較基準，如果該特徵詞今天出現的文章篇數比昨. n. al. er. io. 天的次數高於 1.5 倍以上，就把該詞當作是熱門詞，如果一篇文章找出多個熱. i n U. v. 門詞這一些就是這篇文章的 Ranking 基準，將這些熱門詞今天出現的數量加總. Ch. engchi. ，由最高分數的第一篇文章為例，得出該篇文章的分數（如圖 4-13 的分數欄位）這篇文章內包含了五個熱門詞，分數基準: {寵物 => 15},{課稅 => 9},{農委會 => 4},{飼主 => 4},{棄養 => 2}，加總後得到 34 分，透過這樣的方式，可以去補足新詞所偵測不到的熱門議題的不足。. 38.

(49) 圖 4-10 每日新話題偵測列表. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 39. i n U. v.

(50) 第五章斷詞驗證及系統成果圖 5-1 八卦版每日新詞偵測數量曲線圖. 立. 政治大. ‧ 國. 學. （圖 5-1）是針對本研究的資料-PTT 八卦版的每日新詞偵測數量所繪製的. ‧. 曲線圖，本研究的資料區間約為５個月的 PTT 八卦版文章，從此線圖我們可以. y. Nat. io. sit. 發現在第一天的新詞偵測的數量是最多的，因為 Jieba 預設的辭典主要還是以中. er. 國地區的用語詞為主，以下我們所說的新詞指的是原本文章裡面不具有的詞，. al. n. v i n Ch 在第一天本研究對於八卦版文章做斷詞後發現 1028 個新詞，經由反饋系統我們 engchi U 會將這些詞加入使用者自訂詞典中，大約在第三天之後新詞偵測的量就趨於穩. 定，一個月後每天詞的偵測量就只剩下 100 ~ 200 個詞（per day），而從 2015/1/1 至 2015/5/31 的八卦版文章中，總共偵測出 23314 個新詞。. 40.

(51) 5.1 Jieba 強化版的新詞偵測評估強化版 Jieba(加入 SW 版本)的偵測結果做數據上評估： 1.以五天的 PTT 八卦版的文章最為斷詞素材。 2.就所有斷詞結果比對 Jieba 強化版的現有字典，如果符合成為一個新詞的原則，就將該詞認作是一個新詞。 3.人工比對新詞偵測結果，計算正確率，因為本系統主要著重於新詞偵測對於 Jieba 原生斷詞的結果會於予保留，所以本驗證方法只會對新詞的正確率做計算。. 立. 政治大. 4.將所有偵測到的新詞，扣除偵測錯誤的結果，比較 CKIP 及原生版 Jieba 的新. ‧ 國. 學. 詞偵測涵蓋率（Coverage）。. ‧. 我們採用五天的八卦版文章共 10218 篇，使用 Jieba 強化版對這些文章進行. sit. y. Nat. 斷詞，斷詞結果約十萬字，比對當前的詞典之後發現 458 個不存在於目前詞典. io. al. er. 的新詞，人工判斷後判定正確率為 96%，扣除偵測錯誤的詞後有 445 個新詞被. v. n. 偵測出來(詳細結果如附錄 2)，接下來將會使用這些詞與 CKIP 和原生版的 Jieba 做偵測涵蓋率的比較。. Ch. engchi. i n U. 5.1.1 SW 新詞偵測成果及效能比較從新詞的偵測結果發現 CKIP 對於一些人名具有較高的偵測率(例:鄧福如…)，但是對於一些新的複合詞較弱(例:黑箱課綱、高鐵財改案、防磚條款…) 而 Jieba 對於這些複合詞都可以偵測出來，但是相較於 CKIP 的名詞則偵測率較低，但透過 SW 和詞反饋的機制後可以使得原生版結巴提升 32%的新詞偵測率，接下來將會對 Jieba 強化版及 Jieba 原生版進行效能的評估比較。. 41.

(52) (表 5-1)是由 Mac air2014 年的機器，Intel 2 core 1.6G，4G memory，SSD Disk 上對 445 篇文章對斷詞的效能評比，我們可以發現加入 SW 的強化版 Jieba 會較原生版需要多花一點運算時間（16%），在程式中還有許多可以優化的部分，但本研究主要在於提升新詞的偵測率及創建專屬領域詞典，在效能優化部分著墨有限，以上數據供使用者參考評估效能與新詞偵測率的比較。 Command. Efficiency Rate. python jiebaSW.py. 6.03s user 0.30s system 97% cpu 6.463 total 5.20s user治 0.27s system 99% cpu 5.513 total 政大. python jieba.py. 立. 表 5-1 效能評估. ‧ 國. 學. 5.1.2 新詞偵測結果觀察. ‧. 後續觀察半年的偵測結果字詞觀察到一些有趣的例子，在八卦板內，網路. sit. y. Nat. 鄉民習慣以「魯蛇」自稱，這是一個奇怪的網路現象，而另一方面的解讀可以. n. al. er. io. 發現台灣網路鄉民普遍覺得自己處於壓抑對於未來不抱太多希望的現象，而這. i n U. v. 樣的現象中也衍生出一個有趣的新詞「慣老闆」，它指的是要求低薪勞力壓榨員. Ch. engchi. 工但卻因為台灣人刻苦耐勞而被寵壞的老闆。另外在政治議題可以發現鄉民對於政黨的特殊取向，產生不少的詞來調侃執政的政府(例如:黨證、割闌尾、騜…) 。造詞的規則大致上都是「會意」及「形聲」，其中又以形聲為主，(例如:八嘎冏、霉體、妓者、溫拿、魯蛇)，詳細的新詞整理表可以參照附件。. 5.2 社群媒體新詞偵測系統成果展示有了良好的斷詞基礎以及尋找新詞的能力，以下是本系統對於每天的特徵詞擷取的結果實作了每日新詞偵測表以及基於熱門詞去計算找尋熱門話題兩個. 42.

(53) 資料觀測視圖，以下是本研究的實驗結果及介紹。. 新詞偵測演算法: #𝑊(𝐷1 ) − #𝑊(𝐷2 ) ≥ 2. 政治大. 立. ‧. ‧ 國. 學 sit. y. Nat. 表 5-2 2015/2/04 新詞偵測表. io. al. er. 這是在每日新詞偵測紀錄中分數最顯著的偵測結果，那一天發生了復興空. v. n. 難事件，許多人在轉貼討論復興空難的話題以及新聞，當天大部份的新詞都在. Ch. 是講述澎湖空難的相關詞。. engchi. i n U. 同樣的話題在熱門話題偵測分析，也是偵測出同樣的話題，當新詞及熱門詞出現一樣的話題的時候，代表著這個話題的討論熱度非常高，而且這是一個今天新發生的議題，值得使用者後續關注。. 43.

(54) 政治大. 立表 5-3 2015/2/4 熱門話題偵測. ‧ 國. 學. 經過後續的觀察三個月後復興還是有一些負評存在，後續有觀察到復興有維修出包的事件，以及有旅客表示抱怨的問題透過本系統快已快速蒐集觀測話. y. Nat. n. er. io. sit. 圖 5-2 與復興最近相關的共現詞. al. ‧. 題的出現、趨勢流行、後續這個話題的延續話題狀態。. Ch. engchi. 44. i n U. v.

(55) 政治大在 2015/1/12 偵測到的最熱門詞是國稅局，這是柯文哲被檢舉向父母借錢立表 5-4 2015/1/12 新詞偵測表. ‧ 國. 學. 但是沒有借據，懷疑是贈與有逃漏稅的議題，這裏可以觀測到一個特性就是新詞的出現會有相關的聯帶性，像是「借據」、「查稅」、「贈與」、「契約」都是在. ‧. 講關於這一個議題事件的話題。. n. er. io. sit. y. Nat. al. Ch. engchi. 45. i n U. v.

(56) 日期. 偵測新詞. 新詞的隱含話題. 2015-01-02 陳彥衡. [新聞]林俊傑遭歌迷毆打事件. 2015-01-04 導盲犬. [爆卦] 台北車站某家鐵板燒拒絕導盲犬入店. 2015-01-05 寬宏. [新聞] 江蕙引爆搶票潮寬宏網站癱瘓. 2015-01-12 國稅局、查 [新聞] 遭國稅局查稅柯媽：借給孩子誰寫借據稅、借據 2015-01-19 經濟艙. [新聞] 北市官員出差商務艙砍為經濟艙. 2015-01-20 殉職. [新聞] 20 幾歲消防員殉職惡火無情. 政治大. 立. [新聞] 2 屁孩暴打街友濺血遭肉搜. 1 人到案. 學. ‧ 國. 2015-01-21 街友 2015-01-23 江肇國. [新聞] 違規停車不能開單？議員江肇國遭爆嗆. 2015-01-26 破銅爛鐵. [新聞] 外賓贈錶. ‧. 警. 柯 P 失言：可拿去破銅爛鐵賣. sit. y. Nat. io. al. er. 2015-01-28 交保、魏應 [新聞] 頂新魏應充凌晨交保 5 分鐘就備妥 1 億. n. 充、楊蕙. Ch. engchi. i n U. v. 2015-02-04 復興航空、墜 [新聞] 復航才隔半年多又墜機！機齡不到 8 個月機、復興、 ATR72、侯友宜… 2015-02-11 劫獄、鄭立德 [新聞] 典獄長遭 6 犯挾持. 法務部：談判優先！. 表 5-5 每日新詞及偵測話題表一. 46.

(57) 日期. 偵測新詞. 新詞的隱含話題. 2015-02-23 釋昭慧、. [新聞] 慈濟內湖開發案釋昭慧發文挺. 2015-02-28 藍黑. 全球趣聞／藍黑 VS 白金. 一條裙子引發的顏色大. 戰！ 2015-03-10 陳碧瑤. [新聞]聯開孛抗爭代表被爆房仲裝可憐陳碧瑤將現. 2015-03-13 國宴. [爆卦] 義美 FB：總經理受邀國宴，該桌只有一人. 政治大. 2015-03-20 撿拾、漂流 [新聞] 鍘錯了?! 漂流木爭議暫緩「拔掉」內湖分. 立. 木、亞杉、局長. ‧ 國. 學. 木材行. [新聞] 暴雪對刀塔傳奇提貣刑事告訴. 2015-04-01 F18. [新聞] 美軍 F-18 迫降台南機場. ‧. 2015-03-24 刀塔. Nat. sit. y. 軍方協助維修. [新聞] 飛官私帶李蒨蓉上阿帕契. io. n. al. 2015-04-03 勞乃成、記過 2015-04-10 趕工. 陸軍：違法將. er. 2015-04-02 李蒨蓉. 嚴逞. v i n C h 李蒨蓉登阿帕契 [新聞] e n g c h i U 軍官勞乃成大過一次移送 [新聞] 捷運工程出人命網友：林佳龍是殺人兇手. 2015-04-23 網路霸 [新聞] 楊又穎兄哽咽：網路霸凌逼妹上絕路凌、實名制 2015-04-25 尼泊爾. [新聞] 尼泊爾強震聖母峰雪崩兩百年古塔倒了表 5-6 每日新詞及偵測話題表二. 47.

社群媒體新詞偵測系統 以PTT八卦版為例 - 政大學術集成

社群媒體新詞偵測系統以PTT八卦版為例 - 政大學術集成