• 沒有找到結果。

關鍵詞與階層式詞彙文本分群之應用 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "關鍵詞與階層式詞彙文本分群之應用 - 政大學術集成"

Copied!
60
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學商學院統計研究所 碩士學位論文. 關鍵詞與階層式詞彙文本分群之應用. 政 治 大 The Application of Key Words and 立 Hierarchical Vocabulary Text Grouping ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 指導教授:宋皇志博士 余清祥博士 研究生:黃培軒 撰 中華民國 107 年 7 月. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(2) 摘要 文本為人類歷史足跡的載體,從朝代歷史至個人日記,記錄著當代人類的 文化思想、風俗民情與科技發展,隨著時代推演這些紀錄不再侷限於牛皮紙張 或土瓦竹簡等實體載具,以更多元的數位型式記載在網路虛擬世界。而文本往 往必須委由專家才能解讀出其中心思想,隨著文字分析技術的興起,愈來愈多 學者研發藉由量化技術找出文字蘊含的意義,以因應資訊氾濫時代中快速篩選 資訊,提供專家以外另一種角度的解讀。 主題式分析是文字分析的重要研究議題,透過界定關鍵詞與區隔文本屬性使. 政 治 大 document frequency)與處理語意的常見工具詞網(WordNet)為基礎,提出核心詞彙 立. 得文本解析更為精確及有效率,本文以常用的 TF-IDF (term frequency inverse. ‧ 國. 學. 與篩選標籤特徵應用,探討因文章長短所造成的不穩定性與特殊領域詞彙關係問 題(Magnini and Cavaglia, 2000)。本文利用《臺灣社會科學引文索引》(TSSCI)、. ‧. 美國專利、《人民日報》等三個文本作為分析對象,建構該文本的語意關係與相. sit. y. Nat. 關之應用。分析發現 TSSCI 與美國專利的文本的分類準確率近八成,但若文本. al. er. io. 篇數過少時會因為雜訊太強無法呈現語意關係;而文本標籤(Label)間若是風格寫. v. n. 作上的差異,本文提出的主題分類無法歸類出較準確的分類結果,這可能也是《人. Ch. engchi. i n U. 民日報》文本分類準確率不佳的原因,但仍能透過該標籤的特徵(Feature)了解該 時期的特殊主題。. 關鍵詞 : 階層式詞彙文本分群、關鍵詞、數位人文、語意分析、資料導向. I. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(3) 1 Abstract Text is the carrier of the human history. From the official history to the personal diary, it records the culture, thoughts, customs, and technological developments of human beings. With the progress of computer technology, text recordings are no longer restricted to physical vehicles, such as kraft paper or earthen bamboo slips, and they can be recorded in various digital forms. With the rise of interest in quantifying text analysis, more and more scholars are dedicated in the technologic development of text analysis and apply them to explore the text meaning. Many people think that computer. 政 治 大 burden of human experts in立 seeking the meaning under the text.. technology, such as machine learning and artificial intelligence, can help us relax the. ‧ 國. 學. Topic analysis is an important research topic in text analysis. It makes text parsing faster by defining keywords and separating text attributes. This paper proposes the. ‧. application of core vocabulary and screening tag features based on the commonly used. sit. y. Nat. TF-IDF (term frequency inverse document frequency) and the common tool word. al. er. io. network (WordNet). We will apply them in exploring the relationship between. v. n. instability caused by the length of the article and vocabulary (Magnini and Cavaglia,. Ch. engchi. i n U. 2000). We use the Taiwan Social Science Citation Index (TSSCI), the U.S. patent, and the People's Daily as the study materials. The results of text analysis show that the classification accuracies of TSSCI and U.S. patent texts are nearly 80%. However, if the number of article is too small, then the noise will distort the analysis and semantic relations. Also, we found the style writing would influence the accuracy of topic classification, which may be the reason why the People’s Daily text classification accuracy is not good.. II. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(4) Keyword: Hierarchical Vocabulary Text Grouping, Keywords, Digital Humanities, Semantic Analysis, Data Driven. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. III. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(5) 目錄 第一章 緒論................................................................................ 1 第一節. 研究動機................................................................................................ 1. 第二節. 研究目的................................................................................................ 2. 第二章 文獻探討 ....................................................................... 5 第一節. 結巴斷詞與詞幹化................................................................................ 5. 第二節. TF-IDF ................................................................................................... 6. 第三節. 詞網........................................................................................................ 7. 第四節. 政 治 大 隨機遊走模型與社群網絡.................................................................... 8 立. ‧ 國. 學. 第三章 研究方法 ..................................................................... 12 資料庫建立.......................................................................................... 12. 第二節. 文本關鍵詞篩選.................................................................................. 13. 第三節. 社群網絡分群與命名.......................................................................... 17. 第四節. 文本歸類與標籤特徵.......................................................................... 18. ‧. 第一節. er. io. sit. y. Nat. n. al 第四章 資料介紹 ..................................................................... 20 iv 第一節. n U engchi 臺灣社會科學引文索引...................................................................... 20. 第二節. 美國專利.............................................................................................. 20. 第三節. 人民日報.............................................................................................. 22. Ch. 第五章 分析結果 ..................................................................... 24 第一節. TSSCI 關鍵詞篩選閥值與模型 .......................................................... 24. 第二節. 階層式詞彙文本分群實證分析.......................................................... 29. 5.2.1. 階層式詞彙分群與命名 ............................................................................... 29. 5.2.2. 文本歸類準確性與特徵的選取 ................................................................... 31. IV. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(6) 第六章 結論與建議 ................................................................. 35 第一節. 結論...................................................................................................... 35. 第二節. 研究限制與未來建議.......................................................................... 36. 參考文獻.................................................................................. 38 中文部分 .................................................................................................................. 38 英文部分 .................................................................................................................. 39. 附錄一 各文本關鍵詞及其分群 ............................................. 41 附錄二 人民日報相關附文 ..................................................... 49 治. 立. 政. 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. V. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(7) 表目錄 表 3-1、前十大單詞、非單詞 .................................................................................. 14 表 3-2、人民日報 196112230107 文本 TFIDF 分析結果 ....................................... 14 表 3-3、人民日報 200301180108 文本 TFIDF 分析結果 ....................................... 15 表 3-4、第四群關鍵詞前二十大核心度 .................................................................. 19 表 4-1、資料庫資訊 .................................................................................................. 23 表 5-1、TSSCI 中文文本關鍵詞擷取閥值與模型錯誤率 ...................................... 27 表 5-2、TSSCI 英文文本關鍵詞擷取閥值與模型錯誤率 ...................................... 27. 政 治 大 表 5-4、美國專利文本分群結果 立 .............................................................................. 33 表 5-3、TSSCI 中文文本分群結果 .......................................................................... 32. ‧. ‧ 國. 學. 表 5-5、人民日報文本分群結果 .............................................................................. 34. 附表 1 TSSCI 中文文本第一階段分群關鍵詞 ......................................................... 41. sit. y. Nat. 附表 2 人民日報十七群之關鍵詞............................................................................ 42. al. er. io. 附表 3 《圖書資訊學研究》與該特徵關係表........................................................ 46. v. n. 附表 4 美國專利 MEDIATEC 與該特徵關係表 ..................................................... 47. Ch. engchi. i n U. 附表 5 人民日報與該特徵關係表............................................................................ 48. VI. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(8) 圖目錄 圖 3-1、TSSCI 中文文本使用 TF-IDF 關鍵詞篩選下錯誤情形 ............................ 16 圖 5-1、TSSCI 中文文本關鍵詞擷取之錯誤率比較 .............................................. 28 圖 5-2、TSSCI 英文文本關鍵詞擷取之錯誤率比較 .............................................. 29 圖 5-3、TSSCI 階層式分群示意圖 .......................................................................... 31. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. VII. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(9) 2 第一章 第一節. 緒論. 研究動機. 在網路興起的時代,當今科技發展大多與資訊傳遞與應用有關,包括伴隨 5G 興起的物聯網(Internet of Things)產業、因區塊鏈(Blockchain)而擴展的加密貨 幣與信任交易。大數據分析則是發展這些產業的基石,透過處理龐大數據使數 位科技走進日常生活中,協助人們解決各方面的需求,舉凡職場上輔佐決策判 斷,或是社會上促進人與人的互動,都與如何解讀資訊息息相關。 在數據分析的領域中,資料可根據是否可以量化與明確定義區分成結構型資. 政 治 大. 料(Structured data)與非結構型資料(Unstructured data)。 結構型與非結構型資料差. 立. 異與應用,多年來已經有許多學者提出兩者的差異,包括 Inmon and Nesavich. ‧ 國. 學. (2008)在《Tapping Into Unstructured Data》第二章提及了這兩者的優勢與發展。 結構型資料泛指每筆資料有固定欄位、固定格式、以及固定順序,最常見的例子. ‧. 為試算表;非結構型資料的形式沒有固定型態,通常由使用者決定資料格式,像. y. Nat. sit. 是文字、圖片、影音檔都屬於這類型。結構型資料的分析技術已經相當成熟,經. n. al. er. io. 過資料偵錯後,可針對變數特性及問題需要,選擇適合的分析方法及軟體,處理. i n U. v. 及加工這種資料相對容易。非結構型資料則需要根據問題需求,將資料轉換成結. Ch. engchi. 構型資料,這個過程也稱為結構化(Structurization),過程通常非常繁瑣費時,但 非結構型資料所記載的訊息更完整,分析人員也可以依據議題來定義所需欄位。 大體而言,結構型資料的分析技術發展已有成熟的系統與模式,包括遺漏 值處理、殘差假設、模型分析等,都有相當充足的統計理論為基礎,加上近年 神經網絡之類技術的突破,在速度及精確度各方面更上層樓。非結構型資料的 處理至今仍處於發展階段,由於格式化資料與議題、專業領域有關,更需要跨 領域學者的合作,近年在某些特定應用領域有不少成果,像是圖像與語音的研 究皆有飛越性成長。其中文字符號為人類傳達資訊的主要工具,無論是信件來 往、心情日記、文宣傳單、期刊報紙與書籍紀錄,見證人類文明發展與歷史演 1. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(10) 變,透過文本分析,可進一步解析文字背後的主題與意義。近年文字分析已從 單一文本擴展到多文本間的比較,從中探討主題的趨勢脈絡、朝代間常用詞語 與結構的轉變,獲致相當豐碩的成果。例如余清祥(1998)以檢定及對詩詞字 數、虛字、結語用字做分析,認為紅樓夢的作者至少有兩位,何立行等人 (2014)以《新青年》的虛字統計及句子長度等方法,尋找區分文言與白話的指 標。 在文字分析領域中,主題式文本分群(Topic Modelling)一直是現今運用 在各個主題研究與商業產品中主要技術之一。在專利產業中,專利權人藉由檢. 政 治 大 籌碼。然而現今多以人工方式逐一檢索與比對,透過分群技術將更快速掌握市 立 索出技術內容相似的文章來確保專利無侵權之行為或是在專利戰爭中握有更多. 場技術藍圖,同時該技術同樣可以運用在圖書館藏書分類系統提供技術人員建. ‧ 國. 學. 議與瀏覽器查詢系統中增加使用者瀏覽舒適度,而在以服務最為商品興起的時. sit. y. Nat. 研究目的. io. al. er. 第二節. ‧. 代中,文本分群的應用也將更加廣泛。. v. n. 主題式文本分析是現今文字分析中的主要方向之一(Michael, 2004),透過資. Ch. engchi. i n U. 料導向快速理解文本的內涵意義,並歸類文本所屬類別,而最常被探討的問題 是「非結構化資料如何轉換成結構化資料」,不僅僅要擷取出與主題相關的訊 息,還要考量簡化非結構文本的複雜度。現行析方法主要透過文字的斷詞、詞 性、詞幹化、片語化、去除標點符號與停用字、詞義消歧(Word Sense Disambiguation)的處理與關鍵詞檢索等文字前處理,將非結構資料轉換成結構 型資料,隨後再使用結構型資料計算每篇文本間的相似性。最常使用的相似性 公式為餘弦值(cosine),然後套用分群模型,評估分群群數多少時效果最佳 (Shraddha 等人,2017)。 然而現今許多分析者並未考量文本型態的差異,流於將相同技術套用在不 2. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(11) 同領域的文本。例如:斷詞應當針對不同領域及時代的文本調整分析方式,像 是十年前「區塊鏈」的斷詞結果大多為「區塊」、「鏈」,如今該詞是一個不可分 割的詞彙。在關鍵詞篩選中,TF-IDF 為現今最常使用的關鍵詞篩選方法之一, 該方法考慮詞彙在文本內的頻率與文本間的關係,但關鍵詞的篩選也應當視文 本而定,例如:專利摘要因為幾乎沒有贅字,關鍵詞幾乎都是文本中詞頻最高 的前幾名,《人民日報》之類的報章文字必須避開常見詞,《唐詩》的篩選方式 則又不同,需考量文言文、白話文的差異,且本文透過實證分析發現文章長度 也是也是影響關鍵詞篩選的因素之一,因此關鍵詞篩選中納入文本長度與文本. 政 治 大 至於在詞義消歧上也被利用到各種議題中,如在專利產業中,專利檢索是 立. 特性嘗試以更多元的面向探討關鍵詞。. 公司開發新產品的過程中最常使用的技術之一,從產品製作前的前案(Prior Art). ‧ 國. 學. 檢索來評估新穎性,到研發完成之後的專利佈局,亦或是在後續利用前案撤銷. ‧. 對手專利等等過程,豐富的檢索經驗與能力確保公司企業不陷入侵權危機,然. y. Nat. 而專利文本撰寫並未規定文本用詞,使得為了避免公司專利太容易被他人檢. er. io. sit. 索,文本用詞往往過於冷僻,如 Article Digital Media 代表 DVD,孟山都農業技 術公司使用「對植物的外來化學品」代替除草劑、殺蟲劑等,這類的語意關係. al. n. v i n 造成檢索的困難度,而這樣的語意關係在不同的領域與議題中也不同。 Ch engchi U. 面對詞義消歧上,許多人使用人工建立的詞網來補足同義詞的問題,如. 「cat」與「kitten」同樣用於描述貓,可視為相同或類似詞意,只是以不同形式 呈現,透過詞網可協助處理同義詞。然而詞網和文本特性有關(或是 Datadependent),並非適用於每個文本,由報章報導建立的詞網未必適用於專利文 本,其中許多專有名詞未必記載在詞網。例如:《人民日報》中的報導若出現 「西藏」,有七成的機率會出現「選舉」。兩詞彙是否為同義詞與風俗文化,抑 或是文本特性有關,若未考慮與處理此現象,隨意套用詞網可能造成干擾資訊 的雜訊(noise)。另外,詞網內的同義詞之距離往往難以界定,像是如果套用. 3. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(12) Passos and Wainer(2009)的文本間空間距離(metric space),實驗結果為詞網並未 提升分群效果。 透過文獻探討與實證分析,本文的研究目的在於改上以上提出的關鍵詞與 詞網面臨的問題,嘗試改良 TF-IDF 調整並引入文章長度與文本特性等影響因 素,並以資料導向建立詞網,嘗試彌補特殊領域厦文本詞彙關係界定不全的現 象,再透過文本歸類準確率評估仿詞網的效果。本文第二章呈現文字處理的流 程、工具與相關的文獻探討;第三章呈現本文研究方法,包含現今最常使用的 關鍵詞檢索工具 TF-IDF 在文本的效益並提出本文的優化想法,與詞網工具的. 政 治 大 現各文本分析結果與探討是否有改良之處,最後第六章則會提出本研究的結論 立 缺點與替代技術;第四章呈現本文所使用的三大資料庫與細部內容;第五章呈. 與後續建議。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 4. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(13) 3 第二章. 文獻探討. 文本分群最廣為人使用的方式是將文本經過文字前處理與關鍵詞擷取後, 文本以詞袋(bag of word)的方式表示,並定義指標(metrics)來計算文本間的距離 關係,並透過分群演算法將距離相近的文本歸類。前處理通常包含了斷詞、詞 幹化,去掉數字與停用詞,並透過關鍵詞擷取技術篩選出每篇文章的關鍵詞, 現行關鍵詞擷取以非監督式學習方式為主流,而 TF-IDF 為大宗使用者所使用 且最為直覺的工具,除了 TF-IDF 外,吳旻璁(2015)以圖形排名(Graph-Based Ranking)的觀點使用 Topic Page Rank (簡稱 TPR)的方式,將主題性考量詞彙在. 政 治 大 文章關鍵詞擷取完後利用詞袋方式將文本轉換成結構化資料,而詞袋間的 立. 不同主題下應有不同的權重重要性。. ‧ 國. 學. 距離定義繁多,Huang (2008) 列舉數個指標,包含歐式距離、餘弦距離、杰卡 德(Jaccard)、皮爾森相關係數(Pearson Correlation Coefficient)與平均 KL 散度. ‧. (Averaged Kullback-Leibler Divergence,簡稱平均 KL 散度),並通過實驗得到皮. sit. y. Nat. 爾森相關係數與平均 KL 散度的結果最佳且穩定,而大部份分析人員仍使用直. al. er. io. 觀的餘弦值來計算;分群演算法最廣為人知且使用的是透過 k-平均算法. v. n. (kmeans) 計算,Benezeth et.al (2015)提出演算法更快且穩定的馬卡夫分群演算. Ch. engchi. i n U. 法(Markov Clustering Algorithm),而吳怡瑾(2009)則使用階層式文件分群 (Hierarchical Agglomerative Clustering,簡稱 HAC)中的群平均相似度(Group Average)運用在網誌文本中。 上述提及的技術方法眾多,本章將只介紹與本文方法相關的技術內容,包 含結巴斷詞與詞幹化、TF-IDF、詞網、隨機遊走模型與社群網絡。. 第一節. 結巴斷詞與詞幹化. 語言間的差異不單單是符號的不同,文法結構、特殊用語、語意表達上都 有極大的不同,如英文有單數複數與時態上的型態轉換,然而這樣的型態轉換 5. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(14) 卻使得文字處理在計算語意出現的頻率時有資訊不完全的現象,如複數與單數 詞彙語意上相同,但卻因為字符樣式上的不同而無法正確計算這個語意正確的 頻率,因此詞幹化技術最常運用在將這些時態轉換的情形,如英文詞幹化一般 使用 Porter 演算法定義的一些字尾的規則,將字尾還原成通用的型態,詞幹化 乃藉由捨去時態與數量上的意義而使得擷取語意上可以更準確。 中文文本較沒有單數複數與時態轉換的情形,然而卻需要在文句上做斷 詞,因大部分中文單詞都沒有意義,如「尷尬」,句子間的文字應該如何斷開成 詞已是議論許久的議題。由於斷詞並沒有標準答案,有時文字是否應斷詞會受. 政 治 大 「人工 智慧」。但若不能將文字有意義地斷開,在後續分析中將難從這特徵理 立 到語感、使用頻率的差異,如「焦躁不安」與「焦躁 不安」、「人工智慧」與. 解其代表的意義,如再斷詞時「收藏家」被區分成「收」、「藏家」,則一方面很. ‧ 國. 學. 難從「藏家」看到其原本的意義,也會造成噪音使得計算「收」這個特徵的數. ‧. 量時並不準確。. y. Nat. 中文斷詞目前有許多套演算法,包括謝博行(2013)提出局部最長連續共同. er. io. sit. 子序列的概念,透過文本運算字與字的鏈結情形,試圖找出可能的斷詞結果, 中研院也提供準確率近 96%的中文斷詞的服務。而目前最多人使用的工具為由. al. n. v i n 大陸人所開發且支援繁體中文的結巴斷詞,藉由過去大量文本來計算各個單字 Ch engchi U 出現的機率與條件機率,對於一段文字的處理,透過語料庫斷出此句子所有的. 斷詞可能,並透過條件機率計算最大的斷詞組合;對於新詞彙的檢索則是透過 隱藏式馬可夫模型來計算,評斷多個連續出現的字詞是否可以合併成新的詞 彙,而結巴斷詞的特點在於結巴斷詞為開源系統,有多人維護與優化,再者它 提供了使用者可新增的語料庫給使用者對於不同議題時新增適當的成詞詞彙。. 第二節. TF-IDF. 在文字分析中,檢索單篇文本關鍵詞最常使用的方法是 TF-IDF(term 6. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(15) frequency–inverse document frequency),其計算方法源自於 Salton(1975)所假設 的一篇文本的關鍵詞特性為「在該篇文章出現頻率高,在其他篇不常出現」,避 免純粹使用辭彙頻率多寡而挑選出過多常用詞彙,如「的」、「我們」。TF-IDF 演算法包含兩個部分:詞頻(term frequency,TF)跟逆向文件頻率(inverse document frequency,IDF),其中數值的式子(1)代表第 i 個詞彙在第 j 文本內的 頻率程度,數值式子(2)表示第 i 詞彙在各個文本間的出現比例,出現的越頻 繁,數值越低,以這兩個式子相乘表示該詞彙是否為該篇關鍵詞的程度,並定 義一個閥值,當數值超過此閥值時就認定此詞彙為該篇關鍵詞。 𝑛𝑖,𝑗. 政 治 (1) 大 𝑡𝑓𝑖𝑗 = ∑. 𝑘 𝑛𝑘,𝑗. 立𝑖𝑑𝑓 = 𝑙𝑜𝑔 𝑗. 文本數. 出現過𝑗詞彙文本數. (2). ‧ 國. 學. 然而 TF-IDF 儘管計算簡單且直覺,但對於短篇文章,關鍵詞只出現一次 的狀況下沒有符合 TF-IDF 的假設,並且也沒有考量詞彙在文本的位置、詞. ‧. 性,在重要人名、地名訊息提取的效果也不佳,而且 IDF 的設計也過於粗糙,. y. Nat. sit. 單一詞彙在各篇文本出現次數的資訊並未納入考慮,而是只要出現就是 1,同. n. al. er. io. 時有許多學者陸續提出對 TF-IDF 的改良,如 Lan 等(2005)提出許多衡量詞彙關. i n U. v. 鍵程度的指標,並指出 TF-RF 算法有顯著提升檢索關鍵詞能力, 用相關性频率. Ch. engchi. (RF)方法代替 IDF 計算模式,Chen(2017)更提出兩階段演算法計算文本間的距 離,使得不同類型的文本篩選的條件也不同。. 第三節. 詞網. 詞網是記錄每個詞彙之間的語意關係的辭典,最先是由普林斯頓大學心理 系教授所建立,圖 3-1 為 Tiger 在詞網中歸類到的語意(synset)情形,從大項的 living thing 至 mammal 至小項的 big cat 共 12 個語意,可以觀察到每個語意之間 都有關聯性,而同義詞的概念即是兩個詞會被歸類在同一個語意鍊下,如憤怒. 7. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(16) 跟大怒,從這樣的例子可以知道詞網是個由上而下、越分越細的架構,由 155327 個詞彙、175979 個語意、207016 個詞彙-語意配對所建置,其辭典分成 名詞、動詞、形容詞、副詞四種網絡,並依據不同網絡記載不同的語意關係, 如名詞網絡中以同義詞的概念所建構,透過上位詞(hypernym)與下位詞 (hyponym)串連,由最頂層十一個抽象起始點開始向下以樹狀圖方式延伸,最深 層的層次串連了十六個節點,而在動詞方面除了同義詞外,反義詞的概念被建 入動詞網絡下,同時四個網絡仍有互相指引的關係,如名詞「director」與動詞 「direct」間的關係稱為 morphosemantic link.在文字分析中最常遇到的詞義消. 政 治 大 透過詞網記載的語義訊息來降低因同義詞所造成的影響,Hotho, Staab and 立. 歧的問題,多詞一義的情形常會造成文章間的關係無法確定,因此許多分析者. Stemme(2003)提到利用詞網確實可以提高分群效果,Reforgiato(2007)使用詞網. ‧ 國. 學. 做維度化簡,對分群結果相當有幫助。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3-1 Tiger 在詞網中的語意架構. 第四節. 隨機遊走模型與社群網絡. 社群網絡是一個描繪社會結構的網絡概念,透過描繪節點與節點之間的關 係來觀察整個網絡的概況,且社群網絡依據議題呈現的結果也不同,在軍事互 動的網絡中,中國美國與北韓影響著其他國家,而在教育網絡中,新加坡的教 8. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(17) 育影響著全亞洲,而社群網絡被運用在社會學、人類學、經濟學、生物學......等 等諸多領域,多年來已定義了許多量度呈現網絡各個面向的特徵,在「型態」 方面分為有向圖(Directed graph)、多重圖(Multigraph)、超圖(Hypergraph)、權重 網絡(Weighted network),在「量度」方面包含了點度(degree)、密度(density)、 派別(Clique)、親密度中心性(Closness Centrality)、中介度中心性 (Betweeness Centrality)、叢聚係數(Clustering Coefficient),搜尋引擎中評斷網頁重要性的方 式也是透過社群網絡的觀點定義出佩奇排名(PageRank)。 而多年來社群網絡的想法也被運用在文字分析上,Beliga 等(2015)提出的關. 政 治 大 重要程度,與其他非社群網絡的關鍵詞檢索方法有相同的檢索能力。 立. 鍵詞檢索,將詞彙當作每一個節點,並定義新的變量 selectivity 來描述詞彙的. 本文將社群網絡想法套用在機器學習最常探討的分群議題上,而社群網絡. ‧ 國. 學. 的結構與分群議題從2001年Condon等(2001)提出的 I 群落種植法(Planted l-. ‧. Partition)與Grivan 等(2002)提出得分群係數,試圖將網絡結構作分群解構,並. y. Nat. 在解構後得到每一個子群的階級式(hierarchical)關係,但儘管透過子群性質解構. er. io. sit. 出網絡中的子群分佈,但當網絡複雜度提高,運算成本也大幅增加使得時間成 本提高, Newman(2004)以貪婪演算法(greedy algorithm)的想法,先從 n 個子. al. n. v i n 群開始解構網絡,藉由分群與合併使得目標函數模組(modularity)可以最佳化; Ch engchi U Donetti(2004)則是使用拉普拉斯矩陣特徵向量(the eigenvectors of the Laplacian matrix)套用在階層式分群上面。 隨意遊走模型(WalkTrap)由Pascal與Matthieu(2006)提出,其核心概念是在網 絡上的某一個節點隨意遊走,該節點將走向該隸屬群的中心.其模型架構為: 網絡G由鄰接矩陣(adjacency matrix)所得,當節點 i 與節點 j 相鄰,則Α𝑖𝑗 = 1,反之Α𝑖𝑗 = 0,而鄰居數(degree) d(𝑖) = ∑𝑗 𝐴𝑖𝑗 ,並假設每一步都是隨機選擇 𝐴. 𝑖𝑗 下一個節點,因此每一步由 i 至 j 的機率為P𝑖𝑗 = 𝑑(𝑖) ,在這樣的假設下,t 步. 的隨意遊走可以看成是馬可夫鍊模型(Markov Chain),並定義經過 t 步後,由 9. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(18) 𝑡. 節點 i 到節點 j 的機率為P𝑖𝑗 ,在這樣的前提假設下,隨意遊走模型有以下性 質: 當由節點i走至節點j的步數靠近無限,其機率只受𝑑(𝑗)影響 𝑑(𝑗) ∑𝑘 𝑑(𝑘). ∀i , lim 𝑃𝑖𝑗𝑡 = 𝑡→∞. 並依「若同一群的節點,到相同的其他節點機率應相似」下,定義兩個節 點 i 、 j 的相似性為: 𝑛. 𝑟𝑖𝑗 = √∑ 𝑘=1. 立. 2. 𝑡 𝑡 (𝑃𝑖𝑘 − 𝑃𝑗𝑘 ). 𝑑(𝑘). 政 治 大 𝑡 𝑃𝐶𝑗 =. 1 ∑ 𝑃𝑖𝑗𝑡 |𝐶|. 學. ‧ 國. ,依此下將距離廣義化,從子群C到節點 j 的距離為:. 𝑖∈𝐶. ‧. ,並定義兩子群間的距離為:. 𝑑(𝑘). io. er. 𝑘=1. y. Nat. 𝑟𝐶1 𝐶2 = √∑. 2. (𝑃𝐶𝑡1 𝑘 − 𝑃𝐶𝑡2 𝑘 ). sit. 𝑛. 隨意遊走模型相較於過去解構複雜網絡的方法而言,他有較佳的運算時間. al. n. v i n 與更好的表現結果,分群效果也採用Newman提出的模組(modularity)來評,當 Ch engchi U. 模組數值越靠近一,代表分群效果越顯著,其中𝑒𝑐1 𝑐2 為多少比例的𝑐1子群節點 連結𝑐2 子群內,𝑎𝑐1 = ∑𝐶2 𝑒𝑐1 𝑐2 ,因此模組定義為: Q = ∑ (𝑒𝑐1 𝑐1 − 𝑎𝑐1 2 ) 𝑐1 ∈𝑃. 模組的統計意義為 (1)同一子群的節點,子群內鏈結度高, 子群外鏈結度 低,則𝑒𝑐1 𝑐1 − 𝑎𝑐 2 將對大 (2)避免全部節點分在同一子群,若如此,則𝑄 = 𝑒𝑐1 𝑐1 − 𝑎𝑐 2 = 0,依照上述對於距離與分群效果評比的定義,透過類似統計階 層式分群法(Hierarchical tree clustering)的演算法流程,從一開始每個節點各自一 群,依序合併、重新計算距離與分群評比,反覆這個流程得到最佳模組分數下 10. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(19) 的子群分群結果。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 11. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(20) 4 第三章 研究方法 本文的研究流程主要可以分為資料庫建立、文本關鍵詞篩選、社群網絡分 群與命名、文本歸類與特徵選取,在下面將詳述各個分析流程的細節。. 第一節. 資料庫建立. 資料分析流程主要分為資料搜尋、資料倉儲與資料分析,資料搜尋與倉儲 的過程又簡稱為 ETL,描述將資料從源端萃取(Extract)、轉置(transform)、載 入(load)至資料庫或目的端的過程,資料萃取最常使用的技術為網頁爬蟲, 透過程式解析網頁架構,並將回傳網頁資訊剖析來截取出重要資訊。本文的研. 政 治 大. 究資料包含《人民日報》、TSSCI 與美國專利文本,《人民日報》資料庫由過去. 立. 學長林家安透過 R 軟體撰寫爬蟲程式來剖析網頁,並以資料庫的方式依年份做. ‧ 國. 學. 管理;TSSCI 期刊資料庫依據人工搜尋與複製剪貼期刊中的論文摘要與關鍵 詞,並製作成 Excel 檔;美國專利文本則是先透過 USPTO(United States Patent. ‧. and Trademark Office)的線上檢索工具,檢索出四個方向截然不同企業底下的專. y. Nat. sit. 利文本,包含 MEDIATEK、MERCK、Microsoft、Toyota,再透過 Python 撰寫. n. al. er. io. 爬蟲程式來篩選重要資訊,包括摘要(Abstract)、詳細說明(Detail Description)、. i n U. v. 公開公告號......,並利用 Python 與 MSSQL (Microsoft SQL)的串接工具,將爬取. Ch. engchi. 的資訊分成六大資料庫,存入 MSSQL 做管理.選擇這三個文集的主要原因在 於,TSSCI 中的每篇期刊論文都有作者自定義標籤的關鍵詞,是最好評估關鍵 字擷取效果的工具,且中英文文本皆有,缺點是摘要字數有限,平均約落在 400 字左右,因此對於長篇文章的解釋能力就沒那麼足夠,美國專利文本為英 文文本,文章長且技術專有名詞偏多,屬於法律技術類型的文本;《人民日報》 則是中文報導型文本,文章長且篇數也多,用詞也較貼近生活,藉由以上三個 文本在語言上、文章篇數、文章長短與寫作風格型態的不同來比較關鍵詞擷取 與階層式分群的差異。. 12. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(21) 第二節. 文本關鍵詞篩選. 中文文本在斷詞處理上使用結巴處理,並剔除單字而只留下多字詞的詞 彙, 因單字通常是文法修飾用途或是常用字,表 4-1 為人民日報經過結巴斷詞 後最常出現的單字與非單字詞彙,可以看出非單字詞較能表現文章內容,因此 在中文文本以非單字詞彙來做後續分析;英文前處理則是剔除數字與還原大小 寫後,套用 R 語言中的 Porter 演算法將詞彙詞幹化,簡化詞彙的複雜度,而在 後續的分析與結果也將以詞幹化後的字符顯示。 文章關鍵詞篩選時使用 TF-IDF 工具,並發現 TF-IDF 並非穩定,在長篇短. 政 治 大 請見附文 1,而 TF-IDF 分析結果為表 4-2; 短文文章挑選人民日報 立. 篇文章的錯誤程度有明顯的不同,長篇文章挑選人民日報 196112230107,內文. ‧. ‧ 國. 學. 200301180108,內文請見. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 13. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(22) 附文 2,TF-IDF 分析結果為表 4-3,橘色代表 tf-idf 值為 0.025 以上,被評 為關鍵詞之詞彙,從表 4-2 可以明顯發現 TF-IDF 只抓取到少許關鍵字,假陰 性大,紅色標記為人工判讀應該要再加入的關鍵字,然而這其中又混雜著其他 非相關的字,如:許多、他們; 而在表 4-3 可以看到閥值定為 0.025 造成過多 的詞彙被評斷為關鍵字,以人工判讀而言,應當只需要有「藏族」、「選舉」這 兩個關鍵詞,代表假陽性過大,綠色標記為人工判讀不應該加進的詞彙,使用 TSSCI 中文文本來看 TF-IDF 效果,從圖 4-1 最下方的圖可發現文本字數越 多,假陰性的錯誤率越低,但假陽性越高的現象。. 政 治 大 表 4-1 前十大單詞、非單詞 立. 5. 為. 生產. 7. 中. 2. 中國. 7. 國家. 8. 對. 3. 工作. 8. 他們. 9. 地. 4. 我們. 9. 建設. 要. 5. 10. 革命. 10. y. 在. 6. al. Ch. engchi U. sit. 4. 人民. er. 了. 1. ‧. 3. 學. 和. 是. n. 2. 非單詞. 6. io. 的. Nat. 1. ‧ 國. 單詞. 發展. v ni. 表 4-2 人民日報 196112230107 文本 TFIDF 分析結果. 14. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(23) article 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt 196112230107.txt. word 工人 企業 骨幹 技術 作用 設備 熟練 落後 產品 機器 生產 尊敬 保守 老師傅 許多 工人階級 他們 多多 消耗 關心 愛護. ‧ 國. 立. n 64 18 8 13 9 6 3 5 6 4 12 3 3 2 9 4 14 2 3 5 3. tf 0.08121827 0.02284264 0.01015228 0.01649746 0.01142132 0.00761421 0.00380711 0.00634518 0.00761421 0.00507614 0.01522843 0.00380711 0.00380711 0.00253807 0.01142132 0.00507614 0.0177665 0.00253807 0.00380711 0.00634518 0.00380711. idf 1.93834329 1.72179018 3.33974628 1.6046248 1.7515178 2.6090695 5.09306333 2.98174479 2.33633883 3.42733247 1.14006651 4.46656557 4.46396817 6.52668906 1.43717343 3.21733848 0.91523821 6.32834017 4.13811352 2.46054453 4.02366521. 政 治 大. 學. tf_idf 0.1574289 0.03933023 0.03390605 0.02647224 0.02000464 0.01986601 0.01938983 0.0189197 0.01778938 0.01739763 0.01736142 0.01700469 0.0169948 0.0165652 0.01641442 0.01633167 0.01626058 0.01606178 0.01575424 0.01561259 0.01531852. ‧. 表 4-3 人民日報 200301180108 文本 TFIDF 分析結果. io. sit. y. Nat. n. al. er. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21. Ch. engchi. i n U. v. 15. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(24) 政 治 大. 立. ‧ 國. 學. 圖 4-1 TSSCI 中文文本使用 TF-IDF 關鍵詞篩選下錯誤情形. ‧ sit. y. Nat. 考量到文章長度對於檢索關鍵詞效果的影響,本文在關鍵詞檢索上提出以. al. er. io. 下五個指標,試圖去調和字數所造成的影響: Tf_cdf : 累積詞頻. 2.. Idf_low : idf 的最小值. 3.. Idf_high : idf 的最大值. 4.. Tf_Order : 最高詞頻前幾名. 5.. Max_bag : 最多關鍵詞數量. n. 1.. Ch. engchi. i n U. v. Tf_cdf 考量文章長度,將詞彙在文章出現的頻率排序並計算累積機率密度 值(Cumulative Distribution Function),挑選多少比率以上的高頻率詞彙視做關鍵 詞候選人,因此越長的文章挑選的關鍵詞候選人越多,Idf_low、Idf_high 則是 參考圖 4-1 中間的圖,發現並非 Idf 越大對於整體關鍵詞檢索效果就會越好, 反而會造成較高的假陽性,因此透過界定一個範圍縮減關鍵詞候選人的數量, 16. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(25) Tf_Order 則是考量到文本特性,如專利文本中詞頻最高的基本上都是關鍵詞, 因此為了確保這些詞彙可以被納入後續分析,因此設定這個參數,使得前幾名 的詞彙仍可為關鍵詞候選人,在經過四個指標篩選過的候選人數量可能仍過 多,參雜著過多非關鍵詞詞彙,因此最後再將候選人依據 TF-IDF 做排序,挑 出 Max_bag 所設定的數量,透過定義這五個指標涵蓋文本長度與文本特色資 訊,與最初 TF-IDF、SVM 方法做比較,觀察三種方法篩選關鍵詞的效果何者 最佳。. 第三節. 社群網絡分群與命名 治. 立. 政. 大. 篩選完文章關鍵詞後,利用社群網絡的觀點試圖解構詞彙與詞彙間的關. ‧ 國. 學. 係,當兩個詞彙在同一文本都評斷為關鍵詞,則他們之間鏈結數加一,重複此 步驟將所有關鍵詞的配對與鏈結數計算出來,並使用隨機遊走演算法去解析網. ‧. 絡中可能的群落,若在第一階段的分群群落中,仍有語意過廣的群落,則再對. y. sit. al. er. io. 詞彙分群。. Nat. 該群底下的關鍵詞作第二階分群,以此類推進而建構出彷詞網的階層式架構的. v. n. 透過這種多階段分群的方式將關鍵詞所構成的社群網絡做分群,每一群都. Ch. engchi. i n U. 類比於詞網的一個語意,由上而下,群間的語意差別越來越小,然而每一群中 的詞彙可能會受到非關鍵詞或是一詞多義的噪音影響,使得在透過該群底下關 鍵字來為該群命名時,較難看出這些詞彙共同的語意,如「技術」這詞可能就 有多個語意,包括農業技術、科技技術、教學技術,因此本節提出「核心詞 彙」的想法,考慮詞彙所相連的其他詞彙分別隸屬的群所佔的比例,例如「哈 伯望遠鏡」出現在 21 篇人民日報文本中,這 21 篇文本共 77 個關鍵詞彙,而其 中有 70 個詞彙所隸屬的群與哈伯望遠鏡相同,因此判定該詞對於該群的核心度 為 70/77,透過計算每個詞彙對於該隸屬群的核心度,預期語意較為廣泛的詞 彙,核心度越低,表 4-4 為人民日報某一群的前二十大核心詞彙,從表中可看 17. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(26) 到核心詞彙都擁有外交的語意,透過核心詞彙幫助該群命名更加便利。. 第四節. 文本歸類與標籤特徵. 階層式詞彙分群完後,透過計數的方式將文本依照此架構一階一階比較該 文本與哪一群最為相似,逐一將文本歸類至最底層的語意,並預期某些語意, 如「酸鹼」語意底下歸類的文本幾乎都來自 MERCK 專利文本,因為相較於其 他企業的專利,僅有 MERCK 的文本會談到酸鹼相關的用詞。而詞彙分群中, 必定有些語意下的關鍵詞是較通用於各個公司的,如「市場」相關詞彙在每間. 政 治 大 該企業特有的關鍵詞,本文稱為該標籤的特稱,在所有文本歸類完後,診斷每 立. 企業文本中都會出現,而仍會預期某些語意是專屬於某間企業,因此為了找出. ‧ 國. 學. 一群下歸類的文本標籤是否是不均勻的,而當標籤不均勻到一個標準,則認定 該語意下的關鍵詞為該標籤的文本特徵,而本文所定義的標準為:某一標籤出現. ‧. 比率大於其他標籤比例和的三倍,儘管這標準並無背後的理論支持,但藉由嚴. sit. y. Nat. 苛的標準預期收集到的特徵可以完全表達該標籤。. al. er. io. 因此藉由計算所有文本的不均勻度,評斷該語意是否為某一標籤下的特. v. n. 徵,藉由將這些語意下的關鍵詞收集起來,即可表示該標籤與其他標籤文本間. Ch. engchi. i n U. 不同的詞彙,在可以依此標籤結果做該標籤後續的分析。而在評斷語意分群與 文本歸類的效果時,透過計算該標籤多少比例的文本是被歸類在不均勻的語意 下,當比例越高即代表本文建構的仿詞網將語意明顯分開,透過部分的語意明 顯區分標籤中的各個文本,也代表該標籤的特徵可以代表該標籤的屬性。. 18. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(27) 表 4-4 第四群關鍵詞前二十大核心度. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 19. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(28) 5 第四章 資料介紹 本文以 TSSCI、美國專利與《人民日報》作為分析對象,前兩者為制式化 風格文本,而兩者差別在於 TSSCI 由主題分別收集而來,而美國專利則是依據 公司檢索的結果,人民日報為中文報章雜誌類型文本,描述 1946 至 2003 年中 國政治走向,本章將闡述個資料庫特色,表 5-1 簡略描述各個文本資訊。. 第一節. 臺灣社會科學引文索引. 臺灣社會科學引文索引,簡稱 TSSCI,是國科會社會科學中心所建立的社. 政 治 大. 會科學核心期刊引用文獻資料庫,資料庫中每年收錄多個不同領域期刊,學門. 立. 包含人類學、社會學、教育學、心理學、法律學、政治學、經濟學、管理學、. ‧ 國. 學. 區域研究及地理學、綜合類與跨領域或新興領域.由於期刊中的每篇論文都會 紀錄該文關鍵詞,因此從 2015 年 TSSCI 收錄期刊中,每一學門隨機挑選一期. ‧. 刊,將期刊三年內的中英文摘要與關鍵詞剪貼出來,期刊包含特殊教育學報、. y. Nat. sit. 圖書資訊學研究、中華傳播學刊、經濟研究、中華心理學刊、人力資源管理學. n. al. er. io. 報、人文及社會科學集刊、女學學刊:婦女與性別研究,中文共 9 大類別標籤. i n U. v. 共 149 則,文章平均長度為 431 字,英文共三大類 53 則,文章平均長度為 407 字。. 第二節. Ch. engchi. 美國專利. 專利是一種交換制度,專利權人透過專利申請、專利佈局與公開專利說明 書的方式取得一定期間內,排除他人未經許可而使用該專利技術做產業販售。 專利的本質在於鼓勵專利權人公開其專利技術,使該技術領域或競爭對手了解 現有技術的佈局,促進技術的改良與創興。而專利也是公司間權力制衡的要 素,透過收購專利技術,使得對手陷入侵權危機,專利訴訟同樣也成為影響公. 20. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(29) 司未來規模發展的一大原因,2012 年開始 HTC 與 APPLE 長達 32 個月的專利 訴訟戰,最後雖以和解告終,但也促使宏達電的毛利率下降至 4%。專利不僅是 人類知識技術的演進,更是公司未來發展的籌碼,而不同國家的專利制度也不 盡相同。 美國專利分為發明專利、設計專利與植物專利(Plant Patent)等三種 ,其中 又以「發明專利」佔大多數,而美國專利文本上的資訊除了專利種類,還包含 了專利申請號、專利申請日、專利公開號、專利公開日、國際分類號、美國分 類號、引用文獻、專利摘要(Abstract)、發明領域(References Cited)、發明背景. 政 治 大 of The Drawings)、發明詳述(Detailed Description of The Invention)、專利申請範 立 (Background of The Invention)、發明摘要(Abstract)、圖示說明(Brief Description. 圍(Claim)。. ‧ 國. 學. 在申請專利前,事先進行專利檢索了解相關專利的技術內容,可幫助發明. ‧. 人評斷審查人員可能獲准的專利範圍,經由適當的申請項(claim)撰寫,讓專利. y. Nat. 申請範圍在不涵蓋到過去的技術下,取得最大的專利申請範圍。正確的專利分. er. io. sit. 類號能夠得到較準確的檢索結果,而如何把技術主題對應到專利分類號,就成 為進行分類或檢索時很重要的工作,同時分類號也能讓專利閱讀者能夠快速的. al. n. v i n 找到相關專利文獻。目前常見的分類系統有世界知識產權組織(WIPO)所使用的 Ch engchi U 國際專利分類號 (IPC)、美國專利商標局(USPTO)所使用的美國專利分類號. (UPC)、歐洲專利 局(EPO)所使用的歐洲專利分類號(ECLA)與日本專利局(JPO) 所使用的日 本專利分號(FI/FT)等等。 本文藉由 USPTO 的專利檢索平臺,檢索 MEDIATEK、MERCK、 Microsoft、Toyota 等四家公司的專利文本,並僅使用該公司某一區間專利號的 專利,避免一間公司的專利文本年份過長導致文本間的相似度不夠,而四間公 司在挑選範圍時也盡量相似,避免相隔太久,從 MEDIATEK 3103 篇專利截取 專利號 9700000 至今的文本共 451 篇、MERK 4358 篇專利截取專利號 98 開頭. 21. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(30) 文本的文本共 842 篇、Microsoft 6551 篇專利截取 99 開頭的文本共 3348 篇、 Toyota 3004 篇專利截取專利號 98 開頭的文本共 549 篇,其中由於 Microsoft 文 本相較於其他三家企業文本仍過多,因此隨機抽取 900 篇,最後由以上四間企 業檢索出的抽樣專利文本共 2742 篇做後續分析。. 第三節. 人民日報. 《人民日報》是中國共產黨中央委員會的機關報,與新華社及中國中央電. 政 治 大 民共和國第一大報,於 1946 立 年 5 月 15 日起發行,是中國共產黨黨中央向外界 視台,並列為中國共產黨和中華人民共和國政府官方三大傳媒機構,為中華人. ‧ 國. 學. 表達其觀點的宣傳工具,以委婉的手法傳遞北京官方對國內和國際事務的看 法,該報的社論在不同的時期對中國大陸政治都有著決定性的指導作用,更是. ‧. 許多事件引發的起點,如為文化大革命、六四事件。. sit. y. Nat. 網路上提供公開下載《人民日報》報導的網站不少,但許多都是抽樣、而. al. er. io. 非全部報導,本文蒐集《人民日報》於 1946 至 2003 年的報導,以月分的格式. v. n. 呈現,透過網頁爬蟲後輸出的文字檔案,記錄年、月、日、版數、標題與內. Ch. engchi. i n U. 文,類型繁 雜,需要根據研究需求整理成合適的資料格式及檔案,另外,考慮 到文章數量龐大,而且各版面報導寫作及用字風格會受到 版面主題、記者等因 素影響,分析所有報導未必有效率,因此本研究僅選取《人民日報》的每日頭 版,從 1946 年至 2003 年共 58 年的報導,合計 169739 篇文章。 選取頭條 報導的原因包括報紙頭版大多放置當日重要新聞,其考量層級大多為國 家、社 會大眾關心的議題與事件,比較不會像社會新聞或生活消費新聞,容易受突發 事件影響。 由於人民日報並沒有明顯的類別標籤,而梁家安(2016)提出人民日報依據 集群分析發現 1946 至 2003 年人民日報文本的用詞行為的轉變共可以分成四個 22. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(31) 時期,分別為 1949 年建國前、建國初期的 1949 至 1965 年、文化大革命時 期的 1966-1978 年以及 1979 年以後的改革開放時期,因此人名日報文本依據 年份分成 4 個類別標籤,文本數量分別為 10026 篇、53297 篇、20166 篇、 85950 篇。 表 5-1 資料庫資訊 TSSCI(英). 美國專利(英). 人民日報(中). 類別標籤數. 9. 3. 4. 4. 原文章數. 149. 53. 17014. 169739. 關鍵詞標註. 有. 平均字數. 431. 文本範圍. 2016 至 2018 年. USPTO 檢索結果. 1946 至 2003 年. 無. 每篇抽樣 5000 字. 無. 1154. 專利號 97,98 開頭 無. io. 無. 設定,共 2742 篇). n. al. (依文本而有不同. er. 無. sit. y. Nat. 篩選文章範圍. 無. 無. ‧. 每篇文字抽樣. 立. 有 治 無 政 大 407 5018. 學. ‧ 國. TSSCI(中). Ch. engchi. i n U. v. 23. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(32) 6 第五章. 分析結果. 主題式文字分群議題中,本文以資料導向與社群網絡的概念設計的分析系 統,在不借助詞網的情形下,本章探討在論文、報導與技術法律等三種不同寫 作分隔下中英文文集分別的分析表現,第一節探討由已有關鍵詞標籤 TSSCI 中 英文本,在訓練關鍵詞閥值與模型的準確率,第二節實證分析則利用前一節的 閥值與模型篩選美國專利與人民日報文集,並分別在階層式網絡架構下討論詞 彙分群、命名與文本歸類結果。. 第一節. 政 治 TSSCI 關鍵詞篩選閥值與模型. 大. 立. 美國專利與人民日報文本因事前沒有人工定義的關鍵詞彙,因此本文透過. ‧ 國. 學. 人工標籤關鍵詞的 TSSCI 文本來訓練關鍵詞篩選的閥值與模型,將資料以模擬 的方式將文本分成 90%的訓練與 10%的測驗資料,利用測驗資料來檢驗是否有. ‧. 過度配適(overfitting)的狀況,其中中文文本訓練文本為 134 篇,測驗文本為 15. y. Nat. sit. 篇,而英文文本中訓練資料為 48 篇,測驗資料為 5 篇。之後利用電腦模擬的方. n. al. er. io. 式重複多種閥值組合與訓練測驗文本的抽取,並挑選在哪一種閥值組合下,關. i n U. v. 鍵詞篩選的錯誤率最低,表 6-1 為 TF-IDF、本文方法與 SVM 三種機制的篩選 結果。. Ch. engchi. 在 TF-IDF 方法中,根據圖 3-1 設置閥值以 0.01 為間隔由 0.01 至 0.5 共 50 個閥值情形,透過模擬,在中文本中最佳閥值都為 0.04,訓練文本平均 F1 指標 為 74.21%,測驗文本平均 F1 指標為 73.33%,且在模擬下的標準誤數值低,代 表此閥值的篩選穩定,且從各自的平均假陰性、假陽性數值知道 TFI-IDF 方法 對於論文類型的文本挑選關鍵詞結果均勻,並沒有在其中一個錯誤率有較大的 偏差;在考量文章長度而設置五個閥值的本文方法,閥值的組合為 Tf_cdf 以 0.05 為間距從 0.01 至 0.5,Idf_low 與 Idf_high 同以 0.02 為間距,分別從 0.2 至 0.16 與 5 至 9,Tf_Order 設置 1 至 4 四種可能,Max_bag 則以 5 為間隔,從 30 24. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(33) 至 70,以上共 636768 種閥值組合,透過電腦模擬得到在 Tf_cdf 為 0.5、 Idf_low 為 0.9、Idf_high 為 6、Tf_Order 為 2 且 Max_bag 為 50 的情形下, TSSCI 中文文本訓練文本的平均 F1 值到達 76.03%,明顯高於 TF-IDF 篩選的結 果,在假陰性假陽性的錯誤率也低於 TF-IDF,但相較於 SVM 篩選關鍵詞的方 法更明顯優於前兩者,訓練資料的平均 F1 值達 79.42%,測驗資料的平均 F1 值 也有 75.13%,除了穩定性外,在其他錯誤率指標也優於前兩者,圖 6-1 為中文 文本下三個方法下錯誤率的狀況,從圖中可看到本文調整的方法與 SVM 相較 於 TF-IDF,在假陰性與假陽性的線都較低,且在考慮文章長度時, TF-IDF 挑. 政 治 大 定義出的閥值,衍伸出的另外兩個方法則不受文章長度的影響,換言之,確實 立 選關鍵詞時受文章長度影響,挑選效果不穩定,而由本文提出的考量文章長度. 本文所設置的參數不僅僅消除了中文文本文章長度的不穩定因素,也提升了整. ‧ 國. 學. 體關鍵詞檢索的效果。. ‧. TSSCI 英文文本的關鍵詞篩選流程與中文文本相同,表 6-2 為三個方法下. y. Nat. 英文文本篩選關鍵詞的正確率,同樣透過模擬的方式,TF-IDF 在閥值為 0.04. er. io. sit. 時訓練資料平均 F1 值為 73.68%,但在假陰性與假陽性上可看到約 10%錯誤率 的差距,代表有 30%正確的關鍵詞彙未能藉由 TF-IDF 篩選出來,且從圖 6-2. al. n. v i n 中可看到英文文本的關鍵詞篩選較不受文章長度的影響,然而 TSSCI 英文文章 Ch engchi U 長度範圍小,並未能從此資料庫斷言英文文本的文章長度不影響 TF-IDF 檢索. 效果,且英文文本數只有 53 篇,數據間起伏大,較難從圖中看到趨勢,但可預 期本文提出的參數在此英文資料集上篩選效果不會有明顯提升。 根據模擬,在 TF_cdf 為 0.5、Idf_low 為 0.3、Idf_high 為 6、Tf_Order 為 3 且 Max_bag 為 60 的情形下,TSSCI 英文文本訓練文本的平均 F1 值到達 73.60%,還略低於 TF-IDF 的結果,儘管測驗資料的結果,本文方法平均 F1 值 較高於 TF-IDF 的平均 F1 值,但也僅能描述本文方法較穩定,而在其他錯誤率 上同樣也是假陰性明顯高於假陽性,起差距幅度明顯大於 TF-IDF,代表此方法. 25. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(34) 相較於 TF-IDF 較能篩選出文章的關鍵詞彙,但卻有 35.87%的非關鍵詞認定為 關鍵詞,而 SVM 方法在訓練資料上,平均 F1 值都高於其他兩個方法 3%,但 測驗資料中的正確率卻與其他二者相似,代表 SVM 在英文文本中可能有局部 過度訓練的狀況,對於後續美國專利的關鍵詞結果可能不會有 76.02%的表現。 透過 TSSCI 中英文本所訓練的閥值與模型,套用在美國專利與《人民日 報》文本中,發現在 TSSCI 文本訓練效果最好的 SVM 模型,在這兩個文本都 有極高的假陽性錯誤率,每篇文章約有 90%的詞彙的詞彙被認定為關鍵詞,這 現象明顯違反直覺,因此認為 SVM 方法在訓練時有明顯的局部過度配適情. 政 治 大 18 個關鍵詞,《人民日報》每篇平均篩選出 24 個關鍵詞。 立. 形,因此這兩個文本篩選關鍵詞時都採用本文方法,美國專利每篇平均篩選出. 從上述分析結果發現本文考慮文章長度所設置的五個閥值,在中文文本上. ‧ 國. 學. 確實可以降低文章長度造成的影響,且在假陰性、假陽性錯誤率上相對均勻,. ‧. 然而在英文文本中,從以上分析並未發現英文文本受文章長度影響,TF-IDF 篩. y. Nat. 選的效果並未提升,且同樣都有假陰性過大、假陽性偏低的情形,在篩選關鍵. er. io. sit. 詞時幾乎都為關鍵詞,但仍有大部分關鍵詞並未檢索出來,但由於英文文本長 都為該期刊論文摘要,字數幅度不大,因此仍未能確定此為語言造成的差異。. n. al. Ch. engchi. i n U. v. 26. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(35) 表 6-1 TSSCI 中文文本關鍵詞擷取閥值與模型錯誤率 TF-IDF. 本文方法. SVM. F1. 0.7421 (0.0033). 0.7603 (0.0037). 0.7942 (0.0013). 假陰性. 0.2455 (0.0051). 0.2103 (0.0025). 0.2003 (0.0017). 假陽性. 0.2697 (0.0051). 0.2208 (0.0072). 0.2105 (0.0071). F1. 0.7333 (0.0311). 0.7405 (0.0296). 0.7513 (0.0121). 假陰性. 0.2513 (0.0469). 0.2576 (0.0458). 0.2410 (0.0328). 假陽性. 0.2769 (0.0540). 0.2151 (0.0601). 0.2341 (0.0481). 134 篇訓 練資料. 15 篇測 資料. 政 治 大. 註 : 數值為模擬平均數,括號為模擬標準差. 立. 表 6-2 TSSCI 英文文本關鍵詞擷取閥值與模型錯誤率. 學. 0.7368 (0.0051). 0.7360 (0.0048). 假陰性. 0.2156 (0.0071). 0.1225 (0.0025). 0.7226 (0.0549). al. 0.3587 (0.0072) 0.7344 (0.0303). n. 5 篇測資. io. F1. 0.3051 (0.0094). Ch. 0.2146 (0.0095). sit. 假陽性. 0.7602 (0.0037). er. Nat. 練資料. i n U. v. SVM. y. F1. ‧ 國. 本文方法. ‧. 48 篇訓. TF-IDF. 0.2390 (0.0038) 0.7385 (0.0179). 假陰性. 0.2241 (0.0732). 0.1138 (0.0532). 0.2294 (0.0383). 假陽性. 0.3119 (0.0941). 0.3104 (0.0501). 0.2114 (0.0182). 料. engchi. 註 : 數值為模擬平均數,括號為模擬標準差. 27. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(36) 立. 政 治 大. ‧. ‧ 國. 學. 圖 6-1 TSSCI 中文文本關鍵詞擷取之錯誤率比較. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 28. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(37) 立. 政 治 大. ‧ 國. 學 sit. y. Nat. 階層式詞彙文本分群實證分析. io. al. er. 第二節. ‧. 圖 6-2 TSSCI 英文文本關鍵詞擷取之錯誤率比較. v. n. 本節利用關鍵詞在文本間鏈結情形構築社群網絡架構,以隨機遊走模型逐. Ch. engchi. i n U. 步解構網絡群集概況,並對於 TSSCI、美國專利與《人民日報》文本分別探討 階層式詞彙分群與命名、文本歸類準確性與標籤的特徵。. 5.2.1. 階層式詞彙分群與命名. 隨機遊走模型藉由給定節點步數來探討每個節點最終走到的節點,以此探 討哪些節點較可能為一群,而不同文本的關鍵詞社群網絡不同,參數步數也不 同,透過模擬步數 1 至 50 步的情形下,多少使得模組數值最大,以此方式 TSSCI 中文文本在步數 6 時模組數值最大,美國專利為 13 步,人民日報為 7 步,而 TSSCI 英文文本因文本數僅 53 篇,在網絡僅有 278 個節點關鍵詞下大. 29. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(38) 部分詞彙鏈節數只有一次,而社群網絡若節點間鏈節情形不明顯的情況下,後 續分析將失去意義,因此實證分析只考慮這三個資料庫。 給定隨機遊走模型的步數後將社群網絡解構成多個群,其中某些群的語意 仍過於廣泛,詞彙也眾多的情況下,在依隨機遊走模型做第二階分群,以此依 序階層式分群下去,在 TSSCI 中文文本分群共兩階層,第一階段共分出 49 群,第二階段共分 138 群,附表 1 為第一階段前三群的關鍵詞,第一群可看出 為法律相關的群,第二群雖有些噪音,但大致上仍可看出與唱歌休閒娛樂有 關,第三群則語意較為廣泛,詞彙也眾多,而在第二階段分群後,該群被解構. 政 治 大 職、申請、育嬰、留職、體制」,可看出語意被區分開來,且更能了解該語意所 立 成三小群,其中依群的詞彙為「男性、特質、性別、角色、分工、照顧、父. 代表意義,而此群的核心詞彙為男性、角色、育婴、父職,因此可將此群命名. ‧ 國. 學. 為與父親家庭身分相關,圖 6-3 為 TSSCI 分群示意圖。. ‧. 美國專利文本共分成四個階層,第一階段分成 57 個群、第二階段分成 342. y. Nat. 個群、第三階段 759 個群,而第四階段共分成 1058 個群,然而由於專利文本中. er. io. sit. 的詞彙多為專有術語,且詞彙也都詞幹化,若非該領域專家則較難解讀群間詞 彙的關聯性,「chamber、hous、piston、taper、damp、arrang、surg、circular、. al. n. v i n compressor、highrigid、plug、refriger、elimin、syring、seal、impel」為 1058 群 Ch engchi U 中其中一群的關鍵詞彙,而 piston、seal、chamber 皆為該群核心詞彙,其核心 程度皆大於 0.5,從 piston 與其他詞彙判別該群與汽車活塞相關。 《人民日報》由於文本字數並未抽樣,且文本篇數繁多,考量硬體負荷因 此僅進行一階段分群,共 17 群,錯誤! 找不到參照來源。為該 17 群部分的關 鍵詞,然而由於詞彙眾多,利用核心詞彙的概念依序為每群命名,上述提及的 表 4-4 即為第四群前二十大核心詞彙,從核心詞彙可看到該群描述主要描述的 是外交,以此依序將 17 群分別命名為:國外軍事行動、軍事撫卹、中國內政內 務、外交、藝術、農業、商業、水源、工業、運動、醫療、政黨青年、治安、. 30. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(39) 太空、政黨團隊、教育、軍事戰爭。 從上述三個文本分群結果中,因 TSSCI 文本數篇少僅 153 篇,因此在社群 網絡上鏈節情形無法確切表現語意間的關係,因此從分群結果看出分群群內的 關鍵詞語意上並非完全相似,仍有些噪音影響分群效果;美國專利詞彙眾多, 社群網絡架構完整,因此在分群上進行了四個階層,且從上述分析上可以看出 分群語意是相近的,但由於專利文本為技術型文本,群中的詞彙都與該技術領 域相關,因此仍需要專家為該技術做解讀;《人民日報》雖僅進行第一階分群, 但藉由核心詞彙的概念為每群做適當的命名,且由於該文本為報導型文本,用. 政 治 大 本文分群方法確實將語意區分開。 立. 詞簡單且文本描述的內容為我們熟知的中國歷史,因此從分群結果明顯地看出. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 6-3 TSSCI 階層式分群示意圖. 5.2.2. 文本歸類準確性與特徵的選取. 文本歸類透過階層式詞彙分群架構,每一階層中比較文本與哪一群最為相 似,依序層層將文本歸類至最底層的語意,並挑選文本標籤不均勻的語意集結 而成,做為該標籤的特徵,TSSCI 中文文本的階層式分群架構共 138 群,共有 9 個語意底下的歸類文本被評斷為《圖書資訊學研究》的特徵,該 9 個語意底 31. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(40) 下共 112 個詞彙,有 99 個詞彙出現 TSSCI 文本中標籤為《圖書資訊學研究》 的論文關鍵詞,而佔該論文底下的關鍵詞總數的 49.31%,附表 3 顯示《圖書資 訊學研究》期刊的樣本與該 9 群底下,關鍵詞分布情形,從表中可看到許多不 應為關鍵詞的詞彙,且原先預期表中「《圖書資訊學研究》期刊的關鍵詞 - 9 群 語意下的關鍵詞」底下詞彙大部分為圖書資訊相關的專有詞彙,而「《圖書資訊 學研究》期刊的關鍵詞 – 非 9 群語意下的關鍵詞」底下的詞彙則是較通用在各 個領域的關鍵詞,然而在這兩群文字並未看到明顯的差異,然而仍有 60%的 《圖書資訊學研究》期刊文本透過階層式網絡而被歸類在這 9 群的語意,即為. 政 治 大 歸類情形,從對角線數值可看到文本歸類情形尚可,但由於 TSSCI 中文文本偏 立 表 6-3 中最左上角的數值,以此類推至其他學門的期刊與該群特徵並計算文本. 數過少,社群網絡難以完整呈現詞彙間的關係,因此較難以本文方法所得出的. ‧ 國. 學. 該文本標籤下的篩選的特徵,認定其特徵即為文本歸類的顯著因子。. ‧. 學門 3. 學門 4. 學門 5. 學門 6. 學門 7. 0%. 0%. 0%. 0%. 0%. 3%. 0%. 57%. 特徵 3. 0%. 0%. 特徵 4. 0%. 0%. 特徵 5. 0%. 特徵 6. 0%. 0%. 0%. 0%. 0%. 0%. 0%. 0%. sit. 特徵 2. 學門 9. er. 60%. io. 特徵 1. 學門 8. y. 學門 2. Nat. 學門 1. 表 6-3 TSSCI 中文文本分群結果. n. 0% 0% 0% a0% iv l C n 65% h 0% e n g c0%h i U0% 0%. 83%. 7%. 5%. 0%. 0%. 0%. 0%. 0%. 0%. 78%. 0%. 0%. 0%. 0%. 4%. 0%. 13%. 0%. 0%. 83%. 0%. 0%. 0%. 特徵 7. 0%. 0%. 0%. 0%. 0%. 0%. 48%. 0%. 0%. 特徵 8. 0%. 0%. 0%. 0%. 0%. 0%. 0%. 69%. 0%. 特徵 9. 0%. 0%. 4%. 0%. 0%. 0%. 0%. 0%. 81%. 無歸類. 36%. 43%. 18%. 17%. 15%. 12%. 49%. 31%. 19%. 32. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(41) 美國專利文本同樣透過類比於 TSSCI 中文文本的分群處理方式,共有 46 個語意代表 MEDIATEC 的特徵、199 個語意代表 MERK 的特徵、79 個語意代 表 Microsoft 的特徵、58 個語意代表 Toyota 的特徵,附表 4 為 MEDIATEC 文 本的關鍵詞與該 46 個語意的所有關鍵詞情形,而這 46 個語意底下共 420 個詞 彙,有 382 個詞彙出現美國專利文本中公司標籤為 MEDIATEC 的專利關鍵詞, 而佔該公司底下的關鍵詞總數的 40.93%,從表中「MEDIATEC 的關鍵詞 - 46 群語意下的關鍵詞」的詞彙中,確實部分詞彙可以聯想為聯發科所有,如 magnitud、inductor 都為電晶體相關詞彙,但由於表中詞彙許多都為該技術的專. 政 治 大 「MEDIATEC 的關鍵詞 - 46 群語意下的關鍵詞」與「MEDIATEC 的關鍵詞 – 立 有詞彙,且經過詞幹化後更加難以解讀詞彙原本的詞義,因此較難以判別. 非 46 群語意下的關鍵詞」的差異,然而仍有 61%的 MEDIATEC 文本透過階層. ‧ 國. 學. 式網絡而被歸類在這 46 群的語意,即為表 6-4 中最左上角的數值,以此類推至. ‧. 其他企業專利與該群特徵並計算文本歸類情形,從對角線上來看,文本歸類情. er. io. sit. y. Nat. 形尚可,MERK 則有 89%的文本可以被該特徵所歸類。. 表 6-4 美國專利文本分群結果. n. al. Ch. MEDITECK 特徵 1. 61%. 特徵 2. MERK. engchi. iv n UMicrosoft. Toyota. 0%. 6%. 8%. 0%. 89%. 4%. 5%. 特徵 3. 8%. 0%. 60%. 4%. 特徵 4. 0%. 0%. 0%. 72%. 無歸類. 31%. 11%. 30%. 11%. 《人民日報》分析流程如同前兩文本,共有 1 個語意代表 1949 年建國前的 特徵、1 個語意代表 1949 至 1965 年的特徵、1 個語意代表 1966 至 1978 年的特 徵、4 個語意代表 1979 年改革開放的特徵, 33. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(42) 附表 5 為 1949 年建國前文本的關鍵詞與該 1 個語意的所有關鍵詞情形, 而這 1 個語意底下共 76 個詞彙,有 72 個詞彙出現 1949 年建國前文本的關鍵 詞,而佔該文本底下的關鍵詞總數的 29.49%,從表「1949 年建國前文本的關鍵 詞 - 1 群語意下的關鍵詞」中可看到大部分詞彙為國共內戰中出現的戰爭傷亡 詞彙,相較於「1949 年建國前文本的關鍵詞 – 非 1 群語意下的關鍵詞」 的詞 彙則不侷限於該時期使用,而是通用於各個年間的詞彙,因此以這 1 個語意下 的關鍵詞代表該 1949 年建國前的特徵是符合直覺的,而表 6-5 顯示 1949 年建 國前的文本有 19%歸類在這 1 個語意下,斜對角線的數值也相對低,考量可能. 政 治 大 身就無較明顯的區別,再加上由於文本數量龐大,然而僅以一層階層式網絡分 立 是文本主題在各年間並沒有改變,僅是風格與用詞上的差異使得主題分類上本. 群,許多詞義並未被明顯分開,再加上該報導型文本相較於前兩個文本不同,. ‧ 國. 學. 主題間的差異在此四個時期並無區分得如此明顯,例如幾乎每年都會談論各省. ‧. 選舉的情形,因此選舉的主題將無法成為區隔這四個時期重要的特徵,因此導. y. io. 1949 年以前. n. al. 特徵 1. 19%. 特徵 2. 0%. 特徵 3. 1949 至 1965. Ch. sit. 表 6-5 人民日報文本分群結果. er. Nat. 致文本歸類情形並無其他兩個文本明顯。. 1966 至 1978. iv. n1% U engchi 1%. 1979 以後 0%. 10%. 0%. 0%. 0%. 1%. 7%. 0%. 特徵 4. 0%. 1%. 0%. 12%. 無歸類. 81%. 87%. 92%. 88%. 34. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(43) 7 第六章 結論與建議 第一節. 結論. 過去必須依賴專家者學者解讀文字及其意義,但人工判斷的標準往往因人 而異,而且解讀效率相對較差,逐一文本的閱讀、比對通常曠日廢時。藉由數 位人文的技術可為我們提高效率,在許多領域獲得突破性的發展,像是從分析 消費者意見可以獲知產品的優缺點,也可以提供有別於專家學者的另一種觀 點。主題式文本分群是文字分析的主要議題之一,藉由群聚分類來區隔主題相 似的文本,合併及簡化意義相近的訊息,從中篩選出重要資訊,這是資訊爆炸 時代中非常重要的利器。. 立. 政 治 大. 現今多數分析人員對主題式文本分群所採用的方式為利用詞網降低多詞一. ‧ 國. 學. 義造成的噪音,隨後透過 TF-IDF 篩選文章關鍵詞,並計算文本與詞彙間的詞 袋矩陣,最後使用 kmeans 或餘弦值將文本分群,這樣一昧將方法論與工具套用. ‧. 下不免忽略文本特性所造成的影響,而本文針對關鍵詞篩選的 TF-IDF 提出改. y. Nat. n. al. er. io. 網的語意關係。. sit. 良,在語意處理上不藉由詞網工具,而是利用社群網絡的概念試圖建構個仿詞. i n U. v. 在關鍵詞的研究,本文透過實證分析發現 TF-IDF 篩選中文文本關鍵詞. Ch. engchi. 時,分析效果與文本長度有關係,從而設置五個參數將文本長度與文本特色納 入影響因素,提升關鍵詞檢索效果。研究發現在分析中文文本時,本文提出的 改良方法明顯相較 SVM 更加穩定,雖然 SVM 有時會比較好的檢索效果,但容 易受到不同文本的影響(亦即 data dependent)而在英文文本中 TF-IDF 對於文 章長短無篩選不穩定的情形,因此本文的關鍵詞篩選方法並未顯著降低篩選錯 誤率。然而關鍵詞篩選的效果儘管提升,但仍然從後續社群網絡的結果發現關 鍵詞的錯誤篩選所造成詞彙分群與文章歸類的噪音,使得本來應該明顯分類的 四間公司的專利文本,分類準確率僅有約八成左右。 在文章分群的研究中,本文提出利用社群網絡的觀點以隨機遊走模型進行 35. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(44) 階層式的詞彙分群,改善詞網中所涵蓋的詞彙多數為常用詞彙造成領域相依性 問題,並提出核心詞彙輔助語意的命名與文本標籤歸類的特徵詞彙,在文本主 題標籤有明確主題分別的資料庫,如 TSSCI 與美國專利,文本歸類的準確率約 有八成,相較於大部分篩選的關鍵詞仍在其他時期也出現的報導型文本如《人 民日報》,有明顯的差異;文本數量也影響著以社群網絡建構的語意關係,從 TSSCI 文本的特徵選取上則較難以看出語意的差異性,對比於文本數龐大的 《人民日報》與美國專利則有明顯的區別,完整個語意架構使得不同時期的 《人民日報》與不同公司的專利文本,在挑選出的特徵上更加符合直覺,然而. 政 治 大 離的定義、一篇文章多個主題的情形下,導致無法完整呈現文本間的關係,又 立 由於本文對於文本分群的方法僅採用計數的方式層層歸類,並未考量語意間距. 再加上英文關鍵詞篩選機制上的假陽性過大,許多非關鍵詞詞彙造成的噪音使. ‧ 國. 學. 得文本歸類時技術相同的專利並不全然歸類在一起。. ‧. 儘管本文提出的文本分群方法有諸多可再商議與改進的地方,但對於文本. y. Nat. 分群議題上嘗試不使用詞網而是以資料導向進行,引入社群網絡的觀點並建構. er. io. sit. 詞彙與詞彙間的關係,使得在比較文章相似度時不在只是計算文章間多少比例 的字詞相同,而是以更彈性的方法依據文本性質評斷一詞多義、多詞一義的關. n. al. Ch. 係,觀察文章間的相似程度。. 第二節. engchi. i n U. v. 研究限制與未來建議. 文本前處理是非結構型資料處理的第一步,也是挑選後續分析的特徵變數 重要環節,本文對於中文斷詞處理上並未依文本而對於語料庫做適當調整,關 鍵詞篩選上也並未考慮文字詞性,使得英文文本僅能用單字做後續分析,相較 於多數文字研究採用詞性與詞類(Part of Speech)工具使得在斷詞方面斷出的特徵 變數更能代表語意。 關鍵詞處理本文僅依照詞彙出現頻率與文章長度來判斷,詞彙出現的位 36. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(45) 置、詞性性質都並未考量,並且考量後續的文本分群,單一種性質的關鍵詞篩 選機制將使得後續文本分群彈性不大,若想探討專利文本的技術關係,關鍵詞 篩選也應當以技術名詞為主,若《人民日報》想探討各省地域性關係,關鍵詞 篩選也需以地理性名詞為主,因此考量文本間不同性質的關鍵詞也將使得後續 分群應用更加彈性。 現行的文字分析技術還未有一套完整分析系統掌握文本語意、人名地名與 結合文化風俗的訊息,對於許多人工定義好的工具如詞網若能善加利用,透過 資料導向的方式使得語意關係更加完整與多元,在處理文本關聯時將可以以更 多的面向探討文本間的關係。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 37. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

(46) 8 參考文獻 中文部分 1. 何立行、余清祥、鄭文惠(2014),從文言到白話:《新青年》雜誌語言. 變化統計研究,東亞觀念史集刊,第七期,頁 427-454。 2. 余清祥(1998),統計在紅樓夢的應用,政大學報,第七十六期,頁 303-. 327。 3. 吳旻璁(2013),結合主題資訊萃取關鍵詞和建構概念圖,碩士論文,國立雲. 政 治 大. 林科技大學,資訊管理研究所。. 立. 4. 吳怡瑾、方友杉、喻欣凱(2009),運用文件分群與概念關聯分析技術協助網. ‧ 國. 學. 誌瀏覽:任務導向評估方法,圖書資訊學研究,第四期第一卷,頁 133-164。. ‧. 5. 梁家安(2016),從國共內戰到改革開放:人民日報風格變遷之量化研究,碩士. sit. y. Nat. 論文,國立政治大學,統計研究所。. n. al. er. io. 6. 謝博行(2013),局部最長連續共同子序列與新詞組收集,碩士論文,國立清. 華大學,統計學研究所. Ch. engchi. i n U. v. 38. DOI:10.6814/THE.NCCU.STAT.011.2018.B03.

參考文獻

相關文件

 真值表必須在關鍵字table table table table及endtable endtable endtable之 endtable 間。. 

關鍵詞:1.paratantralakṣaṇa 2.the simile of phantom 3.the three natures of treatment 4.the mental eject and the consciousness 相見二分 5.the thory of self realization

從視覺藝術學習發展出來的相關 技能與能力,可以應用於日常生 活與工作上 (藝術為表現世界的知

 如課室容額超過 30 ,但在任何班制 ( 包括 混合班 ) 的學童人數均為 30 人或以下,則 計算時可採用 30

注意 注意 注意,紫色 注意 紫色 紫色 紫色 字表專有名詞 字表專有名詞 字表專有名詞 字表專有名詞, 可以不用翻成 可以不用翻成 可以不用翻成

學結合 目的 鼓勵說話 (目的語) 分析 詞彙

關鍵詞:1.葛洪 2.《抱朴子》 3.入世 4.出世 5.道教 6.魏晉南北 朝 7.鄭隱 8.鮑靚 9.治世 10.修道..

 文字 文字 文字 文字:橋樑書的文字淺白 文字淺白 文字淺白 文字淺白,配合兒童的語言習慣,以 兒童常用的2000個單字為基礎, 逐步豐富 逐步豐富兒童的詞匯 逐步豐富 逐步豐富 詞匯