網路文本分析與演算法

第三章研究設計與方法

第四節網路文本分析與演算法

其他行為基因的頻率影響，這就是所謂的頻率依賴選擇(frequency-dependent selection)，頻率依賴選擇是牲口動態中維持不同策略、行為的一個很重要機制，

不過頻率依賴的影響有時很難獨立於密度依賴的影響分析，同時兩者之間也會互相影響(Bleay, Comendant, & Sinervo, 2007；Eadie & Fryxell, 1992；Mappes et al., 2008)，再加上不同模因類種與一般物種的複製者分布狀態不同，所以本研究只性的資料獲取方式本身就會影響所得到的答案，霍桑效應(Hawthorne Effect)就是一個很好的例子，因此在 1960 年代有學者提出非介入性測量(unobstrusive measures)的概念²⁴，非介入性測量是一種非直接向受訪者獲取資料的資料蒐集方式，這種測量方法本身是非反應性的(non-reactive)，因為它可以排除研究者本身的方法就是內容分析(Herring, 2010)，內容分析法因為過去有許多學者採用，因此是很值得參考的方法之一，內容分析(content analysis)是一種強調透過系統化、

量化、過程透明與理論相關的方式去分析文字資料的途徑，內容分析強調透過假

24 最早由 Webb et al. (1966) Unobstrusive Measures: Nonreactive Research in the Social Sciences 一書中提出

‧

可能意義(Lee, 2000)。雖然應用網路上的資訊進行調查最大的問題就是無法控制研究場域(Lee, 2000)，不過因為本研究採取用於分析網路文本的理論架構是模因學，一種能夠分析具有隨機因素環境下個別詞彙分布模式的理論，因此這個巨量資料的限制並不會影響本研究資料與理論上的連結。

網路上大量的網頁與其多元的內容使得大量的資料能被蒐集、研究(Herring, 2010)，在巨量網路文本的影響下，不透過自動化的方式處理資料是很困難的(Bail, 2014)，因此要採取能夠自動化分析大量網路文本的非介入性測量方法，文字探勘(text mining)包含所有用於分析文字資訊的方法與理論，而文字探勘本身是一種跨領域的學問，並很適合被用於分析網路上的文本資料，並包含許多不同的方法，例如文本分類與文本集群分析等等的技術，文字探勘的好處在於它可以降低用於整理文本資料的時間、人力與成本，同時因為文字是人類最常使用儲存資訊的方法，因此透過文字探勘的技術能夠獲得許多寶貴的資訊(Feinerer, Hornik &

Meyer, 2008)，Weiss et al. (2005)也認為文字探勘的技術已經很成熟了，可以被用於許多預測的功能上，並可以結合不同領域的概念。

一種能結合不同領域的方法，當然也需要透過能夠結合不同領域的理論觀點來解釋，模因學本身就是一個能夠結合不同領域的理論，並不要求研究者必須採取哪一種方法蒐集資料，同時因為模因學與生物學基因的進化同樣受到進化過程的影響，因此可以參考生物學分析進化論的方法來探討模因(Hull, 2000；Laland &

Brown, 2002)，而生物學的研究許多都是透過非介入性測量的方式去獲得資料

（Dawkins (1976)用於證明自私基因觀點的研究都是很好的例子），因此以透過非介入性測量方法獲得的網路文本資料與模因學的結合並不是問題，同時根據 Herring (2010)和 Weiss et al. (2005)內容分析、文字探勘最主要的目的都在於鑑定與描述內容中所存在的模式、趨勢，而不在於探討製造內容作者的意圖或內容所 (token)，這個過程就是所謂的斷詞(text segmentation/text tokenization) (Stavrianou, Andritsos & Nicoloyannis, 2007)，不同語言的斷詞單元與方法會根據該語言的性質而有不同(Wu & Tseng, 1993)，許多東亞的語言因為文字之間沒有明確的界線

（例如空白），因此在分析這些語言文本時斷詞更加重要(Wu et al., 2008)。過去

‧

(Whittaker, Courtial & Law, 1989)，因此透過自動化方式斷詞建立詞庫是另一種值得探討的選項。在任何中文自然語言處理過程中斷詞都是非常重要的前置處理工作（林千翔、張嘉惠、陳貞伶，2010；Chang, Galley & Manning, 2008），斷詞的目的就是把「字串」轉換成「詞串」，而所面臨的問題主要可以被分成兩種。

1. 歧義性(ambiguity)：同樣的字串在不同文章中需要被斷成不一樣的詞彙，導致詞典必須考慮前後文的影響，因為部分詞彙中的字會重疊或可能形成不同組合的詞彙。

2. 未知詞(unknown word)：沒有在詞典中的詞彙，例如專有名詞（人名、組織名稱、地名等等）、縮寫或基於社會文化改變而產生的新用語。

Chiang et al. (1992)認為應該應用統計模型來進行斷詞，在學者的研究中將近百分之百的詞彙都有被正確斷出，林千翔、張嘉惠、陳貞伶（2010）則認為近幾年許多學者都透過機器學習式演算法(machine-learning based)來斷詞，學者本身也是透過隱藏式馬可夫模型(Hidden Markov Model, HMM)來斷詞，並以長詞優先的邏輯提升斷詞模型的效能，Wu et al. (2008)同樣也應用半監督的學習演算法進行中文斷詞，並先依照標點符號斷句，再進行斷詞與詞性的標示，陳稼興、謝佳倫、許芳誠（2000）應用自動化演算法進行斷詞，透過基因（遺傳）演算法(genetic algorithms, GA)進行中文斷詞，並發現斷詞平均 75%~88%的結果都是正確的，顯示透過自動化斷詞的方式是一項可行的方法，這個方法是透過先將所有可能的詞彙組合都納入一個初階的詞庫，之後再透過基因演算法搭配學者制定的最適公式獲得最佳化斷詞的結果。

除了以上所介紹的斷詞方法外，目前網路上也有許多免費的斷詞程式，雖然

‧

中研院的中文斷詞系統²⁶與史丹佛大學自然語言處理組(Stanford Natural

Language Processing Group)發展出透過 Java 進行中文斷詞的程式²⁷，該程式提供不同的斷詞邏輯，而這些邏輯則來自過去中文斷詞研究(Chang, Galley & Manning, 2008；Tseng et al., 2005)。本研究則採用 R 軟體中的斷詞功能，結合隱藏式馬可夫模型與最大概率法（一種統計式演算法）進行斷詞。

貳、文字探勘

Huang (2008)認為網際網路所引發的巨量文本資料，使得研究這些資料的學者很難系統性的去進行分析，傳統上當要了解科學中的不同問題與理念、概念的連結時，都是透過專家訪談的方式，不過這種方式成本很高，而且只能獲得少數人的觀點(He, 1999)，同時也會受到專家主觀因素的影響（陳良駒、張正宏、陳日鑫，2010），因此透過量化的文本內容分析技術越來越受到重視(He, 1999)，文字探勘包含許多不同方法，其中兩種能夠整合大量資料的方法是文本集群分析 (text clustering)與共詞分析(co-word analysis)，共詞分析的觀點在於單一詞彙、文字無法用於分析一篇文章中的理念，因此必須透過發現有意義的文字組（共詞）

來分析(Nagarajan & Aruna, 2014)，共詞分析(co-word analysis)使得資料能夠被縮減與視覺化，並保留資料中所包含的完整資訊，共詞分析是一個在不同領域中都可以被用於分析概念、理念與知識的方法，該方法的基本概念是任何一篇文章中的關鍵詞彙都能夠呈現其內容，而在同一篇文章中出現的詞彙之間在主題上會有關聯性(Ding, Chowdhury & Foo, 2001)，共詞分析的目的在於透過一組文本中共同出現在一起詞彙的變動趨勢來連結個別文本中所包含的理念(He, 1999)，並分析一組文章中理念、問題等等的結構(Whittaker, Courtial & Law, 1989)，近期許多學者開始透過應用演算法的方式建構共詞分析中要分析的關鍵字，排除過去以專家建立詞庫的方法(Whittaker, Courtial & Law, 1989)，文本集群分析在過去已經有成功的被用於研究大量的文本集(Etzioni, 1996)，同時擁有有豐富的統計基礎，因此本研究將透過文本集群分析進行網路文本的研究，並在本節中詳細的介紹文本集群分析的不同方法。

網路上資料量不斷的增加使得自動化技術越來越重要，為了達成自動化文本分類，文本常常會被轉換成向量並進行集群分析(Hoonlor et al., 2012；Strehl, Ghosh & Mooney, 2000)，文本集群分析是文字探勘中其中最被重視的議題，而文本集群分析的目的就是把相似的文章分成同一類(Aggarwal & Zhai, 2012；Liu et al., 2003)，相較於過去數字的集群分析，網路文本集群分析還面臨了以下三大挑戰(Beil, Ester & Xu, 2002)：

25 https://code.google.com/p/mmseg4j/

26 http://ckipsvr.iis.sinica.edu.tw/

27 http://nlp.stanford.edu/software/segmenter.shtml

‧

Aggarwal & Zhai (2012)認為文本資料有三種特徵，與傳統集群分析方法不同，

導致過去的方法無法直接被用在文本上：出把文章分群的基準(Aggarwal & Zhai, 2012；Beil, Ester & Xu, 2002；Feinerer, Hornik & Meyer, 2008)

大多數傳統文本集群分析技術和許多近期發明的方法都是根據不同文本之間向量的距離，不過這使得這些方法必須處理大量的緯度與稀疏的向量空間，為了處理這些問題，許多方法會透過相關/距離的測量來進行集群分析(Strehl, Ghosh & Mooney, 2000)，要計算相關/距離前必須先計算不同文本所持有的詞彙頻率，透過詞彙的頻率探討不同文件之間的相似度。單純的詞彙頻率如果被拿來應用於集群分析，則可能會過度提升不重要詞彙的重要性，因此過去大多數研究會透過採用 term frequency and inversed document frequency (tf-idf)這種詞彙加權方式做為不同相關/距離測量的基準(Aggarwal & Zhai, 2012；Huang, 2008)，Tf-idf 這種詞彙標準化方法用意在於降低常見字在文章向量空間中的重要性，並提升可

Tf-idf 在分析網路文本中模因的研究裡也有被使用過(Best, 1997；Pocklington

& Best, 1997)，而這個權重則是許多不同相似度測量的基礎，這些包含 Euclidean Distance、Cosine Similarity、Jaccard Coefficient、Pearson Correlation Coefficient 與 Averaged Kullback-Leibler Divergence，過去針對相關/距離測量評估的研究認為，在以上五種測量中 Euclidean Distance 最不準確，而 Cosine、Jaccard 與 Pearson 這三種測量方式原則上結果都是比較完善的(Huang, 2008；Strehl, Ghosh &

Mooney, 2000)，雖然 Averaged Kullback-Leibler 方法所獲得的結果也不錯，不過

‧

這個方法因為過去比較少有學者用於文本集群分析(Huang, 2008)，因此本研究並不考慮。

這五種相似度測量方法中，cosine similarity 受到了許多不同學者的使用(Adar et al., 2004；Adar & Adamic, 2005)，同時也是最常被使用的距離測量方式

(Aggarwal & Zhai, 2012；Beil, Ester & Xu, 2002)，以下為 cosine similarity 的運算公式：再透過對於分析的資料適當而有效的演算法進行集群分析(Aggarwal & Zhai, 2012)，在文字探勘的文獻中有兩種可以簡化大量向度的方法，這兩種為關聯分

在文檔中巨量資料生態：以模因學分析網路文本的進化 - 政大學術集成 (頁 100-109)

第三章 研究設計與方法

第四節 網路文本分析與演算法

‧

‧

‧

貳、 文字探勘

‧

‧

第三章研究設計與方法

第四節網路文本分析與演算法

貳、文字探勘