資料分析方法 - 研究設計與方法 - 巨量資料生態：以模因學分析網路文本的進化

第三章研究設計與方法

第五節資料分析方法

有幫助(Krasnogor & Gustafson, 2002)，而模因的數學演算過程常常會借用基因方面的演算邏輯(Lynch, 1996)，不過在模因數學的發展過程中，學界也慢慢發展出屬於模因獨特的推理過程，將模因的概念納入演算法的設計，把模因進化的機制用於提升原本基因演算法的缺陷。模因演算法(memetic algorithm, MA)，是一個用於最佳化問題中啟發式搜尋的群體依據途徑(Eusuff, Lansey & Pasha, 2006)，這種演算法最早是由 Moscato (1989)所提出的，其基本的概念也同樣來自 Dawkins (1976)，模因演算法可以算是一種合併不同運算元(operator)來處理最佳化問題的計算結構，模因演算法主要的貢獻在於它能夠排除過去個別選出最佳典範的運算過程，把個別典範的強項合併產生出一個更好的求解演算法(solver) (Neri, Cotta

& Moscato, 2012)，而模因演算法也有被用於文本集群分析上，並發展出很多不同的解決方式與演算法(Amiri, Fathian & Maroosi, 2009；Eusuff, Lansey & Pasha, 2006；Neri, Cotta & Moscato, 2012)，不過 Krasnogor & Gustafson (2002)認為創造模因演算法的學者，應該要更謹慎的了解，這個演算法是否真的有符合模因的概

‧

& Liu, 2014)，R 軟體是一個開放原始碼(open source)的運算軟體，就因為是開放原始碼，因此能夠被免費使用，使得網路上所能夠獲取的資訊與擴充功能多元，

而擴充功能中許多功能都能夠被用於精確的分析文本資料(Feinerer, Hornik &

Meyer, 2008)，因此本研究透過 R 軟體針對較複雜並超越傳統統計軟體所能夠處理的功能進行運算，以 R 軟體進行語法撰寫與部分統計演算，擴充功能來自 R 軟體官方網站 CRAN(The Comprehensive R Archive Network)²⁹經過驗證並符合規定的軟體，其中在斷詞方面本研究首先針對 CRAN 資料庫中兩個最常被使用的套件 Rwordseg 與 JiebaR 進行測試，兩個斷詞功能都是由中國的編輯者建構，不過都能夠處理繁體中文的斷詞，初步的結果發現，因為 Rwordseg 只使用隱藏式馬可夫模型進行斷詞，因此斷詞的結果不佳，常常斷出很長的假詞，並無法穩定辨識短的詞彙。而 JiebaR 結合隱藏式馬可夫模型與最大概率法（一種統計式演算法）進行斷詞，因此所獲得的結果正確性高過 Rwordseg，同時 JiebaR 的更新速度快，因此本研究最後決定以 JiebaR 作為主要的斷詞工具³⁰。

本研究參考 Aggarwal & Zhai (2012)對於文本集群分析的敘述，因此首先本研究針對文本資料進行清理，透過 Excel 將文本資料的格式排除，並依照網站分

29 https://cran.r-project.org/

30 自動化斷詞演算法有很多種，不過本研究因為目的不是在測試不同演算法的效率，因此採用 JiebaR 斷詞功能中所提供比較常被使用的演算法處理文本

‧

groups sum of squares)與集群數量進行比對，選擇最適當的集群數量，所謂的最適當集群數量為集群組內平方和下降變化最大的集群數(k)，不過因為 K-means 集群分析會依照起始值的變化而有所改變，因此本研究針對每一組文本在進行 K-means 集群分析時，均會執行並比較 5 至 6 次的結果。

9. 計算各篇文本之間的餘弦距離(cosine similarity)。

10. 根據 K-means 結果與餘弦距離進行階層集群分析，因為本研究在層級集群

同時本研究也參考 Best (1997)、Best (1997b)與 Pocklington & Best (1997)的方法，

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

將不同詞彙透過奇異值分解(Singular Value Decomposition, SVD)進行主成分因素分析，Dhillon & Modha (2001)表示 SVD 本身在過去已經有被大量使用於文本探勘，所以本研究透過 R 軟體的 lsa 擴充功能執行 SVD，並同時將兩種方法所獲得的結果，用於分析不同模因組在網路文本中的變化。

‧

乃沂、黃東益（2015）、Opview 平台與將文本資料分成部落格、社群網站、網路新聞與討論區，McKelvey et al. (2012)、Simmons, Adamic & Adar (2011)、Thelwall (2006)與 Gruhl et al. (2004)則主要都是針對特定類型的網路文本分析，專注於探討社群網站或部落格的文本，Leskovec, Backstorm & Kleinberg (2009)則同時探討網路新聞與部落格詞彙的變動，本研究因為採取模因學的觀點，因此結合網路文本的分析與進化、生態學的方法，所以對於本研究而言網路文本所存在的環境是很重要的，如果將許多不同網站的文本整合再一起分析，則可能混淆文本中真正的動態機制，因此如同 Best (1997)、Best (1997b)與 Pocklington & Best (1997)等學者的分析，本研究在分析中則獨立針對單一網站的文本進行假設的驗證，不過

在文檔中巨量資料生態：以模因學分析網路文本的進化 - 政大學術集成 (頁 109-113)

資料分析方法

第三章 研究設計與方法

第五節 資料分析方法

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第三章研究設計與方法

第五節資料分析方法

立政治大學