研究方法

第三章研究設計

第三節、研究方法

沿襲前節的圖三. 2，以下介紹各項研究方法。本節次序為介紹爬蟲方法（下載微博文本）、資料分析（斷詞、字詞與文本的趨勢）、情緒分析、LDA 分析、word2vec 分析。

為求理解程度與閱讀方便，先行簡述文字探勘相關定義（郭文平 2015、謝吉隆2018、Haire 與 Mayer-Schönberger 2014）。任何演算法需要將非結構資料的龐大文章轉化為結構資料，將文字數據化方便計算。將「文字」數據化依據是「維度」

或稱「詞向量」，將「不重複字詞」轉化一個維度（使字詞異質化），其次數可累計於段落或文章，或是時間與地點等不同屬性。

累計字詞的順序或是組別可形成龐大的稀疏矩陣，可轉為矩陣表示字詞與段落關係，或是字詞與字詞之間關係，可按研究需求有不同關係。不論利用哪種矩陣的皆可抽取出指定詞的「詞向量」。詞向量及關係矩陣是研究工具的運算基礎，可執行許多目的，例如不同關係（字詞間、段落間、文章間、彼此分類間）的相似性，

或是特定字詞的機率分佈而對大量文章分類。

壹、文本下載

文字探勘以微博為研究對象，下載維穩相關文本供後續分析。擷取文章採用

「動靜混和」方式爬蟲，利用Python 套件中的 beautifulsoup 與 selenium 兩套件，

半自動化（需人為介入執行重複工作）採用selenium 輔助，之後利用 beautifulsoup 下載所有文章與該文屬性。

以下將說明如何擷取文本資料以及該文相關屬性。下圖微博截圖三. 3 做為範例說明。首先如下黃C 框因為關鍵字「維穩」而入選，納入本文分析的文字包括發

文者本身文章與引用文章（綠 A 框與綠 B 框）。因為各大網站、論壇與平臺的討論方式或少都有差異，但本文計數方式相當簡單，僅累加各種屬性次數。每一位發言者可抓取的資訊共有14 個屬性，可以運用的資訊名稱如下表所示。上述參考資料如下範例所示：

發文者發文（綠A 框）：1 次發文者轉發（黃F 框）：2 次發文者評論（黃G 框）：1 次被引用發文（綠B 框）：1 次被引用轉發（黃D 框）：6 次被引用評論（黃D 框）：3 次

圖三. 3 取至微博並且關於「維穩」關鍵字的示範資料來源：取自微博網頁，本文自行修改

繼續延續解釋文章擁有的屬性。下表三. 1 每位發文者可搜集的屬性，以下解釋較為特別部分。發文者身分別（稱號）大致可分為無稱號者、官方帳號、付費會員認證、達人認證、個人實名認證等。「遭過濾文章」是當時發文者引用某篇文章，

卻被微博之後刪除，或是發文者引用的事件連結與資訊遭評蔽，本文還是可以計數微博「主動」執行「屏蔽」數量，同時，留有引用文的轉發量與討論量與點讚量，

方便計算聲量。另外有些資訊備而不用，例如文章發文者的首頁連結與發文者ID。

表三. 2 發文地區依據當時註冊地，所以可能不代表發文時處於該地區，儘管可能有誤差，但依舊按資料進行分析。

表三. 1 每位發文者可搜集的屬性

資料來源：取自微博網頁，本文自行修正表三. 2 每位發文者可能的發文地區

資料來源：取自微博網頁，本文自行修正

貳、資料處理

延續上個次節下載維穩文本，此處介紹取得網友發言紀錄之後，如何對文章如何斷詞。將文字數據化的過程就是「斷詞」，才能令後續演算法計算。斷詞系統³³ 相當多種，也存於許多平臺與其他程式語言，測試與整合不易。再者本文處理文章為簡體中文，並且需要應對許多大陸網友的特殊用詞，所以本文使用中文斷詞系統之中應用最為廣泛的是Sun Junti 開發的 Jieba（結巴）套件，同時也是大陸學者開發的套件，故本文採取結巴系統完成斷詞。

由於應對許多大陸網友的特殊用詞，本文利用結巴斷詞提供的自訂字典以及停用字字典幫助斷詞。自訂字典功能在於補充新斷詞，停用字字典避免錯誤斷詞。

因優化斷詞品質需要，字典補充過程有三種方法以臻完善，其一，添增網路上已整理過後的字典或是資料庫（各大網站蒐集中港臺三地網路用語、簡體中文輸入法補充字典（搜狗、百度、QQ 等）、各地方言特殊謾罵用詞、維基百科等）。其二，

數次隨機檢索斷詞效果並更新，其三，來回數次執行後續演算法，若發現斷詞明顯錯誤則立即更新字典。

以上步驟需首先釐清的是「斷詞」，有兩個重要部分，分別為斷詞處理與斷詞結果。因為文章資料是不具結構性的資料，並須將文章內的詞彙斷開（斷詞處理），

33 稍微早期斷詞系統 HanLP、SnowNLP、Stanford NLP、SCWS、NLTK。近期《清华大学自然语言处理与社会人文计算实验室》開發的THULAC、中研院中文詞知識庫小組（CKIP）的 ckiptagger 套件等。

發文者ID 發文者註冊地發文者首頁連結發文者被按贊引用文發文時間發文者稱號內文與引用文遭過濾文章引用文轉發量引用文評論量內文發文時間發文者被轉發發文者被評論引用文按贊量

北京黑龍山東重慶青海天津上海河南四川新疆山西浙江湖南雲南香港河北江蘇湖北貴州臺灣內蒙安徽廣東西藏澳門遼寧福建廣西陝西其他吉林江西海南甘肅海外

形成許多斷詞組成的一篇文章（斷詞結果）。斷詞的工作是文字探勘研究中最重要一環，不僅大幅影響後續演算法執行結果，也需要質性解讀字詞，以及需要計數詞頻的分析過程。所以將有決定性的差異產生，未經優化與經過優化的斷詞結果如下表三. 3 所示（後文若出現原始資料以簡體字呈現）。將文章斷詞是否加入自定字典的原則（朱怡霖2001）如下：

一、有獨立意義的語法二、依使用習慣的慣用語言

三、語意失去組合性或是語法有變化時，需合成一個斷詞四、有明顯標點符號標記時

五、同形異構的情況必須按字裡行間斷詞表三. 3 斷詞範例

未經過斷詞原文

趙違反了二個凡是之一：凡是有任何不利於維穩可能的內容都不許報導//@斯偉江:轉發微博

【“趙普事件”較靠譜報導】根據此文：1、央視應承擔最大的責任，對危害公共利益的食品安全問題，不該過度自我審查；2、記者調查未完全證實哪些品牌老優酪乳、果凍中存在明膠問題，

經口頭交流，導致微博披露的內容語焉不詳；3、趙普亦未掌握確鑿事實，作為大 V 模糊發帖雖不妥貼，但出於公心不該受罰。

未經本研究優化的斷詞結果

趙,違反,了,二個,凡是,之一,：,凡是,有,任何,不利於,維穩,可能,的,內容,都,不許,報導,/,/,@,斯偉江,:, 轉發,微博,【,“,趙普,事件,”,較,靠,譜,報導,】,根據,此文,：,1,、,央視,應,承擔,最大,的,責任,，,對, 危害,公共利益,的,食品安全,問題,，,不該,過度,自我,審查,；,2,、,記者,調查,未,完全,證實,哪些,品牌, 老,優酪乳,、,果凍,中,存在,明膠,問題,，,經,口頭,交流,，,導致,微博,披露,的,內容,語焉不詳,；,3,、, 趙普,亦,未,掌握,確鑿,事實,，,作為,大,V,模糊,發帖,雖,不,妥貼,，,但,出於公心,不該,受罰,。

經過本研究優化的斷詞結果

趙,違反,二個,凡是,凡是,不利於,維穩,不許,趙普,央視,承擔,責任,危害,公共利益,食品安全,問題,過度,自我,審查,調查,證實,品牌,優酪乳,果凍,明膠,問題,口頭,交流,披露,語焉不詳,趙普,掌握,確鑿,模糊,發帖,妥貼,出於公心,受罰

資料來源：本文自行整理

參、情緒分析

情緒分析（意見分析或情感強度分析）是分析文本之中的發文者對於議題的評價、意見、情緒的表達強度。本文透過預期情緒分析觀察龐雜且爭議性高的維穩議題之中，係是那些議題令網友感到不滿，或是讚揚與無感，甚至是違反我們預期的情緒反應。也能區隔前文提到資料分析的分析基礎（數量與比例為基準的比較方式），而是網友對哪種類型的議題有強烈的情感。

以下說明情緒分析。一般分析情緒主要的演算法（Bishop 2006、Pang 2008、

Liu 2012）有監督式與非監督式兩種，還有三種不同指標考量，分別為字詞、一段語句、一篇文章三種指標。所謂監督式學習勢需要研究者評斷某一篇文章的「主觀分數」，可以是滿意度、情緒強度、態度立場、或其他種分類。大多以類神經為基礎的機器學習方式完成，並訓練資料成為一個模型。根據此訓練後模型來測試後續資料，尤其訓練好壞將決定後續分析成敗。

另一個非監督式為標準範本的參考方式進行。其標準範本可以是字詞、語句、

文章等指標，視目的不同，也可存在多種可能情緒的文章，或是多種評價的文章。

經由訓練大量資料後產出大型的相關矩陣³⁴，其矩陣大多按「文章與文章」或是「字詞與字詞」、「文章與字詞」的相關性來產出。隨後按照預設好的標準範本比對出

「相似度」，其相似度計算大多是餘弦內積而得。所以研究者透過計算相似度得到範本與其他測試項目的關係，進而取得情緒數值。

一般情緒分析大多藉由監督式機械學習與單一詞彙多種情感標注方式進行，

但本文簡化這些過程，把「負面情感強烈」的「譴責詞」列為網民宣洩的過程，同樣正面情感強烈的「褒獎詞」列為網民肯定價值的過程。基本上單詞語帶有譴責、

謾駡、諷刺、訕笑、貶抑、譭謗傷害、不能釋懷、語氣強烈的詞彙皆屬於譴責詞範圍，反之單詞帶有語氣支持、鼓勵、讚賞、感謝、認同感強烈的詞彙皆屬於褒獎詞範圍。將這些譴責詞與褒獎詞紀錄成為情緒字典，供後續情緒分析判斷。

藉由情感兩端較為極端用詞來確認網友的情感態度，而不因一般研究常用的正面詞彙與負面詞彙，正因捉摸不清語意、雙關語、隱含意義等可能，令研究增加許多雜訊以及不確定性。情緒字詞盡可能趨於正負兩端之餘，既不會重複計數也避

在文檔中中國大陸網民如何看待維穩：2010年至2018年微博的文字探勘研究 (頁 32-42)

第三章 研究設計

第三節、 研究方法

壹、文本下載

貳、資料處理

參、情緒分析

第三章研究設計

第三節、研究方法