針對臉書粉絲專頁貼文之政治傾向預測 - 政大學術集成

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政治大. ‧ 國. 學 ‧. 針對臉書粉絲專頁貼文之政治傾向預測. n. al. Ch. engchi. er. io. Fan Pages. sit. y. Nat. Predicting Political Affiliation for Posts on Facebook. i n U. v. 研究生：張哲嘉指導教授：徐國偉. 中華民國一○五年五月 May 2016.

(2) 針對臉書粉絲專頁貼文之政治傾向預測 Predicting Political Affiliation for Posts on Facebook Fan Pages 研究生：張哲嘉. Student：Che-Chia, Chang. 指導教授：徐國偉. Advisor：Kuo- Wei., Hsu. 學. 資訊科學系碩士論文. sit. Nat. A Thesis. y. ‧. ‧ 國. 立. 政治大國立政治大學. er. io. submitted to Department of Computer Science. n. al National Chengchi University iv. n U i Requirements in partial fulfillment e n g cofhthe. Ch. for the degree of Master in Computer Science. 中華民國一○五年五月 May 2016.

(3) 針對臉書粉絲專頁貼文之政治傾向預測. 摘要. 近年來社群媒體興起，尤其以臉書為主。在台灣超過 1500 萬個臉書用戶，其遍及族群從公眾人物到一般民眾。此外，這類的新興資訊交流平台其實. 政治大內含許多有意義的資訊，每一則貼文都隱含著每個使用者的情緒以及立場立. ‧ 國. 學. 傾向。然而，利用社群媒體來預測選舉與使用者政治傾向已成為目前的趨. ‧. 勢，在台灣各政黨與政治人物紛紛成立粉絲專頁，投入利用網路與社群媒. sit. y. Nat. 體來打選戰與預測民調。本研究發現此一特性，致力於預測粉絲專頁貼文. er. io. 之政治傾向，收集台灣兩大政黨派國民黨與民進黨之粉絲專頁貼文，建立. n. a. v. l C 兩種預測模型分別為以相異字為特徵模型與文字互動特徵模型。利用資料 ni. hengchi U. 探勘之相關技術，以貼文所含藍綠政黨特徵表現建立分類器，並細部探討與設計多種特徵組合，比較不同特徵組合之預測效果與影響因素以及在預測資料不平衡的情況下是否影響分類結果。最後，研究結果顯示使用文字特徵中黨派典型字與互動特徵值域取對數並搭配 KNN 分類器效果最佳，其準確度可達 0.908，F1-score 可達 0.827。. i.

(4) Predicting Political Affiliation for Posts on Facebook Fan Pages Abstract. Recently, the social media is becoming more and more popular, especially Facebook. In Taiwan, there are 15 million Facebook users from celebrities to the. 政治大. general public. Receiving information every day from Facebook has become a. 立. lifestyle of most people. These new information-exchanging platforms contain. ‧ 國. 學. lots of meaningful messages including users' emotions and affiliations. Moreover, using the social media data to predict the election result and political. ‧. affiliation is becoming the current trend in Taiwan. For example, politicians try. sit. y. Nat. to win the election and predict the polls by means of Internet and the social. er. io. media, and every political parties also have their own fan pages. In this thesis,. n. a the political inclinationsvof the posts of fan pages, we make an effort to predict i l C n h e nare especially for KMT and DPP which i Ulargest political parties in g cthehtwo. Taiwan. We filter the appropriate literal and interactive features. We use the posts of the two parties to predict the political inclinations by constructing the classification models .In the end, we compare the performances of different classifiers .The result shows that the literal and interactive features work the best with KNN classifier, whose accuracy and F1-score are 0.908 and 0.827, respectively.. ii.

(5) 誌謝在政大的日子成為我人生中的轉捩點，在這裡所學到的事物遠比想像中的還要多。時光匆匆，政大的將近兩年時間，我將永生難忘。首先最感謝我的指導教授徐國偉老師，跟著徐老師往往讓我得到許多研究上的啟發以及收穫。在老師的帶領下參加跨系所的計畫，與新聞系共事進而產生出很多新的研究議題，從中也讓我實際接觸到許多資料處理的工. 政治大作而累積經驗。給予我參加國際競賽的資訊，並指導我在比賽上所面對的立. ‧ 國. 學. 問題，讓我有機會可以得到人生中的第一個第一名。在資料管理與資料探. ‧. 勘領域總是能給我正確的方向，使我能從研究死結中順利往前進，一直到. sit. y. Nat. 論文完成。老師的帶領方式讓我對資料探勘領域產生了熱情，進而奠定我. er. io. 人生中第一個工作的方向。在此特別為我最敬佩的徐老師說聲謝謝!. n. a. v. l C 其次感謝實驗室中的學姊，淑怡學姐總是告訴我好多系上的故事，在實 ni. hengchi U. 驗室跟學姊總是有聊不完的話，也預祝學姊未來也都能順順利利。再來還有系上的好同學們，就如同戰友一般互相扶持，大家都很優秀讓我也不敢鬆懈下來，互相交流各自的專業感覺也很棒。最後感謝我的家人與女友，在研究所期間總是我最堅固的後盾，讓我勇於面對挑戰，謝謝我的爸爸資助我到 25 歲，給我好的環境讓我可以安心的求學，未來的我也一樣會更加努力。. iii. 哲嘉 2016 年季春.

(6) 目錄第一章. 緒論 ........................................................................................................................ 1. 1.1 研究動機與目的 .............................................................................................................. 1 1.2 研究對象 .......................................................................................................................... 3 1.3 研究貢獻 .......................................................................................................................... 5 1.4 論文架構 .......................................................................................................................... 5 第二章. 文獻探討 ................................................................................................................ 7. 政治大 2.1.1 臉書與 Graph API 立相關研究.................................................................................... 9. 2.1 社群媒體之相關研究 ...................................................................................................... 7. ‧ 國. 學. 2.2 中文斷詞器 CKIP 之相關研究 ..................................................................................... 11 2.3 社群媒體與政治傾向預測之相關研究 ........................................................................ 12. ‧. 第三章. 研究方法 .............................................................................................................. 16. sit. y. Nat. 3.1 系統架構 ........................................................................................................................ 16. io. er. 3.2 藍綠政黨代表粉絲專頁 ................................................................................................ 18 3.3 資料前處理 .................................................................................................................... 21. al. n. v i n Ch 3.3.1 中文斷詞 ................................................................................................................ 22 engchi U 3.3.2 去除停止詞 ............................................................................................................. 22 3.3.3 限制詞字數 ............................................................................................................ 22. 3.4 資料政治傾向 ................................................................................................................ 23 3.5 以相異詞為特徵之預測方法 ........................................................................................ 23 3.5.1 TF 權重法................................................................................................................ 24 3.5.2 TF-IDF 權重法 ........................................................................................................ 26 3.5.3 BTO 權重法 ............................................................................................................ 27 3.6 以文字與互動為特徵之方法 ........................................................................................ 29 3.6.1 文字特徵擷取 ........................................................................................................ 29 iv.

(7) 3.6.2 互動特徵擷取 ........................................................................................................ 31 3.6.2.1 互動特徵轉型 .................................................................................................. 31 3.6.2.2 互動特徵擷取 .................................................................................................. 34 第四章. 實驗方法與驗證 .................................................................................................. 38. 4.1 實驗資料 ........................................................................................................................ 38 4.1.1 儲存格式 ................................................................................................................ 38 4.1.2 實驗資料量 ............................................................................................................ 39 4.2 實驗環境與評估指標 .................................................................................................... 41. 政治大. 4.2.1 實驗環境配置 ......................................................................................................... 41. 立. 4.2.2 實驗評估指標 ......................................................................................................... 41. ‧ 國. 學. 4.3 實驗分類器與交叉驗證 ................................................................................................ 42 4.4 以相異詞為特徵方法之實驗 ........................................................................................ 44. ‧. 4.4.1 以相異詞為特徵實驗 input data ............................................................................ 44. sit. y. Nat. 4.4.2 以相異詞為特徵實驗結果 ..................................................................................... 45. io. er. 4.5 以文字與互動特徵方法之實驗 .................................................................................... 49. al. 4.5.1 黨派典型字個數實驗 ............................................................................................. 50. n. v i n Ch 4.5.2 互動特徵值域分布 ................................................................................................. 51 engchi U 4.5.3 貼文數平衡實驗 ..................................................................................................... 55 4.5.4 特徵組合實驗 ......................................................................................................... 57 4.5.5 黨派指標人物訓練模型實驗 ................................................................................. 65 4.6 實驗結果比較 ................................................................................................................ 68 4.7 楊秋興個案討論 ............................................................................................................ 69 第五章. 結論與未來展望 .................................................................................................. 74. 5.1 結論 ................................................................................................................................ 74 5.2 未來展望 ........................................................................................................................ 75 參考文獻 .................................................................................................................................. 76 v.

(8) 附錄 Rapidminer 操作簡介 .................................................................................................... 80. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. vi. i n U. v.

(9) 表目錄表 3.1：範例國民黨政治人物粉絲專頁................................................................................ 19 表 3.2：範例民進黨政治人物粉絲專頁................................................................................ 20 表 3.3：TD-MATRIX ................................................................................................................ 24 表 3.4：範例貼文.................................................................................................................... 25 表 3.5：TD-MATRIX 以詞頻為權重........................................................................................ 25 表 3.6：TD-MATRIX 以 TF-IDF 為權重 ................................................................................. 27 表表表表表表表表表. 3.7：TD-MATRIX 以 BTO 為權重 ...................................................................................... 28 3.8：藍綠貼文詞頻統計.................................................................................................... 30 3.9：藍綠黨派典型字範例................................................................................................ 30 3.10：政治人物字典 ......................................................................................................... 31 3.11：情緒字典 ................................................................................................................. 31 3.12：貼文型態 ................................................................................................................. 35 4.1：POST_TEXT 資料表 .................................................................................................... 38 4.2：POST 資料表 .............................................................................................................. 39 4.3：國民黨貼文資料........................................................................................................ 40. 表表表表表表表表表. 4.4：民進黨貼文資料........................................................................................................ 40 4.5：實驗環境.................................................................................................................... 41 4.6：SVM 實驗參數 .......................................................................................................... 42 4.7：DECISION TREE 實驗參數 ........................................................................................... 43 4.8：以相異詞為特徵 INPUT TD-MATRIX ......................................................................... 44 4.9：黨派典型字個數實驗結果........................................................................................ 50 4.10：黨派典型字資料平衡實驗 PRECISION ...................................................................... 55 4.11：黨派典型字資料平衡實驗 RECALL........................................................................... 55 4.12：黨派典型字資料平衡實驗 F1-SCORE ....................................................................... 55. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 表 4.13：黨派典型字資料平衡實驗 ACCURACY ...................................................................... 56 表 4.14：NAÏVE BAYES 組合實驗結果 ........................................................................................ 58 表 4.15：KNN 組合實驗結果 ................................................................................................ 58 表 4.16：SVM 組合實驗結果 ................................................................................................ 59 表 4.17：DECISION TREE 組合實驗結果................................................................................. 59 表 4.18：ADABOOST 組合實驗結果 ....................................................................................... 60 表 4.19：特徵組合之最佳演算法 ......................................................................................... 64 表 4.20：演算法之最佳特徵組合 ......................................................................................... 64 表 4.21：藍綠指標人物訓練資料 ......................................................................................... 65. vii.

(10) 表 4.22：藍綠其餘人物測試資料 ......................................................................................... 65 表 4.23：指標人物訓練模型實驗 PRECISION .......................................................................... 66 表 4.24：指標人物訓練模型實驗 RECALL ............................................................................... 66 表 4.25：指標人物訓練模型實驗 F1-SCORE ........................................................................... 66 表 4.26：指標人物訓練模型實驗 ACCURACY .......................................................................... 66 表 4.27：兩種預測模型最佳分類器比較 ............................................................................. 68 表 4.28：楊秋興政黨經歷 ..................................................................................................... 69 表 4.29：楊秋興之貼文資料 ................................................................................................. 69 表 4.30：楊秋興個案實驗 CONFUSION MATRIX .......................................................................... 73. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. viii. i n U. v.

(11) 圖目錄圖 1.1：台灣網友最常使用社群平台...................................................................................... 3 圖 1.2：臉書粉絲專頁範例...................................................................................................... 4 圖 1.3：粉絲專頁貼文.............................................................................................................. 4 圖 2.1：OVERVIEW OF THE PREDICTING ELECTION APPROACH ............................................... 15 圖 3.1：系統架構圖................................................................................................................ 17 圖圖圖圖圖圖圖圖圖. 3.2：資料前處理流程圖.................................................................................................... 20 3.3：互動特徵值域散佈圖................................................................................................ 33 4.1：實驗以相異詞為特徵方法之精確度........................................................................ 45 4.2：實驗以相異詞為特徵方法之召回率........................................................................ 46 4.3：實驗以相異詞為特徵方法之 F1-SCORE ................................................................... 46 4.4：實驗以相異詞為特徵方法之準確度........................................................................ 47 4.5：實驗 ADA BOOST 以相異詞為特徵方法之精準率 ................................................... 48 4.6：實驗 ADA BOOST 以相異詞為特徵方法之召回率 ................................................... 48 4.7：實驗 ADA BOOST 以相異詞為特徵方法之 F1-SCORE ................................................ 49. 圖圖圖圖圖圖圖圖圖. 4.8：實驗 ADA BOOST 以相異詞為特徵方法之準確度 ................................................... 49 4.9：典型字取詞數實驗 F1-SCORE 圖................................................................................. 50 4.10：原始互動特徵值域分布折線圖 ............................................................................. 52 4.11：互動特徵取對數值域分布折線圖 ......................................................................... 52 4.12：正規化互動特徵值域分布折線圖 ......................................................................... 53 4.13：互動特徵標準化值域分布折線圖 ......................................................................... 53 4.14：互動特徵與藍平均之相似度值域分布堆疊折線圖 ............................................. 54 4.15：互動特徵與綠平均之相似度值域分布堆疊折線圖 ............................................. 54 4.16：貼文數平衡實驗圖 F1-SCORE ................................................................................... 56. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4.17：文字特徵 F1-SCORE 實驗.......................................................................................... 61 圖 4.18：黨派典型字搭配互動特徵 F1 SCORE 實驗圖 .......................................................... 62 圖 4.19：指標性政治人物模型 F1-SCORE .............................................................................. 67 圖 4.20：楊秋興變換政黨期間貼文回應折線圖 ................................................................. 70 圖 4.21：楊秋興變換政黨期間貼文按讚折線圖 ................................................................. 71 圖 4.22：楊秋興變換政黨期間貼文分享折線圖 ................................................................. 71 圖 4.23：楊秋興貼文之藍綠互動特徵平均數 ..................................................................... 72. ix.

(12) 第一章緒論本章節將介紹本論文的研究動機與目的、研究對象以及研究貢獻，最末為本論文之架構。. 1.1 研究動機與目的. 治政大近年來社群媒體興起與行動裝置普及，人們可以在任何地方輕鬆的發布自己的訊息至立. 社群媒體，傳播訊息方式也打破地理與時間上的限制，因此數據量的成長也跟著這一. ‧ 國. 學. 趨勢持續爆發中。目前主流社群媒體如 Facebook、Twitter、Instagram、Weibo、Plurk. ‧. 等，相繼嶄露頭角。以臉書(Facebook)為例，全球已超過 14 億人使用臉書，在台灣也. y. Nat. 有超過 1500 萬個臉書用戶，其使用族群遍及國家領袖、政治人物、公眾人物至一般民. er. io. sit. 眾，使得社會上各個族群可以在同一個平台內交流與分享資訊。而臉書提供了一種以創辦人或其創辦主旨為中心的社團，名為粉絲專頁，使得喜愛該粉絲專頁的使用者可. n. al. Ch. 以在同一個社團裡交流各自的資訊。. engchi. i n U. v. 在社群媒體上的每一則訊息其實都隱含意義，以臉書為例，每一則貼文都隱含著每個使用者的情緒以及立場傾向。這些隱含的情緒傾向，備受各領域專家所期待，藉由適當的處理、萃取、利用這些情緒，將其統計與轉換後往往可得到有相當價值的資訊，如心理學家在網路意見調查中，利用情緒正負向，分析預測使用者有無極度負向或自殺傾向，又或者電影公司利用社群媒體，計算討論串之正負向情緒，預測票房等，眾多研究結果中顯示，擷取社群媒體資料進行預測，其準確度皆有高度的效益。在台灣，政治議題往往備受關注，尤其以兩大黨派國民黨與民進黨為主，受社群媒體普及影響，政治人物競選策略從傳統的海報、傳單、廣告、電視等轉移到了社群. 1.

(13) 媒體，大多數政治人物以及政黨也都建立了屬於自己的粉絲專頁，在粉絲專頁上發表自己的政見、想法以及對新聞的評論，透過粉絲專頁直接與選民與支持者互動，然而這些粉絲團上的貼文，往往隱含著強烈的政治傾向，假設一般選民不知道該粉絲專頁的政治人物是何黨派，去仔細的看這個未知政黨的粉絲專頁貼文，也能從文字特徵中去發現這個粉絲專頁的政治傾向。又或者該粉絲專頁是國民黨政治人物經營，但其貼文卻充滿民進黨傾向之特徵，然，一般選民可以察覺這些政治人物是所謂"藍皮綠骨" 特質，並非傳統深藍與深綠身分。. 政治大. 本研究發現上述特點，從臉書粉絲專頁上抓取藍綠各黨派之政治人物之貼文，將. 立. 其標籤所屬黨派，利用電腦科學中的資料探勘、機器學習、自然語言處理等技術，建. ‧ 國. 學. 立分類模型，並預測貼文之政治傾向。. 在利用社群媒體預測政治相關研究中，多是預測使用者個人之政治傾向，但其大. ‧. 多數資料的標準類別(Ground Truth)皆建立於人工標籤或由多人標註並取多數決。然而，. Nat. sit. y. 這樣的資料正確性時常備受考驗，但若要對社群媒體上的每位使用者做政治立場調查. n. al. er. io. 也有其困難度。所以本研究避開上述預測方式，致力於針對臉書粉絲專頁貼文之政治. i n U. v. 傾向預測，遂其標準類別為粉絲專頁上政治人物之所屬黨派，故此做法較無上述爭議性。. Ch. engchi. 預測貼文政治傾向需進行特徵擷取，根據[18]其預測 Plurk 使用者之政治傾向，將特徵分成文字特徵與互動特徵，文字特徵為文字上之情緒、表情符號、關鍵字、URL 等。互動特徵為使用者與其社群媒體互動之動作如回覆、跟隨、喜歡、轉發、提及等。 [1]則是僅分析文字情緒進行美國選舉預測，其預測效果則不佳，[2]則是單純利用互動特徵做政治預測。本研究根據以往經驗採用文字特徵與互動特徵，並加入以相異字為特徵之方法，考量利用機器學習方式探討隱含之字詞共現關係，將其與傳統文字特徵與互動特徵方法做比較。本研究遂利用多種分類器並比較各分類器對於不同性質特徵之效果，研究結果顯示為文字特徵與互動特徵方法搭配 KNN 分類器為最佳，其預測 2.

(14) 度達 0.908 或 90.8%。. 1.2 研究對象為利用社群媒體預測政治傾向，如圖 1.1 所示，台灣社群媒體由資策會產業情報研究所(MIC)在 2014 年調查結果顯示1，在台灣目前最多人使用社群媒體為臉書，有 95.80% 網友曾經使用過臉書，其結果與國際趨勢相當，唯獨在台灣推特用戶不及國際比例。噗浪在 2012 年前曾經為台灣社群網站龍頭之一，在 2012 年正式被臉書超越，而政治. 政治大浪現存台灣用戶不及 180 萬，其線上政治人物紛紛停止更新，已鮮少人在噗浪上討論立. 議題本身具有時效性，若採用噗浪為研究平台，恐會與目前政治議題脫軌。再者，噗. ‧. ‧ 國. 學. 政治議題。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 1.1：台灣網友最常使用社群平台(資料來源：資策會產業情報研究所). 因此本研究決定以臉書為預測政治傾向研究平台，臉書於 2004 年由馬克·祖克柏. 1. http://googlerconcert1.pixnet.net/blog/post/372579989-台灣網路社群使用現況分析 3.

(15) 與他在哈佛大學室友所創辦2，截至 2015 年 6 月調查每個月至少瀏覽一次臉書的使用者有 14 億 9 千萬，佔全球 30 億網友的一半，在台灣超過 1500 萬的用戶，故以數據量與廣泛度為考量重點，臉書確實為最適合做預測之實驗平台。而如圖 1.2 所示，臉書粉絲專頁是一種具有論壇功能的組織型頁面，其資料皆為對外公開，使用者不須受粉絲專頁批准，僅直接透過按讚便可加入，使喜愛此粉絲專頁或有相同興趣傾向之使用者可以在粉絲專頁上交流資訊。. 政治大. 立. ‧. ‧ 國. 學 sit. y. Nat. 圖 1.1：臉書粉絲專頁範例. n. al. er. io. 粉絲專頁中的貼文為該粉絲專頁版主直接經營。根據研究，粉絲專頁的經營需要. i n U. v. 有強烈的人格特色以及魅力、設定正確主題、設計鮮明議題、安排發文時程與關注發. Ch. engchi. 後動向才可以獲得粉絲青睞以及聚焦粉絲關注。粉絲專頁可透過貼文直接傳達此專頁個人魅力、風格、特色以及想法給粉絲。也可以透過各互動功能與粉絲互動如回應使用者之回應、對回應按讚與分享回應，如圖 1.3 使用者也可以直接對版主貼文進行互動如按讚、回應、分享。額外資訊如該貼文的發布時間、共有幾位使用者說讚、回應數、分享數都明瞭的呈現在貼文上。. 2. https://zh.wikipedia.org/wiki/Facebook 4.

(16) 立. 治政圖 1.3：粉絲專頁貼文大. ‧ 國. 學. 為抓取政治相關資料，本研究決定以台灣兩大主要黨派國民黨(全名中國國民黨，. ‧. 直譯 Chinese Nationalist Party，音譯 Kuomintang，簡稱 KMT3)與民進黨(全名民主進步黨，英譯 Democratic Progressive Party，簡稱 DPP4)所屬政治人物經營之粉絲專頁為研. y. Nat. io. sit. 究對象，抓取資料期間為該粉絲專頁創立以來的所有公開貼文，並以該粉絲專頁所屬. n. al. er. 政黨派建立國民黨與民進黨之實驗數據。. 1.3 研究貢獻. Ch. engchi. i n U. v. 對政治領域相關分類問題設計多種實驗情境，建立兩種分類模型，第一種為以相異詞為特徵，並給予三種權重方式，探討其利用機器學習方法下所隱含字詞共現與文章相似度關係，以及討論三種權重方式所影響準確度之原因。第二種以截取貼文文字特徵與互動特徵著手。其中文字特徵包括黨派典型字、政治人物字典、情緒字典，互動特徵包含貼文之按讚、回應、分享、型態等。細部分析各種特徵之搭配組合，透過實驗討論不同特徵組合下所影響分類結果為何。為了讓模型有一定穩定度，使用五種不同. 3 4. http://www.kmt.org.tw/ http://www.dpp.org.tw/. 5.

(17) 分類器實驗。在分類器層面，進一步將特徵做值域的轉換以探討分類器對特徵值域的敏感度。在訓練資料層面，實驗與探討在類別資料不平衡時對我們的模型是否造成分類效果上的影響。在政治專業領域下，比較僅利用政黨之代表性政治人物當做模型訓練資料與所有政治人物所訓練之模型效果差異。最後將模型二之特徵做組合實驗，並詳細比較不同特徵所帶來不同的分類結果以及分類器的差異。實驗結果發現黨派典型字搭配互動特徵取對數方法，並使用 KNN[29]分類器準確度可達 0.908，而以相異詞為特徵並以 TF 方式為權重搭配 adaboost[31]分類器準確度可達 0.853。此外，將本論. 政治大. 文兩種預測方法比較其他政治傾向預測相關論文之方法與結果，綜整各項方法之優缺. 立. 點。額外對楊秋興個案做細部貼文研究，利用楊秋興在兩黨間轉換的特性，應用本論. ‧ 國. 學. 文所設計之特徵訓練其在民進黨與國民黨的貼文，討論楊秋興在兩黨間游移所發之貼文特徵偏向。. ‧. 1.4 論文架構. sit. y. Nat. io. er. 本論文第一章為緒論，描述研究動機、目的、對象與貢獻。第二章文獻探討，分析與. al. 本論文相關之研究與技術成果，探討流程依序為社群媒體、臉書 Graph API、斷詞工. n. v i n Ch 具、社群媒體與政治傾向預測之相關研究。第三章為研究方法，詳細說明本論文系統 engchi U 架構、資料來源、資料前處理、資料政治傾向、特徵擷取、文字與互動特徵方法、以相異詞為特徵方法與各分類特徵組合等步驟。第四章為實驗方法與驗證，將詳述實驗步驟、資料儲存、分類器比較、預測結果與討論。第五章為結論，簡述本研究論文之成果以及未來發展。. 6.

(18) 第二章文獻探討本章節將介紹與本研究相關的文獻資料，針對各相關領域研究做細部的描述。. 2.1 社群媒體之相關研究. 治政大互動且以使用者為中心的新型網際網路方式。其應用廣泛如社群網路、部落格、網路立. 自有 Web2.0 以來，開創了網路的新時代，從傳統的靜態 HTML 介面到動態的人與人. 應用程式、網路媒體播放平台等。其中社群網路以使用者互動為中心，搭著這一波網. ‧ 國. 學. 路新時代的熱潮，成為網際網路的新主流。眾多社群網站平台公司也紛紛成立，在這. ‧. 一波趨勢中角逐，提供使用者多種平台選擇，如 Facebook5、Twitter6、Plurk7、Weibo8. y. Nat. 等。人們可以隨時隨地透過社群媒體與他人互動，打破傳統傳遞訊息有地理和時間上. n. al. er. io. (一) 、基本服務：. sit. 的限制，並擁有多種服務提供給使用者：. (1) 個人資料紀錄 (2) 即時訊息. Ch. engchi. (3) 使用者相互連結 (4) 關鍵字與使用者檢索 (5) 文章與日記記錄 (6) 社團平台 (二) 、進階服務： 5 6 7 8. https://zh-tw.facebook.com/ https://twitter.com/?lang=zh-tw www.plurk.com/ tw.weibo.com/ 7. i n U. v.

(19) (1) 打卡定位服務 (2) 交易服務平台 (3) 線上付款功能 (4) 遊戲連線 (5) 評價服務 (6) 多媒體辨識系統. 政治大重要媒介平台。許多研究紛紛投入這一塊新興網路世界，如社群媒體為生活所帶來立完善的功能與大量使用者的註冊，使得社群媒體成為這一個世代中不可或缺的. ‧ 國. 學. 的影響，陳慧潔[19]利用問卷調查方式，欲尋找在中小學年級學童，是否有網路成癮症這一種新世代所產文明病。並研究網路成癮與學童人際溝通能力之關聯，在多. ‧. 種背景下使用臉書行為，是否沉迷於網路世界會影響現實人際溝通與互動能力。在. sit. y. Nat. 教學上，林育珊[20]透過抽樣 836 份問卷，探討學生使用社群媒體輔助學習的行為. io. er. 意圖之潛在影響因素，利用 SPSS 17 與 AMOS 17 來進行信效度與 SEM 分析，以檢. al. 驗研究模型。結果顯示，使用社群媒體輔助學習之行為意圖將會被學生的主觀規範. n. v i n Ch 與知覺易用性所影響，藉此能夠給予教師利用教學平台來輔助教學之建議。在新聞 engchi U 學觀點中，陳冰淳[21]以中國大陸社群媒體微博為例，探討在 Web2.0 時代影響社群媒體新聞資訊信任的心理因素，同樣以收集問卷方式，瞭解閱聽眾使用新浪微博接收新聞資訊時的心理特點，結果顯示閱聽眾心理對社群媒體信任將產生影響，例如在傳播者方面，親近性、影響力有著重要的作用，閱聽眾更相信親近性高、粉絲數多的傳播者。而在傳播內容層面，高突發性、高敏感性與負面新聞資訊將產生高信任度。然而，社群媒體自我效能越高，卻不一定對社群媒體上的新聞資訊信任度高。其反應在社群媒體新聞資訊接收過程中，閱聽眾心理能夠影響大量的比例。. 8.

(20) 上述顯示社群媒體對人類所帶來之影響已經不分領域，研究範圍也來到各個層面，若能準確加以分析與應用社群媒體，其效益將無可限量。. 2.1.1 臉書與 Graph API 相關研究在眾多社群媒體平台中，臉書(Facebook)為目前最受歡迎平台之一，其為 2004 年 2 月 4 日由馬克·祖克柏與他的哈佛大學室友們所創立。創立之初僅限於哈佛大學與同區域部分常春藤名校學生加入，在 2005 年後逐漸對大眾開放。截至 2015 年已成為全球. 政治大戶，其使用族群遍及國家領袖、政治人物、公眾人物至一般民眾，使得社會上各個族立. 最著名社群網路平台，全球超過 14 億人使用臉書，在台灣也有超過 1500 萬個臉書用. ‧ 國. 學. 群可以在同一個平台內交流與分享資訊。實質的打破了時間與空間上之溝通社交限制。在功能上，臉書也不停歇的提供實用且互動性高的功能，許多功能目前也廣為人知，. ‧. [22]下列說明臉書主要功能項目：. sit. y. Nat. 1. 塗鴉牆（The Wall）：塗鴉牆就是用戶檔案頁上的留言板，與留言板不同的是，塗. io. er. 鴉牆的內容會被同步到各個朋友的首頁，因此可以在自己的塗鴉牆上發表一些最新. al. 狀態，亦可為塗鴉牆上的狀態進行刪除、修改、回應、按讚、分享等互動。. n. v i n Ch 訊息（Messages）：可以透過私密訊息發送給目標用戶的訊息匣，就像電子郵件， engchi U. 2.. 只有收信人和發信人可以看到，亦可自由增加訊息匣的用戶數，成為一種多人數的相互訊息傳遞空間。 3. 讚（Like）：是用來表示網友對發文者的表態，發文者可以是個人、社團、公司、與粉絲專頁。利用「讚」按鈕網友們對該頁面進行讚賞及表態。透過「讚」，Facebook 會讓你的朋友知道你曾經按過那些讚，例如你如果按了某個粉絲專頁所設計的小測驗，這樣當你按了讚之後，你的朋友也會看到哪個小測驗或小遊戲。 4. 共享相簿（Shared Photo Albums）：「共享相簿」功能方便用戶收集單一活動的相片，用戶建立相簿後，可上傳無限張相片至同一相簿內，一起編輯及「tag」相某 9.

(21) 人到相片當中，新功能只允許上傳用戶自行設定隱私權限並使用。 5. 打卡：利用 GIS 做結合，讓使用者可以在目前所在地理位置打卡，並顯示在塗鴉牆上讓其他使用者關注。 6. 戳一下：作為提醒對方，並表示你還記得他，或讓對方記得你。 7. 活動（Events）：Facebook 活動的功能幫助用戶通知朋友們將發生的活動，幫助用戶組織線下的社交活動。 8. Facebook 網頁遊戲：網站內有許多與第三方合作廠商所開發的社群小遊戲，比較. 政治大. 知名的有 Zynga.com、King.com、等等。. 立. 9. 刊登廣告：使用者可以向臉書購買廣告權，廣告會顯示在塗鴉牆角落空白處，也是. ‧ 國. 學. 臉書中商業模式為主的功能。. 10. 建立粉絲專頁：一種以創辦人或其創辦主旨為中心的社團，使得喜愛該粉絲專頁的. ‧. 使用者可以在同一個社團裡交流各自的資訊。. Nat. n. al. er. io. 行視訊通話，也是一種免付費的進階功能。. sit. y. 11. 視訊通話：利用網路傳遞訊號，讓用戶間可以使用智慧型手機或電腦的前置鏡頭進. i n U. v. 12. 直播：使用者可以透過直播功能，讓其他用戶直接觀看使用者目前的直播連線狀況，. Ch. engchi. 並可以利用回應與直播者溝通，觀看人數也會直接顯示在頁面中。. 臉書提供開發人員使用 Facebook API，開發人員僅須按照 API 所定義條件下皆可使用臉書完整的開發平台。然而，在資料探勘領域中，開發者皆對臉書上豐富的用戶資料感興趣。但往往臉書在保護用戶的隱私權部分做的非常嚴密。臉書中用戶皆可以針對個人喜好設定隱私，而唯一公開的資料就僅有粉絲專頁社團上的資訊。欲抓取粉絲專頁資料須透過臉書 Graph API[25]，臉書為這些資料建立出一套物件連結的關係，稱之為 Social Graph，而 Graph API 主要依據 Social Graph 所產生的物件關聯介面，Social. 10.

(22) Graph 將臉書上資料分成下列幾種物件： nodes：基本物件組成，如使用者、相片、朋友、音樂、留言等。 edges：表示物件間的關聯，如使用者與朋友之間關聯、使用者與相片連結、相片上的留言與相片連結。 fields：表示物件的資訊，如使用者名稱、粉絲專頁名稱等。. 2.2 中文斷詞之相關研究. 立. 政治大. 句子中詞為最小有意義且能夠自由運用的語言單位[23]。在文字探勘、機器翻譯與資. ‧ 國. 學. 訊檢索領域中取得文本後，往往斷詞為第一處理的步驟，在斷完詞後方可執行後續步驟。而英文與中文取得詞的斷詞技術截然不同，在英文句子中，詞便為單字，由於英. ‧. 文書寫方式，單字與單字中間有空格做為區隔，直接利用空格便可以斷出英文中的詞。. Nat. sit. y. 但在中文句子中詞與詞中間沒有空格或是符號可以直接區隔，僅有句子與句子中間會. al. n. 法更加複雜繁瑣。. er. io. 以標點符號區隔。在上述單純中英句子結構上的差異便可使得中文斷詞比英文斷詞工. Ch. engchi. i n U. v. 中文斷詞所運用的技術大致上可分成字典法、規則法、統計法、混合法。其中字典法是直接與字典中的詞作比對，故效果仰賴於字典中的詞數。而規則式斷詞方法主要是利用規則將不適合之詞逐漸排除，多會結合詞庫增加準確度，最具代表性法則式斷詞法為長詞優先法，[3]利用長時優先比對提供正向與反向的斷詞結果做為應用序列標記之機器學習特徵函數改善序列標記的準確性以改善斷詞效能。統計法主要是統計文章中詞出現的頻率，如 N-gram 斷詞法，將文件內的字串以二字詞、三字詞、至 N 字詞切割出來，並計算其在訓練文章中出現的頻率，若詞頻高於設定之門檻便斷出該詞。近年多斷詞方法致力於混合法研究，其主要是結合字典法、規則法、統計法之技術與優點所形成之混合斷詞方式，而目前最普遍的混合式斷詞法為中研院所提出的 11.

(23) 「CKIP 斷詞法」，[23]CKIP 擁有約拾萬詞的詞庫，包含附加詞類、詞頻、詞類頻率等資料。提出四條選詞規則分別為長詞優先、單詞長度規則、語素規則與機率規則，透過詞庫與規則做為分詞的依據。對於新詞與未知詞擷取，經過上述規則絕大多數未知詞會被斷成較小單位，即為未知詞詞素，並判斷出哪些是未知詞詞素或獨用詞彙[4]。最後，將這些詞素與鄰近的詞透過語言模型[5]重整合併成新的未知詞，而剩餘未知詞則利用[6]所提出 bottom-up merging algorithm 做最後擷取。 CKIP 斷詞正確率可達 95%，並提供完整線上服務功能。其所提供之詞庫與本研. 政治大. 究所用政治相關貼文配合下斷詞準確度極高，尤其 CKIP 在人名擷取上也非常精準，. 立. 眾多政治人物姓名與關鍵字皆可以被此系統正確斷出。故本研究在斷詞工具上選用中. 2.3 社群媒體與政治傾向預測之相關研究. ‧. ‧ 國. 學. 研院 CKIP 斷詞系統。. sit. y. Nat. 在政治領域方面，由於社群媒體興起，政治人物紛紛成立屬於自己的粉絲專頁或是個. io. er. 人頁面。從社群媒體上傳播政治人物個人的政見與對新聞的評價已經成為現今趨勢，. al. 在競選時期候選人欲拉攏選民也有別於以往的僅透過傳統媒體如電視、報紙、看板、. n. v i n Ch 掃街拜票等。透過社群媒體傳播資訊不僅具有即時性並且有效降低傳播成本。然而， engchi U 資策會 2014 年最新數據，從 20 至 40 歲為新世代選民，同時也是主要上網人口，其漸. 漸轉型成偏向從社群媒體上粉絲專頁或新聞報導接收政治人物資訊，主要原因為資料傳播便捷性與透過互動功能如按讚、留言、分享等直接與政治人物互動。在上述發展環境趨勢下，社群媒體所含政治相關資訊極為豐富，眾多政治與選舉相關研究者皆著重於利用社群媒體來預測與分析民調。[7]在推特上利用使用者之政治相關貼文做民意調查，僅結合候選人關鍵字與文字中情緒極性次數，探勘出來的結果與真實民意調查到達 80%相似。而轉移資料平台至消費者信心指數調查也與上述結果相同，其反映出僅利用社群媒體上資料做基本的統計與分析便可貼近真實民調；[8]欲 12.

(24) 找出推特 140 字數限制下所隱含之政治民調，透過分析 10 萬則推特，僅利用各大黨派之候選人關鍵字，統計關鍵字在大選前一個月內被提及(Mention)次數，其結果也與真實民調逼近。然而，在台灣 2014 九合一選舉中，台北市長候選人柯文哲在獲勝後其中一句獲勝感言「這是一場網路主導的選戰」引起廣大迴響。其中廣告媒體商利用數據監測平台，監測柯文哲與對手連勝文粉絲專頁的粉絲人數，同時加入政治議題的設定，計算議題貼文與選民互動率（Engagement rate），統計民調結果與最後開票結果比例相當。在上述例子中，皆是利用社群媒體上之整體文字訊息進行民調分析。而結果也顯. 政治大. 示與真實民調極為相近，不論在國內或國外，同時持續發展政治相關應用。在技術方. 立. 面甚至出現眾多新興公司專門開發在社群媒體上之資料預測工具。由此可知，社群媒. ‧ 國. 學. 體上之資料皆隱含政治相關訊息，若適度加以處理，其富有巨大的應用價值。 [9][10] [11] [12] [13]在預測使用者政治傾向方面，多研究運用文字特徵以訓練分. ‧. 類器，截取文字中所能找到與目的相關特徵。[12]利用在推特上使用者的推文預測 2012. Nat. sit. y. 年美國總統大選，分開截取兩位候選人關鍵字以建立多組文字特徵，包括 N-gram、. n. al. er. io. Website、Hashtags、Contents 等特徵。而[13]同樣以擷取文字特徵方式預測政治傾向，. i n U. v. 其提出黨派典型字(Prototypical words)擷取方法。[18]預測噗浪上使用者政治傾向，同. Ch. engchi. 樣在其中一個文字特徵中使用黨派典型字方法。在方程式(2.1)中，𝑛為類別總數，𝑆𝑖 為類別𝑐𝑖 之使用者集合，而 w 為至少被一名使用者所使用之字詞，|𝑤, 𝑆𝑖 |則是 w 被𝑐𝑖 中使用者所使用之總次數。. |𝑤,𝑆𝑖 |. 𝑝𝑟𝑜𝑡𝑜(𝑤|𝑐𝑖 ) = ∑𝑛. 𝑗=1 |𝑤,𝑆𝑗 |. (2.1). 而在互動特徵方面如[2][11]，主要透過使用者與社群媒體之互動行為，例如按讚、回應、分享、追蹤等，互動行為將隨著不同的社群媒體而有所不同。將互動行為做截取與轉換，找出類別間的互動差異或值域分布範圍，以利提高分類器在辨識類別時的 13.

(25) 準確度。[11]提出使用者與政黨之間的互動，如回應、轉發、喜歡等；[2]則是於選民分享行為建立網路圖，利用網路圖標籤傳遞(Label Propagation)，將選民進行黨派分類。也有研究使用情緒分析預測選舉民調如[14]，其使用意見探勘(opinion mining)方式。如圖 2.1，主要利用情緒特徵訓練預測分類器。首先，透過與情緒字典比對，統計文字中所含情緒極性詞，再加入情緒時間軸強化特徵擷取準確度，最後擷取情緒特徵以預測選民政治傾向。但情緒字典建立困難，為了增加情緒字典詞彙量，主要透過兩種方. 政治大. 式建立情緒極性字典：(1)字典法、(2)機器學習法。字典法為透過人工事先標註情緒標. 立. 籤，其分為正向情緒詞與負向情緒詞以作為情緒種子，再利用同意詞與歧異詞的概念. ‧ 國. 學. 將未知詞做分類擴增字典詞彙，需要有現成人工標註情緒種子做參考為字典法之困難點，其結果也將隨著字典的情緒詞完整性而影響好壞。在中文語系當中著名情緒字典. ‧. 有台大所建置的 NTUSD 以及由中央研究院資訊所與知網[15]合作，提出廣義知網[24]。. Nat. sit. y. 而機器學習法則是透過情緒種子與字詞間隱含關聯性，進而藉由此關聯性以及自定分. n. al. er. io. 類的情緒算法，分辨新進未知詞之情緒為何。其需要為正負向情緒建立關聯特徵，在準確度方面也隨著機器學習演算法而改變。. Ch. engchi. 14. i n U. v.

(26) 立. 政治大. ‧ 國. 學. 圖 2.1：Overview of the predicting election approach [14]. ‧. Nat. sit. y. 最後，本研究在預測貼文政治傾向中，特徵將採用截取文字特徵與互動特徵一起. n. al. er. io. 訓練分類器。在文字特徵中含有意見探勘技術，將運用情緒字典統計貼文中所含情緒. i n U. v. 極性詞。而情緒字典的建立採用字典法，結合 NTUSD 正負向情緒詞與廣義知網正向. Ch. engchi. 與負向評價詞。互動特徵則包含臉書所提供之互動功能按讚、回應、分享。並利用資料探勘領域中 10 大演算法[16]，所提出的分類器實驗各項特徵所影響整體分類效果。. 15.

(27) 第三章研究方法本論文針對貼文做政治傾向預測，對此目的提出兩種預測模型，第一為以相異詞為特徵方法並搭配三種給予權重方式，第二為以文字特徵與互動特徵方法。本章節將詳細說明兩種方法之流程與探討兩者之差異。. 3.1 系統架構. 立. 政治大. 由圖 3.1 可知，建立預測粉絲專頁貼文政治傾向。首先，需先收集實驗資料集，透過. ‧ 國. 學. 臉書 Graph API 抓取政治相關資料，抓取的政治相關資料皆為公開的粉絲專頁資料並. ‧. 存入 Microsoft SQL Server，此資料庫存入之資料為按時間批次存入，其紀錄資料歷史. y. Nat. 時間之狀態，故在功能與定義導向資料倉儲型態。接著，將欲進行分析之國民黨與民. er. io. sit. 進黨貼文資料送入中研院 CKIP 斷詞器9，將其斷詞結果存入另一個屬於短暫處理時資料存放的資料庫 MySQL。本系統針對貼文政治傾向提出兩種預測模型，分別對兩種. al. n. v i n 模型做資料前處理。第一種預測模型利用貼文中字詞隱含共現關係，將所有貼文所出 Ch engchi U 現之相異詞做為特徵，並給予三種權重方法，分別為 BTO(Binary Term Occurrence)、. TF(Term Frequency)、TFIDF(Term Frequency–Inverse Document Frequency)，將其轉換成特徵向量餵入不同基底的分類器預測政治傾向。第二種預測模型透過擷取貼文文字特徵與互動特徵轉換為特徵向量，再由不同基底的分類器做貼文政治傾向預測。文字特徵部分為利用貼文中的文字計算黨派典型字與藍綠字典搭配情緒詞；互動特徵為此貼文的按讚、回應、分享、型態等。最後，對不同種類分類器與模型做準確度比較以評估各個特徵與分類器搭配之整體效能。. 9. ckipsvr.iis.sinica.edu.tw/ 16.

(28) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 3.1：系統架構圖. 17. v.

(29) 3.2 藍綠政黨代表粉絲專頁以臉書做為平台，為預測貼文之藍綠政治傾向，本研究選取國民黨與民進黨兩大黨派之代表貼文。如表 3.1 與 3.2 所示，貼文來源為政治傾向鮮明且無爭議之粉絲專頁。若選擇政治人物其政治傾向有模糊不清之問題，將會影響建立分類器之效能，故在挑選建立訓練資料集之政治人物之政治傾向需無爭議性。擷取政治人物範圍上至總統、黨主席、總統候選人、行政院長、縣市長，下至立法委員、議員等。而抓取粉絲專頁之. 政治大. 時間為該粉絲專頁創立以來至 2015 年的所有公開貼文。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 18. i n U. v.

(30) 表 3.1：範例國民黨政治人物粉絲專頁姓名. 職等. 國民黨派粉絲專頁. 馬英九. 總統. 洪秀柱. 總統候選人. 立. ‧. ‧ 國. 學. 連勝文. 政治大. 北市候選人. n. er. io. sit. y. Nat. al. 蔡正元. 立法委員. Ch. engchi. 19. i n U. v.

(31) 表 3.2：範例民進黨政治人物粉絲專頁姓名. 職等. 民進黨派粉絲專頁. 蔡英文總統候選人. 陳菊. 高雄市長. 立. ‧. ‧ 國. 學. 賴清德. 政治大. 台南市長. n. er. io. sit. y. Nat. al. 游錫堃前行政院長. Ch. engchi. 20. i n U. v.

(32) 3.3 資料前處理在文字訊息方面，應用資訊檢索領域中多項前處理技術，以利淨化資料與萃取出有利訓練分類器之資訊。如圖 3.2，預測資料前處理流程圖，以下小節將詳細解說。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 3.2：資料前處理流程圖. 21. v.

(33) 3.3.1 中文斷詞為擷取貼文相異詞需先進行文本斷詞。本論文選用中研院斷詞系統，其斷詞正確率可達 95%，並提供完整線上服務功能。所提供之詞庫與本研究所用政治相關貼文配合下斷詞準確度極高，尤其在人名擷取上也非常精準，眾多政治人物姓名與關鍵字皆可以被此系統正確斷出。將藍綠政治人物粉絲專頁以貼文為單位，透過中研院斷詞系統 API 將每一篇貼文. 治政大不到將在下一節自定義停止詞字典中刪除。立. 斷完後自動存入 MySQL 資料庫，其結果含有斷出的詞以及其詞性，在詞性部分使用. ‧ 國. 學. 3.3.2 去除停止詞. 透過斷詞系統取得文本中的詞後，在中英文本中皆含有停止詞(Stopword)，為了有. ‧. 效減少訓練模型時停止詞特徵影響模型準確度，本論文建立英文停止詞字典與中文停. y. Nat. n. al. 3.3.3 限制詞字數. Ch. engchi. er. io. 典之詞，將有效去除文本中所含有的停止詞。. sit. 止詞字典，加上自定義停止詞字典，共 6632 個詞。利用程式逐一比對文本與停止詞字. i n U. v. 在以相異詞為特徵方法中，為利用貼文文字共現關係探討藍綠特徵差異，由於相異詞數量龐大，若未限制相異詞字數，在訓練分類器時將會導致特徵數過多以至於部分分類器如 SVM 等，分類效果不佳。而在中文文字中，詞通常在字數大於 2 的情況下才會呈現出詞的意義。然而，若詞字數過多也可反映出斷詞不完整，如詞字數大於 5 之詞也往往能再將其拆解出更多詞。基於上述由分類器限制和中文文字意義角度，在以相異詞為特徵模型中，僅保留相異詞字數為 2 至 5 個字之詞當成分類特徵。. 22.

(34) 3.4 貼文政治傾向標註為預測貼文政治傾向，需先標註貼文所屬黨派以建立資料集標準類別，在[18]與多數預測政治傾向研究中標準類別皆透過人工標註，並以多數決決定標準類別，其在標註過程與標註結果往往存在許多問題。例如，在預測使用者政治傾向時，使用者在國民黨貼文回應中含有負面情緒詞，並不代表此使用者政治傾向不是國民黨，或許此使用者心中支持國民黨，反而利用負面情緒詞激勵自己所屬之政黨。然而，在上述例子中，. 治政大真實所屬類別，但這樣的作法又會大量耗費人力成本。立. 使用者所屬政治傾向便無法真正得知。除非將每位使用者做深度訪談，以建立使用者. 本論文採用預測貼文政治傾向，並無上述標準類別建立所存在的問題。而貼文之. ‧ 國. 學. 標準類別則為該貼文所屬粉絲專頁之政黨，無須透過人工標註，且無貼文真實類別的. ‧. 正確性問題。標註方法為，在蔡英文等六位民進黨粉絲專頁所發之貼文便給予綠標籤。. sit. y. Nat. 反之，馬英九等六位國民黨粉絲專頁所發之貼文便給予藍標籤。. n. al. er. io. 3.5 以相異詞為特徵之方法. i n U. v. 在探討文字意義與關係時，指標方面，可以利用詞頻(Term Frequency)統計各詞在文本. Ch. engchi. 中出現頻率。在跨文本情境中可以進一步探討詞在不同的文本中的共現關係，其定義為一詞在兩份文本以上共同出現，若跨文本中共現關係越強，則文本相似度則越高。除探討共現關係外，也可利用資訊檢索領域指標 TF-IDF，其為評估一詞彙在一份文本中的被辨別程度，亦為頻繁被使用來計算相似度與分類問題中的重要指標。根據上述跨文本情境以探討文字共現關係與文本相似性，遂利用藍綠貼文中所有相異詞作為訓練分類器特徵。而在此須建立貼文與相異詞之 TD(Term-Document) matrix，如表 3.3，列變量為藍綠粉絲專頁貼文，總數共 n 篇。行變量為貼文中出現知所有相異詞，總數為 k 個相異詞。在下個小節將說明中針對以相異詞為特徵方法中之. 23.

(35) 三種權重方式。. 表 3.3：TD-matrix word_1. word_2. word_3. word_4. …. word_5. word_k. post_1 post_2 post_3 post_4. 立. post_5. n. al. er. io. sit. y. Nat. 3.5.1 TF 權重法. ‧. ‧ 國. post_n. 學. …. 政治大. v. 在上述 TD-matrix 中需給予貼文與相異詞之對應數值，其稱為權重。詞頻(Term. Ch. engchi. i n U. Frequency)為統計各詞在文本中出現頻率。公式 3.1，假設 d 為文本，𝑛𝑖,𝑗 為該詞在文本 𝑑𝑗 中出現之次數，而分母∑𝑘 𝑛𝑘,𝑗 則為在文本𝑑𝑗 中所有詞之總和。. 𝑡𝑓𝑖,𝑗 = ∑. 𝑛𝑖,𝑗 𝑘. 𝑛𝑘,𝑗. 24. (3.1).

(36) 表 3.4：範例貼文 post_1. word_1, word_2, word_5, word_5, word_1, word_1. post_2. word_3, word_3. post_3. word_1, word_1, word_1, word_3. post_4. word_5, word_4, word_4, word_4, word_4, word_4. post_5. word_1, word_77, word_89, word_k. 0. 0. 0. 0. 1 4. 0. 0. 0. 5 6. 0. n. al. post_5. 1 4. 0. 0. 0. Ch 0 e n g c h0i. i n U. v. word_k 0 0. y. post_4. 1. 0. sit. 3 4. 0. 2 6. 1 6. 0. 0. 1 4. 0. 0. er. post_3. 0. …. ‧. 0. 0. 學. post_2. 1 6. io. 3 6. Nat. post_1. ‧ 國. word_1. 政治大表 3.5：TD-matrix 以詞頻為權重立 word_2 word_3 word_4 word_5. … post_n. 0. 0. 表 3.4 舉例說明貼文中詞在經過前處理後之出現情況。取 5 篇貼文，以及每篇貼文所含之詞。在不考慮貼文政黨傾向情況下，建立 TD-matrix，進一步使用 TF 權重法，統計貼文中所出現之詞次數，並除以貼文總詞數以得到單一文本中用詞使用比重，如表 3.5。此一方法著重在詞在單一文本中出現次數，例如在文本詞總數相同情況下. 25.

(37) word_1 在文本 post_3 中出現 3 次，而在 post_5 中出現 1 次，其權重比例便差了三倍。然而文本總詞數也能影響權重，例如 word_1 在文本 post_1 與 post_3 皆出現 3 次，但總詞數相異也讓兩者權重不同。透過此一特性探討詞在貼文中隱含共現關係與相似度訓練分類器，以分類貼文政治傾向。. 3.5.2 TF-IDF 權重法. 政治大. TF-IDF 為一種資訊檢索領域常用加權指標，在跨文本情境中利用統計方法評估一. 立. 詞在一文本中重要程度。IDF（Inverse Document Frequency）是一個詞重要性的度量。. ‧ 國. 學. 如公式 3.2，某一特定詞語的𝑖𝑑𝑓𝑖，可以由總文本數目除以包含該詞語之文本的數目，再將得到的商取對數。其中|D|為文本總數，|{𝑗 ∶ 𝑡𝑖 ∈ 𝑑𝑗 }|為包含詞語 t 𝑖 的文本數目，. ‧. 如果該詞語不在語料庫中，就會導致分母為零，因此一般情況下使用 1+|{𝑗 ∶ 𝑡𝑖 ∈ 𝑑𝑗 }|。. y. Nat. er. io. sit. 公式 3.3 利用公式 3.1 中𝑡𝑓𝑖,𝑗 乘𝑖𝑑𝑓𝑖 ，表達若一詞在單一文本中出現頻率極高，而在其他文本中出現頻率極低，則可說該詞在一文本中被辨識程度相當強，非常適合被用. al. n. 來做分類。. Ch. engchi. 𝑖𝑑𝑓𝑖 = log. |𝐷| |{𝑗 ∶ 𝑡𝑖 ∈ 𝑑𝑗 }|. i n U. v. (3.2). 𝑡𝑓𝑖𝑑𝑓𝑖,𝑗 = 𝑡𝑓𝑖,𝑗 × 𝑖𝑑𝑓𝑖 (3.3). 26.

(38) 以表 3.4 範例貼文為例，使用 TF-IDF 權重法得到表 3.6。在跨文本情境中利用跨文本指標 TF-IDF 統計出文本中適合用來當作分類之詞，該詞在單一文本中具有強烈辨識能力。如文本 post_4 中共出現 word_4 與 word_5，若想知道哪一個詞可以使得文 𝑛. 𝑛. 本 post_4 被辨識程度大。透過 IDF 統計 word_4 與 word_5 值各為log 1 與log 2，在這一指標中 word_5 因為共出現在 2 篇文本中，而 word_4 僅出現在 post_4 中，故 IDF 值 word_4 大於 word_5。接著將 IDF 值乘上詞頻指標，詞的重要性隨著它在文本中出現的次數成正比增加，故將詞出現次數加入權重，word_4 與 word_5 在 post_4 中詞頻依. 政治大序為與，最後 word_4 與 word_5 之 TF-IDF 值分別為，可以得到 word_4 為 post_4 中立 5. 1. 6. 6. ‧ 國. 學. 最具代表性之詞。以相異詞為特徵訓練分類器時在特徵中利用高 TF-IDF 值之 word_4 便可準確將 post_4 分類出來。呈如上述特性，以 TF-IDF 當成相異詞特徵權重，並以. Nat. y. ‧. 詞之辨識文本程度訓練分類，評估其分類效果。. word_4. 0. 0. n. al. word_3. word_5. …. word_k. er. word_2. io. word_1. sit. 表 3.6：TD-matrix 以 TF-IDF 為權重. i2v× log 𝑛 n 2 U 6. 3 𝑛 × log 6 3. 1 𝑛 × log 6 1. post_2. 0. 0. 1× log 2. 𝑛. 0. 0. 0. post_3. 3 𝑛 × log 4 3. 0. 1 𝑛 × log 4 2. 0. 0. 0. post_4. 0. 0. 0. post_5. 1 𝑛 × log 4 3. 0. 0. 0. 0. 1 𝑛 × log 3 1. 0. 0. 0. 0. 0. 0. post_1. Ch. engchi. 𝑛 5 𝑛 1 × log × log 2 6 1 6. 0. 0. … post_n. 27.

(39) 3.5.3 BTO 權重法從 BTO(Binary Term Occurrence)的角度給予 TD-matrix 權重，其不考慮詞出現次數，亦不考慮詞在跨文本中之表現，僅著重在詞的出現之有無。此一權重方式給予權重方法單純，若詞有出現在文本中，便給予 1，若無則給予 0。以表 3.4 為例，搭配 BTO 權重法，產出 TD-matrix 如表 3.7。在 TD-matrix 中，僅. 政治大例如 word_1 在文本 post_1 中出現 3 次與 word_1 在文本 post_5 中出現 1 次之權重皆相立. 儲存二元碼。利用詞出現與否探討詞共現關係，讓其在計算貼文相似度時顯得更寬鬆。. 性訓練分類器，以分類貼文政治傾向。. word_4. word_5. …. word_k. io. er. word_3. y. word_2. sit. Nat. word_1. 表 3.7：TD-matrix 以 BTO 為權重. ‧. ‧ 國. 學. 同為 1。而 word_1 出現在幾篇文本也將不影響每一文本之權重。故利用 BTO 此一特. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. post_1. 1. post_2. 0. 0. post_3. 1. 0. 1. post_4. 0. 0. post_5. 1. 0. 1. 0. n. al. Ch. 0. e1n g c h i0 U. v ni. … post_n. 28.

(40) 3.6 以文字特徵與互動特徵之方法為預測貼文政治傾向，上述以相異詞為特徵方法主要透過資訊檢索指標與機器學習客觀方法，以隱含字詞共現關係與文本相似度進行分類。反之，以貼文中文字特徵與互動特徵訓練分類器方法為主觀找出黨派間貼文相異特徵以進行分類。黨派貼文特徵中包含文字特徵與互動特徵，前者意旨貼文中文字所呈現黨派與情緒相關關鍵字，後者為貼文與粉絲專頁使用者互動情形，如按讚、回應、分享、貼文型態。下列小節將詳. 政治大. 細說明將文字特徵與互動特徵加以分析、萃取、統計、轉換後所得到之特徵用以訓練分類器。. 立. ‧ 國. 學. 3.6.1 文字特徵擷取. ‧. (一)、黨派典型字：由於不同黨派會有不同的用字遣詞，如：空心蔡多用於國民黨派. y. Nat. 使用者稱呼民進黨派蔡英文，而馬區長則是多用於民進黨派政治人物稱呼國民黨派馬. er. io. sit. 總統。基於以上考量，為擷取具有辨識藍綠兩黨貼文之關鍵字，本論文使用[13]所提出之方程式(3.4)，進行黨派典型字擷取。. n. al. Ch. e n g c|𝑤,𝑆 h i|. 𝑝𝑟𝑜𝑡𝑜(𝑤|𝑐𝑖 ) = ∑𝑛. i n U. 𝑖. 𝑗=1 |𝑤,𝑆𝑗 |. v. (3.4). 方程式(3.1)中，𝑛為類別總數，𝑆𝑖 為類別𝑐𝑖 之種子使用者(Seed users)集合，而 w 為至少被一名種子使用者所使用之字詞，|𝑤, 𝑆𝑖 |則是 w 被𝑐𝑖 中使用者所使用之總次數。根據 3.3 節先進行資料前處理，將中文斷詞後之結果去除停止詞與限制詞字數在 2 至 5 個字，並將保留下來之詞進行詞頻統計。如表 3.8，將藍綠貼文所保留下來之詞進行詞頻、文本頻率、藍營頻率、綠營頻率統計，透過藍營頻率與綠營頻率計算兩黨用 29.

(41) 詞比重。如表 3.9，小英這個詞在民進黨貼文中出現 353 次，在國民黨貼文中出現 53 次，當把所有詞兩黨比重算出後，利用實驗方式找出取詞頻前幾個詞當作關鍵字。將所有保留下來之詞進行上述範例之計算以建立國民黨與民進黨黨派典型字。. 表 3.8：藍綠貼文詞頻統計 TF 台灣. 10299 4630. 臺灣. 2105. 立. 1913. 8386. 政 793治 1343大. 762 3427. 希望. 5193. 3733. 1155. 4038. ‧ 國. 1262. 學. 2641. 使用頻率. 使用頻率. n. al. 191. Ch. 20. 231. 187. i n U. er. 251. 比重差異. y. 民進黨. sit. 國民黨. ‧. 表 3.9：藍綠黨派典型字範例. 總詞頻. 空心菜. green. 4689. io. 小英. blue. 政府. Nat. 詞. DF. 4. engchi. v. 代表黨派. 0.84063. 民進黨. 0.95811. 國民黨. 最後，利用藍綠黨派典型字除貼文總詞數建立以下 2 種特徵： (a) 貼文含國民黨黨派典型字之個數/貼文總詞數 (b) 貼文含民進黨黨派典型字之個數/貼文總詞數. (二)、藍綠人物字典貼文中可能含有藍綠政治人物名稱，其為一項重要辨別此貼文政治傾向之指標。若一貼文中僅含有國民黨政治人物，可以先清楚掌握貼文主要對象，搭配情緒極性詞統計，計算出此篇貼文情緒為正向或負向，便可推測出針對藍或綠政治人物之情緒表達正負. 30.

(42) 向。為達上述統計政治人物，須建立藍綠代表政治人物字典，黃弈綺[26]建立之政治人物社交網路，利用[26]所收集之資料建立藍綠字典，其收集政治人物資料主要取自中央選舉委員會之選舉公報資料。資料範圍取自民國 85 年至 101 年總統與副總統、立法委員、直轄市長、直轄市議員、縣市長及縣市議員選舉。所建立之藍綠字典如表 3.10。. 政治大民進黨. 表 3.10：政治人物字典國民黨. 1418. 學. 政治人物人數. 立. 760. ‧. ‧ 國. 政黨. 在經過 3.3 節資料前處理過後，利用藍綠字典統計所有貼文所含有之藍綠政治人. sit. y. Nat. 物，得到下列特徵為：. io. al. n. (b) 含民進黨政治人物字典數/貼文總詞數. Ch. (三)、情緒字典. engchi. er. (a) 含國民黨政治人物字典數/貼文總詞數. i n U. v. 貼文中隱含大量情緒極性詞，將這些情緒詞擷取與統計後，往往可以掌握貼文所帶有之正負向情緒。在掌握了貼文情緒後，搭配藍綠字典便可推敲出該貼文政治傾向屬於偏藍或偏綠。利用兩種版本之現有情緒字典，第一為 NTUSD[17]所提供之情緒正向與負向詞，第二為 HowNet[15]之正向評價詞與負向評價詞，其情緒詞數目如表 3.11。表 3.11：情緒字典 NTUSD 正向詞. 詞數量. 詞數量. 2810. HowNet 正向評價詞. 負向詞. 8277. 負向評價詞. 3116. 31. 3730.

(43) 利用情緒字典，在前處裡過後進行情緒詞統計，分開計算貼文中包含兩種情緒字典之情緒詞，為了比較兩種情緒字典應用在政治領域文字情境中，何者效果較佳。下列將轉換成 4 種特徵： (a) 貼文中含 NTUSD 正向情緒之數量/貼文總詞數 (b) 貼文中含 NTUSD 負向情緒之數量/貼文總詞數 (c) 貼文中含 HowNet 正向評價詞之數量/貼文總詞數 (d) 貼文中含 HowNet 負向評價詞之數量/貼文總詞數. 立. 政治大. 在文字特徵擷取中，將擷取出 10 種文字特徵，在第四章實驗方法與驗證中，. ‧ 國. 學. 將會按照特徵類別，分開做實驗與驗證，以評估各類文字特徵之分類政治貼文效果。. ‧. 3.6.2 互動特徵. y. Nat. er. io. sit. 3.6.2.1 互動特徵轉型. 在互動特徵結構中如按讚、回應、分享皆為離散數值，其數值範圍距離廣大如圖 3.2，. al. n. v i n Ch 訓練部分分類器時將會造成類別判斷困難。故使用四種統計方式將互動特徵中按讚、 engchi U. 回應、分享各自轉型，讓數值值域範圍縮小，以利分類器訓練。將以實驗探討四種方式與原始數值之影響分類幅度，以下將介紹四種轉型方式：. 1. 取對數：對原始按讚、回應、分享數值取對數，有效縮小數值範圍。. 2. 正規化(Normalization)：將原始按讚、回應、分享數值正規化，使之值域介於 0~1 之間。如公式 3.5，假設x = (x1, . . . , xn)共有 n 個數， 𝑧𝑖 為第 i 個正規化之數。. 𝑧𝑖 =. xi−min(x) 𝑚𝑎𝑥(x)−𝑚𝑖𝑛(x). 32. (3.5).

(44) 3. 標準化(Standardization)：數值標準化是為了消除不同屬性或樣本間的不齊性，使樣本內的值域縮小或是限制數據的取值範圍。假設μ為平均數，σ為變異數，令 x 集合的標準化為𝑧，則標準化如公式 3.6 。. 𝑧=. σ. (3.6). 治政相似度計算(Similarity)：將藍綠原始按讚、回應、分享數值分別取平均數，當成黨大立派代表數，並將所有貼文按讚、回應、分享數值個別與藍綠黨派代表數做相似度學. ‧ 國. 計算。其相似度將使用 Camberra distance[27]其定義如下公式 3.7，假設 p 與 q 皆. ‧. 為自然數，計算 p 與 q 之間的相似度，其為數值型計算相似度之演算法，相似度. io. sit. y. Nat. 值域將介於 0~1 之間。. n. al. 𝑑(𝑝, 𝑞) =. Ch. |𝑝−𝑞| |𝑝|+|𝑞|. engchi. er. 4. x−μ. i n U. v. (3.7). 圖 3.3：互動特徵值域散佈圖. 33.

(45) 3.6.2.2 互動特徵擷取 (一)、按讚(Like) 按讚為粉絲專頁成員與粉絲專頁互動的一種結構，當使用者喜歡這一篇貼文，便可向這個貼文按讚。然而，單純利用統計方法可以找出兩黨貼文按讚情形有所不同。 (a) 原始按讚數值 (b) 原始按讚數值取對數. 治政大原始按讚數值標準化立. (c) 原始按讚數值正規化 (d). (e) 計算原始按讚數值與藍平均數值相似度. ‧ 國. 學. (f). 計算原始按讚數值與綠平均數值相似度. ‧ y. Nat. (二)、回應(Comment). er. io. sit. 回應為粉絲專頁使用者針對貼文做回應，本論文不針對回應內容做分析，將每則貼文回應數量在此當成一分類特徵。. n. al. (a) 原始回應數值. (b) 原始回應數值取對數. Ch. engchi. i n U. v. (c) 原始回應數值正規化 (d) 原始回應數值標準化 (e) 計算原始回應數值與藍平均數值相似度 (f). 計算原始回應數值與綠平均數值相似度. (三)、分享(Share) 在臉書粉絲專頁中，當一使用者想將粉絲專頁貼文轉貼到自己塗鴉牆上時，便會. 34.

(46) 有分享行為。然而，分享過程中可以加註自己的想法在分享貼文上方，本論文不針對分享加註內容做分析，僅針對每則貼文分享數做分類特徵。 (a) 原始分享數值 (b) 原始分享數值取對數 (c) 原始分享數值正規化 (d) 原始分享數值標準化 (e) 計算原始分享數值與藍平均數值相似度 (f). 政治大. 計算原始分享數值與綠平均數值相似度. 立. ‧ 國. 學. (四)、型態(Type). 在臉書中每則貼文皆含有型態，貼文中共有四大型態，如表 3.12。在本研究中認. ‧. 為貼文型態為粉絲專頁經營者與粉絲專頁使用者之一種互動狀態，故將貼文型態納入. Nat. sit. y. 互動特徵擷取中，利用統計觀察到兩黨在發布的貼文中型態有所不同，將兩黨貼文型. n. al. er. io. 態做量化處理，得到一型態特徵。. i n U. C h表 3.12：貼文型態 engchi. Status. 貼文中僅含文字訊息狀態。. Photo. 貼文中含有照片檔案。. Video. 貼文中含有影片檔案。. Link. 貼文中含有連結檔。. v. 在互動特徵中共擷取 4 種特徵，而在文字特徵方面共擷取 10 種特徵，故在文字與互動特徵方法中，共得到 26 種特徵如下：. 35.

(47) (a) 貼文含國民黨黨派典型字之個數/貼文總詞數 (b) 貼文含民進黨黨派典型字之個數/貼文總詞數 (c) 含國民黨政治人物字典數/貼文總詞數 (d) 含民進黨政治人物字典數/貼文總詞數 (e) 貼文中含 NTUSD 正向情緒之數量/貼文總詞數 (f). 貼文中含 NTUSD 負向情緒之數量/貼文總詞數. (g) 貼文中含 HowNet 正向評價詞之數量/貼文總詞數. 政治大. (h) 貼文中含 HowNet 負向評價詞之數量/貼文總詞數. 立. (j). 原始按讚數值取對數. ‧ 國. 原始按讚數值. 學. (i). (k) 原始按讚數值正規化. ‧. (l). 原始按讚數值標準化. Nat. n. al. (o) 原始回應數值. Ch. (p) 原始回應數值取對數. engchi. 原始回應數值標準化. (s) 計算原始回應數值與藍平均數值相似度 (t). 計算原始回應數值與綠平均數值相似度. (u) 原始分享數值 (v) 原始分享數值取對數 (w) 原始分享數值正規化 (x) 原始分享數值標準化 36. sit. i n U. (q) 原始回應數值正規化 (r). er. io. (n) 計算原始按讚數值與綠平均數值相似度. y. (m) 計算原始按讚數值與藍平均數值相似度. v.

(48) (y) 計算原始分享數值與藍平均數值相似度 (z) 計算原始分享數值與綠平均數值相似度. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 37. i n U. v.

(49) 第四章實驗方法與驗證本章節將實驗與驗證兩種分類貼文政治傾向之模型，分別為以相異詞為特徵方法與文字、互動特徵方法。將會使用[16]中的分類演算法進行實驗，並針對不同分類演算法所預測出來之結果進行討論與比較。以下將詳細描述完整實驗流程與結果討論。. 4.1 實驗資料. 立. 政治大. ‧ 國. 學. 4.1.1 儲存格式. 本研究實驗資料為臉書粉絲專頁上之貼文，利用臉書 Graph API 將貼文抓取至 SQL. ‧. Server 資料庫儲存。由於實驗資料為設定時間以定時抓取方式儲存至資料庫，故資料. sit. y. Nat. 庫含有大量貼文歷史重複資料。為了能夠優化資料庫查詢效能，縮短查詢時間，故將. er. io. 貼文之儲存分為 post 與 post_text 兩個資料表。post 資料表 schema 如表 4.1 儲存貼文. al. v i n Ch 則儲存貼文文字訊息，由於臉書貼文訊息可能儲存在 e n g c h i U name 與 message 欄位中，依照 n. Id 與貼文相關互動結構，如按讚、回應、分享、型態、發布時間。post_text 如表 4.2. 粉絲專頁經營者習慣而有所不同，故將其分開儲存。. 表 4.1：post_text 資料表欄位名稱. type and size. 代表意義. [FanPageId]. [varchar](100). 粉絲團 id. [Id]. [varchar](100). 貼文 id. [Name]. [nvarchar](max). 貼文名稱. [Message]. [nvarchar](max). 貼文內容. 38.