• 沒有找到結果。

以資料探勘方法探究 FACEBOOK 政治人物粉絲專頁網民角色分析

N/A
N/A
Protected

Academic year: 2021

Share "以資料探勘方法探究 FACEBOOK 政治人物粉絲專頁網民角色分析"

Copied!
76
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學圖書資訊學研究所 碩士學位論文. 指導教授:謝 吉 隆 博士. 以資料探勘方法探究 FACEBOOK 政治人物粉絲專頁網民角色分析 An Analysis of Audiences’ Roles on Politicians’ Facebook Fan Pages using Data Mining. 研究生:許 庭 嫣 撰 中 華 民 國 一 ○ 六 年 八 月. I.

(2)

(3) 致謝 首先要謝謝家人從一開始我選擇唸碩士,到支持我一路完成。一路上接受 了許多人的幫忙,其中非常謝謝指導老師謝吉隆教授,帶我一腳踏進 python 的 世界中,也讓我在這三年瞭解了做研究的精神。但是研究真的很難做,寫論文 的期間不斷碰壁或是中途需要換方法,但這些也是非常寶貴的學習經驗。 另外我也很感謝實驗室的學長學姊跟同學們,從剛開始碩一對選題目跟讀 論文非常頭痛,還好有學長姐讓我們詢問與開導我們,同實驗室的同學們,莉 晴、詩萱跟宜芳,如果過程中沒有你們,那一路走來應該會孤獨許多。 碩士是我人生中自己為自己做得最大改變,從原本完全不同的華語教學領 域到寫程式分析 Facebook 粉絲專頁,論文中如有不盡之處,煩請見諒!. I.

(4) 摘要 本研究嘗試開發出一套可快速分析粉絲專頁中粉絲立場的系統。本論文以 三位政治人物粉絲專頁為例,透過 Facebook API 撈取粉絲留言,並建置支持與 不支持的詞彙列表,試圖快速地篩選出在一粉絲專頁中支持與不支持的留言粉 絲與其留言。建置詞彙列表的方法為,透過人工標記判斷一留言為支持或不支 持,並從該留言中擷取可作為詞彙列表的詞彙,評估方法為觀察準確率與召回 率之變化。本研究透過抽樣詞彙列表判斷的結過給予人工進行標記,以來判斷 該系統之品質。 實驗結果顯示,在支持方面,本研究所建立的詞彙庫能夠判斷出 97.57%的 朱立倫支持粉絲數,最少的是蔡英文粉絲團,僅能夠判斷出 67.41%的支持粉絲 數;在不支持粉絲數方面,則是蔡英文的最多,能夠偵測出 32.58%,僅能偵測 出朱立倫粉絲中的 2.43%為不支持粉絲。比起支持詞彙列表,不支持詞彙列表 的建置過程較為困難,原因為表達不支持的方式與詞彙較多,較不能如同支持 詞彙般明確且較為固定。另外,不支持的留言往往會運用反諷的方式,留言中 雖有支持的詞彙出現,但其語句意思實為不支持,因此提高了不支持詞彙列表 增建的困難度。最後,本研究依據研究結果進行討論和提出未來研究相關建 議。. 關鍵詞:Facebook 粉絲專頁、社群媒體、民眾留言行為、資料分析、資料探勘. II.

(5) Abstract This research aims to develop an agile system that can screen out the stands of fans who commented under the post of Facebook fanpage fast. The system contains data collection using Facebook API, data storage in MySQL and process of building supportive and non-supportive keyword lists. This research takes three politicians Facebook fanpages for example, by building up keyword lists from the result of annotation, we can quickly filter out the stands of fans and comments. This research uses recall and precision rate to evaluate the quality of keyword lists, and uses annotation to evaluate the quality of this system. The result shows that Chu’s supportive keyword lists performs the best, and Tsai’s supportive keyword lists is the opposite. But when it comes to non-supportive keyword lists, Tsai’s keyword list outstands than others. We can refer that the building process of non-supportive keyword list is much more difficult than building up a supportive one. The reasons are the use of ironic wording and the way to express nonsupportive stand varies. Advice is given for the reference of future studies.. Keyword: roles on Facebook fan page, roles on social media, text mining, data mining. III.

(6) 目錄 第一章. 緒論 .................................................................................................... 1. 第一節. 研究背景與動機 ............................................................................................ 1. 第二節. 研究目的與問題 ............................................................................................ 4. 第三節. 研究範圍與限制 ............................................................................................ 4. 第四節. 預期貢獻 ....................................................................................................... 5. 第二章. 文獻探討 ............................................................................................. 6. 第一節. Facebook 粉絲專頁 ....................................................................................... 6. 一、. Facebook 粉絲專頁特性 ..................................................................................... 6. 二、. Facebook 粉絲專頁使用者相關研究 .................................................................. 7. 第二節. 網路媒體回應行為 ........................................................................................ 9. 一、. 電子公佈欄 ....................................................................................................... 9. 二、. 社交媒體 ......................................................................................................... 11. 第三節 一、. 社群網站數據分析 ....................................................................................... 12 國外研究 ........................................................................................................... 14. (一). Facebook ....................................................................................................... 14. (二). OkCupid ......................................................................................................... 16. 二、. 國內研究 ........................................................................................................... 17. (一). QSearch ......................................................................................................... 17. (二). OpView .......................................................................................................... 18. 第三章. 研究方法與設計 ................................................................................ 19. 第一節. 研究方法 ..................................................................................................... 19. 一、. Facebook 圖形 API ............................................................................................ 19. 二、. Python2.7 .......................................................................................................... 21. 三、. Django ................................................................................................................ 21. 四、. MySQL ................................................................................................................ 22. 五、. Sqlite .................................................................................................................. 22. 第二節. 研究對象 ..................................................................................................... 23. 第三節. 系統流程與系統架構 .................................................................................. 26. 一、. 資料蒐集 ........................................................................................................... 26. 二、. 資料分析 ........................................................................................................... 28. (一). 列表建置 ....................................................................................................... 28. (二). 使用者資料庫建置 ....................................................................................... 37 I.

(7) 三、. 第四章. 成果評估 ........................................................................................................... 38. 研究結果 ........................................................................................... 45. 第一節. 語料庫判斷結果 .......................................................................................... 47. 一、. 第一類型錯誤 ................................................................................................... 48. 二、. 第二類型錯誤 ................................................................................................... 50. 第二節. 第三類型錯誤 .............................................................................................. 52. 第三節. 貼貼圖、圖片 .............................................................................................. 54. 第四節. 跨粉絲專頁比較 .......................................................................................... 55. 第五章. 結論與建議 ....................................................................................... 56. 第一節. 結論 ............................................................................................................. 56. 第二節. 未來建議 ..................................................................................................... 58. 參考文獻 .............................................................................................................. 60 附錄 ..................................................................................................................... 63.

(8) 圖次 圖 三-1 FACEBOOK GRAPH API 介面示意 .................................................................................................. 20 圖 三-2 MTV 架構示意 .......................................................................................................................... 22 圖 三-3 蔡英文每則貼文獲得留言數統計折線圖 .............................................................................. 24 圖 三-4 柯文哲每則貼文獲得留言數統計折線圖 .............................................................................. 25 圖 三-5 朱立倫每則貼文獲得留言數統計折線圖 .............................................................................. 25 圖 三-6 本研究的系統流程圖 .............................................................................................................. 26 圖 三-7 本研究 MYSQL 資料庫實體關聯模型 ..................................................................................... 27 圖 三-8 蔡英文支持詞彙列表之 PR 圖 ............................................................................................... 31 圖 三-9 蔡英文不支持詞彙列表之 PR 圖 ........................................................................................... 32 圖 三-10 柯文哲支持詞彙列表之 PR 圖 ............................................................................................. 33 圖 三-11 柯文哲不支持詞彙列表之 PR 圖 ......................................................................................... 33 圖 三-12 朱立倫支持詞彙列表之 PR 圖 ............................................................................................. 35 圖 三-13 朱立倫不支持詞彙列表之 PR 圖 ......................................................................................... 35 圖 三-14 本研究之系統架構圖 ............................................................................................................ 38 圖 三-15 受試者標記網站架構 ............................................................................................................ 41 圖 三-16 受試者標記網站登入畫面 .................................................................................................... 42 圖 三-17 受試者標記網站首頁 ............................................................................................................ 42 圖 三-18 受試者標記網站標記頁面 .................................................................................................... 43 圖 三-19 受試者標記網站歷史已標頁面 ............................................................................................ 44 圖 三-20 受試者標記網站登出頁面 .................................................................................................... 44 圖 四-1 柯文哲每日留言總數圖 .......................................................................................................... 46 圖 四-2 朱立倫每日留言總數圖 .......................................................................................................... 46 圖 四-3 蔡英文每日留言總數圖 .......................................................................................................... 47. VI.

(9) 表次 表 三-1 本研究撈取項目與屬性列表 .................................................................................................. 20 表 三-2 各個政治人物粉絲專頁頁面 ID、粉絲數與所屬黨派 ........................................................... 23 表 三-3 各個粉絲專頁之貼文、留言與平均留言數 .......................................................................... 24 表 三-4 抓取貼文存進資料庫之資料欄位設定 .................................................................................. 27 表 三-5 抓取留言存進資料庫之資料欄位設定 .................................................................................. 28 表 三-6 使用者標記各個粉絲專頁之貼文結果 .................................................................................. 29 表 三-7 各粉絲頁面支持與不支持語料庫數量 .................................................................................. 30 表 三-8 蔡英文支持與不支持詞彙列表增加梯次與其準確率與召回率 ........................................... 31 表 三-9 柯文哲支持與不支持詞彙列表增加梯次與其準確率與召回率 .......................................... 32 表 三-10 朱立倫支持與不支持詞彙列表增加梯次與其準確率與召回率 ........................................ 34 表 三-11 支持與不支持語料庫詞彙舉例 ............................................................................................ 36 表 三-12 使用者資料庫資料欄位與種類 ............................................................................................ 37 表 三-13 第二、三、四階段受試者資料 ............................................................................................ 41 表 四-1 粉絲專頁與其總留言數、總粉絲數與留言多於一次之留言數、留言多於一次之粉絲數45 表 四-2 各政治人物粉絲頁面語料庫判斷結果 .................................................................................. 47 表 四-3 各政治人物粉絲頁面第一類型與第二類型錯誤 ................................................................... 48 表 四-4 蔡英文第一類型錯誤的留言中出現在支持與不支持語料庫之次數 .................................. 48 表 四-5 柯文哲第一類型錯誤的留言中出現在支持與不支持語料庫之次數 .................................. 49 表 四-6 柯文哲第一類型錯誤的留言中出現在支持與不支持語料庫之次數 .................................. 50 表 四-7 各粉絲頁第二類型錯誤支持、不支持與無法判斷統計(單位:人) ............................... 51 表 四-8 語料庫判斷支持與不支持數目、第二類型錯誤判斷支持與不支持數目與留言中支持的粉 絲數數目(單位:人) .............................................................................................................. 51 表 四-9 各政治人物粉絲頁面與可偵測之留言支持與不支持粉絲數目與百分比 ........................... 52 表 四-10 支持語料庫判斷各政治人物粉絲頁面與受試者標記知結果 ............................................. 53 表 四-11 不支持語料庫判斷各政治人物粉絲頁面與受試者標記知結果 ......................................... 53 表 四-12 各政治人物粉絲頁面只留貼圖或圖片人數與同時留過文字與貼圖、圖片使用者數目 . 54 表 四-13 蔡英文與朱立倫粉絲專頁粉絲重複立場與數量 ................................................................ 55. VII.

(10) 第一章 緒論. 第一節 研究背景與動機 隨著社交網絡平台(Social Networking Site, SNS)的興起,越來越多民眾使用 社交網絡平台進行資訊瀏覽與發表言論(Fuchs et al., 2013),因此,社交網絡 平台就成了存在豐富個體資訊、社會現象(Fuchs, 2010),適合進行社會監督 (social surveillance)的場域(Trottier & Lyon, 2012)。因為在社交網絡平台上有 越來越多的使用者,越來越多產業透過社交網絡平台進行行銷宣傳(Fuchs et al., 2013),例如成立 Twitter 帳號或是設立 Facebook 粉絲專頁(Williamson & Debra A, 2011),又 Facebook 上的使用者日建眾多,根據數位時代在 2016 年 7 月的報導,Facebook 的月活躍用戶已達 1800 萬人,由此可知,在台灣民眾經常 且習慣使用 Facebook 作為社交工具。 許多團體或個人借力於社群媒體廣大的觸及率與擴散快速的特點,進行訊息 推播與擴散,政治人物也不例外。但如何知道接收到訊息的對象與欲推播的對 象是否一致?如為一致,如何用更貼近這群推播對象的推播方法或調整訊息的 文字內容,達到更高的效益?透過監督(Surveillance),可以從這些粉絲專頁 中觀察到的社交網路的蹤跡,例如留言、按讚等等,除了可以讓我們更了解是 哪一些人會在這個粉絲專頁上活動,更可以了解這些人在使用社交網絡平台 時,分別會有什麼特性或習慣。因此,本研究欲以 Facebook 為研究對象,產生 一個可以進行快速評估粉絲專頁內留言民眾角色的系統機制,以快速了解一粉 絲專頁之民眾留言組成。 1.

(11) 監督在簡明牛津英文字典的定義為「仔細地觀察一位嫌疑人」。但隨著科技 的發展,有學者提出新監督的定義,其為透過各種科技的方法去萃取或創造個 人的資料,並更注重在關係上的模式(Marx, 2002),例如 Facebook 會利用其用 戶的資料或是用戶自行創造之資料,例如點擊「讚」、加入某粉絲團等等的資 訊,進行判斷要投放給該使用者什麼樣的廣告或貼文(Andrejevic, 2012)。除了 Facebook 官方可自行獲取資料外,研究者也可透過使用 Facebook Graph API 進行 資料的撈取,因此易於進行社會監督。 而在眾多粉絲專頁中,政治人物的粉絲專頁會受到粉絲長期的關注,且台灣 的政治人物擅長使用社群媒體進行傳播(王泰俐,2013)。由於在粉絲專頁 中,經營粉絲頁面的經營者可與「粉絲」進行直接的溝通,「粉絲」也可以透 過這種管道直接地與粉絲專頁的經營者溝通,例如,由於 Facebook 粉絲專頁必 須設為公開頁面,任何人只要登入 Facebook 即可直接在粉絲專頁的貼文留下評 論(comment)、直接與貼文或是其他留下評論的民眾進行即時互動,或是使用 表達情意(reactions)的功能,給予以下情緒的按鈕:讚(Like)、喜歡 (Love)、哈哈(Haha)、驚訝(Wow)、傷心(Sad)、生氣(Angry)等 等。因此,政治人物的粉絲專頁中蘊藏著大量且長期的使用者互動的資料。 過去將 Facebook 粉絲專頁作為研究對象的研究,主要是透過語意分析探討貼 文與民眾留言之間的關係(Groshek & Al-Rawi, 2013),雖然在各領域中,舉凡 電子商務(Cvijikj & Michahelles,2013;Zheng,2015)、人物(王泰俐,2013; Gustafsson, 2012;Vitak et al., 2011)或是傳播媒介(Hille & Bakker, 2014; Ju, 2014) 皆設有粉絲專頁,也有許多研究探討民眾在這些粉絲頁面上的行為與品牌忠誠 度、真實世界中的行為或是留言品質的關聯,但除了利用按讚、分享及留言次. 2.

(12) 數與問卷法來測量外,雖然可以看得出來一粉絲的參與度,但卻不知道其立場 為何,更無法將民眾做跨粉絲專頁的比較。 而過去關於探討監督的論文,其研究對象有電子資料庫、網路資料庫與社群 媒體網站(Trottier & Lyon, 2012)。針對社群媒體網站作為研究對象的研究,其 主要目的是探討在社群網站上進行監督,對使用者所帶來的影響,其方法為訪 談法(Trottier, 2012),透過訪談的方式試圖找出在社群媒體上進行監督所可能 會產生的行為模式的改變、隱憂與使用者如何有意識地保護自己的資料。近年 來監督在社群網路上的應用與關注逐漸提高,其中之一的原因為人們的社交生 活因為社群網路而變得透明化,其應用的方法可以為一種社會監控的方式,另 一種應用為確保用戶的使用環境安全(Trottier, 2012)。在進行社會監控方面, Flaherty(1988)認為,資訊社會即為監控社會,構成監控社會的基礎為許多自 動存儲個體資訊的資料庫,例如瑞典即為一例子。Barnes(2006)則針對美國透 過社群媒體進行社會監控進行研究,發現美國的青少年很容易在沒有察覺的情 況下就把自己的資料給與政府,成年人則會對在社群媒體中的隱私問題較為警 覺。該研究最後提出了三種方法以確保用戶的使用安全,一為透過社會出發的 方法,即為積極透過社會介入教育使用社群網路時的隱私觀念;其二為從科技 出發的方法,即為從社群網路公司的的觀點出發,與跟青少年健康或是問題的 相關單位合作,或是透過推播對青少年有益的資訊或功能設計,透過監控的方 式確保用戶的身心安全狀態;其三為從法規出發的方法,透過建立完善的法 規,規範在進行利用社群媒體監控時的相關責任與權責。 因此本研究透過量化的方式,試圖建立出一個可以快速對一粉絲專頁進行留 言民眾角色的系統,方法為透過分析民眾的留言去判斷在粉絲專頁中有哪些角 色,評估 Facebook 粉絲專頁是否具有多元的角色。 3.

(13) 第二節 研究目的與問題 本研究旨在透過資料探勘技術,建立一個快速分析粉絲專頁網民角色的系 統,用以評估粉絲專頁之組成成分,以政治人物的粉絲專頁為例。具體而言, 本研究目的如下: 1. 建立一個從資料蒐集、資料清理、資料儲存及詞彙列表建立到判斷一粉 絲專頁留言民眾組成分析的系統,了解留言民眾角色組成差別及其角色 特性。 2. 評估該系統之判斷結果,透過分析不同粉絲專頁,觀察其中是否有跨粉 絲專頁進行留言的留言者,並判斷其角色是否一致。. 依據上述研究目的,衍生出了以下研究問題: 1. Facebook 政治人物粉絲專頁中,從 2016 年 1 月 1 日至 2017 年 1 月 31 日,民眾留言部份各有哪些角色及其角色特性為何? 2. 網民角色在個別粉絲專頁中及跨粉絲專頁中立場是否一致?. 第三節 研究範圍與限制 本研究為對 Facebook 政治人物粉絲專頁 2016 年 1 月 1 日至 2017 年 1 月 31 日 之貼文的民眾留言進行分析,並區分民眾的角色,判斷在政治人物粉絲專頁 中,民眾的角色為何。其研究限制如下:. 4.

(14) 1.. 由於本研究利用資料探勘技術對留言行為進行分析,因此留言內容如為 Facebook 貼圖或圖片,其圖像內容所表達的意義將不納入分析素材中,但 使用者之留言次數與留言內容為貼圖次數屬於本論文的分析素材。. 2.. 由於本研究為挑選特定政治人物之粉絲頁面進行資料擷取,因此研究結果 無法推論到相同立場的政治人物粉絲專頁與不在這個時段中的貼文。. 3.. 本論文抓取留言的限制為 2000 則,因此研究結果無法完全代表粉絲專頁的 實際狀況。. 第四節 預期貢獻 本研究試圖建立一套快速分析的系統,分析 Facebook 粉絲專頁中的留言,找 出不同民眾在此粉絲團中擔任的角色。以下將由粉絲專頁經營者與研究粉絲專 頁的研究者的角度出發討論。 從經營 Facebook 的角度而言,透過分析 Facebook 粉絲團中顯而易見、人人皆 可取得的相關數據,本研究可提供除了 Facebook 洞察報告以外的衡量粉絲團經 營品質的指標。 從研究 Facebook 粉絲頁的角度來看,本研究試圖建立一個系統,透過快速分 析由粉絲團中實際取得之資料,判斷與區別不同的角色特色。此研究方法透過 建立詞彙列表的方式,快速地進行角色判斷,可協助進行自然語言處理之研究 者初步篩去些許立場顯而易見的語料,減輕人工標記的負擔。. 5.

(15) 第二章 文獻探討 本研究觀察的對象為 Facebook 政治人物粉絲專頁中的民眾留言,因此第一節 先就 Facebook 粉絲專頁中的機制與跟政治人物粉絲專頁相關研究做介紹,第二 節為深入了解民眾在網路媒體上的留言行為與演變,第三節為對國內外進行社 群網站數據分析之平台與機構之研究做介紹,最後一節為整理對社群媒體使用 者分類的相關研究。. 第一節. 一、. Facebook 粉絲專頁. Facebook 粉絲專頁特性. Facebook 在 2007 年時推出「粉絲專頁(Page)」的服務,不同於個人頁 面,Facebook 粉絲專頁是一個公開的資訊頁面,商家、組織或是個人都可以依 照自身的類別設立粉絲專頁。根據 Facebook 粉絲專頁設立的說明,透過將關於 店家的詳細資訊與最新消息更新到頁面上,就可以讓機構組織達到維護現有使 用者並發掘潛在使用者的目的;亦可以透過指定使用者之特徵,例如居住地、 興趣與年齡,針對特定族群進行活動推廣或是行銷。 Facebook 粉絲專頁為一個具有即時性與公開性的平台,Facebook 的使用 者,不管是此粉絲專頁之粉絲與否,皆可到粉絲專頁上進行瀏覽或是留言。不 同於在 Web2.0 以前,民眾幾乎無法向新聞媒體表達自己的意見,只能進行由媒 體到民眾的由上到下的單向的溝通。而 Facebook 粉絲專頁提供了雙向的訊息與. 6.

(16) 意見傳遞管道(Quandt, 2011),民眾只要登入了 Facebook,就可以自由地瀏覽 與回覆。 另外,Facebook 也是透過社交圈之間的分享,建立一個讓使用者較為信任 的空間。因此,透過 Facebook 粉絲專頁進行形象塑造與傳播,除了可以將欲推 廣之資訊或是內容推播到更廣大的族群外,更可以透過 Facebook 粉絲專頁雙向 互動的特性,建立與 Facebook 使用者的信任。. 二、. Facebook 粉絲專頁使用者相關研究. 自從 Facebook 粉絲專頁於 2007 年創立以來,由於其所跨足的產業相當多 元,因此以其做為研究對象的論文越來越多,例如在商業領域,舉凡以電子商 務、品牌的粉絲專頁作為研究對象;在傳播領域,舉凡以報紙、媒體平台等的 粉絲專頁作為研究對象;在人物方面,舉凡以藝人、政治人物等的粉絲專頁作 為研究對象。 在電子商務、品牌粉絲專頁研究中,多半的研究為以行銷為主,探討在粉 絲專頁中粉絲對品牌的忠誠度與粉絲在粉絲專頁中參與度的關係(Cvijikj & Michahelles,2013;Zheng,2015),其參與度(participation)為個體在以品牌為主的社 群媒體中參與及提倡的行為(Zheng,2015),其中一個測量的方法為計算按讚、 分享、留言次數與互動持續時間的長度(Cvijikj & Michahelles,2013),另一種計算 方法為用問卷測量。其研究結果發現,如貼文的內容種類為娛樂性質較高的貼 文會有較多的按讚數、分享數、留言次數與互動時間較長,例如貼文內容為影 片、照片,其粉絲的參與度會較高(Cvijikj & Michahelles,2013);另一篇研究指. 7.

(17) 出,如粉絲可以從貼文中得到利益,則粉絲的參與度會提高,但為獲得利益的 過程中所造成的花費則不會影響使用者的參與度(Zheng,2015)。 在傳播領域,如報紙與媒體的粉絲專頁的研究中,大部分在探討與評估新 聞媒體的 Facebook 粉絲專頁的效益。Hille & Bakker(2014)評估了在新聞媒體 網站與粉絲專頁上民眾留言的質量與數量,探討使用 Facebook 登入的具名留 言方式與直接在新聞網站中的匿名留言方式的差異。而隨著越來越多新聞媒體 會用社群媒體傳遞內容訊息,Ju 等人(2014)同樣也評估了社群媒體在新聞傳 播界中扮演的角色與效益。Thomas Baekdal,設計雜誌 42concepts 與新媒體雜 誌 baekdal 的創辦人,就曾說到,將網站的留言系統從 Disqus 改為以 Facebook 登入的方式,其留言數量增加了 800%。關於民眾評論角色部分,Hille & Bakker (2014)辨認出了有一種使用者會回覆不與貼文議題相關的內容,例如回覆貼 文中的拼字錯誤。 對於研究 Facebook 政治人物粉絲專頁相關的研究則較少(Johnson & Perlmutter, 2010),其主要研究目的多半為觀察線上行為與線下行為之間的關係 (王泰俐,2013;Gustafsson, 2012;Vitak et al., 2011)或是研究使用者在 Facebook 中的留言內容(Halpern & Gibbs, 2013)。關於研究線上行為與線下行 為之間的關係的論文,其想要了解在社群網站上參與與政治相關團體或是活 動,是否會影響到使用者在真實世界中的投票行為或是政治參與的行為。其分 析方法為焦點團體訪談(Gustafsson, 2012)與問卷法(Vitak et al., 2011;王泰 俐,2013),獲取使用者在線上與線下的使用習慣,並沒有使用到在社群網站 中使用者所留下的數據。. 8.

(18) 而分析使用者留言內容的研究,其研究目的為則是用到了人工編碼,觀察 使用者在社群媒體上的意見達成一致的過程是如何形成的(Halpern & Gibbs, 2013);運用內容分析法去觀察。. 第二節. 網路媒體回應行為. 關於回應行為,過去研究(劉于瑄,2011)分為口語回應與文字回應兩類。 口語回應為電視或電台的 call-in,文字回應則為讀者投書、部落格、新聞網站 及社群媒體上的留言。而本研究是根據民眾在社群媒體上回應行為進行角色分 析,因此著重在文字回應部分的文獻探討。 現今網路的發達,民眾可以在媒體提供新聞資訊的空間中匿名地自由發表言 論,相較於以往不受「守門人(gatekeeper)」的限制,這種線上的留言是未經 編輯過的、即興地、具有攻擊意味的,甚至是衝動的言論(Reich,. 2011)。本. 節將回顧從網際網路發明以來,網路媒體回應行為的主要形式,將分別介紹電 子公佈欄(Bulletin Board)、部落格與社交媒體。. 一、. 電子公佈欄. 最早具有網路回應功能的平台為電子公佈欄(Bulletin Board System, BBS),由於平價電腦、大型網絡系統與便於取得的溝通渠道的出現,電子公 佈欄越來越流行,其提供了張貼訊息的功能,且此功能可讓較多的民眾閱讀, 並做出即時的回饋(James et al., 1995)。相較於以往媒體具有「守門人」的機 制,電子公佈欄模仿了在真實世界中公佈欄的功能,讓所有人都可以自由地張. 9.

(19) 貼與閱讀公佈欄上的消息,但電子公佈欄為不為實名制,一位民眾可以有一組 到多組帳號,進行貼文或是留言的發布。電子佈告欄中會依不同的主題開設不 同的版面,民眾可以根據在面板中的其他人的貼文進行留言。民眾留言的排序 方式是按照時間來遞減排序,由發佈時間晚的留言排序到發布時間早的留言在 台灣,電子公佈欄並沒有隨著科技的推移而被淘汰,人數反增不減(李紹良, 2011)。台灣最大型,且更為全世界最大的電子公佈欄即為「ppt 實業工坊」, 由臺灣大學電子布告欄系統研究社進行維護。目前累計約有 150 萬人的註冊使 用者,其資訊與資料量也相當龐大,有超過 2 萬個不同主題的看板與每日超過 2 萬篇新文章及 50 萬則推文被發表。而其回應形式為留言者需引用作者的文章 或留言,並指明發言者(劉于瑄,2011)。回應共有三種方式,分別為推文、 虛文與無意間,且發文內容具有字數限制,為三行間有 20 個字。 蔡昇峰(2008)針對電子公佈欄在台灣依舊盛行的現象進行研究,發現電 子公佈欄上具有龐大的資訊量,且也有許多為第一手的資訊,較為信賴可靠。 對於其眾多的使用者與每日龐大的資訊量,有研究者針對其「匿名性」對 於發布文章與留言的意願是否有影響進行研究(陳尚群,2011)。該研究者認 為,由於匿名的特性,所以成員不需負擔如同實名制(例如,Facebook)的言 論責任,因此可以更促進社群中的討論,並具有較多的貼文與回覆數量。但研 究結果卻顯示,「匿名性」對於民眾想要發布文中的意願不會造成影響,因此 此研究者推測,「匿名制」已不成為現今民眾參與一個網路社群最主要的原 因。其他針對電子公佈欄進行民眾留言行為的分析,則為對女性主義連線版進 行貼文主題分類與言說分析,探討在電子公佈欄中貼文與回應的運作形式(方 念萱、蘇彥豪,1998),其研究結果,針對議題與留言的部分,作者提到由於 與以往具有守門員制度的媒體不同,因此議題的呈現較無邏輯可言;就留言部 10.

(20) 分而言,作者觀察到有些文章的留言長度較長,討論時間甚至可以持續幾週以 上,有些文章卻沒有留言。其認為這些在文章中出現的社會議題是被建構出來 的,引用了 Hilgartner 與 Bosk(1988)所提出的「公共場域模式(Public Areana Model)」來解釋這個現象,認為公眾的關注是一個稀少的資源,各種社會議題 必須要相互競爭、排擠才能獲得關注。因此,獲得較多討論的文章獲得了更多 的關注,而獲得較少討論的文章則得到更少的關注。. 二、. 社交媒體. 關於社交媒體的回應方式,以下列舉由 statista.com 針對 2016 年 7 月所進行 的全球社交網絡每月活躍使用者調查中,具有社群媒體功能的平台,分別為使 用量排名第一的 Facebook(1650 百萬人)、排名第六的 Instagram(500 百萬 人)與排名第七的 Twitter(310 百萬人)。而本研究非研究與圖片相關之議 題,因此以下只介紹 Facebook 與 Twitter 的回應方式。當人們使用 Twitter 或是 Facebook 時,其所想要達到的目的並不相同,因此這兩種社群媒體的功能也不 盡相同。Facebook 較像是一個可以讓大家相互進行討論的場域;而 Twitter 因其 有字數限制,所以較常作為一個發布訊息的場域。 民眾在 Facebook 中可以透過數種不同方式與他人、媒體或者其他粉絲頁進 行互動。使用者可以針對一粉絲頁的貼文進行各種不同的回饋,像是前述所提 之留言與點選「喜怒哀樂驚」之情緒表達按鈕。除了使用者本身可以給與回 饋,也可以看到其他使用者對於這篇文章所給予的回饋。但情緒表達功能只可 針對粉絲團的貼文選按,對於其他使用者的留言還是只能點選「讚」的功能。 至於 Twitter,相較於 Facebook 在貼文上沒有文字字數的限制,Twitter 有 140 字. 11.

(21) 的限制,且所有的推特(tweet)必須設為公開。當民眾在瀏覽時,可以選擇回 覆及點選「喜歡」。回覆的功能為直接回覆給發文者,其回覆內容不會張貼於 自己的 Twitter 版上,也不會出現在對方的版上;喜歡的功能就如同 Facebook 的 「讚」的功能一樣,但是無法看到有哪些人喜歡這篇文章。因此,相較於 Twitter,在 Facebook 上的資訊較為顯而易見,一個人對於某個粉絲專頁的喜好 可由其留言內容中察覺出來,甚至可以利用該使用者留言的內容,建構出該使 用者完整的輪廓。因此,透過撈取 Facebook 粉絲專頁的資料,比起 Twitter 更可 以完整地了解使用者的喜好與輪廓。. 第三節. 社群網站數據分析. 近年來有各種社群網站開始透過分析使用者的資料,更了解使用者的需求 與輪廓,以便提供更好的服務與功能。在過去,當研究者想要了解人們的想法 時,不外乎是透過訪談、填問卷或是觀察法,但這卻牽涉到研究者的主觀思 維,研究者與研究者間少有一個固定的評量標準。而現今社群網站除了提供人 與人,甚至人與團體、團體與團體之間的溝通互動外,亦能打破傳統的階級制 度,提供另一項溝通管道,使民眾得以與政府官員或是明星藝人等的粉絲頁面 直接溝通、表達想法。另外,使用者還可以透過各種給分評等或是回饋功能, 讓使用者的想法可以轉變為數字或是文字 ,讓研究者得以從新的觀點與視野進 行研究(Lazer et al. 2009;Rudder, 2014;Bond and Messing, 2015)。例如線上交 友網站 OkCupid 透過讓男女對彼此的外表評分,用來判定男女彼此覺得對方的 長相如何;Facebook 則是透過情緒表達功能,讓使用者可以表達六種不同的情 緒—哈哈(Haha)、憤怒(Angry)、難過(Sad)、驚訝(Wow)、喜愛. 12.

(22) (Love)、讚(Like)。另外,傳統訪談、問卷或是觀察法, 難保受試者的回 答不受社會期望所影響,盡而使受試者根據社會期望回答問題,造成研究者所 蒐集到的數據具有社會期望偏誤(social desirability bias)(Rudder, 2014)。例 如 Bond and Messing(2015)曾提到,由傳統問卷方式來蒐集人們的政治意識是 非常不可信的數據,因為自由派的人通常會不太願意表明自己是自由派 。又例 如,在「我們是誰?大數據下的人類行為觀察」中,作者也提到,當人們回答 關於一些爭議的議題時,例如種族、性行為、吸毒時,人們通常不會按照自己 的想法回答(Rudder, 2014)。但是在這些社群媒體中,由於網路具有利於溝通 的特色-- 異步性、匿名性、逃避現實、沒有中央權威(Rudder, 2014),因此使 用者可以依照自己真實的想法跟喜好表達對人、事及物的看法與意見。 相較於過往由民調中獲得之資料為在短時間內抽樣多人之橫斷性資料 (cross-sectional data),由社群網站中所獲得之資料為縱貫性資料(longitudinal data),意即長時間觀察同一對象所得到的資料。相較於橫斷性資料,縱貫性資 料可將時間列為變項之一,並可觀察一現象的隨著時間的改變。另外,縱貫性 資料可將「時間」列為變數之一,適合觀察一件事件的長時間的變化,並能透 過過去資料預測未來(吳齊殷、張明宜、陳怡蒨,2008)。 基於以上兩項相較於傳統民調的優點,透過蒐集這些數據並根據研究問題 分析,可以讓研究結果在更迅速、更準確地反應人們真實的想法。數據分析在 近年來蔚為流行,以下分為兩個小節,分別介紹國內與國外關於社群網站數據 分析的機構或平台。. 13.

(23) 一、. 國外研究. (一) Facebook Facebook 為最廣泛被人們使用的社群媒體平台,尤其在美國,在 2016 年, 約八成的上網人數擁有 Facebook 帳號,其中,在美國約有 86%的人會使用網路 (Pew Research, 2016)。換句話說,Facebook 幾乎能大約呈現全美的人口樣 貌。因此,在 Facebook 上做數據分析,就幾乎等同於對全美人口做抽樣分析, 且比起對全美人口做抽樣分析,又來得更省時、全面且低成本。 關於 Facebook 團隊做過的研究,除了可以用來驗證過往缺乏大量樣本實證 的理論外,還可以用來觀察在社群媒體上資訊的轉變(Adamic et al., 2016)現 象。由於社群媒體可以快速地傳遞資訊,但資訊在傳播的過程中,往往缺乏前 後一致性,較晚被人們傳播的資訊可能與剛開始傳播的版本不同,造成此種情 況的原因為各種不同理念的人。是與人口分布的變異息息相關的 ,出現不同版 本的資訊代表有存在不同理念的人口存在。例如 Facebook 針對文化模因 (meme)演變,做出針對由「沒有人應該為…而死。」所組成之動態與不同政 治傾向的使用者會分享哪一種不同版本的文化模因語句研究。Facebook 蒐集了 由 2009 年 4 月進行至 2011 年 10 月,共 18 個月的人們的動態貼文資料,探討 文化模因的演變。雖然 2009 年 4 月的時候,Facebook 還沒推出「分享」的功 能,使用者卻也因此可以透過逐字輸入或是整段複製,將這些句子貼在自己的 牆上。文化模因與人口的族群成分組成,有兩個類似的元素,分別為複製與變 異,意即,理念、想法相同的人們會透過複製來傳遞訊息;有著不同理念與想 法的人們會透過改變原本的訊息,再去傳遞。而在重新打入或複製的過程中, 14.

(24) 可能會出現不小心的拼字錯誤,或是有意的改寫。這麼一來,透過抓取到的資 料,可以觀察到使用者複製與貼上的過程,也可以觀察到分享出去的文字是否 被無意或是有意地修改過。從最一開始的版本是支持歐巴馬的健保政策的語句 「沒有人應該要因為付不起健康保險而死;沒有人應該要因為生病而破產。如 果你同意,請你在今天之內在你的動態上貼出這則貼文。」 發展到最後,出現 了反對歐巴馬健保政策的版本,例如「沒有人應該要因為政府徵收的稅而破 產」。總共出現了 4087 種版本,且每一種版本至少有 100 次以上的複製量。透 過擷取使用者在自己檔案上所呈現的政治傾向,將出現前 100 名的政黨進行由2 至 2(-2 代表偏向自由派,2 代表偏向保守派)的政治光譜標記,再將此標記 對照到所分享出的文化模因語句,就可判斷出不同政治傾向的使用者會傳播什 麼版本的文化模因語句。 關於驗證以往缺乏大量樣本實證的理論,Facebook 在 2014 年針對使用者所 看到的即時動態更新(News Feed)內容的正負向情緒,分析是否會產生情緒感 染(emotional contagion)(Kramer, Guillory, 2014)。由於情緒感染過去缺乏大 樣本的實證支持,縱使 Fowler and Christakis 在 2008 年發表的一篇論文中使用了 12067 位使用者的資料,時間橫跨了 20 年之久,但其結果卻被認為是有爭議的 (Kramer, Guillory, 2014)。因此,Facebook 進行了為期一個星期的實驗,透過 控制約 60 萬名操作介面為英語的使用者的動態時報所呈現正向或是負向內容的 貼文,分析情緒感染在社群網絡中的影響。但 John Grohol(2014)卻認為這個 研究的實驗設計不太理想,因為此研究所用來判斷正負向貼文的方法為利用 LIWC2017 的軟體,但此軟體較為擅長分析較長的文本,對於 Facebook 中較短 的文本可能會有誤判的情況。但是該研究也證實了,正面字詞較多的貼文,會 讓使用者留下較多正面情緒的留言,反之亦然。另外,情緒感染可以只透過文 15.

(25) 字進行,且與社會比較理論相反。該研究也認為,線上的訊息會影響我們的情 緒,甚至會影響我們現下的行為。. (二) OkCupid 創辦於 2004 年,Okcupid 是一個最受歡迎之一的線上交友網站,扣除無法 註冊之年紀人口,大概每兩個單身美國人,就有一人已經註冊。此網站以演算 法計算出使用者彼此的速配程度而著稱。如果使用者想要越精準地讓演算法去 計算配對程度,他們必須回答 OkCupid 上的一些問題,例如,「你可以跟非常 邋遢的人約會嗎?」。由於交友網站的使用者一般來說都想找到跟他速配的伴 侶,因此 OkCupid 也蒐集到了許多使用者真實回答問卷的資料、使用者的基本 人口變項資料,例如種族、身高、所在地區、身高與使用者上傳的照片、在自 己檔案中的自我介紹等等。且 OkCupid 也具有線上聊天功能,因此也擁有這些 人們在線上聊天的對話與互動紀錄。 擁有這麼多資料,OkCupid 在 2014 出版了一本名為「我們是誰?大數據下 的人類行為觀察」,書中透過大量的真實數據來驗證過往在學術論文中以 WEIRD 研究--代表白人(white)、受過良好教育的(educated)、來自以工業化 地區的(industralized)、富有的(rich)且民主的(democratic)族群為樣本的情 況。這些 WEIRD 研究的樣本,通常只能代表大約全球 12%的人口。另外,本書 也透過各種統計分析應用,驗證出各種在男女互動交往中,有趣的現象。例 如,男女彼此互相評分,結果發現男性給女性的分數呈現常態分佈,但女性給 男性的分數卻呈現右偏的分佈,說明了女性給男性的標準較為嚴苛。但說的跟 做的可能不一定相同。OkCupid 在書中提到,他們透過結合另外一項新推出的 應用程式「瘋狂盲目約會」(Crazy Blind Date),來比對人們在看不到對方長 16.

(26) 相時的互動行為。結果發現,長相對約會成功與否完全沒有影響。關於對文字 進行分析部分,OkCupid 透過區分不同種族、性別與性取向並計算出其所最常 用的字數,分析了其在自我介紹時的文本,找出了某個特定族群才會使用的字 詞,並依照同樣的演算法,找出了某個特定族群不會使用的字詞。這項分析結 果透過數據告訴了我們不同種族、性別與性取向之間實際的差別為何,再也不 是以往我們用捉摸不定的標準與感覺來判定對方屬於哪一些群體。 Facebook 與 OkCupid 皆透過大量人們在網路上的互動數據,分析與驗證過 往研究中樣本數不足或是偏頗的理論、潛藏在我們認知中的既定印象或是具體 化了在社會上存在的群體之間的界線。. 二、. 國內研究. 由於目前主流的社群網站平台皆為國外所有,因此國內的研究一般無法取 得如 Facebook 或是 OkCupid 一樣完整的資料。但是透過利用官方 API,並結合 爬蟲程式進行資料抓取或是利用授權資料分析,同樣可以分析出令人驚豔的結 果。國內目前進行社群媒體資料分析的平台如以下介紹。. (一) QSearch QSearch 為一台灣的社群數據公司,成立於 2014 年,以分析 Facebook 粉絲 團的數據為主。在 2014 年透過社群媒體議題分析,協助台北市長參選人柯文哲 進行政策決定,進而使其順利當選台北市市長(吳韻萱,數位時代,2014)。 在 2017 年時,與天下雜誌共同發表了一篇由計算立委與國民黨、民進黨主席之 間在 Facebook 上共同粉絲互動數重疊的數量,進而算出立委與兩黨主席之間的 親密程度關係,並分析出了是「統獨與否」與「同婚立場」將藍、綠立委區分 17.

(27) 開來。此研究共蒐集了兩大黨主席與其餘立委,扣除無官方臉書帳號與在資料 蒐集期間無發文者,共蒐集了 109 位政治人物粉絲專業之資料。其中,QSearch 對「互動」的定義為,在資料蒐集的兩個月內,一粉絲在ㄧ粉絲專頁上所選按 的情緒表達功能數量。Facebook 一共有六種表情符號,QSearch 並未將六種表情 符號分開處理,而是將其合在一起處理,原因為有些表情符號難以區分支持與 否,例如「哇(Wow)」與「哭(Sad)」。. (二) OpView 為一台灣的社群口碑資料庫,除了收錄了 Facebook 粉絲團的資料以外,還 收錄了各大新聞媒體網站、社交平台(如 Plurk、Dcard 等等)與論壇(如愛評 網、伊莉討論區、PTT 等等)之資料。 透過蒐集這些資訊,OpView 可以對一議題進行在各個不同論壇上被討論的 次數,並利用文字探勘找出相關或是潛在影響的議題。例如,近期在台灣募資 成功的月亮杯案例,OpView 透過計算月亮杯在不同時期、不同平台的聲量,分 析出月亮杯成功募資的原因與策略。除了進行商業分析以外,OpView 還透過社 群平台在台灣普及的特點,以輿情分析(public opinion analysis)了解民意走 向,協助高雄市政府進行政策的決定。. 18.

(28) 第三章 研究方法與設計 第一節. 研究方法. 本研究旨在透過 Facebook 粉絲專頁中的使用者互動資料,建構快速分析該 粉絲專頁中粉絲的角色組成,本研究以撈取台灣政治人物的粉絲團專頁為例, 利用建置詞彙列表的方式分析回饋民眾的角色。詞彙列表的效能評估部分為比 對受試者標記的結果,如詞彙列表的結果與受試者標記的結果相符,則判斷為 詞彙列表判斷正確;如不同,則判斷為詞彙列表判斷錯誤。本研究使用 Python2.7、Facebook Graph API 進行粉絲專頁的資料抓取、清理與分析;利用 MySQL 建置資料庫;利用 Django 與其附帶的 Sqlite 資料庫建立使用者互動介 面,並與 MySQL 進行串接以查找資料。以下依序介紹本研究所使用之工具。. 一、. Facebook 圖形 API. 根據 Facebook 的官方說明,Facebook 圖形 API 為 Facebook 在 Facebook 平 台存取和輸出資料的主要方法,可以讓使用者以程式設計方式來查詢資料、發 佈新動態、管理廣告、上傳相片以及執行各種應用程式可能實作的工作。其 中,圖形 API 是以社交關係圖的想法命名的,在社交關係圖中,會有節點、關 係連線與欄位,如同在粉絲專頁中,可以把每一個粉絲當作一個節點,粉絲跟 粉絲之間的關係為共同對同一篇貼文留言或是進行情緒表達的回饋。 本研究透過 Facebook 圖形 API 去撈取粉絲頁面的資料。在撈取之前,必須 先取得 API 的金鑰,才能進行撈取。其介面如圖三-1 所示,可以輸入粉絲頁面 的 id,選取想要下載的欄位,例如下圖是選取「post」、在「post」中的 「comment」、「reactions」與「created_time」。按下「summit」後,其所抓取的 19.

(29) 資料就會在右方的藍色框框中呈現。預設每一次抓取的筆數為 25 筆。之後可透 過下方的「Get Code」獲取資料網址,並結合 Python 的爬蟲程式抓取資料。本 論文共撈取了粉絲頁面之貼文、貼文之下的留言與情緒反應項目,抓取方式 為,先抓取一粉絲頁面的所有貼文,在篩選出 2015 年 1 月 1 日至 2017 年 1 月 31 日間的貼文 id,在用此貼文 id 去爬取粉絲留言與該貼文的情緒反應。值得注 意的是,當留言內容為貼文或是圖片,撈取下來之資料為空值,因此本論文將 不予以分析,但會納入留言次數中。撈取的欄位如表三-1 所示:. 圖 三-1 Facebook Graph API 介面示意 表 三-1 本研究撈取項目與屬性列表. 撈取項目. 貼文. 留言. 撈取屬性. 貼文 id. 留言 id. 貼文時間. 留言時間. 貼文連結. 留言者 id. 分享數. 留言者姓名. 留言獲得留言數. 留言獲得讚數 20.

(30) 二、. Python2.7. Python 為一動態的開源程式語言,其特性為優雅與簡潔,常被用在處理資 料分析上,也可用在網頁開發上。本論文用 Python2.7,為在 2010 年 7 月 3 號發 佈的 Python 版本,並結合 Facebook Graph API 進行資料爬取、再利用 Python 進 行資料分析 MySQL 存放資料與結合 Django 進行架設實驗網站。. 三、. Django. Django 是使用 MTV(model, template, view)結構的網站框架,可用 Python 為腳本,串接前後端介面與資料庫,主要架構包含串接資料庫的模型 (model)、前端頁面設計的模板(template)與和前端所及資料庫所需執行功能 控制與整合的視圖(view)。其架構如圖三-2 所示,由瀏覽器傳送需求,URL 將其導覽至適當頁面,並根據視圖中的程式碼,執行此頁面需執行之事項,有 時會需要連接至資料庫,則必須透過模型進行連接。本論文使用的 Django 版本 為 1.11。 關於設計方面,前端設計結合使用 Pure.UI 進行前端介面設計;後端資料庫 串接使用 Django 自帶的 Sqlite 與架在伺服器中的 MySQL。. 21.

(31) 圖 三-2 MTV 架構示意. 四、. MySQL. MySQL 為一具有免費版本的開源關連式資料庫,架構為由許多列組成表 格,再由許多表格組成一個資料庫。本論文用以存取由 Facebook 爬取回來的資 料,並透過使用 MySQL Workbench 進行管理與執行指令。另外,由於標記的實 驗網站與資料分析皆是用 Python 撰寫,因此使用了 mysql-connector-python 套件 連接。. 五、. Sqlite. 同樣也是免費開源的資料庫,其架構與 MySQL 相同,都由列組成表,再由 表組成資料庫。但相對於 MySQL,Sqlite 是個較為輕量的資料庫,不用透過架 設伺服器進行資料存取。適合運用在資料量不大及不需支援多台電腦連線的時 候。本論文所使用的 Sqlite 資料庫為 Django 套件預設的,存放 Django 所用到的 系統資料,例如當使用者登入後,Django 會根據使用者取出該使用者的. 22.

(32) cookies,或是當使用者切換網站頁面時,Django 必須將該使用者的 session 存進 資料庫中。. 第二節. 研究對象. 本論文之研究對象為台灣政治人物的 Facebook 粉絲頁面,其中關於台灣政 治人物方面,選取為較具討論性的政治人物,例如蔡英文、柯文哲、朱立倫等 等。選取時特別選擇了民進黨、國民黨與無黨籍的政治人物各一,以平衡立場 與互相比較。關於政治人物粉絲頁面名稱、粉絲專頁 id、粉絲數列表及其政治 立場或是所屬黨派如表三-2 所示,其中以蔡英文的粉絲數最多,其次依序為柯 文哲、朱立倫。粉絲頁面資料抓取時間為 2017 年 5 月 18 日。粉絲頁面貼文、 留言與情緒反應爬取時間為 2017 年 5 月 9 日與 5 月 10 日,所設定的爬取區段 為 2016 年 1 月 1 日至 2017 年 1 月 31 日。. 表 三-2 各個政治人物粉絲專頁頁面 id、粉絲數與所屬黨派. 政治人物粉絲頁面名稱. 粉絲頁面 id. 粉絲數. 所屬黨派. 蔡英文. 46251501064. 2,205,592. 民進黨. 柯文哲. 136845026417486. 1,538,076. 無黨派. 朱立倫. 10150145806225128. 876,594. 國民黨. 表三-3 呈現各個粉絲頁面在 2016 年 1 月 1 日至 2017 年 1 月 31 日所爬取到 的貼文數量與回覆數量。每一則貼文的留言量最多爬取為 2000 則,其中以柯文 哲所發佈的貼文數量(231)最少,蔡英文有最多的貼文數量(531)朱立倫則 次之。計算每個粉絲頁面每則貼文所獲得的留言數量,以 200 則留言為一個單 位,得到三位政治人物由 0 則留言至 2000 則留言的計數表,如表三-3 所示,並. 23.

(33) 將每個粉絲專頁的數值製做成折線圖,如圖三-3 至三-5 所示,其中可以觀察 到,三位政治人物在獲得留言數 600 則至 900 則的區間內皆為 0,蔡英文的粉絲 專頁在獲得留言數 2000 則的篇數最多,顯示有較多貼文獲得 2000 則以上的留 言數,反觀柯文哲,其貼文所獲得的留言數則是在 200-400 的區間內,朱立倫 則又更低,為在 0 則至 200 則的區間內。 表 三-3 各個粉絲專頁之貼文、留言與平均留言數. 獲得留言數. 蔡英文貼文篇數. 柯文哲貼文篇數. 朱立倫貼文篇數. 0. 2. 30. 203. 200. 40. 74. 45. 400. 45. 21. 16. 600. 0. 0. 0. 800. 0. 0. 0. 1000. 45. 18. 18. 1200. 33. 6. 11. 1400. 30. 10. 15. 1600. 16. 8. 7. 1800. 14. 5. 3. 2000. 80. 33. 20. 圖 三-3 蔡英文每則貼文獲得留言數統計折線圖 24.

(34) 圖 三-4 柯文哲每則貼文獲得留言數統計折線圖. 圖 三-5 朱立倫每則貼文獲得留言數統計折線圖. 25.

(35) 第三節. 系統流程與系統架構. 本研究的系統流程,可分為三部分,分別為資料搜集、資料分析、成果評 估三階段,如圖三-3 呈現。以下分別說明三個階段。. 圖 三-6 本研究的系統流程圖. 一、. 資料蒐集. 利用 python2.7 與 Facebook 圖形 API 擷取從 2016 年 1 月 1 日開始至 2017 年 1 月 31 日止,特定政治人物與四大報粉絲頁面中與之所有貼文、第一層回覆與 情緒反應數據。其研究流程如圖三-3 所示:首先透過 Facebook Graph API 獲取金 鑰,並用 Python 撰寫爬蟲程式,依序爬取粉絲頁面之貼文、留言,並存為 JSON 檔。爬取完成後,根據如圖三-4 所示之實體關係模式(Entity-Relation Model)進行資料庫設計。其中,分別有四個實體,分別為粉絲頁面、貼文、使 用者與留言。「粉絲頁面」可以透過「發佈貼文」的功能進行貼文發佈,而粉. 26.

(36) 絲頁面本身具有兩個屬性,一為每個粉絲頁面皆不同的頁面 id,另一為自行取 名的頁面名稱;貼文則有三個屬性,分別為每則貼文皆不同的貼文 id、貼文的 內容與貼文的時間。粉絲頁面可發佈許多貼文,其關係為一對多的關係。「貼 文」之下會有許多「留言」,其關係為一對多的附屬關係。留言也具有三個屬 性,分別為每則留言皆不同的留言 id、留言內容與留言時間。留下這些留言的 是不同的使用者,使用者與留言的關係為多對多的關係。使用者具有三種屬 性,分別為每個使用者皆不同的使用者 id 及自行選擇呈現的姓名。. 圖 三-7 本研究 MySQL 資料庫實體關聯模型. 在存進資料庫前,由於爬取回來的資料為 JSON 格式,須先用 Python 進行 資料清理與整理為可存進資料庫之格式。資料清理完成後,分別將貼文、留言 與情緒反應存成如表三-4、表三-5 的資料表。 表 三-4 抓取貼文存進資料庫之資料欄位設定. 抓取資料名稱. 貼文. 種類. 資料表欄位名稱. post_id. text; PK. page_id. text. message. text. url. text 27.

(37) created_time. datetime. post_id. text. post_time. datetime. 表 三-5 抓取留言存進資料庫之資料欄位設定. 抓取資料名稱. 留言. 種類. 資料表欄位名稱. user_id. text. user-name. text . comment_id. text; PK. comment. text. comment_time. datetime. page_name. text. page_id. text. 二、. 資料分析. (一) 列表建置 由於本論文的研究對象主題較為特殊,如欲快速篩選出一留言的立場,就 需自行建置支持與不支持詞彙的列表。列表建置完成之後,便可透過從 MySQL 資料庫撈取留言的語料並進行判斷。本論文的判斷方法為檢查每一則貼文中是 否含有在支持與不支持列表中的詞語,如果有的話就判斷為支持或是不支持; 如果這一則留言中同時出現支持與不支持的詞語,則會被同時判斷為支持與不 支持;如果一則留言中沒有詞語出現在支持與不支持的列表中,則不標記。 關於列表建置部分,首先先選取明顯可辨識為支持的詞彙新增至列表中, 為了要驗證詞彙列表中的詞彙的準確度,每新增完一批詞彙,就會將已由受試 者標記判斷過後的語料交由詞彙列表進行判斷,如詞彙列表判斷出的結果與受 試者判斷結果相同的數量越多,才代表詞彙列表的建置越完整。詞彙列表判斷. 28.

(38) 的結果以準確率及召回率評估。其中,除了明顯可辨識為支持與不支持的詞彙 外,其餘詞彙皆由觀察民眾留言所擷取而來,三個粉絲專頁共進行了多次新增 的過程,各階段新增的詞彙可見附錄。 關於給受試者先行標記的語料來源為,每個粉絲專頁的留言數量前 100 多 使用者的留言進行隨機篩選出 300 則。標記的受試者人數為三位,皆為國立台 灣師範大學圖書資訊學系畢業之畢業生,每人共標記 900 則留言,每個粉絲專 頁有 300 則,共有四種標記選項,分別為「支持」、「不支持」、「中立」與 「無關」。標記者可以依據留言內容選擇這篇留言對於該粉絲專頁的立場為 何。三位標記者之中,只要有其中兩位答案達成一致,及判定該留言為標記者 所標記的立場,如三位皆不一致,則歸類為無法判斷的項目。 其標記結果如表三-6 所示,各個粉絲專頁被判斷出來的支持數與不支持數 目皆不同,在這 300 則語料中,蔡英文的粉絲專頁被判斷出不支持的數目最 多,朱立倫最少;而相反的,朱立倫的粉絲專頁被判斷出支持的數目最多,蔡 英文則是支持數最少。 表 三-6 使用者標記各個粉絲專頁之貼文結果. 蔡英文. 柯文哲. 朱立倫. 判斷為支持數. 28. 9.33%. 35. 11.67%. 155. 51.67%. 判斷為不支持數. 128. 42.67%. 60. 20.00%. 19. 6.33%. 判斷為無關數. 121. 40.33%. 178. 59.33%. 111. 37.00%. 判斷為中立數. 5. 1.67%. 15. 5.00%. 3. 1.00%. 無法判斷數. 18. 6.00%. 12. 4.00%. 12. 4.00%. 就「明顯可判斷為支持或是不支持的詞彙」而言,以柯文哲的粉絲專頁為 例,假設在一則留言中,如出現「市長加油」這一組詞彙,就能馬上判斷這位 使用者是傾向支持柯文哲;但是如果出現「柯腦皇」等關於柯文哲的負面詞 彙,就能馬上判斷此留言為不支持柯文哲的使用者所留的。另外,由於在. 29.

(39) Facebook 中,許多使用者也會使用表情符號表達情緒,不同於 Facebook 內建的 貼圖,這些表情符號可轉為 unicode,例如「. 」會被轉為「U+1F604」並被. 爬取下來,因此在語料庫中,也會使用表情符號作為判斷支持與不支持的依 據。例如在留言中出現「. 」即可判斷為支持;若出現「. 」就可判斷為. 不支持。 「透過觀察民眾留言新增的詞彙」部分,為透過觀察無法被語料庫判斷的 留言,挑選出關鍵字。其中,大部分的關鍵字都與事件有關,由於政治人物常 常會受政治事件的影響而與某些詞彙產生關聯,因此透過觀察無法被語料庫判 斷的留言,可大概抽取出這些因事件而產生的詞彙。例如以蔡英文的粉絲專頁 為例,「菜 8 趴」即為諷刺蔡英文的執政滿意度只有 8%。 本論文的列表形式為 Python 的列表,每個政治人物粉絲頁面皆有兩組分別 為支持與不支持的列表,其詞彙列表最終的詞彙數量如表三-7 所示。 表 三-7 各粉絲頁面支持與不支持語料庫數量. 粉絲頁面名稱. 支持詞彙列表詞彙量. 不支持詞彙列表詞彙量. 蔡英文. 45. 80. 柯文哲. 73. 20. 朱立倫. 71. 14. 以下呈現各個政治人物的支持與不支持詞彙列表建置過程中的召回率與準 確率。其中,三位政治人物的不支持詞彙列表的召回率皆相當低,觀察得到的 原因為,不支持留言的表達方式很多,較不能建置如同支持列表般顯而易見的 詞彙。蔡英文的支持與不支持詞彙列表建置部分,各階段的的召回率、準確率 與詞彙列表的數量如表三-8 所示,其 PR 圖如圖三-5、三-6 所示。支持部分的召 回率在第三次新增後停止成長,但到第八次與第十次新增召回率皆有上升,觀 察剩餘未被詞彙列表判斷出的語料後,可增加的詞彙有限,因此停止新增。在 30.

(40) 不支持詞彙列表的部分,在九次新增方面準確率皆為 100%,雖然召回率在每一 梯次持續提升,但在第八次新增完後成長停止,觀察其剩餘無法被詞彙列表判 斷的語料中所用的語彙無法被截取出新增置詞彙列表中,因此停止新增。 表 三-8 蔡英文支持與不支持詞彙列表增加梯次與其準確率與召回率. 列表增. 支持. 支持. 詞彙. 不支持. 不支持. 詞彙. 加梯次. 召回率. 準確率. 數量. 召回率. 準確率. 數量. 1. 7.10%. 100.00%. 5. 3.90%. 100.00%. 7. 2. 14.30%. 80.00%. 12. 4.70%. 100.00%. 10. 3. 17.90%. 71.40%. 18. 4.70%. 100.00%. 29. 4. 17.90%. 71.40%. 21. 5.50%. 100.00%. 38. 5. 17.90%. 71.40%. 22. 5.50%. 100.00%. 50. 6. 17.90%. 71.40%. 23. 9.40%. 100.00%. 66. 7. 17.90%. 71.40%. 26. 19.50%. 100.00%. 72. 8. 25.00%. 77.70%. 28. 25.80%. 100.00%. 76. 9. 25.00%. 77.70%. 43. 25.80%. 100.00%. 79. 10. 32.10%. 81.80%. 46. 圖 三-8 蔡英文支持詞彙列表之 PR 圖. 31.

(41) 圖 三-9 蔡英文不支持詞彙列表之 PR 圖. 柯文哲的支持與不支持詞彙列表建置部分,各階段的的召回率、準確率與 詞彙列表的數量如表三-9 所示,其 PR 圖如圖三-7、三-8 所示。 支持部分的召回率在第四次新增後無成長,雖然分別又在其後新增了六次 詞彙,但但召回率沒有成長,準確率反而還下降,觀察詞彙列表後,發現造成 下降是由於詞彙列表將其中兩則被受試者標記為「無關」的留言判斷為「支 持」。在不支持詞彙列表的部分,在第三次新增後召回率停止成長,但仍從語 料中挑出可新增至詞彙列表的詞彙新增,直到沒有可新增的詞彙後才停止新 增。除了第一次新增的詞彙準確率為 0%外,其餘新增次數的準確率皆為 100%。 表 三-9 柯文哲支持與不支持詞彙列表增加梯次與其準確率與召回率. 列表增. 支持. 支持. 詞彙. 不支持. 不支持. 詞彙. 加梯次. 召回率. 準確率. 數量. 召回率. 準確率. 數量. 1. 0.00%. 0.00%. 8. 0.00%. 0.00%. 2. 2. 0.00%. 0.00%. 11. 3.30%. 100.00%. 7. 3. 5.70%. 100.00%. 18. 26.70%. 100.00%. 11. 4. 31.40%. 100.00%. 30. 26.70%. 100.00%. 14 32.

(42) 5. 31.40%. 91.70%. 38. 26.70%. 100.00%. 17. 6. 31.40%. 91.70%. 43. 26.70%. 100.00%. 20. 7. 31.40%. 78.60%. 51. 8. 31.40%. 78.60%. 57. 9. 31.40%. 78.60%. 59. 10. 31.40%. 78.60%. 73. 圖 三-10 柯文哲支持詞彙列表之 PR 圖. 圖 三-11 柯文哲不支持詞彙列表之 PR 圖. 33.

(43) 朱立倫的支持詞彙列表建置部分,各階段的的召回率、準確率與詞彙列表 的數量如表三-10 所示,其 PR 圖如圖三-9、三-10 所示。 在第七次新增後,召回率成長緩慢,但仍從尚未被詞彙列表判斷出之語料 中提取出可被新增至詞彙列表的詞彙,直到無法提取時,停止新增,共新增了 十一次。在不支持詞彙列表的部分,在十一次新增中準確率皆為 100%,召回率 在第五次新增後趨於平緩,但仍可從語料中提取出可被加入詞彙列表的單詞, 因此新增至無法再提取詞彙,之後停止新增,共新增了十一次。 表 三-10 朱立倫支持與不支持詞彙列表增加梯次與其準確率與召回率. 列表增. 支持. 支持. 詞彙. 不支持. 不支持. 詞彙. 加梯次. 召回率. 準確率. 數量. 召回率. 準確率. 數量. 1. 7.70%. 70.60%. 9. 0.00%. 100.00%. 1. 2. 9.00%. 73.70%. 15. 5.30%. 100.00%. 2. 3. 10.30%. 76.20%. 18. 5.30%. 100.00%. 3. 4. 12.30%. 79.20%. 24. 5.30%. 100.00%. 4. 5. 12.90%. 80.00%. 33. 10.50%. 100.00%. 5. 6. 12.90%. 80.00%. 36. 10.50%. 100.00%. 6. 7. 58.70%. 85.00%. 39. 10.50%. 100.00%. 7. 8. 63.20%. 85.20%. 42. 10.50%. 100.00%. 10. 9. 63.20%. 84.50%. 55. 10.50%. 100.00%. 12. 10. 63.20%. 84.50%. 70. 15.80%. 100.00%. 13. 11. 72.90%. 84.30%. 72. 26.30%. 100.00%. 14. 34.

(44) 圖 三-12 朱立倫支持詞彙列表之 PR 圖. 圖 三-13 朱立倫不支持詞彙列表之 PR 圖. 政治人物的部分語料庫與實際留言舉例如表三-11 所示,只要留言中含有一 個或以上的辭彙出現在語料庫中,即會被評斷為支持或不支持。其完整語料庫 請見附錄。. 35.

(45) 表 三-11 支持與不支持語料庫詞彙舉例. 粉絲專頁名. 支持語料庫. 支持留言舉例. 蔡英文. 小英當選、蔡英文. 小英加油. 加油、新政府加油. (10152419666556065_10152420040461065). 柯文哲. 柯 P 好棒、柯 p 辛 小建議:不要常把以前在急診室 or 醫院怎 苦了、連任成功、. 樣怎樣掛嘴邊,對有些人來說很刺耳,會. 白色力量加油、送. 想著「這裡又不是急診室」「你以前苦難. 進總統府、市長加. 道現在要把其他人弄的一樣苦嗎?」諸如. 油. 此類諸如此類會讓焦點轉移的話。如果改 成「如果.....我們可以(把事情變得更好/ 更有效率/更....)」這種句型似乎會更洽當 點,至於經驗是不是來自於過去在醫院的 經歷,讓大家自己去想就好。 市長加 油! (564904723611512_564907536944564). 朱立倫. 朱立倫加油、挺立. 朱立倫加油做就對了別管跛腳馬及藍皮綠. 倫、永遠支持您、. 骨的奸"王”好好為台灣百姓打拼吧. 市長好帥、用心施. (10154663643780128_10155270598130128). 政、財經專家 粉絲專頁名. 反對語料庫. 反對留言舉例. 蔡英文. 白賊英、菜桶、女. 水嘎!菜英文有人喜歡,有人不喜歡,因. 版馬英九、菜英文. 為菜英文有種菜味,菜味,菜味,陳水扁 男啵萬,非常棒! (10153063518041065_10153064587941065). 柯文哲. 白癡市長、柯屁、. 要會建設, 不是到處亂拆. 網軍也該睡覺. 嘴砲、柯皇、柯文. 了. 柯屁辦公室沒電腦, 他看不到的. 哲下臺、白目的力. (567971709971480_568403949928256). 量 朱立倫. 砂石倫、剪綵、悲. 「朱主席怎麼會是第一次變裝呢? 從三. 傷朱立夜、丟臉. 環三線的『唬爛市長』,到淡水輕軌的 『剪綵市長』, 最後變成做好做滿的 『落跑市長』! 主席根本是實至名歸的 變裝王啊!」 (10156407725400128_10156408924805128) 36.

(46) (二) 使用者資料庫建置 一旦留言可被判斷為支持或是不支持後,便可獲知這位使用者對於這個粉 絲頁面的立場。於是本論文依此結果建置一個使用者資料庫,資料表架構如表 三-8 所示,以 user_id 為主鍵,如為支持一粉絲頁面,則將其立場寫為 100,如 為不支持,則寫為-100,如沒有立場,則留為空值。 表 三-12 使用者資料庫資料欄位與種類. 列名稱. 立場. 種類. user_id. 1011851178863500. text; PK. Tsai_stand. 100. int. Ke_stand. null. int. Chu_stand. -100. int. 本研究之系統架構圖如圖三-11 所示,共分為四個部分,分別為資料庫層 級、功能層級、初步結果層級與應用層級做說明。 「資料庫層級」存放著由 Facebook Graph API 抓取下來之原始資料,清理後 之資料庫存放著篩掉留言為空值與使用者留言次數小於一次之留言。「功能層 級」為詞彙列表辨別留言為支持或是不支持的立場之功能,詞彙列表的建置需 透過「初步結果層級」的結果增減,「初步結果層級」包含了詞彙列表可辨別 出立場與無法辨別出立場之兩種類別,透過觀察無法辨別出立場之留言內容, 可新增在「功能層級」中詞彙列表中的詞彙,以提高可辨識率。可辨識出之留 言,則可透過將相同的留言者合併,製作出「應用層級」中的使用者資料庫, 由此資料庫可看出在一粉絲專頁中支持的使用者數量與不支持的使用者數量, 並可進行跨粉絲專頁之比對。. 37.

(47) 圖 三-14 本研究之系統架構圖. 三、. 成果評估. 成果評估部分,本論文透過算出詞彙列表可辨別多少語料庫中的留言,計 算一詞彙列表的可辨別率,並結合使用者標記與語料庫判斷之結果,計算準確 率。這種測量方法是最被廣泛運用於評估檢索效能的方法,準確率是用來評估 一系統成功檢索到相關文件與的比率(Blair, Maron, 1985)。 在本研究中,可辨識率為判斷在一個粉絲專頁中,詞彙列表可成功判斷的 結果。可辨識率越高,代表其語料庫的詞彙能涵蓋越多相關主題的內容。準確 率為透過給受試者標記已被詞彙列表判斷完結果之留言,判斷詞彙列表之結果 是否正確。準確率越高,代表詞彙列表可以正確辨識之語料越多。其中,由詞 彙列表判斷後可能會出現以下三種錯誤類型,可由這三種錯誤類型改善詞彙列 表的品質: 1. 第一類型為一則留言被同時判斷為支持與不支持,其造成原因為,在詞 彙列表中的詞彙會出現在支持與不支持語料中。例如「支持蔡英文就是 支持空心菜」,這個留言為不支持的留言,但是語料庫判斷結果中會將 38.

(48) 其同時標記為支持與不支持。原因為,在這句子中,由於「支持蔡英 文」這個詞是屬於支持語料庫的,但「空心菜」卻是屬於不支持語料庫 的,所以在判斷時,會被同時標記為支持與不支持。 2. 第二類型為,同一位留言者的留言有一些被判斷為支持,有一些被判斷 為不支持的,導致一位留言者兼具支持與不支持的角色。由於本論文的 資料搜集時間約兩年,在兩年內,一位留言者的支持與不支持傾向應不 會有巨大的改變,因此,一位留言者所有的貼文的支持傾向應固定「支 持」或「不支持」。因此,當一位留言者的留言中具有同時被判斷為支 持與不支持,那可能是支持該粉絲專頁的留言者在反對該粉絲專頁留言 者會用的詞彙前加上否定詞彙,反之亦然。例如,在柯文哲的粉絲頁面 中,會有支持的使用者留「比起那些愛嘴砲的立委,柯 P 才不是土皇 帝」,這個留言中同時含有在不支持語料庫中的「嘴砲」與「土皇 帝」,因此,這樣這一類型的留言會被判斷為不支持的粉絲,但其實這 位使用者為柯文哲的支持者。這一類型的錯誤可直接透過分析語料庫標 記結果而得知,並透過觀察這位使用者多半留言的支持傾向來判斷這位 使用者為支持或是不支持。透過計算第二類型錯誤,可算出詞彙列表可 以判斷出多少的使用者,進而得知詞彙列表之判斷效率。 3. 第三類型為,語料庫將貼文的支持與不支持判斷錯誤。這一類型的錯誤 必須透過人為標記來檢驗。本論文將每個政治人物的語料庫判斷支持、 不支持的結果各抽 50 則讓受試者進行標記。 可辨識率與準確率的公式如(1)、(2)所示,公式中的變數如下所示: ALL:所有留言數 A:留言的人工標記結果 39.

參考文獻

相關文件

四、 廠商應於服務決標後 3

11 日的雙 11 購物節,有部分電商平台推出書籍下殺 66 折的折扣活動,引發多家 實體書店不滿。多家獨立書店在臉書粉絲團以黑底白字

11 日的雙 11 購物節,有部分電商平台推出書籍下殺 66 折的折扣活動,引發多家 實體書店不滿。多家獨立書店在臉書粉絲團以黑底白字

粉絲頁面 facebook 朋友

利用 BeautifulSoup 將網頁資料以 html.parser 儲存 (

本課程共分為兩階段。第一階段由基本網頁概念介 紹開始,帶領學員循序漸進使用 FrontPage 2003 建 立個人網頁;第二階段著墨在 Flash

本課程共分為兩階段。第一階段由基本網頁概念介 紹開始,帶領學員循序漸進使用 FrontPage 2003 建 立個人網頁;第二階段著墨在

找出書中最 找出書中最 找出書中最 找出書中最開心 開心 開心 開心的地方 的地方 的地方 的地方, , , ,記下那一頁 記下那一頁 記下那一頁 記下那一頁3.