第二章 總統滿意度的測量
第一節 資料來源與資料處理
壹、 資料來源
本研究利用 EXCEL VBA 撰寫爬蟲程式爬取 2017 年 1 月 1 日到 2017 年 12 月 31 日的八卦板貼文約 90 萬篇貼文。爬蟲方式分成三個部分:
首先,程式自動打開網頁版的八卦版,由新至舊抓取貼文的標題、作者、
時間及貼文內容連結,直到抓取到上一次抓取的最新貼文為止。
第二,程式自動打開前一階段抓取之所有貼文連結。並抓取發文的標題、
作者 ID、發表時間、發文內容、發文者 IP 等貼文資訊。同時抓取貼文下方回覆 者的 ID、推噓標記、回覆內容及回覆時間等資訊。
第三,程式分別會在貼文後 20 分鐘、250 分鐘、1 天、3 天及 15 天後重新 抓取貼文的回覆並標記貼文是否還存在。從本文的回文數據來看,貼文的回文 時間統計上,平均而言 16 分鐘會累積所有回文的 50%,250 分鐘時則會高達 90%,99%的回文會在貼文後的 1 天內回覆,而 3 天及 15 天是為了確認貼文是 否有被刪除。
透過上述三個部分的抓取,2017 年整年度中,本文共抓取 909,104 筆貼文 及 23,625,792 筆回文。
貳、 資料處理:新測量方式的建立
如何將前述蒐集的貼文資料轉化成總統滿意度將是本節的討論重點,以下 將針對本文如何將前述的貼文資料標註為是否滿意蔡英文。
一、 斷詞
斷詞是進行中文的自然語言處理時重要的工作,斷詞的結果將影響後 續的處理(陳稼興等 2000),甚至可能影響最後的分類結果(黃純敏等 2014)。
近年來,隨著自然語言處理的興起,如何進行中文斷詞有了相當多的 討論(黃純敏等 2014、林千翔等 2010、Wei-Yun Ma et.al 2004、陳稼興等 2000)。然而,本研究並無意另起爐灶,因此在斷詞上將採用較常被使用的 兩種方式,分別是中央研究院中文知識庫小組的中文斷詞系統(CKIP)與 Github 上的結巴(Jieba)系統。
中央研究院的 CKIP 系統發展較為成熟,但與 python 等軟體的相容性 較差,且有傳輸限制,在使用上限制較多。然而憑藉其詞性標註且詞庫豐 富,在斷詞結果上依然有較好的表現。不少研究都採用 CKIP 的斷詞方式 (陳建輝等 2016,陳世榮 2015,游和正等 2012)。
結巴(jieba)套件為 Github 於 2012 年上傳的套件,可做為中文文本的斷 詞使用,然而 jieba 原始的詞典為簡體中文版,若直接以結巴原始詞典進行 斷詞,涉及簡體中文與繁體中文的轉換問題。然而在 Github 上亦同時有針 對台灣的繁體中文(jieba-zh_TW)詞典可更改詞典設定並進行繁體中文斷詞 使用。相較於 CKIP,jieba 系統在使用上較為方便,與 python 的相容性也 較好。因此本文也將其納入討論。
最後斷詞結果中,CKIP 系統將 90 餘萬篇貼文斷成約 1.56 億個字詞,
而 Jieba-zh_TW 則斷成約 1 億個字詞。然而針對這些字詞分類時,CKIP 的 斷詞結果是由 97.3 萬個不同字詞所組成,而 Jieba-zh_TW 則可分成 159 萬 個不同的字詞。顯見,CKIP 在斷詞穩定性上較 Jieba-zh_TW 好,且 CKIP 的 不重複字詞數較少,對於後續 LSA 分析中稀疏矩陣(sparse matrix)的建立和 應用上也較為方便。
二、 文本選擇
由於八卦版並非僅討論政治,本研究專注於討論總統滿意度,因此在 分析上並非將所有貼文及回文納入分析。在分析上將專注於總統滿意度而 非政府滿意度,因此在文本的選擇上,本文僅就提及蔡英文總統及相關關
鍵字的貼文進行分析。
在關鍵字的選擇上,本文將前述的斷詞結果,以 python 的 Word2vec 套件分析字詞的相關性,並找出相關的關鍵字。
最後本文以「蔡英文」、「蔡總統」、「小英」、「蔡政府」四個關鍵字進 行搜尋,共找出 25,803 篇貼文及貼文中的回文共 1,073,762 則進行分析。
三、 訓練集編碼
針對討論蔡英文相關的 25,803 則貼文,本文隨機抽取 2%的貼文共 502 篇,其中有 9 篇為簽名檔提及蔡英文,而非內文和蔡英文有關,因此本文 將其排除,共人工編碼 493 則貼文,依照貼文的文字判斷該貼文是否滿意 蔡英文、是否不滿意蔡英文、是否無法判斷等三個變數。
人工標註原則有三。一、貼文字面意思即為滿意或不滿意蔡英文;
二、貼文字面意思無法判斷是否滿意,但該文若有推文則推文內容是否為 滿意,若為滿意則標註貼文為滿意,反之則標註為不滿意。三、無法以前 兩個原則判斷則標註為無法判斷。
最後,493 則貼文中,共 130 則標註為滿意、330 則標註為不滿意、33 則標註為無法判斷。
四、 演算法選擇
在文本分類的演算法選擇上,既有的研究較常採用單純貝氏分類器 (Naïve Bayes)、支援向量器(Support Vector Machine, SVM)、最近鄰居法(k Nearest Neighbor, KNN)和邏輯式迴歸(Logistic Regression)進行文本的分類(陳 世榮 2015,黃純敏等 2014)。因此本文在使用上,以上述四種演算法進行 文本的分類測試,尋找成功率較高的分類方式作為本文進行文本判讀時使 用。
表 2-1-1 顯示不同演算方式的測試結果,以 493 篇手動編碼結果為基 礎,本文以 5%為測試集、95%為訓練集進行 100 次隨機分配,先進行訓練
集的擬合,並以此進行測試集的預測。並依照斷詞方式的不同分別進行測 試。
表 2-1-1 不同演算法測試 100 次結果
CKIP Jieba-zh_TW
平均 標準差 平均 標準差
Naïve Bayes 65.44% 9.76% 63.88% 9.16%
Logistic 78.72% 8.85% 75.16% 9.57%
SVM 80.24% 7.79% 77.44% 7.75%
KNN(n=5) 63.16% 9.35% 61.52% 9.89%
從表 2-1-1 的測試結果中,可以發現中研院 CKIP 系統的斷詞結果,不 論在何種演算法分類中表現都較 Jieba 台灣版字典好。而不論是 CKIP 或是 Jieba 斷詞,可以看到 SVM 的分類結果不只平均成功率較高,其成功率也 較為穩定。而這樣的結果與既有研究也不謀而合,不論是黃純敏等(2014) 或陳世榮(2015)在文本分類的演算法上都顯示 SVM 的分類效果較好。因此 本文在最後的貼文是否滿意蔡英文的標註上,將採用 CKIP 斷詞並以 SVM 為分類的演算方式。
五、 貼文編碼
在貼文編碼上本文採用 CKIP 斷詞,並建立稀疏矩陣,再以 SVM 進行 文本分類。本文將人工編碼的 493 則貼文作為訓練集對未人工編碼的 25,310 篇逐篇進行編碼。在判讀貼文是否滿意蔡英文部分,首先必須確定 貼文內容是否完全由作者撰寫。若是,則以貼文全文進行判讀;若不是,
則需找出作者意見部分進行判讀。在未判讀的 25,310 篇貼文中,有 11,657 篇貼文為內容完全由作者自行撰寫可代表作者意見,13,653 篇貼文為作者 回應某則貼文或評論某篇新聞等,有部分內容不能代表作者意見,這部分 本文將分開判讀,判讀原始貼文態度與作者評論態度。
表 2-1-2 貼文標註結果對照表
來看,絕大部分是被標註為貼文不滿意蔡英文,整體而言,本文在貼文標
→ 中立 中立
由於八卦版僅針對每日貼文數量有所限制,對於回文數量並無限制,
因此未避免少數 ID 大量回文的灌水造成分析上的偏誤,因此本文在滿意度 的計算上以 ID 為單位計算。即在同一時間內,不論單一 ID 的貼文和回文 數量多寡,只要標註中滿意態度大於反對態度則該 ID 在該時間內就只會被 標註為滿意,反之亦然,藉此避免單一帳號大量留言造成的高估或低估。
因此本文滿意度的計算算式如下:
滿意度 =標註滿意數量大於不滿意數量的 ID 數 時間區段內討論蔡英文的 ID 數
參、 滿意度結果初探
最後,2017 年一整年中,共有 60,699 個 ID 參與蔡英文相關貼文的討論,
平均每個 ID 約有 18 次留言或貼文,其中被標註為滿意數量大於不滿意數量的 ID 數共有 15,953 個,而不滿意大於滿意的則有 34,143 個,另外 10,603 個 ID 則 是標註為滿意與不滿意的數量相等。因此,整年來看蔡英文在 PTT 八卦版上的 滿意度為 26.28%。
然而這些滿意度並非平均的分配在每一天,從圖 2-1-1 來看,其實每日的 總統滿意度變化劇烈。
若以每天的滿意度來看,總統滿意度最高的時間點落在 2 月 11 日,當日的 總統滿意度為 55.38%,但僅為一日行情,隔日(2 月 12 日)即滑落至 32.85%。若 抓出 2 月 11 日的貼文狀況則會發現,總統滿意度飆高的原因在於當日松山機場 遭無人機入侵,進而影響飛機起降,而當時國防部長馮世寬要求再有無人機闖 入一律擊落。該則貼文吸引 617 個不同 ID 前往回覆,其中 516 個 ID 被標註為 滿意,然而此新聞熱度僅有一天,隔日議題就沒有相關貼文,而滿意度也隨即 滑落。
圖 2-1-1 2017 年每日滿意度
另外,本文計算之滿意度最低為 10 月 30 日的 11.84%,然而該日滿意度極 大程度受到討論數不足的影響。主要原因在於 2017 年 10 月 30 日到 11 月 2 日,PTT 發生技術問題而關站,因此計算上 10 月 30 日在關站之前僅有 74 個 ID 討論和蔡英文相關的貼文,相較於每日平均 1,690 個 ID 的討論,10 月 30 日的 討論 ID 少進而造成極端值的出現。
若排除上述時間段的關站因素,總統滿意度的最低點在 7 月 6 日的
16.17%,當天主要的原因在於蔡英文前往高雄天后宮參拜時,遭到反年改團體 的煙霧彈攻擊,此則新聞吸引 565 個 ID 前往討論,其中 486 個 ID 被標註為不 滿意。然而仔細查閱留言內容便會發現,網友並非反對年金改革,而是不滿政 府讓反年改團體成功擾亂總統行程。事實上,八卦版對於年金改革的討論並不
踴躍,不論是 3 月 30 日行政院送出草案或是 6 月 28 日當天立法院三讀通過,
都沒有引起網友太多的討論,而總統滿意度也未出現劇烈變化。但是不論是 6 月 29 日蔡英文參軍校聯合畢業典禮時車隊遭到攻擊、7 月 6 日遭丟煙霧彈或世 大運 8 月 19 日開幕儀式受到影響,相關的貼文都造成網友對蔡政府的不滿。
綜上,雖然整體而言,2017 年滿意標記大於不滿意標記的 ID 僅有 26%左 右,然而本文計算之總統滿意度每日起伏甚大,甚至有少數的日子,總統滿意 度是高於 50%的,然而從上述最高與最低的例子來看,議題的討論決定本方法 計算的總統滿意度。
肆、 小結
本節從資料的來源到如何將資料轉換成總統滿意度的討論。事實上,本文 是將不同議題的討論狀況轉換成總統的滿意度,與民意調查單純詢問是否滿意 總統的施政表現不同,因此本測量方式的總統滿意度極大程度受到當日議題的
本節從資料的來源到如何將資料轉換成總統滿意度的討論。事實上,本文 是將不同議題的討論狀況轉換成總統的滿意度,與民意調查單純詢問是否滿意 總統的施政表現不同,因此本測量方式的總統滿意度極大程度受到當日議題的