資料來源與資料處理

第二章總統滿意度的測量

第一節資料來源與資料處理

壹、資料來源

本研究利用 EXCEL VBA 撰寫爬蟲程式爬取 2017 年 1 月 1 日到 2017 年 12 月 31 日的八卦板貼文約 90 萬篇貼文。爬蟲方式分成三個部分：

首先，程式自動打開網頁版的八卦版，由新至舊抓取貼文的標題、作者、

時間及貼文內容連結，直到抓取到上一次抓取的最新貼文為止。

第二，程式自動打開前一階段抓取之所有貼文連結。並抓取發文的標題、

作者 ID、發表時間、發文內容、發文者 IP 等貼文資訊。同時抓取貼文下方回覆者的 ID、推噓標記、回覆內容及回覆時間等資訊。

第三，程式分別會在貼文後 20 分鐘、250 分鐘、1 天、3 天及 15 天後重新抓取貼文的回覆並標記貼文是否還存在。從本文的回文數據來看，貼文的回文時間統計上，平均而言 16 分鐘會累積所有回文的 50%，250 分鐘時則會高達 90%，99%的回文會在貼文後的 1 天內回覆，而 3 天及 15 天是為了確認貼文是否有被刪除。

透過上述三個部分的抓取，2017 年整年度中，本文共抓取 909,104 筆貼文及 23,625,792 筆回文。

貳、資料處理:新測量方式的建立

如何將前述蒐集的貼文資料轉化成總統滿意度將是本節的討論重點，以下將針對本文如何將前述的貼文資料標註為是否滿意蔡英文。

一、斷詞

斷詞是進行中文的自然語言處理時重要的工作，斷詞的結果將影響後續的處理(陳稼興等 2000)，甚至可能影響最後的分類結果(黃純敏等 2014)。

近年來，隨著自然語言處理的興起，如何進行中文斷詞有了相當多的討論(黃純敏等 2014、林千翔等 2010、Wei-Yun Ma et.al 2004、陳稼興等 2000)。然而，本研究並無意另起爐灶，因此在斷詞上將採用較常被使用的兩種方式，分別是中央研究院中文知識庫小組的中文斷詞系統(CKIP)與 Github 上的結巴(Jieba)系統。

中央研究院的 CKIP 系統發展較為成熟，但與 python 等軟體的相容性較差，且有傳輸限制，在使用上限制較多。然而憑藉其詞性標註且詞庫豐富，在斷詞結果上依然有較好的表現。不少研究都採用 CKIP 的斷詞方式 (陳建輝等 2016，陳世榮 2015，游和正等 2012)。

結巴(jieba)套件為 Github 於 2012 年上傳的套件，可做為中文文本的斷詞使用，然而 jieba 原始的詞典為簡體中文版，若直接以結巴原始詞典進行斷詞，涉及簡體中文與繁體中文的轉換問題。然而在 Github 上亦同時有針對台灣的繁體中文(jieba-zh_TW)詞典可更改詞典設定並進行繁體中文斷詞使用。相較於 CKIP，jieba 系統在使用上較為方便，與 python 的相容性也較好。因此本文也將其納入討論。

最後斷詞結果中，CKIP 系統將 90 餘萬篇貼文斷成約 1.56 億個字詞，

而 Jieba-zh_TW 則斷成約 1 億個字詞。然而針對這些字詞分類時，CKIP 的斷詞結果是由 97.3 萬個不同字詞所組成，而 Jieba-zh_TW 則可分成 159 萬個不同的字詞。顯見，CKIP 在斷詞穩定性上較 Jieba-zh_TW 好，且 CKIP 的不重複字詞數較少，對於後續 LSA 分析中稀疏矩陣(sparse matrix)的建立和應用上也較為方便。

二、文本選擇

由於八卦版並非僅討論政治，本研究專注於討論總統滿意度，因此在分析上並非將所有貼文及回文納入分析。在分析上將專注於總統滿意度而非政府滿意度，因此在文本的選擇上，本文僅就提及蔡英文總統及相關關

鍵字的貼文進行分析。

在關鍵字的選擇上，本文將前述的斷詞結果，以 python 的 Word2vec 套件分析字詞的相關性，並找出相關的關鍵字。

最後本文以「蔡英文」、「蔡總統」、「小英」、「蔡政府」四個關鍵字進行搜尋，共找出 25,803 篇貼文及貼文中的回文共 1,073,762 則進行分析。

三、訓練集編碼

針對討論蔡英文相關的 25,803 則貼文，本文隨機抽取 2%的貼文共 502 篇，其中有 9 篇為簽名檔提及蔡英文，而非內文和蔡英文有關，因此本文將其排除，共人工編碼 493 則貼文，依照貼文的文字判斷該貼文是否滿意蔡英文、是否不滿意蔡英文、是否無法判斷等三個變數。

人工標註原則有三。一、貼文字面意思即為滿意或不滿意蔡英文；

二、貼文字面意思無法判斷是否滿意，但該文若有推文則推文內容是否為滿意，若為滿意則標註貼文為滿意，反之則標註為不滿意。三、無法以前兩個原則判斷則標註為無法判斷。

最後，493 則貼文中，共 130 則標註為滿意、330 則標註為不滿意、33 則標註為無法判斷。

四、演算法選擇

在文本分類的演算法選擇上，既有的研究較常採用單純貝氏分類器 (Naïve Bayes)、支援向量器(Support Vector Machine, SVM)、最近鄰居法(k Nearest Neighbor, KNN)和邏輯式迴歸(Logistic Regression)進行文本的分類(陳世榮 2015，黃純敏等 2014)。因此本文在使用上，以上述四種演算法進行文本的分類測試，尋找成功率較高的分類方式作為本文進行文本判讀時使用。

表 2-1-1 顯示不同演算方式的測試結果，以 493 篇手動編碼結果為基礎，本文以 5%為測試集、95%為訓練集進行 100 次隨機分配，先進行訓練

集的擬合，並以此進行測試集的預測。並依照斷詞方式的不同分別進行測試。

表 2-1-1 不同演算法測試 100 次結果

CKIP Jieba-zh_TW

平均標準差平均標準差

Naïve Bayes 65.44% 9.76% 63.88% 9.16%

Logistic 78.72% 8.85% 75.16% 9.57%

SVM 80.24% 7.79% 77.44% 7.75%

KNN(n=5) 63.16% 9.35% 61.52% 9.89%

從表 2-1-1 的測試結果中，可以發現中研院 CKIP 系統的斷詞結果，不論在何種演算法分類中表現都較 Jieba 台灣版字典好。而不論是 CKIP 或是 Jieba 斷詞，可以看到 SVM 的分類結果不只平均成功率較高，其成功率也較為穩定。而這樣的結果與既有研究也不謀而合，不論是黃純敏等(2014) 或陳世榮(2015)在文本分類的演算法上都顯示 SVM 的分類效果較好。因此本文在最後的貼文是否滿意蔡英文的標註上，將採用 CKIP 斷詞並以 SVM 為分類的演算方式。

五、貼文編碼

在貼文編碼上本文採用 CKIP 斷詞，並建立稀疏矩陣，再以 SVM 進行文本分類。本文將人工編碼的 493 則貼文作為訓練集對未人工編碼的 25,310 篇逐篇進行編碼。在判讀貼文是否滿意蔡英文部分，首先必須確定貼文內容是否完全由作者撰寫。若是，則以貼文全文進行判讀；若不是，

則需找出作者意見部分進行判讀。在未判讀的 25,310 篇貼文中，有 11,657 篇貼文為內容完全由作者自行撰寫可代表作者意見，13,653 篇貼文為作者回應某則貼文或評論某篇新聞等，有部分內容不能代表作者意見，這部分本文將分開判讀，判讀原始貼文態度與作者評論態度。

表 2-1-2 貼文標註結果對照表

來看，絕大部分是被標註為貼文不滿意蔡英文，整體而言，本文在貼文標

→ 中立中立

由於八卦版僅針對每日貼文數量有所限制，對於回文數量並無限制，

因此未避免少數 ID 大量回文的灌水造成分析上的偏誤，因此本文在滿意度的計算上以 ID 為單位計算。即在同一時間內，不論單一 ID 的貼文和回文數量多寡，只要標註中滿意態度大於反對態度則該 ID 在該時間內就只會被標註為滿意，反之亦然，藉此避免單一帳號大量留言造成的高估或低估。

因此本文滿意度的計算算式如下：

滿意度 =標註滿意數量大於不滿意數量的 ID 數時間區段內討論蔡英文的 ID 數

參、滿意度結果初探

最後，2017 年一整年中，共有 60,699 個 ID 參與蔡英文相關貼文的討論，

平均每個 ID 約有 18 次留言或貼文，其中被標註為滿意數量大於不滿意數量的 ID 數共有 15,953 個，而不滿意大於滿意的則有 34,143 個，另外 10,603 個 ID 則是標註為滿意與不滿意的數量相等。因此，整年來看蔡英文在 PTT 八卦版上的滿意度為 26.28%。

然而這些滿意度並非平均的分配在每一天，從圖 2-1-1 來看，其實每日的總統滿意度變化劇烈。

若以每天的滿意度來看，總統滿意度最高的時間點落在 2 月 11 日，當日的總統滿意度為 55.38%，但僅為一日行情，隔日(2 月 12 日)即滑落至 32.85%。若抓出 2 月 11 日的貼文狀況則會發現，總統滿意度飆高的原因在於當日松山機場遭無人機入侵，進而影響飛機起降，而當時國防部長馮世寬要求再有無人機闖入一律擊落。該則貼文吸引 617 個不同 ID 前往回覆，其中 516 個 ID 被標註為滿意，然而此新聞熱度僅有一天，隔日議題就沒有相關貼文，而滿意度也隨即滑落。

圖 2-1-1 2017 年每日滿意度

另外，本文計算之滿意度最低為 10 月 30 日的 11.84%，然而該日滿意度極大程度受到討論數不足的影響。主要原因在於 2017 年 10 月 30 日到 11 月 2 日，PTT 發生技術問題而關站，因此計算上 10 月 30 日在關站之前僅有 74 個 ID 討論和蔡英文相關的貼文，相較於每日平均 1,690 個 ID 的討論，10 月 30 日的討論 ID 少進而造成極端值的出現。

若排除上述時間段的關站因素，總統滿意度的最低點在 7 月 6 日的

16.17%，當天主要的原因在於蔡英文前往高雄天后宮參拜時，遭到反年改團體的煙霧彈攻擊，此則新聞吸引 565 個 ID 前往討論，其中 486 個 ID 被標註為不滿意。然而仔細查閱留言內容便會發現，網友並非反對年金改革，而是不滿政府讓反年改團體成功擾亂總統行程。事實上，八卦版對於年金改革的討論並不

踴躍，不論是 3 月 30 日行政院送出草案或是 6 月 28 日當天立法院三讀通過，

都沒有引起網友太多的討論，而總統滿意度也未出現劇烈變化。但是不論是 6 月 29 日蔡英文參軍校聯合畢業典禮時車隊遭到攻擊、7 月 6 日遭丟煙霧彈或世大運 8 月 19 日開幕儀式受到影響，相關的貼文都造成網友對蔡政府的不滿。

綜上，雖然整體而言，2017 年滿意標記大於不滿意標記的 ID 僅有 26%左右，然而本文計算之總統滿意度每日起伏甚大，甚至有少數的日子，總統滿意度是高於 50%的，然而從上述最高與最低的例子來看，議題的討論決定本方法計算的總統滿意度。

肆、小結

本節從資料的來源到如何將資料轉換成總統滿意度的討論。事實上，本文是將不同議題的討論狀況轉換成總統的滿意度，與民意調查單純詢問是否滿意總統的施政表現不同，因此本測量方式的總統滿意度極大程度受到當日議題的

在文檔中 815停電事件對總統滿意度的影響：以文字探勘為途徑 (頁 26-34)

第二章 總統滿意度的測量

第一節 資料來源與資料處理

壹、 資料來源

貳、 資料處理:新測量方式的建立

一、 斷詞

二、 文本選擇

三、 訓練集編碼

四、 演算法選擇

五、 貼文編碼

參、 滿意度結果初探

肆、 小結