• 沒有找到結果。

第一章 緒論

第三節 研究架構與研究設計

壹、 研究對象

本文將分析 2017 年 PTT 八卦版(Gossiping)上的貼文和回文資料。PTT 和臉 書(Facebook)或推特(Twitter)等社群網站的運作模式不同。PTT 屬於佈告欄式的 網站,根據不同主題分成不同的看版。不同於社群網站利用演算法決定顯示內 容,使用者使用上會因為過去的使用習慣而忽略其他使用者的貼文或回文。PTT 的使用者可以看到所有使用者的貼文、回文,甚至可以回溯相關貼文。並不會 有因交友狀況不同而有不同的互動模式的問題(鄭宇君、陳百齡 2016)。

選擇八卦版則因為在 PTT 上千個不同主題的看板中,不同的看板有不同的 板規,絕大部分的看板不允許討論政治。縱使允許討論政治也會依照黨派劃 分,此時可能面臨系統性的偏誤,再者不同黨派的看板在文章的數量很少造成 分析上的困難。而八卦板的貼文數量佔 PTT 所有貼文的 20%上下,是 PTT 最大 的看板,且相對與各個專業看板,八卦板的限制較少,議題也相對多元,因此 本文將以八卦版為主。

本文作為新方法的研究,並無意與推論台灣民眾,而只是提供一種新的方 法探知趨勢而已。因此本文結果並無法推論全台灣民眾僅止於 PTT 八卦板 2017 年的約 22.8 萬使用者。

貳、 研究設計與研究假設

本文作為新方法的嘗試,在研究設計上分成兩個部分。首先,在總統滿意 度的測量部分,本文必須確保新測量方式可以有效測量 PTT 八卦版網友的總統 滿意度。第二,本文將透過自然實驗法(Natural Experiment)來評估 729 限電事件 與 815 跳電事件對總統滿意度的影響。以下,將分述上述兩個部分的研究設計 與研究假設。

一、 新測量方式的有效性

首先在總統滿意度的計算部分,本文利用機器學習的半監督學習來 自動分類討論蔡英文的貼文是否支持蔡英文,並計算其滿意度。而此滿意度 的計算方式將和民調資料進行比較。這部分,本文將以貼文者會回文者的 ID 為單位進行分析,過去的大數據研究通常使用聲量(Voice)來進行分析,如劉 嘉薇(2017)。但這樣的方式並不適合與民調資料進行比較。在民調資料的蒐 集中,理論上一個人僅可能被訪問一次,但聲量是計算討論的篇數,這樣的 分析層次相距太大,而且會有童振源等(2011)所提網路資料的灌水問題。因 此本文將以貼文者或回文者的 ID 進行控制,每個 ID 在一個時間段就僅有一 個態度。當然這樣的方是在嚴格意義上來說還是和民調單位分析的人有差 距,但相較於聲量的計算方式,以 ID 應該是較為貼近以個人為分析單位的方 式。

本文將比較新測量方式所得之總統滿意度是否與既有的研究發現相 符。既有文獻發現總統滿意度受到執政時間(林修全 2013,盛治仁、白瑋華 2008,Stimson 1976,Mueller 1970)、經濟表現(林修全 2013,蔡昌言

2010,盛治仁、白瑋華 2008,King & Cohen 2005)、政黨認同(Erickson 2002,

Fox 2009)和事件(沈芯菱 2015,Willer 2004,Gaines 2002,Kernell 1978)等因 素的影響。因此,若新測量方式能夠有效的測量出總統滿意度,則新測量方 式結果應與既有文獻的結果相符。然而在本研究中,上述四大因素中,由於 無法得知使用者的政黨認同,因此在政黨認同的部分,本文將無法討論。

二、 事件對總統滿意度的影響

第二部分則為事件的影響部分。本文採用自然實驗法(Natural Experiment)探討是否受到停電影響與影響大小將使用者進行分組,並進一步 討論事件的影響。在 815 停電之前,台灣因受尼莎颱風影響造成花蓮和平電 廠的電塔倒塌,進而造成 2017 年 7 月 29 日到 8 月 14 日的限電危機(以下簡

稱 729 限電)。 獻中,處理中文的語意分析多使用潛在語意分析(Latent Semantic Analysis, LSA),

如陳明蕾等(2009)。雖然 LSA 的方式在面對大量文本時會有效率問題,且有 Google 公司在 2013 年釋出 Word2Vec 的原始碼,適合用於大規模文本的分析,

並在運算效率上有較好的表現(鄭捷,2018:9-16)。Altszyler et.al (2016)比較 LSA 和 Word2Vec 的表現也證明,以預測為基礎的 Word2Vec 較以計數為主的 LSA 更 適合處理大量文本。

然而 Altszyler et.al (2016)指出在千萬字詞以上 Word2Vec 在文本處理上會較

LSA 更為合適,而本文不論是以何種斷詞方式,字詞數量皆不超過千萬,因此 本文將以 LSA 作為語意分析之方法。

相關文件