• 沒有找到結果。

第四章 實驗與結果

第二節 實驗資料

在本篇論文實驗所採用的樣本集來源為 Udn 部落格7,Udn 部落格是中文網 站,內容包含新聞、相簿和部落格,其中部落格文章又分類為創作、心情隨筆、

休閒生活、興趣嗜好、時事評論、知識學習、在地生活、不分類。本研究擷取 3,000 篇分類為時事評論的文章,時間從 2014 年 3 月 20 日到 2014 年 5 月 1 日,這些 文章大多數在討論政治和公共議題。接著刪除內容是廣告或者不包含任何字的文 章,最後總共有 1,909 篇有效文章可以應用在實驗中,字數共有 2,495,404 字,檔 案大小共 10.1 M 位元組。

本研究訂立三種搜尋主題進行實驗,分別為:1.學運,2.馬英九,3.馬英九與 學運。此處學運指 2014 年 3 月 18 日,由臺灣的大學生和公民們共同發起佔領中 華民國立法院的太陽花學運。在這 23 天內,相關議題的敘事與論述除了透過傳 統媒體網路表達,許多年輕人透過 PTT 八卦版8/FumouDiscuss9、個人 Blog 或是 臉書10表達自己的想法。希望透過本研究,分析關於這三項主題的文章意見。

7http://blog.udn.com/

8http://webptt.com/m.aspx?n=bbs/Gossiping/index.html

9http://webptt.com/m.aspx?n=bbs/FuMouDiscuss/index.html

10http://www.facebook.com

49

本研究也訂立了三個主題的相關種子詞彙,如表二十二所示,目的為模擬使 用者查詢相關主題的情境,訂定使用者會使用的查詢詞彙,主題種子詞彙的訂定 標準為新聞會使用的詞彙,也就是透過 Yahoo 奇摩新聞搜尋引擎11查詢主題,擷 取與主題相關的 100 篇相關新聞文章,以人工的方式挑選這幾篇新聞文章中代表 主題的詞彙。依照此方法擷取主題種子詞彙,將不會包含網路用語,可能會導致 無法有效擷取實驗文章中的主題相關文章,網路用語如網友以“馬卡茸”一詞代替 馬英九,或者以“綠衛兵”代表學運學生。這些詞彙與主題相關,但是並未被列入 主題相關種子詞彙,所以本研究提出自動擷取出與主題相關詞彙的方法,擴充與 主題相關的詞彙。

表二十二 三個實驗主題與其對應的主題種子詞彙

主題 學運 馬英九 馬英九與學運

主題種子詞彙 學運、太陽花、

反服貿。

馬英九、馬總統、

馬政府、馬政權。

馬英九、馬總統、

馬政府、馬政權、

學運、太陽花、

反服貿。

11 https://tw.news.yahoo.com/

50

B、C)兩兩標記者間之 Kappa 一致性係數(Sim and Wright, 2005),Kappa 計算方式 如公式(18)所示。

其中 Pr(a)為觀測一致性(observed agreement),即兩者測量結果一致的百分 比,計算方式如公式(19)所示;Pr(e)為期望一致性(chance agreement),即兩者測 量結果預期相同的機率,計算方式如公式(20)所示。

51

在公式(19)和公式(20)中的 a 代表標記者 1 和標記者 2 皆標記為類別 1 的文章 數,b 代表標記者 1 標記為類別 1 但是標記者 2 標記為類別 2 的文章數,c 代表標 記者 1 標記為類別 2 但是標記者 2 標記為類別 1 的文章數,d 代表標記者 1 和標 記者 2 皆標記為類別 2 的文章數。標記者標記的情況如表二十三所示。

表二十三 標記者標記情況 標記者 2 類別 1 類別 2

標記者 1 類別 1

a b

類別 2

c d

表二十四、表二十五、表二十六顯示標記者之間的 Kappa 值。

表二十四 標記者 A 和 B 之間的 Kappa 值

主題 主題相關 意見傾向

學運 0.730 0.877

馬英九 0.969 0.820

馬英九與學運 0.755 0.727

52

表二十五 標記者 B 和 C 之間的 Kappa 值

主題 主題相關 意見傾向

學運 0.708 0.710

馬英九 0.913 0.832

馬英九與學運 0.786 0.761

表二十六 標記者 A 和 C 之間的 Kappa 值

主題 主題相關 意見傾向

學運 0.851 0.876

馬英九 0.944 0.843

馬英九與學運 0.967 0.891

以 Kappa 一致性係數而言,其分數大小與一致性程度關係如表二十七(Landis and Koch, 1977; Viera and Garrett, 2005):0.0-0.20 為極低(slight),0.21-0.40 為一般 (fair),0.41-0.60 為中等(moderate),0.61-0.80 為高度(substantial),而 0.81-1 則為 幾乎完全吻合(almost perfect)。

53

表二十七 Kappa 值解讀

Kappa value Agreement

<0 Less than chance agreement, poor agreement 0.01 – 0.20 Slight agreement

0.21 – 0.40 Fair agreement 0.41 – 0.60 Moderate agreement 0.61 – 0.80 Substantial agreement 0.81 – 0.99 Almost perfect agreement

標記者之間最低的 Kappa 值為 0.708,關係為高度(substantial),另外,共有

11 個 Kappa 值在 0.8 以上,達到幾乎完全吻合(almost perfect),所以在本篇研究 中,標記結果有良好的一致性。

實驗文章共有 1,909 篇,三個主題相關文章數如表二十八所示,被標為正面、

中立和負面的文章數如表二十九所示。由於馬英九與學運主題在意見傾向分析的 實驗中,只能分類馬英九與學運主題文章對於馬英九的意見傾向和學運主題的意 見傾向,所以將馬英九與學運主題的文章列入學運主題和馬英九主題。最後,與 學運主題相關的文章共有 515 篇,而馬英九主題則有 731 篇。因為主題相關文章 不一定包含意見,故表二十九的文章總數會大於主題相關文章總數。

表二十八 主題相關文章數

學運主題 馬英九主題 馬英九與學運主題

主題相關文章數 256 篇 472 篇 259 篇

54

表二十九 各主題正面、中立和負面的文章數

主題 包含意見 正面 中立 負面

學運 447 篇 21 篇 155 篇 271 篇 馬英九 639 篇 49 篇 227 篇 363 篇

相關文件