• 沒有找到結果。

第四章 研究分析與結果

第一節 斷詞與文本集群分析

在詞彙上有差異的類種群體(Eigen & Schuster, 1977),為了區分屬於不同模因類 種的主文,本研究透過 R 軟體擴充功能進行斷詞與文本集群分析,執行步驟如 同前一章所探討的內容,其中包含資料清理、斷詞和最後的加權與集群分析,以 下為主文斷詞與集群分析結果和不同集群的質性內容敘述。

針對課綱微調議題,在 2015 年 4 月 1 日至 2015 年 12 月 31 日之間產生主文 數量最高的網路平台為 Yahoo!奇摩新聞,因此本研究以該網站的主文文本為分 析對象,Yahoo!奇摩新聞總共有 1761 篇主文,同時該網站也提供使用者透過回 文的方式上傳針對主文的討論,可惜的是 Yahoo!奇摩新聞並不提供點閱率的紀 錄,所以本研究的假設分析中並沒有針對點閱率進行驗證,另外因為 Yahoo!奇 摩的新聞來自許多不同網路新聞與社群媒體,因此主文之間的差異相較於其他網 路新聞會比較高。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

101

壹、 集群內容

本研究針對 Yahoo!奇摩新聞 1761 篇主文總共斷出 93225 個詞彙,其中稀疏 性為 99.82(Non-/sparse entries: 287708/163881517),在排除掉出現在少於 10%主 文的詞彙後,總共有 132 個詞彙,透過 K-means 所進行的初步集群分析所獲得 的組內平方和變化如圖 8:

圖8: Yahoo!奇摩新聞主文 K-means 集群分析組內平方和

從圖 8 可以發現將文本分成超過 7 集群,對於各集群組內平方和的影響並不 大,當分成 8 個集群時組內平方和反而還增加,因此 Yahoo!奇摩新聞主文最適 合被分為 3 到 7 個集群,這個結果與層級集群分析所獲得的樹狀圖一致。在圖 9 中可以看到,各集群之間的差異大約在被分成 7 集群以上後就漸漸減少,所以本 研究主要針對 3 集群與 7 集群的結果進行統計分析,部分假設因為需要比較許多 不同的集群,因此在分析這些假設時,本研究將只針對 7 個集群的結果進行分 析。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

102

圖9: Yahoo!奇摩新聞主文層級集群分析樹狀圖

在透過層級集群分析分組後,本研究透過簡單的加總統計探討個別集群主要 的詞彙,不同集群中最具有代表性的詞彙為 tf-idf 最高的詞彙,因為這些詞彙能 夠區分各個集群主文與其他集群的主文,同時也是文本集群分析所依據的權重,

出現在主文篇數最多的詞彙也是了解不同集群很重要的特徵,因為這些是不同集 群主文之間共同的模因,最後本研究也特別針對頻率最高的詞彙進行討論,因為 這些詞彙背後的模因的重複性高,使得自己被注意、複製的機率也提升。

首先在表 8 中,可以看到各個集群中標準化 tf-idf 權重加總最高的前五個詞 彙,在 7 個集群的分類中各個集群 tf-idf 總和最高的詞彙分別為吳思華、民眾、

蔡英文、台灣、代表、警方、臨時,因為文本集群分析的距離是透過 tf-idf 進行 計算的,所以可以說這些詞彙為各個集群最獨特的詞彙,這些詞彙的存在使得不 同集群的文章能夠被明確得區分。

表8: Yahoo!奇摩新聞主文各集群詞彙權重 集群 各個集群 tf-idf 最高的 5 個詞彙

k = 7 1 吳思華 爭議 高中 教育 新舊 8.294812 5.214564 7.421351 5.694016 4.491143

2 反課綱 民眾 抗議 持續 學生

6.928909 8.017115 4.652556 5.599773 6.22079

3 主席 民進黨 社會 政治 蔡英文

2.490932 5.070864 1.218272 1.952552 6.775325

4 台灣 政治 國家 歷史 總統

4.532956 1.637184 1.635113 2.155229 3.431155

5 反課綱 代表 吳思華 思華 學生

1.072551 5.79711 2.111388 0.8082 1.818198

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

103

集群 各個集群 tf-idf 最高的 5 個詞彙

6 反課綱 現場 部長 學生 警方

0.944192 1.076778 0.930717 1.05643 4.650213

7 召開 民進黨 協商 訴求 臨時

3.785869 2.39181 6.415529 1.582278 7.461395 在表 9 中,可以看到各個集群中出現在最多篇文章中的前六個詞彙,雖然這 些詞在多篇文章中出現,不過因為它們過於頻繁,使得這些詞彙無法被用於區別 不同集群文章之間的差異,因此對於不同集群的特徵並沒有很大的影響。

表9: Yahoo!奇摩新聞含有特定詞彙的文章次數

集群 各個集群中出現在最多文章中的前 6 個詞彙所出現的文章數 k = 7 1 吳思華 爭議 微調 課綱 學生 表示

325 343 509 502 364 259 2 反課綱 報導 微調 課綱 學生 爭議

348 256 538 432 414 235 3 民進黨 微調 蔡英文 課綱 學生 主席

137 156 132 143 116 95 4 台灣 報導 微調 課綱 學生 社會

168 114 226 172 120 110 5 反課綱 代表 吳思華 微調 課綱 學生

52 65 57 63 52 65 6 反課綱 微調 課綱 學生 警方 表示

64 76 48 71 78 44 7 召開 微調 課綱 學生 臨時 民進黨

84 111 117 98 109 82

*因為斷詞演算法將「課綱微調」分為兩個詞彙,因此本研究納入前六個次數最 多的詞彙

在表 10 中,可以看到當 Yahoo!奇摩新聞主文分成 7 個集群時,在各個集群 中出現頻率最高的前 6 個詞彙,有部分也是 tf-idf 權重比較高的詞彙,畢竟 tf-idf 的計算也包含標準化的詞彙頻率。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

104

表10: Yahoo!奇摩新聞各個主文集群出現頻率最高的詞彙 集群 各個集群中出現頻率最多的前 6 個詞彙

k = 7 1 吳思華 爭議 高中 微調 課綱 學生 1082 822 578 1511 2741 1431 2 反課綱 吳思華 爭議 微調 課綱 學生 797 455 385 1110 1490 1739 3 反課綱 民進黨 微調 蔡英文 課綱 學生 184 541 332 442 544 383 4 台灣 社會 微調 課綱 學生 歷史

937 275 412 590 335 302 5 反課綱 代表 吳思華 微調 課綱 學生

121 193 164 120 202 336 6 反課綱 表示 微調 課綱 學生 警方

117 63 109 94 315 234 7 召開 協商 微調 課綱 學生 臨時

240 310 239 550 283 444

*因為斷詞演算法將「課綱微調」分為兩個詞彙,因此本研究納入前六個次數最 多的詞彙

貳、 集群質性分析

如本研究在文獻回顧所解釋的,不同詞彙可以說是個別模因與環境互動所產 生的一對一表型,而這個表型是該模因的第一層互動者,類同進化過程中的基因 是透過不同 DNA 上化學結構組成的,而如基因一樣,模因與環境的互動並不只 停留在詞彙這一個層級的表型,詞彙同時也會結合在一起形成詞彙組,並透過詞 彙組建構完整的網路文章,聯合起來建構完整文章複製自己的模因組,與聯合起 建構完整 DNA 來建立生物用於複製自己的基因組是一樣的,不過因為表型本身 是複製者與環境互動的產物,因此如 Gil-White (2008)所解釋的背後由相同模因 產生的表型之間一定會有部分差異,同時由模因組所產生的同一種主文「種類」

就算表型相似,背後的模因組合也可能有些微的差異,這與生物物種中個別生物 之間存在的表型與基因差異是一樣的,所以類同「種類」的主文之間一定還是有 部分詞彙與結構的差異,但原則上透過文本集群分析所進行的文本分類,是能夠 區分不同主文「種類」的,接下來本研究將透過質性的方式針對各集群或「種類」

的主文進行探討,為了使得用於舉例的文本具有一定重要性,以下主要針對回文 數最高的文章進行討論。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

105

一、 集群 1

最能夠區分集群 1 的詞彙可以在表 8 至表 10 中看到,其中在文本集群分析 過程主要用於定義集群 1 的 tf-idf 最高詞彙為吳思華、爭議、高中、教育、新舊,

不過在該集群中出現在最多主文中的詞彙則為吳思華、爭議、微調、課綱、學生、

表示,而頻率最高的詞彙為吳思華、爭議、高中、微調、課綱、學生。

可以看到建構集群 1 主文的主要詞彙,當被合併在一起與環境互動產生主文 時,大都產生在探討課綱微調事件中教育部要如何處理事件的文章,部分主文在 探討教育部場的發言而部分在評論課綱微調教育部的處理手段,以下的集群 1 種類主文,為回文數最高的主文,在表 11 中可以看到這篇主文的特徵,這篇主 文發表在 2015 年的 7 月底,而其所引發的回文數超過 4 千篇,同時期所引起的 負向情緒超過正向情緒。

吳思華:課綱若暫緩 學生會拿不到課本

課綱爭議越演越烈,立法院今天朝野協商討論是否召開臨時會處理,教育部長 吳思華也與會。據與會立委轉述,吳思華表示,去年 2 月已經公告新課綱,教 科書已經印好了,若暫緩課綱,會拿不到教科書。<BR>課綱爭議不斷,日前有 民眾向台北高等行政法院聲請假處分,但台北高等行政法院今天駁回,新課綱確 定明天上路。<BR>教育部今年 6 月 1 日定調「新舊教科書併行」,將選書權交 給教師專業自主,目前全國各校都已完成選書,國家教育研究院教科書發展中心 主任楊國揚表示,各版本教科書如期交付各校,不是問題。<BR>楊國揚表示,

高中教科書採「一綱多本」多年,出版社的作業流程,一般是先印幾千本樣書給 學校,確定選用後,才會再加印。這段時間一般都是在每年的 5、6 月間,「現 在這個時間點,早就都印好了」。<BR>楊國揚比較擔心的是,如果在爭議中撤 回新課綱,是否代表新教科書都不能使用?對教學將形成困擾。<BR> <BR>■ 新 聞專輯╱課綱微調掀爭議

表11: Yahoo!奇摩新聞主文集群 1(k=7)回文數最高主文特性

發表時間 回文數 正向情緒 負向情緒

2015/7/31 17:48 4549 0.238 0.498

二、 集群 2

最能夠區分集群 2 的詞彙可以在表 8 至表 10 中看到,其中在文本集群分析 過程主要用於定義集群 2 的 tf-idf 最高詞彙為反課綱、民眾、抗議、持續、學生,

而最多文章都擁有的詞彙,就是所謂出現在最多主文的詞彙為反課綱、報導、微 調、課綱、學生、爭議,頻率最高的詞彙則是反課綱、吳思華、爭議、微調、課

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

106

綱、學生。

可以看到建構集群 2 主文的主要詞彙,當被合併在一起與環境互動產生主文 時,大都產生在探討反課綱微調學生的行動與政治人物與這些行動的互動,以下 為集群 2 種類主文中回文數最高的主文,不過因為此篇主文所包含的詞彙並不包 括許多 tf-idf 比較高或頻率比較多的詞彙(抗議、持續、報導、爭議),因此本研 究另外在多納入回文數第二多的主文。在表 12 中可以看到這篇文章是在 2015 年 8 月 3 日發布的,同時引發了超過 1 千 3 百多篇回文,其負向情緒高過正向情 緒。

下一步怎麼走?反課綱學生 4 日宣布

反課綱微調學生代表今天與教育部長吳思華對談後不歡而散,下午 5 時回教育 部前廣場時,學生朱震、陳建勳、蕭竹均向民眾鞠躬道歉表示這場會談中吳思

反課綱微調學生代表今天與教育部長吳思華對談後不歡而散,下午 5 時回教育 部前廣場時,學生朱震、陳建勳、蕭竹均向民眾鞠躬道歉表示這場會談中吳思