第四章 研究分析與結果
第七節 詞彙組的影響
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
151
因此 n 就只等於 7,所以為了提升該分析的品質本研究同時針對探討青年全球移 動力的 Yahoo!奇摩新聞主文與探討課綱微調議題的自由時報主文進行斷詞與文 本集群分析,並將這些不同網路新聞的集群納入計算,本研究之所以沒有考慮把 部落格與社群網站納入分析當中,原因在於部落格的主文篇數很少,而社群網站 的主文並非該網站中模因所用於複製自己的主要工具,例如 Youtube 中的模因主 要是透過影片的方式複製自己,因此網路中的文字影響力會遠小於網路新聞文字 的重要性,社群網站的模因主要透過影片、圖像與回文的方式擴散,因此要了解 其模因所產生的表型之間的差異,則不能只針對主文進行分析。
本研究在表 57 中呈現,很顯然的因為集群分析本身在方法上的特性,使得 集群數量會與集群內平均距離有正向的關聯性,畢竟越大的集群越可能含有由不 同模因組建構的主文,不過在回文數方面之關係剛好相反,繁殖率越高的集群彼 此之間的差異性反而會下降,而繁殖率越低的集群則集群之間的差異會提升,這 個現象表示繁殖率高的大集群因為主文數量多,模因類種之間所受到偶發事件與 隨機因素的影響程度就會下降,反觀在繁殖率小的模因類種中,因為數量少所受 到的遺傳漂變影響高,使得集群內在未來的變異會提升,因為個別偶發事件與隨 機因素的影響力比率高過對於大集群的影響。
表57: 集群內平均距離與主文數、回文數、正負向情緒的關係
相關1 集群主文數 平均回文數
集群內平均距離 .697** -.240
*:𝑝 < 0.05 **:𝑝 < 0.01 ***:𝑝 < 0.001
1包含 Yahoo!奇摩新聞(兩個議題)與自由時報(n=20)
很顯然的遺傳漂變的影響並不大,同時也很難辨識,Prentice, Hennig, &
Fulford (2008)在針對人類肥胖產生的研究就提到過去以遺傳漂變的模型來解釋 這個現象並不正確,因為根據過去人口的變化導致肥胖的基因很可能對於自然選 擇是有幫助的,本研究也覺得遺傳漂變的影響並不明確,所以在資料分析時考慮 許多不同影響模因類種變動的因素,同時本研究針對遺傳漂變的分析也只屬於描 述性,而非在驗證過去的模型,這節所驗證的假設 10 整體結果,可以在本章第 八節的表 72 中看到。
第七節 詞彙組的影響
本研究在文獻回顧中所提到的順從者偏見意思就是當特定模因的數量在環 境中越高時,其更能夠複製自己(Shennan, 2008;2011;Laland & Brown, 2002;
Gil-White, 2008),因為在環境中該模因的數量大,使得它所產生的表型更容易被 接受,頻率依賴選擇是一種自然選擇的過程,頻率依賴是當一種基因體(產生特 定表型特徵、策略的基因體)的適度會隨著其在整體牲口中的頻率變動,頻率依
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
152
賴的影響在許多不同種類的生物中都有(Arpin & Cushing, 2008;Bleay,
Comendant, & Sinervo, 2007;Collins, Hart, & Molofsky, 2010;Takahashi & Kawata, 2013),而該選擇可能是基於不同基因體表型之間的競爭或是物種之間獵食、競 爭關係(前者是不同基因之間的競爭,包含不同策略之間的競爭,後者則是不同 生物之間的互動)產生的(Collins, Hart, & Molofsky, 2010;Takahashi & Kawata, 2013),有學者認為頻率依賴選擇就是進化穩定策略(evolutionarily stable strategies, ESS)所探討的動態,因此也可以說頻率依賴選擇是個人的適度會受到人口中其他 個人行為影響的現象(Eadie & Fryxell, 1992;Mappes et al., 2008),許多種群基因 模型常常會忽略基因體變異的影響,不過頻率依賴選擇在分析短時間基因體變動 趨勢時額外得重要(Arpin & Cushing, 2008),因此在分析快速變動的網路文本時,
探討文本背後詞彙頻率的影響是很重要的,不過模因與其所產生的表型與自然界 生物很不一樣的地方在於自己的複製是可以透過橫向的方式進行,換句話說模因 的複製並不依賴直向透過一代一代繁殖的方式進行,因此對於模因而言頻率依賴 的影響可以說是脫離主文下的詞彙與詞彙組密度依賴動態,所以本研究認為可以 透過分析密度依賴的技巧來分析詞彙的變動,這節中本研究將針對不同模因類種 主文內部詞彙組(模因組)的變動趨勢進行分析。
壹、 詞彙集群分析
過去模因學的研究不一定以主文為分析單位,例如 Colbaugh & Glass (2012) 主要是針對短句分析,而 Shifman & Thelwall (2009)則是針對主文中重複的單一 笑話文本當作研究單位,不過這些學者在定義非主文的模因單位時,並沒有一個 嚴謹的標準,本研究則是透過文本探勘的技術萃取出統計上真正會組合再一起複 製自己模因的詞彙組。
如果把模因的複製視為能夠獨立於主文時,則可以針對個別詞彙或詞彙組的 演化趨勢進行探討,為了進行這方面的分析,同樣可以透過集群分析的方法進行,
只不過把被分群的目標從一篇篇的主文轉換成個別的詞彙,在圖 23 中,本研究 一樣先透過 K-means 集群分析來決定最適合的集群數量,不過因為詞彙集群分 析的目的是在找出那些能夠獨立於文本複製自己的詞彙組,因此必須針對集群少 的詞彙組進行分析,因為這些才是那些真正脫離必須透過與其他多數詞彙模因共 同建構主文的方式才能夠複製自己的模因。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
153
圖23: Yahoo!奇摩新聞詞彙 K-means 集群分析組內平方和
在圖 24 中可以看到 Yahoo!奇摩新聞詞彙層級集群分析的樹狀圖,圖中可以 看到把詞彙分成 12 組時組間差距的變化會最小,這一點和圖 23 的結果一樣,所 以本研究將 Yahoo!奇摩新聞有出現在 10%或更多主文中的 132 個詞彙分成 12 個 詞彙集群。
圖24: Yahoo!奇摩新聞詞彙層級集群分析樹狀圖
在表 58 中可以看到 Yahoo!奇摩新聞詞彙層級集群分析(k=12),各個集群中 所包含的詞彙,可以看到集群 1、2 和 4 至 8 都包含很多個詞彙,這表示這些詞 彙背後的模因原則上是透過與眾多其他詞彙一起合作建構完整主文的方式在複
‧
量使用來簡化資料的空間(Dhillon & Modha, 2001),使得後續的分析演算法能夠 更有效得針對有意義的資訊進行分析,圖 25 為 SVD 向度縮減的運算方式,Best (1997)、Best (1997b)與 Pocklington & Best (1997)針對網路文本模因的研究同樣也 是應用這個方法來萃取出不同詞彙組所構成的模因,因此本研究除了透過詞彙集 群分析來辨識不同模因組外,同時也使用 SVD 進行分析,表 59 為本研究針對 Yahoo!奇摩新聞詞彙 SVD 分析所獲得的詞彙因子,本研究參考 Best (1997)、Best (1997b)與 Pocklington & Best (1997)的做法同樣只將因子負荷量高於 0.1 的詞彙視 為屬於特定因子,不同因子可以說是不同的模因組,而如同本研究在進行模因定‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
155
義時所提到的,模因與表型之間的關係不一定是一對一,所以透過 SVD 獲得的 因子來呈現不同模因組並不與本研究的理論觀點衝突。
圖25: 奇異值分解(SVD)詞彙因素分析的運算過程
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
156
表59: Yahoo!奇摩新聞 SVD 詞彙因子與特徵值(VT)
因子 各個因子內容與詞彙空間特徵值
1
2 反課綱(0.133) 民眾(0.6349) 抗爭(0.2042) 持續(0.633) 3 代表(0.2589) 吳思華(0.18) 高中(0.151)
4 代表(0.5715) 吳思華(0.2868) 協商(0.3131) 思華(0.1134) 訴求(0.1292) 學生(0.1456) 5 代表(0.1263) 抗爭(0.321) 持續(0.5976)
6 反課綱(0.1267) 主席(0.1293) 代表(0.4071) 召開(0.1619) 民進黨(0.1784) 立委(0.1424) 記者會(0.1277) 現場(0.1418) 蔡英文(0.3497) 學生(0.1184) 臨時(0.2467)
7 召開(0.2684) 吳思華(0.1861) 委員(0.1301) 新舊(0.102) 臨時(0.4904)
8 反黑箱(0.1574) 反課綱(0.1811) 召開(0.1636) 行動(0.252) 抗議(0.2291) 高中(0.1541) 現場(0.1755) 團體(0.2821) 聯盟 (0.2833) 臨時(0.1728) 警方(0.3042)
9 下台(0.1031) 不要(0.1023) 台北(0.1532) 市長(0.2426) 吳思華(0.2413) 教育部長(0.139) 現場(0.2171) 部分(0.1217) 部長 (0.2042) 警方(0.4219)
10 主席(0.101) 抗議(0.2741) 高中(0.5582) 現場(0.1556) 部長(0.1316) 蔡英文(0.2776) 臨時(0.1026)
11 代表(0.1787) 台北(0.236) 台灣(0.1087) 市長(0.5104) 爭議(0.1483) 表達(0.1025) 高中(0.3099) 新課綱(0.1185) 總統 (0.2868)
12 引發(0.1395) 立委(0.2478) 吳思華(0.2757) 爭議(0.1562) 表達(0.1529) 高中(0.1192) 教育部長(0.1451) 新舊(0.1127) 團體 (0.1482) 總統(0.2223)
13 下台(0.1568) 反黑箱(0.1016) 台灣(0.2085) 行動(0.2497) 吳思華(0.1181) 思華(0.1083) 要求(0.1236) 新課綱(0.1377)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
157
因子 各個因子內容與詞彙空間特徵值
聯盟(0.3672)
14 台灣(0.1431) 民進黨(0.1935) 立委(0.1015) 教育(0.1123) 教師(0.1107) 新課綱(0.3522) 新舊(0.2731) 團體(0.2035) 學校 (0.1829) 警方(0.1025)
15 代表(0.1209) 爭議(0.1261) 政治(0.1173) 教育(0.1969) 教師(0.1617) 現場(0.2458) 部分(0.2682) 新舊(0.2201) 團體(0.3781) 總統(0.128) 臨時(0.1559)
16 不要(0.1373) 台灣(0.3253) 希望(0.1323) 抗議(0.2106) 訴求(0.1788) 團體(0.4109) 臨時(0.1134)
17 代表(0.1533) 台灣(0.4089) 國家(0.1228) 教育(0.1625) 部分(0.2436) 部長(0.3093) 歷史(0.1153) 總統(0.2048) 警方(0.1746) 18 內容(0.1675) 民進黨(0.209) 抗議(0.4276) 部分(0.1196) 程序(0.1001) 黑箱(0.1008) 新課綱(0.3373) 認為(0.1253) 總統
(0.3259)
19 小組(0.1067) 立委(0.1684) 抗議(0.4853) 表達(0.3163) 政治(0.1809) 教師(0.1215) 現場(0.3561) 新舊(0.1146)
20 今天(0.2218) 日電(0.1487) 委員(0.1056) 是否(0.1652) 新課綱(0.1554) 新舊(0.1424) 蔡英文(0.1113) 總統(0.2346) 警方 (0.3351)
21 內容(0.1125) 公開(0.1038) 回應(0.109) 抗議(0.1339) 表達(0.4417) 部分(0.1046) 訴求(0.101) 學生(0.1102) 學校(0.1153) 警方(0.1121)
22 下台(0.1409) 小組(0.2783) 回應(0.162) 爭議(0.1314) 風傳(0.2439) 專業(0.1034) 教育(0.2039) 教師(0.1456) 提供(0.1229) 訴求(0.1689) 黑箱(0.1289) 新聞(0.1165) 圖文(0.135) 網址(0.1367) 總統(0.2675)
23 不要(0.1978) 民進黨(0.1814) 希望(0.1689) 政治(0.1789) 活動(0.163) 現場(0.1691) 部長(0.146) 媒體(0.1192) 新課綱 (0.1758) 聯盟(0.1046) 議題(0.1474)
24 內容(0.1753) 台灣(0.1563) 委員(0.2168) 表達(0.1526) 相關(0.1155) 風傳(0.24) 現場(0.3425) 部分(0.1165) 部長(0.126) 提供(0.1026) 訴求(0.1039) 新課綱(0.4203) 新聞(0.1044) 圖文(0.1325) 網址(0.1323) 蔡英文(0.1411)
25 不會(0.1096) 內容(0.2797) 民進黨(0.2511) 行動(0.113) 吳思華(0.1301) 相關(0.1008) 風傳(0.1479) 現場(0.1066) 程序
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
158
因子 各個因子內容與詞彙空間特徵值
(0.1212) 過程(0.1041)
26 大家(0.1026) 不要(0.1348) 反對(0.114) 支持(0.3183) 回應(0.1288) 抗議(0.1983) 呼籲(0.139) 委員(0.106) 風傳(0.128) 教育(0.1561) 學校(0.108)
27 下台(0.1233) 小組(0.1301) 支持(0.2032) 教師(0.1771) 部分(0.1192) 部長(0.153) 尊重(0.1282) 團體(0.1409) 認為(0.1508) 學校(0.2327) 總統(0.1631)
28 今天(0.1633) 反課綱(0.1405) 民進黨(0.1213) 委員(0.1068) 表達(0.14) 是否(0.1107) 風傳(0.1176) 國家(0.1053) 教育 (0.5188) 提出(0.14)
29 下台(0.1957) 支持(0.1273) 沒有(0.1173) 委員(0.1531) 政治(0.1426) 教育(0.173) 訴求(0.3093) 認為(0.1232) 警方(0.1686) 30 下台(0.158) 今天(0.1459) 民進黨(0.1227) 回應(0.2002) 委員(0.1107) 的學生(0.1234) 要求(0.1046) 記者會(0.1509)
教育(0.149) 現場(0.1211) 部長(0.1091) 團體(0.1073) 說明(0.1142) 學校(0.1339) 總統(0.176)
31 反黑箱(0.1328) 引發(0.1581) 台灣(0.1351) 回應(0.1238) 吳思華(0.1226) 決定(0.1704) 呼籲(0.2095) 委員(0.3043) 的學 生(0.1855) 政治(0.1661) 是否(0.1102) 部長(0.1713) 意見(0.1122) 新舊(0.2507) 團體(0.106) 議題(0.1648)
32 不要(0.2361) 不會(0.1476) 反黑箱(0.2239) 支持(0.144) 行動(0.1062) 抗爭(0.273) 呼籲(0.3401) 委員(0.1025) 政治 (0.1293) 活動(0.107) 記者會(0.1244) 部分(0.1893) 黑箱(0.1588)
33 不要(0.2136) 不會(0.1037) 立委(0.1547) 吳思華(0.1329) 委員(0.1158) 高中(0.1804) 新課綱(0.1034) 歷史(0.2219) 聯盟 (0.2715) 警方(0.1532)
34 支持(0.2527) 民進黨(0.1383) 回應(0.1177) 抗爭(0.2313) 呼籲(0.2416) 表達(0.211) 現場(0.1145) 程序(0.1104) 認為 (0.2793) 聯盟(0.1587)
35 下台(0.1441) 今天(0.1437) 內容(0.1264) 日電(0.2058) 台北(0.1042) 民進黨(0.1302) 老師(0.1188) 抗爭(0.1267) 表達 (0.161) 政治(0.1215) 活動(0.1651) 教師(0.2007) 部長(0.1067) 程序(0.1361) 新舊(0.1937) 學校(0.1934) 歷史(0.1372) 36 引發(0.2164) 支持(0.2262) 市長(0.2143) 協商(0.1272) 表達(0.1789) 針對(0.1122) 教師(0.1288) 部長(0.1376) 尊重(0.1141)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
159
因子 各個因子內容與詞彙空間特徵值
過程(0.2058) 團體(0.1061) 認為(0.1066) 聯盟(0.1517) 警方(0.145) 議題(0.122)
37 不同(0.1019) 公開(0.1554) 反課綱(0.3168) 台灣(0.1593) 民主(0.1031) 呼籲(0.3429) 的學生(0.1873) 社會(0.1231) 面對 (0.1005) 過程(0.1198) 學生(0.2008) 學校(0.1922)
38 不過(0.1019) 市長(0.1359) 老師(0.1342) 吳思華(0.1007) 思華(0.1577) 活動(0.1711) 強調(0.1262) 處理(0.1265) 這次 (0.1433) 運動(0.1435) 過程(0.1716) 團體(0.1139) 蔡英文(0.1411) 學校(0.2617) 警方(0.1103)
39
反黑箱(0.2294) 召開(0.1017) 台北(0.1277) 呼籲(0.139) 的學生(0.1248) 表達(0.1529) 思華(0.2096) 持續(0.1638) 指出 (0.1417) 活動(0.1263) 記者會(0.1092) 針對(0.1386) 強調(0.1093) 接受(0.1095) 教師(0.2161) 新課綱(0.1366) 歷史 (0.2222)
40 大家(0.1266) 小組(0.1005) 不要(0.1161) 反黑箱(0.2375) 支持(0.1445) 民主(0.1097) 希望(0.154) 決定(0.1229) 的學生 (0.2928) 面對(0.1414) 教育部長(0.1086) 部長(0.1519) 程序(0.1873) 聯盟(0.1041)
41 不會(0.1071) 台灣(0.1436) 回應(0.2329) 吳思華(0.1546) 抗爭(0.1695) 政治(0.1862) 活動(0.1887) 教育部長(0.1467) 尊重 (0.1085) 訴求(0.2157) 學校(0.1497) 聯盟(0.1926)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
160
在透過詞彙集群分析與 SVD 分析後,本研究將兩種方法所獲得的結果轉化 成能夠透過統計方法進行分析的資料,對於詞彙集群分析所獲得的資料,本研究 將其轉化成兩種,一種為 0 或 1 的名義類型,只有當特定主文包含所有該詞彙組 的詞彙時才會被記錄成 1,另一種整合的方式則是直接把屬於不同詞彙組個別詞 彙的 tf-idf 進行加總,就算特定主文只有該詞彙組中的部分詞彙,則還是會有一 個 tf-idf 的數字,對於 SVD 的因子特徵值數據,本研究則是參考 Best (1997)、
Best (1997b)與 Pocklington & Best (1997)的做法,將不同詞彙因子的矩陣與原本 的文本詞彙矩陣相乘,獲得一個文本與詞彙因子的新矩陣,處理公式如下:
𝐴̂𝑘 = 𝑉𝑇∗ 𝐴
新獲得的詞彙組資料則被用於統計分析中,而詞彙組 tf-idf 加總的資料和 SVD 轉換過的因子資料則另外透過比對主文上傳日期的方式,將這些資料以加 總的方式再度轉成時間序列,用於處理密度依賴和自我相關的運算。
貳、 詞彙差異對於回文的影響
由不同模因組構成的主文集群會因為其特性而有不同的繁殖能力,在表 60 中可以看到透過文本集群分析所獲得的不同 Yahoo!奇摩新聞主文集群在回文數 上都有顯著的差異,不同集群的主文會因為建構自己模因組的差異,而引發不一 樣的回文數量,因此可以說這些不同的文本集群在繁殖自己模因組的能力上是有 一定程度的差異。
表60: Yahoo!奇摩新聞主文與回文數相關 集群次數 F 值 顯著性 LSD 事後檢定
7 3.723 .001 5>3>4>6>7>1>2 (3>1,2*、4>1,2*、5>1,2,7*)
*:𝑝 < 0.05
因為不同主文集群是由不同模因組/詞彙所產生的,因此不同詞彙本身一定 會對回文數有相當的影響,在表 61 中可以看到出現在最多主文的前 10 個詞彙與 回文數的迴歸模型,該模型的調整過 R 平方為 0.010,並具有顯著性(F =
2.708、𝑝 =< .01),其中微調與吳思華這兩個詞彙都與回文數有正向的顯著關係,
而報導的 p 值也有低於 0.1。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
161
表61: Yahoo!奇摩新聞出現在最多主文的前 10 個詞彙與回文數的關係
表61: Yahoo!奇摩新聞出現在最多主文的前 10 個詞彙與回文數的關係