• 沒有找到結果。

巨量資料生態:以模因學分析網路文本的進化 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "巨量資料生態:以模因學分析網路文本的進化 - 政大學術集成"

Copied!
230
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學公共行政學系研究所 碩士學位論文. 巨量資料生態:以模因學分析網路文本的進化 政 治. 立. 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n Ch 指導教授:蕭乃沂 e n g c h i U博士 研究生:柯政豪 撰. 中華民國 105 年 6 月.

(2) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(3) The Ecology of Big Data: A Memetic Approach on the Evolution of Online Text. By. Cheng Hao Ke. 政 治 大. 立. ‧ 國. 學. A thesis submitted in partial fulfillment of the requirements For the Degree of Master of Public Administration. ‧. Nat. io. sit. y. Department of Public Administration. n. al. er. National Chengchi University. Ch. engchi. Advisor: Dr. Naiyi Hsiao. June, 2016. i n U. v.

(4) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(5) 立. ‧ 國. ‧. io. sit. y. Nat. n. al. er. 誌. 學. 謝. 政 治 大. Ch. engchi. i n U. v.

(6) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(7) 《摘要》 公共行政學正面臨理論與方法無法結合的挑戰,這個問題在巨量資料的時代 更是明顯,因為與人脫離的網路文本資料無法透過傳統的理論架構來解釋與分析, 如果不引進新的本體論與認識論,公共行政學將遭遇無法深入分析巨量文本資料 的困境。近代達爾文進化論因為透過複製者角度解釋自然界現象,所以能夠脫離 以個別生物為核心的觀點,解釋過去無法分析的行為與動機。以進化論為基礎的 模因學將社會文化的變化視為一種進化的過程,認為社會文化界的變化可以透過 模因這種複製單位的進化來解釋,模因的觀點因為脫離以人為核心的角度,所以 能夠解釋無法和使用者結合的網路文本資料。 本研究首先透過整合過去社會文化進化和模因學的研究,建構脫離使用者的 巨量文本資料分析架構與假設,同時引入進化論與生態學中的方法與理論,驗證 巨量網路文本背後的進化動態與機制。接著本研究針對 Yahoo!奇摩新聞中探討 「課綱微調」議題的 1,761 篇主文進行分析,透過中文斷詞與文本集群分析方法 萃取出由不同模因類種建構的主文集群,並透過量化統計方法驗證個別集群文本 特質與在時間上分布的趨勢對於整體主文集群變化的影響。結果發現個別模因類 種本身在時間上的分布擁有密度依賴的關係,同時主文本身的情緒、字數等等特 質,對產生的回文數也都有影響,但這些影響在不同密度的環境下會有所變化,. 立. 政 治 大. ‧ 國. 學. ‧. 網站版面環境本身也會與主文回文數有顯著的關係,而個別模因類種之間互動也 都有顯著的正向交叉關係,另外模因類種也與詞彙組之間有顯著的正向和負向關 係。 本研究的結果顯示以模因學探討巨量文本資料能夠允許研究者結合理論與 文本探勘技術,以理論為出發點建構出能夠被驗證的假設,並引入進化論和生態 學中的方法與架構進行資料的分析。研究發現由不同詞彙建構的文本數量在時間 上的分布是一件必須觀察的現象,因為由類同詞彙建構的文本在過去時間點的變 化,對於當下時間點類同主文的數量會有影響。同時文本特質和所處的網路環境 也都是觀測網路文本變化時不可忽略的變數,因為這些因素對主文和回文的數量 都有很重要的影響。另外分析網路文本時,應該以網站來區隔分析資料,因為網. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 路環境同樣對於文本與回文的數量有影響。最後,出現在同一篇主文中機率高的 詞彙組合也是會影響文本變化的重要因素之一。 本研究建議未來巨量文本資料的研究應該繼續以模因學的觀點出發,同時搭 配具有不同優缺點的文本探勘技術與密度依賴檢定反覆驗證結果。未來的研究也 宜朝向分析時間序列更長和出自不同網站的文本集,並建構能夠整合不同文本特 質和環境影響的分析架構,另外納入文字以外的多媒體資料和以模因學角度設計 的問卷調查資料進行探討。 關鍵字:文字探勘、巨量資料、模因學、進化論、生態學.

(8) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(9) Abstract The mismatch between theory and method is a crisis which the discipline of public administration cannot afford to ignore. The arrival of the “Era of Big Data”, only serves to make matters worse. As data becomes uncoupled with the individual, so goes any pretense of trying to provide analyses beyond that of mere description. If public administration refuses to import new ontology and epistemology, then very little could be gained from online text research. The Darwinian theory of evolution, ever since the Modern Synthesis, has embraced the replicator centered point of view when explaining all living phenomena. This has unshackled the theory from limitations of the traditional individual centered view of evolution. Memetics is a recent offshoot of the theory of evolution. It views social cultural change as a process based on the evolution of a cultural unit of selection, the meme. Due to memetics’ ability to explain social cultural evolution from the meme’s point of view, it is a natural candidate to examine the dynamics of “big” online text data.. 立. 政 治 大. ‧ 國. 學. The first part of this research is on the construction of an online text analysis framework, with testable hypotheses, through the integration of past literature on. ‧. evolution, social cultural evolution, memetics and ecology. The second part is concerned with the testing of the framework with empirical data. The text corpus used in this research contains 1,761 news reports from the Yahoo! News website on the issue of high school curriculum change. Chinese term segmentation and text clustering algorithms were applied to the corpus, in order to extract text quasi-species composed of similar memes. Statistical tests were then used to determine the influence of text characteristics and temporal distribution dynamics on the population of quasi-species. Findings indicate that the population dynamics of text quasi-species were influenced by density dependence. Text characteristics, such as word length and sentiment, also exert significant influence on the number of comments that each text. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. receives. However, these influences are not equal under different density conditions. The location of the news articles within the website also creates a difference in the number of comments received. Finally, interactions between the temporal distribution of different quasi-species and between quasi-species and term groups also yielded significant positive and negative correlations. The results are proof that memetics is an ideal theoretical platform to connect theory with text mining/analysis methods. It allows for a theory based approach and the creation of testable hypotheses. Frameworks and methods based on evolution and ecological research are also applicable under memetics. The empirical findings point to the importance of monitoring the temporal distribution of online text, and the.

(10) significance of text characteristics and website environments to text population changes. The results also illustrate the importance of term groups in the influence of text population dynamics. Together these variables and effects are all central to the understanding of the change in online text and comment numbers, and the effect of past text population on current population changes. Online texts from different websites should also be analyzed separately. This research recommends that future public administration big data analyses should continue to adopt the memetic approach. Nevertheless, attention should be given to the strengths and weaknesses of different text mining algorithms and density dependence tests. Big data time series from different websites and with longer temporal spans should also be considered, while social cultural artifacts other than texts should not be excluded from memetics based researches. New frameworks must also be constructed to integrate and understand, the interaction between important variables, such as, text characteristics and environmental influences. Findings on all forms of online data would also be enhanced through comparisons with results from questionnaires designed with memetics in mind.. 立. 政 治 大. ‧ 國. 學. Keywords: Text Mining, Big Data, Memetics, Darwinian Evolution, Ecology. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(11) 目次 目次................................................................................................................................ I 表次....................................................................................................................... II 圖次......................................................................................................................IV 第一章 緒論............................................................................................................ 3 第一節 進化論與模因的簡介........................................................................ 5 第二節 公共行政為什麼需要引入進化的概念............................................ 7 第三節 目前巨量資料與網路民意的限制.................................................. 12 研究動機與目的.............................................................................. 17 第四節 第二章 文獻回顧.................................................................................................. 21 第一節 近代達爾文進化論發展與概念...................................................... 21 第二節 模因學的發展與概念...................................................................... 40 第三節 為何透過模因分析文本?.............................................................. 61. 立. 政 治 大. ‧. ‧ 國. 學. 第三章 研究設計與方法...................................................................................... 65 第一節 網路文本的模因定義與測量.......................................................... 65 第二節 網路文本資料.................................................................................. 74 第三節 研究流程與假設.............................................................................. 80. n. al. er. io. sit. y. Nat. 第四節 網路文本分析與演算法.................................................................. 86 第五節 資料分析方法.................................................................................. 95 第四章 研究分析與結果...................................................................................... 99 第一節 斷詞與文本集群分析.................................................................... 100 第二節 密度依賴選擇的影響.................................................................... 115 第三節 文本特質的影響............................................................................ 130 第四節 生態互動的影響............................................................................ 138 第五節 環境的影響.................................................................................... 143 第六節 遺傳漂變的影響............................................................................ 147. Ch. engchi. i n U. v. 第七節. 詞彙組的影響................................................................................ 151 研究發現........................................................................................ 169 第八節 第五章 結論........................................................................................................ 179 第一節 對於巨量資料分析的貢獻............................................................ 180 第二節 實務建議........................................................................................ 183 第三節 研究限制與後續研究建議............................................................ 184 參考文獻.................................................................................................................... 187 中文文獻............................................................................................................ 187 英文文獻............................................................................................................ 187 附錄 1......................................................................................................................... 211 I.

(12) 表次 表 1: 表 2: 表 3: 表 4: 表 5: 表 6: 表 7:. 科學典範的變化.......................................................................................... 14 模因學與不同社會進化研究途徑之間的差異.......................................... 39 模因在學界中的定義.................................................................................. 51 模因的選擇準則.......................................................................................... 68 本研究理論概念操作化定義...................................................................... 71 網路文本原始資料範例.............................................................................. 76 本研究各個假設內容與驗證節次.............................................................. 99. 表 8: Yahoo!奇摩新聞主文各集群詞彙權重 .................................................... 102 表 9: Yahoo!奇摩新聞含有特定詞彙的文章次數 ............................................ 103 表 10: Yahoo!奇摩新聞各個主文集群出現頻率最高的詞彙 ........................ 104 表 11: Yahoo!奇摩新聞主文集群 1(k=7)回文數最高主文特性 .................... 105 表 12: Yahoo!奇摩新聞主文集群 2(k=7)回文數最高主文特性 .................... 106 表 13: Yahoo!奇摩新聞主文集群 2(k=7)回文數第二高主文特性 ................ 107 表 14: Yahoo!奇摩新聞主文集群 3(k=7)回文數最高主文特性 .................... 108 表 15: Yahoo!奇摩新聞主文集群 4(k=7)回文數最高主文特性 .................... 109 表 16: Yahoo!奇摩新聞主文集群 5(k=7)回文數最高主文特性 .................... 110. 立. 政 治 大. ‧ 國. 學. Yahoo!奇摩新聞主文集群 6(k=7)回文數最高主文特性 .................... 111 Yahoo!奇摩新聞主文集群 6(k=7)回文數第二高主文特性 ................ 112 Yahoo!奇摩新聞主文集群 7(k=7)回文數最高主文特性 .................... 113 Yahoo!奇摩新聞主文集群 7(k=7)回文數第二高主文特性 ................ 114 Yahoo!奇摩新聞主文集群之間的平均距離和集群內距離 ................ 115 Yahoo!奇摩新聞整體主文個集群(k=7)個月份個數 ........................... 117 Yahoo!奇摩新聞主文集群的趨勢與季節性強度 ................................ 121 Yahoo!奇摩新聞主文 Bulmer 檢定結果 .............................................. 123 Yahoo!奇摩新聞主文各個集群 Box-Ljung 檢定 ................................ 124. 表 26: 表 27: 表 28: 表 29: 表 30: 表 31: 表 32: 表 33: 表 34:. ARMA 模型中 ACF 與 PACF 的變動 ................................................. 126 Yahoo!奇摩新聞集群 1 的 ARIMA 模型估計 ..................................... 127 Yahoo!奇摩新聞集群 4 的 ARIMA 模型估計 ..................................... 129 Yahoo!奇摩新聞集群 2、3、5、6、7 的 ARIMA 模型估計............. 130 Yahoo!奇摩新聞主文回文數與文本特質的關係 ................................ 131 Yahoo!奇摩新聞模因類種(k=7)之間在特質上的差異 ....................... 132 Yahoo!奇摩新聞字數與情緒對於回文數的影響 ................................ 133 Yahoo!奇摩新聞主文字數與正負向情緒的關係 ................................ 133 Yahoo!奇摩新聞主文整體與各個集群主文分布狀況 ........................ 134. 表 35: 表 36:. Yahoo!奇摩新聞在不同主文密度下回文數與字數的差異 ................ 135 Yahoo!奇摩新聞在密度高環境中文本特質與回文數的關係 1 ......... 136. ‧. 表 17: 表 18: 表 19: 表 20: 表 21: 表 22: 表 23: 表 24: 表 25:. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(13) 表 37: 表 38: 表 39: 表 40: 表 41: 表 42: 表 43: 表 44: 表 45:. Yahoo!奇摩新聞在密度高環境中文本特質與回文數的關係 2 ......... 137 Yahoo!奇摩新聞集群 1 和 2 在密度高環境中文本特質與回文數 .... 138 Yahoo!奇摩新聞主文各個集群交叉相關(排除季節的 log 轉化) . 139 Yahoo!奇摩新聞主文各個集群交叉相關(一階差分的 log 轉化) . 140 Yahoo!奇摩新聞主文各個集群之間距離與交叉相關的關係 ............ 141 Yahoo!奇摩新聞不同頻道對於回文數的影響 .................................... 143 Yahoo!奇摩新聞不同頻道對於正向情緒的影響 ................................ 144 Yahoo!奇摩新聞不同頻道對於負向情緒的影響 ................................ 144 Yahoo!奇摩新聞不同頻道對於字數的影響 ........................................ 145. 表 46: 表 47: 表 48: 表 49: 表 50: 表 51:. Yahoo!奇摩新聞各個集群主文在前 5 大頻道的分布 ........................ 145 Yahoo!奇摩新聞集群 1 主文頻道與回文數的關係 ............................ 146 Yahoo!奇摩新聞集群 2 主文頻道與回文數的關係 ............................ 146 Yahoo!奇摩新聞集群 3 主文頻道與回文數的關係 ............................ 146 Yahoo!奇摩新聞集群 4 主文頻道與回文數的關係 ............................ 146. ‧ 國. 學. 表 52: 表 53: 表 54:. 政 治 大 Yahoo!奇摩新聞集群 6 主文頻道與回文數的關係 ............................ 147 立 Yahoo!奇摩新聞集群 7 主文頻道與回文數的關係 ............................ 147 Yahoo!奇摩新聞主文各個集群回文數變異的比較 ............................ 148 Yahoo!奇摩新聞主文各個集群正向情緒變異的比較 ........................ 149 Yahoo!奇摩新聞主文各個集群負向情緒變異的比較 ........................ 149 Yahoo!奇摩新聞主文各個集群字數變異的比較 ................................ 150 集群內平均距離與主文數、回文數、正負向情緒的關係................ 151 Yahoo!奇摩新聞詞彙集群結果(k=12) ................................................. 154 Yahoo!奇摩新聞 SVD 詞彙因子與特徵值(VT) ................................... 156 Yahoo!奇摩新聞主文與回文數相關 .................................................... 160 Yahoo!奇摩新聞出現在最多主文的前 10 個詞彙與回文數的關係 .. 161 Yahoo!奇摩新聞頻率最高前 10 個詞彙與回文數的關係 .................. 162 Yahoo!奇摩新聞詞彙集群與回文數的關係 1 ..................................... 162 Yahoo!奇摩新聞詞彙集群與回文數的關係 2 ..................................... 163. 表 65: 表 66: 表 67: 表 68: 表 69: 表 70: 表 71: 表 72:. Yahoo!奇摩新聞詞彙因子與回文數的關係 ........................................ 163 Yahoo!奇摩新聞詞彙集群 Bulmer 檢定結果 ...................................... 164 Yahoo!奇摩新聞詞彙因子 Bulmer 檢定結果 ...................................... 164 Yahoo!奇摩新聞詞彙集群 Box-Ljung 檢定 ........................................ 166 Yahoo!奇摩新聞詞彙因子 Box-Ljung 檢定 ........................................ 166 Yahoo!奇摩新聞詞彙因子的 ARIMA 模型估計 ................................. 168 Yahoo!奇摩新聞主文集群與詞彙組的交叉相關 ................................ 168 Yahoo!奇摩新聞課綱議題主文在假設驗證上的狀態 ........................ 172. ‧. 表 55: 表 56: 表 57: 表 58: 表 59: 表 60: 表 61: 表 62: 表 63: 表 64:. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(14) 圖次 圖 1: 圖 2: 圖 3: 圖 4: 圖 5: 圖 6: 圖 7:. 模因的生命週期.......................................................................................... 44 模因與其表型、環境的關聯性.................................................................. 61 模因指標與衡量.......................................................................................... 70 網路文本模因的複製與表型的關聯性...................................................... 74 課綱微調議題主文文本數量...................................................................... 78 青年全球移動力議題主文文本數量.......................................................... 79 本研究流程.................................................................................................. 81. 圖 8: Yahoo!奇摩新聞主文 K-means 集群分析組內平方和 ........................... 101 圖 9: Yahoo!奇摩新聞主文層級集群分析樹狀圖 ............................................ 102 圖 10: Yahoo!奇摩新聞整體主文在時間上的分布趨勢 ................................ 116 圖 11: Yahoo!奇摩新聞主文集群累加狀態(k=7) ........................................... 117 圖 12: 受到「死亡」影響的 Yahoo!奇摩新聞主文集群分布(k=7) .............. 118 圖 13: Yahoo!奇摩新聞主文集群 1 排除趨勢與季節的時間序列(k=7) ....... 119 圖 14: Yahoo!奇摩新聞主文所有集群隨機序列 ............................................ 120 圖 15: Yahoo!奇摩新聞主文集群(k=7)一階差分 ........................................... 122 圖 16: Yahoo!奇摩新聞集群 1(k=7)自我相關與偏相關 ................................ 125. 立. 政 治 大. ‧ 國. 學. Yahoo!奇摩新聞集群 1 的 ARIMA 模型殘差 ..................................... 127 Yahoo!奇摩新聞集群 4(k=7)自我相關與偏相關 ................................ 128 Yahoo!奇摩新聞集群 4 的 ARIMA 模型殘差 ..................................... 129 Yahoo!奇摩新聞主文集群 1 與 2(k=7)在時間上的分布 .................... 141 Yahoo!奇摩新聞主文集群 3 與 6(k=7)在時間上的分布 .................... 142 Yahoo!奇摩新聞主文集群 5 與 6(k=7)在時間上的分布 .................... 142 Yahoo!奇摩新聞詞彙 K-means 集群分析組內平方和 ....................... 153 Yahoo!奇摩新聞詞彙層級集群分析樹狀圖 ........................................ 153 奇異值分解(SVD)詞彙因素分析的運算過程 ..................................... 155. 圖 26:. 模因類種動態、特質與所屬環境對於進化的影響............................ 171 Yahoo!奇摩新聞爆發性集群 3、5、6 與 7 的分布 ............................ 174 Yahoo!奇摩新聞尖細與穩定動態集群 1、2 與 4 的分布 .................. 175. n. al. er. io. sit. y. Nat. 圖 27: 圖 28:. ‧. 圖 17: 圖 18: 圖 19: 圖 20: 圖 21: 圖 22: 圖 23: 圖 24: 圖 25:. Ch. engchi. i n U. v.

(15) Q:美國的火箭形狀為什麼會這樣設計? A:因為火箭在運輸過程中需要透過鐵路運送,而鐵路所經過的山洞只比軌道稍. 微寬一點點! Q:為什麼美國鐵路的標準軌距是 4ft. 8.5in.寬? A:因為學習英國人蓋鐵路的方法! Q:為什麼英國人會這樣蓋鐵路? A:因為當初蓋鐵路軌道的人是蓋電車軌道的! Q:那為什麼蓋電車軌道的人要把軌距訂成那樣寬? A:因為蓋電車軌道的人所使用的測量、工具都是用於建構四輪馬車的! Q:那為什麼四輪馬車的輪子之間會有這種寬距? A:因為四輪馬車的輪距如果不是哪個寬度,當在跑古老的長途路時會因為和路 上的轍跡不同而損毀! Q:那些有轍跡的古老馬車道路為什麼會以這種寬度建造? A:因為歐洲最早的馬車道路都是由羅馬帝國所建造的,而轍跡也都是由羅馬軍 隊馬車所產生,當然馬車之所以會留下那種轍跡是因為兩匹拉馬車馬的屁股就是 那麼寬! a. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. iv l C n hengchi U. (修改自 Blute, 2010). 1.

(16) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 2. i n U. v.

(17) 第一章. 緒論. 所有社會科學的學門都很難明確定義自己領域所研究、關注的議題,同時研 究的主題往往不是能夠被直接觀察到的事物,其中公共行政應該算是最難界定自 己研究範圍的領域(Rutgers, 2010),公共行政在二十世紀中不斷得重複定義自己 學門的定位,至今這個困境仍然存在(Whetsell & Shields, 2013),這是因為大多數 行政相關的問題都觸及許多不同的議題,因此無法只透過單一的理論途徑解釋, 要解釋複雜的社會問題就必須納入不同學門的專業,所以不同學門根本不可能明 確界定自己的研究範圍,在類同公共行政這種跨領域的學門中更是困難,其實在 自然科學、社會科學與人文學門中也都常常遇到專精所造成的定位危機(Rutgers, 2010;Lodge & Wegrich, 2012;Raadschelders, 2011),在研究範圍無法確定的狀 況下,公共行政學在結合實證研究與理論分析時面臨很大的挑戰。 研究沒有不受到資訊科技發展影響的,未來社會科學中的研究過程會不斷得 被科技改變(Lee, 2000),新資訊科技時代的來臨會促進新理論、方法的變動。巨 量資料的時代已經來臨(Boyd & Crawford, 2012;Chen, Mao & Liu, 2014),巨量資 料的取得、處理和分析能夠提供許多重大的機會(Fan & Bifet, 2013;TechAmerica Foundation, 2012;Cumbley & Church, 2013),也因此許多政府、企業注意到巨量 資料的潛能(Chen, Mao & Liu, 2014),同時隨著電腦工具的發展巨量資料的蒐集. 立. 政 治 大. ‧ 國. 學. ‧. 越來越不是問題(Bail, 2014),可是因為網路資訊本身的取得與個人沒有關聯 (Janetzko, 2008),因此能夠獲得巨量資料的學者專家有時並沒有適合解釋這些資 料並從中獲得有意義資訊的理論方向(Bail, 2014),巨量資料如果沒有經過轉換、 整理,本身是沒有價值的(Zikopoulos et al., 2013),這些問題使得傳統公共行政與 政治相關領域所持有的理論、架構與方法基礎無法解釋這些新型的現象,因此公 共行政必須修正其所通用的典範(paradigm),重新討論應該使用哪些理論、方法 與解釋資料的規則,以一個新的角度去探索事實(Boyne, 1996),然而界定新方向 的同時,如果公共行政不納入嚴謹、實證的分析途徑就不能算是一門科學,而只 能算是一種藝術(Zalmanovitch, 2014),另一方面實證研究本身是不夠的,一個好. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 的研究必須探討實證結果本身背後的意涵與方法和本體論、認識論之間的關聯性 (Raadschelders, 2011),公共行政在巨量資料的時代要如何找到適合的定位和理論 方向,並結合理論與實證都是重要而必須面對的難題。 如同本研究在緒論前段所提到的故事,大部分社會科學學者希望理解的現象, 包含語言、宗教、科技、政治行為等等都是受到社會文化傳播與進化影響的(Blute, 1979),也因此在近幾年許多不同科學學門(包含社會科學學門)都開始引入進 化論相關的理論、方法(Lewis & Steinmo, 2010;Kerr, 2002;John, 2003;Nelson, 2006;Aunger, 2000;Laland & Brown, 2002),Gintis (2007)認為因為經濟學、生 物學、人類學、社會學、心理學、政治學(包含公共行政學)1等等都算是在探 1. 本研究認為公共行政學的基礎是來自政治學的(Boyne, 1996;Lodge & Wegrich, 2012),因此也可 以被視為學者所定義的行為科學的一種。 3.

(18) 討行為科學的不同領域,這些不同學門之間所研究的議題都有許多重疊的地方, 不過這些個別領域所發展用於解釋人類行為的模型彼此之間卻無法相容,但幾乎 沒有學者試圖彌補這個問題,這些不同領域背後應該要有一個共同的基本模型, 而這個模型要可以根據不同領域的需求增加與客製化,因為進化論是所有行為科 學背後的基礎,因此可以透過進化論整合個別領域的模型(Gintis, 2007),不過在 政治相關領域中卻很少有人試圖了解進化相關理論對於政治、制度發展等議題分 析上可能帶來的貢獻(Lewis & Steinmo, 2010;Kerr, 2002),同時不同社會科學中 所引進進化論的概念、理論與解釋的現象大多與公共政策比較沒有直接關係,或 是沒有完善得納入進化論的核心理念(John, 2003),因此對於公共行政學沒有很大 的幫助,進化論沒有被納入政治相關學門中,主要的原因是政治相關領域的學者 對於本體論與認識論觀點的選擇(Lewis & Steinmo, 2010),如果公共行政與整體 社會科學可以建立一個能夠完善得探討人偏好來源的理論,就能統一社會科學中 的不同學門並建立社會科學與自然科學溝通的橋樑(Alford & Hibbing, 2004)。 進化論是一個很有用的理論架構,同時也有許多社會科學學門透過使用進化 論的思考邏輯成功得突破過去的許多限制(Kerr, 2002),在過去 30 年中學界越來 越多學者開始認為文化的演變過程在許多重要面向上與生物學中的進化是類同 的,文化特質的頻率如同生物科學中基因的頻率都會隨著時間與自然選擇的機制. 立. 政 治 大. ‧ 國. 學. 而有所變動(Shennan, 2011),因此是政治、公行相關學門值得引進發展的理論架. ‧. 構(John, 2003),公共行政學門在分析網路上巨量資料時與考古學、族群遺傳學一 樣都只能觀察受到進化過程中不同自然淘汰勢力保存下來的現象,而必須透過對 於這些現象的觀察回推當初造成這些現象的過程與機制,無法觀察到實際人的行 為(Shennan, 2011),所以只能依照進化論的方法,將網路上的民意文本資料視為 受到進化過程影響的單位進行分析。本研究希望透過引進達爾文進化論中自私基 因的概念,解釋目前公共行政學界在巨量資料時代中所面臨的網路民意(網路輿 情)2文本資料,為了達成這個目的,本研究把應用進化論邏輯探討社會文化進 化的模因概念引進公共行政學中,採用模因學(memetics)的理論架構與概念針對 網路文本的進化、動態進行分析,因為模因學是現有分析社會文化進化理論中最 能夠善用目前生物界進化論方法與技術的研究途徑(Blute, 2005),所以本研究將. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 透過模因學將進化論中生態學的方法和假設結合文本資料探勘的技術,以新的理 論導向角度分析巨量的文本資料。在此章中本研究首先將進化論與模因學做簡單 的介紹,接著針對目前公共行政學理論基礎的限制與巨量資料分析上的瓶頸進行 討論,最後則解釋本研究的動機與目的。. 2. 蕭乃沂等人(2015)將 “public opinions on the Internet” 翻譯成網路輿情,本研究因為同時也 有討論到一般的民意調查,在用詞上為了避免讀者的混淆,因此還是以「網路民意」敘述網路上 的民意調查。 4.

(19) 第一節. 進化論與模因的簡介. 進化論與地球繞著太陽的理論一樣,都是無法否定的事實,進化論所能夠解 釋的現象包含人類整體社會生活中所有面向(Dawkins, 1976),並允許人類不用納 入任何超自然因素來解釋自己所觀察到的一切(Dennett, 1995),如今當在觀察世 界上所存在的無數種生物時,我們都可以透過進化論了解這些現象都是基於基因 的進化而產生,但人類也是一樣的嗎?人的所作所為都是為了基因的傳播嗎? 人類很顯然的也是進化過程的產物,但如果人類和一般生物一樣只受到基因 進化的影響,那為什麼我們許多的行為,甚至是身體構造,在基因的觀點下都是 「浪費」或「非理性」的?例如人類為什麼會進化出非常耗能又龐大的腦部?使 得人類孩子必須在腦還未發展完成前就被生出,不然嬰兒的腦會因為太大而無法 生出來,許多難產也是因為嬰兒卡住而造成的,另外為什麼每個人每一天都會耗 費許多資源、時間在講話、溝通?就算一個人沒在講話也可能花費許多時間在聆 聽音樂、廣播,絕大部分的溝通對於個人的存活根本就毫無關係,同時為什麼人 類社會中越來越多人會使用各種不同避孕措施來避免懷孕?使得許多國家的人. 立. 政 治 大. ‧ 國. 學. 口成長大規模縮減,而在政治行為方面,又為什麼許多人願意為了特定理念而犧 牲自己?如果人類的目的就是要繁殖下一代,並傳播自己的基因,以上的這些現 象都是很不合理的(Blackmore, 1999)。. ‧. 為了解釋人類許多「非理性」的行為,社會科學中產生了許多互相衝突的理 論(Mesoudi, 2011),而這些理論也無法提出更完善的解釋,例如有理論認為人的 行為之所以非理性,是因為人的能力是有限的,不過那為什麼其他生物就不會產 生出人類這些不理性的行為?昆蟲不會浪費時間聊天,魚類也不會耗費時間想出 能夠避孕的不同措施,貓狗更不可能為了信仰而不吃不喝或甚至打架打到死。人 的身體在過去幾百年中基本上根本沒有任何變動,如果人類的非理性行為是基於 生理上的缺陷,那為什麼擁有不理性行為的個人沒有被「淘汰」?使得存活至今 的人都沒有這些生理、行為上的問題?雖然人類生理上沒有什麼變動,不過過去 幾百年的人類發展卻是指數般的前進,很顯然的這不是基因的改變,而是社會文. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 化的改變,人類社會文化的創新與傳播使得人類能夠快速得發展(Dennett, 1995), 如果人類所受到的主要影響來自文化的改變,那這些不理性的行為是不是在文化 傳播的觀點中就會是「理性」的?這些行為目的是否都是在最大化文化而非基因 的傳播? 人類的特點主要來自文化,而文化本身是不斷在變動的(Dawkins, 1976; Mesoudi, 2011),一位現代的人很難跟古人溝通,就算兩個人勉強能夠了解彼此 所使用的語言、語法,也會因為概念上的差距而無法理解彼此,文化是很多元的, 同時與基因一樣會透過特定機制傳播下去(Blute, 2010;Mesoudi, Whiten, & Laland, 2006),因此可以說文化本身也是在進化的,但如果文化有在進化,那文 化的「基因」又是什麼?Dawkins (1976)為了回答這個問題,因此創造了一個新 的詞彙,因為學者認為人類社會中的文化資訊主要是透過模仿的方式傳播,因此 5.

(20) 將文化進化的單位稱為「透過模仿傳播的基因」,簡稱模因(meme)。 針對之前本研究所提出的非理性行為問題,當我們把文化視為模因的進化過 程時,就能夠解釋人的腦之所以如此的大就是為了要傳播更多的模因,而人之所 以會花費許多時間在溝通,當然也是因為要傳播模因,相同的人為什麼會採取避 孕的措施,也就是要把養育孩子的時間保留給模因的傳播,因此對基因傳播看起 來是不理性的行為對模因的傳播卻都是非常理性的。模因的概念允許我們在沒有 任何受訪者基本資料的狀況下也能夠理解為什麼某種文化的現象會以特定方式 存在(Shennan, 2011),因此使得脫離使用者的巨量文本資料所呈現的模式也能夠 與理論連結。 但模因到底是什麼?Dennett (1995)所提出的例子很適合解釋模因的概念,針 對任何一本書,把這本書有單一隨機錯誤的副本給任何人看,他還是看得出來那 本副本與原本的書都是「同一本書」 ,就算今天有一本副本每一頁都有兩個錯誤, 因此可能整本副本有上千個錯誤,不過任何人還是能夠清楚得判斷出這個副本的 內容與原本的那本書是同樣的。很顯然的當原本的書被複製成副本時,有一個「東 西」被複製,而這個「東西」讓我們能夠意識到副本是原稿的複製,不過這個「東 西」到底是什麼?為什麼當我們聽到任何一個語言的生日快樂歌曲時都知道那是 生日快樂歌?為什麼被拍成電影的小說內容與電影的不同,不過我們還是了解這 兩個作品在敘述同一個故事?很顯然的在這些不同的過程中都有一個文化的單. 立. 政 治 大. ‧ 國. 學. ‧. 位再被傳播,不過這個單位是什麼?是文字?是旋律?是故事?如果是文字,為 什麼用不同語言翻譯的副本我們還是認得出來是同一本書?如果是旋律為什麼 彈錯或創新的旋律還是能夠被認出?而如果是故事為什麼不同版本的故事能夠 被我們辨識出來?很顯然被傳播的是一種資訊,如 Gil-White (2008)所舉的網球 發球例子,沒有任何一次的發球是一樣的,但模仿的人會朝向一個特定的標準去 模仿,而這個被模仿的資訊就是模因。 模因的概念雖然簡單,不過要解釋、操作化卻很困難,因此本研究在文獻回 顧中不僅投入大量的篇幅在講解模因的定義與概念,同時也在探討模因之前先將 進化論與社會文化進化一一講解。不過本研究為了闡明將模因學引入公共行政學 的重要性,因此首先針對目前公共行政所面臨的挑戰與巨量資料/網路民意調查. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 所面臨的問題進行介紹,接著解釋達爾文進化論中自私基因的觀點,並介紹這個 觀點目前被用於分析社會文化進化的成果,接著本研究將詳細得回顧模因學的概 念與目前的研究成果,在多種的模因概念中進行歸納與整合,透過結合進化論和 社會文化進化文獻中的觀點,建立一個最能夠表達模因概念核心準則的模因定義, 接下來本研究則透過採納模因的觀點針對網路民意調查所獲得的網路文本資料 進行分析與假設驗證,呈現模因學當用於解釋網路民意時,能夠發現許多過去傳 統公共行政理論無法探討到的事實與趨勢背後的原因,同時模因學也能夠結合網 路文本資料所呈現的趨勢與進化論中所敘述的過程。. 6.

(21) 第二節. 公共行政為什麼需要引入進化的概念. 自從公共行政領域開始受到重視並開始被系統化得研究,就有許多學者試圖 將公共行政發展成一門跨領域的學問(Rutgers, 2010;Lodge & Wegrich, 2012; Raadschelders, 2011),原因在於公共行政必須探討許多很複雜的概念,包含人的 本性、自由、正義、社會、法律與國家(Rutgers, 2010),不過公共行政雖然是一 門跨領域的學問,但自己學門中所應用的理論卻無法與其他科學學門對話,同時 過去公共行政所使用的理論也越來越不符合面對分析網路文本所帶來的挑戰,因 為其所應用的理論基礎無法容納不斷處於動態而不遵守任何規律法則的現象 (Lewis & Steinmo, 2010),而且也無法脫離以個人為核心的世界觀。. 壹、. 公共行政理論的限制. 政 治 大. 一個有用的公共行政理論必須能夠建構被操作化的概念(Simon, 1946),因此 公共行政必須面對自己是要透過哪一種角度去探討研究的議題,Simon (1947)認. 立. ‧ 國. 學. 為公共行政必須探討自己是屬於哪一種科學,學者在文章中透過工程師建造飛機 的例子解釋應用科學(applied)與「純」科學(pure)之間的差別是在於應用科學最後 一定會觸及到價值的成分,Simon (1947)認為一位試圖把公共行政視為應用科學. ‧. 的學者就必須了解所有與其領域相關的科學知識,並試圖透過了解這些知識納入 價值的考量制定決策,而要達成這個目的就必須使得公共行政包山包海,Simon 認為應該把公共行政轉化成探討組織中人類行為的「純」科學,因此必須讓整體 學門建構在社會心理學相關的基礎上,不過這樣雖然能夠使得公共行政納入「純」 科學中所使用的分析方法並避開價值的討論,但卻會忽略掉另一半影響人類行為 的因素:文化(包含價值) ,同樣的 Jones (2003)也認為公共行政的不足是因為大 多數研究政治與政府的學者都比較少關心影響人認知(cognition)的研究,不過忽 略這些領域的知識就會使得我們沒有辦法把人類的行為與政治、政府相關作為作 連結,把個人的決策制定與組織的運作、集體的決策制定做連結,過去只依賴針. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 對人的實驗來分析政治相關行為的研究,會忽略人的認知對於行為的影響,這些 包含記憶能力、情緒、過去經驗與認同等等的面向(Jones, 2003),更重要的是這 些研究也沒有討論影響情緒、過去經驗轉換成行為背後的影響,這種過度聚焦於 個人而忽略文化影響的角度並沒有辦法完善得呈現公共行政所包含的變化,在 Simon (1946)的文章中學者也提到在研究構成組織成員的理性限制時,必須同時 探討人所受到的生理、價值與知識的限制上的因素,因此如果公共行政把自己調 整為「純」科學,雖然能夠建構被操作化的理論,但這些理論卻無法被用於解釋 真實世界的現象,使得公共行政的實證研究與本體論、認識論脫離。 Raadschelders (2011)針對 Public Administration Review (PAR)期刊 2000 年到 2009 年所刊登文章內容與主題的分析,發現雖然越來越多學者試圖使用更加複 雜的量化方法,不過卻越來越少研究在分析公共行政本體論(ontological,探討 7.

(22) 什麼是事實)與認識論(epistemological,探討要如何了解事實與能夠了解什麼) 的基準,許多學者在選擇研究要使用的方法時並沒有探討選擇這些方法 (methodology,如何透過方法了解事實)背後所觸及的本體論與認識論假設, 因為本體論建構我們所能夠了解什麼的理論(認識論),而認識論又會產生方法, 它告訴我們要使用哪些方法來理解事實,如果不探討本體論與認識論則會降低方 法所獲得結果的意涵,使得研究的發現只能以單純的事實呈現而不能用於探討與 挑戰更深層的假設(Raadschelders & Lee, 2011;Raadschelders, 2011)。 公共行政所持有的理論架構(本體論、認識論)之所以無法與近期學者們所 引進用於解釋新現象的方法結合,原因主要在於公共政策所研究的公共政策過程 (包含民意與政黨、官僚之間的因果關係)無法使用階段式的理論來解釋,不過 公共政策必須建構簡單但卻能夠解釋公共議題這種複雜現象的理論,而不只是停 留在使用過度複雜的方式敘述現有的現象,因為敘述本身是無法建立能夠被驗證 的假設(John, 2003)。為了能夠解釋公共政策中所呈現的不同現象,過去的學者透 過引進或改良政治學中所使用的理論,不過這些理論並不適合解釋政策制定過程 的多元面向,同時這些理論自己也問題叢生,因此在 1990 年代,許多學者開始 整合過去不同理論,試圖建構一個能夠解釋整體政策過程所有因素的理論架構, 這些比較近期發展的公共政策理論雖然比過去的理論還要完善不過還是都有個 別的限制(Sabatier, 2007;Lewis & Steinmo, 2010),特別的是其中 Kingdon 所發展. 立. 政 治 大. ‧ 國. 學. ‧. 的政策流/政策窗理論和 Baumgartner 與 Jones 所發展的間斷平衡理論(punctuated equilibrium theory)本身都有從進化論中獲取靈感,而這兩個理論之所以會試圖從 進化論引進新的理論模型,就是為了使得用於解釋政策過程中決策制定的模型能 夠脫離過去靜態的理論架構,但這些理論卻沒有完整得把進化論中所探討的邏輯 與使用的方法納入分析公共政策(John, 2003;Lustick, 2011)。 Lewis & Steinmo (2010)認為政治學的基準主要受到物理學的理念影響,因此 主張數學才是真正科學的基準,在本體論方面把政治視為一種機械化的體制,政 治學的認識論也就因為受到這種本體論的左右而把發現政治界中存在的「法則」 視為該學門最核心的目的,政治學者認為政治相關的領域可以透過不變的法則來 預測(Lewis & Steinmo, 2010;Kerr, 2002),不過很顯然的,人的偏好並不是穩定、. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 不變的,因此政治學很難提出正確的預測,導致許多學者會試圖透過資料不足的 藉口來解釋預測失敗的原因,比較遺憾的是近代的物理學也已經排除了這種以固 定不變法則規範的世界觀,但許多經濟與政治學者卻還在使用這個觀點。 物理界與受到進化論影響的生物界之間認識論最大的差異在於,物理學往往 在了解所有因素的運作之後就能夠準確得預測結果,生物學則是在探討那些會使 得特定模式常常被產生的機制,同時因為生物學了解到自己所探討的系統持有複 雜的互動關係,因此整體系統的互動機制是可能不斷改變的,這也是為什麼生物 學主要是進行機率性的評估而不是預測,進化論也比較注重偶發事件與地理因素 的角色,把環境中不確定的因素納入分析(John, 1999),不需要透過固定的法則來 解釋觀察的現象,而是透過影響特定現象的環境因素與歷史途徑來解釋。進化論 8.

(23) 的目的是透過實證、歸納(induction)而非演繹(deduction)的方法來解釋塑造目前世 界中各種現象背後的力量與動態,了解為什麼時間與空間上會有如此多元的變異 (variation),其目標並不在預測,進化論認為系統中隨機的變化可能讓系統已完 全無法預料到的路徑發展,因此必須透過詳細的歷史、路徑分析了解不同適應現 象的發生與這些適應現象所造成的影響。 Lustick (2011)同樣也認為政治學者應該要認真得試圖引用進化論,對於 Lustick (2011)而言政治其實就是一群人或個人試圖改變或避免改變的過程,制度 (institution)就是研究政治的一個很重要概念,因為制度包含理念架構、期望與影 響政治互動的情境因素,制度是人促進或阻礙改變行為背後的環境,並會影響為 了達成改變或不改變而產生的競爭類型,所以許多政治學者都認為制度的改變是 很重要的,不過特別的是,政治學者卻很反對採用世界上最能夠解釋改變與環境 如何影響改變的理論:進化論。Lustick (2011)也提到在政治學中應用到進化這個 名詞的研究,不是透過生物角度探討政治行為,就是錯誤得認為進化論是在探討 一種進步或發展的過程,政治學者與其他社會科學學者並不反對將進化論用於解 釋生物的現象,不過每當一提到要把進化論用於分析社會科學的問題時,這些學 者卻都很反對,對於他們而言在生物科學的周遭好像有一圈無法被突破的隱形牆 壁一樣,在牆內進化論被接受是一個具有強大解釋能力的理論,但在牆外探討人 類行為的領域中,進化論卻被視為不重要、不正確或甚至是一種危險的理論。. 立. 政 治 大. ‧ 國. 學. ‧. 公共行政除了與政治學一樣擁有使用不變法則來形容不斷變動的社會文化 現象和錯誤得把進化視為等同於進步的改變,這兩個問題外,也因為試圖把自己 轉變成一門嚴謹的科學學門而不斷得透過自然科學、心理學中引入能夠佐證所使 用架構的理論邏輯,不過在引進自然科學與心理學概念的過程卻忽略了他們背後 共同的進化論基礎,而把焦點還是不正確得放在個人上來解釋所有現象的產生, 例如公共行政透過引進在政治學中處於核心地位的理性選擇與行為相關的研究, 但這些理論並不是很有幫助,理性選擇在解釋人類形成不同抉擇的基準時並不是 很清楚,同時理性選擇與事實也有差距,而行為相關的理論則沒有辦法解釋為什 麼人會針對環境中的變數做出特定的行為,理性選擇也忽略理性行為本身就是一 個需要被解釋的現象(Alford & Hibbing, 2004),同時也很難解釋為什麼有一些理. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 念相較於其他的理念是比較成功的,而哪一些因素會造成政策的改變,為什麼有 些理念會變成被實施的政策,但有些理念卻不被理會(John, 1999),針對理性選擇 與有限理性等相關理論為什麼必須由真正的進化論取代成為公共行政的核心理 論基礎,本研究在文獻回顧解釋完進化論概念後會再做討論。 從以上的文獻回顧可以了解,公共行政如果希望使得自己所探討的核心社會 文化議題能夠與其他科學溝通,同時使得解釋實證資料的理論架構有實際的科學 根據,則必須將現有的理論架構與進化論的思維進行連結,公共行政其實也是一 門分析文化的學門,因此價值、偏好、創新等等的文化因素都是必須探討的重要 議題(Jørgensen & Bozeman, 2007;Raadschelders, 2011),接下來本研究將簡單回 顧過去與公共行政具有高度關聯的創新擴散學研究,其實創新擴散學本身就是在 9.

(24) 探討一種文化現象的進化過程,因此將進化與模因學的思維引進公共行政並不是 在推翻過去的理論,而只是將這些理論延伸,同時又能擴展目前的發現,使得公 共行政更加能夠反映動態文化現象的演變,並使得自己領域的研究能夠與更廣的 進化論研究做結合(John, 2003;Lustick, 2011)。. 貳、. 創新擴散學與社會文化進化的相似. 政策的來源可能是任何理念、提議或作為,而政策本身可以說是意圖與行為 的混和,當然政策本身也可能只是單純的意圖,不過都還是與現有的文化、思維 有強烈的關聯,有學者甚至直接將政策創新的擴散以文化擴散的言語來形容 (Pemberton, 1936)。在政策的發展中真正的創新是很少見的,絕大多數的政策制 訂其實只是再以另一個政策取代現有的政策、方案或組織(Page, 2009),因此公 共行政所探討的政策其實與社會文化進化息息相關,這也是為什麼公共行政所關 注的政策創新擴散研究與社會文化進化、模因的概念是非常接近或甚至是一樣的 概念,同時也與生物學進化論相關的研究有很大的共同點(Mesoudi, Whiten & Laland, 2006),因為改變是創新過程的核心,而知識的創新包含著所有進化論所. 立. 政 治 大. ‧ 國. 學. 要求的條件,因此透過進化的途徑來分析創新是非常適合的(Bentley, 2010)。 確實過去創新擴散的研究中所敘述的概念與發現的現象都符合社會文化進. ‧. 化的過程,如同以上所討論的,創新就是一種受到進化過程影響的事物,創新擴 散的 S 型曲線趨勢,甚至與生物和社會的成長趨勢是一樣的,因此同樣也會受到 環境因素、事件的影響(Pemberton, 1936;1937)。過去創新與部分文獻中模因的 定義也是很類似的,例如 Van de Ven (1986)就認為創新本身可以說是一個被視為 是新的理念,它也可以是舊理念的重新組合、一個挑戰現有秩序的建議或甚至是 一個新的途徑,而創新的理念往往是從其他來源模仿而來的,相同的 Rogers (2003) 則把創新定義為被採用的個人或單位視為新的事物,這裡事物可以是理念、作為 或物件。 創新的研究中也發現了許多符合社會文化進化的準則,其中包含發現創新的 擴散是有地區上的關聯性,鄰近州之間的政策創新過程、採用創新的結果會比較. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 類同(Mooney & Lee, 1995;Walker, 1969),同時當組織採用創新時,組織並不是 直接採用一個詳細的創新政策藍圖,而是一個概念,這個概念的操作化細節是慢 慢的在採用與實施過程中才會產生(Rice & Rogers, 1980),許多研究也發現在探 討創新擴散的過程中必須討論創新本身的特性才能夠解釋其傳播的狀態,例如 Glick & Hays (1991)提到在研究創新政策的擴散時,必須探討政策本身的內容, 如果只針對採納創新政策的時間做分析,就會忽略政策本身內容的創新程度,同 樣的 Tornatzky & Klein (1982)針對過去 75 篇探討創新特質與創新的採用、實施 研究進行後設分析(meta-analysis),發現個別創新的相容性、相對優勢與複雜性 等三個特質與創新的採用最有相關,因為創新之間是有很大的差異,因此創新本 身的特性對於其擴散的速度會有很大的影響(Rogers, 2003),針對政策創新領域的 10.

(25) 研究也有相同的發現(Damanpour, 1991),Boushey (2010)也認為創新本身有許多 特性會影響到其擴散,這些包含議題複雜性(complexity)、成本(cost)與議題顯著 性(saliency),其中 Mooney & Lee (1999a;1999b)則發現道德性政策的顯著性與 簡易性,會使得其比較難擴散,Rogers (2003)的研究指出創新有許多不同的特性 而這些特性對於創新的擴散、採用是會有影響的: 1. 相對優勢(relative advantage):一個創新被視為比其替代的理念還更具有優勢 的程度 2. 相容性(compatibility):一個創新被視為能與現有價值、過去經驗與採用者需 求一致的程度 複雜性(complexity):一個創新被視為難以理解或使用的程度 可測試性(trialability):一個創新能夠在有限的狀況下測試的程度 可觀察性(observability):一個創新結果能夠被他人觀察的程度 Boushey (2010)則認為政策創新的特性主要可以由五個面向區分,而這些面 向之所以會影響擴散的動態,是因為他們會改變大眾對於政策過程的參與: 1. 政策目標(policy target):從政府得到利益或負擔的團體,會影響大眾與政策 3. 4. 5.. 立. 制定者對於政策的反應。能影響決策者對於創新的反應。 議題複雜性(issue complexity):影響決策者如何做出政治決定。決定大眾是 否能很容易了解議題並訴求改革。. ‧ 國. 學. 2.. 政 治 大. ‧. 方案成本(program cost):政策實施的困難性,所需的資源。影響低資源的政 府是否能採用創新 4. 議題顯著性(issue salience):影響政治系統對於資訊重要性的順序排列。大 眾是否會參與、注意議題。 5. 議題脆弱度(issue fragility):對於政治上反對創新的認知,影響政策採用的 困難度。影響大眾是否會支持或反對創新。 雖然以上的學者都是在敘述創新本身的特質,不過卻因為討論的創新類型不 同而獲得了不同而無法相容的結論,同樣的過去根據採用者採用創新的速度進行 分類的模型,並沒有考慮採用者不一定有注意到整體社會對於特定創新的採用速 度,因為採用者在自己的社會網絡中可能是早期採用創新的,但相較於整體社會. 3.. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 則可能是最慢採用的(Valente, 1996),其實這個問題與過去創新定義和類型的爭 議是相同的,因為討論創新的研究分析目標模糊,使得根據不同定義、假設建構 的創新模型之間很難進行比較與知識的累積。Nye (2014)認為過去的擴散模型與 社會網絡結構無法完善得解釋哪一些人比較可能模仿新的行為或採用特定的行 為,創新擴散模型能夠解釋採用的速度,但卻無法解釋採用的方向,創新的擴散 過程是社會學習,而社會學習本身則是一個競爭的過程,因為在任何一個時間點 下,能夠學習的對象遠超過能夠學習的時間,因此擴散過程必須能夠解釋為什麼 特定行為會被篩選為最終被學習的對象,Nye (2014)覺得透過模因學的概念來強 化創新擴散的解釋是一個很好的途徑。 創新常常被視為一件好事,過去的研究只把成功、有用的理念標示為創新, 11.

(26) 並把失敗的創新理念標示為錯誤,不過嚴格講起來兩者都是創新的理念,只是在 一開始的時候人無法知道哪ㄧ些會演變成好的創新而哪一些會是錯誤(Van de Ven, 1986),Van de Ven (1986)對於創新的批評其實也隱含了創新擴散學的另一個 問題,這就在於研究創新的學者所探討的創新都不一樣,如之前所提到的,創新 可能是理念、過程或甚至是物件,因為沒有一個能夠統一創新擴散學的分析單位, 同時創新擴散的文獻中也沒有一個統一的創新定義(李仲彬,2013a) ,使得創新 擴散學的研究發現之間產生互相矛盾的現象,另外過去創新的研究主要都只針對 個人進行分析,忽略創造是一個集體的過程,個人的發明是建立在其他人的理念 與發明,哪一些創新(模因)被傳播或死亡反映的是整體社會的動態(Gabora, 1997),最後人所持有的價值對於政策創新的擴散與採用有很大的影響,這一點 尤其在道德相關政策最顯著,因為道德政策會透過管理行為正當化整體人民並不 都認同的價值(Mooney & Lee, 1999a;1999b),沒有創新是從空中冒出來的,所 有的創新都是依賴過去的文化傳統與現有的方案,創意只是把現有的方案重新組 合而已,同時過去文化的累積也常常會遺失,因此並不是無限得累積下去的 (Wilkins, 2001)。 創新不能獨立於其他文化的研究,因為其本身會受到社會文化中價值、文化. 立. 政 治 大. ‧ 國. 學. 等等因素的影響(Mooney & Lee, 1999a;1999b),因此創新擴散學必須與其他社 會文化的研究溝通,並設法統一分析單位與分析單位的定義。其實創新雖然與模. ‧. 因有許多共同點,不過兩者之間還是有一些差異,使得創新擴散學無法完善得解 釋其所試圖分析的社會文化擴散,本研究在解釋模因的文獻回顧中將會針對這一 點進行討論,並在解釋進化論與模因的文獻回顧中亦會深入探討為什麼社會文化 進化的分析是不能聚焦於個人為分析單位的,同時也會解釋為什麼模因是一個能 夠整合創新擴散並使得創新能夠與其他研究文化的領域溝通的重要概念3。. n. al. er. io. sit. y. Nat. 第三節. v. 目前巨量資料與網路民意的限制 ni C. hengchi U. 在寫作的發明到 2006 年之間,人類已經累積了 180EB(1 Exabyte = 1018 個 位元組) 的資料,而在 2006 年到 2011 年之間資料量又迅速得成長了 10 倍(Floridi, 2012),在過去 20 年中不同領域的資料量也有明顯得提升(Chen, Mao & Liu, 2014), 網路與電腦的發展使得文本資料大量得增加(Bail, 2014;Weiss et al., 2005), Kitchin (2014)認為在科學領域中的革命常常追隨著測量技術的革命,巨量文本資 料的產生使得新的測量方法必須被納入研究分析過程,本研究認為公共行政因為 納入大量網路文本資料與分析它們的新測量方法,因此正面臨新一波測量技術更 新對於傳統理論基礎不相容的挑戰,因為在採用分析巨量資料新技術的同時是不 可能一樣維持過去所使用的理論與方法,如 Boyd & Crawford (2012)所言巨量資 料的量使得傳統用於解釋人類行為的理論被淹沒,並改變學習的定義,不過同時 3. Spitzberg (2014)認為模因的複製就是一種創新擴散的型態,本研究認為兩者之間還是有許多差 異,不過在許多分析角度與方法上是類同的。 12.

(27) 帶來新的潛能與限制。. 壹、. 巨量資料研究與理論的結合. 巨量資料(big data)這個詞彙在將近 20 年前就已經被提出了(Fan & Bifet, 2013),不過卻是在近 5 年才開始受到廣義的重視與採用(Crawford, Miltner, & Gray, 2014),而雖然巨量資料受到重視,不過它的定義卻很不明確(Floridi, 2012), 同時也很多元,但其簡單可以被視為大量、多元而難透過傳統資料平台處理的資 料(Chen & Zhang, 2014),大多數的研究認為巨量資料的特色在於它的容量 (volume,傳統平台難應付的資料量) 、速度(velocity,資料即時性)與種類(variety, 多元的資料結構狀態)(Zikopoulos, et al., 2012;Fan & Bifet, 2013;TechAmerica Foundation, 2012;Chen & Zhang, 2014),部分研究也認為準確性(veracity,資料 的品質)也算是巨量資料的重要特性之一(TechAmerica Foundation, 2012;. 政 治 大 Crawford, 2012),同時部分學者透過資料產生的彈性來區分巨量資料與傳統學界、 立 政府官方資料之間的差異(Kitchin, 2014)。 Zikopoulos et al., 2013),也有其他學者將社會對於它的迷失也納入定義中(Boyd &. ‧ 國. 學. 巨量資料包含許多多元甚至互相矛盾的領域、技術與作為(Crawford, Miltner, & Gray, 2014),而於分析巨量資料的方法也越來越受到重視,這些主要包含資料探. ‧. 勘(data mining)與情緒分析(sentiment analysis)(Cambria et al., 2013),巨量資料的 大量與變化也會使得人工的編碼、分類非常得困難,因此自動化的技術會是成功 使用巨量資料的關鍵(Bail, 2014),透過比較有效率的網路資料探勘技術取代人工 編碼與大規模資料庫建立(Etzioni, 1996),為了面對巨量資料分析上的挑戰,許多 學者開始朝向使用演算法、自動化的技巧來找出資料中存在的特定規律,不過不 同方法都有自己所擁有的弱點,而不同資料集也有其獨特的特性,因此現在的學 者無法如同傳統的研究一樣依靠自己對於資料與技術的理解選擇最適合分析的 方法,巨量資料分析開啟了一個新的認識論觀點,學者不再是透過資料來驗證理 論,而是透過自動化的分析去發掘資料中的意涵(Kitchin, 2014),巨量資料分析 技術的發展使得研究公共行政的學者能透過新的分析步驟與思維邏輯從大量資. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 料中萃取有價值的資訊(蕭乃沂等人,2015),但公共行政現有的理論基礎卻不 適合用於解釋這些資訊背後的事實意涵。 巨量資料對於研究、思維與知識都會產生影響,當然對於認識論亦同(Boyd & Crawford, 2012;Crawford, Miltner, & Gray, 2014;Floridi, 2012),問題不在是有 沒有辦法獲得足夠的資料量,而是如何在資料所呈現的無數個趨勢中找出值得被 分析的那一個(Floridi, 2012),目前學界主要把巨量資料視為一種能夠被使用的資 源或是一個需要被控制的力量,這兩種比喻都把巨量資料視為一種中立、可靠的 資訊來源,不過巨量資料中的資訊許多是社會建構的,因此可能會偏向於特定觀 點,同時因為資料本身不是為了特定目的產生,有時甚至是其他活動的產物 (Kitchin, 2014)。資料絕對不中立,而且也與理論沒有明確的關聯,但資料的意 13.

(28) 涵還是需要仰賴研究者主動的評估(Crawford, Miltner, & Gray, 2014)。 基於巨量資料的特性與學界中普遍對於它的觀點,有兩大組學者認為巨量資 料可能帶來新的改變,不過改變的方向卻不一樣,首先部分學者認為巨量資料會 排除掉理論的需求,因為資料本身就可以產生出有意義的知識,並找出傳統科學 方法無法發現的關聯,在業界中這個觀點更是受到認同,因為業者的目的在於發 現關聯、預設趨勢而不在於了解世界,Kitchin (2014)認為因為巨量資料本身在抽 樣上的偏差、分析演算法的設定與解讀都無法獨立於理論的影響,社群媒體的使 用者群體大都只是整體社會中的一小部分,因此不一定有代表性(Boyd & Crawford, 2012;Crawford, Miltner & Gray, 2014),同時從社群媒體蒐集資料很容 易基於時間點、連線品質的關係而獲得全然不同的資料,因此最嚴謹的資料蒐集 方式都可能產生偏態的研究結果(Crawford, Miltner & Gray, 2014),因此這種只重 視實務並排除理論的觀點是不可行的(Kitchin, 2014)。 另外有一部分的學者試圖納入資料導向的觀點到科學的研究過程中,以資料 來引導假設,不過還是納入理論相關的知識去解讀與分析值得關注的關聯,透過 理論來引導資料中關係的搜尋,而不是直接假設資料中所有的關聯都是有意義的, 這一部分的學者認為巨量資料並沒有排除理論的需求,只是促進不同學門發展出 新的研究典範(Kitchin, 2014),Yang & Wu (2006)透過調查不同學術會議的舉辦學 者,發現大多數的學者都認為用於分析巨量網路資料的資料探勘技術,目前所面. 立. 政 治 大. ‧ 國. 學. ‧. 臨最大的問題就是欠缺一個能夠統合所有方法的理論架構,因為不同的資料探勘 技術都是針對個別的問題發展的,因此彼此之間欠缺理論的連結與依據,Kitchin. sit. io. 科學典範的變化. n. al. er. 表1:. y. Nat. (2014)認為巨量資料的來臨使得現代科學開始朝向探索性與資料探勘的方向發 展的狀態,表 1 為學者提出在不同階段中科學的發展。. 典範. 類型. Ch. 內容. engchi. i n U. v. 時間點. 1 2. 實驗科學 理論科學. 實證主義、敘述自然現象 模型建構與概括解釋. 文藝復興前 電腦使用前. 3 4. 計算性科學 探索性科學. 模擬複雜現象 資料密集、統計探索與資料探勘. 巨量資料前 現在. 資料來源:Kitchin (2014) 雖然理論在巨量資料的時代還是有其必要性,不過在巨量資料所帶來的大量 非結構資料的衝擊下(Chen, Mao & Liu, 2014),認識論多元的社會科學與人文要 如何去面對它(Kitchin, 2014)?到底要透過哪一類型的本體論、認識論或觀點來 解釋這種自然產生的現象,呈現在時間中變化的大量文化資料(Bail, 2014)?很顯 然無法解釋隨時間變動現象的傳統公共行政與政治學理論是不可能應付巨量網 路資料的衝擊,不過特別的是自然科學的研究已經成功得納入巨量資料的邏輯 (Kitchin, 2014),因此公共行政應該積極得參考他們所應用的方法,採用自然界 14.

(29) 能夠解釋變化現象的進化論來分析巨量資料。. 貳、. 民意調查的限制. 民意研究主要的目的在於透過觀點、意向、情緒、態度、利害關係者期許或 整體民眾來界定浮現的社會趨勢,民意研究被應用的領域包含政策制定,探討政 策可能引起的影響,並協助釐清期許的利益與後果(Sobkowicz, Kaschesky, & Bouchard, 2012),因為民意對於政策的影響大於政策對於民意的影響(Page & Shapiro, 1983),不過在研究民意時,應該要把焦點擺在探討能夠規律性影響民意 本身背後的準則,原因在於一般大眾的政治思維不能以演繹(deductive)的方式解 釋,過去文獻上透過意識形態或政治與社會中的原則來解釋民意是不恰當的,因 為人不一定透過意識形態的角度來看世界,不過卻還是擁有自己的政治態度、理 念與偏好,因此後者很值得學者去探討,過去的文獻認為政治菁英會將政治態度、 理念整合成一般大眾能夠消化的結構,不過這個觀點只能解釋為什麼民意會以特 定組合呈現,但卻無法解釋為什麼特定的人民會選擇特定的政治觀點,當人民接 觸到菁英所提供的特定政治思維「包裹」時,會根據其核心理念與價值與這些包 裹的一致性來選擇哪一個包裹自己會接受,而人民的核心理念與價值是來自日常 生活中所受到的政治文化的影響,這些文化的影響透過社會的規範不斷得強化,. 立. 政 治 大. ‧ 國. 學. ‧. 不過人民之前所持有的核心理念與價值都不一致,因此人民之間會產生不同的政 策偏好(Feldman, 1988),可以說了解文化的進化對於民意的分析有很大的幫助。 民意調查高度依賴的問卷調查本身存在著很多問題,其中問卷調查所得到的 資料與實際公民政治參與往往存在著很大的差距(Ansolabehere & Hersh, 2012), 同時測量偏誤(method bias)也是一個很大的問題,因為它可能使得變數之間的關 聯受到扭曲,Podsakoff et al. (2003)列出了許多可能導致測量偏誤(method bias)的 原因,其中包含一致性意念(consistency motif,受訪者為了使得自己填答的答案 之間一致,因而在自己所認為相似的題目填答上保持一致,使得在真實生活中可 能沒有關聯的構面之間存在著關聯性) 、隱式理論與幻想的關聯(implicit theories and illusory correlations,受訪者的填答會受到自己所持有的理論或思維的影響) 、. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 社會合意性(social desirability,社會對於可以被接受的文化與行為的定義會使得 受訪者只填選特定的答案) 、寬容偏見(leniency bias,當受訪者在評分題目時將 自己認識的人評分得比較高)與默認(acquiescence,受訪者原則上會比較傾向 同意態度相關的陳述題目) ,這些偏誤使得傳統的問卷調查無法獲得正確的資訊, 同時不管是透過開放式或封閉式問卷題目測量民意都還是會有限制,Schuman & Scott (1987)透過大規模問卷調查發現封閉式題目會使得題目選項被選擇的比率 大大超越實際上的分配,而開放式題目會因為用詞的關係而使得特定選項不會被 受訪者認為是合理的選項,因此透過問卷調查民意是無法正確了解民意的,也不 能正確鑑定不同選項之間的排序,問卷調查頂多只能敘述特定選項在時間上與在 各情境下的變動,如果能夠大規模蒐集在自然狀態下的民意討論,則可以排除這 15.

(30) 些問題。 隨著網路的民主化使得大量的民意透過網路表達,資訊通訊科技也使得資訊、 理念與意見能夠廣泛得傳播、交換,同時公民也越來越願意主動參與政治議題, 使得越來越多學者、研究機構、使用者也希望能夠獲取網路民意的資訊,網路提 供大量的網路社群資訊使得研究者可以詳細得分析網路上的互動(Sobkowicz, Kaschesky & Bouchard, 2012),透過資料探勘分析網路上的文字,相較於傳統的 電話調查成本更低,同時在分析主題上又更具彈性(O’Connor et al., 2010),不過 卻很少研究探討網路民意是如何產生與擴散(Sobkowicz, Kaschesky & Bouchard, 2012),同時雖然過去有研究透過分析網路文本資訊探討民意,但還是侷限於單 純文本情緒的敘述(Stylios, et al., 2010),而沒有探討這些變動趨勢背後所反映的 事實、原因,Thelwall, Prabowo, & Fairclough (2006)的研究試圖透過針對原始網 路文本的分析,篩選出重要的公共辯論討論,不過雖然三位學者不斷得提到部落 格文本產生爆發性討論的是一項重要而且值得討論的議題,不過整篇研究卻只有 針對會產生大量爆發性討論文本的詞彙進行數量的呈現,而沒有針對文本任何其 他的特性進行分析,也沒有探討不同詞彙可能對於文本討論的影響,而只是單純 提到部分詞彙背後的討論議題有引發許多人注意,Thelwall, Prabowo, & Fairclough (2006)因為只有針對單純的詞彙頻率進行趨勢上的描述,因此無法有. 立. 政 治 大. ‧ 國. 學. 效得偵測有意義的網路討論話題,這個研究所面臨的問題與目前其他巨量資料的. ‧. 研究是一樣的,因為理論與方法上的脫解使得許多針對網路民意文本的分析都只 能進行初步的敘述,而無法深入分析與討論文本的變化趨勢與原因,當然也更無 法將敘述的現象與理論進行結合。 目前針對網路文字情緒的處理主要分成正向或負向情緒,這種方式雖然可以 達到高度的準確率,不過在研究的解釋上卻很困難,同時如果沒有文章作者的資 料能夠分析則準確度會降低(O’Connor et al., 2010;Sobkowicz, Kaschesky & Bouchard, 2012;Stylios, et al., 2010),網路上同一個帳號可能是許多不同作者使 用的,因此就算能夠獲得作者的資料也很難確保這個資料對於研究的分析會有實 際上的意義,同時情緒也可能受到特定事件或其他人與媒體的影響而有大幅度的 變動(Sobkowicz, Kaschesky & Bouchard, 2012),使得分析起來很困難,因為無法. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 獨立於文章發表當時的環境進行分析,這主要是因為情緒本身是文章中文字與環 境互動的產物,而許多環境中的因素例如媒體、社區影響、國外的影響等等都是 非常模糊而很難明確界定的變數,如果可以把巨量中的網路民意透過更加系統性 的方式進行分析,並同時允許環境影響的因素,就能夠將巨量資料中的民意分析 優勢發揮出來。 部分學者認為巨量資料的時代使得過去無法正確反映人類行為的理論不再 實用,不過如同本研究在前一段所探討的民眾在網路上的民意表現還是需要理論 去引導它的分析,同時在分析網路民意時必須考慮哪一種類的文章應該要被納入 分析(O’Connor et al., 2010),光是這一點就需要研究者專業的投入,在蒐集網路 上的資料時,資料會受到兩種篩選的過程,第一種是由研究者掌握的,透過選擇 16.

參考文獻

相關文件

本彙集輯錄了多篇學校經驗分享的文章,闡述「管理與組織」範疇的各項全校 參與訓育及輔導工作模式的重點,請參閱教統局網頁,索引: 本局向學生及家 長提供的服務 >

▸ 學校在收集學生的個人資料前,必須徵得學生的同意,並向所

5.派發作文時,宜嘉許同學的優秀表現,印發 佳作,於課堂上分析讚賞,鼓勵同學互相 觀摩,並將佳作上載學校網頁,加強學生

5.派發作文時,宜嘉許同學的優秀表現,印發 佳作,於課堂上分析讚賞,鼓勵同學互相 觀摩,並將佳作上載學校網頁,加強學生

使學生認識中國文化的優 點,加強學生對中國文化的 尊崇,及培養學生對其他民 族、他們的文化、價值觀及 生活方式,採取一個積極的

  此外, 圖書館亦陸續引進英美文學、外語學習與研究等 相關資料庫,如 19 世紀以前出版的經典文學名著 Literature Online, Early English Books Online 與 Naxos

Segmented Bushy Path 分為兩個步驟,第一個步驟是文件結構的切割 (Text Segmentation),也就是分析文件內容並將文件內容切割成幾個具有代 表的結構。Text Segmentation