目前巨量資料與網路民意的限制

第一章緒論

第三節目前巨量資料與網路民意的限制

Ven, 1986)，Van de Ven (1986)對於創新的批評其實也隱含了創新擴散學的另一個問題，這就在於研究創新的學者所探討的創新都不一樣，如之前所提到的，創新可能是理念、過程或甚至是物件，因為沒有一個能夠統一創新擴散學的分析單位，

同時創新擴散的文獻中也沒有一個統一的創新定義（李仲彬，2013a），使得創新擴散學的研究發現之間產生互相矛盾的現象，另外過去創新的研究主要都只針對個人進行分析，忽略創造是一個集體的過程，個人的發明是建立在其他人的理念與發明，哪一些創新（模因）被傳播或死亡反映的是整體社會的動態(Gabora, 1997)，最後人所持有的價值對於政策創新的擴散與採用有很大的影響，這一點尤其在道德相關政策最顯著，因為道德政策會透過管理行為正當化整體人民並不都認同的價值(Mooney & Lee, 1999a；1999b)，沒有創新是從空中冒出來的，所有的創新都是依賴過去的文化傳統與現有的方案，創意只是把現有的方案重新組合而已，同時過去文化的累積也常常會遺失，因此並不是無限得累積下去的 (Wilkins, 2001)。

創新不能獨立於其他文化的研究，因為其本身會受到社會文化中價值、文化等等因素的影響(Mooney & Lee, 1999a；1999b)，因此創新擴散學必須與其他社會文化的研究溝通，並設法統一分析單位與分析單位的定義。其實創新雖然與模 2012)，在過去 20 年中不同領域的資料量也有明顯得提升(Chen, Mao & Liu, 2014)，

網路與電腦的發展使得文本資料大量得增加(Bail, 2014；Weiss et al., 2005)，

Kitchin (2014)認為在科學領域中的革命常常追隨著測量技術的革命，巨量文本資料的產生使得新的測量方法必須被納入研究分析過程，本研究認為公共行政因為納入大量網路文本資料與分析它們的新測量方法，因此正面臨新一波測量技術更新對於傳統理論基礎不相容的挑戰，因為在採用分析巨量資料新技術的同時是不可能一樣維持過去所使用的理論與方法，如 Boyd & Crawford (2012)所言巨量資料的量使得傳統用於解釋人類行為的理論被淹沒，並改變學習的定義，不過同時

3 Spitzberg (2014)認為模因的複製就是一種創新擴散的型態，本研究認為兩者之間還是有許多差異，不過在許多分析角度與方法上是類同的。

‧

2013)，不過卻是在近 5 年才開始受到廣義的重視與採用(Crawford, Miltner, &

Gray, 2014)，而雖然巨量資料受到重視，不過它的定義卻很不明確(Floridi, 2012)，

同時也很多元，但其簡單可以被視為大量、多元而難透過傳統資料平台處理的資料(Chen & Zhang, 2014)，大多數的研究認為巨量資料的特色在於它的容量

（volume，傳統平台難應付的資料量）、速度（velocity，資料即時性）與種類（variety，

多元的資料結構狀態）(Zikopoulos, et al., 2012；Fan & Bifet, 2013；TechAmerica Foundation, 2012；Chen & Zhang, 2014)，部分研究也認為準確性（veracity，資料的品質）也算是巨量資料的重要特性之一(TechAmerica Foundation, 2012；

Zikopoulos et al., 2013)，也有其他學者將社會對於它的迷失也納入定義中(Boyd &

Crawford, 2012)，同時部分學者透過資料產生的彈性來區分巨量資料與傳統學界、

政府官方資料之間的差異(Kitchin, 2014)。

巨量資料包含許多多元甚至互相矛盾的領域、技術與作為(Crawford, Miltner,

& Gray, 2014)，而於分析巨量資料的方法也越來越受到重視，這些主要包含資料探勘(data mining)與情緒分析(sentiment analysis)(Cambria et al., 2013)，巨量資料的大量與變化也會使得人工的編碼、分類非常得困難，因此自動化的技術會是成功使用巨量資料的關鍵(Bail, 2014)，透過比較有效率的網路資料探勘技術取代人工編碼與大規模資料庫建立(Etzioni, 1996)，為了面對巨量資料分析上的挑戰，許多學者開始朝向使用演算法、自動化的技巧來找出資料中存在的特定規律，不過不同方法都有自己所擁有的弱點，而不同資料集也有其獨特的特性，因此現在的學者無法如同傳統的研究一樣依靠自己對於資料與技術的理解選擇最適合分析的方法，巨量資料分析開啟了一個新的認識論觀點，學者不再是透過資料來驗證理論，而是透過自動化的分析去發掘資料中的意涵(Kitchin, 2014)，巨量資料分析技術的發展使得研究公共行政的學者能透過新的分析步驟與思維邏輯從大量資料中萃取有價值的資訊（蕭乃沂等人，2015），但公共行政現有的理論基礎卻不適合用於解釋這些資訊背後的事實意涵。

巨量資料對於研究、思維與知識都會產生影響，當然對於認識論亦同(Boyd &

Crawford, 2012；Crawford, Miltner, & Gray, 2014；Floridi, 2012)，問題不在是有沒有辦法獲得足夠的資料量，而是如何在資料所呈現的無數個趨勢中找出值得被分析的那一個(Floridi, 2012)，目前學界主要把巨量資料視為一種能夠被使用的資源或是一個需要被控制的力量，這兩種比喻都把巨量資料視為一種中立、可靠的資訊來源，不過巨量資料中的資訊許多是社會建構的，因此可能會偏向於特定觀點，同時因為資料本身不是為了特定目的產生，有時甚至是其他活動的產物 (Kitchin, 2014)。資料絕對不中立，而且也與理論沒有明確的關聯，但資料的意

‧

涵還是需要仰賴研究者主動的評估(Crawford, Miltner, & Gray, 2014)。

基於巨量資料的特性與學界中普遍對於它的觀點，有兩大組學者認為巨量資料可能帶來新的改變，不過改變的方向卻不一樣，首先部分學者認為巨量資料會排除掉理論的需求，因為資料本身就可以產生出有意義的知識，並找出傳統科學方法無法發現的關聯，在業界中這個觀點更是受到認同，因為業者的目的在於發現關聯、預設趨勢而不在於了解世界，Kitchin (2014)認為因為巨量資料本身在抽樣上的偏差、分析演算法的設定與解讀都無法獨立於理論的影響，社群媒體的使用者群體大都只是整體社會中的一小部分，因此不一定有代表性(Boyd &

Crawford, 2012；Crawford, Miltner & Gray, 2014)，同時從社群媒體蒐集資料很容易基於時間點、連線品質的關係而獲得全然不同的資料，因此最嚴謹的資料蒐集方式都可能產生偏態的研究結果(Crawford, Miltner & Gray, 2014)，因此這種只重視實務並排除理論的觀點是不可行的(Kitchin, 2014)。

另外有一部分的學者試圖納入資料導向的觀點到科學的研究過程中，以資料來引導假設，不過還是納入理論相關的知識去解讀與分析值得關注的關聯，透過理論來引導資料中關係的搜尋，而不是直接假設資料中所有的關聯都是有意義的，

這一部分的學者認為巨量資料並沒有排除理論的需求，只是促進不同學門發展出新的研究典範(Kitchin, 2014)，Yang & Wu (2006)透過調查不同學術會議的舉辦學者，發現大多數的學者都認為用於分析巨量網路資料的資料探勘技術，目前所面臨最大的問題就是欠缺一個能夠統合所有方法的理論架構，因為不同的資料探勘技術都是針對個別的問題發展的，因此彼此之間欠缺理論的連結與依據，Kitchin (2014)認為巨量資料的來臨使得現代科學開始朝向探索性與資料探勘的方向發資料來源：Kitchin (2014)

雖然理論在巨量資料的時代還是有其必要性，不過在巨量資料所帶來的大量非結構資料的衝擊下(Chen, Mao & Liu, 2014)，認識論多元的社會科學與人文要如何去面對它(Kitchin, 2014)？到底要透過哪一類型的本體論、認識論或觀點來解釋這種自然產生的現象，呈現在時間中變化的大量文化資料(Bail, 2014)？很顯然無法解釋隨時間變動現象的傳統公共行政與政治學理論是不可能應付巨量網路資料的衝擊，不過特別的是自然科學的研究已經成功得納入巨量資料的邏輯 (Kitchin, 2014)，因此公共行政應該積極得參考他們所應用的方法，採用自然界

‧

策可能引起的影響，並協助釐清期許的利益與後果(Sobkowicz, Kaschesky, &

Bouchard, 2012)，因為民意對於政策的影響大於政策對於民意的影響(Page &

Shapiro, 1983)，不過在研究民意時，應該要把焦點擺在探討能夠規律性影響民意本身背後的準則，原因在於一般大眾的政治思維不能以演繹(deductive)的方式解策偏好(Feldman, 1988)，可以說了解文化的進化對於民意的分析有很大的幫助。

民意調查高度依賴的問卷調查本身存在著很多問題，其中問卷調查所得到的資料與實際公民政治參與往往存在著很大的差距(Ansolabehere & Hersh, 2012)，

同時測量偏誤(method bias)也是一個很大的問題，因為它可能使得變數之間的關聯受到扭曲，Podsakoff et al. (2003)列出了許多可能導致測量偏誤(method bias)的原因，其中包含一致性意念（consistency motif，受訪者為了使得自己填答的答案之間一致，因而在自己所認為相似的題目填答上保持一致，使得在真實生活中可能沒有關聯的構面之間存在著關聯性）、隱式理論與幻想的關聯（implicit theories and illusory correlations，受訪者的填答會受到自己所持有的理論或思維的影響）、社會合意性（social desirability，社會對於可以被接受的文化與行為的定義會使得受訪者只填選特定的答案）、寬容偏見（leniency bias，當受訪者在評分題目時將自己認識的人評分得比較高）與默認（acquiescence，受訪者原則上會比較傾向同意態度相關的陳述題目），這些偏誤使得傳統的問卷調查無法獲得正確的資訊，

同時不管是透過開放式或封閉式問卷題目測量民意都還是會有限制，Schuman &

Scott (1987)透過大規模問卷調查發現封閉式題目會使得題目選項被選擇的比率大大超越實際上的分配，而開放式題目會因為用詞的關係而使得特定選項不會被受訪者認為是合理的選項，因此透過問卷調查民意是無法正確了解民意的，也不能正確鑑定不同選項之間的排序，問卷調查頂多只能敘述特定選項在時間上與在

在文檔中巨量資料生態：以模因學分析網路文本的進化 - 政大學術集成 (頁 26-31)

第一章 緒論

第三節 目前巨量資料與網路民意的限制

‧

‧

‧

第一章緒論

第三節目前巨量資料與網路民意的限制