第⼆節、研究對象與資料搜集⽅法
第三節、 研究⽅法
(⼀)傳統內容分析⽅法的轉換
內容分析法(content analysis)作為⼀個廣泛被採⽤的社會科學領域研究⽅法,
其定義廣泛被採⽤的是:針對傳播的明顯內容,作客觀、系統、定量描述的⼀種研 究⽅法(Berelson,1952)。對於傳播內容的研究,諸如報章雜誌、電視廣播等都 是內容分析的應⽤範圍,其中更適⽤於回答宣傳研究之⽗ Lasswell 提出的傳播⽅
程式中的前兩個W:「Who (says) What (to) Whom (in) What Channel (with) What Effect」(Lasswell,1948)。對於傳播者以及傳播內容的影響效果研究,多數研究 採⽤此⽅法。
Berelson所⾔對於訊息的意義是明顯的、顯露的存在於⽂本之中,此點受到了 後繼學者的挑戰(Krippendoriff, 1980;王⽯番,1989)。對於內容分析⽅法的量化、
計量⽅式,常被認為忽略了整體訊息⽂本所處的脈絡所在。因此注重於內容分析是 否能由⽂本復構⽂本所在的社會情境,建⽴可複製且有效的推論,是內容分析⽅法 由量化技術表達質性研究問題的重點。事實上,內容分析在分析⽂本時所使⽤的量 化技術,並不代表此⽅法是純為量化的研究⽅法,因為在分析單位的界定過程中,
研究者的理解與定義脫離不了質化的過程(Krippendoriff, 1980, 2012)。
其中若應⽤內容分析法於⽐較不同訊息來源的做法更被廣泛應⽤(梁慧玲,
2004)。此作法檢視不同來源的訊息之差異,由統⼀的類⽬和單位,來了解傳播者 的⽴場差異(王⽯番,1989)。本研究鎖定研究對象為數位學習領域之MOOC學習
⾵潮,在界定分析單位以及類⽬時,先參考數位學習領域近年研究,將本研究之內 容分析議題類⽬分為三⼤類:個⼈化學習、企業培訓、⾼等教育改⾰,分別是以個
⼈、企業、改⾰政府教育單位為出發點來看待MOOC發展的⾓度差異。內容分析之 類⽬建構原則,王⽯繁(1989)歸類為以下九點:符合研究⽬的、反映研究問題、
窮盡、互斥、獨⽴、單⼀分類原則、功能性、可操縱性、合乎信度與效度。本研究 之議題類⽬辨別是透過R軟體配合電腦協助,信度上之⼀致性可符合研究意旨;效 度辨別上則需仰賴提⾼語意分析相關操作參數或是擴增語料庫內容來提升。
(⼆)鉅量資料分析取徑
鉅量資料(Big data,巨量資料,或譯為⼤數據)分析取徑,是為近年來關於 資料科學領域進步在整體技術背景成熟下誕⽣的⼀種研究技術。在其應⽤⽅⾯,排 除以往研究⽅法中抽樣樣本再推論回母體的推論過程,可以有樣本等於母體的優 點(Mayer-Schönberger& Cukier, 2013;林俊宏譯,2013)。此技術重新形塑了知 識建構與研究流程,以及⼈們應該如何處理資訊與分類,在思維與研究⽅⾯也產⽣
了「向運算轉」(computational turn)的趨勢,影響也逐漸擴及⼈⽂社會研究領域
(boyd & Crawford, 2012; Giles, 2012;轉引⾃陳百齡等⼈,2013)。⽽鉅量資料技 術被廣為討論的優點在於可處理的資料量⼤(volume)、資料種類多樣性(variety)、
處理速度快(velocity)以及資料真實性(veracity),謂之為 Big data 的 4Vs,⽽最 為關鍵的是這些資料處理過後得到的價值(value)(IBM, 2016)。對於研究對象 是數以萬計筆數以上的社群媒體⽂字資料的研究來說,使⽤此⽅法可謂是⼀時之 選。
學者陳百齡、鄭宇君、陳恭(2016)對於社群媒體在傳播領域研究的特性中,
提出社群媒體資料的完整性與透明度,以 Twitter 的資料取得為例,官⽅釋出的資 料只佔極⼩⽐例,在資料完整度上是為傳播領域研究在進⾏時會遇到的挑戰之⼀。
本研究對於中國微博之社群資料取得,新浪微博官⽅同樣設有重重限制,如需取⽤
須申請官⽅提供之應⽤程式介⾯(API),需經過填寫取⽤資料理由的步驟並註冊 通過⾝份認證,在操作上也不盡然能夠獲得整體鉅量資料,設有流量上限制。⽽後 研究者改採開源程式碼社群的協助,以網⾴爬蟲(web crawler, web scraper)技術 獲得資料(如圖 9),經驗證後確保資料取得完整性,並會將此程式碼以附錄形式 附加在此研究之後,以落實資料透明度(如附錄⼆)。本研究意旨在於學術研究,
在最低限度內使⽤網⾴爬蟲技術取得研究資料,不做濫⽤,避免造成業者伺服器負 荷問題(Mitchell/Studio Tib.譯,2016)。
圖 9:從社群平台網⾴爬取資料步驟⽰意
資料來源:國⽴政治⼤學⽔⽕計畫團隊(2016)
在資料來源取得確認無誤後,尚須經過資料清洗、資料分析的步驟,才能得到 研究問題所在的鉅量資料。本研究之資料來源是為⽂字資料,在資料清洗步驟須經 過斷詞(word segmentation)與停⽤詞、贅詞的剔除處理。斷詞是將中⽂裡的詞彙 以上下⽂脈絡做適當連結的⾃然語⾔處理技術,如「開發中國家」此詞彙,並不能
拆解成「開發」、「中國」、「家」,須輸⼊適當語⾔資料庫(或稱詞庫)讓電腦 能夠辨讀。詳細步驟與⽅法將於下⼀節研究實施步驟裡敘述。
⽽⾯對龐⼤的⽂字資料,資料分析的⽅法是為關鍵,不同的⽅法取向可能會對 問題有不同的解讀。本研究依據陳百齡、鄭宇君、陳恭(2016)為社群媒體在傳播 領域的鉅量資料初探研究的說明,將採取時序分析(temporal/trend analysis)、⽂本 分析(text analysis)兩種分析⽅法概念。其中⽂本分析嘗試以開源軟體的語意分析套 件輔助,達到視覺化呈現的結果,是為對於各個社群媒體平台與傳統報業在描述 MOOC 時之⽂本分析的探索性資料分析(exploratory data analysis, EDA)。⽽時 序分析也同樣會利⽤相關語意辨別套件,協助在本研究範疇中⼀百萬字以上的語 料庫中,定義出三個議題類⽬名詞清單,以便得知相關詞彙組合代表之議題在時序 上的變化趨勢(如圖 10),是為機器學習(machine learning)領域中的監督式學 習(supervised learning)概念。
值得注意的是,鉅量資料下的⽂本分析(text analytics, 或稱⽂字探勘 text mining)在⽅法上並不等同於傳統內容分析的⽂本分析(textual analysis),兩者雖 然同是在對⽂本內容做內容分析(content analysis),前者是在⾃然語⾔處理
(natural language processing, NLP)的⽅法下進⾏分析,尚未能完全交由電腦⾃主 判斷詞彙定義,與後者在進⾏程序與⽅法論上具有差異。本研究借重於傳統內容分 析時對於類⽬界定的實施步驟,在議題類⽬相關名詞辨別進⾏時仍由研究者辨別
⼀些不相關的字詞將之剔除(如第四章表 51)。
圖 10:Word2vec 使⽤⽰意圖
(三)語意分析與⽂字探勘相關技術
在解決了資料來源取得的問題以及建⽴了數位學習相關議題類⽬的分析架構 之後,本研究在分析的研究⽬的借重於R軟體中各項對於語意分析與⽂字探勘開源 套件(package)的取得與使⽤。這些套件的使⽤讓以往其他領域的使⽤者得以接 觸到如資料科學或⼈⼯智慧等專業領域的技術。R軟體(或稱R語⾔)本⾝即為⼀
種⾃由軟體(free software),可不受限制地⾃由使⽤、複製、研究、修改和分發 的,尊重使⽤者的⾃由使⽤意願。與此相輔相成,在R軟體重要的資源⾸⾴
Comprehensive R Archive Network22(英⽂縮寫簡稱CRAN,R綜合典藏網)中有各 式使⽤者⾃願提供的套件,應⽤領域涵蓋統計科學、⽣物資訊學、財經分析與⼈⼯
智慧。
本研究範疇中應⽤的主要套件為:tm、tmcn、Rwordseg、lda等(詳⾒附錄三),
是⽂字探勘與語意分析時常⽤之套件。Rwordseg是利⽤另⼀rJava套件和 Java環境
22 https://cran.r-project.org/web/views/index.html
的中⽂斷詞⼯具,使⽤者可⾃定義詞庫以精確斷詞結果,並且可直接在搜狗詞庫23 中下載由其他使⽤者貢獻的詞庫,下載後再透過本地R軟體內執⾏安裝命令。tm套 件則是進⾏⽂字探勘時必備的套件,內含有多種函數可供調⽤,本研究中以其中的 weightTfidf函數計算出斷詞後的TF-IDF字詞權重。TF-IDF(term frequency–inverse document frequency)為⽂字探勘時常⽤的加權技術,評估字詞在該語料庫中的重 要程度,可過濾掉常⾒的贅詞,在本研究範圍中如「的」、「你」、「http」可透 過此計算權重步驟降低其重要程度。SVD(Singular Value Decomposition, 奇異值 分解),則是⼀種矩陣運算⽅法,也是R軟體內建的運算函數。透過此⽅法處理,
在語意分析領域中可以使電腦辨別⽂本相對應的主題。隱含狄利克雷分布簡稱 LDA(Latent Dirichlet allocation),是⼀種基於詞袋模式(Bag-of-words model)建
⽴的⽂本主題建⽴、⽂本分類⽅式。在R軟體內需透過安裝topicmodels套件調⽤運 算函數。LDA此⽂本主題建⽴⽅式,普遍採⽤的是其中名為Gibbs的取樣⽅法。媒 體研究中對於⼤量新聞⽂本的處理,此⽅法是常⽤的處理技術(Chu & Li, 2011;
Kang, Song & Jho, 2013)。Kovanović等學者對於MOOCs的媒體研究也運⽤LDA辨 別歷時性的⽂本主題變化(Kovanović, Joksimović, Gašević, Siemens, & Hatala, 2015)。
⽽Word2vec是Google團隊開發的電腦學習開放原始程式碼,使⽤者可以決定 使⽤神經網路原理或詞袋模式,給予定義之語料庫內每個字詞⼀個餘弦向量,藉由 向量值的⼤⼩⽐較,可以給予電腦辨讀相關字詞的能⼒。本研究使⽤此原始碼在R 軟體上的開源版本,稱為wordVectors套件。藉由此套件的語意辨別協助,在包含所
23 http://wubi.sogou.com/dict/
有研究對象的⽂字資料中,辨別出與議題主體字詞最相關的前16~20名字詞,再由 此字詞組回溯到原媒體⽂本中,決定個別議題主題的整體分布⽐例。