圖1 是陳百齡等人(2016)在其研究中引用「水火計畫」團隊如何 透過API 進行資料撈取的示意圖。包含本研究的案例甲團隊所使用的工 具A,大體上社群媒體研究要透過 API 取得平台上的資料,都是類似的 過程。在其中,社會科學研究者經常只參與了「使用者查詢」這一塊,
而「應用程式」後面發生什麼事情即是不可見(或不過問)的「黑 箱」。但從這個圖示可以看到,研究者要能取得資料,就至少需要「應 用程式」、「API」、「資料庫」以及「社群平台資料庫」的協作行 動。
圖2 則是熊凱文、魏浩翔與紀明德(2014)呈現的另一個類似的資 料收集過程。如果將此過程對照社科學者L 所謂「透過工具 A 撈取社群 媒體資料」的行動,我們可以發現,其中還涉及了使用工具 A 的用戶
10 特別需要說明的是,雖然本節將與「工具」相關的異質行動網絡(也就是黑箱)
運作區分為資料收集、資料分析與資料呈現三個階段,但在實作中這三個階段可 能是纏繞、交疊在一起的。也就是說,這裡僅是為了分析與討論的清晰而將整個 運作過程拆解成三個階段,實際上的運作可能是,例如,資料收集與分析會有重 疊、反覆,而資料呈現又可能會回過頭來影響如何分析。
端無法直接看見的資料處理與儲存的動作,也就是透過API 將資料撈取 進伺服器端並加以儲存的動作。這個過程在使用者於工具 A 的介面上 提出要求後,便看起來像是「自動完成」了。但實際上這背後乃是一個 地方網絡中介、轉譯的結果。例如,熊凱文等人(2014)在其研究中描 述了類似的過程,一方面,透過API 所取得之社群媒體資料已呈現既定 具階層架構的格式(JSON),這意味著透過 API 取得的資料已先初步 整理過了。Halford et al.(2018)也才因此主張,如果研究者未能認識 到透過API 取得之資料可能的扭曲,便無法察覺分析可能產生的偏誤。
另一方面,如熊凱文等人(2014)所述,從 API 取得之資料還需要匯入 資料庫,而這時就需要如他們研究中 MongoDB 這類資料庫管理模組的 中介,其運作也是不可見的。
圖 1:透過 API 撈取資料示意圖
資料來源:〈社群媒體資料分析:特性和歷程的初探〉,陳百齡、鄭宇君、
陳恭,2016,《傳播文化》,15: 56。
圖 2:系統架構圖
資料來源: 〈社群媒體資訊傳播之視覺化〉,熊凱文、魏浩翔、紀明德,
2014 年 7 月,「甲午年第廿二屆計算機圖學研討會(Computer Graphic Workshop, CGW)」,臺北市大安,頁 2。
資料在透過 API 與資料庫的中介儲存下來後,還需要經過所謂的
「資料清理」。此時,研究人員又會再次進入行動網絡之中,如同陳百 齡等人(2016)指出的,「研究人員進行資料清洗之前,必須先探索以 下幾件事:資料存在哪些格式?資料是什麼態樣?如何選取適當資料維 度進行分析?」例如,透過 API 從 Twitter 上撈取到的資料,可能包括 推文、網址、標籤(hashtags)等原始資料,而其下又有不同的資料項 目,像是在「標籤」下又可整理出「標籤名稱」、「含有此標籤的推特 文編號」、「發文時間」、「用戶名稱」、「用戶編號」等等(陳百齡 等人,2016)。而研究者需針對其研究所需決定要留下並整理清楚的資 料欄位有哪些。像是本研究案例的甲團隊,當他們探究臉書使用者資訊 傳散過程時,透過API 取得的資料中,紀錄了分享路徑的「分享編碼」
(share ID)便是重要且需留下的資料。
換言之,使用者在用戶端的軟體或介面上提出查詢時(例如,顯示 某一時段中某一粉專的所有貼文),實際上是由一連串的行動者相互促 動才能生成結果:將有著不同行動的工具召集在一起的資科學者、已預 作處理的社群媒體資料庫、涉及一套「請求」(request)行動的 API、
將取得的具 JSON 格式之資料匯入資料庫的管理模組、清理資料的研究 人員。正是因為認識到這一連串的過程,Berry(2011)認為,數位工 具運作著一種「雙重中介」(double mediation)的轉換。也就是說,它 們不僅將現象轉譯為資料,也將資料轉譯為呈現給研究者的資訊。對於 這樣的境況,Berry(2011, p. 16)憂心於這將「導致使用者越來越依賴 電腦生產、呈現出的螢幕資訊,也使得使用者無力於防範錯誤的發 生」。而這也是本研究的起點之一,本研究主張,這不必然意味著社會 科學研究不應使用數位工具,毋寧地,關鍵在於我們是否能夠「打開黑 箱」,是否有機會去檢視此一問題。