二、資料分析：演算法的行動與中介 - 社群媒體研究的異質行動網絡：重新想像數位時代的知識生產*

工具中介行動的第二個部分則是參與資料分析。此處一個重要的行動者即是「演算法」。以最廣義的方式來說，演算法是編碼的程序，在特定的計算基礎上，它將輸入的資料轉換為人們想要的輸出資料。這個程序同時說清楚了問題是什麼，以及解決問題的逐個步驟（Gillespie, 2014, p. 167）。換言之，一方面，演算法也是由程式碼（code）聚集起來的，但它涉及了「運算」，因此有著相對獨立的行動能力。Burrell

（2016）即透過圖形辨識的機器學習演算法說明了，演算法透過訓練資料進行學習的過程，涉及了人無法理解的不透明性。另一方面，演算法的不透明也在於，它通常不是使用者「可以看見」的軟體，而是運作在

某些數位工具內部的程序。

我們可以從前文曾提及的資科學者 H 與其助理 G 針對社群媒體平台專頁的政治傾向分析來看工具的行動。對於 H 與 G 來說，他們的研究旨趣在於透過實驗找出什麼樣的演算法能夠最好地將資料分類。因此，G 雖然原本確實在嘗試是否能夠為「離題」現象建立起一個基礎的關連詞參考字典，卻在探索的過程中發現一個更能用來檢驗演算法優劣的問題：如何以既有的資料為基礎去預測某個使用者專頁的政治傾向。

換言之，在 G 的研究中，演算法被委任了一個行動：藉由辨識每一個使用者專頁上的貼文之特徵，來去預測其政治傾向。因此，就在甲團隊已經收集且清理完的社群媒體平台資料的基礎上，G 進一步動員了數種數位工具，建構了一套進行分類運作的行動網絡。

圖3 為張哲嘉（2016）在研究類似主題時，建構的一套系統架構，

我們可以以此對照來說明G 所動員的行動網絡。除了 API、資料伺服器外，為了進行字詞的比對與分析，這個行動網絡還必須引入斷詞系統，

將字詞區隔為一個一個單元才能進行所謂相異詞的擷取。接著，如同我們先前說的，G 將「辨識每一則貼文可能有的政黨傾向特徵」這個工作委任給演算法，但在演算法介入行動前，研究者還需要先決定要採用哪種「預測方式」。例如，張哲嘉（2016）在其研究即指出，一種可能是透過所謂「相異詞」作為特徵來預測一個貼文的政治傾向，另一個則是以貼文的文字特徵與互動特徵來預測。無論是哪一種，在這一過程中工具的行動都是在界定出某一貼文的「特徵」。以較好理解的「相異詞特徵」來說，首先一則貼文會被識別出數個相異詞，也就是這則貼文中被辨識出來的所有相異的字詞，它們可以被想像為這則貼文的組成元素

（特徵）。接著，要辨識不同貼文之間的差異，就是要去比對其組成元素的差異。此時可以有幾種權重的方式來判斷。例如，一種方式是透過

「詞頻」（term frequency，簡稱 tf），也就是去看一則貼文當中某個相異詞出現的頻率，頻率越高表示它越能作為該貼文的代表特徵。建立起貼文特徵後，這些資料才會被轉譯進分類器（演算法）進行判讀。

圖 3：預測政黨傾向之分類模式系統架構圖

資料來源：《針對臉書粉絲專頁貼文之政治傾向預測》，張哲嘉，2016，

國立政治大學資訊科學學系碩士論文，頁17。

從上述的描述我們可以看到，首先，演算法的行動乃是鑲嵌在整個行動網絡中才得以可能的。沒有先前的 API、斷詞工具、特徵界定等行動，不管是哪一種分類器都無法「動起來」。如同Introna（2016）主張的，演算法的行動或其作為（doing）必須放在脈絡實作中加以理解—

— 也就是將其視為所嵌入的異質社會物質組裝（ heterogeneous

sociomaterial assemblage）的一部分。更甚地，這樣的行動是一連串時序性行動的一部分，在其中，當下的行動／行動者從先前的行動／行動者那邊接續下去，並傳給下一個行動／行動者。Introna 所謂的異質社會物質組裝其實就是一種行動網絡。

其次，在工具的分析行動中，「人」同樣可能參與中介。如同 Kitchin（2017）主張的，演算法從來都不是獨立、固定且不變的，相反地它總是處於變化的狀態（always in a state of becoming），諸如資料的選擇、清洗、參數的調整，乃至於研究概念的轉變都會改變其狀態。

Rieder（2017）也以類似的方式指出，在機器學習的演算法中，如果使用者重新分類檔案，各類屬的字詞列表就會重新被計算，亦即，在統計模型中添加新的「知識」。而對中文使用者來說，中文斷詞的不確定性

（以及隨之而來的人為判斷）則是另一個更清楚突顯出「人」的參與的部分。¹¹ 盧安邦與鄭宇君（2017，頁 158）即曾指出，「斷詞以及資料清洗是電腦工具輔助文本分析的基礎，對詞頻、詞語共現與情緒分析結果都有影響，那麼研究者到底應該如何對資料進行挑選？應該介入到甚麼程度？」這些問題都反映了研究者中介的問題。

最後，在這種工具行動的異質網絡中，我們也可以在各類「失敗」

事件中看到「工具」同樣也可能是不合作的行動者。例如，張哲嘉

（2016）在其研究中即曾提到這樣的案例，他在實驗以相異詞作為特徵的預測方法時，遭遇到來自網絡中其他行動者的阻力，如他所述，「在實驗環境中，部分分類器如decision tree、KNN 在執行時需要複雜與大

11 斷詞工具實際上「不懂」中文，它無法如人類行動者般無疑難地將一句話斷開成數個相異詞。比較常見的斷詞工具（例如 CKIP 斷詞器、Jieba）運作方式是透過比對「字典」來將相異詞擷取出來。但即便有「字典」，中文斷詞仍有許多困難，例如，一個經常用來說明中文斷詞的笑話即是：到底是「全台，大停電」，

還是「全台大，停電」？

量計算空間，佔據大量記憶體…」（張哲嘉，2016，頁 44）。也就是說，當他嘗試讓 decision tree 與 KNN 進行轉譯時，其硬體環境卻無法回應其行動。因此，在這個部分最終只能讓naïve Bayes 分類器與 SVM 進行轉譯。

在文檔中社群媒體研究的異質行動網絡：重新想像數位時代的知識生產* (頁 32-36)