• 沒有找到結果。

二、資料分析:演算法的行動與中介

工具中介行動的第二個部分則是參與資料分析。此處一個重要的行 動者即是「演算法」。以最廣義的方式來說,演算法是編碼的程序,在 特定的計算基礎上,它將輸入的資料轉換為人們想要的輸出資料。這個 程序同時說清楚了問題是什麼,以及解決問題的逐個步驟(Gillespie, 2014, p. 167)。換言之,一方面,演算法也是由程式碼(code)聚集起 來的,但它涉及了「運算」,因此有著相對獨立的行動能力。Burrell

(2016)即透過圖形辨識的機器學習演算法說明了,演算法透過訓練資 料進行學習的過程,涉及了人無法理解的不透明性。另一方面,演算法 的不透明也在於,它通常不是使用者「可以看見」的軟體,而是運作在

某些數位工具內部的程序。

我們可以從前文曾提及的資科學者 H 與其助理 G 針對社群媒體平 台專頁的政治傾向分析來看工具的行動。對於 H 與 G 來說,他們的研 究旨趣在於透過實驗找出什麼樣的演算法能夠最好地將資料分類。因 此,G 雖然原本確實在嘗試是否能夠為「離題」現象建立起一個基礎的 關連詞參考字典,卻在探索的過程中發現一個更能用來檢驗演算法優劣 的問題:如何以既有的資料為基礎去預測某個使用者專頁的政治傾向。

換言之,在 G 的研究中,演算法被委任了一個行動:藉由辨識每一個 使用者專頁上的貼文之特徵,來去預測其政治傾向。因此,就在甲團隊 已經收集且清理完的社群媒體平台資料的基礎上,G 進一步動員了數種 數位工具,建構了一套進行分類運作的行動網絡。

圖3 為張哲嘉(2016)在研究類似主題時,建構的一套系統架構,

我們可以以此對照來說明G 所動員的行動網絡。除了 API、資料伺服器 外,為了進行字詞的比對與分析,這個行動網絡還必須引入斷詞系統,

將字詞區隔為一個一個單元才能進行所謂相異詞的擷取。接著,如同我 們先前說的,G 將「辨識每一則貼文可能有的政黨傾向特徵」這個工作 委任給演算法,但在演算法介入行動前,研究者還需要先決定要採用哪 種「預測方式」。例如,張哲嘉(2016)在其研究即指出,一種可能是 透過所謂「相異詞」作為特徵來預測一個貼文的政治傾向,另一個則是 以貼文的文字特徵與互動特徵來預測。無論是哪一種,在這一過程中工 具的行動都是在界定出某一貼文的「特徵」。以較好理解的「相異詞特 徵」來說,首先一則貼文會被識別出數個相異詞,也就是這則貼文中被 辨識出來的所有相異的字詞,它們可以被想像為這則貼文的組成元素

(特徵)。接著,要辨識不同貼文之間的差異,就是要去比對其組成元 素的差異。此時可以有幾種權重的方式來判斷。例如,一種方式是透過

「詞頻」(term frequency,簡稱 tf),也就是去看一則貼文當中某個相 異詞出現的頻率,頻率越高表示它越能作為該貼文的代表特徵。建立起 貼文特徵後,這些資料才會被轉譯進分類器(演算法)進行判讀。

圖 3:預測政黨傾向之分類模式系統架構圖

資料來源: 《針對臉書粉絲專頁貼文之政治傾向預測》,張哲嘉,2016,

國立政治大學資訊科學學系碩士論文,頁17。

從上述的描述我們可以看到,首先,演算法的行動乃是鑲嵌在整個 行動網絡中才得以可能的。沒有先前的 API、斷詞工具、特徵界定等行 動,不管是哪一種分類器都無法「動起來」。如同Introna(2016)主張 的,演算法的行動或其作為(doing)必須放在脈絡實作中加以理解—

— 也 就 是 將 其 視 為 所 嵌 入 的 異 質 社 會 物 質 組 裝 ( heterogeneous

sociomaterial assemblage)的一部分。更甚地,這樣的行動是一連串時 序性行動的一部分,在其中,當下的行動/行動者從先前的行動/行動 者那邊接續下去,並傳給下一個行動/行動者。Introna 所謂的異質社會 物質組裝其實就是一種行動網絡。

其次,在工具的分析行動中,「人」同樣可能參與中介。如同 Kitchin(2017)主張的,演算法從來都不是獨立、固定且不變的,相反 地它總是處於變化的狀態(always in a state of becoming),諸如資料的 選擇、清洗、參數的調整,乃至於研究概念的轉變都會改變其狀態。

Rieder(2017)也以類似的方式指出,在機器學習的演算法中,如果使 用者重新分類檔案,各類屬的字詞列表就會重新被計算,亦即,在統計 模型中添加新的「知識」。而對中文使用者來說,中文斷詞的不確定性

(以及隨之而來的人為判斷)則是另一個更清楚突顯出「人」的參與的 部分。11 盧安邦與鄭宇君(2017,頁 158)即曾指出,「斷詞以及資料 清洗是電腦工具輔助文本分析的基礎,對詞頻、詞語共現與情緒分析結 果都有影響,那麼研究者到底應該如何對資料進行挑選?應該介入到甚 麼程度?」這些問題都反映了研究者中介的問題。

最後,在這種工具行動的異質網絡中,我們也可以在各類「失敗」

事件中看到「工具」同樣也可能是不合作的行動者。例如,張哲嘉

(2016)在其研究中即曾提到這樣的案例,他在實驗以相異詞作為特徵 的預測方法時,遭遇到來自網絡中其他行動者的阻力,如他所述,「在 實驗環境中,部分分類器如decision tree、KNN 在執行時需要複雜與大

11 斷詞工具實際上「不懂」中文,它無法如人類行動者般無疑難地將一句話斷開成 數個相異詞。比較常見的斷詞工具(例如 CKIP 斷詞器、Jieba)運作方式是透過 比對「字典」來將相異詞擷取出來。但即便有「字典」,中文斷詞仍有許多困 難,例如,一個經常用來說明中文斷詞的笑話即是:到底是「全台,大停電」,

還是「全台大,停電」?

量計算空間,佔據大量記憶體…」(張哲嘉,2016,頁 44)。也就是 說,當他嘗試讓 decision tree 與 KNN 進行轉譯時,其硬體環境卻無法 回應其行動。因此,在這個部分最終只能讓naïve Bayes 分類器與 SVM 進行轉譯。

相關文件