• 沒有找到結果。

以網路分析法探討閱讀多樣性

第二章 文獻分析

第三節 以網路分析法探討閱讀多樣性

本研究以社會網絡分析方法作為資料收集之方法,藉由建立書籍於抽樣書櫃 中共現之情形建立共現矩陣呈現讀者閱讀偏好結構。由於讀者之閱讀偏好多樣性 與推薦策略有交互關係(Kwon et al., 2009; Simonson, 2005),本研究以呈現讀者閱 讀偏好之多樣性為研究目標,而判別多樣性前必須定義在閱讀偏好(讀者個人書 櫃)中的種類為何,因此首先必須計算書籍間的相似性,方能依此分析閱讀偏好 之多樣性。多樣性的概念早於書目計量學中跨領域研究即發展成熟,並發展出多 樣性指標(Rafols & Meyer, 2010);而近年來社會網絡分析方法則是分析關聯常用 且熱門的方法(Buldú et al., 2007; 林頌堅, 2010)。本研究利用社會網絡分析方法 與多樣性指標,探索呈現讀者閱讀偏好多樣性的方法,下述文獻分析之架構如圖 所示。

圖 1 本研究之研究架構

一、社會網絡分析與共現矩陣

社會網絡分析是一種跨領域研究,將數學與資訊工程領域上網路理論

(network theory)應用在分析社會網路上的資料。通常將資料視為節點(node),

而資料間的關係則用連結節點的邊(edge)來表示,邊的連結又可分為有方向性 有向圖或無連結方向性的無向圖。除方向外,邊亦可能有權重(weighted),來 表示連結關係的強度,若邊包含權重,則稱為 Weighted Graph,若無權重則為 Binominal Graph,Binominal Graph 亦可視為 Weighted Graph 的一種特例。建立 網路後可用多種圖形理論指標如 Cardinality、Centrality 等研究圖形連結關係。或 是將圖型資料已適當資料結構儲存並做進一步計算。如(Buldú et al., 2007)的音樂 品味(music taste)研究。其以 The art of the Mix Project 的資料作為研究平台,

從社會網絡的變化分析使用者的音樂品味。該研究蒐集 1998 年 1 月 22 日至 2005 年 6 月 4 日之間使用者播放清單中的歌曲,藉由分析共同出現在同一播放清單的 歌曲探討音樂品味網路特性,該研究假設出現在同一歌單中的歌曲可能屬於同一 種音樂品味(music taste),即使歌曲們可能分屬於不同的音樂類型(music genres),

因此,常常出現在同一播放清單之 A 曲與 B 曲,若使用者將 A 曲加入播放清單,

則 B 曲很有可能也是使用者喜愛的歌曲。故當兩首歌同時出現在一個播放清單,

以歌曲作為節點就產生連結,而兩首歌同時被收在同一播放清單的次數代表兩個 歌曲(節點)的關聯強度。此外,(Buldú et al., 2007)亦於研究中採用歌曲加入播 放清單的時間(input time),藉此觀察音樂網路特色參數(characteristic parameter)

在時間演進下如何變化。研究結果發現 92%的歌曲會被包含在連結形成的巨大組 件(giant component)中,亦即只有 8%的歌曲與其他歌曲幾乎無連結,而熱門 歌曲常常是中介歌曲(bridge songs),中介歌曲連結兩個獨立的播放清單網絡,

可利用中介歌曲連結的播放清單進行撥放清單(歌曲)的推薦。

在書目計量學中,Small & Sweeney (1985)利用共同引用(co-citation)並分

群(clustering)來分析領域論文的引用(citation)做了整理與回顧,此一概念逐 漸擴展到多種共同出現的情形,如文字共現(co-word)、連結共現(co-link),

因此類似概念現今用共現(co-occurrence)來包含之。共現網絡(co-occurrence network)則是將統計目標物共同出現於同一集合的情形製成圖形網路,通常以 目標物為節點而共同出現情形次數為 Weighted Edge,如(林頌堅, 2010)利用共現 網路計算圖書與資訊學刊論文的高頻詞語抽取與分析,將詞語視為節點,而將詞 語共同出現在論文的次數為連結強度。共現矩陣(co-occurrence matrix)為一常 用於共現網路的資料儲存與表示方式,每一節點視為一個欄(Column),而與其 他節點或性質的連結情形使用該欄的不同列(Row)表示。若為 Binominal Graph,

則連結與否常用 0 與 1 代表,若為 Weighted Graph,則用不同數值代表連結強度。

如(Leydesdorff & Vaughan, 2006)將共現矩陣的使用進行了分析,文中提到在過往 研究中如(H. Small & Sweeney, 1985)關注的是共同引用(co-citation),是將共同 引用的發生視為該資料的性質(attribute),此時可使用正規化方法如 Jaccard Index 直接加以分析比較,此種方式關注兩筆資料性質的相似度,著重資料在區域間的 表現。而在社會網絡分析的脈絡下,共同引用的資料可作為相似性之依據,因此 資料可透過與其他資料間的連結關係比較相似度,著重兩資料在全體網絡間的相 互關係,因此會將資料的所有連結關係透過常用的相似度計算如餘弦相似度

(cosine similarity)或關聯性係數(correlation)做比較。

本研究將應用共現矩陣計算書籍在全體 aNobii 書櫃中共同被擁有的次數。

並同時透過上述區域間與整體的概念進行計算,將在下一小節回顧。

二、結構等同與數值距離(Structural

Equivalence and Distance Measurement)

若兩書籍在全體書櫃中共現次數較高,則兩書可能較常被同一讀者選擇,若 讀者具固定偏好,則兩本書應屬相似,但「相似」為一模糊之概念,在日常生活 中會形容兩本書「很像」,即是相似的概念,但「很像」,可能是閱讀感受,由題 材、敘事風格、段落或劇情安排等種種性質構成。多本書若依主觀判斷來界定相 互相似性關係,則每個人意見可能均不同。因此首先需要將性質以數值記錄後,

以結構分析的方式,使用不同計算方式計算出數值距離(Distance Measurement)

來表現出相似性,再從多種相似性測量方式中選出較適合者。至於如何了解測量 方式的適合,則會使用相似性測量結果加以分群並以使用者的自我認知加以驗 證。

相似情形可從區域間結構(local structure) 與書籍間整體結構(global structure)兩方面觀察。共現矩陣表示了書籍間的共現情形,書櫃的主人可能有 某一種的偏好,因此同時放入了 A、B 兩本書籍,造成了 A、B 共現情形發生,

若 A、B 共現情形發生次數多,則兩本書可能因皆符合某偏好的同一需求所以形 成所有該偏好的讀者都同時擁有此兩本書,因此此兩本書可能較相似。此特性是 觀察單一書櫃情形再累計總數,亦即注重區域間結構(local Structure)。但此一 方式,,須注意書籍的受歡迎程度可能影響到書籍間相似性的計算。任意兩本受 歡迎的書籍,可能因為同時都是暢銷書,即使分別屬於差異極大的類別,仍可能 因為共同出現的次數大,而造成書籍相似性計算結果偏高。

因此在考慮相似度的數值計算時,需觀察了解計算中必要涉入但造成扭曲的 因素與造成之影響,在計算結束前將結果做校正,此一過程為正規化(normalize)。 本研究將使用三種不同的正規化方式。方法一為 Jaccard Index 為統計學中常用於

比較兩集合相似度的方式,不直接使用共現數值,而是採用共現除以書籍總數和,

亦即𝐴𝐴∩𝐵𝐵

𝐴𝐴∪𝐵𝐵, A、B 為任意兩本書,A∩B 為書籍 A 與書籍 B 之共現次數,𝐴𝐴 ∪ 𝐵𝐵為

書籍 A 在所有書櫃中總數加上書籍 B 在所有書櫃中總數扣掉共現部分,進而避 免 A、B 書籍受歡迎程度的差異造成相似性的扭曲。方法二採用共現次數除以 兩本書籍中被持有次數較少者,亦即 𝐴𝐴∩𝐵𝐵

𝑀𝑀𝑀𝑀𝑀𝑀(𝐴𝐴,𝐵𝐵),A∩B 為書籍 A 與書籍 B 之共現次

數,Min(A,B)為書籍 A 與書籍 B 之整體書櫃出現次數(被持有數)較小者,亦 是避免 A、B 書籍受歡迎程度差異造成相似性的扭曲,但方法一著重兩本書全 部出現的書櫃範圍與相互共現次數間的比率,方法二較注重較少被持有的書籍與 共現次數間的比率,林頌堅(2010) 計算詞語間共現比重公式亦採用此一方式,

但此方法有一問題為當兩本書 A、B 偶然在全部書櫃中共現一次時,A∩B 與 Min(A,B)均為 1,造成相似計算結果為本方法之結果的極大值 1,兩本書為相互 最相似的書籍之一,但共現僅一次,代表兩本書都符合某一偏好的情形並不多,

因此兩本書最相似之結果並不合理。因此本研究嘗試改良此一方法,將於第三章 研究方法中討論。

另一觀點關注書籍在書櫃中相互關係的的整體結構(global structure),透過 結構分析為在圖型中的節點與其他節點的關係尋找相同(equivalence)的結構

(structure)或樣式(pattern),並以相同的結構與樣式為分析的基礎。結構性相 同著重的概念為:定義兩標的物之間的關係並非觀察兩標的物之特徵值,而是觀 察兩標的物在整體觀察母體中的結構相似性,亦即某個體於整體結構中的位置,

亦可說是透過該個體與其他個體的關係定義該個體在群體中的角色。若以人與人 之間的相似性舉例,觀察兩個人是否相似並非觀察兩人的背景、興趣等是否相似,

而是觀察兩人在社交圈的聯集中(或是結構類似的社交圈子集中),在社交圈中 所處的位置是否相似。常用在尋找圖型中相同社會角色(social role)中。常用 的相同定義有 structure equivalence、automorphic equivalence、regular equivalence。

Structure equivalence 需為一節點關係上完全等同其他節點,在位置順序上必須可 以相互取代。automorphic equivalence 則是一群(set)擁有相同連結(ties)的節 點被區域結構包圍(local structure),亦即此兩群節點是平行結構。Regularly equivalent 是兩節點擁有相同的連結(ties),而同一群中的節點亦是 regularly equivalent。(Hanneman & Riddle, 2005)上述之分析方式可用來尋找不同書櫃的巨 大元件(giant component)中具有相同(equivalence)性質的節點(書籍)的特 性。

而針對多種數值性質形成的組合,有多種常用相似性計算方式。首先最常見 者為 Cosine Similarity,(Spertus, Sahami, & Buyukkokten, 2005)及比較了多種相似 性測量方式來分析 Orkut Social Network 內社群與使用者間相似性作為推薦社群 之依據,而以 Cosine Similarity 的方式最好。Cosine Similarity 為將多種性質數值 排列成一向量(vector)。每一性質為一維度,而一個具有 N 個性質的性質組合 將是一組 N 維向量。Cosine Similarity 的計算方式即為計算兩向量在此 N 維向量 空間的角度差異。著重的是差異的累積大小,但避免在計算 Euler Distance 時須 考慮正負數值,以及會易受到過大離群值影響的問題。

而針對多種數值性質形成的組合,有多種常用相似性計算方式。首先最常見 者為 Cosine Similarity,(Spertus, Sahami, & Buyukkokten, 2005)及比較了多種相似 性測量方式來分析 Orkut Social Network 內社群與使用者間相似性作為推薦社群 之依據,而以 Cosine Similarity 的方式最好。Cosine Similarity 為將多種性質數值 排列成一向量(vector)。每一性質為一維度,而一個具有 N 個性質的性質組合 將是一組 N 維向量。Cosine Similarity 的計算方式即為計算兩向量在此 N 維向量 空間的角度差異。著重的是差異的累積大小,但避免在計算 Euler Distance 時須 考慮正負數值,以及會易受到過大離群值影響的問題。