• 沒有找到結果。

第三章 研究方法與步驟

第二節 研究實施

本研究關注的對象為利用社群網絡尋書工具之休閒閱讀讀者的偏好結構,因 此研究對象需要同時兼具休閒閱讀習慣與使用社群網絡尋書工具兩種條件。由於 社群網絡尋書工具中 aNobii 為台灣地區使用率最高之書籍社群網絡且正體中文 書籍資料豐富,因此本研究將以 aNobii 為場域。研究對象條件設定為:具備 aNobii 網路書櫃帳號、書櫃需有 80 本書及 5 個以上朋友、願意接受問卷調查,且提供 aNobii 書櫃供系統收集資料。滿足上述條件才得以確保研究對象有使用 aNobii 為其管理書籍平台,並在平時就記錄其擁有或看過之圖書。

針對上述需要本研究採取便利抽樣,徵求消息於 aNobii 中人數與討論較多 的熱門群組與台灣最大的電子佈告欄系統(BBS)批踢踢(ptt.cc)中 book 板中 張貼。參與實驗者需附上 aNobii 個人頁面網址,並填寫實驗申請表,研究人員 確認受試者符合條件後即進行問卷訪談,完成後受試者可獲得車馬費。本研究基 於量化與質性分析之需要,收集 50 位受試者之資料,共擁有約有兩萬本不同之 書籍。

二、研究步驟

(一) 社會網絡資料收集

如前段敘述,本研究開始時以便利抽樣選擇 50 位受試者接受關於書櫃多樣 性之 7 李氏量表問題,問題如下。問卷填答結果利用 SPSS 做因素分析,排除不 合適的題目,產生的多樣性分數即為使用者自評之多樣性分析。

問卷題項 偏好同異性

我有固定追隨的作者或作品類型,不熟悉的領域我不會想主動找來看 我的閱讀興趣十分廣泛,不限於某種類型(*)

我的閱讀興趣很固定,變化不大

除了我喜歡的作品類型及作者外,我也會主動尋求不熟悉的類型或作 者的作品(*)

(*) 題目為反向題

表 7 偏好結構問卷之平均數與標準差

受試者並提供其 aNobii 網路書櫃網址,研究人員使用程式抓取所有受試者 擁有之書籍,建立受試者擁有之所有書籍清單,根據此一清單從 aNobii 網頁中 抓取清單中書籍在全體 aNobii 網路書櫃中共同出現之情形,並記錄存入研究人 員之資料庫中。

(二) 社會網絡分析與多樣性指標分析

在資料蒐集完成後,資料以下列兩種方式分析,並在(三)將兩種分析方法的 結果加以比較。

1. 社會網絡分析:

(1) book-owner 矩陣建立、建立本研究使用之共現矩陣

為了讓書籍在多個書櫃的共現情形能夠表達呈現與進一步計算,在抽樣 50 個書櫃後,我們採用共現矩陣(Co-occurrence Matrix)的方式來表現書籍間的連 結關係與共現網絡,本研究採用(Leydesdorff & Vaughan, 2006)與(林頌堅, 2010) 中建立共現矩陣(Co-occurrence Matrix)的方式。

本研究共現矩陣中書籍共同出現之次數計算方式為從抽樣 50 個書櫃中所有 的書籍清單出發,計算任意兩本書於 aNobii 整體網絡中共同被書櫃擁有的次數 總和,因此最大可能共現次數並非 50 次。亦即若書籍 A(如圖 4)「Whoops!!

大債時代」在所有 aNobii 書櫃中出現 1195 次,且其中有 1000 個書櫃亦有出現 書籍 B,則書籍 A 與書籍 B 的共現次數為 1000 次,並不侷限在本研究抽取的 50 個書櫃。研究中書櫃的抽樣僅決定哪些書籍會被列入共現次數計算。例如,假設 書籍 C 皆不在此 50 個書櫃中,則書籍 C 與書籍 A 或書籍 B 的共現情形將不會 被考慮。

此外,由於本研究抽樣的書櫃以中文書為最大宗,由於中文編碼的問題,建 立共現矩陣時中文書名顯示常會有問題,於矩陣中以書名作為依據則不容易辨識。

因此,擷取 aNobii 個別書籍的頁面後的編碼(即圖 4 之網址列最後 18 碼英文數 字「0167de97a63ffd09d1」),作為本研究中抽樣書籍的辨識依據,解決個別書櫃 中因各種因素產生的書籍重複問題。

圖 4 擷取抽樣書櫃中每一本書籍的所有書櫃擁有者,以「Whoops!!大債時代」一書為例,這本 書有 1195 個書櫃擁有者將其加入書櫃

共現矩陣是計量所有書籍在個別書櫃中兩本書共同出現情形的矩陣。在建立 共現矩陣之前,首先必須建立由所有個別書櫃中出現的書籍建立整體書櫃的書目,

此一書目亦為共現矩陣的維度,接著收集擁有 50 個書櫃內所有書籍(book,19776 本)的所有書櫃擁有者(後簡稱 owner),以建立 book-owner 矩陣。書目中每本 書籍與擁有 50 個書櫃內書籍集合之任一書櫃擁有者各由一維度代表。統計所有 個人書櫃,若 book i 代表維度為第 ith維,owner 代表維度為第 jth維。此一共現 矩陣為非對稱方矩陣(Asymmetric Square Matrix),利用此 book-owner 矩陣可表 達出各個書籍間被個別書櫃共同持有之情形。(如圖 5)

圖 5 book-owner 矩陣

(2) 相似性計算、利用共現矩陣定義相似性

在 book-owner 矩陣中,每一列(Row)皆為一向量,而此向量的每一維度 皆為該維度代表之書籍於該列代表之書櫃擁有者之出現情形。我們可以從書籍間 於特定書櫃出現的情形異同,分析書籍間的相似性。

在區域共現觀點,我們可以透過正規化共現矩陣的共現情形了解書籍間共現 相似情形,如文獻回顧一節中(林頌堅, 2010)分析詞語頻率即是偏向此一觀點,

我們採用三種計算方式,方式一為 Jaccard Index,若兩本書為 A、B,其計算方

式為𝐴𝐴∩𝐵𝐵

𝐴𝐴∪𝐵𝐵,A∩B 為書籍 A 與書籍 B 之共現次數,𝐴𝐴 ∪ 𝐵𝐵為書籍 A 在所有書櫃中

總數加上書籍 B 在所有書櫃中總數扣掉共現部分。方法二 Inter 為 𝐴𝐴∩𝐵𝐵

𝑀𝑀𝑀𝑀𝑀𝑀(𝐴𝐴,𝐵𝐵),A∩B

為書籍 A 與書籍 B 之共現次數,Min(A,B)為書籍 A 與書籍 B 之整體書櫃出 現次數(被持有數)較小者,與(林頌堅, 2010)計算詞語間共現比重公式相同。

但我們發現方法二在某兩本書在全部書櫃中共現次數僅一次時,A∩B 與 Min

(A,B)均為 1,而結果值亦達到極大值 1,但此結果並不合理,因發生次數僅 1 次卻造成相似結果造成極大值。以實際資料來計算,根據方法二,旅遊書「香港」

與「小王子」在全體書櫃中共現次數僅 1 次,根據方法二計算此兩本書之相似性 為相似性之最大值 1,是相互間最相似的書籍之一,結果並不準確,因此我們嘗 試修改提出方法三 Interminus 為 𝐴𝐴∩𝐵𝐵−1

𝑀𝑀𝑀𝑀𝑀𝑀(𝐴𝐴,𝐵𝐵)−1,利用將分子分母次數同減一的方式

排除方法二在邊界值極端之不合理情形。根據方法三,前述偶然出現的情況將不 被考慮,最相似之書籍為其他本書,較為合理。此方法之表示符號意義同方法二。

考慮整體結構,透過計算兩向量間相似度的方式來了解兩書籍間的在圖形結構相 似度。在計算向量相似度測量中最普遍且常見之兩方法為餘弦相似度(Cosine Similarity)與相關性(Correlation)。

定義書籍 A,書籍 B 之餘弦相似度(Cosine Similarity)公式如下:

Similarity(A, B) = cos 𝜃𝜃 = 𝐴𝐴⃑ ∙ 𝐵𝐵�⃑

��𝐴𝐴⃑�� ��𝐵𝐵�⃑�� = ∑𝑀𝑀𝑀𝑀=1𝐴𝐴⃑𝑀𝑀× 𝐵𝐵�⃑𝑀𝑀

�∑ (𝐴𝐴⃑𝑀𝑀𝑀𝑀=1 𝑀𝑀)2× �∑ (𝐵𝐵�⃑𝑀𝑀𝑀𝑀=1 𝑀𝑀)2

其中𝐴𝐴⃑為book-owner矩陣中代表書籍A之行向量(於所有書櫃的出現情形),

其中𝐵𝐵�⃑為共現矩陣中代表書籍 B 之行向量,n 為共現矩陣之維度。Similarity(A,B)

即為書籍 A 與書籍 B 之相似度。

定義兩向量之相關性(Correlation)公式如下:

Correlation(A, B) = (𝐴𝐴⃑ − 𝐴𝐴̅) ∙ (𝐵𝐵�⃑ − 𝐵𝐵�)

��𝐴𝐴⃑ − 𝐴𝐴̅�� ��𝐵𝐵�⃑ − 𝐵𝐵���

其中𝐴𝐴⃑為book-owner矩陣中代表書籍A之行向量(於所有書櫃的出現情形),

其中𝐵𝐵�⃑為共現矩陣中代表書籍 B 之行向量,n 為共現矩陣之維度,𝐴𝐴̅中任一元素 為𝐴𝐴⃑所有元素的平均值,𝐵𝐵�⃑中任一元素為𝐵𝐵�所有元素的平均值。Correlation(A,B) 即為書籍 A 與書籍 B 之相似度。

透過上述區域觀點的三種方式與整體結構的兩種方式,即可得知兩兩書籍間 之相似關係。本研究將計算上述五種方法並比較其結果。

(3) 閾值選擇並對個別書櫃進行分群

經由(2)可以建立所有書籍間兩兩之相似性之值。我們可以由任一本書為 起始點,建立書籍與書籍間的相似圖形之網絡。該網絡之連結強度代表兩本書籍 間之相似性。採用前述(Henry Small, 2009)與(林頌堅, 2010)的作法,透過將閾值 之下相似性較低之弱連結視為無連結,相互連結之節點數最大之子圖為巨大元件,

在網絡中逐步改變門檻值(threshold),觀察尋找巨大元件尺寸與書籍間連結數 量改變量,最大之改變點即為最適當之分群點。

上述之閾值尋找過程是使用在所有調查書籍所建立的全部抽樣書籍網絡中,

並將此閾值套用在 50 個個別書櫃中,觀察套用閾值後個別書櫃之書籍分群情形,。

此外,採用全部抽樣書籍網絡而非個別書櫃各自計算的原因在於個別書櫃書籍數 量不同、使用者使用書櫃時間長短不同、對於網路書櫃的使用習慣可能亦不同,

難以針對個別書櫃尋求適當閾值,而全部抽樣書籍網絡已抽取網絡中所有書籍在 所有 aNobii 書櫃中之情形,可呈現調查書籍在 aNobii 的全體情形,因此採用全 部抽樣書籍網絡尋找閾值較適合。

本研究對個別書櫃利用 UCINet 之 Region、Block 與 Girvan Newman 進行個 別書櫃的分群,個別書櫃之分群數量即代表其閱讀偏好多樣性。以下分述 3 種分 群方式的演算法。

a. Region(Components)分群

將網絡中的 Component 視為群,Component 定義為 Component 中任意兩點可以 經由路徑連結,以圖 6 為例,圖中網絡有四個 Component。

圖 6 Region 分群演算法

參考來源:(Hanneman & Riddle,2005)

b. Block(Biconnected Components)分群

首先,找出網絡中的橋(Bridge),將網絡的所有橋去除,而網絡中的每

個 Component 與每個被移除的橋包含其對應的點為 Biconnected Component,本 研究以 Biconnected Component 作為分群。其中,橋是一種邊,當它移除後會使 得網絡的 Component 數目增加。以圖 7 為例,網絡中藍色的邊是橋,移除橋之

後,成為兩個 Biconnected Component,而橋有兩個也是 Biconnected Component,

總共有四個 Biconnected Component,在本研究中將網絡視為四個群。

圖 7 Block 分群演算法

參考來源:(Cormen, Leiserson, Rivest & Stein,2009)

c. Girvan-Newman 分群

將網絡以 Girvan-Newman 分群過程,會不斷的移除邊,由於連結斷掉,使得 Component 數目增加,此時將記錄當下網絡並且網絡中每個 Component 視為群。

在 UCINET6 中,每次移除邊之後,將計算網絡的品質(Quality,即為 Q 值),

最後移除完所有的邊後,選出品質最好的當下網絡狀態。

移除邊的演算法為:

1. 對於網絡中的每個邊,計算其 Edge Betweeness。

2. 移除 Edge Betweeness 最高的邊。

3. 重新對圖中剩餘的邊,計算其 Edge Betweeness。

4. 從 2 重複循環,直到沒有任何剩餘邊。

而任意邊 e 的 Edge Betweeness 為

EB(e) = �|𝑝𝑝𝑠𝑠𝑠𝑠(𝑒𝑒)|

|𝑝𝑝𝑠𝑠𝑠𝑠|

𝑠𝑠≠𝑠𝑠

其中,s 與 t 為網絡中任意相異點,而𝑝𝑝𝑠𝑠𝑠𝑠為以點 s 為起點,點 t 為終點的最短路

其中,s 與 t 為網絡中任意相異點,而𝑝𝑝𝑠𝑠𝑠𝑠為以點 s 為起點,點 t 為終點的最短路