綜合討論

第四章結果與討論

第二節綜合討論

本研究選擇最適閾值的優先參考依據為最大組件的變化。在不同的相似性計算下，整體書籍共現網絡的連結會在閾值的逐步上升中逐漸減少。在網絡連結減少的過程中，節點之間會逐漸依據網絡特性分解成不同的組件。而最大組件在本研究的主題下代表的則是個別書櫃擁有者的主要閱讀偏好，因此最大組件的數量、

在閾值增加時組件大小減少的模式，可代表網絡在特定閾值下的分群情形，本研究即依據此種概念與過去最適閾值相關研究作法結合，以最大組件減少的情形做為判斷最適閾值的主要因素。

然而，判斷的模式與 Small（2009）的研究不同。在 Small 的研究中，從最大閾值出發，選擇最大組件在閾值的減少下增加的變化量最大的前一刻作為最適閾值；在本研究中，由於休閒閱讀與學術研究的場域不同，將引用學術文章的行為一般認為比書籍加入網路書櫃來的謹慎。此外，閾值的採用最終目標是讓網絡變得適合分群，套入最適閾值的書籍共現網絡猶如修剪過的樹木，會變得整齊且層次分明，書櫃則會變得分群清晰。因此，本研究從最小閾值出發，選擇最大組件在閾值的上升下減少的變化量最大的前一刻作為最適閾值，假定那時候的網絡是最適合分群的。

由於兼併參考林頌堅（2010）研究中選擇最適閾值的作法，除採用上述策略，

也一併將網絡密度、最大組件所占比例、平均連結線數作為選擇最適閾值的參考因素。在實際處理最大組件與閾值資料的過程中，我們發現選擇最大組件減少變

化量最大的前一刻時，若進一步增加閾值，在不同的相似性計算下，最大組件減少的情形幾乎呈現停滯的狀況，這代表書籍共現網絡的相似值幾乎在下一個增加的閾值以上，因此閾值繼續上升幾乎不具意義。

綜上述，在 Small（2009）與本研究於最大組件與閾值的研究結果可發現，

兩種利用最大組件判斷最適閾值的方法，推測可做為有效閾值的界線。在本研究中，最大組件減少最多的前一刻為閾值的上界，閾值繼續上升的結果對最大組件的大小幾乎不產生影響。而對於判斷閾值的最佳方法，考慮組件的變化量與其他網絡特性，應可大略推估最適閾值的範圍。

二、相似性測量於書籍相似性計算的表現

我們藉由相似性測量在個別書櫃的分群表現判別 5 種相似性測量的優劣，其中 Interminus 為表現最好的相似性測量。書籍共現網絡是否能成功地呈現使用者的閱讀偏好多樣性，其中包含兩個關鍵，一是相似性測量的選擇，二是閾值的選擇。相似性測量與閾值在呈現多樣性的過程中，廣義而言皆扮演對書籍網絡連結進行去蕪存菁的角色。適合書籍共現網絡的相似性測量，必須考量書籍共現的實際情形，修正不同相似性測量計算方式所造成的誤差。而閾值的選擇，除了需要考量書籍共現的實際情形外，尚須權衡不同相似性測量的數值特性。

在 5 個相似性測量中，Jaccard、Inter、Interminus 為較相近的 3 種相似性測量，其原理皆為以兩本書的共同出現作為基礎，共現次數愈多代表愈相似，接著利用兩本書在個別書櫃的出現次數正規化。其中，Jaccard 的分母為任意兩本書於個別書櫃出現次數的聯集；Inter 與 Interminus 則皆採任意兩本書於個別書櫃出現次數的最小值，不同點在於 Interminus 將分子分母個別減一。Cosine 則把任意兩本書於個別書櫃的出現情形視為向量，夾角愈小則兩本書愈相似，Correlation 比較兩本書於個別書櫃的出現情形，於不同書櫃的出現情形愈有相關則愈相似。

深究 Interminus 相似性測量的表現，採用最小值作為正規化，能夠提升暢銷書與其他書籍相似性低落的表現，而減一的動作可避免兩本冷門的書因巧合或隨機出現所造成的計算偏差。綜合兩種優點，是 Interminus 於書籍相似性表現較好的原因。在實際統計上，在抽樣 21199 本書中，只被一個書櫃擁有的書籍有 970 本，約為整體抽樣書籍的 4%。上述書籍容易被少部分讀者擁有，如特定領域的作品集，而它們出現在少數的書櫃中，這些書籍在 Interminus 的計算下，於個別書櫃顯示為獨立的點，視為特定讀者的多元閱讀偏好之一

綜上述，在多數相似性測量之下，兩本書冷門，但恰好共同出現在使用者書櫃時，就容易產生指標的偏差。這種因巧合或隨機共同出現，並不代表兩本書真的相似。而 Interminus 即是控制了這種偏差，因此產生較接近真實的相似性。

三、最適閾值下個別書櫃的分群表現

綜合各種相似性測量配合最適閾值，與使用者自評多樣性之相關性分析結果顯示，Interminus_0.5 為本研究採用之所有相似性測量與閾值配對中表現最好的。

在休閒閱讀的情境下，一般認為閱讀書籍的多寡與閱讀多樣性相關，因此在相關性分析時將書籍數量作為相關性分析的變數之一。結果顯示，與使用者自評多樣性相關分析結果愈好的相似性測量，與書籍數量相關性分析結果愈差。為檢測書籍數量在預測閱讀偏好多樣性時是否具有解釋力，並進一步分析使用者自評多異性、書籍數量與相似性測量間的關係，研究中最後嘗試將閱讀偏好多樣性、研究中所計算閱讀偏好多樣性、網路書櫃書籍數量等因素放入簡單線性回歸模型。

若以使用者自評之多樣性作為預測的依變數，利用逐步線性回歸檢視書籍相似性之多樣性，以及個別書櫃書籍總數兩個變數的解釋力。結果顯示書籍總數為被排除的變數，兩變數（書籍總數與書籍相似性之多樣性）呈顯著正相關（r=.559, p=.000)，書籍相似性之多樣性與使用者自評之多樣性呈顯著正相關（r=.286,

p=.022），書籍總數為被排除的變數。以上結果顯示雖然個別書櫃總數對多樣性計算有影響，但不足以直接解釋使用者自評之多樣性。因此，若須得知使用者之閱讀偏好多樣性，無法單純觀察使用者書櫃的書籍總數而推斷其閱讀偏好多樣性，

而研究中採用的書籍相似性則可有效的利用於分析使用者閱讀偏好多樣性。

三、利用個別書櫃作者類型計算之多樣性指標

在本研究中，採用多樣性指標的目的在於兼顧 Rafols & Meyer（2010）中的 3 個多樣性組成元素：類別種類數量、個別類別所佔比例、類別相似性，最終採用 4 種多樣性指標，Simpson’s Diversity 將種類數量、比例做為考量；Gini 與 Shannon’s Entropy 則著重種類間分布不均的情形； Stirling’s Revised Diversity 則兼併 3 個多樣性組成元素，同時也是本研究中 4 個指標中唯一考量類別相似性的多樣性指標。

在多樣性指標的良莠比較上，由於過去研究結果（Mikkonen & Vakkari, 2012;

Tang et al., 2012）顯示作者為重要的選書因素，又在本研究中之研究場域 aNobii 中，書籍類別為普遍認為不有效的選書因素，因此在多樣性指標的類別（即多樣性的「樣」）選擇作者為多樣性中的類別。選擇作者作為類別，亦可利用本研究中的書籍共現網絡，在進一步辨識書籍的作者的同時，在取得作者所有的作品後建立作者的共現網絡，如此一來便能建立作者的相似性網絡。

將 4 種多樣性指標的個別書櫃結果與使用者自評之閱讀偏好多樣性做相關性分析，結果顯示兼併 3 個多樣性組成元素的 Stirling’s Revised Diveristy 表現最好，然而此研究結果亦有精進的空間，本研究採用 Cosine 作為計算作者相似性的相似性測量方法，作為作者相似性在多樣性指標有效性的初探，研究結果證明相似性測量能改善多樣性指標計算的準確度。

在文檔中以網絡書櫃資料建構讀者閱讀偏好多樣性之指標研究 (頁 84-88)

第四章 結果與討論

第二節 綜合討論

二、相似性測量於書籍相似性計算的表現

三、最適閾值下個別書櫃的分群表現

三、利用個別書櫃作者類型計算之多樣性指標

第四章結果與討論

第二節綜合討論