廣義相關規則演算法 H-Mine(Generalized)

第三章以 H-Mine 為基礎之廣義相關規則演算法

第一節廣義相關規則演算法 H-Mine(Generalized)

H-Mine(Generalized) 演算法是根據 H-Mine 演算法結合廣義相關演算法的概念而提出的延伸演算法。主要動機是因為在探勘圖書館借閱記錄時，由於探勘所得的讀者借閱關聯館藏只佔了微乎其微的一小部分，對館藏龐大的圖書館而言效益不大，因此本論文進一步地找出讀者借閱類別的關聯性，藉由推薦讀者有興趣關聯類別的新書，更有效地提供讀者借閱建議。

H-Mine(Generalized) 演算法是將交易資料中的所有項目根據其隸屬分類階層將分類項目(即廣義項目)加入每筆交易資料，成為延伸交易，再將延伸交易利用改進 H-Mine 演算法找出廣義相關法則。詳述步驟如下：

步驟一：根據項目隸屬分類階層加上其廣義項目，得到延伸交易。例如以圖書館中文館藏為例，若採用「中國圖書分類法」做為分類階層，若有本書的分類號為 448.82，則將含有該本書的交易加上分類廣義項目 4XX、44X、448、448.8 及 448.82。

步驟二：將交易的每一項目，包括原本交易項目及廣義項目，都當成一般項目，找出長度為 1 的單一頻繁項目集，並據以建立 H-Struct 資料結構的標頭表格 H，H 中每個項目包含三個欄位：項目編號、項目支持度及連結位置，其中頻繁項目集的順序為任意順序。

步驟三：刪除多餘項目，重新調整頻繁項目集，找出新標頭表格 H’。因為本方法將廣義項目當成一般項目運作，這樣一來分類項目的子體(Child)與母體 (Parent)或是後裔(Descendant)與祖先(Ancestor)就可能會同時存在標頭表格內，若是子體(後裔)與母體(祖先)的支持度又是相同，母體(祖先)所代表的意義就已經隱含在子體(後裔)中，則母體(祖先)則成了多餘的頻繁項目，沒有必要再保留。重新調整頻繁項目集的方法是掃瞄 H 中的所有頻繁項目，若是有二個頻繁廣義項目皆屬於同一大類分類項目，則判斷是否有一項目為另一項目的母體(祖先)。若是，又二者支持度相同，則刪除母體(祖先)項目，表示母體(祖先)資訊已經隱含在子體(後裔)中，則沒有必要再保留母體(祖先)。

步驟四：將資料庫中每筆交易項目只保留經過調整的所有頻繁項目，包含原本交易項目及廣義項目，即新標頭表格 H’內的頻繁項目集，並依照頻繁項目集順序排列，得到每筆交易的頻繁投影。如同 H-Mine，每一個存在 H-Struct 中的頻繁項目亦包含二個欄位：項目編號及連結位置。H-Struct 即是包含標頭表格及頻繁投影的資料結構。

步驟五：將新標題表格 H’ 的每一項目，找出每個頻繁投影的第一個項目與之對應連結，得到完整 H-Mine 的 H-Struct 資料結構。

步驟六：由於標頭表格內仍有母體(祖先)與子體(後裔)同時存在，但二者支持度卻不相同的情形，為確保在同一個結果頻繁項目集內不會有母體(祖先)及子體(後裔)同時出現的情形，本步驟將要輸出的結果頻繁項目集進行最後測試。利用之前步驟三調整頻繁項目集的方法，判斷每一個頻繁項目集中的所有廣義項目

是否有其他廣義項目為其子體(後裔)的情形，確認每一結果頻繁項目集皆是最精簡的。最後則輸出所有精簡後的頻繁項目集。

步驟七：類似 H-Mine 方法，標頭表格 H’ 的每個項目可各自組成一個投影資料庫。在每個投影資料庫中重複執行二、三、五及六的步驟：找出頻繁項目集，

得到各自的標頭表格 H、經由分類測試後調整成為 H’標頭表格、根據標頭表格重新與頻繁投影連結、測試結果頻繁項目集並輸出精簡後的頻繁項目集、再遞迴一層層深入探勘，直到所有標頭表格的頻繁項目集完全找完。

本論文中我們所提出的 H-Mine(Generalized)演算法，是利用 H-Mine 演算法，再加上二個最佳化的條件，一是調整標頭表格中母體(祖先)與子體(後裔)同時出現，且支持度又相同的項目，刪除母體(祖先)的項目，只保留子體(後裔)的項目；另一則是，在印出結果頻繁項目集時，必須測試同一結果頻繁項目集內的所有廣義項目是否有子體(後裔)包含母體(祖先)的情形，確定頻繁項目集是最精 簡的。H-Mine(Generalized)演算法如下，其中粗體字則是改變原本演算法的部分。

在文檔中圖書館借閱記錄探勘系統 (頁 37-40)

第三章 以 H-Mine 為基礎之廣義相關規則演算法

第一節 廣義相關規則演算法 H-Mine(Generalized)

第三章以 H-Mine 為基礎之廣義相關規則演算法

第一節廣義相關規則演算法 H-Mine(Generalized)