• 沒有找到結果。

廣義相關規則演算法 H-Mine(Generalized)

在文檔中 圖書館借閱記錄探勘系統 (頁 37-40)

第三章 以 H-Mine 為基礎之廣義相關規則演算法

第一節 廣義相關規則演算法 H-Mine(Generalized)

H-Mine(Generalized) 演算法是根據 H-Mine 演算法結合廣義相關演算法的 概念而提出的延伸演算法。主要動機是因為在探勘圖書館借閱記錄時,由於探勘 所得的讀者借閱關聯館藏只佔了微乎其微的一小部分,對館藏龐大的圖書館而言 效益不大,因此本論文進一步地找出讀者借閱類別的關聯性,藉由推薦讀者有興 趣關聯類別的新書,更有效地提供讀者借閱建議。

H-Mine(Generalized) 演算法是將交易資料中的所有項目根據其隸屬分類階 層將分類項目(即廣義項目)加入每筆交易資料,成為延伸交易,再將延伸交易利 用改進 H-Mine 演算法找出廣義相關法則。詳述步驟如下:

步驟一:根據項目隸屬分類階層加上其廣義項目,得到延伸交易。例如以圖 書館中文館藏為例,若採用「中國圖書分類法」做為分類階層,若有本書的分類 號為 448.82,則將含有該本書的交易加上分類廣義項目 4XX、44X、448、448.8 及 448.82。

步驟二:將交易的每一項目,包括原本交易項目及廣義項目,都當成一般項 目,找出長度為 1 的單一頻繁項目集,並據以建立 H-Struct 資料結構的標頭表格 H,H 中每個項目包含三個欄位:項目編號、項目支持度及連結位置,其中頻繁 項目集的順序為任意順序。

步驟三:刪除多餘項目,重新調整頻繁項目集,找出新標頭表格 H’。因為 本方法將廣義項目當成一般項目運作,這樣一來分類項目的子體(Child)與母體 (Parent)或是後裔(Descendant)與祖先(Ancestor)就可能會同時存在標頭表格內,若 是子體(後裔)與母體(祖先)的支持度又是相同,母體(祖先)所代表的意義就已經隱 含在子體(後裔)中,則母體(祖先)則成了多餘的頻繁項目,沒有必要再保留。重 新調整頻繁項目集的方法是掃瞄 H 中的所有頻繁項目,若是有二個頻繁廣義項 目皆屬於同一大類分類項目,則判斷是否有一項目為另一項目的母體(祖先)。若 是,又二者支持度相同,則刪除母體(祖先)項目,表示母體(祖先)資訊已經隱含 在子體(後裔)中,則沒有必要再保留母體(祖先)。

步驟四:將資料庫中每筆交易項目只保留經過調整的所有頻繁項目,包含原 本交易項目及廣義項目,即新標頭表格 H’內的頻繁項目集,並依照頻繁項目集 順序排列,得到每筆交易的頻繁投影。如同 H-Mine,每一個存在 H-Struct 中的 頻繁項目亦包含二個欄位:項目編號及連結位置。H-Struct 即是包含標頭表格及 頻繁投影的資料結構。

步驟五:將新標題表格 H’ 的每一項目,找出每個頻繁投影的第一個項目與 之對應連結,得到完整 H-Mine 的 H-Struct 資料結構。

步驟六:由於標頭表格內仍有母體(祖先)與子體(後裔)同時存在,但二者支 持度卻不相同的情形,為確保在同一個結果頻繁項目集內不會有母體(祖先)及子 體(後裔)同時出現的情形,本步驟將要輸出的結果頻繁項目集進行最後測試。利 用之前步驟三調整頻繁項目集的方法,判斷每一個頻繁項目集中的所有廣義項目

是否有其他廣義項目為其子體(後裔)的情形,確認每一結果頻繁項目集皆是最精 簡的。最後則輸出所有精簡後的頻繁項目集。

步驟七:類似 H-Mine 方法,標頭表格 H’ 的每個項目可各自組成一個投影 資料庫。在每個投影資料庫中重複執行二、三、五及六的步驟:找出頻繁項目集,

得到各自的標頭表格 H、經由分類測試後調整成為 H’標頭表格、根據標頭表格 重新與頻繁投影連結、測試結果頻繁項目集並輸出精簡後的頻繁項目集、再遞迴 一層層深入探勘,直到所有標頭表格的頻繁項目集完全找完。

本論文中我們所提出的 H-Mine(Generalized)演算法,是利用 H-Mine 演算 法,再加上二個最佳化的條件,一是調整標頭表格中母體(祖先)與子體(後裔)同 時出現,且支持度又相同的項目,刪除母體(祖先)的項目,只保留子體(後裔)的 項目;另一則是,在印出結果頻繁項目集時,必須測試同一結果頻繁項目集內的 所有廣義項目是否有子體(後裔)包含母體(祖先)的情形,確定頻繁項目集是最精 簡的。H-Mine(Generalized)演算法如下,其中粗體字則是改變原本演算法的部分。

在文檔中 圖書館借閱記錄探勘系統 (頁 37-40)