第四章 圖書館借閱記錄探勘系統之實作
第一節 圖書館資料探勘系統說明
4.1.1 系統流程
本系統是以圖書館的借閱歷史記錄為資料來源,先經過預備資料的過程,包 含資料清理、資料轉換,再經由資料探勘,利用關聯演算法找出相關規則。最後,
將所得到的規則導入個人化數位圖書資訊環境 PIE@NCTU,針對個別的讀者需 求適時提供借閱建議。系統流程如圖 4 - 1 - 1。
資料清理 資料轉換
資料探勘
借閱記錄 記錄資料庫 探勘格式資料
應用於個人化 知識 數位圖書資訊環境
PIE@NCTU
1 2
4
相關規則推薦給讀者
3
圖 4 - 1 - 1:圖書館資料探勘系統流程圖
n 借閱記錄資料格式
本系統提供館員將符合格式的借閱記錄存入借閱記錄資料庫 Mining_Lib,便 於探勘相關規則。借閱記錄資料的欄位包括讀者證號、身份類別號、系所代碼、
性別、書目識別號、交易日期、登錄號、館藏登錄日期、索書號、書名十個欄位。
每筆記錄以四行表示,格式如下:
讀者證號、身份類別號、系所代碼、性別、書目識別號、交易日期 登錄號、館藏登錄日期
索書號 書名
表 4 - 1 - 1:借閱記錄檔格式
借閱記錄範如表 4 - 1 - 2:
xxxxxxxx A 317 M 141755 Jan 2 2001 12:00AM C97310 May 7 1999 12:00AM
083.6 1154 v.18
小畢的故事 xxxxxxxx A 500 F 315427 Jan 2 2001 12:00AM
X238388 Jul 13 2000 8:22AM
522.1 6691
如何考上國小老師 xxxxx C 610 202671 Jan 2 2001 12:00AM
X126680 May 8 1999 12:00AM
550.1 7472
經濟學概論 xxxxxxxx B 216 M 334440 Jan 2 2001 12:00AM
F303188 Nov 17 2000 3:15PM
NA1455.F53 A 223 1995 v.3
Alvar Aalto. Band III, projekte und letzte bauten = Vol.III, projects et dernieres oeuvres / 表 4 - 1 - 2:借閱記錄範例
n 預備資料
本論文第二章中提到,在完整的資料探勘處理過程中,預備資料是最耗時 的,且預備資料對於資料探勘結果的優劣影響甚鉅。在此,預備資料包含了資料 清理及資料轉換二個步驟。
u 資料清理:將取得的借閱記錄資料存入交易資料庫中。將每筆記錄中十 個欄位依序取出,存入對應的資料庫表格欄位。
u 資料轉換:依照不同的相關規則演算法,將資料轉換成適合的模式。
l 相關規則演算法
所要找的相關規則是讀者常一起借閱的館藏,因此將讀者借閱館藏 的書目識別號視為一個項目,而每位讀者於一段時間內(可由館員自行 設定,預設為一年)借閱的館藏之書目識別號所成的集合視為一筆交
易,這一群交易所組成的集合便成為我們的交易資料庫。舉例來說,若 將期間設為一年,圖書館中有二位讀者“A”及“B”,A 先借了書目 識別號為“1343”及“253”二本書,半年後借“3466”及“96893”
二本書,再一年後,A 又借了“3423”、“34636”及“9689”三本書,
則 A 的交易有{1343, 253, 3466, 96893}和{3423, 34636, 9689}二筆交 易。若 B 在一年內借了“3423”、“34656”及“9689”三本書,則 B 的交易有{3423, 34656, 9689}。
l 廣義相關規則演算法及多重最小支持度廣義相關規則演算法 由於廣義相關規則演算法及多重最小支持度廣義相關規則演算法均 是探勘館藏資源及其分類廣義項目,故二者的資料轉換是完全相同的。
而廣義相關規則與相關規則的最大不同在於廣義相關規則多加了項目 的類別資訊,因此廣義相關演算法的資料轉換乃是先依照相關規則演算 法的資料轉換方式,找出每筆交易的項目集,並且將交易內的每個項目 依照使用者要求加入不同深度的類別資訊。
依照交通大學圖書館目前的分類標準,中文書是以「中國圖書分類 法」,西文書則是採用「美國國會圖書分類法」,我們目前先著重於中文 書探勘,於是應用中國圖書分類法[28]為本系統廣義相關規則探勘的項 目分類階層。
「中國圖書分類法」[28]將人類知識分為十大類,以十個阿拉伯數 字代表,其中 0 為總類,1 為哲學類,2 為宗教類,3 為科學類,4 為應 用科學類,5 為社會科學類,6-7 為史地類,8 為語文類及 9 為藝術類。
每一大類又分為十小類,共得 100 小類,小類之下以目細分之。
舉例說明本系統應用的廣義相關規則探勘的資料轉換。若有筆交易 為{3423, 34636, 9689},其中“3423”的分類號為 312.91695,“34636”
的分類號為 312.932,“9689”的分類號為 550.91,且分類階層科學類 (3XX)到小數點後三位,社會科學類(5XX)到小數點後一位,交易則成 為{3XX, 31X, 312, 312.9, 312.91, 312.916, 3423, 312.93, 312.932, 34636, 5XX, 55X, 550.9, 9689}。
n 資料探勘
本系統提供三種資料探勘演算法,包括相關規則演算法,廣義相關規則演算 法及多重最小支持度廣義相關規則演算法。
n 結果呈現與評估
經由本系統三種演算法探勘直接得到結果頻繁項目集。可再經由系統將結果 頻繁項目集轉換成封閉式頻繁項目集(Closed Frequent Itemsets)或是再設定確信 值(Confidence) 得到相關規則。最後,我們將封閉式頻繁項目集導入個人化數位 圖書資訊環境 PIE@NCTU,在讀者搜尋館藏及瀏覽借閱歷史記錄時,提供借閱 的建議。
4.1.2 系統建置需求
n 硬體設備:所需要的硬體設備為一部個人電腦,建議基本配備如下:
u 中央處理器(CPU):AMD Athlon 700 或 Intel Pentium III 700 u 記憶體:128MB
u 硬碟:30GB n 軟體設備
u 作業系統:Microsoft Windows 2000 Professiona l、Microsoft Windows 2000 Server 或 Microsoft Windows XP Professiona l
u 資料庫:Microsoft SQL Server 7.0
4.1.3 系統功能
圖 書 館 資 料 探 勘 系 統 依 功 能 分 為 七 大 類 , 分 別 為 檔 案 (File) 、 資 料 庫 (Database) 、轉換(Transform)、探勘(Mining)、產生規則(GenRules)、系統(System)、
離開(Exit)。系統的起始畫面如圖 4 - 1 - 2:
圖 4 - 1 - 2:系統起始畫面
n 檔案(File) :檔案的功能如圖 4 - 1 - 3,包括顯示內容(Show)及另存新檔 (Save to File)。顯示內容為呈現系統內所有會用到的各種檔案格式內容,檔 案的格式包括借閱記錄檔、資料轉換過程資訊檔(.infor)、探勘過程資訊檔 (.datainfor)、探勘結果檔案(.result) 及封閉式結果檔案(.closed)。另存新檔則 是讓館員將資料探勘的結果儲存起來。
圖 4 - 1 - 3:檔案功能
n 資料庫(Database) :資料庫的功能包括插入資料、刪除資料及清理資料庫。
u 插入資料(Insert Data) :本研究將借閱記錄資料儲存至所建置的借閱記 錄資料庫 Mining_Lib 中(見 39 頁)。插入資料是要讓使用者可以隨時更 新借閱記錄資料庫,如圖 4 - 1 - 4。將如表 4 - 1 - 1 格式的借閱記錄存 入借閱記錄資料庫中,以便於之後的轉換資料及規則探勘。
圖 4 - 1 - 4:插入資料
u 刪除資料(Delete Data) :選定欲刪除的借閱資料年份,刪除該年份的資 料,如圖 4 - 1 - 4。
圖 4 - 1 - 5:刪除資料
u 清理資料庫(Clear Database) :如 圖 4 - 1 - 6,按下 OK 按鈕,將整 個交易資料庫的借閱記錄資料全部刪除。
圖 4 - 1 - 6:清理資料庫
n 轉換(Transform) :轉換的功能包括轉換資料庫及特殊轉換。
u 轉換資料庫(Data Transform Database Mining_Lib) :將整個借閱記錄資 料庫 Mining_Lib 的全部資料轉換成符合探勘格式的資料檔。如圖 4 - 1 - 7,每一行代表一筆交易,預設借閱間隔於一年內的視為同一筆交易,
若間隔超過一年,則分為二筆交易。
圖 4 - 1 - 7:轉換資料庫
u 特殊轉換(Special Transform Form) :如圖 4 - 1 - 8,讓使用者自行輸入 欲轉換的起始、終止日期,及多久時間內的資料視為同一筆的資訊,再 針對使用者要求轉換。
圖 4 - 1 - 8:特殊轉換
n 探勘(Mining) :探勘的功能包括相關規則探勘、身份類別探勘、廣義相關 規則探勘及多重最小支持度廣義相關規則探勘。
u 相關規則探勘(Association Mining) :如圖 4 - 1 - 9,讓使用者填入最小 支持度及選擇欲探勘檔案,按下 Mining 按鈕,產生頻繁項目集。
圖 4 - 1 - 9:相關規則探勘
輸入支持度 0.001,選擇已由借閱記錄轉換成探勘格式的 2001 年交 易記錄,相關規則探勘結果畫面如圖 4 - 1 - 10 (相關規則探勘分析如附 錄一)。相關規則結果以頻繁項目集的方式表示,如探勘結果頻繁項目集
“211326,210033: 14.”,表示項目 211326 與項目 210033 在 2001 年的 借閱資料中同時出現 14 次。
圖 4 - 1 - 10:相關規則探勘結果
u 身 份 類 別 探 勘 (User Category Mining) : 先 選 擇 身 份 類 別 配 置 檔 (Configuratio n File),讓系統明瞭隸屬於各學院中系所的分配。身份類別 配置檔的格式是先以一行表示學院,該行以下的每一行以 1 開始編號隸 屬於各學院的系所。學院的表示法是二個欄位,以 Tab 為欄位間隔,第 一個欄位為編號,學院編號固定為 0,第二個欄位則是學院名稱。而系 所則以三個欄位表示,以 Tab 為欄位間隔,第一個欄位為編號,每個學 院中的系所編號以 1 為始,第二個欄位是系所名稱,第三個欄位是系所 代碼。例如: 若電機資訊學院中有資工系、電信系及資科系,系所代碼 為 311、313 及 323,工學院有土木系及環工所,系所代碼為 316 及 219,
則身份類別配置檔如下:
0 電機資訊學院 1 資工系 311 2 電信系 313 3 資科系 323 0 工學院 1 土木系 316 2 環工所 219
選擇身份類別配置檔所在位置,如圖 4 - 1 - 11 所示,讓系統讀取 結構配置檔,建立學院系所類別的可複選選項,如圖 4 - 1 - 12。
圖 4 - 1 - 11:選擇身份類別配置檔
圖 4 - 1 - 12:選擇身份探勘資訊
選擇探勘哪段時間內的借閱資料及多久時間內的資料視為同一筆 的資訊,並選擇欲探勘的身份類別及系所類別。如圖 4 - 1 - 12,選擇 2000 至 2002 年的借閱記錄,一年內視為同筆交易,以 0.005 為最小支 持度,針對資科系、資科所及資科博的大學生及研究生進行探勘。
選擇探勘資料、身份及最小支持度等相關資訊後,按下 Type Mining 的按鈕後,系統即會自動從資料庫中找到相關資料,並且經由相關規則 探勘找出頻繁項目集,顯示在右邊白底方框裡。如圖 4 - 1 - 13,顯示資 科學生在 2000 年至 2002 年的借閱記錄探勘結果頻繁項目集。身分類別 相關規則探勘分析如附錄二。
圖 4 - 1 - 13:身份探勘結果
u 廣義相關規則探勘(Generalized Mining) :選擇探勘哪段時間內的借閱 資料及多久期間內視為同一筆的相關資訊,再針對中國圖書分類法中的 每一類設定探勘深度,按下 Generalized Mining 的按鈕,即可探勘出廣 義相關規則。例如探勘 2001 年 11 月 1 日到 2002 年 4 月 30 日的借閱資 料,科學類及應用科學類探勘到小數點後第三位,其他類則探勘至小數 點後二位,最小支持度設定為 0.0125,則探勘畫面如圖 4 - 1 - 14:
圖 4 - 1 - 14:廣義相關規則探勘
按下 Generalized Mining 的按鈕,即可探勘出廣義相關規則之頻繁 項目集。探勘廣義相關規則結果畫面,如圖 4 - 1 - 15,探勘結果以頻 繁項目集的方式表示,如頻繁項目集“312.91,312.95,312.932,312.97:
150”,表示分類項目 312.91、312.95、312.932 及 312.97 在 2001 年 11 月 1 日至 2002 年 4 月 30 日的類別交易記錄中同時出現 150 次。廣義相 關規則探勘分析如附錄三。
圖 4 - 1 - 15:廣義相關規則探勘結果畫面
u 多重最小支持度廣義相關規則探勘(Mulitple Supports Mining) :選擇探
勘哪段時間內的借閱資料及多久期間內視為同一筆的相關資訊,再針對 中國圖書分類法中的每一類設定探勘深度及每一層設定最小支持度 值,按下 Multiple Supports Mining 的按鈕,即可探勘出多重最小支持度
勘哪段時間內的借閱資料及多久期間內視為同一筆的相關資訊,再針對 中國圖書分類法中的每一類設定探勘深度及每一層設定最小支持度 值,按下 Multiple Supports Mining 的按鈕,即可探勘出多重最小支持度