第六章 結論與未來研究方向
第二節 未來研究方向
本論文運用相關規則演算法及其延伸問題來實作圖書館的資料探勘系統。未 來研究可分二大方向進行:(1) 增加系統功能 (2) 提昇系統效率。
n 增加系統功能
u 加入漸進更新(Incremental Update)之演算法
由於資料探勘是很耗時的,若是有新資料就得重新探勘所有資料將會很 浪費時間,而在[6,7,15]中提出如何只針對新進資料作探勘,而不需將所有 資料都重新探勘,未來的系統希望加上這類演算法,節省時間成本。
u 運用其他資料探勘演算法
本系統只運用了資料探勘演算法中的相關規則演算法,而資料探勘還 包 含 了 其 他 演 算 法 , 如 循 序 模 式 (Sequential Patterns) 探 勘 , 分 類 (Classification),分群分析(Cluster Analysis ),及趨勢分析(Trend and Evolution
Analysis)等等,未來系統中可加入這些探勘演算法,根 據讀者的借閱記錄資 訊瞭解讀者的同質性,將讀者分群,或是依據讀者的借閱記錄預測可能有 興趣館藏等功能。
u 增加探勘項目
本論文只分析出圖書與圖書間的關聯性,未來還可以設計探勘讀者與 圖書的關係及讀者與讀者的關係。藉由分析讀者與圖書的關係,可瞭解該 讀者所喜好的圖書類別,亦可獲知讀者興趣,進而針對讀者可能的興趣作 相關館藏推薦。探勘讀者與讀者間的關係有助於瞭解讀者的同質性,可藉 此將讀者分群組,將相同群組所借閱的館藏互相推薦給同群組的其他人。
u 增加廣義相關規則演算法的階層分類
本論文只運用「中國圖書分類法」當成廣義相關演算法的分類階層,未 來還可運用「美國國會圖書分類法」針對英文書籍探勘廣義相關規則找出英 文書籍類別關聯性。
u 增加以多重最小支持度相關規則演算法探勘不同類項目
本系統是應用多重最小支持度廣義相關規則探勘,未來還可針對不同類 別的館藏設定不同的最小項目支持度探勘,如 DVD、VCD、CD、錄影帶、
錄音帶與書籍設定不同的最小項目支持度探勘相關規則。
n 提昇系統效率
u 封閉式頻繁項目集
目前本論文所採用的方法是先產生所有頻繁項目集,再計算所有頻繁 項目集的封閉性,刪去多餘的項目集,保留封閉式頻繁項目集。但是這樣 一來,會花費不必要的時間在探勘已經包含在其他項目集中的子項目集。
若是可以找出適合的封閉式相關規則演算法應用在 H-Mine 上,如 Pei 等學
者所提出的 CLOSET[13]演算法或是 Zaki 等學者所提的 CHARM[21,22,23]
演算法,直接探勘封閉式相關規則,即可省去刪除多餘項目集的步驟,以 有效率的方式探勘封閉式項目集。
u 廣義相關規則演算法
目前系統是利用 H-Mine 演算法,再加上二個最佳化的條件,一是調整 標頭表格中母體與子體或祖先與後裔同時出現且支持度又相同的項目,刪 除母體(祖先)的項目,只保留子體(後裔)的項目;另一則是,在列出頻繁項 目集時,必須測試項目集中的所有項目是否有子體包含母體或後裔包含祖 先的情形,確定頻繁項目集是最精簡的。然而,即使採用了我們的最佳化 原則探勘,這樣的作法仍耗費了許多時間,因此,未來希望可以找到更有 效率的廣義相關規則演算法,以提昇系統效能。
參考文獻
[1] P. Adriaans, and D. Zantinge. “Data Mining,” Addison-Wesley, Harlow, 1996.
[2] R. Agrawal, T. Imielinski and A. Swami. “Mining Association Rules between Sets of Items in Large Databases,” Proc. of the 1993 ACM SIGMOD Conference, 1993.
[3] R. Agrawal and R. Srikant. “Fast Algorithms for Mining Association Rules,”
Proc. of the 20th VLDB Conference, 1994.
[4] R. C. Agarwal, C.C Aggarwal, and V. V. V. Prasad. “A Tree Projection Algorithm for Generation of Frequent Item Sets,” Journal of Parallel and Distributed Computing 61, 350-371, 2001.
[5] M. S. Chen, J. Han, and P. S. Yu. “Data Mining: An Overview from a Database Perspective,” IEEE Transactions on Knowledge and Data Engineering, 1996.
[6] D. W. Cheung, S.D. Lee, and B. Kao. “A General Incremental technique for Maintaining Discovered Association Rules”. Proc. of the 15th Int‘l Conf. on Database Systems for Advanced Applications, 1997.
[7] C. I. Ezeife, and Y. Su. “Mining Incremental Association Rules with Generalized FP-Tree,” Candian Conference on AI 2002.
[8] A. Kent et al. “Use of Library Materials: the University of Pittsburgh Study,”
PA.: Pittsburgh University, 1979.
[9] J. Han, J. Chiang, S. Chee, J. Chen, Q. Chen, S. Cheng, W. Gong, M. Kamber, K.
Koperski, G. Liu, Y. Lu, N. Stefanovic, L. Winstone, B. Xia, O. R. Zaiane, S.
Zhang, and H. Zhu, “DBMiner: A System for Data Mining in Relational Databases and Data Warehouses,” Proc. CASCON'97: Meeting of Minds, Toronto, Canada, November 1997
[10] J. Han, J. Pei, and Y. Yin. “Mining Frequent Patterns without Candidate Generation,” Proc. of the ACM-SIGMOD 2000 Conference on Management of Data, Dallas, May 2000.
[11] Jiawei Han and Micheline Kamber. “Data Mining: Concepts and Techniques,”
Morgan Kaufmann, 2000.
[12] Bing Liu, Wynne Hsu and Yiming Ma. “Mining Association Rules with Multiple Minimum Supports.” ACM SIGKDD 1999, Pages 337 – 341 .
[13] J. Pei, J. Han, and R. Mao. “CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets,“ Proc. 2000 ACM-SIGMOD Int. Workshop on Data Mining and Knowledge Discovery (DMKD'00)}, Dallas, TX, May 2000
[14] J. Pei, J. Han, H. Lu, S. Nishio, S. Tang, and D. Yang. “H-Mine: Hyper-Structure
Mining of Frequent Patterns in Large Databases,” Proc. 2001 Int. Conf. on Data Mining (ICDM'01)}, San Jose, CA, Nov. 2001.
[15] N. L. Sarda and N. V. Srinivas. “An Adaptive Algorithm for Incremental Mining of Associatin Rules”. IEEE, 1998.
[16] A. Savasere, E. Omiecinski, and S. Navathe. An efficient algorithm for mining association rules in large databases. In VLDB’95, pages 432–443.
[17] R. Srikant and R. Agrawal, “Mining Sequential Patterns: Generalizations and performance improvements,”IBM Research Division Almaden Research Center, 1995.
[18] R. Srikant and R. Agrawal, “Mining generalized association rules.” VLDB, 1995.
[19] R. Srikant and R. Agrawal, “Mining generalized association rules.” Future Generation Computer Systems, 1997.
[20] M. C. Tseng, and W. Y. Lin. “Mining Generalized Association Rules with Multiple Supports.” Data Warehousing and Knowledge Discovery 2001 .
[21] M. J. Zaki and C. J. Hsiao. “CHARM: An Efficient Algorithm for Closed Association Mining,” In Technical Report 99-10, Computer Science, Rensselaer Polytechnic Institute, 1999.
[22] M. J. Zaki. “Generating Non-Redundant Association Rules,” 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Boston, MA, August 2000
[23] M. J. Zaki and C. J. Hsiao. “CHARM: An Efficient Algorithm for Closed Itemset Mining,” In Proc. 2002 SIAM Int. Conf. Data Mining, Arlington, VA, April 2002.
附錄一:相關規則探勘結果(部分)
Harry Potter and the sorcerer's stone, Harry Potter and the Chamber of Secrets, Harry Potter and the prisoner of Azkaban, Harry Potter and the goblet of fire
28
館藏名稱 借閱次數
Harry Potter and the sorcerer's stone, Harry Potter and the Chamber of
Secrets, Harry Potter and the prisoner of Azkaban 35 Harry Potter and the sorcerer's stone, Harry Potter and the Chamber of
Secrets, Harry Potter and the goblet of fire 33 Harry Potter and the sorcerer's stone, Harry Potter and the prisoner of
Azkaban , Harry Potter and the goblet of fire 32 龍槍傳奇.第二部, 龍槍傳奇.第三部, 龍槍傳奇.第一部 31 龍槍傳奇.第二部, 龍槍傳奇.第四部, 龍槍傳奇.第一部 30 Harry Potter and the Chamber of Secrets , Harry Potter and the prisoner
of Azkaban, Harry Potter and the goblet of fire 30 飄香箭雨.第二部, 飄香箭雨.第三部, 飄香劍雨.第四部 29 Harry Potter and the sorcerer's stone, Harry Potter and the Chamber of
Secrets 45
伊達政宗.(二),人取之卷, 伊達政宗.(一),黎明之卷 43
蘇菲的世界.上, 蘇菲的世界.下 40
館藏名稱 借閱次數 MATLAB 入門引導, PC MATLAB 入門與實例應用 38
三少爺的劍.第一部, 三少爺的劍.第二部 37
Verilog 硬體描述語言:a guide to digital design and synthesis,
Verilog 硬體描述語言數位電路設計實務 36
計算機結構:計量接近(下)=Computer Architecture A Quantitative Approach,計算機結構:計量接近(上)=Computer Architecture A Quantitative Approach
32 MATLAB 5 專業設計技巧, MATLAB 入門及應用 31
大地飛鷹.第二部, 大地飛鷹.第一部 31
飄香箭雨.續.第三部, 飄香箭雨.續.第四部 31
Verilog 硬體描述語言:a guide to digital design and synthesis
精通 Verilog 數位系統設計與合成 30
裸陽.下, 裸陽.上 30
仙河飲馬, 淨土之春 30
Wideband CDMA for third ge neration mobile communications
CDMA systems engineering handbook 29 Latex 使用介紹:功能豐富的排版系統, LATEX 排版系統實務入門 29
你愛我嗎?, 好想結個婚:都會男女愛情極短篇 29
社會科學研究方法.(上), 社會科學研究方法.(下) 29
永不妥協[DVD]=Erin Brockovich, 綠色奇蹟 [DVD]=The Green Mile 29
城邦暴力團.壹,城邦暴力團.貳 27
附錄二:身份類別相關規則探勘結果(部分)
黑暗精靈.第五冊,旅居 Sojourn(上),黑暗精靈.第四冊,流亡 Exile(下),黑暗精靈.第六冊,旅居 Sojourn(下),黑暗精靈.第三冊,流亡 Exile(上) 5 第三謊言:惡童三部曲.(三), 二人證據:惡童三部曲.(二),
惡童日記:惡童三部曲.(一) 9
Verilog 硬體描述語言:a guide to digital design and synthesis,Verilog 硬
體描述語言數位電路設計實務,精通 Verilog 數位系統設計與合成 7 RF power amplifiers for wireless communications,
Microwave circuit design using linear and nonlinear techniques, Fundamentals of RF circuit design : with low noise oscillators
6
館藏名稱 借閱次數 Linux 完整安裝與設定, Linux 完整安裝與設定(CD-ROM-1),
Linux 完整安裝與設定(CD-ROM-2) 5
Verilog 硬體描述語言:a guide to digital design and synthesis,
Verilog 硬體描述語言數位電路設計實務 18
計算機結構:計量接近(上)=Computer Architecture A Quantitative Approach,計算機結構:計量接近(下)=Computer Architecture A Quantitative Approach
17
VHDL 與數位邏輯設計,VHDL 數位系統電路設計 14
VHDL 與數位邏輯設計,VHDL 與數位電路設計 13
WinSock 網路程式設計之鑰=Key to WinSock Network Programming,
深入 Internet WinSock 設計 12
Verilog 硬體描述語言:a guide to digital design and synthesis,
精通 Verilog 數位系統設計與合成 11
RF power amplifiers for wireless communications,
Microwave circuit design using linear and nonlinear techniques 11 Verilog 硬體描述語言數位電路設計實務,
精通 Verilog 數位系統設計與合成 11
C++ Builder 5 徹底研究, 精通 C++ Builder 5.0 10 圖控式程式語言 LabVIEW,
LabVIEW 基礎篇=LabVIEW For Everyone 10 Delta-Sigma data converters:theory, design, and simulation,
Top-down design of high-performance sigma-delta modulators 9 Effective C++國際中文版, More Effective C++國際中文版 9 數位影像處理-活用 Matlab, 以 MATLAB 透視 DSP 9 Harry Potter and the sorcerer's stone,
Harry Potter and the Chamber of Secrets 9 JBuilder 入門學習手冊, Java 程式設計快樂上手-使用 JBuilder 5 9 LINUX 核心研究篇=Linux Kernel Internals,Linux 的核心與程式設計 8 Visual C++入門進階:從 C++物件導向到視窗程式設計,
Visual C++ 6 視窗程式設計經典 7
附錄三:廣義相關規則探勘結果(部分)
類別 借閱次數
類別 借閱次數
附錄四:多重最小支持度廣義相關規則探勘結果(部分)
借閱資料量:2001.05.01~2002.04.30
科學類、應用科學類階層設定為小數點後三位,其他類設定為小數點後二位 分類各階層最小項目支持度分別為:0.25, 0.2, 0.15, 0.1, 0.05, 0.025, 0.0125
類別 借閱次數
程式語言,系統程式設計與程式,高階程式語言 948
資料處理及電腦科學,各種應用程式套裝軟體,介面與通訊 932
應用科學類,科學類 4629
應用科學類,數學 3932
現代叢書:通俗用,電腦科學 1792
程式語言,資料處理及電腦科學 1183
電腦應用及其程式,資料處理及電腦科學 1102
電腦應用及其程式,程式語言 1072
電腦應用及其程式,介面與通訊 1047
程式語言,系統程式設計與程式 1042
資料處理及電腦科學,各種應用程式套裝軟體 975
各種應用程式套裝軟體,介面與通訊 952
電腦應用及其程式,系統程式設計與程式 950
電腦應用及其程式,高階程式語言 944
高階程式語言,介面與通訊 933
程式語言,各種應用程式套裝軟體 926
高階程式語言,各種應用程式套裝軟體 846
系統程式設計與程式,各種應用程式套裝軟體 831
高階程式語言,各種應用程式套裝軟體 826
電腦應用及其程式,特殊電腦方法 815