在本階段中,我們首先將利用資料探勘(Data mining)中關聯式法則探勘 (Association rule mining)技術,對於使用者查詢的記錄(Log)作進一步的分析。初 步的想法是將使用者在本系統中查詢且選取的電子文件資訊儲存在使用者查詢
記錄檔中(Log file),緊接著將使用者基本資料搭配累積一段時間的使用者查詢記
錄當成交易資料,並配合典型的階層式關連式法則分析演算法,例如:Apriori 演
算法,找出特定使用者或使用者族群在選讀電子文件時的選讀習性。
舉例來說,若記錄檔中儲存了使用者甲的選讀文件情形,如上圖所示,其第 一次瀏覽了文件A、文件C、文件D,第二次瀏覽了文件B、文件C、文件E, 以此類推。則我們利用Apriori演算法,可得知此使用者最常瀏覽的文件是B、C、 E,是為其較有興趣的文件集合。故當有位與使用者甲背景相似的使用者乙在使 用本系統時,系統便可以在適當時候提供使用者甲的選讀資訊供其參考。
當然除上述的想法外,我們也將對使用者族群以及其他使用者喜好特性做進 一步的研究。
4、智慧型電子書資訊管理系統
本計畫發展了一智慧型電子書資訊管理系統,其架構圖如圖十二所示,包含 轉換模組、關鍵字領域學習模組、相似度計算模組、案例庫儲存模組、使用者查 詢介面。以下分別介紹:
1. 轉換模組:利用3.1.2節中所提之案例轉換工具,將所蒐集到的各種不同 格式的檔案,依3.1.1節之電子書標準(CEBS)轉換成格式一致的XML檔 案,以供後續步驟使用。
2. 領域關鍵字學習模組:利用3.1.3節之領域關鍵字學習機制,找出各領域
入書藉作者名、書藉名稱(Title)、關鍵字(Keywords)、書藉分類、概念
(Concept)等做為查詢指標,並可以選取所查詢的文章層級:Paragraph、
Section、Chapter、Book或選擇查詢所有層級(ALL)。若選擇ALL,則使 用3.1.4 節的由上而下檢索策略,若是選擇Paragraph、Section、Chapter 或 Book,則依其點選的層級做3.1.4 節的單層式檢索策略。若點選特殊 查詢,則相似度比對的模式即為 3.1.4 節中所提的 Heuristic Search
Strategy,其查詢速度較快而準確度不致下降太多。
文章比對查詢:使用者輸入一篇短文或長句,系統先根據此內容擷取其 特徵,轉化為向量,然後再和案例庫中的電子文件向量做相似度比對。
圖十三:系統封面圖
圖十四:查詢介面
圖十五:基本查詢
圖十六:文章比對查詢 1.使用者輸入 2.確認
5、計畫成果自評
在計劃的第一階段中,我們以XML語言制訂了一結構化內容層級之電子書 標準CEBS,並以CEBS為基礎建構了一整合電子書查詢系統EBQS,提供給使 用者更彈性、深入與廣泛的查詢與編輯需求。在第二階段,我們利用Data mining 技術探勘使用者選讀習性,找到影響使用者滿意度的癥結所在,並進而回饋到案 例庫中進行修正或是修正領域專家所建立的Ontology與提供個人化服務。
同時,我們亦發表了一篇期刊論文[15]、一篇會議論文[25],並有一篇期刊 論文[23]投稿於Information Science,一位碩士班學生以本計畫內容為碩士畢業論 文研究主題,亦有小成。
6、結論
由於資訊與網路技術的進步,促成大量電子文件問世,而如何有效管理眾多 的電子文件,減少搜尋檢索的時間,便成為重要課題。但由於現存之電子書標準 大多著重在表層資訊,沒有考慮到內容層級與其結構化資訊,故對於電子書組織 管理與再利用無法提供直接的幫助;此外,一般電子書籍管理系統並無個人化的 服務。有鑑於此,為輔助讀者在查詢或檢索相關資料時能快速且準確地得到真正 想要的結果,本計畫運用資料檢索(Information retrieval)、資料探勘(Data mining) 等相關技術,發展智慧型電子書資訊管理系統,以便推廣電子書的流行。
本計畫分為二個階段進行。第一階段為分析案例資訊及特徵蒐集,研究發展 一智慧型電子書資訊管理系統,參考DocBook、Open E-Book、Dublin Code等國 際標準,利用具描述能力的XML制訂CEBS電子書內容儲存標準,加入內容層 級標籤。並利用領域關鍵字學習機制與階層式文件分群法,組合而成一電子書知 識管理架構,能有效的對電子書內容進行管理,進而提供有別於傳統搜尋引擎的 三種搜尋方式,對電子書內容查詢更有效,更快找到符合使用者需求的查詢結 果。此外透過系統介面,使用者可充份利用過去累積的電子圖書資源,加以編輯、
整合和再製,製作出全新的電子書藉,有效縮短書藉編撰的時程,提供高品質的 電子圖書。
第二階段為探勘使用者選讀習性以改善案例表示,利用資料探勘的技術針對 使用者進行選讀習性的分析,找出使用者個人使用的愛好與習慣,進而改善系統 效能,達到系統個人化的效果。
參考資料(Reference)
[1] R. Agrawal, T. Imielinksi and A. Swami, “Mining association rules between sets of items in large database,“ The ACM SIGMOD Conference, Washington DC, USA, 1993.
[2] R. Agrawal, T. Imielinksi and A. Swami, “Database mining: a performance perspective,” IEEE Transactions on Knowledge and Data Engineering, Vol. 5, No. 6, pp. 914-925, 1993.
[3] R. Agrawal and R. Srikant, “Fast algorithm for mining association rules,” The International Conference on Very Large Data Bases, pp. 487-499, 1994.
[4] R. Agrawal and R. Srikant, ”Mining sequential patterns,” In 11th IEEE International Conference on Data Engineering, 1995.
[5] R. Agrawal, R. Srikant and Q. Vu, “Mining association rules with item constraints,” The 3th International Conference on Knowledge Discovery in Databases and Data Mining, Newport Beach, California, 1997.
[6] H. Avancini, A. Lavelli, B. Magnini, F. Sebastiani and R. Zanoli, “Expanding
domain-specific lexicons by term categorization,” Proc. of ACM Symposium on Applied Computing, pp. 793 -797, 2003.
[7] C. Buckley and A. F. Lewit, “Optimizations of inverted vector searches,”
SIGIR ’85, pp. 97-110, 1985.
[8] D. R. Cutting, D. R. Karger, J. O. Predersen and J. W. Tukey, “Scatter/Gather: A cluster-based approach to browsing large document collections,” Proc. of the Fifteenth Interntional Conference on Research and Development in Information Retrieval, 318-329, 1992.
[9] D. W. Cheung, J. Han, V. Ng and C.Y. Wong, “Maintenance of discovered association rules in large databases: An incremental updating approach,” In 12th IEEE International Conference on Data Engineering, 1996.
[10] D. W. Cheung, S.D. Lee and B. Kao, “A general incremental technique for maintaining discovered association rules,” In Proceedings of database systems for advanced applications, DASFAA’97, Melbourne, Australia, pp. 185-194, 1997.
[11] F. Debole and F. Sebastiani, “Supervised term weighting for automated text categorization,” Proc. of ACM Symposium on Applied Computing, pp. 784 -788, 2003.
[12] E. H. Han and G. Karypis, ” Centroid-Based Document Classification: Analysis Experimental Results,“ Principles of Data Mining and Knowledge Discovery, 2000.
[13] G. Kowalski, Information Retrieval Systems-Theory and Implementation, Kluwer Academic Publishers, 1997.
[14] X. Long and T. Suel, “Optimized query execution in large search engines with global page ordering,” Proc. of the 29th VLDB Conference, 2003
[15] Y. T. Lin, S. S. Tseng and C. J. Tsai, “The Design and Implementation of a Computer-Assisted Learning Expert System”, Computer Processing of Oriental Languages: An Internal Journal, Vol. 15, No. 1, pp. 33-61, 2002.
[16] Y. K. Lee, S. J. Yoo, K. Yoon and B. Berra, “Index structures for structured documents,” Proc. Digital Library, pp. 91-99, 1996.
[17] H. Mannila, H. Toivonen and A. Inkeri Verkamo, “Efficient algorithm for discovering association rules,” Proceeding AAAI Workshop Knowledge Discovery in Databases, pp. 181-192, 1994.
[18] J. S. Park, M. S. Chen and P. S. Yu “Using a hash-based method with transaction trimming for mining association rules,” IEEE Transactions on Knowledge and Data Engineering, Vol. 9, No. 5, pp.812-825, 1997.
[19] D. W. Shin, H. C. Jane and H. L. Jin, “BUS: An effective indexing and retrieval scheme in structured documents,” Proc. of Digital Libraries, pp. 235-243, 1998.
[20] M. Steinbach, G. Karypis and V. Kumar, “A Comparison of Document Clustering Techniques,” TextMining Workshop, KDD, 2000.
[21] S. Shankar and G. Karyp, “A feature weight adjustment algorithm for document categorization,” Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2000.
[22] S. Shankar and G. Karypis, “Weight adjustment schemes for a centroid based classifier,” Technical report, Dept. of Computer Science and Engineering, University of Minnesota, 2000.
[23] C. J. Tsai, S. S. Tseng, J. R. Cheng and C. T. Chen, “CDM: A Course Directory Manager on e-Learning Systems,” submitted to Information Science: An Internal Journal.
[24] W. C. Wong and W. C. Fu, “Incremental Document Clustering for Web Page Classification,” The IEEE International Conference on Information Society, 2000.
[25] C. Y. Wang, Y. C. Lei, P. C. Cheng and S. S. Tseng, “A Level-wise Clustering Algorithm on Structured Documents,” accepted by National Computer Symposium (NCS), 2003.
[26] Y. Zhao and G. Karypis, “Evaluation of Hierarchical Clustering Algorithms for Document Datasets,” Technical Report #02-22, 2002.
[27] DocBook, DocBook Technical Committee, http://www.oasis-open.org/docbook/.
[28] Dublin Core Metadate Element Set (DEMES), Dublin Core Metadata Initiative, http://dublincore.org/.
[29] Extensible Markup Language (XML), World Web Consortium (W3C), http://ww.w3.org/TR/.
[30] MPEG-7, Moving Picture Experts Group, http://mpeg.telecomitalialab.com/.
[31] Open eBook Publication Structure (OEBPS), Open eBook Forum, http://www.openebook.org/.