• 沒有找到結果。

結論與未來研究方向

本章總結本論文以及說明未來的研究方向,第一節說明本論文提出綜合兩種 索引的方法在實作上的優點及其限制,第二節則說明本論文未來可能的研究發展 方向。

第一節 結論

本篇論文提出一個結合結構化文件索引與語意索引的資訊檢索系統,提供一 個檢索介面供使用者輸入關鍵詞,並藉由關鍵詞相關的語意找出有用的資訊回傳 給使用者。

本文除了應用結構化文件索引,並引入語意索引的概念,利用[Chung99]的 語意檢索技術,將「單純的詞鍵」轉換為「含有語意的概念空間」。並將結構化 文件的結構資訊納入建置語意索引時的考慮,使得結構化文件的特性得以與語意 索引合而為一,將傳統的資訊擷取提升至知識擷取的層次。

本篇論文所提出的方法具有下列特性:

1. 以「語意矩陣」及「概念空間」的觀念代替傳統的關鍵詞檢索,將使用 者輸入的關鍵詞轉換成語意,更容易找出使用者感興趣的資料。

2. 將結構化文件的結構資訊納入語意索引的建置,考慮節點在階層式結構 中的重要程度並賦予不同的權重,讓語意索引的建置可更深入文件內部 的結構化資訊,而不僅止於文件內容。

3. 本文針對中文結構化文件作處理,著重在中文文件之知識擷取。

4. 相對於傳統計算權重的方式,本文考慮詞鍵於元素中出現頻率的索引方 法,不僅能提供文件的元素層(Element Level)權重計算,也能動態且快 速地還原文件本身(Document Level)的權重計算且僅需額外花費極少的 計算時間。

第二節 未來研究方向

本文提出的方法是針對中文結構化文件來作語意索引,語意索引雖然可以利 用「語意矩陣」及「概念空間」的觀念代替傳統的關鍵詞檢索,但在實作方面尚 有些限制。從本文的效益評估中可發現,語意索引相當耗費計算時間,當文件總 數倍增,則建置時間成指數成長,若欲應用在大量文件資料中,則必須配合平行 計算的方法才有可能實現。然在實作的過程中,我們發現可藉由控制詞鍵數目來 減少計算時間。欲控制詞鍵數目則必須在中文斷詞切字方面作更深入的研究,若 能更精確地分析出每一個「真正有意義」的詞鍵,如此即使詞鍵個數減少也不會 影響檢索的查準率。故未來的研究需朝如何更精確地對中文進行斷詞切字的處理 邁進。

此外未來的研究方向亦可在檢索機制中加入相關性回饋(Relevant Feedback) 的功能,利用使用者勾選檢索結果的正確性以自動修正詞鍵間的語意相似性,以 期更有效地找出使用者真正想要的資料。

參考文獻

1. [Bourret00] R. Bourret, C. Bomhovd, and A. Buchmann; “A Generic Load/Extract Utility for Data Transfer Between XML Documents and Relational Databases,” Advanced Issues of E-Commerce and Web-Based Information Systems, 2000. WECWIS 2000. Second International Workshop, 2000, Pages 134-143.

2. [Chow99] Jyh-Herng Chow, Josephine Cheng, Daniel Chang, and Jane Xu;

“Index Design for Structured Documents Based on Abstraction,” 6th International Conference on Database Systems for Advanced Applications, 1999, Pages 89-96.

3. [Chung99] Ming Chung, Qin He, Kevin Powell and Bruce Schatz; “Semantic Indexing for a Complete Subject Discipline,” Proceedings of the fourth ACM conference on Digital libraries , 1999, Pages 39 – 48.

4. [Dao98] Tuong Dao; “An Indexing Model for Structured Documents to Support Queries on Content, Structure and Attributes,” IEEE International Forum on Research and Technology Advances in Digital Libraries, ADL ‘98, 1998, Pages 39 – 48.

5. [Frakes92] William B. Frakes, Ricardo Baeza-Yates, “Information Retrieval, Data Structures & Algorithms” 1992

6. [Grossman98] David A. Grossman, Ophir Frieder, “Information Retrieval:

Algorithms and Heuristics” 1998.

7. [Han99] Sung-Geun Han, Jeong-Han Son, Jae-Woo Chang, and Zong-Cheol Zhoo; “Design and Implementation of a Structured Information Retrieval System for SGML Documents,” Database Systems for Advanced Applications, 1999.

Proceedings., 6th International Conference, 1999, Pages 81-88.

8. [Kowalski97] Gerald Kowalski, “Information Retrieval Systems: Theory and Implementation,” Kluwer Academic Publishers, 1997.

9. [Kasukawa99] Takeya Kasukawa, Hideo Matsuda, Michio Nakanishi, and Akihiro Hashimoto; “A New Method for Maintaining Semi-Structured Data Described in XML,” IEEE Pacific Rim Conference on Communications, Computers and Signal Processing, 1999, Pages: 258 -261.

10. [Lee96] Yong Kyu Lee, Seong-Joon Yoo, and Kyoungro Yoon; “Index Structures for Structured Documents,” Proceedings of the 1st ACM international conference on Digital libraries, 1996, Pages 91-99.

11. [Myaeng98] Sung Hyon Myaeng, Don-Hyun Jang, Mun-Seok Kim and Zong-Cheol Zhoo; “A Flexible Model for Retrieval of SGML Documents,”

Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, 1998, Pages 138-145.

12. [Poullet97] Line Poullet, Jean-Marie Pinon, and Sylvie Calabretto; “Semantic Structuring of documents,” Proceedings of the Third Basque International Workshop on Information Technology, 1997, Pages: 118 -124.

13. [Salton89] Gerard Salton, “Automatic Text Processing: The Transformatio n, Analysis, and Retrieval of Information by Computer,” Addison-wesley publishing company, 1989.

14. [Shin98] Dongwook Shin, Hyuncheol Jang, and Honglan Jin; “BUS: An Effective Indexing and Retrieval Scheme in Structured Documents,”

Proceedings of the third ACM Conference on Digital libraries, 1998, Pages 235 - 243.

15. [Wilkinson94] Ross Wilkinson; “Effective Retrieval of Structured Documents,”

Proceedings of the 17th ACM SIGIR conference, 1994, Pages: 311-317.

16. [Wolff00] Jens E. Wolff, Holger Florke, and Armin B. Cremers; “Searching and Browsing Collections of Structural Information,” IEEE Proceedings of Advances in Digital Libraries, 2000, Pages: 141-150.

17. 簡立峰; “中英文全文檢索技術及簡介,” 國立成功大學圖書館館訊, 82, 頁 1-12.

18. 陳偉星; “應用短字串索引在中英文全文資料檢索之研究,” 大葉學報, 81, 頁 161-173.

19. 王良志, 貝子勝, 黎偉權, 黃麗傾; “以剖析為導向的中文斷詞法,“ 電腦軟體 技術專刊, 80, 頁 40-45.

相關文件