• 沒有找到結果。

本章總結本論文並說明未來的研究方向。第一節討論本論文提出的知識本 體鏈應用在跨語言資訊檢索系統的效益、優點和限制;第二節說明未來可能的 研究方向。

第一節 結論

本論文提出了一個跨語言資訊檢索系統的架構,並且針對ImageCLEF2004 的資料集實作跨語言資訊檢索系統,使用者可以使用中文檢索問句檢索資料集 中的照片以及英文照片說明。對於跨語言資訊檢索系統中會出現歧義性的問 題,使用中英字典為本的斷詞方法解決斷詞歧義性,並且提出一個利用知識本 體鏈解析翻譯歧義性的方法。實驗得知,本論文的方法在高度翻譯歧義性的狀 況下可以達到很好的效能,並且可以比單語言檢索系統高出30%,比字典比對 高出 35%;在低度翻譯歧義的環境下表現稍差,比字典比對低 5%左右;所有 狀況的平均可以達到單語言檢索系統的81%效能。將跨語言檢索系統運用於英 國聖安德魯大學圖書館的照片館藏,顯示跨語言資訊檢索系統可以應用到數位 典藏領域,幫助使用者跨越語言的藩籬。

第二節 未來研究方向

跨語言資訊檢索系統中主要有三個模組可能隱含歧義性問題:中文斷詞模 組,檢索問句翻譯模組以及文件索引模組。中文斷詞模組的歧義性問題使用中 英字典為本的斷詞方法解決;翻譯模組的歧義性問題使用知識本體鏈的方法解 決,但是對於文件索引模組的歧義性問題由於在ImageCLEF2004 資料集和查詢 主題集影響不大,本論文沒有針對這方面做改良。但是當查詢過短時,解析詞

鍵的歧義性就相當重要。例如bank 有銀行和河岸的意思,當檢索問句是「銀行 領錢」時,翻譯成英文後可以判斷「bank」和「money」的關係來解析語意,

這在本論文的跨語言檢索系統中可以達成。但是當檢索問句只有「銀行」兩字,

翻譯過後「bank」沒有任何前後文當語境,這時就需要靠語意索引,這是未來 值得研究的主題。

目前本論文使用的單語言資訊檢索系統中,以使用詞鍵對文件的關係作為 向量空間的元素,也就是詞鍵是用來作為索引的單位。但是要加入語意索引必 須把每個字的意思視為不同,當「machine」有五個意思時,必須將五個意思視 為不同的元素作索引,換句話說,「machine」的第一個意思和「machine」第二 個意思雖然是相同的字但是由於意思不同,視為不同的字,因此會有兩個不同 的元素,可以解決索引時的詞鍵歧義性。對每個字的所有語意作索引是未來值 得研究的方向。

參考文獻

[Ballesteros98] L. Ballesteros and W.B. Croft, “Resolving ambiguity for cross language retrieval,” Proc. 21st annual international ACM SIGIR conference on Research and development in information retrieval, pp.64-71, 1998.

[Barzilay97] R. Barzilay and M. Elhadad, “Using Lexical Chains for Text Summarization,” ACL/EACL Workshop on Intelligent Scalable Text Summarization, 1997.

[Carbonell97] J. Carbonell, Y. Yang, R. Frederking, R.D. Brown, Y. Geng, and D.

Lee, "Translingual Information Retrieval: A Comparative Evaluation," Proc.

Fifteenth International Joint Conference on Artificial Intelligence Vol 1, pp.

708-715, 1997.

[Chen02] H.H. Chen, C.C. Lin and W.C. Lin, “Building a Chinese-English wordnet for translingual applications,” ACM Transactions on Asian Language

Information Processing vol. 1, Issue 2, pp.103-122, 2002.

[CLEF04] Cross Language Evaluation Forum, avalible at http://clef.iei.pi.cnr.it:2002/2004.html

[Frakes92] W.B. Frakes, R. Baeza-Yates, Information Retrieval, Data Structures &

Algorithms. Prentice Hall, 1992.

[Fung98] P. Fung, L.Y. Yee, ”An IR Approach for Translating New Words from Nonparallel, Comparable Texts,”Proc. of the 36th Annual Conference of the Association for Computational Linguistics, pp. 414-420, 1998.

[Gruber93] T. R. Gruber, “A translation approach to portable ontologies,”

Knowledge Acquisition, pp. 199-220, 1993

[ImageCLEF04] Cross Language Evaluation Forum, avalible at http://ir.shef.ac.uk/imageclef2004/

[Kipfer01] B.A. Kipfer and R. L. Chapman, Roget's International Thesaurus. , HarperResource, 2001.

[Larkey03] L.S. Larkey and M.E. Connell, “Structured Queries, Language Modeling, and Relevance Modeling in Cross-Language Information Retrieval,”

Information Processing and Management Special Issue on Cross Language Information Retrieval, 2003.

[Littman98] M.L. Littman, S.T. Dumais, and T.K. Landauer,“Automatic cross-language information retrieval using latent semantic indexing,”

Cross-Language Information Retrieval, pp. 51–62, 1998.

[Lu02] W.H. Lu, L.F. Chien and H.L. Lee, “Translation of web queries using anchor text mining,” ACM Transactions on Asian Language Information

Processing ,Vol 1, Issue 2, pp.159-172, 2002

[Miller95] G. Miller, "Wordnet: A Lexical Database for English,” Proc. of Communications of CACM, 1995.

[Miller99] D.R.H. Miller, T. Leek, R.M. Schwartz, ”A hidden Markov model information retrieval system,” Proc. of the 22nd annual international ACM SIGIR conference on Research and development in information, pp. 214-221, 1999.

[Nie99] J.Y. Nie, M. Simard, P. Isabelle and R. Durand , ”Cross-Language Information Retrieval Based on Parallel Texts and Automatic Mining of Parallel Texts from the Web,” Proc. of the 22nd annual international ACM SIGIR conference on Research and development in information, pp. 74-81, 1999.

[Porter80] M. F. Porter, “An algorithm for suffix stripping,” Program, Vol. 14, No. 3, pp. 130-137, 1980

[Rocchio71] J. Rocchio, “Relevance Feedback in Information Retrieval,”

Prentice-Hall, Inc., 1971.

[Salton83] G. Salton and M. J. McGill, “Introduction to Modern Information Retrieval , “ McGraw-Hill, 1983

[Savoy03] J. Savoy ,”Cross-language information retrieval: experiments based on CLEF 2000 corpora,” Information Processing & Management ,Vol. 39, Issue 1, pp. 75-115, 2003.

[Trajan75] R.E. Tarjan, “Efficiency of a Good But Not Linear Set Union Algorithm,” Journal of the ACM, Vol 22, Issue 2, pp. 215-225, 1975.

[Xu01] J. Xu, R. Weischedel, and C. Nguyen, ”Evaluating a probabilistic model for cross-lingual information retrieval,” Proc. 24th annual international ACM SIGIR conference on Research and development in information retrieval , pp.

105-110, 2001

[Zhang02] Y. Zhang and P. Vines, “Improved use of Contextual Information in Cross-language Information Retrieval,” ACDS, 2002.