• 沒有找到結果。

實驗結果與分析

「從前往後」的正確率偏低的原因是,當文章內容出現多個與指代詞相關的描述時,

最接近指代詞的描述句才是正確的答案,如下例。其中 C9 小句出現指代詞「問題」,答 案是 C7 小句。若「從前往後」進行指代消解時,會先找到 C5 小句,但該小句並非是 指代詞所指示的對象。

例:C1:至於資金方面,

C2:謝森中則表示,

C3:由於全球性資金緊俏,

C4:利率上揚是無法避免的趨勢,

C5:但為了顧及國內產業融資問題,

C6:央行將維持現行適度寬鬆的貨幣政策。

C7:

至於外傳央行與立委們將在會中討論中央銀行改隸總統府一事

, C8:謝森中則表示,

C9:餐會中並沒有討論這個問題,

使用「單一小句」所建立的分類器其正確率比其它分類器好,它的長句符合正確率 是 68.46,而它的小句正確率偏低的原因是,候選小句的詞彙與指代小句的詞彙之間沒 有關聯,如下例,其中 C1 到 C5 是 C6 的參照對象。

例:C1:

中華奧會之所以打算走向結合企業的發展,

C2:

主要希望能以民間團體的性質,

C3:

改變奧會的體質,

C4:

大力推動體育休閒的正當社會風氣,

C5:

提供較多的選手和教練就業和福利 ,

C6:目前這個方案正在策畫階段…。

候選小句 C5「提供較多的選手和教練就業和福利」與指代小句 C6「目前這個方案

正在策畫階段」二者的詞彙沒有關聯。而候選小句 C4「大力推動體育休閒的正當社會風 氣」的詞彙「社會」與「風氣」與指代小句 C6 的「階段」在同義詞詞林的相同類別、

候選小句 C4 的「社會」詞彙是文章的高頻詞之一、候選小句 C4 的「推動」詞彙是搜尋 結果的高頻之一,因此 C4 被選為答案。但 C5 也是答案之一,所以在此例中只有長句符 合。

使用「單一長句」所建立的分類器是將參照對象以一個長句為單位,所以當實際的 參照對象只是一個名詞片語時,會包含太多不相關的詞彙,使得辨識率大為降低。

使用「先小句後長句」所建立的二個分類器,其辨識正確率只有 36%左右的原因是,

沒有辨法判斷指代詞回指的參照對象類型是小句或長句。若參照對象類型是長句,當小 句分類器辨識出小句正例,即使小句正例在長句答案範圍內,仍算是錯誤。

權重計分法比單一小句分類器佳的原因是權重計分法會撰擇出與指代詞最相關的 句子,而分類器只能判斷相關或不相關,如下例。

例:C1:PC基礎課程深獲同仁迴響將再度開課‧中心日前舉辦的PC基礎課程如 何熟悉及操作您的PC?

C2:深獲同仁熱烈迴響,

C3:謹在此向各位使用者致謝。

C4:然在感謝之餘,

C5:

中心亦警覺到PC基礎課程的重要性

C6:

故預計於下年度(83上半年再次開設相同的課程)

, C7:以滿足同仁的需求。

C8:這次PC基礎課程一系列的講座,

權重計分方法找到得到最高的 C6 小句,C6 小句的「課程」符合部分詞彙特徵、C6 小句的「課程」是文章高頻詞之一。而分類器會先找到 C7 小句並視為正例,原因是 C7 小句的「同仁」是高頻詞之一。C6 和 C5 小句也是分類器的正例。

分類器方法與特徵權重方法都判斷錯誤的情況是,報導性質文章會論述到人名、疾

其中「這種話」指的是前面的「天才是九十九分的努力加一分的才氣」。或者是如「在 大清帝國這個時代中..」,其中「這個時代」指的是「大清帝國」。

第四章 第四章 第四章

第四章 結論與未來工作 結論與未來工作 結論與未來工作 結論與未來工作

本論文研究二種不同方法來消解抽象名詞指代,利用不同的參照對象建立分類器來 處理抽象名詞指代會遇到的問題。經實驗數據分析顯示,以權重計分法在處理抽象名詞 指代時,可以得到較好的消解結果。

分析成果與貢獻如下:

1. 建立抽象名詞指代語料

2. 分析抽象名詞的參照對象類型

3. 利用自動化特徵擷取方式消解抽象名詞指代

後續研究有以下幾種方向:

1. 分析文章結構:將文章的內容依照主題與次主題建立出樹狀結構,此方法 可以改善候選參照對象的邊界問題。

2. 加入句法結構特徵:使用中文剖析樹找出詞彙的句法位置,如主詞、受詞 或附屬小句位置。將這些特徵應用於分類器上,增加指代詞回指名詞片語的辨識正 確率。

3. 提升名物化動詞辨識率:使用規則方式並無法辨識出所有名物化動詞情形,

導致無法辨識出真正的指代詞。

4. 提升指代詞辨識率:我們在擷取指代詞時發現當指代詞前出現子句時,有 限狀態機並無法正確擷取出指代詞。因此使用剖析樹判斷出子句可以幫助我們提升 辨識率。

參考

Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm, 2001.

[3] Renata Vieira, Susanne Salmon-Alt, Emmanuel Schang, “Multilingual Corpora Annotation for Processing Definite Descriptions”, In Proceedings of the Third International Conference on Advances in Natural Language Processing(PORTAL ), Faro, Portugal, LNAI 2389, pp. 249-258, June 2002.

[4] 熊學亮,劉東虹,”論証文中抽象實體的回指研究”,四川外海學院學報,第 23 卷

[7] Donna K. Byron, “Resolving Pronominal Reference to Abstract Entities”, In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL'02), pp.

80-87, 2002.

[8] Nicholas Asher, Reference to abstract objects in discourse, Kluwer Academic Publisher, 1993.

[9] Massimo Poesio, Tomonori Ishikawa, Sabine Schulte im Walde, Renata Vieira,

“Acquiring Lexical Knowledge for Anaphora Resolution”, In Proceedings of the 3RD Conference on Language Resource and Evaluation(LREC), Las Palmas, May 2002.

[10] Michael Strube, Stefan Rapp, Christoph Muller, “The Influence of Minimum Edit Distance on Reference Resolution”, In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Philadelphia, Penn., 6-7, pp. 312-319, July 2002.

[11] Razvan Bunescu, “Associative Anaphora Resolution: A Web-Based Approach”, In Proceedings of EACL 2003 workshop on The Computational Treatment of Aanphora, Budapest, pp. 47-52, 2003.

[12] Gasperin Caroline and Vieira Renata, “Using Word Similarity Lists for Resolving Indirect Anaphora”, In Proceedings of Association for Computational Linguistics Workshop on Reference Resolution and its Applications, pp. 40-46, 2004.

[13] Massimo Poesio, Rahul Mehta, Axel Maroudas, Janet Hitzeman, “Learning to Resolve Bridging References”, In Proceedings of Annual Conference for Association of Computational Linguistics, pp. 143-150, 2004.

[14] Michael Strube, Christoph Müller, “A Machine Learning Approach to Pronoun Resolution in Spoken Dialogue”, In Proceedings of the 41st Annual Meeting of Association for Computational Linguistics(ACL), pp. 168-175, 2003.

[15] Costanza Navarretta, “Resolving Individual and Abstract Anaphora in Texts and Dialogues”, In Proceedings of the 20th International Conference of Computational Linguistics (COLING), Geneva, Switzerland, pp. 233-239, 2004.

[16] Donna K. Byron, James F. Allen, “Resolving Demonstrative Anaphora in the TRAINS93 Corpus”. In New Approaches to Discourse Anaphora: Proceedings of the Second Colloquium on Discourse Anaphora and Anaphor Resolution (DAARC2), pp. 68-81, 1998.

[17] Miriam Eckert, Michael Strube, “Dialogue Acts, Synchronizing Units and Anaphora Resolution”, Journal of Semantics 2000, 17, pp. 51-89, 2000.

[18] Christoph Muller, Stefan Rapp, Michael Strube, “Applying Co-Training to Reference Resolution”, Porceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, pp352-359, July 2002.

[19] 馬偉雲,”中文動詞名物化判斷的統計式模型設計”,ROCLING XVIII: Conference on Computational Linguistics and Speech Processing (ROCLING), Hsinchu, Taiwan, 2006。

[20] 中央研究院詞知識庫小組,技術報告 9305:中文詞類分析-第三版,1993。

[21] 游基鑫,“中文資訊擷取環境建構與同指涉問題之研究”,台灣大學,碩士論文,

2000。

[22] Tyne Liang, Shan-Chun Pan, Kwan-His Chen, “Sentence-based Topic Identification and Its Applications in Chinese Texts”, National Computer Symposium, Taipei, Taiwan, 2009.

[23] 梅家駒, 竺一鳴, 高蘊琦, 殷源翔,同義詞詞林,臺灣東華書局股份有限公司,1997 年 3 月。

相關文件