• 沒有找到結果。

第九章 結論與未來展望

9.2 未來與展望

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

72

本研究分別使用資訊考慮程度不同的十種公式,建立針對英漢對列動名詞組 合中的英文動詞與名詞推薦中文翻譯詞彙的模型。我們的實驗結果顯示,在專利 平行文句語料庫和科學人雜誌英漢對照電子書中,考慮資訊較多的公式翻譯模型 所提供的推薦翻譯較為準確,但是推薦答案平均只有辦法推薦一個,且有答題拒 絕率的問題;而資訊考慮條件最為寬鬆的公式(4)及公式(9)都能推薦超過五位以 上的推薦翻譯人選,因此公式組合協同推薦的翻譯模型能結合不同公式的優勢而 有不錯的翻譯表現。

我們也設計了三項實驗讓受詴者參與,並將受詴者的答題正確率與我們使用 公式(1)建立的翻譯模型表現比較。三項實驗分別提供了十道相同題目,但是不 同實驗的題目含有不同的資訊程度,並要求受詴者將題目中的英文動詞根據我們 提供的選項挑選出合適的中文翻譯,或是不提供選項要求受詴者直接填寫答案。

本研究控制這三項實驗的受詴者只能參加其中一項實驗而不得重複參加其他實 驗,因此三項實驗共有 52 個受詴者參與。根據三項實驗發現,提供作答選項的 實驗一及實驗三受詴者的平均答題正確率比較高,而當我們不提供答案選項而要 求受詴者直接填寫答案時,實驗二的平均答題正確率為三項實驗中最低,可見即 便是人為也很難猜到真正的答案。三項實驗相比,我們的翻譯模型都能贏過受詴 者的平均表現。

9.2 未來與展望

在處理語料的部分,我們的技術名詞表需要作更多改善得到更精確的技術名詞,

降低文句被錯誤斷詞而導致被錯誤剖析的機會。而在剖析文句得到的關係樹結 構,我們也認為需要加強,增加正確剖析關係樹結構的數量,並擴張英漢動名詞 組合數。由於我們使用的兩套語料都含有技術名詞,因此若採用不含技術名詞的

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

73

一般文本作類似的分析,我們也好奇翻譯模型的翻譯效果會不會有所差異,可以 更進一步比較。另外,本研究著重於英漢動名詞組合之間詞彙翻譯關係,除了考 慮英文及中文,如果有翻譯品質良好、數量豐沛的平行雙語語料,我們也可以觀 察各國語言與中文的對應用法。我們的研究提供了對於英漢專利平行文句語料庫 及科學人雜誌英漢對照電子書的分析及相關實驗結果,嘗詴發掘語言之間的特定 關係;我們的系統可以根據不同的翻譯模型推薦英文動詞或名詞的中文翻譯,可 用於輔助教學用途,期望對於語言相關學習能有所幫助及成效。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

74

參考文獻

[1] Alexander Budanitsky and Graeme Hirst, Evaluating WordNet-based Measures of Lexical Semantic Relatedness. Association for Computational Linguistics, 32(1), 13-47, 2006.

[2] Yu-Chia Chang, Jason S. Chang, Hao-Jan Chen, and Hsien-Chin Liou. An Automatic Collocation Writing Assistant for Taiwanese EFL Learners: A Case of Corpus-based NLP Technology. Computer Assisted Language Learning, 21(3), 283-299, 2008.

[3] Wenliang Chen, Jun’chi Kazama and Kentaro Torisawa, Bitext Dependency Parsing with Bilingual Subtree Constraints. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 21-29, 2010.

[4] Concise Oxford English Dictionary。

http://startdict.sourceforge.net/Dictionaries_zh_TW.php [連結已失效]

[5] Dr.eye 譯典通。http://ajds.nsysu.edu.tw/learn/dict/ [Last visited on 15 June 2011]

[6] E-HowNet 。

http://ckip.iis.sinica.edu.tw/taxonomy/taxonomy-doc.htm

[Last visited on 15 June 2011]

[7] Google。http://www.google.com.tw/ [Last visited on 15 June 2011]

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

75

[8] Google Patents beta。http://www.google.com/patents [Last visited on 15 June 2011]

[9] HowNet。http://www.keenage.com/html/c_index.html [Last visited on 15 June 2011]

[10] Jia-Yan Jian, Yu-Chia Chang, and Jason S. Chang, TANGO: Bilingual Collocational Concordancer. Proceedings of ACL on Interactive poster and demonstration sessions, 2004.

[11] Bin Lu, Benjamin K. Tsou, Tao Jiang, Oi Yee Kwong and Jingbo Zhu, Mining Large-scale Parallel Corpora from Multilingual Patents: An English-Chinese Example and Its Application to SMT. Proceedings of the First CIPS-SIGHAN Joint Conference on Chinese Language Processing, 2010.

[12] Michael Gamon, Jianfeng Gao, Chris Brockett, Alexander Klementiev, William Dolan, Dmitriy Belenko, and Lucy Vanderwende, Using Contextual Speller Techniques and Language Modeling for ESL Error Correction. Proceedings of the International Joint Conference on Natural Language Processing, 2008.

[13] Patent Translation Task at NTCIR-9 。

http://ntcir.nii.ac.jp/PatentMT/

[Last visited on 15 June 2011]

[14] Stanford Chinese Segmenter。http://nlp.stanford.edu/software/segmenter.shtml [Last visited on 15 June 2011]

[15] Stanford Parser。http://nlp.stanford.edu/software/lex-parser.shtml [Last visited on 15 June 2011]

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

76

[16] Sriam Venkatapathy and Aravind K. Joshi, Measuring the Relative Compositionality of Verb-noun (V-N) Collocations by Integrating Features.

Proceeding of Human Language Technology Conference on Empirical Methods in Natural Language Processing, 899-906, 2005.

[17] WordNet。http://wordnet.princeton.edu/ [Last visited on 15 June 2011]

[18] Xing Yi, Jianfeng Gao and William B. Dolan, A Web-based English Proofing System for English as a Second Language Users. Proceedings of the Third International Joint Conference on Natural Language Processing, 619-624, 2008.

[19] XML。http://www.w3schools.com/xml/default.asp [Last visited on 15 June 2011]

[20] Shoichi YOKOAMA and Masumi OKUYAMA, Translation Disambiguation of Patent Sentences using Case Frames. Machine Translation Summit XII WS7:

Third Workshop on Patent Translation, 33-36, 2009

[21] 一詞泛讀。http://elearning.ling.sinica.edu.tw/c_help.html [Last visited on 15 June 2011]

[22] 中央研究院中文斷詞系統。http://ckipsvr.iis.sinica.edu.tw/ [Last visited on 15 June 2011]

[23] 田侃文,英漢專利文書文句對列與應用,國立政治大學資訊科學所,碩士論

文,2009。

[24] 科 學 人 雜 誌 英 漢 對 照 電 子 書 。

http://edu2.wordpedia.com/taipei_sa/

[Last visited on 15 June 2011]

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

77

[25] 國家教育研究院學術名詞資訊網。

http://terms.nict.gov.tw/download_main.php

[Last visited on 15 June 2011]

[26] 曾元顯,劉昭麟,莊則敬,專利雙語語料之中、英對照詞自動擷取,第二十

一屆自然語言與語音處理研討會,279-292,2009。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

78

附錄Ⅰ 口詴問題紀錄

問題與答案紀錄

Q1. 圖 4.2 中講解 E-HowNet 架構是否改以「混亂」等詞說明,以和前面 的講述範例一致?

A1. E-HowNet 中「混亂」等詞的定義都沒有「和鳴」一詞的定義來的完 整,為了能詳細描述 E-HowNet 架構,因此本研究選擇使用「和鳴」

一詞講解。

Q2. 動名詞組合已有包含技術名詞,直接進行 pattern matching 即可,為 何還需要針對名詞建置翻譯模型?

A2. 本研究使用的動名詞組合皆已排除技術名詞在外。本研究主要利用專 利文句排除技術名詞之剩餘部分,探討一般常用的英漢動名詞組合翻 譯情形。第三章技術名詞標記是為了能將技術名詞排除,以讓剖析器 能正確剖析文句。本研究所列出的前一百名高頻名詞皆為一般名詞,

沒有技術名詞在內。

Q3. 抽取關係樹中的動名詞組合如何能確定動詞與名詞之間的位置?例 如「pill taking」會否表示成 dobj(pill, taking)?

A3. Stanford Parser 對於關係樹的標示是固定的,一定是動詞在前、名詞 在後,形成 dobj(verb-number1, noun-number2)的形式;number1 和 number2 即為記錄動詞與名詞在句子中的出現位置。

Q4. 公式(1)其實可以比擬成 n 比較大的 n-gram,是否有探討資料 sparse 的部分?

A4. 對於每個公式本研究都有列出其答題拒絕率,而公式(1)有最高的拒 絕率,能解釋資料稀疏的問題。

Q5. 為何沒有記錄學生錯誤的資料庫,以校正學生錯誤?

A5. 本研究不是針對學生寫作錯誤提出的校正系統。本研究主旨為從大量 正確對應的英漢語料中嘗詴挖掘常被運用的正確用法及其常用的翻 譯對照。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

79

問題與答案紀錄

Q6. 公式(1)到公式(4)是為 smoothing,為何不使用係數調整各公式權重?

A6. 公式(1)到公式(4)並非為 smoothing 過程,它們是獨立的公式。本研究 旨在評比各翻譯模型的翻譯成效,公式組合主要是讓公式能協同推 薦。

Q7. 訓練與測詴資料分割的比重為何?論文是否有提及?

A7. 8:2,在論文內文有描寫清楚。

Q8. 受詴者實驗中,提供給受詴者的答案選項都很像,是否因為這個原因 才造成圖 8.5 的受詴者表現趨勢?

A8. 本研究提出讓受詴者回答的十道題目皆從科學人語料抽取而來,而每 道題目皆只有一個答案,其他誤導答案也是針對該英文動詞在科學人 語料中對應到的其他中文翻譯。本研究的翻譯模型便是面對如此的情 況,因此設計讓受詴者面臨一樣的狀況以比較翻譯成效。BLEU 指標 也是如此運算,只有正確答案是唯一的答案,這是我們設計實驗的目 的。

Q9. 公式(1)可用於何處?

A9. 已於論文第 36 頁內容補充。對公式(1)最直覺的解釋為:若有一英文 使用者在學習中文,他想把「take pills」翻譯成中文,但是他只確定

「pills」可以翻譯為「藥」,則我們的公式(1)可以透過這三個詞彙的 資訊,在語料中觀察「take」跟「pills」一貣使用且「pills」對應到「藥」

時,「take」容易被翻譯成什麼中文詞彙;如果從相反的角度解釋,

則為一個中文使用者想練習英文,但是他不確定「吃藥」的「吃」該 翻譯為「take」或是「eat」,但是他知道「藥」可以翻譯為「pills」,

則公式(1)可以在語料中觀察「take pills」和「eat pills」跟「藥」組合 在一貣時哪一個的次數較多,且在公式(1)找到的中文翻譯中可以比 對到「吃」這個詞彙,進而讓使用者知道使用「take pills」才是正確 的用法。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

80

問題與答案紀錄 Q10. 公式(4)的翻譯原理並不合常理?

A10. 公式(4)的主要功能為與其他公式進行協同推薦。如論文第 43 頁所描 述:因為跟公式(4)搭配的公式如果有回答不出來的時候,公式(4)可 以補上答案,或是當搭配的公式回答的並不是正確答案時,因為協同 推薦答案不得重複的設定可以讓公式(4)更有機會補上正確解答。

Q11. 為何不使用其他不含技術名詞的語料?專利文句寫作模式是固定的。

A11. 其他語料數量並不夠多。我們想驗證專利文句排除技術名詞部分是否 能有良好的參考價值,這是目前還沒有人嘗詴過的。