5.1 結論
本論文提出多種模型來處理跨領域翻譯問題,包括加入從譯後編輯資料取得 的新翻譯規則、從網路取得相關領域訓練語料庫、使用虛擬雙語語料庫做非監督/
半監督式學習來訓連統計式翻譯系統、以不同大小的虛擬雙語語料庫當做訓練資 料等。模型中表現最佳的是加入從譯後編輯取得的翻譯規則,並以挑選過的虛擬 雙語語料庫訓練統計式翻譯的M16,其 BLEU 分數為 40.71,和原本的簡化翻譯還 原系統(28.03)以及使用譯後編輯調適資料的 M11 (39.72)的 BLEU 分數相比,其差 距皆為顯著(p<0.05)。
經過分析翻譯結果,我們發現使用挑選過的虛擬雙語語料庫能夠有效的降低 歧義性錯誤,而加入從譯後編輯取出的翻譯規則亦能改善歧義性錯誤,此二種方 法使用前和使用後的BLEU 分數差異皆為顯著(M16 和 M15 比,M13 和 M3 比),
證明了這兩種方法的效果。
5.2 未來研究方向
本論文中提出了加入新翻譯規則和虛擬雙語語料庫以改進簡化翻譯還原架構 的方法,但仍有一些方向可供未來繼續研究。在從譯後編輯取出新翻譯規則時,
我們只抽取2~5-gram 長度的翻譯規則,如此一來就無法取得超過 5-gram 的翻譯規 則。另外從表22 中也可發現,我們從譯後編輯取出的新規則對改善順序的幫助不
50
大(錯誤率只從 18%降為 17%),未來若想有效的改善順序錯誤,或許需要從譯後編 輯資料中抽取其他的有用的資訊來幫助改善翻譯,包括抽取更長(超過 5-gram)的翻 譯規則,或是專門抽取調整翻譯順序的規則。我們在論文中嘗試使用虛擬雙語語 料庫改善翻譯結果,但最佳的模型仍有 23%的翻譯會有歧義性錯誤,若想持續改 進簡化翻譯還原架構,或許可加入其他的方法來改善歧義性問題,例如使用資訊 索(information retrieval)的方法來選取領域相關的訓練資料,或是以其他的方法來 挑選翻譯,以產生較佳的虛擬雙語語料庫。另外關於調適資料,在實驗中我們使 用了200 句的譯後編輯資料做為調適資料,其餘部分做為 M2 的語言模型訓練資料,
在實驗結果中M2 沒有比 M1 好,但我們沒有再繼續探究如何分配調適資料和語言 模型訓練資料的比例,更適當的分配比例或許可得到更佳的效果,這也可做為未 來的研究內容。
51
參考文獻
Bertoldi, N. and Federico, M. (2009). Domain adaptation for statistical machine translation with monolingual resources. In Proceedings of the Fourth Workshop on Statistical Machine Translation, pages 182–189.
Brown, P. F., Pietra, S. A. D., Pietra, V. J. D., and Mercer, R. L. (1993). The mathematics of statistical machine translation. Computational Linguistics, 19(2):263–313.
Chen, H.B., Huang, H.H., Tjiu, J., Tan, C.T. and Chen, H.H. (2011). Identification and translation of significant patterns for cross-domain SMT applications. In Proceedings of Machine Translation Summit XIII, pages 277–284.
Chen, H.B., Huang, H.H., Tjiu, J., Tan, C.T. and Chen, H.H. (2012). A statistical medical summary translation system. Proceedings of 2012 ACM SIGHIT International Health Informatics Symposium, January 2012, 101-110.
Chen, H.B., Huang, H.H., Chen, H.H. and Tan, C.T. (2012). A simplification-translation-restoration framework for cross-domain SMT applications. In Proceedings of COLING 2012, pages 545–560.
Civera, J. and Juan, A. (2007). Domain adaptation in statistical machine translation with mixture modelling. In Proceedings of the Second Workshop on Statistical Machine Translation, pages 177–180.
Eck, M., Vogel, S. and Waibel A. (2004). Language model adaptation for statistical machine translation based on information retrieval. In Proceedings of the International Conference on Language Resources and Evaluation (LREC), pages 327–330.
Foster, G. and Kuhn, R. (2007). Mixture-model adaptation for SMT. In Proceedings of
52
the Second Workshop on Statistical Machine Translation, pages 128–135.
Hildebrand, A. S., Eck, M., Vogel, S. and Waibel, A. (2005). Adaptation of the translation model for statistical machine translation based on information retrieval.
In Proceedings of the 10th Conference of the European Association for Machine Translation (EAMT), pages 133–142.
Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M., Bertoldi, N., Cowan, B., Shen, W., Moran, C., Zens, R., Dyer, C., Bojar, O., Constrantin, A., and Herbst, E. (2007). Moses: Open source toolkit for statistical machine translation. In Proceedings of ACL 2007, Demonstration Session, pages 177–180.
Koehn, P., Och, F. J. and Marcu, D. (2003). Statistical phrase-based translation. In Proceedings of HLT-NAACL 2003, pages 127–133.
Marcu, D. and Wong, W. (2002). A phrase-based, joint probability model for statistical machine translation. In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 133–139.
Och, F. J. (2003). Minimum Error Rate Training in Statistical Machine Translation. In Proceedings of ACL 2003, pages 160–167.
Papineni, K., Roukos, S., Ward, T. and Zhu, W. (2002). BLEU: a method for automatic evaluation of machine translation. In Proceedings of ACL 2002, pages 311–318.
Schwenk, H. (2008). Investigations on Large-Scale Lightly-Supervised Training for Statistical Machine Translation. In Proc. of the International Workshop on Spoken Language Translation, pages 182–189.
Schwenk, H. and Senellart, J. (2009). Translation model adaptation for an Arabic/French news translation system by lightly-supervised training. In MT Summit.
Ueffing, N. (2006). Using monolingual source language data to improve MT
53
performance. in IWSLT, pages 174–181.
Ueffing, N., Haffari, G. and Sarkar, A. (2007). Transductive learning for statistical machine translation. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pages 25–32.