第七章 結論與未來展望
7.2 未來展望
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
能。另外由實驗結果可發現,在訓練斷詞模型時未加入辭典的情況下,有利用英漢翻譯 資訊處理交集型歧異或有加入未知詞與中英詞對的結果之斷詞效能都能提升。而在訓練 斷詞模型時加入辭典的情況下,可能因為受到加入的未知詞與辭典詞彙衝突的情況影 響,導致加入未知詞與中英詞對的結果之斷詞效能並沒有都優於未加入未知詞與中英詞 對的結果之斷詞效能。我們也評估訓練斷詞模型時加入辭典對斷詞效能的影響,而實驗 結果顯示訓練斷詞模型時加入辭典不一定能夠提升斷詞效能。
因為使用人工斷詞測試語料進行評估可能會因為斷詞者之斷詞正確率與斷詞者之 斷詞標準不同於斷詞系統的標準而影響到評估之準確度,所以本研究另外進行了以漢英 翻譯的翻譯品質評估斷詞效能之實驗,藉由翻譯品質去間接地評估我們的系統的斷詞效 能。本實驗之實驗語料是科學文章類型之科學人、C300、C220 與新聞文章類型之新聞 語料與會話文章類型之廣播會話語料。由實驗結果可以發現,在 4 種實驗語料的結果中,
我們的系統之最佳翻譯品質都略差於其他斷詞系統或斷詞模型中的最佳翻譯品質,我們 覺得這間接顯示了我們的系統可以有一定的斷詞效能。另外分析了各實驗結果之翻譯品 質後,我們發現利用英漢翻譯資訊處理交集型歧異或加入未知詞與中英詞對不一定能提 升斷詞效能,以及訓練斷詞模型時加入辭典不一定能夠提升斷詞效能。
7.2 未來展望
在辭典模組的部分,我們希望能蒐集到更多專業辭典(如醫學辭典、地名辭典等),以 提升對某特定領域語料的斷詞效能及對專有名詞的斷詞正確率。而除了利用英漢翻譯資 訊處理交集型歧異外,若也能利用英漢翻譯資訊處理組合型歧異,相信能對斷詞效能的 提升有所幫助。
在擷取中英詞對的方面,因為我們利用可能性比例、共現頻率對候選中英遺留詞對 進行篩選的效果並不是很好,所以或許能探討利用一個以上的分析公式(例如可能性比
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
例、點互訊息(pointwise mutual information)、相關係數(correlation coefficient)等公式) 加上共現頻率來進行篩選的效果,是否能比僅利用可能性比例、共現頻率進行篩選的效 果來得好。此外或許也可以利用一些專有名詞辨識(named entity recognition)的軟體工 具來辨識出是專有名詞的英文遺留字詞或候選中文遺留字詞後,再以可能性比例、共現 頻率等作為輔助的資訊對候選中英遺留詞對進行篩選,如此或許可提升篩選的效果。
在利用詞性序列規則篩選候選中文遺留字詞時,目前較難篩選出長度較長的一些中 文專有名詞或構詞結構較多變化的地名、組織名等詞彙。如果在利用詞性序列規則進行 篩選時,同時以「山」、「社」等關鍵字來判斷詞彙是否為地名或組織名,或許能篩選出 較多的地名、組織名。另外因為取得詞性序列規則前需要先對中文語料、候選中文遺留 字詞標注詞性,故詞性標注的準確率可能會影響篩選候選中文遺留字詞的效果;所以除 了使用史丹佛剖析器進行詞性標注外,或許也可以使用其他剖析器(如伯克利剖析器 (Berkeley Parser))去進行詞性標注,以分析利用不同的剖析器進行詞性標注是否會對篩 選候選中文遺留字詞的效果造成影響。
在實驗中我們共使用科學文章、新聞文章、會話文章類型這三種不同領域的中英平 行語料進行實驗,如果可以取得更多不同領域的大量中英平行語料,我們就能夠更全面 性地評估我們的系統的斷詞效能;而實驗語料的數量除了 C300、C220 較為充足外,其 他的語料之數量都略顯不足。如果可以取得更大量的中英平行語料,就能分析以不同數 量之訓練語料進行訓練是否會對斷詞效能造成影響。在利用人工斷詞測試語料進行評估 之實驗部分,因為我們目前只有用自己自行人工斷詞之 200 句測試語料進行實驗,所以 為了更客觀的進行斷詞效能評估,我們需要取得有專家標記的斷詞標準答案之測試語料 來進行評估。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
參考文獻
[1] 牛津現代英漢雙解詞典,http://startdict.sourceforge.net/Dictionaries_zh_TW.php [連 結已失效]。
[2] 中央研究院中文斷詞系統,http://ckipsvr.iis.sinica.edu.tw/ [2011/11/2]。
[3] 中 央 研 究 院 現 代 漢 語 標 記 語 料 庫 4.0 版 簡 介,http://db1x.sinica.edu.tw/cgi-bin/kiwi/mkiwi/mkiwi.sh [2011/12/22]。
[4] 田侃文,英漢專利文書文句對列與應用,國立政治大學資訊科學所,碩士論文,
2009。
[5] 史丹佛剖析器,
http://nlp.stanford.edu/software/lex-parser.shtml
[6] 朱怡霖
[2012/2/26]。
,中文斷詞與專有名詞辨識之研究,國立臺灣大學資訊工程學研究所,碩士 論文,2002。
[7] 成語詞典,http://yeelou.com/huzheng/stardict-dic/zh_TW/ [2011/3/30]。
[8] 林筱晴,語料庫統計值與網際網路統計值在自然語言處理上之應用:以中文斷詞為 例,國立臺灣大學資訊工程學研究所,碩士論文,2004。
[9] 林千翔,基於特製隱藏式馬可夫模型之中文斷詞研究,國立中央大學資訊工程研究 所,碩士論文,2006。
[10] 莊怡軒,英文技術文獻中動詞與其受詞之中文翻譯的語境效用,國立政治大學資訊 科學所,碩士論文,2011。
[11] 現代漢語一詞泛讀,http://elearning.ling.sinica.edu.tw/introduction.html [2011/8/26]。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
[12] 國 家 教 育 研 究 院 學 術 名 詞 資 訊 網 ,
http://terms.nict.gov.tw/download_main.php
[2011/8/26]。[13] 掌 印 辭 典 整
理 ,
http://www.palmstamp.com/forum/viewthread.php?tid=832&page=1#pid6847
[2011/8/26]。[14] 詹嘉丞,中文斷詞系統中非繁體中文詞彙之處理,國立台灣海洋大學資訊工程所,
碩士論文,2009。
[15] 構詞篇(下),
http://chcs-opencourse.org/chcs/full_content/A21/pdf/03.pdf [2012/2/27]。
[16] 劉群、李素建,基於《知網》的辭彙語義相似度計算,中文計算語言學期刊,第七 卷第二期,59-76,2002。
[17] 懶蟲簡明英漢詞典,http://yeelou.com/huzheng/stardict-dic/zh_TW/ [2011/3/30]。
[18] 羅永聖,結合多類型字典與條件隨機域之中文斷詞與詞性標記系統研究,國立臺灣 大學資訊工程學研究所,碩士論文,2008。
[19] Keh-Jiann Chen and Shing-Huan Liu, Word Identification for Mandarin Chinese Sentences, Proceedings of the 15th International Conference on Computational
Linguistics, 101-107, 1992.
[20] Keh-Jiann Chen and Ming-Hong Bai, Unknown Word Detection for Chinese by a Corpus-based Learning Method, International Journal of Computational linguistics and
Chinese Language Processing, Vol. 3, Num. 1, 27-44, 1998.
[21] Keh-Jiann Chen and Wei-Yun Ma, Unknown Word Extraction for Chinese Documents,
Proceedings of the 19th International Conference on Computational Linguistics,
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
[22] Pi-Chuan Chang, Michel Galley, and Christopher D. Manning, Optimizing Chinese Word Segmentation for Machine Translation Performance, Proceedings of the 3rd
Workshop on Statistical Machine Translation, 224-232, 2008.
[23] Dr.eye譯典通字典, http://www.dreye.com/ [2011/8/26].
[24] E-HowNet, http://ckip.iis.sinica.edu.tw/taxonomy/taxonomy-doc.htm [2011/8/26].
[25] E-HowNet Technical
Report,
http://rocling.iis.sinica.edu.tw/CKIP/paper/Technical_Reprt_E-HowNet.pdf
[2012/6/21].[26] Chung-Chi Huang, Wei-Teh Chen, and Jason S. Chang, Bilingual Segmentation for Alignment and Translation, Proceedings of the 9th international conference on
Computational linguistics and intelligent text processing, 445-453, 2008.
[27] ICTCLAS漢語分詞系統, http://ictclas.org/ [2012/7/1].
[28] Wenbin Jiang, Liang Huang, Qun Liu, and Yajuan Lü, A Cascaded Linear Model for Joint Chinese Word Segmentation and Part-of-Speech Tagging, Proceedings of 46th
Annual Meeting on Association for Computational Linguistics: HLT, 897-904, 2008.
[29] Wenbin Jiang, Liang Huang, and Qun Liu, Automatic Adaptation of Annotation Standards:ChineseWord Segmentation and POS Tagging – A Case Study, Proceedings of
the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP
, 522-530, 2009.[30] Mu Li, Jianfeng Gao, Changning Huang, and Jianfeng Li, Unsupervised Training for Overlapping Ambiguity Resolution in Chinese Word Segmentation, Proceedings of the
2nd SIGHAN Workshop on Chinese Language Processing, 1-7, 2003.
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
[31] LingPipe, http://alias-i.com/lingpipe/ [2011/8/26] .
[32] Yanjun Ma and Andy Way, Bilingually Motivated Domain-Adapted Word Segmentation for Statistical Machine Translation, Proceedings of the 12th Conference of the European
Chapter of the ACL, 549-557, 2009.
[33] Moses, http://www.statmt.org/moses/ [2011/12/22].
[34] C. D. Manning and Hinrich Schütze, Foundations of Statistical Natural Language
Processing, 1999, MIT Press.
[35] Pat-Tree 中文抽詞程式, http://www.openfoundry.org/of/projects/367/ [2012/3/16].
[36] Patent Machine Translation Task at the NTCIR-9,
http://ntcir.nii.ac.jp/PatentMT/
[2012/3/11].
[37] SIGHAN Bakeoff 2, www.sighan.org/bakeoff2005/
[38] Stanford Chinese Segmenter,
[2011/12/22].
http://nlp.stanford.edu/software/segmenter.shtml
[2011/8/26].
[39] Yuen-Hsien Tseng, Chao-Lin Liu, Chia-Chi Tsai, Jui-Ping Wang, Yi-Hsuan Chuang, and James Jeng, Statistical approaches to patent translation - Experiments with various settings of training data, Proceedings of the 9th NTCIR Workshop Meeting on
Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access - PatentMT, 661-665, 2011.
[40] Kun Wang, Chengqing Zong, and Keh-Yih Su, A Character-Based Joint Model for Chinese Word Segmentation, Proceedings of the 23th International Conference on
Computational Linguistics, 1173-1181, 2010.
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
[41] Yahoo!斷章取義API, http://tw.developer.yahoo.com/cas/ [2011/11/2].
‧
‧
ICTCLAS 25022946
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
附錄Ⅱ 口試問題與建議之記錄
在本附錄中記錄了口試時三位口試委員所提出的問題與建議,以及對於各問題與建議的 回答內容。
問題或建議 1 可直接比對 E-HowNet 中文詞彙之表示式與英文詞彙之中文翻譯的 表示式是否完全相同,若完全相同則將該 E-HowNet 中文詞彙視為 近義詞。透過這樣的方法得到的近義詞會較精準。
回答 本研究並不是以取得精準的近義詞為主要目標。本研究尋找英文詞
彙的中文翻譯近義詞的目的是提高利用英漢翻譯資訊處理交集型歧 異的效果,而在利用不精準之英文詞彙的中文翻譯近義詞去中文句 進行比對時,我們認為中文句出現該近義詞的機會並不大,如此就 不會造成錯誤情形發生。
問題或建議 2 在用 PAT-tree 抽詞程式擷取詞彙時有設定 frequency 或詞的長度等 參數嗎?
回答 使用 PAT-tree 抽詞程式擷取詞彙時我們把 minFreq(詞的最小詞頻)
設為 2。詞的最小長度設為 2,詞的最大長度則設為 12。
問題或建議 3 在以人工斷詞測試語料評估斷詞效能之實驗中,是否都會從各實驗 語料中切割 200 句出來作為測試語料?
回答 如論文 6.3.2 節所述,對於每種實驗語料,我們都會從語料中切割 200 句出來作為測試語料。
問題或建議 4 sememe 的中文寫法為「義原」還是「義元」?
回答 在知網官方網頁中的知網簡介等內容中所使用的都為「義原」而非
「義元」。故我們認為 sememe 的中文寫法為「義原」。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
問題或建議 5 在擷取未知詞時是否有考慮到直接音譯的中文詞彙?
回答 對於直接音譯的中文詞彙(如「布魯克」等),我們也是透過詞性
序列規則進行篩選。但因為直接音譯的中文詞彙有很多種不同的構 詞結構,所以在利用詞性序列規則篩選時,能夠篩選出的直接音譯 的中文詞彙之數量可能偏低。
問題或建議 6 在中英平行語料的使用上,只有利用到句對的資訊,還是也有用到 整篇文章的資訊?
回答 我們在篩選候選中英遺留詞對時有使用到由整篇文章所得到的資訊
(共現頻率)。
問題或建議 7 可以把目前所使用的方法之不完善的地方列出,當作未來改進的方 向。
回答 已於論文 7.2 節將其列出。
問題或建議 8 應提早說明系統的整體架構。
回答 已將系統的整體架構提前於論文第三章中進行說明。
問題或建議 9 可用較 benchmark 的方法來評估斷詞效能(如使用 SIGHAN Bakeoff 2 所公開的 4 種語料之測試語料)。
回答 SIGHAN Bakeoff 2 所公開的 4 種語料都非中英平行語料,所以無法 提供給我們的系統產生訓練語料。而若使用科學人、新聞語料等實 驗語料所訓練出的斷詞模型去對 SIGHAN Bakeoff 2 所公開的 4 種 語料之測試語料斷詞,則因為不知道斷詞模型與測試語料是否為相 同領域,故難以進行精確的斷詞效能評估。故我們認為 SIGHAN Bakeoff 2 所公開的 4 種語料之測試語料不適合用來評估我們的系 統的斷詞效能。