未來展望

第七章結論與未來展望

7.2 未來展望

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

能。另外由實驗結果可發現，在訓練斷詞模型時未加入辭典的情況下，有利用英漢翻譯資訊處理交集型歧異或有加入未知詞與中英詞對的結果之斷詞效能都能提升。而在訓練斷詞模型時加入辭典的情況下，可能因為受到加入的未知詞與辭典詞彙衝突的情況影響，導致加入未知詞與中英詞對的結果之斷詞效能並沒有都優於未加入未知詞與中英詞對的結果之斷詞效能。我們也評估訓練斷詞模型時加入辭典對斷詞效能的影響，而實驗結果顯示訓練斷詞模型時加入辭典不一定能夠提升斷詞效能。

因為使用人工斷詞測試語料進行評估可能會因為斷詞者之斷詞正確率與斷詞者之斷詞標準不同於斷詞系統的標準而影響到評估之準確度，所以本研究另外進行了以漢英翻譯的翻譯品質評估斷詞效能之實驗，藉由翻譯品質去間接地評估我們的系統的斷詞效能。本實驗之實驗語料是科學文章類型之科學人、C300、C220 與新聞文章類型之新聞語料與會話文章類型之廣播會話語料。由實驗結果可以發現，在 4 種實驗語料的結果中，

我們的系統之最佳翻譯品質都略差於其他斷詞系統或斷詞模型中的最佳翻譯品質，我們覺得這間接顯示了我們的系統可以有一定的斷詞效能。另外分析了各實驗結果之翻譯品質後，我們發現利用英漢翻譯資訊處理交集型歧異或加入未知詞與中英詞對不一定能提升斷詞效能，以及訓練斷詞模型時加入辭典不一定能夠提升斷詞效能。

7.2 未來展望

在辭典模組的部分，我們希望能蒐集到更多專業辭典（如醫學辭典、地名辭典等），以提升對某特定領域語料的斷詞效能及對專有名詞的斷詞正確率。而除了利用英漢翻譯資訊處理交集型歧異外，若也能利用英漢翻譯資訊處理組合型歧異，相信能對斷詞效能的提升有所幫助。

在擷取中英詞對的方面，因為我們利用可能性比例、共現頻率對候選中英遺留詞對進行篩選的效果並不是很好，所以或許能探討利用一個以上的分析公式(例如可能性比

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

例、點互訊息(pointwise mutual information)、相關係數（correlation coefficient）等公式) 加上共現頻率來進行篩選的效果，是否能比僅利用可能性比例、共現頻率進行篩選的效果來得好。此外或許也可以利用一些專有名詞辨識（named entity recognition）的軟體工具來辨識出是專有名詞的英文遺留字詞或候選中文遺留字詞後，再以可能性比例、共現頻率等作為輔助的資訊對候選中英遺留詞對進行篩選，如此或許可提升篩選的效果。

在利用詞性序列規則篩選候選中文遺留字詞時，目前較難篩選出長度較長的一些中文專有名詞或構詞結構較多變化的地名、組織名等詞彙。如果在利用詞性序列規則進行篩選時，同時以「山」、「社」等關鍵字來判斷詞彙是否為地名或組織名，或許能篩選出較多的地名、組織名。另外因為取得詞性序列規則前需要先對中文語料、候選中文遺留字詞標注詞性，故詞性標注的準確率可能會影響篩選候選中文遺留字詞的效果；所以除了使用史丹佛剖析器進行詞性標注外，或許也可以使用其他剖析器（如伯克利剖析器 (Berkeley Parser)）去進行詞性標注，以分析利用不同的剖析器進行詞性標注是否會對篩選候選中文遺留字詞的效果造成影響。

在實驗中我們共使用科學文章、新聞文章、會話文章類型這三種不同領域的中英平行語料進行實驗，如果可以取得更多不同領域的大量中英平行語料，我們就能夠更全面性地評估我們的系統的斷詞效能；而實驗語料的數量除了 C300、C220 較為充足外，其他的語料之數量都略顯不足。如果可以取得更大量的中英平行語料，就能分析以不同數量之訓練語料進行訓練是否會對斷詞效能造成影響。在利用人工斷詞測試語料進行評估之實驗部分，因為我們目前只有用自己自行人工斷詞之 200 句測試語料進行實驗，所以為了更客觀的進行斷詞效能評估，我們需要取得有專家標記的斷詞標準答案之測試語料來進行評估。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

參考文獻

[1] 牛津現代英漢雙解詞典，http://startdict.sourceforge.net/Dictionaries_zh_TW.php [連結已失效]。

[2] 中央研究院中文斷詞系統，http://ckipsvr.iis.sinica.edu.tw/ [2011/11/2]。

[3] 中央研究院現代漢語標記語料庫 4.0 版簡介，http://db1x.sinica.edu.tw/cgi-bin/kiwi/mkiwi/mkiwi.sh [2011/12/22]。

[4] 田侃文，英漢專利文書文句對列與應用，國立政治大學資訊科學所，碩士論文，

2009。

[5] 史丹佛剖析器，

http://nlp.stanford.edu/software/lex-parser.shtml

[6] 朱怡霖

[2012/2/26]。

，中文斷詞與專有名詞辨識之研究，國立臺灣大學資訊工程學研究所，碩士論文，2002。

[7] 成語詞典，http://yeelou.com/huzheng/stardict-dic/zh_TW/ [2011/3/30]。

[8] 林筱晴，語料庫統計值與網際網路統計值在自然語言處理上之應用：以中文斷詞為例，國立臺灣大學資訊工程學研究所，碩士論文，2004。

[9] 林千翔，基於特製隱藏式馬可夫模型之中文斷詞研究，國立中央大學資訊工程研究所，碩士論文，2006。

[10] 莊怡軒，英文技術文獻中動詞與其受詞之中文翻譯的語境效用，國立政治大學資訊科學所，碩士論文，2011。

[11] 現代漢語一詞泛讀，http://elearning.ling.sinica.edu.tw/introduction.html [2011/8/26]。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

[12] 國家教育研究院學術名詞資訊網，

http://terms.nict.gov.tw/download_main.php

[2011/8/26]。

[13] 掌印辭典整

理，

http://www.palmstamp.com/forum/viewthread.php?tid=832&page=1#pid6847

[2011/8/26]。

[14] 詹嘉丞，中文斷詞系統中非繁體中文詞彙之處理，國立台灣海洋大學資訊工程所，

碩士論文，2009。

[15] 構詞篇（下），

http://chcs-opencourse.org/chcs/full_content/A21/pdf/03.pdf [2012/2/27]。

[16] 劉群、李素建，基於《知網》的辭彙語義相似度計算，中文計算語言學期刊，第七卷第二期，59-76，2002。

[17] 懶蟲簡明英漢詞典，http://yeelou.com/huzheng/stardict-dic/zh_TW/ [2011/3/30]。

[18] 羅永聖，結合多類型字典與條件隨機域之中文斷詞與詞性標記系統研究，國立臺灣大學資訊工程學研究所，碩士論文，2008。

[19] Keh-Jiann Chen and Shing-Huan Liu, Word Identification for Mandarin Chinese Sentences, Proceedings of the 15th International Conference on Computational

Linguistics, 101-107, 1992.

[20] Keh-Jiann Chen and Ming-Hong Bai, Unknown Word Detection for Chinese by a Corpus-based Learning Method, International Journal of Computational linguistics and

Chinese Language Processing, Vol. 3, Num. 1, 27-44, 1998.

[21] Keh-Jiann Chen and Wei-Yun Ma, Unknown Word Extraction for Chinese Documents,

Proceedings of the 19th International Conference on Computational Linguistics,

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

[22] Pi-Chuan Chang, Michel Galley, and Christopher D. Manning, Optimizing Chinese Word Segmentation for Machine Translation Performance, Proceedings of the 3rd

Workshop on Statistical Machine Translation, 224-232, 2008.

[23] Dr.eye譯典通字典, http://www.dreye.com/ [2011/8/26].

[24] E-HowNet, http://ckip.iis.sinica.edu.tw/taxonomy/taxonomy-doc.htm [2011/8/26].

[25] E-HowNet Technical

Report,

http://rocling.iis.sinica.edu.tw/CKIP/paper/Technical_Reprt_E-HowNet.pdf

[2012/6/21].

[26] Chung-Chi Huang, Wei-Teh Chen, and Jason S. Chang, Bilingual Segmentation for Alignment and Translation, Proceedings of the 9th international conference on

Computational linguistics and intelligent text processing, 445-453, 2008.

[27] ICTCLAS漢語分詞系統, http://ictclas.org/ [2012/7/1].

[28] Wenbin Jiang, Liang Huang, Qun Liu, and Yajuan Lü, A Cascaded Linear Model for Joint Chinese Word Segmentation and Part-of-Speech Tagging, Proceedings of 46th

Annual Meeting on Association for Computational Linguistics: HLT, 897-904, 2008.

[29] Wenbin Jiang, Liang Huang, and Qun Liu, Automatic Adaptation of Annotation Standards:ChineseWord Segmentation and POS Tagging – A Case Study, Proceedings of

the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP

, 522-530, 2009.

[30] Mu Li, Jianfeng Gao, Changning Huang, and Jianfeng Li, Unsupervised Training for Overlapping Ambiguity Resolution in Chinese Word Segmentation, Proceedings of the

2nd SIGHAN Workshop on Chinese Language Processing, 1-7, 2003.

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

[31] LingPipe, http://alias-i.com/lingpipe/ [2011/8/26] .

[32] Yanjun Ma and Andy Way, Bilingually Motivated Domain-Adapted Word Segmentation for Statistical Machine Translation, Proceedings of the 12th Conference of the European

Chapter of the ACL, 549-557, 2009.

[33] Moses, http://www.statmt.org/moses/ [2011/12/22].

[34] C. D. Manning and Hinrich Schütze, Foundations of Statistical Natural Language

Processing, 1999, MIT Press.

[35] Pat-Tree 中文抽詞程式, http://www.openfoundry.org/of/projects/367/ [2012/3/16].

[36] Patent Machine Translation Task at the NTCIR-9,

http://ntcir.nii.ac.jp/PatentMT/

[2012/3/11].

[37] SIGHAN Bakeoff 2, www.sighan.org/bakeoff2005/

[38] Stanford Chinese Segmenter,

[2011/12/22].

http://nlp.stanford.edu/software/segmenter.shtml

[2011/8/26].

[39] Yuen-Hsien Tseng, Chao-Lin Liu, Chia-Chi Tsai, Jui-Ping Wang, Yi-Hsuan Chuang, and James Jeng, Statistical approaches to patent translation - Experiments with various settings of training data, Proceedings of the 9th NTCIR Workshop Meeting on

Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access - PatentMT, 661-665, 2011.

[40] Kun Wang, Chengqing Zong, and Keh-Yih Su, A Character-Based Joint Model for Chinese Word Segmentation, Proceedings of the 23th International Conference on

Computational Linguistics, 1173-1181, 2010.

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

[41] Yahoo!斷章取義API, http://tw.developer.yahoo.com/cas/ [2011/11/2].

‧

ICTCLAS 2502

2946

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

附錄Ⅱ 口試問題與建議之記錄

在本附錄中記錄了口試時三位口試委員所提出的問題與建議，以及對於各問題與建議的回答內容。

問題或建議 1 可直接比對 E-HowNet 中文詞彙之表示式與英文詞彙之中文翻譯的表示式是否完全相同，若完全相同則將該 E-HowNet 中文詞彙視為近義詞。透過這樣的方法得到的近義詞會較精準。

回答本研究並不是以取得精準的近義詞為主要目標。本研究尋找英文詞

彙的中文翻譯近義詞的目的是提高利用英漢翻譯資訊處理交集型歧異的效果，而在利用不精準之英文詞彙的中文翻譯近義詞去中文句進行比對時，我們認為中文句出現該近義詞的機會並不大，如此就不會造成錯誤情形發生。

問題或建議 2 在用 PAT-tree 抽詞程式擷取詞彙時有設定 frequency 或詞的長度等參數嗎?

回答使用 PAT-tree 抽詞程式擷取詞彙時我們把 minFreq（詞的最小詞頻）

設為 2。詞的最小長度設為 2，詞的最大長度則設為 12。

問題或建議 3 在以人工斷詞測試語料評估斷詞效能之實驗中，是否都會從各實驗語料中切割 200 句出來作為測試語料?

回答如論文 6.3.2 節所述，對於每種實驗語料，我們都會從語料中切割 200 句出來作為測試語料。

問題或建議 4 sememe 的中文寫法為「義原」還是「義元」？

回答在知網官方網頁中的知網簡介等內容中所使用的都為「義原」而非

「義元」。故我們認為 sememe 的中文寫法為「義原」。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

問題或建議 5 在擷取未知詞時是否有考慮到直接音譯的中文詞彙？

回答對於直接音譯的中文詞彙（如「布魯克」等），我們也是透過詞性

序列規則進行篩選。但因為直接音譯的中文詞彙有很多種不同的構詞結構，所以在利用詞性序列規則篩選時，能夠篩選出的直接音譯的中文詞彙之數量可能偏低。

問題或建議 6 在中英平行語料的使用上，只有利用到句對的資訊，還是也有用到整篇文章的資訊？

回答我們在篩選候選中英遺留詞對時有使用到由整篇文章所得到的資訊

（共現頻率）。

問題或建議 7 可以把目前所使用的方法之不完善的地方列出，當作未來改進的方向。

回答已於論文 7.2 節將其列出。

問題或建議 8 應提早說明系統的整體架構。

回答已將系統的整體架構提前於論文第三章中進行說明。

問題或建議 9 可用較 benchmark 的方法來評估斷詞效能（如使用 SIGHAN Bakeoff 2 所公開的 4 種語料之測試語料）。

回答 SIGHAN Bakeoff 2 所公開的 4 種語料都非中英平行語料，所以無法提供給我們的系統產生訓練語料。而若使用科學人、新聞語料等實驗語料所訓練出的斷詞模型去對 SIGHAN Bakeoff 2 所公開的 4 種語料之測試語料斷詞，則因為不知道斷詞模型與測試語料是否為相同領域，故難以進行精確的斷詞效能評估。故我們認為 SIGHAN Bakeoff 2 所公開的 4 種語料之測試語料不適合用來評估我們的系統的斷詞效能。

在文檔中應用平行語料建構中文斷詞組件 - 政大學術集成 (頁 76-86)

第七章 結論與未來展望

7.2 未來展望

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

7.2 未來展望

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

參考文獻

http://nlp.stanford.edu/software/lex-parser.shtml

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

http://terms.nict.gov.tw/download_main.php

http://www.palmstamp.com/forum/viewthread.php?tid=832&page=1#pid6847

http://chcs-opencourse.org/chcs/full_content/A21/pdf/03.pdf [2012/2/27]。

Linguistics, 101-107, 1992.

Chinese Language Processing, Vol. 3, Num. 1, 27-44, 1998.

Proceedings of the 19th International Conference on Computational Linguistics,

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

Workshop on Statistical Machine Translation, 224-232, 2008.

http://rocling.iis.sinica.edu.tw/CKIP/paper/Technical_Reprt_E-HowNet.pdf

Computational linguistics and intelligent text processing, 445-453, 2008.

Annual Meeting on Association for Computational Linguistics: HLT, 897-904, 2008.

the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP

2nd SIGHAN Workshop on Chinese Language Processing, 1-7, 2003.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

Chapter of the ACL, 549-557, 2009.

Processing, 1999, MIT Press.

http://ntcir.nii.ac.jp/PatentMT/

http://nlp.stanford.edu/software/segmenter.shtml

Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access - PatentMT, 661-665, 2011.

Computational Linguistics, 1173-1181, 2010.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

附錄Ⅱ 口試問題與建議之記錄

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第七章結論與未來展望

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學