• 沒有找到結果。

以共現資訊為基礎增進英漢翻譯對列改進方法 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "以共現資訊為基礎增進英漢翻譯對列改進方法 - 政大學術集成"

Copied!
122
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政 治 大. ‧ 國. 學 ‧. 以共現資訊為基礎增進英漢翻譯對列改進方法 Using Co-Occurrence Information for Alignment Improvement in English-Chinese Translation. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 研 究 生:黃昭憲 指導教授:劉昭麟. 中華民國九十九年七月 July 2010.

(2) 以共現資訊為基礎增進英漢翻譯對列改進方法 Using Co-Occurrence Information for Alignment Improvement in English-Chinese Translation. 研 究 生:黃昭憲. Student:Chao-Shainn Huang. 指導教授:劉昭麟. Advisor:Chao-Lin Liu. 資訊科學系. 學. ‧ 國. 立. 治 政 國立政治大學 大 碩士論文. ‧ y. Nat. A Thesis. io. sit. submitted to Department of Computer Science. er. National Chengchi University. a. n. v l C in partial fulfillment of the requirements ni hfore the n gdegree c h i Uof Master in Computer Science. 中華民國九十九年七月 July 2010.

(3) 致謝. 兩年的時間很快的就結束了,在這的期間我學到了很多很多在大學時期無法學到的事情, 首先我要感謝我的指導教授 劉昭麟老師,在我整個碩士班的生涯之中,給了我很多的 自由度,且在做研究的路程中,寫論文的旅程中,老師也不厭其煩的給了我很多指導, 不管在學業上亦或是為人處事,我都從老師身上學到了不少重要的東西。我想,正直且 認真負責的態度,是我覺得最重要也是最珍貴的寶物。. 政 治 大. 立曾元顯老師、. 在論文指導方面,感謝. 林川傑老師. 與. 蔡宗翰老師的指導。感. ‧ 國. 學. 謝曾老師對於本研究中,公式分析的啟示,感謝林老師指正本論文內容個一些漏洞,並 感謝蔡老師的建議,讓學生在實驗分析中,可針對同義詞擴充做更深一層的探討。. ‧ y. Nat. io. sit. 在MIG實驗室中,我也接受了許多實驗式的協助,其中最感謝的是敏華學姊,同. n. al. er. 是海大畢業的學姊,對於學弟在學業、生活都有相當大幫助。也謝謝明欣、智傑、侃文. Ch. i Un. v. 三位學長對於翻譯系統的講解,也感謝我的同學育豪,學弟妹建良、傑弟、裕淇給與我. engchi. 許多寫作論文的建議,也感謝家樑、仁祥、偉嘉、志斌、禹勳學長的照顧。. 最後,我要感謝我女友兩年來的不離不棄,最感激的是老弟、老爸和老媽可以協助 我讀到碩士班畢業,我想,當完兵後,也是該報答這二十五年來的養育之恩,該負起身 為長子的責任!. 資科碩二 昭憲 MIG實驗室. 夏.

(4) 以共現資訊為基礎增進英漢翻譯對列改進方法. 摘要. 本論文承接呂明欣和張智傑兩位原有的翻譯系統,主要針對詞彙對列模組. 政 治 大 來進行改善,進而增進詞序範例樹之精確率和數量,以建立高品質的詞序 立. ‧ 國. 學. 範例樹資料庫,提升整體的翻譯品質。. ‧. 我們選用國民中學、高級中學和科普雜誌,這三種在句法結構和用字. Nat. io. sit. y. 遣詞皆有所差異的中英文平行語料,先透過斷詞系統進行前處理,接著藉. al. er. 由辭典檔索引其相對應之翻譯字詞,以進行中英文詞彙之間的對列,其中. n. iv n C hengchi U 更採用了原詞還原和同義詞擴充,來對原始的字詞進行補強。並且將對列 完畢之後的遺留字詞,重新搭配組合,以一個中文字詞為基礎,分別對應 一個英文字詞和對應多個英文字詞兩種搭配方式,並透過分析公式篩選出 可信度較高的新詞對,以便擴充原始的辭典檔,使得詞彙對列模組達到更 好的效果。 在評估方面,以不同英文程度的平行語料當作訓練資料,將國際數學. 與科學教育成就趨勢調查測驗試題當做翻譯對象,利用 NIST 和 BLEU 當作.

(5) 評比的標準進行評估。實驗結果顯示,我們所提出的想法有助於提升詞彙 對列的效果,並且可以產生更多的詞序範例樹以供翻譯系統進行詞序調 動,並提升輔助式翻譯系統的翻譯品質。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v.

(6) Using Co-Occurrence Information for Alignment Improvement in English-Chinese Translation. Abstract This research continues the translation systems designed by Ming-Shin Lu and Chih-Chieh Chang. We mainly ameliorate the word alignment and create. 治 政 大 the quality in translation. high-quality databases of reordering tree to improve 立 ‧ 國. 學. In this paper, we explore the possibility of finding alignments for words that are not aligned by methods that employ only information about word. ‧. translations from English and Chinese dictionaries. With the proposed methods,. n. a. er. io. limiting to just word-to-word alignment.. sit. y. Nat. we were able to align chunks of words between English and Chinese, not. v. In evaluation, parallell corpuses with different n i degrees for English are used C. hengchi U. as training data. In addition, Trends in International Mathematics and Science Study questions are chosen as testing data. The evaluation is performed by exploiting NIST and BLEU as standards. The experimental results show that the proposed method enhances the effect of word alignment. Also, it can generate more reordering tree for bilingual structured string tree corredpondence. Besides, the translation quality of assisted translation system will increase by using our method..

(7) 目錄 第一章 緒論 ....................................................................................................... 1 1.1 研究背景與目的 ......................................................................................................... 1 1.2 研究方法 ..................................................................................................................... 4 1.3 論文架構 ..................................................................................................................... 5. 第二章 文獻探討 ............................................................................................... 6. 政 治 大. 2.1 詞彙對列技術之相關研究 ......................................................................................... 6 2.2 遺留字詞對列之相關研究 ......................................................................................... 9. 立. ‧ 國. ‧. 中英平行語料分析 ................................................................................................... 11 詞彙對列模組 ........................................................................................................... 13 詞序範例樹資料庫 ................................................................................................... 13 辭典的選取 ............................................................................................................... 14. sit. y. Nat. 3.1 3.2 3.3 3.4. 學. 第三章 語料來源與系統架構 ......................................................................... 10. n. al. er. io. 第四章 詞彙對列技術 ..................................................................................... 17. Ch. i Un. v. 4.1 中英文平行句對的詞彙對列 ................................................................................... 17 4.1.1 以辭典為基礎進行詞彙對列 ........................................................................ 19 4.1.2 以原詞還原為基礎進行詞彙對列 ................................................................ 23 4.1.3 以同義詞詞林為基礎進行詞彙對列 ............................................................ 26 4.2 遺留字詞的利用 ....................................................................................................... 31 4.2.1 停用詞列表與遺漏詞修補 ............................................................................ 32 4.2.2 對列計算 ........................................................................................................ 39. engchi. 第五章 系統效率評估 ..................................................................................... 44 5.1 實驗語料來源 ........................................................................................................... 44 5.2 實驗設計流程 ........................................................................................................... 46 5.2.1 詞彙對列結果之檢驗與比較 ........................................................................ 47 5.2.2 利用機器翻譯系統翻譯英文試題 ................................................................ 48.

(8) 5.3 評估指標BLEU和NIST ............................................................................................ 49 5.4 實驗結果與比較 ....................................................................................................... 51 5.4.1 不同語料之詞彙對列結果比較 .................................................................... 51 5.4.2 遺留字詞之結果分析 .................................................................................... 54 5.4.3 以遺留字詞修正詞彙對列結果之比較 ........................................................ 57 5.4.4 輔助式機器翻譯系統翻譯品質提升評估 .................................................... 59. 第六章 結論與未來展望 ................................................................................. 66 6.1 結論 ........................................................................................................................... 66 6.2 未來展望 ................................................................................................................... 68. 治 政 大 參考文獻 ............................................................................................................. 69 立 ‧ 國. 學. 附錄Ⅰ 新詞對人工檢測結果 ........................................................................... 74. ‧. 附錄Ⅱ 論文口試其他相關討論 ...................................................................... 75. sit. y. Nat. io. n. al. er. 附錄III 各組別詳細分數結果........................................................................... 76. Ch. engchi. i Un. v.

(9) 圖目錄. 圖 1.1 全系統流程圖…………………………….……………………………………………3 圖 3.1 系統架構圖 .................................................................................................................. 10 圖 4.1 前處理與詞彙對列模組流程 ...................................................................................... 18 圖 4.2 CEDICT漢英電子辭典檔內部格式範例 .................................................................... 19. 政 治 大. 圖 4.3 史丹佛詞類標記器原詞處理之結果 .......................................................................... 24. 立. 圖 4.4 同義詞詞林內部格式 .................................................................................................. 26. ‧ 國. 學. 圖 4.5 詞彙對列流程與結果 .................................................................................................. 30 圖 5.1 SGML格式範例(英文原文) ................................................................................... 50. ‧. 圖 5.2 SGML格式範例(中文標準翻譯) ........................................................................... 50. y. Nat. io. sit. 圖 5.3 SGML格式範例(系統所建議的中文翻譯) ........................................................... 50. n. al. er. 圖 5.4 一對一正確率趨勢圖 .................................................................................................. 56. Ch. i Un. v. 圖 5.5 一對多正確率趨勢圖 .................................................................................................. 56. engchi. 圖 5.6 召回率與精確率之綜合比較 ...................................................................................... 58.

(10) 表目錄. 表 3.1 高中英文試題類型 ...................................................................................................... 12 表 3.2 高中英文試題範例 ...................................................................................................... 12 表 3.3 辭典內含索引字詞數 .................................................................................................. 14 表 3.4 辭典內部資訊 .............................................................................................................. 15. 政 治 大 表 4.2 中英文平行句對字詞詞序 .......................................................................................... 18 立 表 4.1 中英文平行句對斷詞結果 .......................................................................................... 18. ‧ 國. 學. 表 4.3 一對一之詞彙對列 ...................................................................................................... 20 表 4.4 整合一對多之詞彙對列 .............................................................................................. 20. ‧. 表 4.5 詞彙對列(a) ............................................................................................................ 21. sit. y. Nat. 表 4.6 詞彙對列(b) ............................................................................................................ 22. n. al. er. io. 表 4.7 詞彙對列(c) ............................................................................................................ 25. i Un. v. 表 4.8 詞彙對列(d) ............................................................................................................ 28. Ch. engchi. 表 4.9 詞彙對列(e) ............................................................................................................ 29 表 4.10 詞彙對列完畢之情況 ................................................................................................ 31 表 4.11 對列結果統計 ............................................................................................................ 32 表 4.12 中文遺留字詞次數統計 ............................................................................................ 32 表 4.13 利用中文遺漏詞進行修補 ........................................................................................ 34 表 4.14 英文遺留字詞次數統計 ............................................................................................ 35 表 4.15 利用英文遺漏詞進行修補 ........................................................................................ 36 表 4.16 英文遺漏詞修補失敗範例 ........................................................................................ 37 表 4.17 辭典內部不慎完美之資訊 ........................................................................................ 37.

(11) 表 4.18 遺留字詞的情況 ........................................................................................................ 39 表 4.19 中英平行句對遺留字詞出現之次數 ........................................................................ 40 表 4.20 分數累積之範例 ........................................................................................................ 42 表 5.1 實驗語料來源統計 ...................................................................................................... 45 表 5.2 TIMSS 2007(T)語料來源統計 ............................................................................... 46 表 5.3 TIMSS 2007(Q)語料來源統計 .............................................................................. 46 表 5.4 系統翻譯評比之實驗組別 .......................................................................................... 48. 政 治 大 表 5.6 隨機抽選句數與其對列結果 ...................................................................................... 52 立 表 5.5 TIMSS 2007 試題實驗組別 ........................................................................................ 48. ‧ 國. 學. 表 5.7 對列結果a. ................................................................................................................... 53 表 5.8 對列結果b. ................................................................................................................... 53. ‧. 表 5.9 對列結果c. ................................................................................................................... 53. sit. y. Nat. 表 5.10 人工檢測前五十名組合結果(一對一) ................................................................ 54. n. al. er. io. 表 5.11 以分數累積排序之結果 ............................................................................................ 55. i Un. v. 表 5.12 人工檢測前五十名組合結果(一對一)(續) ...................................................... 55. Ch. engchi. 表 5.13 人工檢測前五十名組合結果(一對多) ................................................................ 56 表 5.14 篩選後的新詞對數量 ................................................................................................ 57 表 5.15 召回率與精確率之結果 ............................................................................................ 58 表 5.16 產生詞序範例樹之實驗語料 .................................................................................... 59 表 5.17 與 2009 年之翻譯效能進行比較...............................................................................61 表 5.18 各組翻譯之BLEU和NIST分數(以問句為主) ..................................................... 64 表 5.19 各組翻譯之BLEU和NIST分數(包含問句及誘答選項) ..................................... 65.

(12) 第一章. 緒論. 1.1 研究背景與目的. 政 治 大 國際教育學 習成就 調 查委員會(The International Association for the Evaluation of 立. ‧ 國. 學. Education Achievement, IEA)[37]的核心主題為瞭解世界各國學生對於數學和科學的學 習成就並進行量化,且討論各國教育體制、社會文化等相關因素之關聯性,最終成果可. ‧. 於國際之間進行比較與分析。在 1970 年和 1980 年分別舉辦了首兩次世界性的國際數學. sit. y. Nat. 與科學教育成就調查,兩次累計共有 43 個國家協同參與。IEA 自 1990 年開始推動進行. io. er. 「第三次國際數學與科學教育成就研究(Trends in International Mathematics and Science. al. v. n. Study, TIMSS)」,並計畫往後每四年舉辦一次國際數學與科學教育成就之研究,至今我. i n C U h年共三屆。 國已參與 1999 年、2003 年和 2007 engchi. 我國在 1992 年成功通過國際教育學習成就調查委員會的審查,成為正式會員國。 並於 1999 年開始舉辦 TIMSS,調查對象為十三歲學童(相當於國中二年級學生) 。2003 年的調查對象除原先的十三歲學童外,新加入了九歲學童(相當於國小四年級學生)。 國立台灣師範大學科學教育中心(以下稱師大科教中心)受行政院國家科學委員會(以 下稱國科會)委託,將 TIMSS 英文試題轉譯成中文試題並舉行測驗及調查研究。主要 的工作流程包含:從 IEA 取得試題內容,由師大科教中心決議進行翻譯工作分配、中文 試題交換審稿校正及翻譯問題討論,最後將中文翻譯試題定稿。至目前為止,師大科教 1.

(13) 中心已將 1999 年、2003 年和 2007 年共三屆試題內容和評量結果,公佈於台灣 TIMSS 官方網站[39],以提供研究之參考。 在這一系列的翻譯工作中,往往利用大量的人力資源和時間來進行人工翻譯,在如 此高成本的花費中,我們可以得到翻譯品質相當優良的中文試題,但也因為是使用了人 力進行人工翻譯,也產生了不同的翻譯者,對相同的英文句型有不同地見解。因此,倘 若能利用機器翻譯(machine translation)的技術來輔助翻譯,便可能提升翻譯速度和翻 譯結果的一致性。. 政 治 大 TIMSS 的測驗對象為國小四年級及國中二年級學生,整體的試題內容利用簡單的語 立. ‧ 國. 學. 法結構來構成直述句、提問句和誘答選項。在 2007 年,呂明欣架構了一個主要以 TIMSS 為翻譯目標的試題輔助翻譯系統,主要是以英漢翻譯模組和以 SRI Speech Technology. ‧. and Research Laboratory 所開發的自然語言工具 SRILM[36],來建立 bigram 語言模型,. sit. y. Nat. 並輔助翻譯結果的機率式選詞模組來產生中文句子[5],而張智傑則在 2008 年針對呂明. io. er. 欣之研究進行詞序的改良,主要利用平行語料庫(parallel corpus)之間的中英文平行句. al. iv n C hengchi U 序範例樹,並建立詞序範例樹資料庫以進行詞序互換,進而加強翻譯的品質[16]。在 2009 n. 對進行詞彙對列(word alignment)後,觀察中英文句對中詞序的交互現象,以產生詞. 年田侃文更蒐集大量中英原始對照語料,透過動態規劃演算法和門檻值的篩選,產生更 多的中英文平行語料,以增加詞序範例樹的資料量[4],整體的系統流程圖如圖 1.1 所示。 其中我們發現,除了可以像田侃文從平行語料的量來改良詞序範例樹資料庫以外, 詞彙對列模組也是建構詞序範例樹的關鍵因素之一,由於原始系統中張智傑是以辭典為 基礎來進行詞彙對列,主要的步驟是,將中文句子經過中央研究院(以下簡稱中研院) 斷詞系統[2]斷詞之後,再以中文字詞為單位,逐一透過漢英辭典查詢,並且記錄所得到 的英文翻譯集合,最後將英文翻譯集合中的英文單字與英文句子進行比對,且標記詞 2.

(14) 序,進而產生詞序範例樹。透過前面產出的詞序範例樹,進行多數決的整理以建立詞序 範例樹資料庫,最終將詞序範例樹資料庫與呂明欣的翻譯系統進行整合,以修正翻譯結 果的字詞順序。 然而,這樣的做法會因為辭典內部的詞彙量,連帶影響詞彙對列效能。我們將試圖 改善詞彙對列技術,企圖增進詞彙對列的召回率(recall)和精確率(precision),進而 產生品質更佳、數量更多的詞序範例樹,如此一來,系統可以得到更大量且更精確的詞 序範例樹,之後利用多數決來整理詞序範例樹資料庫,便可以讓系統在進行英漢翻譯時,. 政 治 大. 可讓所產生的中文句擁有較高的翻譯品質。. 立. 產生對列結果. y 相似度計算模組. n. er. io. al. sit. 進行前處理. Ch. 產生. engchi. i Un. 利用門檻值篩選. v. 中研院. 中文句子. 斷詞系統. 中英文 平行語料. ‧. ‧ 國. 學. 對照語料. Nat. 中英原始. 動態規劃演算法. 英文句子. 史丹佛. 詞彙對列 模組. 詞序範例樹 資料庫. 剖析器 查詢. 英文句輸入. 史丹佛. 搜尋範例樹. 剖析器. 模組. 翻譯模組. 圖 1.1 全系統流程圖. 3. 機率式選詞. 中文句輸出.

(15) 1.2 研究方法 我們主要改進詞彙對列模組的效果,期盼產生更多的詞序範例樹,以達到翻譯系統整體 一致性。主要將會針對詞彙對列進行改良,包含常見的一個中文字詞對應一個英文字詞 之對列方式,我們更將原先辭典內部擁有的複合字資訊(如片語)加以利用,促使詞彙 對列模組可進行一個中文字詞對應多個連續英文字詞之對列情況。我們發展的詞彙對列 模組,主要是以辭典為主,因此辭典檔本身的資訊量和準確度與整個系統效能有著密不. 政 治 大 因此我們試圖利用史丹佛詞性標記器(Stanford Part-Of-Speech tagging)[38]來進行原詞 立 可分的關係。儘管如此,我們 也不能一味的追求龐大的辭典檔,來提升辭彙對列的效能,. ‧ 國. 學. 處理(lemmatization) ,來對原始的英文句子中的各個單詞,進行詞性處理(如時態問題、 複數問題等);另一方面,由於中文語言的特性,一個欲表達的概念,常可有多種辭彙. ‧. 可以交互替換,因此在對應的同時,我們將透過同義詞詞林[7]來對原始的中文字詞進行. sit. y. Nat. 擴充,以便增加對應的機會。. n. al. er. io. 在完成第一階段的詞彙對列之後,我們更進一步的來探討中英文平行句對尚未成功. i Un. v. 對應的字詞(null alignment[35], 以下稱之為遺留字詞) 。詞彙對列主要可產生四種結果,. Ch. engchi. 「完全對列(無任何遺留字詞)」、「只遺留中文字詞」、「只遺留英文字詞」和「中英都有 遺留字詞」,我們將針對「只遺留中文字詞」及「只遺留英文字詞」兩種結果,來進行停用 詞列表的選取和遺留字詞利用的討論;並對「中英都有遺留字詞」進行新詞對的擷取,在 此參考曾元顯[14]所選用的分析公式進行評估,以選取較為正確的新詞對來擴充原始辭 典的詞彙量。最終再搭配擴充之後的辭典執行詞彙對列的動作,以得到更佳的對列結 果。 在訓練語料方面,本系統以不同英文程度的平行語料,國中英文共 7360 句,高中 英文共 9954 句,科學人雜誌從 2002 年 3 月創刊至 2006 年 12 月共 110 篇,使用呂明欣 4.

(16) [5]簡易中英文句對列,所產生的 2686 句平行語料,期盼從中獲得不同英文程度的詞序 範例樹,來進行實驗比較。 在評估結果方面,我們以召回率及精確率對本系統所產生的結果進行評估與分析, 更同時利用張智傑[16]於 2008 年提出的輔助式機器翻譯系統,以 2007 年國際數學與科 學教育成就趨勢調查(以下簡稱為 TIMSS 2007)進行翻譯,以 BLEU 和 NIST 做為評估 工具,探討詞彙對列模組的改良是否有助於翻譯品質之提升,並以不同語料組合做整體 實驗之比較。. 立. ‧ 國. 學. 1.3 論文架構. 政 治 大. ‧. 除了在上一小節中簡短的介紹外,在第二章會回顧詞彙對列的技術和遺留字詞之相關研. sit. y. Nat. 究,第三章針對高中平行語料來源、詞彙對列模組、詞序範例樹的用途和辭典檔的選取. io. al. er. 進行介紹,第四章則對詞彙對列模組之核心技術進行細部的說明,第五章則是利用 BLEU. v. n. 和 NIST 等工具來對翻譯結果進行評估,第六章則是結論與未來展望。. Ch. engchi. 5. i Un.

(17) 第二章. 文獻探討. 文獻探討分為兩個小節:在 2.1 節中,將會回顧近幾年來詞彙對列的技術,並討論各種 技術上的運用,其如何提升機器翻譯整體之效果。2.2 節則回顧過去對於遺留字詞(Null Alignment)之相關研究,探討其利用的方式。. 政 治 大 2.1 詞彙對列技術之相關研究 立. ‧ 國. 學. 機器翻譯的步驟主要是由來源語言(source language)透過翻譯模型(translation model). ‧. 來與目標語言(target language)進行對應(mapping) ,其後再透過各種技術來進行翻譯, 目前最常見的為以統計為基礎的方式來進行翻譯。針對以統計為基礎的機器翻譯,則需. y. Nat. er. io. sit. 要龐大的雙語語料庫(bilingual corpus)來進行前處理,在利用雙語語料庫的過程中, 對列(alignment)技術則是相當重要的關鍵因素之一,從對列技術的優劣,幾乎可以決. n. al. Ch. i Un. v. 定機器翻譯系統所產生目標句的品質,而對列技術則有下列幾大方向,如段落對列. engchi. (paragraph alignment) 、文句對列(sentence alignment)和詞彙對列(word alignment)。 其中詞彙對列主要是由來源字詞,來找出與目標字詞互相對應的關係,更可以整合 句子詞性標記(Part-Of-Speech tagging)的資訊,透過對列整理(alignment arrangement) 得到關於兩個語言之間的資訊,以進一步協助詞義辨析(word-sense disambiguation)的 研究,甚至可以進行雙語字典的編撰(bilingual lexicography)。 以中英文平行語料為例,最簡單且原始的對列方法為以字對字(word-by-word) ,依 靠辭典來進行詞彙對列。主要的步驟為將平行語料中的中文句子先經過斷詞,再將斷詞 6.

(18) 後的中文字詞透過漢英辭典查詢相對應之英文單字,依序與英文句子中的單字互相比 對。這種方法會基於辭典內部詞彙量,影響詞彙對列的召回率。 1995年,Wu[41]利用反向轉錄語法(inversion transduction grammar, ITG)的概念進 行詞彙對列,當我們得知兩個語言之間的剖析標記對列情況後,利用上下文無關文法 (context-free grammar)的語法概念進行資料庫的建立。 1997年,Ker和Chang [24]提出以類別(class)為基礎來實作詞彙對列,主要以英漢. 政 治 大 充版[7],進行中英文平行語料間的相互對應關係,並且建立辭典相似度和類別相似度兩 立 辭典為索引資料庫,利用英文類別辭典和哈爾濱工業大學訊息檢索實驗室同義詞詞林擴. ‧ 國. 學. 個數據來當作門檻值,進而提高詞彙對列的對應率(「產生對列的英文字詞數」除上「英 文句子的總字詞數」)。整體來說可以獲得80%的召回率(recall),並且其中的精確率. ‧. (precision)高達90%。. y. Nat. sit. 2000年,Le等[25]提出以區塊(chunks)為基礎進行詞彙對列,主要是以詞性標記. n. al. er. io. 為基礎來進行對列的動作。提出的步驟如下,首先將中文句子進行斷詞,再將英文句子. i Un. v. 依照連結詞或動詞分割成多塊區塊,並且由左至右標記上詞序;接著透過英漢雙語辭. Ch. engchi. 典,找尋該中文字詞會對應到哪一個英文區塊,並將該中文字詞標記上所對應的區塊編 號。對應完畢之後,其結果很有可能出現一個中文字詞對應到一個以上的英文區塊,此 時則可利用該中文字詞的前、後字詞編號,來選定正確的區塊編號,最後再處理尚未被 連結的中文字詞,利用上下文的位置,來找出其對應的英文區塊。 2005年,Chiang[21]觀察語句的剖析樹,並且由上至下(top-down)透過詞性標記 來完成詞彙對列,在對應的過程中,可以針對過往只能進行一對一(word-to-word)的 詞彙對列進行改進,進而達成片語(phrases)這類多字詞的對列,此法使其翻譯系統的 BLEU分數,提升了7.5%。 7.

(19) 2007年,Ren等[35]首先利用型態分析(morphological analysis)來獲得第一輪的詞 彙對列結果,接著觀察第一輪對列結果中無法產生對列的字詞,提出遺留字詞模型(null alignment model)的概念,認為這些遺留字詞極有可能是互為對應字詞,接著利用人工 建立的辭典(handcraft dictionary),和透過大量平行訓練語料並自動化建立的辭典 (automatically trained dictionary),最後結合命名實體(named entity)和Le所提出的區 塊概念,共六種詞彙對列的線索(various clues),並將技術進行量化機制,也就是不完 全信任於某種特定方法,反倒是結合各種方法,並且給予每種對列技術一個量化分數,. 政 治 大. 最後進行加總,並以高分優先(best-first)來找出互為對列的字詞。. 立. 2008年,Ma等[27]利用句法相依性(syntactic dependencies)來改進詞彙對列的效果。. ‧ 國. 學. 以一個範例來說明,一句中文句經過斷詞處理之後為:「我 打 網球 時 扭傷 的 。」,. ‧. 其對應的英文句為:「I twisted it playing tennis .」,經過以字典為基礎的詞彙對列技術之 後,我們會發現中文字的<打>和英文句的<playing>應該是互相對應的,但是由於句. y. Nat. er. io. sit. 法的結構,<playing>為一個現在式的時態,會牽動著中文句中的<時>這個字,然而 這個字詞是舊有技術無法成功對列。因此作者利用舊有的詞彙對列組合,搭配其句法結. n. al. Ch. i Un. v. 構標籤(syntactic annotation),並計算其共現頻率,以獲得大量的雙語字詞相似度分數,. engchi. 則可跳脫以單一字詞為基礎的對列方式,進而達到上述所提之句法相依性之結果。 2009年,Bai等[18]利用平行語料庫來擷取多字詞語(multiword expression),當找 出中英文平行句對中可能互為翻譯的字串之後,作者利用正規化頻率(normalized frequency)來對中英文詞對組合評分,並把英文字串切割成多個共同子序列(common subsequences),文中又稱之為目標候選字(target candidate word)。計算其出現頻率後, 進而利用Dice係數(Dice coefficient)[29]來產生量化分數,接著將這些可能互為翻譯的. 8.

(20) 詞彙組合進行排序(ranking),最後探討並設立其門檻值,挑選出最佳的英文目標候選 字。 在我們原始的系統中,詞彙對列模組並沒有做到上述文獻中的補強技術,只是單純 的利用辭典檔內部的資訊進行比對,這造成整體的對列效能非常依賴所使用辭典檔。因 此我們先利用文獻中較簡單的技術,如中文同義詞的擴充、英文原詞還原和一個中文字 詞可對應多個英文字詞等,來對原始的詞彙對列模組進行補強,以得出較為優秀的詞序 範例樹。. 政 治 大 2.2 遺留字詞對列之相關研究 立. ‧ 國. 學. 1997 年,Chang 和 Chen[20]將影像處理技術(image processing techniques)的概念與詞 彙對列結合,主要的構想是希望能將無法被成功連結的字詞進行修補。利用已完成對列. ‧. 的字詞當作線索,利用二維表格對遺留字詞之對列(null alignment)進行預測,並且依. y. Nat. io. sit. 循保持原始句法結構,和已對應的連線不可與連續的遺留詞彙之間發生相交情況,其實. n. al. er. 驗結果顯示,可以將大量原先無法對應的字詞產生對列。. Ch. i Un. v. Mihalcea 和 Pedersen[30]在 2003 年的 Human Language Technologies 2003 的工作坊,. engchi. 提出了幾點提升詞彙對列整體效能的建議,其中一點就是盡可能的整合所有可用資源, 更提出了遺留詞彙如果可以透過有效的評估機制,則可得到大量有用的資源。 我們將學習 Ma 等[26]在 2007 所提出的方式,更進一步的去評估這些遺留詞彙之對 列,在完成詞彙對列的過程之後,便可以去觀察遺留詞彙的交互組合,並且設立信心分 數來做為門檻值,進而彙整出新的雙語辭典,並整合至原始的辭典檔,進而改善詞彙對 列模組。. 9.

(21) 第三章. 語料來源與系統架構. 本計畫承襲張智傑[16]之系統架構,如圖3.1所示。系統的架構是由中英文平行語料做為 基礎;當欲翻譯的英文句輸入時,英文翻譯系統會先查詢詞序範例樹資料庫內部的資 訊,再將英文句的詞序結構進行調整,以符合中文的詞序規則,將詞序做好調整之後,. 治 政 大 英文字詞會透過辭典檔進行中文字詞的翻譯,其所對應的中文翻譯,絕大多數都是字詞 立 的集合,在此將會利用統計式選詞來產生最適合的中文字詞,透過詞序的調整還有選詞 ‧ 國. 學. 的動作,使中文句輸出的結果可以更通順、更一致。由此可知,整體的架構對於範例樹. ‧. 資料庫的優劣有相當大的關聯性,而我們將進一步的去分析詞序範例樹資料庫的建立,. n. al. er. io. sit. y. Nat. 並改善詞彙對列模組以增加詞序範例樹的數量。. Ch. 中文句子 中英文 平行語料. 中研院. e n g斷詞系統 chi. 英文句子. i Un. 史丹佛. v. 詞彙對列 模組. 詞序範例樹 資料庫. 剖析器 查詢. 英文句輸入. 史丹佛. 搜尋範例樹. 剖析器. 模組. 翻譯模組. 圖 3.1 系統架構圖. 10. 選詞. 中文句輸出.

(22) 3.1 中英平行語料分析 詞序範例樹資料庫最終目的為以電腦輔助TIMSS英文試題進行中文翻譯,以協助老師針 對原文試題進行翻譯時,能節省大量的時間與人力,並使整體翻譯的結果保有一致性, 所以我們利用中英文句的平行語料,試圖找出中英文詞序互換現象。將這些中英文詞序 互換的資料與翻譯系統進行整合,並且先執行詞序調動之後,才進行翻譯工作,如此一 來有助於中文句子翻譯品質的提升。也因為翻譯目標為學生試題,所以我們主要利用高. 政 治 大 從「課文」還有「試題」兩個方向來獲取,但是「課文」之資訊會因為前後文的關係,以篇章 立. 中英文句子來當作訓練語料,而想獲得高中程度的中英文平行語料,最直接的方法可以. ‧ 國. 學. 段落作為翻譯單位,其相對應之中文翻譯句經過潤飾後,時常並非為一句英文對應一句 中文,而會有一對多、多對一,甚至是多對多的情況產生。假若我們無法準確地將這些. sit. Nat. 列的效能,因此我們放棄以「課文」當作我們的訓練語料。. y. ‧. 句子進行斷句,則我們就無法獲取較為完美的平行句對,這種現象非常容易影響詞彙對. n. al. er. io. 另一個方向,我們知道英文試卷常是由許多試題類型所組合而成,如表3.1所示,其. i Un. v. 中我們感興趣的有「引導式翻譯」、「整句式翻譯」和「連貫式翻譯」,以表3.2為例,上述三. Ch. engchi. 種題型結構都帶有中文提示句子,接著要求學生依提示句子的敘述,撰寫英文答案。我 們將會透過自動化程序擷取其中文句子,並且透過答案欄中的資訊,還原其英文句子, 以獲得大量的平行句對。我們的實驗主要以「試題」來當作訓練語料,並由三民出版社[1] 所發行的高中英文試題光碟,進行訓練語料的擷取,從中獲得九千九百五十四句中英文 平行句對。. 11.

(23) 表 3.1 高中英文試題類型 字彙選擇. 文法選擇. 會話選擇. 對話題組. 配合題. 綜合測驗. 文意選填. 篇章結構. 閱讀測驗. 填充題. 引導式翻譯. 整句式翻譯. 連貫式翻譯. 改寫句子. 簡答題. 表 3.2 高中英文試題範例 試題 類型. 試題範例. 政 治 大. 引導式 翻譯. 提示句子:據聞這明星結過七次婚。. 整句式 翻譯. 提示句子:原子鐘需要數百萬元來製造。. 連貫式 翻譯. 提示句子:(1)不射殺幼熊是仁慈的舉止。. ______ the ______ ______, the movie star has married seven times. 答案:As; story; goes. 立. ‧ 國. 學. _____________________________________________________ 答案:Atomic clocks cost several million dollars to make.. ‧. sit. y. Nat. _____________________________________________________ 提示句子:(2)一位新聞記者甚至畫了一幅有關此事件的卡通。. n. al. er. io. _____________________________________________________ 提示句子:(3)可是一個愛好戶外運動者有空閒時間時,. Ch. i Un. v. _____________________________________________________ 提示句子:(4)他還是去獵熊。. engchi. _____________________________________________________ 答案:(1)Not shooting the bear cub is a kindly/kind act. (2)A newspaper reporter even drew a cartoon of this incident. (3)But as/when a sportsman had spare time, (4)he still went on a bear hunt.. 12.

(24) 3.2 詞彙對列模組 詞彙對列模組是由中英文平行語料作為開端,其輸入端將接受一句英文和互為翻譯的一 句中文。系統會先將中文句子透過中研院斷詞系統[2]進行斷詞,將一句中文句子斷成多 個中文字詞;英文句子則是直接利用史丹佛剖析器(Stanford parser)[38]來獲得各個英 文字的詞性標記(Part-Of-Speech tagger)。之後我們將斷詞後的結果進行詞彙對列,詞 彙對列完畢之後,我們將挑選出中英文平行語料中,有詞序互換現象之中英文平行句. 政 治 大 標記外,還記錄了相對應的中文詞序編號,以便輔助翻譯系統進行查詢。 立. 對,記錄在詞序範例樹資料庫當中,儲存的英文剖析樹結構節點資訊,除了原始的詞性. ‧ 國. 學. 因為詞彙對列技術十分依賴辭典的資訊,所以當中英文平行句對透過斷詞系統得到 的字詞,若無法在辭典檔內部成功查詢,則表示無法進行任何對列的步驟,進而嚴重影. ‧. 響詞彙對列的效能。但是另一方面,假設我們手邊的中英文平行句對確實是互為翻譯的. Nat. sit. y. 句子,則句子中所出現的所有字詞,絕大多數都可以將它們進行對列;因為這個前提,. n. al. er. io. 我們將會把大量平行語料中,已完成詞彙對列的中英平行句對,從中取出那些沒有成功. i Un. v. 對列的字詞(null alignment,以下稱之為遺留字詞),透過多種評估的方法去找尋新的. Ch. engchi. 對應字詞,並且討論遺留字詞互為翻譯的正確性,最後進而擴充原始辭典,以達到詞彙 對列模組召回率(recall)與精確率(precision)的提升。. 3.3 詞序範例樹資料庫 承接詞彙對列模組的工作,範例樹資料庫內部儲存著有詞序調換現象的結構樹,當英文 句翻譯系統執行的時候,會將欲翻譯的英文句進行剖析,系統將會擷取其樹狀結構與詞 序範例樹資料庫內部的資訊進行比對。由於範例樹資料庫內部儲存的都是有詞序互換現 13.

(25) 象的結構,因此,若在比對過程中有吻合的情況產生,則系統將會進一步透過中文詞序 編號來將英文句的字詞進行調動,完成調動之後才開始利用機率式選詞模組進行翻譯。 而原始詞序範例樹資料庫的建立,為了節省大量的時間,張智傑[16]只利用辭典檔 內部的資訊來進行詞彙對列,除了其使用的辭典檔內部索引字數不足以外(約三萬餘個 索引字),並無執行其它詞彙對列的輔助技術。也因為這種處理方式,我們只能犧牲詞 序範例樹的品質,採用對應率(「產生對列的英文字詞數」/「英文句子的總字詞數」)大於 60%的對列結果,來換取範例樹的數量。而此種處理方式,其實會遺失一些實際上擁有. 政 治 大. 詞序互換現象的結構樹,而使翻譯系統效能之改善有所限制。因此我們首要的目標便是. 立. 增進詞彙對列模組的效能,以便獲得較多、較準確的詞序範例樹。. ‧. ‧ 國. 學. 3.4 辭典的選取. sit. y. Nat. io. er. 大多數以辭典為基礎的詞彙對列模組,其成效與所選用的辭典有一定程度的關連,往往. al. iv n C hengchi U 了三種免費的電子辭典,分別為牛津現代英漢雙解辭典[3](以下簡稱牛津辭典) 、Dr.eye n. 一個辭典的優劣,對於詞彙對列整體的召回率和精確率有相當大的影響。在此我們比較. 譯典通線上辭典[23]和由MBDG團隊持續整理發布的CEDICT電子辭典檔[19],索引字數 如表3.3所示。 表 3.3 辭典內含索引字詞數 辭典. 索引字數. 牛津現代英漢雙解辭典. 39429. Dr.eye譯典通線上辭典. 106269. CEDICT電子辭典檔. 97184. 14.

(26) 這三種辭典,以牛津辭典有著最高的公信力,但其索引字數卻是最少,且內部結構 為「說明」類型的辭典,也就是說這類的辭典會針對一個英文字詞,利用其他的文字來解 釋其索引字,假若我們查詢英文字詞「him」,我們從表3.4可以發現牛津辭典利用大量的 文字,詳細的來「說明」這個字詞。而詞彙對列模組,主要是希望找到兩種語言之間相對 應的字詞,並記錄平行句對中間的連線以建立詞序範例樹。因此若我們要使用牛津辭 典,勢必需要過濾掉大量的「說明」文字,並且保留其相對應的「翻譯」字詞,也就是說, 實際上只需要把「他」和「它」這兩個中文字詞留下,其餘的文字訊息完全刪除。但從格式. 政 治 大. 範例中可以發現,這不僅僅只是把括號內部字詞刪掉而已,格式內部還帶有許多例句的. 立. 資訊,因此除了利用人工去進行過濾之外,實際上很難利用自動化程序來完成,所以我. ‧ 國. ‧. 表 3.4 辭典內部資訊. Nat. sit. y. 格式範例. 牛津現代英漢雙解辭典. him / hIm; hIm/ pers pron 人稱代詞 (used as the. io. n. al. object of a v or of a prep; also used independently or after be 用作動詞或介詞的賓語, 亦可單獨使用或用 於be之後) male person or animal mentioned earlier or being observed now 他; 它(用以指雄性動物): When did you see him? 你是什麼時候看見他的? * I'm taller than him. 我比他高. * (infml 口) That's him over there. 那邊那個人就是他. * Oh, not `him again! 噢, 可別再是他了! =>Usage at he 用法見he.. er. 辭典. 學. 們並不選用牛津辭典當作系統的索引字詞資料庫。. Ch. engchi. i Un. v. Dr.eye譯典通線上辭典. him=/(he的受格)他/(用於than或as後面/代替he)他. CEDICT電子辭典檔. 他 [ta1] /he/him/. 15.

(27) 相較於牛津辭典,Dr.eye譯典通線上辭典和CEDICT電子辭典檔不論在索引字數上, 或是內部格式都較符合我們的需求,兩種辭典對於索引字詞之解釋大多直接是互為對應 的翻譯字詞,並且把詳細的「說明」單純利用括號隔開,因此我們可以利用簡單的自動化 程序去過濾這些「說明」。且從中可以發現,兩者最大的不同在於索引字的用法,Dr.eye 譯典通線上辭典是利用英文字詞當作索引字,而CEDICT電子辭典檔則是利用中文字詞 當作索引字,這兩種不同的方向,我們曾進行小型實驗的評估,發現CEDICT電子辭典 檔的召回率是較Dr.eye譯典通線上辭典優越的,我們猜測主要的原因為CEDICT電子辭典. 政 治 大. 檔是MBDG團隊在進行編修,直到現在(本模組所使用的版本時間為2010-02-22 06:12:50. 立. GMT)都還不斷的進行修正和擴充索引字的數量,相對於Dr.eye譯典通線上辭典它的更. ‧ 國. 學. 新速度較快,並且CEDICT電子辭典檔屬於免費軟體,容易取得其文字檔格式。因此我 們選用以CEDICT電子辭典檔做為主力,以中研院斷詞系統所產生的中文字詞為主,透. ‧. 過查詢的動作,可以得到大量的英文字詞,利用這些英文字詞與目標的英文句子進行比. er. io. sit. y. Nat. 對。. 另一個選擇CEDICT電子辭典檔的誘因是,CEDICT電子辭典檔內部的中文索引都以. n. al. Ch. i Un. v. 字詞為單位,並且其英文翻譯擁有大量的片語和複合詞資訊(如: 「付清」有pay in full、. engchi. pay all of a bill和pay off三種相對應詞彙),我們將在第四章中說明,我們如何利用這些 資訊來增加系統的效能。. 16.

(28) 第四章. 詞彙對列技術. 為了能更有效率的協助 TIMSS 試題進行翻譯,我們將原先系統中兩大部分進行改良, 主要內容有:4.1 節我們將說明中英文平行句對的詞彙對列的步驟,在 4.2 節討論遺漏字 詞的利用。. 立. 政 治 大. 4.1 中英文平行句對的詞彙對列. ‧ 國. 學. 系統在建立詞序範例樹資料庫前,主要是根據中英文平行句對中的句法,進而擷取有詞. ‧. 序對調的結構樹。而要取出這些結構樹,必須要先知道哪些部分有詞序對調的情況,發. sit. y. Nat. 現這種情況的先決條件建立在詞彙對列技術上面。而本模組的流程圖如圖4.1所示,首先. io. er. 我們進行斷詞,將一句中文句子經由中研院斷詞系統[2],斷成數個中文詞,形成以字詞. al. iv n C hengchi U 史丹佛剖析器[38]得到各英文單字之詞性標記(Part-Of-Speech tag) 。接著我們給定中英 n. 為單位的集合,英文句子則是透過空白隔開進行斷字,並將英文句子以句為單位,利用. 文句斷詞後的各個字詞,由左至右依序標記上詞序,以便詞彙對列模組進行平行語料的 對應,如表4.2所示。. 17.

(29) 中研院. 中文句. 斷詞系統 中英平行語料 史丹佛. 英文句. 剖析器. 詞彙對列模組. 政 治 大. 對列結果. 立. CEDICT. 史丹佛. 同義詞. 電子辭典. 原詞還原. 詞林. ‧ 國. 學. 圖 4.1 前處理與詞彙對列模組流程. ‧. 表 4.1 中英文平行句對斷詞結果. Nat. sit. y. 原始中英文平行句對. 英文. You can change a lot of functions with the remote control .. 中文. 你. 英文. PRP/You VP/can VB/change DT/a NN/lot IN/with DT/the remote NN/control ./.. n. al. 可以. 用. er. 你可以用遙控器改變許多功能。. io. 中文. 中英平行句對斷詞結果i v n C遙控器 h e n g c改變 h i U 許多. 功能. 。. IN/of. NNS/functions. 表 4.2 中英文平行句對字詞詞序 詞序. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 英文 字詞. You. can. change. a. lot. of. functions. with. the. remote. control. .. 詞序. 1. 2. 3. 4. 5. 6. 7. 8. 中文 字詞. 你. 可以. 用. 遙控器. 改變. 許多. 功能. 。. 18.

(30) 4.1.1 以辭典為基礎進行詞彙對列 接下來將斷詞過後的中英文平行句對進行詞彙對列。在過去的文獻中,已有許多詞彙對 列的技術,其中準確率最高的是以辭典為基礎的對列技術,此方法主要是將索引字詞, 透過雙語辭典進行查詢,將會得到大量的翻譯候選字,利用這些翻譯候選字和目標字詞 進行字詞相似度的比對。而此種技術相當依賴雙語辭典的翻譯品質,並且我們所需要的 辭典必須明確的指出,該索引字詞有可能被翻譯成哪些目標字詞,而非一般的翻譯辭典 (利用其他字詞來「說明」索引字詞的 詞意)。根據第三章中的討論,我們選用CEDICT. 政 治 大. 電子辭典檔[19]當作索引字詞資料庫,此辭典含有將近十萬個中文索引詞,辭典內部的. 立. 學. ‧ 國. 格式以行為單位,每行所儲存的資訊由中文字詞、漢語拼音和英文翻譯候選字群所組 成,且每個翻譯候選字以「/」符號隔開,如圖4.2所示。. io. al. n. 訊,例如: 「有」其對應的英文翻. C 譯除了「have、exist、be」這類的 h. y. 郵政局 [you2 zheng4 ju2] /postal bureau/ 油脂 [you2 zhi1] /grease/oil/fat/ 卣 [you3] /wine container/ 友 [you3] /friend/ 懮 [you3] /grievous/relaxed/. sit. 外,還包含了片語和複合字的資. … 郵政 [you2 zheng4] /postal/. er. Nat. 辭典除了一對一的中英翻譯以. ‧. 由圖4.2我們可以得知,此. engchi. i Un. v. 單字詞外,還包含了「there is、. 有 [you3] /have/there is/there are/exist/be/. there are 」 這 類 的 複 合 字 或 片. … 圖 4.2 CEDICT 漢英電子辭典檔內部格式範例. 語。針對此類型的資訊,對列模 組在進行對列的時候,將會把複合詞和片語這類多個單字組合而成的字串,當作對列過 程的首要任務,如此一來便可以從字對字(word-by-word)的對列,擴展成一個中文字 詞可以對應多個英文字詞。. 19.

(31) 表 4.3 一對一之詞彙對列 中文字詞. 醫院. 裡. 很少. 有. 男. 護士. 。. 英文字詞. There. are. few. male. nurses. in. hospitals. .. 在原始的詞彙對列模組,其只能一個中文字詞對應一個英文字詞,所以只能得到表 4.3的結果。我們可以發現中文字詞「有」,並無法成功的和「there are」產生連結,這是因 為「there are」必須兩個字詞連結在一起,才能與「有」這個中文字詞互為翻譯。因此我們 則可以善加利用辭典內部的資訊,來增加一個中文字詞可以對應到多個英文字詞的能. 政 治 大. 力,進而得到表4.4這樣的對列結果(目前模組只能處理「there are」這類連續的英文字詞,. 立. 「not only…but also」這類的字詞結構,我們的技術暫時無法處理) 。因此我們系統的技術. ‧ 國. 學. 便可依此類型辭典作為出發點,首先我們將中文字詞分別透過CEDICT電子辭典檔進行 相對應翻譯字詞的查詢,我們可以得到如表4.5的結果。. ‧. 以上面的敘述為基礎,接著開始正式進行辭彙對列模組的工作,在對列的過程中,. y. Nat. sit. 我們首先將所有的英文字詞轉化成小寫,進行第一輪的詞彙對列(如英文句中的開頭第. n. al. er. io. 一個字「You 」會被轉化成「you」 ),我們會由左至右依序把中文字詞透過CEDICT電子辭典. i Un. v. 檔,完成一個中文字詞對應一個或多個英文字詞的對列,若產生成功的對列結果,則在. Ch. engchi. 英文詞序的後方標記上其對應的中文詞序並以「/」隔開,表示此英文字詞已完成對列,不 需要在與其他中文字詞進行比對,結果如表4.6。 從表4.6中可以知道,我們的例句共有十二個英文字詞,而目前只有九個字詞可以成 功對列,對應率(「產生對列的英文字詞數」除上「英文句子的總字詞數」)為75%。. 表 4.4 整合一對多之詞彙對列 中文字詞. 醫院. 裡. 很少. 有. 男. 護士. 。. 英文字詞. There. are. few. male. nurses. in. hospitals. 20. ..

(32) 表 4.5 詞彙對列(a) 詞序. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 英文字詞. You. can. change. a. lot. of. functions. with. the. remote. control. .. 詞序. 1. 2. 3. 4. 5. 6. 7. 8. 中文字詞. 你. 可以. 用. 遙控器. you. can. use. remote control. alter. much. capability. a lot of. n. al. er. sit. y. ‧ 國. io. able to. function. transform. Nat. 21. possible. many. ‧. may. change. 。. 學. 翻譯 字詞. 立. 許多 政 治 大功能. 改變. Ch. engchi. i n U. v. ..

(33) 表 4.6 詞彙對列(b) 詞序. 1/1. 2/2. 3/5. 4/6. 5/6. 6/6. 7. 8. 9. 10/4. 11/4. 12/8. 英文字詞. you. can. change. a. lot. of. functions. with. the. remote. control. .. 政 治 大. 立. 3. 4. 5. 6. 7. 8. 中文字詞. 你. 可以. 用. 遙控器. 改變. 許多. 功能. 。. you. can. use. remote control. change. many. function. alter. much. capability. al. y. sit. a lot of. n. able to. .. transform. io. possibl e. er. may. ‧. 翻譯 字詞. ‧ 國. 2. 學. 1. Nat. 22. 詞序. Ch. engchi. i n U. v.

(34) 4.1.2 以原詞還原為基礎進行詞彙對列 在辭典為基礎的詞彙對列中,對列模組以原始的英文句子當作對列目標,主要的原因是 我們所使用的辭典內部會有許多複合詞的資訊,如「 撲克牌」所對應的翻譯詞為「playing card」,如果直接先對原始英文句子進行還原處理(lemma) ,則會把 「playing」還原成「play 」,這樣便無法正確的把兩組詞會產生連結,因此我們會先把原始英文句進行以辭典為 基礎的對列之後,才針對還沒有完成的英文字詞進行原詞還原(lemmatization)以執行 對列動作。. 立. 政 治 大. 而執行原詞還原的目的是,英文字詞常在不同的詞性或是不同的時態下,皆會對原. ‧ 國. 學. 始的單字進行一些變化,因此在第二步驟的詞彙對列中,我們將會對尚未完成對列的英 文字詞,透過史丹佛詞性標記器(Stanford Part-Of-Speech tagger)來進行原詞還原,期. ‧. 盼加強整體的對應率。. y. Nat. er. io. sit. 主要的概念在於,一句英文句子常會因為時態(如過去式、現在進行式和未來式), 或者是前後文的因素來改變其單字的型態(如複數型態等),而我們手邊的辭典檔內部. n. al. Ch. i Un. v. 大多都是儲存英文單字的原始形態。基於這個情況,我們必須對輸入的英文句子進行原. engchi. 詞處理,進而使英文句子經過斷詞之後的英文字詞,可以不因為時態和複數等因素而無 法進行詞彙對列。 Porter[34]是提出詞幹處理(stemming)的先驅,主要是透過字尾的字串規則來進行 辨識,再透過其撰寫的規則來進行英文字詞還原。例如字尾最後有 「y」的就直接把「y」 刪 除 改 「成. e 」 ( policy→police ), 字 尾 最 後「 是. ization 」 就 刪 去 「 ization 」. (organization→organ),透過大量規則可以快速的得到英文字詞的原始型態,但是這樣. 23.

(35) 子的做法,常會出現許多問題,如「European」便無法成功的還原成「Europe」,「playing」 會被還原成「plai」,這類情況會導致詞彙對列模組的失誤。 基於上面這點,我們也試圖使用WordNet3.0[42]來協助我們進行原詞處理,但由於 其內部資料所含的不規則變化詞彙只有5,952個,這些資訊量並不足以支援我們的詞彙對 列模組,所以最後為了在原詞處理可以得到較佳的效果,我們先利用史丹佛剖析器將英 文字詞進行詞類標記,再將其英文字詞和詞類標記一起透過史丹佛詞類標記器作型態上 的(morphological)原詞還原。史丹佛詞類標記器產生的所有標記,皆採用 「Penn. 政 治 大. Treebank Tags」,同時其內部也提供相關的還原函式輔助系統進行原詞處理。. 立. ‧ 國. 學. 我們針對表4.6中尚未完成對列的字詞進行原詞處理,英文第七個字詞 「functions」複 數型態(其詞性標記為NNS),透過史丹佛詞類標記器還原成原型「function」,而「with」. ‧. 一樣透過內建函式進行查詢,其結果與原始的字詞相同,在此我們以原始字詞「with」進. sit. y. Nat. 行標記,如圖4.3所示,左邊為輸入字串「英文字詞/詞類標記」,右邊則為輸入字串「還原. io. n. al. er. 後的英文字詞」。接著進行第二輪的詞彙對列,整體的效果如表4.7所示。. Ch. engchi. i Un. v. functions/NNS → function with/IN → with 圖 4.3 史丹佛詞類標記器原詞處理之結果. 24.

(36) 表 4.7 詞彙對列(c) 詞序. 1/1. 2/2. 3/5. 4/6. 5/6. 6/6. 7/7. 8. 9. 10/4. 11/4. 12/8. 英文字詞. you. can. change. a. lot. of. functions. with. the. remote. control. .. function. with. 原詞還原. 政 治 大. 立. you. can may. 8. 用. 遙控器. 改變. 許多. 功能. 。. use. remote control. change. many. alter. much. transform. a lot of. io. possible. 7. Nat. 25. 翻譯 字詞. 6. al. n able to. Ch. engchi. function. y. 可以. 5. sit. 你. 4. er. 中文字詞. 3. ‧ 國. 2. ‧. 1. 學. 詞序. i n U. v. capability ..

(37) 4.1.3 以同義詞詞林為基礎進行詞彙對列 … Aa042,他們 Aa042,她們 Aa042,彼等 Aa051,自己 Aa051,自個兒 Aa051,自各兒 Aa051,自身 Aa051,本身 Aa051,我. 第三個步驟,由於中文字詞的多樣性,往往一個中文字 詞的意思,我們可以用其他中文字詞來表示,以「用」舉 例說明,在某些句子的情況下,我們也可以用「以」、「 使用」和「花費」等來代替「用」這個中文詞彙,為了增加 更多對應的可能性,所以我們系統則採用哈爾濱工業大. 政 治 大 詞林)[7]來進行中文詞彙擴展(Expansion of Chinese 立. 學訊息檢索實驗室同義詞詞林擴充版(以下稱為同義詞. ‧ 國. 學. Words) 。原始版的同義詞詞林為梅家駿等人[15]在 1983. … 圖 4.4 同義詞詞林內部格式. 年編撰而成,作者最初是希望能提供較多的同義詞,來協助創作或是翻譯工作人員有較. ‧. 多的幫助,而哈爾濱工業大學訊息檢索實驗室,發現其原始版本由於年代久遠,有許多. sit. y. Nat. 因為時間因素所延伸的新詞彙沒有被加入,進而投入大量的資訊進行擴充,完成一部具. io. al. er. 有漢語大詞表的哈工大訊息檢索實驗室同義詞詞林擴充版,內部含有 66,697 個中文字詞,. v. n. 且將這些字詞分為 5,353 個類別,內部資訊如圖 4.4 所示。. Ch. engchi. i Un. 基於效率的問題,我們一樣只針對尚未對列之中文字詞進行擴展,步驟一、首先將 尚未進行連結之中文字詞透過同義詞詞林,以得到中文字詞所屬的同義詞群編號。步驟 二、承接步驟一所得到的同義詞編號,一樣透過同義詞詞林來獲得中文同義詞,如表4.8 所示,中文字詞「用」可以在步驟一得到「Dj083、Fc061、Hc252、Hj281、Jc051、Kb052、 Kc092」共七個同義詞群編號,在步驟二時,則利用這七個編號,去查出屬於該類別的中 文字詞,最後可以得到大量相似於「用」的同義詞。 最後重複4.1.1節和4.1.2節的步驟,將這些中文同義詞透過索引字詞資料庫,先進行 與原始英文句相對應翻譯字詞的查詢,再透過原詞還原去比對尚未產生連結的英文字 26.

(38) 詞,對列模組會得到大量的翻譯候選字,再逐字與英文字詞和原詞還原進行比對,若有 相符的字詞,一樣標記上其對應的中文詞序,整體的最後結果如表4.9所示。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 27. i Un. v.

(39) 表 4.8 詞彙對列(d) 詞序. 1/1. 2/2. 3/5. 4/6. 5/6. 6/6. 7/7. 8. 9. 10/4. 11/4. 12/8. 英文字詞. you. can. change. a. lot. of. functions. with. the. remote. control. .. function. with. 原詞還原. 你. 可以. 用. 改變. 許多. 功能. 8 。. 用,用度,用費,花費,花項,用項,… 用,啖,服,偏,飽食,…. Fc061. al. Hc252. n. 詞林. 7. ‧. io 同義詞. 6. Dj083. Nat. 28. 同 義 詞 群 編 號. 遙控器. 5. y. 中文字詞. 立. 4. sit. 3. Ch. Hj281 Jc051. er. 2. ‧ 國. 1. 學. 詞序. 政 治 大. i n U. 同義詞. i e n g c h詞林. 步驟二 Kc092. 用,以,使,動,下,祭,自用,… 欲,用,得,待,提供,… 給,受,以,用,拿,將,…. Kb052 步驟一. v. 收錄,錄取,齒錄,收齒,用,…. 故此,故而,從而,故,用,….

(40) 表 4.9 詞彙對列(e) 詞序. 1/1. 2/2. 3/5. 4/6. 5/6. 6/6. 7/7. 8/3. 9. 10/4. 11/4. 12/8. 英文字詞. you. can. change. a. lot. of. functions. with. the. remote. control. .. function. with. 原詞還原. 政 治 大. 你. 可以. 用. 給. 遙控器. 改變. 許多. 功能. 。. /to/for/for the benefit of/give/allow/…. al. /receive/accept/suffer/subjected to/…. CEDICT 花費. 8. /use/according to/so as to/in order to/by/with/because/…. 查詢. n. 受. 7. io. 翻 譯 候 選 字. 6. Nat. 29. 以. 5. y. 中文字詞. 4. sit. 3. er. 2. ‧. 1. 學. 詞序. ‧ 國. 立. Ch. 辭典檔. iv n e n/expense/cost/spend/expenditure/ gchi U. 用項. /items of expenditure/expenditures/. 收錄. /include/included in/record/. …. ….

(41) 輸入:中英文平行句對 You can change a lot of functions with the remote control. 你可以用遙控器改變許多功能。 前處理:將來源中文句子透過中研院斷詞系統進行斷詞,得到來源中文字詞 將目標英文句子透過史丹佛剖析器得到每個目標英文字的詞性標記 Step 1:以來源中文字詞作為索引字,透過 CEDICE 電子辭典互為翻譯的英文字詞, 並對目標英文句子進行比對 Step 2:把尚未完成對列之目標英文字,利用史丹佛詞性標記器對目標英文字進行詞 性還原,並重複一次 Step 1 Step 3:把尚未完成對列之來源中文字詞,透過同義詞詞林獲得來源中文字詞之同 義詞,再將同義詞當作索引字重複一次 Step 1 Step 4:以 0 表示對列過程中無法產生連接 輸出:中英平行句對之相對應詞序[英文詞序/中文詞序]. 學. ‧ 國. 立. 政 治 大. ‧. You1 can2 change3 a4 lot 5 of6 functions7 with8 the9 remote10 control11 .12. [2/2] [3/5]. 4. 5. 6. 7. 8. er. 3. a l [5/6] [6/6] [7/7] [8/3] i v[9/0] n C4.5 圖 U h e詞彙對列流程與結果 i h ngc. n. 2. io. [1/1]. 1. sit. y. Nat. 你 可以 用 遙控器 改變 許多 功能 。 [4/6]. [10/4]. [11/4]. [12/8]. 最後我們將沒有成功對列的英文字詞「the」,以「0」表示它無法找到其對應的中文字 詞,整體的流程與結果,如圖4.5所示。. 30.

(42) 4.2 遺留字詞的利用 在上一小節中,我們以高中英文共 9954 組平行句對,依序透過詞彙對列模組,來找出 中文詞序與英文詞序之間的相互關係,如果模組可以成功的找出大量中英文詞序間的關 係,便可以得到更多的詞序範例樹,則我們可以更進一步的利用這些詞序範例樹,讓翻 譯系統能得到更佳的翻譯效果。基於上述原因,翻譯系統所需要的詞序範例樹,完全依 靠詞彙對列技術的優劣,本小節將來探討平行句對經過詞彙對列技術之後,所遺留的字. 政 治 大. 詞是否還有可以利用的資訊。. 立. 中英文平行句對經過詞彙對列之後的結果,主要分成「完全對列」、「只遺留中文字. 為什麼. io Why. are. 不斷. 地. Learning. 只遺留 英文字詞 中英都有 遺留字詞. y 這裡. constantly. from everyday life. 一定. The. price. 因為. 它. ?. a l you standing here ? i v n C 生活 中 U學習 在 he i h ngc. 價錢. Because. 在. n. 只遺留 中文字詞. 站. sit. 你. must 有. it. 遺留字詞. 數量 0. er. 完全對列. 對列結果. Nat. 情況. 表 4.10 詞彙對列完畢之情況. ‧. ‧ 國. 學. 詞」、「只遺留英文字詞」和「中英都有遺留字詞」共四種情況,我們利用表 4.10 來說明。. has. 很. be 很多. a. high. 咖啡因. 31. 。. of. 地. 中. .. 高. very. lot. 0. 0 。. .. 。. caffeine. 2. .. 0. The. 1. 很多. 1. a. 3. lot of.

(43) 表 4.11 對列結果統計 情況. 數量. 整體比例(%). 完全對列. 21. 0.2. 只遺留中文字詞. 194. 2.0. 只遺留英文字詞. 107. 1.0. 中英都有遺留字詞. 9631. 96.8. 「完全對列」代表中英平行句對透過詞彙對列模組,可以完美找到互為翻譯的字詞, 且沒有任何遺留字詞。這類情況所建立的詞序範例樹,有助於後端系統在進行翻譯時, 先執行詞序互換的動作,再透過英漢辭典檔找尋其所對應的翻譯,導入機率式選詞系統. 治 政 大 來選取較正確的中文翻譯,最後再透過填補量詞技術來完成翻譯的結果。 立 ‧ 國. 學. 但實際上,如表 4.11 對列結果統計所示,「完全對列」的句對數量相當稀少,因此 在張智傑的系統中,採用了設立門檻值來獲得較多的詞序範例樹,其論文中設定對列結. ‧. 果的對應率(「產生對列的詞彙數」除上「來源句子的總詞彙數」)有 60%以上便採用。雖. Nat. sit. y. 然這樣的方案,可以造成整體的「量」上升,卻也連帶造成「質」的下降。因此我們想到其. er. io. 他三個情況,是否有可再度利用的資訊,有助於我們得到更多「完全對列」的句對數目。. n. a. l C 4.2.1 停用詞列表與遺漏詞修補. hengchi. 「只遺留中文字詞」代表英文句子內數個字詞,全 部都可以找到所對應的中文字詞,但卻有某些中 文字詞沒有被對應到,如表 4.10 所示。在這種 情況之下,我們將會討論次數較高的中文字詞, 其代表的是詞彙對列技術有誤?還是屬於中文 語法中的語助詞?(代表為虛詞的一種,常置於 句子的尾端或是在句子中間,可以表示特定的語. 32. i Un. v. 表 4.12 中文遺留字詞次數統計 中文字詞 次數 的 55 個 11 在 11 了 11 嗎 7 要 6 都 6 … ….

(44) 氣,或是當作暫時停頓的功能。如:了、呢、嗎、乎、也等。 1),在此我們將統計此類 的字詞頻率,結果如表 4.12 所示。 首先我們發現最次數最高的中文字詞是「的」,從中文語言的特性中我們知道,「的」 隸屬於兩大類的詞性,分別為結構助詞和句尾助詞。結構助詞通常出現在各種詞性的後 面,如形容詞(美麗的女孩) 、名詞或代名詞(如:我的實驗報告) 、修飾片語或是子句 (她看過的那個人)和副詞(慢慢的說);句末助詞則置於句尾,用來表示肯定或是加 強的語氣,例如「這樣子是不對的!」這類的句型。. 政 治 大 在此我們提出了兩種看法,一種是斷詞系統的錯誤,另一種代表 「的」真的屬於中文 立. ‧ 國. 學. 句尾助詞,經過人工觀察的結果,我們發現中研院斷詞系統時常把 「的」,斷成一個獨立 的字詞;也就是說,中研院斷詞系統時常把帶有 「的」之詞彙斷成兩個字詞,如「開心的」. ‧. 會被斷成「開心」和「的」、「我們的」會被斷成「我們」和「的」,也因為這種狀況,會連帶詞. sit. y. Nat. 彙對列模組在進行辭典查詢時會有一些失誤的情況。所以我們將會重新對中研院斷詞系. io. er. 統所產生的字詞集合,進行一些修正,主要的步驟是我們將會重新檢視斷詞後的結果,. al. iv n C hengchi U 內部的資訊進行比對,假若合併後的字詞有出現在辭典檔內部,我們則重新將兩個字詞 n. 當「的」被斷為單一字詞後,系統將會試探性地將「的」與前一個字詞合併,接著與辭典檔. 串連起來。 下面以表 4.13 為例,在進行修補之前,我們的系統會依序把中文字詞透過辭典查 詢,得到大量的英文字詞,此時「你的」因為斷詞的錯誤而被斷成「你」和「的」兩個字詞, 因此造成了詞彙對列模組的錯誤,把 「的」判斷成為「的確」,因而與「really」稱生錯誤的連 結,當中英詞彙間產生連結之後,便表示以後的字詞便不能進行干涉,而失去「really」. 1. 引用自教育部重編國語辭典修訂本. http://dict.revised.moe.edu.tw/cgi-bin/newDict/dict.sh?idx=dict.idx&cond=%BBy%A7U%B5%FC&pieceLen=50&fld=1&cat=&imgFont=1. 33.

(45) 表 4.13 利用中文遺漏詞進行修補 若無進行修補 東尼. ,. Tony ,. 你 your. 的. 房間. room. 真是. is. 亂. 。. really messy .. 修補之後 東尼. ,. Tony ,. 你的 your. 房間 room. 真是 is. 亂. 。. really messy .. 政 治 大 結,把「你」和「的」這兩個中文字詞綁在一起,並且與「your」成功的連結在一起,並且完 立. 其實應該和「真是」產生正確的對應。而透過修補的動作,我們便可以避開這種錯誤的連. ‧ 國. 學. 成「really」和「真是」之間的連線。. 頻率第二高的中文遺留字詞有「個」、「在」和「了」,「個」 常可被當作量詞來使用 2,. ‧. 我們發現中研院斷詞系統會把量詞斷成獨立的字詞,如 「一個學習的經驗」會變成「一 個」應該被合併成同一個字詞,我們一. sit. 學習 的 經驗」共五個字詞,而實際上「一. y. Nat. 個. al. n. 檔來驗證。. er. io. 樣將會對「個」這個字詞進行修補,與「的」之方法相同,一樣會把修補後的字詞藉由辭典. Ch. engchi. i Un. v. 我們也觀察語料中「在」和「了」被遺留下來的例子,如「他 在 想 她 到底 發生 了 甚麼 事 。」例子表示,「在」代表的是一個正在進行的動作 3,而 「了」則代表動作的結束4, 這兩個字詞都帶有時態的意涵。在詞彙對列的過程中,我們模組主要是處理英文字詞的. 2. 引用自教育部重編國語辭典修訂本 http://dict.revised.moe.edu.tw/cgi-bin/newDict/dict.sh?cond=%AD%D3&pieceLen=50&fld=1&cat=&ukey=-17 31247828&serial=2&recNo=74&op=f&imgFont=1 3 引用自教育部重編國語辭典修訂本 http://dict.revised.moe.edu.tw/cgi-bin/newDict/dict.sh?cond=%A6b&pieceLen=50&fld=1&cat=&ukey=-822279 691&serial=3&recNo=198&op=f&imgFont=1 4 引用自教育部重編國語辭典修訂本 http://dict.revised.moe.edu.tw/cgi-bin/newDict/dict.sh?cond=%A4F&pieceLen=50&fld=1&cat=&ukey=-173124 7828&serial=1&recNo=121&op=f&imgFont=1 34.

(46) 時態變化,透過史丹佛詞類標記器進行詞性還原,才會造成「在」、「了」這類字詞產生遺 留。而我們詞彙對列模組主要是要獲得英文字詞對應中文字詞的詞序,而這類的字詞並 不會使對列結果產生錯誤的連結,因此我們不對這兩個字詞進行修補。 「只遺留英文字詞」,這類的情況與「只遺留中. 表 4.14 英文遺留字詞次數統計. 文字詞」類似,我們 一樣討論次數較高的英文字. 英文字詞. 次數. the. 81. 詞,進而提升詞彙對列的召回率和精確率。主要的. to. 55. 步驟是,我們先統計詞彙對列的結果,並取出「只. a. 27. is. 17. that. 16. in. 12. of. 11. it. 11. for …. 9 …. 政 治 大. 遺留英文字詞」的平行句對,我們發現所遺留的英. 立. sit. Nat. the」產生正確的連結,以 「the」為例探討其所屬的. ‧. 留英文字詞的情況中,將近有八成的句對無法將「. y. 其中最高次數的字詞為「the」,在 107 句只遺. 學. ‧ 國. 文字詞次數統計如表 4.14 所示。. io. er. 詞性,分別常見於冠詞類別(article)或是副詞類別(adverb)5。其中 「the」當作冠詞時,. al. iv n C hengchi U 實際上發現,平行句對的中文句子有一定比例不對「the」進行翻譯,如「You can change a n. 常可翻譯成「這(個) 、那(個) 、這些、那些」,這些翻譯大多數都出現在名詞之前。而. lot of functions with the remote control .」其中文翻譯可為「你可以用遙控器改變許多功 能。」,或是「你可以用『這個』遙控器改變許多功能。」。實際上,在這種情況下「the」 應該和「remote control」合併,並且與中文字詞「遙控器」進行對列,結果如表 4.15 所示。. 5. 引用自譯典通線上詞典 http://www.dreye.com:8080/axis/ddict.jsp?ver=big5&dod=0102&w=the 35.

(47) 表 4.15 利用英文遺漏詞進行修補 詞序. 1/1. 2/2. 3/5. 4/6. 5/6. 6/6. 7/7. 8/3. 9/4. 10/4. 11/4. 12/8. 英文字詞. you. can. change. a. lot. of. functions. with. the. remote. control. .. function. with. 原詞還原. 政 治 大. 可以. 5. 6. 7. 用. 遙控器. 改變. 許多. 功能. 8 。. Nat. 36. y. 你. 4. io. sit. 中文字詞. 3. n. al. er. 2. ‧. 1. 學. 詞序. ‧ 國. 立. Ch. engchi. i n U. v.

數據

表 4.2  中英文平行句對字詞詞序
表 4.17  辭典內部不慎完美之資訊
表 5.8  對列結果 b.
表 5.16  產生詞序範例樹之實驗語料  組別  句對數  範例樹數目  A  972  619  B  5462  5872  C  1985  1515  D  6437  7098  E  127  280  F  6341  17836  G  541  1246  H  8290  23687  I  1  3  J  722  5363  K  23  46  L  1544  12789

參考文獻

相關文件

「資訊證照 門檻、「英 語檢定門 檻」. 多修之學 分數得認

審查整理呈現資料:蒐集到的資料應先審核 是否完整、正確、合理與一致,然後利用敘

透過線上繳交作業,省時、環保。亦 能透過線上觀看作業批改結果,增進 英文寫作及翻譯能力。.. 第一次進入時,請先 註冊.. 點選

關於理解和連結的後設認知、以及對數學價值 的賞識態度。包括「為什麼要這樣」、「為什 麼是這樣」等問題的理解。「識」很難被翻譯

關於理解和連結的後設認知、以及對數學價值 的賞識態度。包括「為什麼要這樣」、「為什 麼是這樣」等問題的理解。「識」很難被翻譯

每年撥款約9億元,向 公營學校及直資學校 發放恆常的全方位學 習津貼,以支援學校 在現有基礎上更大力

 培養具有檔案學基礎知識與文化知識,掌握現代資訊技術的基 本技能,能在檔案館、國家機關和企事業單位的檔案機構、資

在資本形成方面,因半導體設備比較基數偏高,第1季資本設備