經由片語重排做英對中機器翻譯

全文

(1)國立交通大學資訊科學與工程研究所碩士論文. 經由片語重排做英對中機器翻譯 English to Chinese Machine Translation through Phrase Reordering. 研究生：張晉榮指導教授：梁婷博士中華民國一百零一年七月.

(2) 經由片語重排做英對中機器翻譯 English to Chinese Machine Translation through Phrase Reordering. 研究生：張晉榮. Student：Chin-Jung Chang. 指導教授：梁婷博士. Advisor：Dr. Tyne Liang. 國立交通大學資訊科學與工程研究所碩士論文. A Thesis Submitted to Institute of Computer Science and Engineering College of Computer Science National Chiao Tung University in partial Fulfillment of the Requirements for the Degree of Master in Computer Science July 2012 Hsinchu, Taiwan, Republic of China. 中華民國一百零一年七月 2.

(3) 經由片語重排做英對中機器翻譯. 研究生：張晉榮. 指導教授：梁婷博士. 國立交通大學資訊科學與工程研究所. 摘要. 機器翻譯已經有很多重要的應用，例如降低人工翻譯的成本、減輕語言在地化的工作、輔助語言學習等。一般的統計式片語翻譯系統如 Moses，是利用語言模型和片語表進行翻譯，但由於沒有考慮到來源和目標語句在詞彙順序上的不同，因此，翻譯的結果仍可做進一步的提升。目前有些研究已提出使用詞彙片語資訊重排來源語的詞彙，使得來源語句的詞彙順序更接近目標語。但由於每個句子涵蓋的詞彙資訊重複性太低，造成長距離片語重排困難，所以也有學者提出使用句法樹的句法資訊和詞性對來源語句做片語重排。但這些研究並沒有探討重排模型在各種不同片語最大長度下翻譯的成效。因此，本研究提出階層式的詞彙、句法、混合二者的片語重排模型和句法樹片語重排模型。在實驗中，我們以 1085 英文句子分別對這四種模型進行翻譯實驗，結果顯示所提出的方法在不同長度的片語翻譯都得到較佳的 BLEU score。. i.

(4) English to Chinese Machine Translation through Phrase Reordering Student: Chin-Jung Chang. Advisor: Dr. Tyne Liang. Institute of Computer Science and Engineering National Chiao Tung University ABSTRACT. There are many important applications for machine translation language learning assistance and cross-lingual information retrieval. Some statistic phrase-based translation systems, e.g, Moses, translate sentences on the basis of a language model and a phrase table. Such systems do not consider word order difference between source sentences and target sentences. Some previous researches suggest that reordering source words with lexicon phrase information will increase the structure similarity between source and target sentences. However, it is difficult to do long distance reordering due to the shortage of lexicon information in sentences. In order to resolve this issue, some researches suggest to reorder source phrases using syntax trees and part of speeches. However, translation performance with respect to different maximum phrase lengths was not considered in their results. In this thesis, hierarchical reordering models using lexical and syntactic phrases and syntax tree phrase reordering model are proposed and discussed. In the experiments, the proposed approaches were verified on the real corpus containing 1085 English sentences. Experimental results showed that our approaches outperformed the previous models in different kinds of phrase lengths. ii.

(5) 誌謝感謝 Moses-Support 的 Hieu Hoang、Philipp Koehn、Ventsislav Zhechev、Barry、 Nicola Bertoldi、Tom Hoar，在 Moses 遇到問題的時候給予解答，尤其感謝 Philipp Koehn 在我遇到解不出的困難時給予幫助。感謝上帝在我遇到困難快要撐不住，睡不著覺的時候，給予解決問題的靈感，最後感謝老師和學長們提供的電腦和建議。. iii.

(6) 目錄摘要................................................................................................................................. i ABSTRACT................................................................................................................... ii 誌謝............................................................................................................................... iii 目錄............................................................................................................................... iv 表目錄........................................................................................................................... vi 圖目錄.......................................................................................................................... vii 第一章緒論.................................................................................................................. 1 1.1 介紹.............................................................................................................. 1 1.2 相關研究...................................................................................................... 2 第二章片語重排模型.................................................................................................. 5 2.1 問題定義...................................................................................................... 5 2.2 模型.............................................................................................................. 5 2.2.1 句法樹片語重排模型........................................................................ 5 2.2.2 階層式句法片語重排模型................................................................ 7 第三章來源片語重排演算法...................................................................................... 8 3.1 句法樹片語重排.......................................................................................... 8 3.1.1 建構句法樹的資料結構.................................................................... 8 3.1.2 訓練階段.......................................................................................... 10 3.2 階層式句法片語重排................................................................................ 11 3.2.1 來源片語順序的定義...................................................................... 12 3.2.2 訓練階段.......................................................................................... 13 第四章系統流程圖.................................................................................................... 17 4.1 語料前處理................................................................................................ 17 4.1.1 英文語料.......................................................................................... 17 4.1.2 史丹佛句法分析器.......................................................................... 18 4.1.3 輸出詞彙語塊序列.......................................................................... 18 4.1.4 字對齊檔案...................................................................................... 19 4.1.5 過濾器.............................................................................................. 19 4.1.6 句法樹資料...................................................................................... 20 4.2 模型執行流程圖........................................................................................ 20 4.2.1 句法樹片語重排模型....................................................................... 20 4.2.1.1 訓練階段.............................................................................. 20 4.2.1.2 擷取重排規則...................................................................... 21 4.2.1.3 英文測試語料...................................................................... 22 4.2.1.4 句法樹資料.......................................................................... 22 iv.

(7) 4.2.2 階層式句法片語重排模型.............................................................. 22 4.2.2.1 輸出語塊.............................................................................. 23 4.2.2.2 片語關係資料...................................................................... 24 4.3 評估階段.................................................................................................... 24 4.3.1 Moses 工具 ...................................................................................... 24 4.3.2 中文參考句子.................................................................................. 25 第五章實驗結果與分析............................................................................................ 26 5.1 詞彙跳躍距離............................................................................................ 26 5.2 Moses 片語 ................................................................................................ 27 5.3. 片語最大長度............................................................................................ 27 5.3.1 片語最大長度 1............................................................................... 27 5.3.2 片語最大長度 2............................................................................... 29 5.3.3 片語最大長度 3............................................................................... 32. 5.3.4 片語最大長度 4............................................................................... 32 5.3.5 片語最大長度 7............................................................................... 33 5.4 相關實驗比較.............................................................................................. 36 第六章結論................................................................................................................ 38 參考文獻...................................................................................................................... 39 附錄.............................................................................................................................. 42. v.

(8) 表目錄表 1：句法樹資料 ....................................................................................................... 8 表 2：句法樹節點架構 ............................................................................................... 8 表 3：建構資料結構的演算法 ................................................................................... 9 表 4：句法樹片語重排模型-訓練階段例子 ........................................................... 11 表 5：階層式句法片語重排模型-訓練階段例子 ................................................... 14 表表表表. 6：詞彙語塊資料 ................................................................................................. 18 7：字對齊資料 ..................................................................................................... 19 8：原始的句法重排規則 ..................................................................................... 21 9：擷取的句法重排規則 ..................................................................................... 21. 表 10：測試英文句子 ............................................................................................... 22 表 11：句法片語序列 ............................................................................................... 23 表 12：片語關係資料 ............................................................................................... 24 表表表表. 13：平均詞彙跳躍距離 ....................................................................................... 26 14：Moses 片語選取例子 .................................................................................... 27 15：片語最大長度 1，階層式句法片語重排模型重排英文句子範例 ............ 28 16：片語最大長度 1，階層式句法+詞彙片語重排模型重排英文句子範例 .. 28. 表表表表. 17：片語最大長度 1，句法樹片語重排模型重排英文句子範例 .................... 29 18：片語最大長度 2，階層式詞彙片語重排模型重排英文句子範例 ............ 29 19：片語最大長度 2，階層式句法片語重排模型重排英文句子範例 ............ 30 20：片語最大長度 2，階層式句法+詞彙片語重排模型重排英文句子範例 .. 31. 表表表表表. 21：片語最大長度 2，句法樹片語重排模型重排英文句子範例 .................... 31 22：片語最大長度為 4 的 Moses 片語拆解分佈 ............................................... 32 23：片語最大長度為 7 的 Moses 片語拆解分佈 ............................................... 33 24：片語最大長度 7，句法樹片語重排模型重排英文句子範例 .................... 34 25：片語最大長度 7，階層式句法+詞彙片語重排模型重排英文句子範例 .. 34 表 26：在不同片語最大長度下的 BLEU score....................................................... 35 表 27：在不同片語最大長度下的 BLEU gain ........................................................ 35 表 28：詞彙跳躍距離分佈 ....................................................................................... 35 表 29：Moses 片語分割次數分佈 ............................................................................ 36 表 30：在不同片語最大長度下的 BLEU gain ........................................................ 36 表 31：片語最大長度 1，前人的階層式詞彙片語重排模型重排英文句子範例 37. vi.

(9) 圖目錄圖 1：Google Translate 例子 ....................................................................................... 1 圖 2：句法樹例子 ....................................................................................................... 6 圖 3：句法樹例子 ....................................................................................................... 6 圖 4：階層式片語 ....................................................................................................... 7 圖 5：句法樹資料結構 ............................................................................................... 9 圖圖圖圖. 6：單調範例 ......................................................................................................... 12 7：單調範例 ......................................................................................................... 12 8：交換範例 ......................................................................................................... 12 9：不連續範例 ..................................................................................................... 13. 圖 10：前處理階段流程圖 ....................................................................................... 17 圖 11：句法樹例子 ................................................................................................... 18 圖 12：句法樹片語重排流程圖 ............................................................................... 20 圖圖圖圖. 13：階層式片語重排流程圖 ............................................................................... 23 14：評估階段流程圖 ........................................................................................... 24 15：片語最大長度為 4 的 Moses 片語拆解分佈 ............................................... 32 16：片語最大長度為 7 的 Moses 片語拆解分佈 ............................................... 33. vii.

(10) 第一章緒論. 1.1 介紹機器翻譯是很重要的研究，從規則式方式到現今的平行語料式翻譯，而這樣的演變過程主要是因為平行語料的增加，使得翻譯方式變簡單，只需要計算平行片語出現的機率並搭配動態規劃的方法就能找到一組翻譯的最佳解，但這樣的方法完全沒考慮到語言的文法和其特性。本研究要處理的是藉由片語重排來提升英文對中文的機器翻譯品質。需要片語重排的原因是由於每種語言的文法和句法特性不同，例如日文的 SOV 句法架構，是主詞+受詞+動詞的順序，而英文和中文則都是 SVO 句法架構。儘管英文和中文的句法架構一樣，但單就文法特性來講，英文和中文存在著文法不同的問題，例如英文的關係子句、副詞子句、介系詞片語是放在名詞的後面修飾名詞，但中文卻是反過來，所以基於這種問題就衍生出許多的研究 [Koehn et al., 2005] [Manning et al., 2008] [Ling et al., 2011] [Chao Wang et al., 2007] [Kei Hashimoto et al., 2009] [Visweswariah et al., 2010] [Genzel 2010]。片語重排的例子，以最近的 Google Translate1為例 (見圖 1)，從翻譯出來的結果，可以知道它有先將英文介系詞片語移到名詞前面再做翻譯，這樣的翻譯更合乎中文的文法。在過去的研究中，已經有使用詞彙資訊來做片語重排，例如[Koehn et al., 2005] [Manning et al., 2008] [Ling et al., 2011]。由於每個句子涵蓋的詞彙資訊重複性太低，造成長距離片語重排產生困難。為了解決這個問題，其他學者提出搭. 圖 1：Google Translate 例子. 1. http://translate.google.com/ 1.

(11) 配句法樹的句法資訊和詞性做片語重排的方法，例如 [Chao Wang et al., 2007] [Kei Hashimoto et al., 2009] [Visweswariah et al., 2010] [Genzel 2010]。他們提出相關的片語重排方法並使得 BLEU 分數得到顯著性的提升。這意謂著句法和詞性資訊的重要性，因為它能幫助做長距離的片語重排，使得統計式機器翻譯器的翻譯品質有機會能大幅度的上升。此外長距離片語重排並非在所有的狀況下都能使翻譯品質得到提升，因此我們在第五章詳細說明此問題並用統計的方式進行驗證。 2 最後本研究在 Moses 片語最大長度為 1、2、3、4、7 的情況下，使用階層式句法和句法詞彙片語重排模型針對 1085 句的英文句子做翻譯，前者得出來的 BLEU gain 分別為 0.43、1.15、0.91、0.84、0.72；而後者的 BLEU gain 分別為 0.61、1.56、1.41、0.89、0.25，這證明本論文提出的中距離片語重排模型對提升 BLEU score 的成效性。. 1.2 相關研究字詞式重排模型 (Word-based Reordering Model) [Koehn et al., 2005] 將一個來源句子分成多個長度不同的來源片語 (Source Phrase) ，並針對相鄰的來源片語定義出單調 (Monotone)、交換 (Swap)、不連續 (Discontinous) 三種不同的順序並以一個 N 乘 M 的對齊陣列來決定片語的順序，接著計算相鄰片語在三種不同順序中出現的次數，以預測相鄰片語的順序，但該方法只使用到詞彙的資訊，不考慮文法或者詞性的資訊，也沒有考慮擷取出來的片語品質。重排模型使用權重式字對齊矩陣 (Reordering Modeling using Weighted Alignment Matrices) [Ling et al., 2011] 則是改進上述的方式，使用到相鄰來源片語中的每一個來源字對齊到目標片語中目標字的位置資訊，以決定相鄰片語的順序。如此同樣的相鄰片語就不再只有一種固定的順序，也就可以套用機率去計算順序出現的可能。片語詞彙化重排摸型使用權重式重排圖 (Discriminative Phrase-based Lexicalized Reordering Models using Weighted Reordering Graphs) [Ling et al., 2011] 將一個來源句子分成多個長度不同的來源片語，並用那些片語來當作圖的節點，將節點和節點之間的邊上標示相鄰片語的順序。藉由計算路徑通過邊的機率，以算出相鄰片語在不同順序下的機率。該方法會對節點和邊給定權重，這是和前人 [Su et al., 2010] 研究最大的不同點。階層式片語重排模型 (Hierarchical Phrase Reordering Model) [Manning et al., 2008] 將一個來源句子分成多個來源片語並針對相鄰的片語定義出單調、交換、不連續三種不同的順序，如果相鄰的兩個片語的順序是單調，代表片語無須做重排；如果是交換，代表片語需要對調位置做重排；如果是不連續，代表兩個片語 2. http://www.statmt.org/moses/ 2.

(12) 不相鄰，無須重排片語。決定好相鄰片語的順序後，會使用來源片語內的來源字 (Source word) 對應到目標句子 (Target sentence) 的位置以決定是否要將相鄰的片語做合併。在不斷的合併後，片語長度會越來越長，就可以用更長片語做長距離重排 (Long Distance Reordering)。由於來源片語只使用到詞彙的資訊做重排，所以當片語越來越長該片語就無法在訓練語料中找到。最大熵片語重排模型 (Maximum Entropy Based Phrase Reordering Model) [Xiong et al., 2006] 則針對上面的問題提出改良。它和階層式片語重排模型最大的不同點在於該演算法從來源或目標片語中擷取出特徵來當作片語重排的依據，它將特徵分成詞彙特徵和詞語搭配特徵，其中詞彙特徵是使用來源或目標片語中的第一個詞彙當作重排的依據。詞語搭配特徵是使用相鄰的兩個來源或目標片語中的第一個詞彙當作重排的依據，但如何決定出更有用的特徵就成了另外一個問題。來源語句的語塊重排 (Chunk-Level Reordering of Source Language Sentences) 模型 [Zhang et al., 2007] 將來源語句轉成剖析樹並針對每一個擁有相同父節點 (Parent Node) 的葉節點輸出其詞性和詞彙群，最後產生出語塊序列；當處理新的來源句子就能根據舊有的語塊序列的順序來決定出正確的來源句子的語塊順序。它和片語重排模型最大的不同點在於它使用到詞性資訊，較不易陷於在訓練語料中找不到重排資訊的問題。但當來源句子的詞彙長度過長的時候一樣會發生在訓練語料中找不到重排資訊的問題。來源剖析樹之句法重排模型 (Reordering Model Using Syntactic Information of a Source Tree) [Kei Hashimoto et al., 2009] 將來源語句轉成剖析樹並定義出單調、交換兩種不同類型的子樹。單調代表子樹中的子節點無須做重新排列，交換代表子樹中的子節點需要做重新排列。藉由對子樹的節點做旋轉使得來源語句中的詞彙順序更接近於目標語句中的詞彙順序並達到長距離重排的效果。然而該演算法主要只考慮有兩個子節點的二元剖析樹，所以針對非二元的剖析樹還需額外做處理。句法式重排 (Syntax Based Reordering) [Visweswariah et al., 2010] 也是先將來源語句轉成剖析樹。它和前人 [Kei Hashimoto et al., 2009] 做法的不同點在於它是考慮每一個子樹的子節點的順序。利用重排子節點來做子樹的重排，使得來源語句的詞彙順序更接近於目標語句的詞彙順序。這種做法的好處在於可以從子節點的順序分析出語言使用的差異性，同時也能達到長距離重排的效果。自動學習來源語句的重排規則 (Automatically Learning Source-side Reordering Rules) [Genzel 2010] 和前人 [Visweswariah et al., 2010] 的做法類似。不同點在於它將節點的詞性和節點之間文法的關係 (Grammatical Relation) 做組合，以當作節點重排的根據。本研究和上述方法都不同，我們提出階層式句法重排模型，它使用剖析樹的資訊來做片語重排。該方法的優點是相較於詞彙資訊較不易陷入找不到訓練資料的困境，但是當句法片語長度越來越長時，一樣會遇到同樣的問題。另一個缺點 3.

(13) 是句法片語無法識別出英文慣用語和專有名詞，所以需搭配詞彙資訊來解決該問題。. 1.3 論文結構第二章定義要解的問題並介紹我們提出的片語重排模型。第三章深入闡述片語重排演算法。第四章說明系統流程的每一個步驟和其輸出。第五章分析實驗結果。第六章總結本研究的貢獻和未來研究方向。. 4.

(14) 第二章片語重排模型. 2.1 問題定義我們定義來源語句和目標語句，如下 = … = … 表示來源片語、表示目標片語；本研究的目標是讓來源片語順序更接近目標片語的順序，使得統計式片語翻譯器翻出來的品質提升。. 2.2 模型本研究用到兩個不同的片語重排模型，以下章節會逐步介紹. 2.2.1 句法樹片語重排模型句法樹片語重排模型使用句法剖析樹 (Syntax Tree) 、剖析樹節點、的子節點和其子節點的排列順序來找出每一個節點最有可能的子節點排列順序 (1). ′ = ∏௡೔∈௉் గ೔ᇲ ௜ᇱ |

(15) ௜ , ௜ , ௜ . (1). 經由排序剖析樹的子節點來達到子樹旋轉的目的，使得來源語句中的字順序更接近於目標語句中的字順序。該模型和前人 [Visweswariah et al., 2010] 不同點在於會使用子節點下面的子節點的句法標籤 (Syntax tag)，取代掉本身的句法標籤，讓擁有的句法資訊更具體，這麼做好處是可以避開節點重排的錯誤，如圖 2 的例子。. 5.

(16) 圖 2：句法樹例子由此可見要判斷英文句子是否包含關係子句，只使用 NP 和 VP 這兩個句法標籤是絕對不夠的，一定要將底層的〝DT NNS〞和〝VBN PP〞這兩個句法片語分別上傳給父節點的 NP 和 VP，才能識別出關係子句。但有一些包含慣用語的英文句子就算那樣做，依然無法避免節點重排錯誤的問題，例如圖 3 的例子，這種問題可以透過將底層的詞彙資訊上傳給父節點加以解決。. 圖 3：句法樹例子 6.

(17) 無論是使用 NP 句法標籤底下 DT、NN 子節點的句法標籤，或者直接使用 NP 本身的句法標籤，都會造成 NP 和 PP 這兩個相鄰的子樹做重排。因為中文的習慣性就是將介系詞移到名詞前面來修飾名詞，但該英文句子最恰當的翻譯是〝那裡有一群魚〞，所以如果是 PP 和 NN 對調的例子，則不可能會翻出該結果。. 2.2.2 階層式句法片語重排模型階層式句法片語重排模型使用來源語句和其對應的來源語句片語、句法片語 (Syntax Phrase) 來找出相鄰片語最有可能的順序，如公式(2) = …

(18) ℎ = … . ௜ , ௝ , = ௙೔,௙ೕ,௢ ௜ , ௝ , ௜ , ௝ . (2). 和為相鄰兩來源片語，和為和分別對應的句法片語，表示其順序，這裡定義出單調、交換、不連續這三種順序，分別表示相鄰兩片語無需交換、需要交換、不連續。相鄰兩片語可以由一群片語做重排後所組成(見圖 4)。. 圖 4：階層式片語這個模型有個好處是句法片語相較於詞彙片語而言，在訓練語料中比較容易找的到，較不會陷入找不到資訊的困境。但由於純粹只使用句法片語，所以當一個英文句子有包含慣用語，模型就會開始發生片語重排的錯誤，因此公式(2) 還可以再修改成公式(3). ௜ , ௝ , = ௙೔,௙ೕ,௢ ௜ , ௝ , ௜ , ௝ , ௜ , ௝ . (3). 可以預期在搭配詞彙片語的情況下，階層式句法片語重排模型的正確率會更高。儘管額外使用到詞彙資訊，但是當遇到新的專有名詞或慣用語時，還是會遇到詞彙資訊在訓練語料中找不到的問題。. 7.

(19) 第三章來源片語重排演算法本章節將詳細介紹本研究用的兩種演算法. 3.1 句法樹片語重排在切入實際演算法之前，第一小節會先說明該如何建構句法樹的資料結構. 3.1.1 建構句法樹的資料結構給定一個句法樹的資料 (見表 1) ，欲產生其對應的資料結構表 1：句法樹資料 (ROOT (NP (NP (NNP PROGRAMMES) (NNP IN) (NNP DEVELOPING) (NNP COUNTRIES)) (: ;) (NP (NNP IMPLEMENTATION) ) ) ) 這個步驟將讀入的句法樹字串資料轉換成句法樹的資料結構，演算法的詳細步驟如表 3。基本上是使用左括號和右括號來判斷一個子樹的資料是否已經結束，藉此決定該跳到樹的上一層還是下一層。左括號表示進入樹的下一層，右括號代表離開該層並回到樹的上一層，再決定好跳到哪一層之後，接下來就是針對該層做節點合併的動作。樹的節點架構如表 2。表 2：句法樹節點架構 Syntax tag or POS. lexicons or syntax tag sequence of child node. Word alignment number. Parent node index. Is leave flag. 由左到右，第一個欄位為句法標籤，如果該節點為內部節點，或詞性，如果該節點是葉子；第二個欄位為英文詞彙，如果該節點是葉子，或該節點下層子節點的句法標籤序列，如果該節點是內部節點 (Internal Node)；第三個欄位為字對齊的資訊，表示來源字對應到目標語句中的位置；第四個欄位為指向父節點的柱標；第 5 個欄位標記該節點是否為葉子。. 8.

(20) 圖 5：句法樹資料結構最後本步驟輸出如圖 5，圖中的父節點柱標以第四層 NNP 節點的柱標 3_2_0_2 為例，表示其父節點在第三層的第一個節點群組中任一個子群組中的第二個節點，柱標表示格式如下：層數_實際父節點的位置_群組位置_子群組中的位置表 3：建構資料結構的演算法 for each line in sys.stdin: if line length equal to zero break Tree = {} WordCount = 0 Level = 0 IsSyntaxNode = False IsWordNode = False SyntaxToken = '' WordToken = '' for each char in line: if IsSyntaxNode && (char != '(' && char != ')') : SyntaxToken += char if IsWordNode && (char != '(' && char != ')' : WordToken += char if char == '(': if SyntaxToken != '': generate a tree node N with SyntaxToken if node N shares the same parent node with current stored tree nodes at Level combine node N with current stored tree nodes at current tree 9.

(21) level else append the node N to current tree level Level += 1 IsSyntaxNode = True IsWordNode = False If char == ')': If SyntaxToken != '' && WordToken != '': generate a tree node N with SyntaxToken, WordToken if node N shares the same parent node with current stored tree nodes combine node N with current stored tree nodes at Level else append the tree node N to current level Level -= 1 If char is whitespace character IsWordNode = True IsSyntaxNode = False. 3.1.2 訓練階段由於在訓練階段節點會被標記字對齊數字，所以節點的順序就能由此數字的大小來定義 Step 1: 將葉子節點標記字對齊位置 Step 2: 針對第 i 層的每一個節點群組 Step 2.1: 將第三子群組的字對齊數字由小到大做排序，同時變更其對應到第二子群組的英文詞彙或者子節點句法序列的位置 (第一子群組的句法標籤節點位置不會變更) Step 2.2: 儲存第二子群組中詞彙或句法標籤序列排序前和後的資訊，並累計出現次數 Step 2.3: 如果該節點群組不在樹的最上層 (樹根)： 1. 將第一子群組的句法序列做合併並上傳到父節點所屬節點群組中第二子群組的位置 2. 將第三子群組最小的字對齊數字上傳到父親節點所屬節點群組中第三子群組的位置 Step 2.3: 如果該節點群組在最上層就終止，否則將 i-1 並跳回 Step 2。演算法實際運作的例子如下：(註：句號的字對齊數字是 8). 10.

(22) 表 4：句法樹片語重排模型-訓練階段例子. (Step 1). (Step 4: NP 和 VP 子樹旋轉). (Step 2). (Step 3: PP 和 VBG 子樹旋轉). (Step 5). (End). 在這個例子可以看出使用節點的子節點句法或詞性資訊，對於沒有關係代名詞的關係子句的重排有很大的幫助，因為要知道〝running on the street〞是關係子句就一定得知道〝VBG PP〞的句法標籤序列，所以只知道 VP 的句法標籤是絕對不夠的。. 3.2 階層式句法片語重排做法類似[Manning et al., 2008]，但是有以下五點關鍵的不同點 1. 使用句法片語的資訊做來源詞彙片語的重排 2. 使用句法片語加上詞彙片語的資訊做來源詞彙片語的重排 3. 標點符號、括號類為一個句子的中斷點，所以後續的片語不會針對標點符號前面的片語做重排 11.

(23) 4. 沒有使用目標語句的資訊 5. 是對句法樹產生的片語做重排而不是對解碼器選定的片語做重排後面的實驗會針對上面 1、2、5 點，對於 BLEU 的影響加以做分析。. 3.2.1 來源片語順序的定義以下定義單調、交換、不連續這三種片語順序：假設給定來源片語 f

(24) 、 f

(25) 和其對應的目標片語 f 、 f 加上字對齊數字 Alignment ，這裡 Alignment 表示來源片語 f

(26) 對應到目標片語 f 的位置 1. 如果 ≤ 且和數字為連續，則來源片語和為單調 (見圖 6、圖 7). 圖 6：單調範例. 圖 7：單調範例 2. 如果 > 且和數字為連續，則來源片語和為交換 (見圖 8). 圖 8：交換範例 3. 如果和的數字為不連續，則來源片語和為不連續(見圖 9) 12.

(27) 圖 9：不連續範例在圖 6 的例子中，〝Durning〞和〝the reporting peroid〞為單調，因為其對應到的字對齊位置分別為 0 和 1、2、3、4、5 且數字是連續的；在圖 7 的例子中，〝Adoption〞和〝of〞為單調，因為其對應的字對齊位置都是 0 且數字是連續的；在圖 8 的例子中，〝of〞和〝the Security Council〞為交換，因為其對應到的字對齊位置分別為 2 和 0、1 且數字是連續的；在圖 9 的例子中，〝the trend〞和〝towards〞為不連續，因為其對應到的字對齊位置分別為 2 和 0，兩數字不連續。. 3.2.2 訓練階段大致步驟如下： Step 1: 初始化 (清空) 句法片語和其對應的字對齊數字片語的堆疊 Step 2: 讀入句法和數字片語序列 Step 3: 針對每一個句法片語 phrase_i 和數字片語 number_phrase_i Step 4.1: 檢查句法片語的堆疊是否為空 Step 4.1.1: 如果是，就將 phrase_i 和 number_ phrase_i 放入各自的堆疊中，並跳回 Step 3；不是，就進入下一個步驟 Step 5: 檢查 phrase_i 是否包含括號或標點符號；如果有，number_ phrase_i、 phrase_i 直接放入各自的堆疊 (不做合併)，然後累計 (phrase _j, phrase_i, discontinuous) 的次數，並跳回 Step 3；沒有，就進入下一個步驟 Step 6: 檢查數字片語堆疊頂端的 number_ phrase_j 和 number_ phrase_i 是否連續；如果是，就到下一步驟；如果不是，就將 number_ phrase_i、phrase _i 放入句法堆疊，然後累計 (phrase_j, phrase_i, discontinuous) 的次數，並跳回 Step 3 Step 7: 檢查句法堆疊頂端的 phrase_j 和 phrase_i 是否為單調的關係；如果是，就將 phrase_i 和 phrase_j 做合併，然後累計 (phrase_j, phrase_i, monotone) 的次數，並跳回 Step 3；如果不是，就將 phrase_j 和 phrase _i 做交換合併，然後累計 (phrase_j, phrase_i, swap) 的次數，進入下一步驟 Step 8: 檢查數字堆疊頂端的 number_ phrase_j 和其下面的 number_ phrase_j-1 是否連續；如果不是，就累計 (phrase_j-1, phrase_j, discontinuous) 的次數，並跳回 Step 3；如果是進入下一步驟 Step 9: 檢查句法堆疊頂端的 phrase_j 和其下面的 phrase_j-1 是否為交換的關係；如果不是，就將 phrase_j-1 和 phrase_j 做合併，然後累計 (phrase_j-1, phrase_j, monotone) 的次數，並跳回 Step 8；如果是，就將 phrase_j-1 和 phrase_j 做交換 13.

(28) 合併，然後累計 (phrase_j-1, phrase_j, swap) 的次數，並跳回 Step 8 註：訓練階層式詞彙片語重排模型的方法，如法炮製，只需要將句法片語替換成詞彙片語即可這個演算法基本上就是檢查相鄰的句法片語的關係，並根據關係決定要不要將片語做合併、或者交換合併。所謂的合併，指的是直接將兩個句法片語合併，不做對調；交換合併，則是合併之前先將句法片語順序對調。比較特別的是，這裡使用標點符號當作一個英文子句的中斷點，因為多半時候，標點符號後面的子句都不會用來修飾標點符號前面的子句，當然有些關係子句例外，例如下面的例子： Matthew and his sister Loretta, who skateboard in the street, are especially noisy in the early evening.3 這個英文句子中，因為〝his sister Loretta〞是比較具體的名詞，所以〝his sister Loretta 〞需要用逗號來分隔關係子句，像這種關係子句稱為非必要子句 (Nonessential clause)。最後演算法實際運作的例子如下： {IN_0}{NP_1#2#3#4#5}{,_6}{NP_14}{IN_12}{NP_13}{IN_13}{NP_10}{IN_9}{ NP_7#8}{VP_11}{._15} 表 5：階層式句法片語重排模型-訓練階段例子 Step 1: 兩個堆疊都為空，直接將片語和其數字片語放入堆疊. Step 2: 堆疊頂端的片語 'IN' 和正在處理片語 'NP' 為單調，因為字對齊片語堆疊的數字為連續，累計('IN', 'NP',monotone)之後合併兩片語. 3. http://www.chompchomp.com/terms/relativeclause.htm 14.

(29) Step 3: 動作同 Step 2. Step 4: 堆疊頂端的片語 'IN NP ,' 和正在處理片語 'NP' 為不連續，因為字對齊數字片語和堆疊內的數字片語不連續，所以直接放入'NP'不做合併. Step 5: 堆疊頂端的片語 'IN' 和正在處理的片語 'NP' 為連續且單調，所以 'NP' 和 'IN' 做合併成 'IN NP'. Step 6: 堆疊頂端下面的句法片語和頂端的片語為連續且交換，所以 'IN NP' 和 'NP' 做交換合併. 15.

(30) Step 7: 堆疊頂端的片語 'IN NP NP' 和正要處理的片語 'IN' 為連續，但是因為數字堆疊頂端的 14 小於 13 ，所以 'IN NP NP' 和 'IN' 做交換合併. Step 8: 堆疊頂端的片語 'IN IN NP NP' 和正要處理的片語 'NP' 為不連續所以 'NP' 直接放入堆疊，不做合併. Last Step: Step 9~Last Step 的中間步驟全部以此類推，最後可得到下面的結果. 純粹使用句法片語的壞處，從這裡可以推測出來，例如：〝I prepare for the dinner.〞這個句子中使用到動詞慣用語〝prepare for〞，它對應到的句法標籤是〝VP PP〞，依照中文的習慣英文的介係詞會移到動詞的前面去修飾它，因此〝prepare for〞就會被拆開，模型就會發生錯誤，所以要解決這個問題，就必須搭配使用詞彙資訊。. 16.

(31) 第四章系統流程圖以下章節會說明句法樹片語重排模型和階層式句法片語重排的系統流程並詳細解釋每一個元件做的工作。由於這兩個模型互相共用同一個前處理階段 (Preprocessing Stage) 和評估階段 (Evaluation Stage)，所以會各自用兩張圖獨立出來解釋。測試階段也不會說明，因為那只是將重排過後的英文句子輸入 Moses 解碼器，產生中文翻譯。. 4.1 語料前處理以下流程過濾英文語料和字對齊資料，並輸出訓練階段要用的訓練語料。. 圖 10：前處理階段流程圖. 4.1.1 英文語料使用 MultiUN4和 TED5語料，其中包含 5,420,535 句的英文句子，標點符號和英文單字之間用空白分開，方便 Moses 工具計算詞彙轉換機率。該語料的英文句子介於 1 到 30 個詞彙長度；同理中文句子也是。註：MultiUN 涵蓋 2000 年到 2009 年的文件資料. 4 5. http://www.euromatrixplus.net/ http://www.iwslt2011.org/doku.php?id=06_evaluation 17.

(32) 4.1.2 史丹佛句法分析器使用 The Stanford Natural Language Processing Group 釋放出來的史丹佛句法分析器6，用它將英文句子轉成句法樹的字串資料 (見表 1)。. 4.1.3 輸出詞彙語塊序列部分輸出如表 6。表 6：詞彙語塊資料 {The_0 following_1 51_2}{of_3}{the_4 53_5 members_6}{of_7}{the_8 Board_9}{were_10}{represented_11}{at_12}{the_13 session_14}{:_15} {The_0 permanent_1 observer_2}{of_3}{Palestine_4}{also_5}{participated_6}{._7} {On_0}{31_1}{May_2 2000_3}{,_4 ,_8 ._15}{at_5}{4.10_6 p.m._7}{the_9 Board_10}{closed_11}{its_12 twenty-second_13 session_14}. 圖 11：句法樹例子共享同一個父節點的葉節點群，稱為一個語塊，例如圖 11 中〝all parties〞共享一個父節點 'NP'。語塊的詞彙長度也可能只有 1，如〝urged〞。. 6. http://nlp.stanford.edu/software/lex-parser.shtml 18.

(33) 4.1.4 字對齊檔案 7. 這裡用 ICTLAS 將 5,420,535 句的中文句子做斷詞，將其斷詞結果和 4.1.1 節的 5,420,535 句英文句子一起輸入 Moses，並在 Moses 訓練過程中產生出 5,420,533 筆的字對齊資料。此外，這裡使用 grow-diag-final 的設定，目的是讓更多的語塊標示字對齊數字。字對齊檔案中包含來源語句的英文詞彙對應到目標語句的中文詞彙位置，以下列出從檔案中取出來的部分內容 (見表 7)：表 7：字對齊資料 6-0 5-1 6-1 6-2 0-3 1-3 1-4 2-5 4-6 3-7 4-7 7-8 8-9 8-10 9-10 10-10 11-11 12-12 0-0 1-0 2-0 3-1 4-2 5-2 7-3 8-4 6-5 6-6 6-7 9-8 0-0 1-1 2-2 4-2 5-3 6-4 6-5 6-6 7-7 註 1：〝來源詞彙位置-目標詞彙位置〞註 2：在圖 10 有兩個字對齊檔案，一個包含 5,420,533 筆資料的為前處理階段輸入，另一個包含 1,194,637 筆資料的為輸出。註 3：Moses 使用 MGIZA++8產生字對齊資料，它和 GIZA++9的差異點在於支援多執行緒運作。. 4.1.5 過濾器依照以下三點做資料的過濾 1. 每個來源語塊 (Source chunk) 對應到的字對齊數字要為連續，例如：{2 3 4}{5 6} 或 {2 3}{3} 2. 來源語塊序列 (Source chunk sequences) 要完全對應整個目標語句，例如：〝this is a apple〞，其對應的中文句子是〝這是一個蘋果〞，而字對齊資訊為{0-0}{1-1}{2-2}{3-3} 3. 每一個來源詞彙必須對齊到至少一個目標詞彙，像{2-3}{}{5-6}{1-4} 這類例子就不行考慮第一點的原因，是為了避開像是 {2 5}{4} 這類無法決定順序的情況；第二點的原因，是考慮到英文句子完全對應到中文句子的語塊品質會比不完全對應到的要好；第三點是為了避開字對齊數字是空值，而無法做排序的情況。這個階段最後會輸出在接下來兩個片語重排演算法都需要用的訓練語料，包含 1,194,637 筆句法樹資料和其 1,194,637 筆字對齊資料。. 7 8 9. http://hi.baidu.com/drkevinzhang/blog/item/149e29f8ace33e046c22eb45.html http://geek.kyloo.net/software/doku.php http://code.google.com/p/giza-pp/ 19.

(34) 4.1.6 句法樹資料 5,420,533 和 1,194,637 筆的句法樹資料，分別為過濾器的前輸入和輸出。. 4.2 模型執行流程圖這個章節分兩小節，分別列出句法樹片語和階層式句法片語重排模型的訓練流程圖。. 4.2.1 4.2.1 句法樹片語重排模型以下流程從訓練語料中擷取出重排規則給 1085 句英文做片語重排。. 圖 12：句法樹片語重排流程圖. 4.2.1.1 訓練階段這個階段主要是從句法樹中擷取出 790,979 條片語重排的規則出來，以下表 8 列出從訓練語料中擷取出的部分規則：. 20.

(35) 表 8：原始的句法重排規則 Head. Tail. 頻率. 910_0 RB_1 IN NP_2. IN NP_2 910_0 RB_1. 6. 910_0 RB_1 IN NP_2. RB_1 IN NP_2 910_0. 1. 910_0 RB_1 IN NP_2. IN NP_2 RB_1 910_0. 1. 一條重排規則可分為頭部 (Head) 和尾部 (Tail) ：Head => Tail 在這個過程中會累加規則的頭部和其尾部共同出現的次數，以便後續過濾重排規則。. 4.2.1.2 擷取重排規則這個階段主要是將訓練階段輸出的重排規則做過濾，最後得到 695,120 該步驟基本做法如下： Step 1: 將每一條重排規則的頭部和其對應的尾部擷取出來，這裡一條規則的頭部可能對應到多個尾部 Step 2: 將尾部出現的頻率由大到小排序之後，將最高出現頻率和次高頻率相除，若相除的結果大於或等於 2.0 ，該重排規則才會被選出來，例子如下： DT NN IN NP => ['IN NP DT NN': 500, 'DT NN IN NP': 100] 因為 500/100 = 5.0，所以 DT NN IN NP => IN NP DT NN 就會被挑選出來，但發生下面的例子，規則則不會選出： VP NP => ['NP VP':5000, 'VP NP': 4000] 因為 5000/4000 = 1.25 ，所以 VP NP 不會被挑選出來，縱使其出現頻率非常高表 9 列出部分擷取出的重排規則：表 9：擷取的句法重排規則 Head. Tail. 74566_0 DT NNP CC NNP_1. 74566_0 DT NNP CC NNP_1. JJ NN NN NNS_0 JJ PP_1. JJ PP_1 JJ NN NN NNS_0. 201_0 NP NP SBAR_1. NP NP SBAR_1 201_0. 21.

(36) 4.2.1.3 英文測試語料 10. 使用 2010 年到 2011 年間的安全理事會報告，手動過濾句子後，總共包含 1085 句的英文句子，其平均為 34 個詞彙長度 (含標點符號)。將這些句子經由史丹佛句法分析器產生其對應的句法樹資料，做為後續測試的用途。表 10 為一些從測試語料擷取出來的英文句子和其對應的原始中文翻譯：表 10：測試英文句子英文 1 中文 1 英文 2. 中文 2. The Council urged all parties to ensure free and fair elections . 安理會敦促各方確保自由和公正的選舉。 Taking into account the challenges the Democratic Republic of the Congo was facing as it entered a phase of stabilization and peace consolidation , the Council stressed the need for a strategic partnership with the United Nations . 考慮到剛果民主共和國進入穩定和鞏固和平階段所面臨的挑戰，安理會強調了與聯合國建立戰略夥伴關係的必要性。. 英文 3. 6 月 28 日，秘書長特別代表再次向安理會通報情況。. 中文 3. On 28 June , the Council was again briefed by the Special Representative of the Secretary-General .. 4.2.1.4 句法樹資料使用 4.1.5 節產生的 1,194,637 筆句法樹資料作為訓練的資料。將 1085 句的英文句子經由史丹佛句法分析器產生其對應的 1085 筆句法樹資料當作測試用資料。. 4.2.2 階層式句法片語重排模型以下流程從訓練語料中擷取出片語關係資料給 1085 句英文做片語重排。. 10. http://www.un.org/zh/documents/view_doc.asp?symbol=A/66/2 22.

(37) 圖 13：階層式片語重排流程圖. 4.2.2.1 輸出語塊這裡的輸出可以為有標示字對齊數字的詞彙片語，也可以為不標示字對齊數字的詞彙片語或句法片語。帶有數字的片語是用來和不帶有數字的片語一起做訓練使用，測試使用的是不帶有數字的片語。以下分別定義句法片語和詞彙片語 (註：這裡說的片語等同於語塊) 句法片語：葉節點的父節點詞彙片語：擁有共同父節點的 1 個或多個葉子節點以下表 11 為句法片語輸出的一部分：表 11：句法片語序列 {NP}{VBD}{IN IN NP MD VB PRT NP ,}{NP}{MD}{VB}{NP}{IN}{NP}{.} {NP}{VBD}{PRT}{IN}{NP}{NP RBR}{.} {NP}{VBD}{NP IN}{NP .} 註：在圖 13 中有兩個地方會輸出語塊，分別做為訓練和測試階段的輸入。. 23.

(38) 4.2.2.2 片語關係資料片語關係資料用來表示兩兩相鄰片語的關係。以下表 12 為從訓練語料中擷取出來的一部分資料：表 12：片語關係資料兩相鄰句法片語和其關係. 頻率. ('TO VB NP TO VB IN', 'NP NP IN NP IN', 'mono'). 1. ('VBZ NP', 'VB WHNP', 'swap'). 1. ('VBP', 'IN VBN RB', 'dis'). 1. 4.3 評估階段以下流程將片語重排後的英文輸入到 Moses Tool，接著使用中文參考句子來評估輸出的翻譯品質。. 圖 14：評估階段流程圖. 4.3.1 Moses 工具關閉 Moses 本身提供的片語重排功能，直接將輸入的英文做單調翻譯 (Monotone translation)。 Moses 使用的資料如下：. 24.

(39) 1. 使用 IRSTLM11建立的 1~5 gram 語言模型 (Language model) 2. 片語表 (Phrase table) 3. 片語重排模型 (Phrase reordering model). 4.3.2 中文參考句子用來和 Moses 翻譯出來的中文句子做比較，以評估 BLEU 分數。. 11. http://sourceforge.net/apps/mediawiki/irstlm/index.php?title=Main_Page 25.

(40) 第五章實驗結果與分析. 本章節將 4 種片語重排模型各自在最大片語長度為 1、2、3、4、7 的狀況下翻譯，並和沒有做片語重排的基準翻譯模型 (Base line translation model) 比較。我們用以下 4 點來評估翻譯品質和重排模型的好壞。 1. 詞彙跳躍距離：跳躍距離越遠，越有助於關係子句的重排 2. 片語最大長度：片語長度越長翻譯出來的品質越好 3. Moses 片語拆解率：拆解 Moses 片語等於捨棄最佳解，對翻譯品質有害 4. BLEU score 和 BLEU gain：評估翻譯品質的標準. 5.1 詞彙跳躍距離指來源語句的詞彙做完片語重排後所跳躍的距離 (以詞彙為單位)，例如：原始句子：This is a apple . 重排後：is This a apple . 該例子〝is〞詞彙的跳躍距離為-1，代表〝is〞往前跳 1 個詞彙距離，而本實驗計算平均詞彙跳躍距離的公式如(4). =. – . (4). 表示詞彙發生跳躍的次數，只有在跳躍距離的絕對值大於 0 的時候才會累加；

(41) 表示片語重排後的詞彙位置；

(42) 表示片語重排前的詞彙位置；以下列出 4 種模型的平均詞彙跳躍距離(見表 13)。表 13：平均詞彙跳躍距離片語重排模型. 平均詞彙跳躍距離 (Average lexical jump distance). 階層式詞彙片語重排. 1.30. 階層式句法片語重排. 1.47. 階層式句法+詞彙片語重排 2.27 句法樹片語重排 5.05 後面的章節會參考上表的數據分析結果。. 26.

(43) 5.2 Moses 片語指的是 Moses 在輸出翻譯結果前，選定的最佳路徑中所包含的來源片語，例子見表 14。表 14：Moses 片語選取例子片語長度 1. This 這. 片語長度 2. is 是. a 一個. 這是. 片語長度 3 片語長度 4. apple 蘋果一個蘋果. 這是一個. 蘋果. 這是一個蘋果. . 。。。。. 例子的片語最大長度為 4，灰色表示 Moses 最後選擇的一條最佳路徑和其翻譯的結果，從表可看出最後輸出的 Moses 片語為 {This}{is}{a apple}{.} 。. 5.3 片語最大長度這邊指的是 Moses 解碼器在選定英文片語時，最大能使用多長的片語 (以詞彙為單位)。. 5.3.1 片語最大長度 1 當片語最大長度為 1，使用重排模型對英文句子做片語重排不會將 Moses 選定的最佳的片語拆開，因為 Moses 只會選定詞彙長度為 1 的片語。這類評估方式通常比較準，因為無需考慮因為片語拆開而降低 BLEU 的因素，純粹只需考慮詞彙的順序對系統造成的影響。在表 27 可以發現階層式詞彙片語重排模型提升的 BLEU 是最低的 (0.09)，這是因為訓練語料只使用 1,194,637 筆詞彙片語做訓練，所以大多時候在訓練語料中都找不到相鄰的片語，因此很多相鄰的片語都為不連續的關係。這件事反應在重排距離的現象上 (見表 28) 即代表重排距離超過 1 的發生頻率相較於其它 3 個重排模型會較低，所以經片語重排提升的 BLEU 也會是最低。階層式句法片語重排模型，由於使用句法標籤，這相較於詞彙是較為普遍 (General) 的資訊，所以即使只用了 1,194,637 筆句法片語做訓練，依然能降低階層式詞彙重排片語模型中關係為不連續的片語出現頻率。這件事反應在重排距離的現象上 (見表 28) 即代表重排距離超過 1 的發生頻率相較於階層式詞彙重排片語模型會較高，受惠於此現象，所以整體的 BLEU 提升 0.43。而階層式句法片語重排模型有一個無法掌握英文專有名詞資訊的缺點，例子如表 15。 27.

(44) 表 15：片語最大長度 1，階層式句法片語重排模型重排英文句子範例 BLEU 原始英文. Council members supported the Special Representative 's work and especially welcomed the African Union 's commitment to eradicate sexual violence in armed conflict .. 原始中文. 安理會成員支持特別代表的工作，並特別歡迎非洲聯盟關於消除武裝衝突中的性暴力問題的承諾。. 基準翻譯. 理事會成員支持的特別代表的努力並特別歡. 21.38. 迎在非洲聯盟的承諾，消除性暴力在武裝衝突。重排後英文. 重排後翻譯. Council members supported the Representative 's Special work and especially welcomed the African Union 's commitment to eradicate sexual violence in armed conflict . 理事會成員支持該代表的特別努力並特別歡 18.59 迎在非洲聯盟的承諾，消除性暴力在武裝衝突。. Gain. -2.79. 上表為從測試語料中擷取出來的英文句子和其對應的中文翻譯，可以發現〝Special〞和〝Representative 's〞這兩個片語，在做完句法片語重排之後被對調。因為它們對應的句法片語分別為 JJ 和 NP，並且根據訓練語料的資訊，它們必須做片語交換，所以重排出錯的原因就在於只使用句法標籤的資訊，而沒有底層專有名詞的資訊。階層式句法詞彙片語重排模型，由於使用句法和詞彙的資訊，因而沒有前面所提的問題，同時也因為專有名詞被成功識別，詞彙跳躍距離超過 1 的頻率也隨之增加 (見表 28)。以下舉出和表 15 一樣的例子 (見表 16) 來檢測是否沒有前面所提的問題。表 16：片語最大長度 1，階層式句法+詞彙片語重排模型重排英文句子範例 BLEU 重排後英文. 重排後翻譯. Council members supported the Representative 's Special work and especially welcomed the African Union 's commitment to eradicate armed conflict in sexual violence . 理事會成員支持該代表的特別努力並特別歡 23.53 迎在非洲聯盟的承諾，消除武裝衝突的性暴力。. Gain. 2.15 28.

(45) 上表為句法片語搭配詞彙片語資訊跑出來的結果，可以看出〝Special〞和〝Representative 's〞這兩個片語還是被交換，這是因為在詞彙片語模型的訓練語料中找不到資訊，轉而使用句法片語模型的訓練語料做交換所造成的結果。但儘管如此，BLEU 還是上升到 23.53 (因為〝sexual violence〞和〝armed conflict〞被對調)，推估原因是由於詞彙片語模型讓前面的某些片語沒有被合併，使得〝sexual violence〞和〝armed conflict〞有機會被交換。句法樹片語重排模型，由於它的平均詞彙跳躍距離約為 5 (見表 13)，是所有模型中最長的。受惠於此，整體的 BLEU 得以增加 1.13。以下列出對表 15 的測試英文句子做片語重排的結果 (見表 17)。表 17：片語最大長度 1，句法樹片語重排模型重排英文句子範例 BLEU 重排後英文. Council members supported the Special Representative 's. 重排後翻譯. work and especially welcomed the African Union 's commitment to eradicate sexual violence armed conflict in . 理事會成員支持的特別代表的努力並特別歡. 23.81. 迎在非洲聯盟的承諾，消除性暴力武裝衝突中。 2.43. Gain. 上表和句法詞彙片語重排模型提升的 BLEU 相比只多 0.28，最主要在於介係詞片語中些微不同的字順序。. 5.3.2 片語最大長度 2 從表 27 可以看出階層式詞彙片語重排模型已經開始讓 BLEU gain 下降 (-0.18)，主要是因為模型的詞彙跳躍距離等於 1 的出現頻率太高 (見表 28)，頻繁將長度為 2 的 Moses 片語給拆開，同時又因為跳躍距離超過 1 以上的出現頻率太低，所以長距離片語重排帶來的益處低於片語拆開的壞處，造成整體的 BLEU 值降低，以下列出 Moses 片語被拆開的例子 (見表 18)。表 18：片語最大長度 2，階層式詞彙片語重排模型重排英文句子範例 BLEU Moses 片語. {The briefing}{was followed}{by a}{private}{debate .}. 原始英文原始中文. The briefing was followed by a private debate . 在情況通報後舉行了非公開辯論。. 基準翻譯. 在通報後舉行了非公開辯論。. 重排後英文. The briefing followed was by a private debate . 29. 91.87.

(46) 重排後翻譯. 簡報採用了非公開辯論。. 52.71. Gain -39.16 詞彙片語模型把 Moses 選定的片語〝was followed〞給拆成〝followed〞和〝was〞並對調，造成整體的 BLEU 下降。舉例來說，有一句英文，它已經完整對應到一句中文，現在把英文句子給拆解並對調，之後再重新翻譯，很直覺的，翻譯出來的品質當然會輸給原先一整句英文對應到一整句中文的品質，這種現象在 Moses 片語最大長度為 7 的時候會非常明顯。階層式句法片語重排模型，從表 27 可以看到它的 BLEU 上升 1.15，這是因為模型做長距離片語重排的益處大於將 Moses 片語拆開的壞處，下面舉出將 Moses 片語拆開的例子 (見表 19)。表 19：片語最大長度 2，階層式句法片語重排模型重排英文句子範例 BLEU Moses 片語. {Council members}{supported the}{Special Representative}{'s work}{and}{especially welcomed}{the African}{Union}{'s commitment}{to eradicate}{sexual violence}{in armed}{conflict .}. 原始英文. 原始中文. Council members supported the Special Representative 's work and especially welcomed the African Union 's commitment to eradicate sexual violence in armed conflict . 安理會成員支持特別代表的工作，並特別歡迎非洲聯盟關於消除武裝衝突中的性暴力問題的承諾。. 基準翻譯. 安理會成員表示支持特別代表的工作，並特別歡迎非洲聯盟致力於消除性暴力在武裝. 53.79. 衝突。重排後英文. 重排後翻譯. Council members supported the Representative 's Special work and especially welcomed the African Union 's commitment to eradicate sexual violence in armed conflict . 安理會成員支持秘書長代表的特別努力並特別歡迎非洲聯盟致力於消除性暴力在武裝. 30.73. 衝突。 Gain. -23.06. 從上表可看出該模型只將 Moses 片語〝Special Representative〞拆成〝Representative〞和〝Special〞中間隔一個〝's〞，因而造成 BLEU 下降 23.06，相較於 Moses 片語最大長度為 1 的時候下降 2.79 高出很多。這代表當片語最大長度超過 1 的時候，需要額外考慮拆開 Moses 片語所帶來的壞處，所以當 Moses 30.

(47) 片語最大長度增加時，如何防止拆開片語的壞處高過於重排片語的好處，就成為一個重要的議題。階層式句法詞彙重排模型，從表 27 可以看出它的 BLEU 上升 1.56，主要是因為片語重排的益處高過於將 Moses 片語給拆開所帶來的壞處，表 20 以表 19 的英文測試句子為例，只是多使用詞彙的資訊做重排。表 20：片語最大長度 2，階層式句法+詞彙片語重排模型重排英文句子範例 BLEU 重排後英文. 重排後翻譯. Council members supported the Representative 's Special work and especially welcomed the African Union 's commitment to eradicate armed conflict in sexual violence . 安理會成員支持秘書長代表的特別努力並特別歡迎非洲聯盟致力於消除武裝衝突中的性暴. 50.52. 力。 Gain. -3.27. 從上表可以看出因為〝sexual violence〞和〝armed conflict〞片語的對調，使得因為 Moses 片語被拆開而降低的 BLEU 值相較於句法片語模型減少 19.79。句法樹片語重排模型的 BLEU 上升 2.62 (見表 27)，從這裡可以看出當片語最大長度不長的時候，詞彙跳躍距離的確是越遠越好。同樣表 21 以表 19 的英文測試句子為例。表 21：片語最大長度 2，句法樹片語重排模型重排英文句子範例 BLEU 重排後英文. 重排後翻譯. Council members supported the Special Representative 's work and especially welcomed the African Union 's commitment to eradicate sexual violence armed conflict in . 安理會成員表示支持特別代表的工作，並特別 53.79 歡迎非洲聯盟致力於消除性暴力武裝衝突局勢。. Gain. 0.0. 很奇特的是句法樹模型雖然把 Moses 片語〝in armed〞給拆成〝armed〞和〝in〞，但 BLEU 並沒有上升也沒有下降，猜測和 Moses 使用的語言模型有關。. 31.

(48) 5.3.3 片語最大長度 3 階層式詞彙片語模型，由於它多半都會將 Moses 片語給拆開，並且相較於其它 3 個模型較少做超過 1 個詞彙距離的片語重排，所以 BLEU gain 會下降是可以預測的事情。而階層式片語重排模型、階層式片語詞彙重排模型、句法樹片語重排模型的 BLEU gain 相較於片語最大長度為 2 時，全部往下掉 (見表 27)，猜測是因為額外拆解長度為 3 的 Moses 片語，使得片語重排帶來的益處被降低。在 (見表 29) 可以發現句法樹片語重排模型拆解的 Moses 片語數目在片語最大長度為 3 時是最高的，但這件事並沒有讓 BLEU gain 跟著提升 (見表 27)，很明顯 Moses 片語的拆解數目越高不代表 BLEU gain 越高。. 5.3.4 片語最大長度 4 四種片語模型做片語重排的 BLEU gain，相較於片語最大長度為 3 時全部往下掉 (見表 27)，因為這裡它們額外拆解長度為 4 的 Moses 片語 (見表 22)。. 圖 15：片語最大長度為 4 的 Moses 片語拆解分佈表 22：片語最大長度為 4 的 Moses 片語拆解分佈階層式詞彙片. 階層式句法片. 階層式句法+. 句法樹片語重. 語重排. 語重排. 詞彙片語重排. 排. 2. 190. 280. 715. 4222. 3. 176. 265. 798. 4191. 4. 181. 53. 687. 4242. 模型. 32.

(49) 5.3.5 片語最大長度 7 這一小節主要是探討 4 種模型做完片語重排後，拆解掉 Moses 片語所帶來的影響。. 圖 16：片語最大長度為 7 的 Moses 片語拆解分佈表 23：片語最大長度為 7 的 Moses 片語拆解分佈模型. 階層式詞彙片語重排. 階層式句法片語重排. 階層式句法+ 詞彙片語重排. 句法樹片語重排. Length 2. 89. 264. 460. 3234. Length 3. 107. 245. 600. 3392. Length 4. 61. 40. 241. 2322. Length 5. 31. 11. 162. 1221. Length 6. 12. 12. 94. 758. Length 7. 15. 1. 50. 641. 句法樹片語重排模型，由於拆解過多長度超過 2 的 Moses 片語 (見表 23)，使得片語重排的益處低於將片語拆開的壞處，所以 BLEU 下降 1.17 (見表 27)；以下列出英文的測試句子 (見表 24)。 (註：本小節僅列出 BLEU gain 最少的測試句子). 33.

(50) 表 24：片語最大長度 7，句法樹片語重排模型重排英文句子範例 BLEU Moses 片語. {On 16 December ,}{the Council}{heard a briefing by}{the Under-Secretary-General for Peacekeeping Operations ,}{Alain}{Le}{Roy}{.}. 原始英文. On 16 December , the Council heard a briefing by the. 原始中文. Under-Secretary-General for Peacekeeping Operations , Alain Le Roy . 12 月 16 日，安理會聽取了主管維持和平行動副秘書長阿蘭·勒羅伊的簡報。. 基準翻譯. 12 月 16 日，安理會聽取了主管維持和平行動 101.74 副秘書長阿蘭·勒羅伊。. 重排後英文. On 16 December , the Council Under-Secretary-General. 重排後翻譯. the by heard for Peacekeeping Operations , Alain Le Roy a briefing . 12 月 16 日，安理會事務副秘書長的發言主管 42.52 維持和平行動 . 阿蘭·勒羅伊的通報。. Gain. -59.22. 句法樹片語模型將 Moses 片語〝 heard a briefing by 〞和〝 the Under-Secretary-General for Peacekeeping Operations ,〞給拆開，使得片語重排的益處低於將片語拆開的壞處，整體 BLEU 下降。此外，從這裡可以知道應避免拆開長度太長的 Moses 片語。階層式句法詞彙片語重排模型，相較於句法樹片語重排模型，它提升的 BLEU 較高，猜測是由於平均詞彙跳躍距離較句法樹模型短 (見表 13)，造成長度超過 2 的 Moses 片語被拆開的個數，相較於句法樹模型少很多 (見表 23)。以下表 25 列出一個 Moses 片語被拆開的例子。表 25：片語最大長度 7，階層式句法+詞彙片語重排模型重排英文句子範例 BLEU Moses 片語. {The briefing was followed}{by a private}{debate .}. 原始英文原始中文. The briefing was followed by a private debate . 在情況通報後舉行了非公開辯論。. 基準翻譯. 情況通報後舉行了非公開辯論。. 101.67. 重排後英文. The briefing followed was by a private debate . 簡報採用了非公開辯論。. 52.71. 重排後翻譯 Gain. -48.96 34.

(51) 上表的英文測試句子和表 18 的一樣，差別在於上表是拆開長度為 4 的 Moses 片語 (〝The briefing was followed〞)，其 BLEU gain 下降-48.96，而表 18 是拆開長度為 2 的 Moses 片語 (〝was followed〞)，其 BLEU gain 下降-39.16。這代表拆解 Moses 片語的處罰和片語最大長度成正比。階層式句法片語重排模型，相較於前一個模型其 BLEU 提升了 0.47，原因是因為該模型的平均詞彙跳躍距離比前一個模型短 (見表 13)，拆解長度超過 2 的 Moses 片語的個數較少 (見表 23)，因此 BLEU gain 較前一個模型高。階層式詞彙片語重排模型的 BLEU gain 相較於片語最大長度為 4 時下降 0.53，猜測是因為額外拆開 5 個詞彙長度以上的 Moses 片語所帶來的壞處。表 26：在不同片語最大長度下的 BLEU score 模型. 基準模型. 階層式詞彙階層式句法階層式句法+ 片語重排片語重排詞彙片語重排. 句法樹片語重排. 片語長度 1. 7.47. 7.56. 7.9. 8.08. 8.60. 片語長度 2. 16.91. 16.73. 18.06. 18.47. 19.53. 片語長度 3. 19.35. 19.30. 20.26. 20.76. 21.50. 片語長度 4. 22.00. 21.47. 22.84. 22.89. 21.96. 片語長度 7. 24.9. 23.84. 25.62. 25.15. 23.73. 表 27：在不同片語最大長度下的 BLEU gain 句法樹片. 階層式詞彙片語重排. 階層式句法片語重排. 階層式句法+ 詞彙片語重排. 片語長度 1. 0.09. 0.43. 0.61. 1.13. 片語長度 2. -0.18. 1.15. 1.56. 2.62. 片語長度 3. -0.05. 0.91. 1.41. 2.15. 片語長度 4. -0.53. 0.84. 0.89. -0.04. 片語長度 7. -1.06. 0.72. 0.25. -1.17. 模型. 語重排. 表 28：詞彙跳躍距離分佈模型. 階層式詞彙階層式句法階層式句法+. 句法樹片語. 片語重排. 重排. 片語重排. 詞彙片語重排. 距離 1. 1524. 1336. 1925. 3486. 距離 2. 292. 375. 841. 3498. 距離 3. 122. 54. 944. 3388. 距離 4. 11. 73. 506. 1994. 距離 5. 2. 20. 134. 1510. 35.

(52) 距離 6. -. 22. 97. 1167. 距離 7. -. -. 44. 859. 距離 8. -. -. 21. 689. 距離 9. -. -. 3. 403. 距離 10. -. -. 3. 292. 最大跳躍距離. 5. 6. 10. 86. 最小跳躍距離. 1. 1. 1. 1. 表 29：Moses 片語分割次數分佈模型. 階層式詞彙階層式句法階層式句法+詞片語重排片語重排彙片語重排. 句法樹片語重排. 片語長度 1. 0. 0. 0. 0. 片語長度 2. 863. 800. 2528. 12459. 片語長度 3. 737. 633. 2471. 13217. 片語長度 4. 547. 598. 2200. 12655. 片語長度 7. 315. 573. 1607. 11568. 5.4 相關實驗比較相關實驗比較本節將本論文提出的階層式句法片語、階層式句法詞彙片語重排模型和 [Manning et al., 2008] 提出的階層式詞彙片語模型做比較，前者和後者的最大差異點在於，前者是針對句法樹產生的片語做重排，後者是針對 Moses 選定的片語做重排，所以前者需要考慮拆開片語的壞處，後者則不用。以下將訓練語料減少到 776,399 筆資料並重複上一節的實驗，表 30 列出三個模型在不同片語最大長度下的 BLEU gain。表 30：在不同片語最大長度下的 BLEU gain 模型. 階層式詞彙片語重排. 階層式句法. 階層式句法+詞彙. [Manning et al., 2008]. 片語重排. 片語重排. 片語長度 1. -0.76. 0.04. 0.08. 片語長度 2. -0.95. -0.71. -0.37. 片語長度 3. -0.46. -1.63. -1.18. 片語長度 4. -0.35. -3.27. -2.75. 片語長度 7. 0.34. -5.6. -5.05. 從上表可以知道減少訓練語料對於重排模型沒有益處，而值得注意的是階層式詞彙片語重排模型在長度 3 以上的時候，其降低的 BLEU gain 相 36.

(53) 較於其他模型都較少，推測是因為沒有拆解 Moses 片語，加上有太多不連續的片語使得相鄰的片語沒有做交換，換句話說，就是發生錯誤重排的機率變小。此外，在片語長度為 1 到 4 的時候，階層式詞彙片語重排模型的 BLEU gain 都是負值，推測是因為該模型在做片語重排時沒有考慮前一個片語的資訊，而造成很多片語重排發生錯誤，例如下面的例子：表 31：片語最大長度 1，前人的階層式詞彙片語重排模型重排英文句子範例 BLEU 原始英文. 原始中文. The Office of the Prosecutor further strengthened its cooperation with national prosecutorial authorities by sharing information and expertise . 檢察官辦公室繼續加強與國家檢察當局的合作，與其共享信息和專門知識。. 基準翻譯. 該辦公室工作的檢察官進一步加強其合作與國家檢察當局的交流信息和專長。. 重排後英文. The Office of the Prosecutor further strengthened its. 重排後翻譯. cooperation with national by prosecutorial authorities sharing information and expertise . 該辦公室工作的檢察官進一步加強其合作與國家的檢察當局交流信息和專長。. Gain. 31.67. 15.38 -16.29. 介系詞〝by〞直接和前一個詞彙片語〝prosecutorial authorities〞做對調的原因，是因為欠缺考慮前一個要調對的片語資訊，所以造成片語重排錯誤，因此當要做英文的片語重排時，還須考慮到前一個片語的資訊。. 37.

(54) 第六章結論. 本研究的主要貢獻如下： 1. 提出階層式句法片語和階層式句法詞彙片語重排模型，並在 Moses 片語最大長度為 1、2、3、4、7 的時候，大幅度改善階層式詞彙片語重排模型 2. 分析 4 種片語重排模型在 Moses 片語最大長度為 1、2、3、4、7 的狀況下，做片語重排的結果 3. 句法樹片語重排模型並非在所有的狀況下都表現優異 4. Moses 片語的拆解數目越高不代表 BLEU gain 越高 5. 將前人 [Manning et al., 2008] 的做法套用到英對中的翻譯系統時，發現還有其改進的空間未來的研究會進一步搭配文法關係，使句法樹片語重排模型提升的 BLEU 更高，並在多個不同的語系下做翻譯實驗。. 38.

(55) 參考文獻. [1] Philipp Koehn, Amittai Axelrod, Alexandra Birch Mayne, Chris Callison-Burch, Miles Osborne and David Talbot. “Edinburgh System Description for the 2005 IWSLT Speech Translation Evaluation”, In Proceedings International Workshop on Spoken Language Translation (IWSLT, 2005), Scotland, UK. [2] Wang Ling, Tiago Luı´s, Joaõ Graça, Luı´sa Coheur and Isabel Trancoso. “Reordering Modeling using Weighted Alignment Matrices”, In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pages 450–454, Portland, Oregon, June 19-24, 2011. [3] Wang Ling, Joaõ Graça, David Martins de Matos, Isabel Trancoso, Alan Black. “Discriminative Phrase-based Lexicalized Reordering Models using Weighted Reordering Graphs”, In Proceedings of the 5th International Joint Conference on Natural Language Processing, pages 47-55, Chiang Mai, Thailand, November 8 -13, 2011. [4] Michel Galley, Christopher D. Manning. “A Simple and Effective Hierarchical Phrase Reordering Model”, In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 848–856, Honolulu, October 2008. [5] Deyi Xiong, Qun Liu and Shouxun Lin. “Maximum Entropy Based Phrase Reordering Model for Statistical Machine Translation”, In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages 521-528, Sydney, July 2006. [6] Yuqi Zhang, Richard Zens and Hermann Ney. “Chunk-Level Reordering of Source Language Sentences with Automatically Learned Rules for Statistical Machine 39.

(56) Translation”, In Proceedings of SSST, NAACL-HLT 2007 / AMTA Workshop on Syntax and Structure in Statistical Translation, pages 1-8, Rochester, New York, April 2007. [7] Kei Hashimoto, Hirohumi Yamamoto, Hideo Okuma, Eiichiro Sumita and Keiichi Tokuda. “Reordering Model Using Syntactic Information of a Source Tree for Statistical Machine Translation”, In Proceedings of SSST-3/Third Workshop on Syntax and Structure in Statistical Translation, pages 69-77, Boulder, Colorado, June 2009. [8] Karthik Visweswariah, Jiri Navratil, Jeffrey Sorensen, Vijil Chenthamarakshan and Nanda Kambhatla.“Syntax Based Reordering with Automatically Derived Rules for Improved Statistical Machine Translation ” , In Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), pages 1119-1127, Beijing, August 2010. [9] Dmitriy Genzel. “Automatically Learning Source-side Reordering Rules for Large Scale Machine Translation”, In Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), pages 376–384, Beijing, August 2010. [10] Andreas Eisele, Yu Chen. “MultiUN: A Multilingual Corpus from United Nation Documents”, In Proceedings of the Seventh conference on International Language Resources and Evaluation, Pages 2868-2872, La Valletta, Malta, European Language Resources Association (ELRA), 5/2010. [11] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. “BLEU: a Method for Automatic Evaluation of Machine Translation”, In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pages 311-318, Philadelphia, July 2002. [12] Philipp Koehn, Franz Josef Och and Daniel Marcu. “Statistical Phrase-Based Translation”, In Proceedings of HLT-NAACL 2003, pages 48-54, Edmonton, May-June 2003. 40.

(57) [13] Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondřej Bojar, Alexandra Constantin and Evan Herbst. “Moses: Open Source Toolkit for Statistical Machine Translation”, In Proceedings of the ACL 2007 Demo and Poster Sessions, pages 177–180, Prague, June 2007. [14] Dan Klein and Christopher D. Manning. “Accurate Unlexicalized Parsing”, In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, pages 423-430, July 2003. [15] Franz Josef Och and Hermann Ney. “A Systematic Comparison of Various Statistical Alignmet Models”, Computational Linguistics, volume 29, number 1, pages 19-51, March 2003. [16] Marcello Federico, Nicola Bertoldi and Mauro Cettolo. “IRSTLM: an Open Source Toolkit for Handling Large Scale Language Models”, In Proceedings of Interspeech, Brisbane, Australia, 2008. [17] Chao Wang, Michael Collins and Philipp Koehn. “Chinese Syntactic Reordering for Statistical Machine Translation”, In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages 737-745, Prague, June 2007.. 41.