緒論 - 應用平行語料建構中文斷詞組件

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章緒論

1.1 研究背景與動機

詞為最小有意義且能夠自由運用的語言單位[2]，而英文與中文在取得句子中的詞的方法上有所不同：在英文可以用空白去斷出英文句中的各個詞，中文則需要透過斷詞這個步驟來取得中文句中的各個詞。因為在機器翻譯、資訊檢索等相關領域上，都需要先對語料進行中文斷詞處理才能進行後續的工作，所以對於中文自然語言處理，中文斷詞是一項非常重要且基礎的工作。

中文斷詞技術大致上可以分為法則式斷詞法以及統計式斷詞法。近來許多採用統計式斷詞法的研究，都能獲得不錯的斷詞效能。不過統計式的斷詞法在訓練斷詞模型時會需要大量的訓練語料，而因為通常透過人工斷詞所得到的訓練語料才能有較高的品質，

所以高品質的訓練語料往往不易取得。此外在不同的需求下，使用者可能會提供不同領域的語料給斷詞系統，所以一個中文斷詞系統會需要對不同領域的語料皆有不錯的斷詞效能。但若是使用某一個領域的語料所訓練出的斷詞模型，去對其他不同領域的測試語料進行斷詞的話，可能會因為斷詞模型與其他不同領域的測試語料之間的性質差異大，

導致斷詞效能不佳。因此本研究建構一個基於中英平行語料的斷詞系統；提供我們的系統各個不同領域之中英平行語料，就可自動化地得到品質不錯之訓練語料，以節省透過人工斷詞得到訓練語料所需的大量人力與時間；之後該系統會利用所得之訓練語料去訓練斷詞模型，並以斷詞模型對該領域的語料進行斷詞。

中文斷詞存在以下兩個重要問題：斷詞歧異性問題、未知詞問題。斷詞歧異性問題是指當一個中文字串可以被斷成數種的斷詞組合時，則包含該字串的句子在斷詞後可能會被斷成不符合句意的錯誤斷詞結果，進而影響斷詞效能。斷詞歧異性問題包含組合型

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

歧異(combination ambiguity)和交集型歧異(overlapping ambiguity)，在本研究中我們只著重處理交集型歧異。交集型歧異是當一個中文字串「ABC」可以被斷成「AB/C」及「A/BC」

時（A、B、C 皆為單一中文字，AB 與 C 之間的斜線代表詞彙間的斷詞點），則「AB」、

「BC」會有共同的交集「B」，如此就會形成交集型歧異，而我們稱「ABC」為交集型歧異字串。為了提升斷詞效能，本研究透過英漢翻譯的資訊去處理交集型歧異。未知詞指的是未收錄於辭典中的詞彙，例如人名、地名、組織名等。在日常生活中人們會不斷創造出新的詞彙，因此不太可能存在一部辭典能包含所有新的詞彙，故未知詞經常會出現在文章中。斷詞系統在對未知詞斷詞時通常會出現錯誤斷詞的情形，所以如果想要提升斷詞效能，則處理未知詞問題會是必要的工作。本研究則透過詞性序列規則去篩選出未知詞。

1.2 研究方法

我們的系統之大略架構為：首先藉由中英平行語料來自動化地得到品質不錯的訓練語料，並利用該訓練語料訓練斷詞模型。之後透過斷詞模型對測試語料斷詞。

在處理交集型歧異時我們會利用英文詞彙的中文翻譯進行對應；而因為英漢辭典中的英文詞彙之中文翻譯有限，所以為了提升利用英漢翻譯的資訊去處理交集型歧異的效果，本研究透過 E-HowNet[24]與一詞泛讀[11]去取得英文詞彙的中文翻譯近義詞，以擴充英文詞彙之中文翻譯數量。在產生訓練語料時，我們對中文語料中的句子，透過查詢中文辭典的方式，得到該句的各種斷詞組合。之後利用英漢翻譯的資訊去處理交集型歧異，將英文詞彙的中文翻譯對應到的斷詞組合視為正確斷詞組合，並去除錯誤的斷詞組合，藉此提升訓練語料的品質。利用英漢翻譯的資訊去處理交集型歧異的原因是：透過英文詞彙的中文翻譯，可以挑選出符合英文陳述的正確中文斷詞組合。得到訓練語料後，

我們利用LingPipe 中文斷詞器[31]及史丹佛中文斷詞器（Stanford Chinese Segmenter）[38]

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

我們從中英平行語料中擷取未知詞，藉此處理未知詞問題，以提升我們的系統之斷詞效能；我們從中英平行語料中擷取新的中英詞對來提升利用英漢翻譯的資訊去處理交集型歧異的效果，並藉此提升我們的系統之斷詞效能。以下則為擷取中英詞對與未知詞之大略流程：首先對所有中英平行句對，利用英文詞彙的中文翻譯對中文句斷詞後，在英文句會有「英文遺留字詞」，中文句會有「中文遺留字詞」。透過 PAT-tree 抽詞程式對

「中文遺留字詞」進行初步詞彙擷取並以停用詞列表過濾後，就得到「候選中文遺留字詞」；而我們把由「英文遺留字詞」與「候選中文遺留字詞」所構成的詞對稱為「候選中英遺留詞對」。之後利用可能性比例與共現頻率對「候選中英遺留詞對」進行篩選，

將通過篩選的「候選中英遺留詞對」視為正確詞對，加入至英漢辭典模組；利用詞性序列規則對「候選中文遺留字詞」進行篩選，將通過篩選的「候選中文遺留字詞」視為未知詞，加入至中文辭典模組。

為了評估我們的系統之斷詞效能，本研究共使用科學文章類型的科學人、C300、C220 及新聞文章類型的新聞語料與會話文章類型的廣播會話語料這三種不同領域之各個語料進行實驗，而關於各種語料的來源會在後續章節詳述。本研究之實驗則分為兩大部分。

在第一部分，因為我們沒有測試語料之斷詞標準答案，所以我們對測試語料進行人工斷詞以作為斷詞標準答案，並透過召回率、精確率、F1-measure 三個評估指標進行斷詞效能評估。在第二部分，我們利用統計式機器翻譯系統「Moses」[33]進行漢英翻譯實驗，

並藉由翻譯品質的好壞，來間接地評估斷詞效能之好壞。

1.3 論文架構

在第一章我們介紹研究背景與動機、研究方法，第二章回顧中文斷詞之相關研究與基於英漢雙語平行語料進行斷詞的相關研究，第三章針對辭典模組與加入近義詞之英漢合併辭典建置進行介紹，第四章說明我們的系統的架構與介紹訓練斷詞模型的工具，第五章詳述產生訓練語料的方法，第六章說明實驗語料的來源及介紹以人工斷詞測試語料評估

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

斷詞效能、以漢英翻譯的翻譯品質評估斷詞效能這兩部分實驗的實驗流程與實驗結果分析，第七章為結論與未來展望。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中應用平行語料建構中文斷詞組件 - 政大學術集成 (頁 14-18)

緒論

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章 緒論

1.1 研究背景與動機

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

1.2 研究方法

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

1.3 論文架構

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

第一章緒論

立政治大學

立政治大學

立政治大學

立政治大學