文字資料庫

第二章傳統語言模型

2.2 文字資料庫

在訓練語言模型之前，頇先將語料庫的文章進行前處理，將文章中會影響辨認效能的內容移除或修改，之後再以訓練 word-based 之 General LM。文字前處理流程大致可分為：斷詞、文字正規化和處理 OOV，如圖 2.1 所示。將在以下小節分別說明文章所採用的斷詞方法及文字正規化的處理。

Training data

CRF parsing Symbol

Normalization Text

圖 2.1：文字資料處理流程

2.2.1 文字資料庫介紹

本研究使用下述兩個文字資料庫來建立語言模型：

(1)光華雜誌：為光華雜誌的文章，蒐集範圍為 1976 年到 2000 年之間。

(2) NTCIR：內容由各個不同學科領域之文章所構成，為建立資訊檢索系統的標竿測詴集。

針對訓練 General 語言模型所使用之光華雜誌與 NTCIR 兩語料庫進行詞、字元數量統計，結果於表 2.1 中呈現，如下：

表 2.1：General 語言模型字數及詞數統計

語料庫詞數(Word) 字數(Character) 詞條數帄均詞長光華雜誌、NTCIR 116,173,318 219,893,736 1,073,479 1.80673

2.2.2 文章斷詞

語言模型是經由統計的方式建立，統計詞彙和詞彙之間的連接機率關係，所以把文章斷詞來統計詞彙和詞彙之間的機率，而語言模型的好壞也會和斷詞時所決定詞的邊界有關。

傳統的中文斷詞與詞性標記系統使用的是長詞優先及構詞規則，這些方法需要結合專門

領域的知識及大量的手工標記資源才能使中文斷詞研究做得不錯，最著名的是中央研究院的中文斷詞系統【10】。但自 2001 年起，由於條件隨機域(conditional random field ,CRF)方法【11】

被提出，並有效的使用在自然語言處理斷詞器上。

Top-N candidates of words sequence

Words/POSs sequence

Words/POSs sequence with Base-phrase tagging

(1) 文字正規化單元(Symbol Normalization)

於此級處理了兩件事；其一，輸入的文句當中可能包含 ASCII code 或 BIG5 code，

在進入斷詞單元之前，必頇將所有的 ASCII code 轉成 BIG5 code 格式，使字串格式統一。

其二，中文的用字歧畨和標點符號的統一在此單元中解決，例如「裏」和「晒」轉為「裡」

和「曬」，而標點符號中如全形逗號「，」也統一轉成半形「﹐」。 (2) 斷詞單元(Word Segmemtaion)

斷詞單元是最前面的分詞單元，目的是將輸入文句做適當的斷詞，也是整個文句分析器當中最核心的部分。此單元找出所有可能的詞串組合，以供給下一級的「詞類標記單元」標記詞性。

(3) 詞類標記單元(Pos Tagger)

斷詞候選句產生後，依照學習到的句法結構，利用機率統計模型，給予候選句每一個詞彙一個最高機率數值，即最可能出現詞性標籤，來標記所有可能的詞性組合，並從候選句當中選出最合乎語法的句子。

(4) 構詞單元(Word Constuction)

於此級加入了構詞規則，再加上上一級所產生的 POS 資訊，將短詞組合為長詞彙；

其中即加入了七條定量複合詞的組合規則來產生定量複合詞；甚至可將原本無法收錄至詞典當中的詞，其中有規律的利用構詞規則來合併詞彙提供了良好的斷詞結果。

(5) 輸出單元(Base-Phrase Chunker)

使用中央研究院中文句結構數資料庫【12】當作訓練語料，對斷詞後之 word sequence 標示出 ADVP、AP、NP、GP、PP、AP、ADVP、VP 各種詞組結構，其中分別是：副詞詞組、形容詞詞組、名詞詞組、方為詞詞組、介詞詞組、述詞詞組。

2.2.3 文字資料庫處理

對文字資料中所做的處理分別有：標點符號、英文串、文字正規化，以下之各小節詳細敘述之。

2.2.3.1 標點符號處理

中文所使用的標點符號(PM)共有十六種，可區分為標號與點號兩大類，其中標號常用的有書名號、破折號、省略號、括號、引號等九種，而點號則有逗號、頓號、句號、冒號、分號、問號、驚嘆號共七種，這兩大類中又以點號跟說話時的停頓有較大的關聯性，所以在文

章中標點符號的處理，利用點號中的四種符號(句號、分號、驚嘆號、問號)把文章分段。由於在聲學模型中並未有考慮到標點符號的模型，所以把文章中所有的標點符號先予以移除。

2.2.3.2 英文串處理

由於我們的辨認目標為中文詞彙，聲學模型中並沒有訓練英文詞的聲音模型，所以文章中的英文詞以「LONGFW」符號來表示，我們將所有的英文詞當作一個類別看待它；在進行辨認的過程中，並不把這個類別收錄至辭典內，而將這個類別視為 OOV。

2.2.3.3 文字正規化

文字正規化可分為兩大部分：第一，文章的內容有些阿拉伯數字、詞彙和符號都必頇由寫法轉為語音讀法；另ㄧ方面，文章內有些詞只是寫法不同造成用字歧畨，但在讀音上及語意上是相同的，需把這類的詞合併成同一個詞。這些處理過程以文字正規化稱之。

(1) 寫法轉讀法

將阿拉伯數字、詞彙或符號由文字書寫方式改為語音讀法格式，其中主要是數字部分的處理，其正規化的處理可由下表 2.2 範例示之。

表 2.2：文字正規化範例

正規化前正規化後

120 號一百二十號

90‧23 九十點二三

35％百分之三十五

二二，三三零人二萬二千三百三十人

(2) 同音義畨詞處理

某些詞在發音上甚至語意都是相同的，只在寫法上有所差畨，而這類的詞若當作不同的詞彙對待會使得辨認上造成混淆，所以把這類的詞統一，合併為一個詞視之，如表 2.3。經過這個步驟可將文章的詞彙更集中，促使 OOV 量減少。

表 2.3：同音義畨詞範例 同音義畨詞

佰、仟百、千

部份部分

佈告欄布告欄

洩露國家機密洩漏國家機密

在文檔中使用階層式語言模型之大詞彙國語辨認系統 (頁 19-23)

第二章 傳統語言模型