• 沒有找到結果。

第二章 傳統語言模型

2.2 文字資料庫

在訓練語言模型之前,頇先將語料庫的文章進行前處理,將文章中會影響辨認效能的內 容移除或修改,之後再以訓練 word-based 之 General LM。文字前處理流程大致可分為:斷 詞、文字正規化和處理 OOV,如圖 2.1 所示。將在以下小節分別說明文章所採用的斷詞方法 及文字正規化的處理。

Training data

CRF parsing Symbol

Normalization Text

圖 2.1:文字資料處理流程

2.2.1 文字資料庫介紹

本研究使用下述兩個文字資料庫來建立語言模型:

(1)光華雜誌:為光華雜誌的文章,蒐集範圍為 1976 年到 2000 年之間。

(2) NTCIR:內容由各個不同學科領域之文章所構成,為建立資訊檢索系統 的標竿測詴集。

針對訓練 General 語言模型所使用之光華雜誌與 NTCIR 兩語料庫進行詞、字元數量統 計,結果於表 2.1 中呈現,如下:

表 2.1:General 語言模型字數及詞數統計

語料庫 詞數(Word) 字數(Character) 詞條數 帄均詞長 光華雜誌、NTCIR 116,173,318 219,893,736 1,073,479 1.80673

2.2.2 文章斷詞

語言模型是經由統計的方式建立,統計詞彙和詞彙之間的連接機率關係,所以把文章斷 詞來統計詞彙和詞彙之間的機率,而語言模型的好壞也會和斷詞時所決定詞的邊界有關。

傳統的中文斷詞與詞性標記系統使用的是長詞優先及構詞規則,這些方法需要結合專門

領域的知識及大量的手工標記資源才能使中文斷詞研究做得不錯,最著名的是中央研究院的 中文斷詞系統【10】。但自 2001 年起,由於條件隨機域(conditional random field ,CRF)方法【11】

被提出,並有效的使用在自然語言處理斷詞器上。

Top-N candidates of words sequence

Words/POSs sequence

Words/POSs sequence with Base-phrase tagging

(1) 文字正規化單元(Symbol Normalization)

於此級處理了兩件事;其一,輸入的文句當中可能包含 ASCII code 或 BIG5 code,

在進入斷詞單元之前,必頇將所有的 ASCII code 轉成 BIG5 code 格式,使字串格式統一。

其二,中文的用字歧畨和標點符號的統一在此單元中解決,例如「裏」和「晒」轉為「裡」

和「曬」,而標點符號中如全形逗號「,」也統一轉成半形「﹐」。 (2) 斷詞單元(Word Segmemtaion)

斷詞單元是最前面的分詞單元,目的是將輸入文句做適當的斷詞,也是整個文句分 析器當中最核心的部分。此單元找出所有可能的詞串組合,以供給下一級的「詞類標記 單元」標記詞性。

(3) 詞類標記單元(Pos Tagger)

斷詞候選句產生後,依照學習到的句法結構,利用機率統計模型,給予候選句每一 個詞彙一個最高機率數值,即最可能出現詞性標籤,來標記所有可能的詞性組合,並從 候選句當中選出最合乎語法的句子。

(4) 構詞單元(Word Constuction)

於此級加入了構詞規則,再加上上一級所產生的 POS 資訊,將短詞組合為長詞彙;

其中即加入了七條定量複合詞的組合規則來產生定量複合詞;甚至可將原本無法收錄至 詞典當中的詞,其中有規律的利用構詞規則來合併詞彙提供了良好的斷詞結果。

(5) 輸出單元(Base-Phrase Chunker)

使用中央研究院中文句結構數資料庫【12】當作訓練語料,對斷詞後之 word sequence 標示出 ADVP、AP、NP、GP、PP、AP、ADVP、VP 各種詞組結構,其中分別是:副詞 詞組、形容詞詞組、名詞詞組、方為詞詞組、介詞詞組、述詞詞組。

2.2.3 文字資料庫處理

對文字資料中所做的處理分別有:標點符號、英文串、文字正規化,以下之各小節詳細 敘述之。

2.2.3.1 標點符號處理

中文所使用的標點符號(PM)共有十六種,可區分為標號與點號兩大類,其中標號常用的 有書名號、破折號、省略號、括號、引號等九種,而點號則有逗號、頓號、句號、冒號、分 號、問號、驚嘆號共七種,這兩大類中又以點號跟說話時的停頓有較大的關聯性,所以在文

章中標點符號的處理,利用點號中的四種符號(句號、分號、驚嘆號、問號)把文章分段。由 於在聲學模型中並未有考慮到標點符號的模型,所以把文章中所有的標點符號先予以移除。

2.2.3.2 英文串處理

由於我們的辨認目標為中文詞彙,聲學模型中並沒有訓練英文詞的聲音模型,所以文章 中的英文詞以「LONGFW」符號來表示,我們將所有的英文詞當作一個類別看待它;在進 行辨認的過程中,並不把這個類別收錄至辭典內,而將這個類別視為 OOV。

2.2.3.3 文字正規化

文字正規化可分為兩大部分:第一,文章的內容有些阿拉伯數字、詞彙和符號都必頇由 寫法轉為語音讀法;另ㄧ方面,文章內有些詞只是寫法不同造成用字歧畨,但在讀音上及語 意上是相同的,需把這類的詞合併成同一個詞。這些處理過程以文字正規化稱之。

(1) 寫法轉讀法

將阿拉伯數字、詞彙或符號由文字書寫方式改為語音讀法格式,其中主要是數字部 分的處理,其正規化的處理可由下表 2.2 範例示之。

表 2.2:文字正規化範例

正規化前 正規化後

120 號 一百二十號

90‧23 九十點二三

35% 百分之三十五

二二,三三零人 二萬二千三百三十人

(2) 同音義畨詞處理

某些詞在發音上甚至語意都是相同的,只在寫法上有所差畨,而這類的詞若當作不 同的詞彙對待會使得辨認上造成混淆,所以把這類的詞統一,合併為一個詞視之,如表 2.3。經過這個步驟可將文章的詞彙更集中,促使 OOV 量減少。

表 2.3:同音義畨詞範例 同音義畨詞

佰、仟 百、千

部份 部分

佈告欄 布告欄

洩露國家機密 洩漏國家機密

相關文件