聲學模型與語言模型之架構及建立

第二章階層式語言模型

2.2 聲學模型與語言模型之架構及建立

2.2.1 聲學模型之建立

由於語音訊號在頻譜上具有短時間穩定的特性及考慮到人耳聽覺效應的補償作用，本研究使用的參數為 MFCC (Mel-Frequency Cepstral Coefficients, 梅爾倒頻譜參數)，以 32 毫秒之漢明窗(Hamming Window)及每次位移 10 毫秒取出一筆資料，其成分包含 12 維 MFCC 加上 1 維能量共 13 維，取其一階變化量(delta term)和二階變化量(delta-delta term)，最後扣掉能量參數，

參數一共 38 維做為本研究之發音聲學參數。其系統相關設定如表 2.2 所示。此外，聲學模型

為 411 個音節，每一個音節使用 8 個狀態的隱藏式馬可夫模型(HMM)，使用 MMI 鑑別式訓練得到。

表 2.2：MFCC 參數抽取設定檔

音框長度 32ms

音框平移 10ms

Filter bank 個數 24

取樣頻率 16kHz

Pre-emphasis Filter First order with coefficient 0.97

2.2.2 文字資料庫介紹

辨認系統之語言模型，通常必須先具備大量的文字資料庫，利用大量的文字資料訓練出一個涵蓋範圍廣泛、適用於各個領域的語言模型，本研究使用的文字資料庫共有下述四種來源：

1.)光華雜誌(Sinorama)：內容為一般雜誌的文章，蒐集的年代範圍介於 1976 年到 2000 年之間。

2.) NTCIR：為一個建立資訊檢索系統的標竿測試集，其內容由數種不同學科領域文章構成。

3.)中研院平衡語料庫(Sinica)：它是一套由中研院錄製，內容包含多種主題，以語言分析研究為目的的資料庫。

4.) Chinese Gigaword：由 Linguistic Data Consortium (LDC)整合發行，內容包含台灣中央社、

北京新華社等國際新聞。

在訓練語言模型之前，須先對語料庫的文章進行前處理，將文章中會影響辨認效能的內容移除或修改，經由文本前處理後，得到詞的總數量為 382,921,251 個，之後再以統計方式選擇詞典，這裡一共納入了 60,000 個常見詞彙，將常出現、較重要的詞收錄在詞典內以便訓練出語言模型，圖 2.1 為語言模型訓練流程：

文字語料庫文本前處理建立辨識詞典 N-gram

training 圖 2.1：語言模型訓練流程

其中文本前處理的步驟又可以再細分為以下數個步驟：

文字語料庫 CRF斷詞文字正規化訓練語料

圖 2.2：文本前處理流程

2.2.3 辨識詞典選詞方式

對於建立一個完善的語言模型而言，有一項重要的關鍵在於詞典的選擇，由於受限於記憶體的大小，有別於傳統方式為直接收錄語料庫中高詞頻的六萬筆詞條，但某些詞條可能只出現在特定文章中，在此為了讓收錄的詞條為一般常見的詞語，也就是說：必須找到廣泛出現在各個文章中的詞，因此我們使用 TF-IDF (term frequency–inverse document frequency)方法來幫助我們進行選詞。

TF-IDF 是一種用於資訊檢索(IR - Information Retrieval)的常用加權技術。它是一種統計方法，用於評估一個詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。TF 表示該詞條在語料庫中出現的頻率，代表其詞條的重要性隨著在語料庫出現的總次數成正比增加；

IDF 則表示一個詞條普遍重要性的度量，代表其詞條類別區分能力隨著在語料庫各文章中出現的頻率成反比下降。

我們可以使用(2.1)式算出每個詞條對應的 IDF 值：

log{ : }

idf D

d d t

 

(2.1)

(2.1)式中 D 表所有文件的集合，分子 D 表示語料庫中的文件總數，d 表文件，ti表正在處理的 詞條，分母則表示包含該詞條 t_i的文件數目。

在進行大詞彙辨認時，我們欲收錄的詞是一般常見的詞語，觀察(2.1)式中，由於“出現的文章數”在分母項，因此我們將挑選 IDF 分數低的詞收錄進詞典中。

比較藉由 TF-IDF 方法重新計算收錄的優先順序與直接收錄高詞頻的傳統方式，發現使用

TF-IDF 選詞而更動的詞數大多為人名，這些人名因為本身出現次數高而被收錄進原先高詞頻的詞典中，但因僅僅出現在少數的文件中而遭到 TF-IDF 方法剔除，如下表 2.3 與表 2.4 所示，

由此可知，TF-IDF 選詞方式能使詞典收錄到較廣泛的詞條。表 2.5 並比較直接收錄高詞頻的傳統方式與經由 TF-IDF 選詞方式來計算其混淆度(Perplexity)，計算的對象為 TCC-300 的測試語料，發現經由 TF-IDF 選詞方式能夠有較低的混淆度。

表 2.3：TF-IDF 方法剔除的詞條例 被剔除的詞詞頻出現文章數 IDF 值

黃乃宣 996 63 2.124

韋殿剛 1013 69 2.085

吳憶樺 1081 56 2.175

表 2.4：經由 TF-IDF 方法加入的詞條例 取代的新詞詞頻出現文章數 IDF 值

協商會 147 121 1.841

酒氣 147 121 1.841

崇洋 147 118 1.852

表 2.5：混淆度(Perplexity)

Lexicon Order ppl ppl1

傳統方式 3 109.712 117.745

TF-IDF 方法 3 109.311 117.301

9 滑化(back-off smoothing)來調整模型的機率分佈。機率預估式改寫如下：

1 1 2 1 1 個小於 1 的值d (Discount Coefficient Factor)來進行平滑化，_a d 依據 Good-Turning discounting_a 計算得出，並會將扣除的機率值再平分給詞串沒有出現的 n-gram 機率使用。

在文檔中考慮語速影響與詞綴構詞之中文語音辨認系統 (頁 16-21)

第二章 階層式語言模型

2.2 聲學模型與語言模型之架構及建立

2.2.1 聲學模型之建立

2.2.2 文字資料庫介紹

2.2.3 辨識詞典選詞方式

第二章階層式語言模型