第二章 階層式語言模型
2.2 聲學模型與語言模型之架構及建立
2.2.1 聲學模型之建立
由於語音訊號在頻譜上具有短時間穩定的特性及考慮到人耳聽覺效應的補償作用,本研究 使用的參數為 MFCC (Mel-Frequency Cepstral Coefficients, 梅爾倒頻譜參數),以 32 毫秒之漢明 窗(Hamming Window)及每次位移 10 毫秒取出一筆資料,其成分包含 12 維 MFCC 加上 1 維能 量共 13 維,取其一階變化量(delta term)和二階變化量(delta-delta term),最後扣掉能量參數,
參數一共 38 維做為本研究之發音聲學參數。其系統相關設定如表 2.2 所示。此外,聲學模型
6
為 411 個音節,每一個音節使用 8 個狀態的隱藏式馬可夫模型(HMM),使用 MMI 鑑別式訓練得到。
表 2.2:MFCC 參數抽取設定檔
音框長度 32ms
音框平移 10ms
Filter bank 個數 24
取樣頻率 16kHz
Pre-emphasis Filter First order with coefficient 0.97
2.2.2 文字資料庫介紹
辨認系統之語言模型,通常必須先具備大量的文字資料庫,利用大量的文字資料訓練出一 個涵蓋範圍廣泛、適用於各個領域的語言模型,本研究使用的文字資料庫共有下述四種來源:
1.)光華雜誌(Sinorama):內容為一般雜誌的文章,蒐集的年代範圍介於 1976 年到 2000 年之間。
2.) NTCIR:為一個建立資訊檢索系統的標竿測試集,其內容由數種不同學科領域文章構成。
3.)中研院平衡語料庫(Sinica):它是一套由中研院錄製,內容包含多種主題,以語言分析研究 為目的的資料庫。
4.) Chinese Gigaword:由 Linguistic Data Consortium (LDC)整合發行,內容包含台灣中央社、
北京新華社等國際新聞。
在訓練語言模型之前,須先對語料庫的文章進行前處理,將文章中會影響辨認效能的內容 移除或修改,經由文本前處理後,得到詞的總數量為 382,921,251 個,之後再以統計方式選擇 詞典,這裡一共納入了 60,000 個常見詞彙,將常出現、較重要的詞收錄在詞典內以便訓練出 語言模型,圖 2.1 為語言模型訓練流程:
文字語料庫 文本前處理 建立辨識詞典 N-gram
training 圖 2.1:語言模型訓練流程
7
其中文本前處理的步驟又可以再細分為以下數個步驟:
文字語料庫 CRF斷詞 文字正規化 訓練語料
圖 2.2:文本前處理流程
2.2.3 辨識詞典選詞方式
對於建立一個完善的語言模型而言,有一項重要的關鍵在於詞典的選擇,由於受限於記憶 體的大小,有別於傳統方式為直接收錄語料庫中高詞頻的六萬筆詞條,但某些詞條可能只出現 在特定文章中,在此為了讓收錄的詞條為一般常見的詞語,也就是說:必須找到廣泛出現在各 個文章中的詞,因此我們使用 TF-IDF (term frequency–inverse document frequency)方法來幫助 我們進行選詞。
TF-IDF 是一種用於資訊檢索(IR - Information Retrieval)的常用加權技術。它是一種統計方 法,用於評估一個詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。TF 表示該 詞條在語料庫中出現的頻率,代表其詞條的重要性隨著在語料庫出現的總次數成正比增加;
IDF 則表示一個詞條普遍重要性的度量,代表其詞條類別區分能力隨著在語料庫各文章中出現 的頻率成反比下降。
我們可以使用(2.1)式算出每個詞條對應的 IDF 值:
log{ : }
i
i
idf D
d d t
(2.1)
(2.1)式中 D 表所有文件的集合,分子 D 表示語料庫中的文件總數,d 表文件,ti表正在處理的 詞條,分母則表示包含該詞條 ti的文件數目。
在進行大詞彙辨認時,我們欲收錄的詞是一般常見的詞語,觀察(2.1)式中,由於“出現的 文章數”在分母項,因此我們將挑選 IDF 分數低的詞收錄進詞典中。
比較藉由 TF-IDF 方法重新計算收錄的優先順序與直接收錄高詞頻的傳統方式,發現使用
8
TF-IDF 選詞而更動的詞數大多為人名,這些人名因為本身出現次數高而被收錄進原先高詞頻 的詞典中,但因僅僅出現在少數的文件中而遭到 TF-IDF 方法剔除,如下表 2.3 與表 2.4 所示,
由此可知,TF-IDF 選詞方式能使詞典收錄到較廣泛的詞條。表 2.5 並比較直接收錄高詞頻的 傳統方式與經由 TF-IDF 選詞方式來計算其混淆度(Perplexity),計算的對象為 TCC-300 的測試 語料,發現經由 TF-IDF 選詞方式能夠有較低的混淆度。
表 2.3:TF-IDF 方法剔除的詞條例 被剔除的詞 詞頻 出現文章數 IDF 值
黃乃宣 996 63 2.124
韋殿剛 1013 69 2.085
吳憶樺 1081 56 2.175
表 2.4:經由 TF-IDF 方法加入的詞條例 取代的新詞 詞頻 出現文章數 IDF 值
協商會 147 121 1.841
酒氣 147 121 1.841
崇洋 147 118 1.852
表 2.5:混淆度(Perplexity)
Lexicon Order ppl ppl1
傳統方式 3 109.712 117.745
TF-IDF 方法 3 109.311 117.301
9 滑化(back-off smoothing)來調整模型的機率分佈。機率預估式改寫如下:
1 1 2 1 1 個小於 1 的值d (Discount Coefficient Factor)來進行平滑化,a d 依據 Good-Turning discountinga 計算得出,並會將扣除的機率值再平分給詞串沒有出現的 n-gram 機率使用。
10