第 3 章 實驗基礎架構及語料庫
3.3 基礎實驗(baseline)
~ 20 ~
(beam search)來避免狀態樹增長過大使得搜尋時間過長。光束搜尋法的主要作法是 對同一階層(level)的節點依照機率由高至低排序,挑出同一階層中排名前 w 的節點,
下一層便只有這些節點才會繼續增長,其中 w 便稱為光束的寬度;排在 w 名之後 的節點則視為機率低於最佳路徑太多而忽略不計,如此一來,無論原本的搜尋空 間多大,在光束搜尋演算法下的搜尋空間都可以限制在一定的範圍內。
此外,一般的語音辨識只會找出機率最高的路徑作為辨識結果,然而在狀態 樹中,每個未被光束搜尋刪去的節點也會記錄著其歷史資訊,如語言模型歷史、
對應的候選詞的首尾音框,以及搜尋時至此節點的機率分數等等,依照這些資訊 可以建立詞圖。由於詞圖可以將語言模型與聲學模型的分數計算作出某種程度的 分解,因此可以在詞圖上使用更高階的語言模型,重新進行一次詞圖重計分 (rescoring),而不至於使得第一階段的搜尋複雜度增加過多。另外在鑑別式訓練法 中,也經常使用詞圖作為所有辨識可能的近似,在本論文中,語音辨識與詞圖的 產生都是使用同一套工具。
3.3 基礎實驗(baseline)
本實驗依照 3.2.2 的初始聲學模型設定,語音訊號使用 3.2.1 的方式抽取梅爾 倒頻譜係數特徵,使用HTK 抽取語音訊號特徵及訓練聲學模型。而訓練過程使用 最大相似度估測法。訓練過程首先必須給每個模型一個原型(prototype),之後再經 過最大相似度估測法的反覆疊代(iteration)訓練出最終模型。
本實驗的聲學模型原型為 5 個狀態,每個狀態有一個高斯混合數。在一個高 斯混合數的情況下,經過50 次的疊代之後,開始增加高斯混合數,高斯混合數的 增加順序為:1Æ2Æ3Æ4Æ5Æ6Æ7Æ8Æ16Æ24Æ32Æ64。每次增加混合數之後,
都會再做 4 次的疊代,才繼續增加至下一個數量的混合數,每個聲韻母模型的高 斯混合數依照表 A.3 決定。在增加高斯混合數的過程中,每個聲韻母模型在增加 到目標數量之後,該聲韻母模型在之後的增加過程中便不再增加混合數。
語音辨識是使用 TTK 完成,詞典與語言模型是依照 3.2.3 的方式產生,辨識
3.3 基礎實驗(baseline)
~ 21 ~
時使用詞三連語言模型,基礎實驗結果如表 3.2:
實驗結果以4 個不同的層級表示,分別為詞(word)、字(character, 表中簡寫為 char)、音節(syllable, 表中簡寫為 syl)、聲韻母(Initial/Final, 表中簡寫為 I/F),而這 4 個層級的規則中,詞是以詞典中列出的詞為準,在實驗中原本的辨識結果就是詞;
字則是將詞全部拆開成一個一個的字,在實驗中是將辨識結果的詞斷開而來;音 節則是將同音字視為相同的單位,在實驗中是將辨識結果的詞,依照詞典中的發 音對應轉換而來;聲韻母則是聲學模型的單位,在實驗中也是將辨識結果的詞,
依照詞典中的發音對應轉換而來,而在本實驗中因為是使用右相關聲韻母模型,
每一個音節都是由一個聲母加一個韻母構成,所以音節跟聲韻母的差異就是兩個 聲韻母組成一個音節。
而表中的H(hit, 命中)是代表辨識結果與正確答案相同的部份,D(deletion, 遺 失)是正確答案中有出現但辨識結果沒出現的部份,S(substation, 取代)是辨識結果 中與正確答案中相異的部份,I(insertion, 插入)是正確答案中沒出現但辨識結果中 有出現的部份,N(number)是正確答案的總數(如在 word 中就是指總詞數,在 char 中就是總字數)。D、S、I 是由計算編輯距離而來,計算方式如圖 2.2,最後 H 的 計算方式是:
H = N − −D S (3.2)
而在表中的Corr(correct)命中率的計算方式是:
H 100%
Corr= N × (3.3)
表中的Acc(accuracy)正確率的計算方式是:
level Corr(%) Acc(%) H D S I N word 71.04 57.99 11424 411 4246 2099 16081
char 76.43 75.17 19997 444 5723 330 26164 syl 82.72 81.42 21689 466 4064 342 26219 I/F 86.29 84.76 45251 1054 6133 806 52438
表 3.2 基礎實驗結果
3.4 本章結論
~ 22 ~
H I 100%
Acc N
= − × (3.4)
一般的語音辨識結果的評估,都是以詞正確率為標準,而在中文的語音辨識 中,一般又以字正確率為標準。唯本論文為了深入分析不同方法的表現,之後的 實驗結果依然會列出詳細各項數據。
3.4 本章結論
本章介紹了本論文使用的中文大字彙辨識系統,以及基礎實驗的訓練方式,
包括前端處理、聲學模型訓練、詞典與語言模型的建立,以及辨識工具的解碼方 式。在公視新聞語料上,經由最大相似度估測法,可以得到約 75.17%字正確率的 結果,這個結果將作為本論文之後鑑別式訓練法的基礎實驗。
4.1 目標函數 上會有困難。在這裡使用弱性輔助函數(weak-sense auxiliary function)處理這個問題 (見附錄 B),令一弱性輔助函數HMPE