第一章 緒論
1.3 章節概要
本論文共分成四章,各章節編排如下:
第一章 緒論:說明研究動機、研究方向與章節概要。
第二章 語者通道效應之分析與移除:詳細述續如何求取特徵參數之轉移函數並 且對使用此組轉換後的初步效能分析。之後再說明使用此轉移函數在語 者調適系統的詳細流程。
第三章 實驗背景與實驗結果及分析:使用 MAT4500 語料庫以十分之九與十分 之一的比例為訓練及測試語料,並抽取測試語料中之長句做為調適語 料,以特徵參數轉換的方法來補償語者/通道效應,並觀察其在語者調適 系統上的表現。
第四章 結論與未來展望:說明本論文之結論與未來研究方向。
第二章 語者通道效應之分析與移除
語音辨識系統常常因為訓練條件與測試條件的不匹配而影響其辨識結果。
不匹配的原因通常都來自於語者間嘴型、聲道構造、腔調的不同。如果我們能在 求取特徵參數時就去除影響語者間不同的因子訓練較精準的聲學模型,以提高模 型得準確性,而測試者在使用系統時也以同樣的方法消除自己的語音效應,如此 一來在訓練與測試都已經正規化的情況下,語音辨識效能應當有所提升。第一章 研究方向中已經簡單介紹以特徵向量為基礎之調適系統,接下來我們將詳細介紹 如何求取每一位語者轉移參數的方法。
2.1 語者偏移量除去法
本論文所述敘述之語者偏移量移除法【4】是先將整個訓練語料庫以 HMM 模型切割,找一組參數轉換函數Ax b+ ,然後盡可能的把每個特徵參數往所屬 HMM 模型的平均值(one mixture mean)移動,而後再以移動過後的特徵參數重新 訓練一個較精準的 HMM 模型;辨認時,在有適當切割資訊的情況下,也可以以 相同於訓練語料的方法移除語者的偏移量,然後再進行辨認。
假設頻譜特性的差異可以利用一個線性轉換的關係來描述。希望對所有語 料找到一個轉換關係,如下式:
= +
y Ax b (2.1)
其中 y 和 x 分為轉移後和原始的語音特徵向量, 、b為線性轉換關係的參 數。以下兩個小節我們將詳細推導如何以兩種不一樣的原則得到 A 、b。A
2.1.1 使用 MSE 原則之轉換參數求取
基本的想法是欲使轉換過後的特徵向量
y (i.e.
ty
t =A x + b )和
k t kt t
µ
s m (第 m 個 model 的第 s 個 state)在頻譜上的距離最為相近,並且以語者 k 為單位,在最 小化模型平均變異數向量的原則(Mean Square Error criterion)下求出矩陣 及向 量 ,同時對這一位語者所有語句中的特徵向量做轉換得到轉換後的特徵參1
1 1 1
1 1
11
Likelihood ),如式(2.11)所示:
k, k 經由式(2.12) 利用 viterbi algorithm【5】得到最好的狀態序列(state sequence)資訊
t 異矩陣(covariance matrix))可以預估更準確的轉移矩陣 以及 b。接下來我們將詳 細推導求取轉移參數的過程。在此,我們先假設共變異矩陣為對角矩陣
1( )
2.2 特徵參數轉換後之效能評估
variance of meanmean of variance
s m s m 的回歸回歸倒頻係數(△△MFCC),第 38 維則是能量回歸回歸係數(△△energy),
總共 38 維。
F-ratio。圖 2.1、2.2 中,十字曲線為原始特正參數每一個維度的 F-ratio 值變化趨 勢,圓形曲線為使用 MSE criterion 並轉移特徵向量後之 F-ratio,星形曲線則是 使用 ML criterion 的 F-ratio 變化趨勢。可以觀察出 F-ratio 在兩種轉換準則下的提 升程度;使用 ML criterion 的 F-ratio 幾乎所有的特徵向量維度都大於使用 MSE criterion 的 F-ratio,更明顯大於沒有經過轉換之特徵參數的 F-ratio。如此特性可 以解釋,在有更多正確參數參與估算轉移參數 及b的情況下,語者效應更可以 適當的被消除,聲學模型本身也因此更為緊密。
A
圖 2.1:原始特徵參數與經過轉移參數後的特徵參數之 F-ratio 聲母部分比較圖
圖 2.2:原始特徵參數與經過轉移參數後的特徵參數之 F-ratio 韻母部分比較圖
另外可以觀察語者/通道偏移量是否去除的方法就是繪出數個 HMM state 第
一維及第二維的機率統計分佈 ,觀察移除語者/通道效應後的分
佈,是否較移除前緊密。圖 2.3 與圖 2.4 分別為聲母第二個狀態(ㄚ、ㄧ、ㄨ、ㄝ、
2
, ,
( ;t s m, s m) N x µ σ
ㄛ)與韻母第三個狀態模型的 31~37 類(分別為ㄨㄣ、ㄨㄤ、ㄨㄥ、ㄩㄝ、ㄩㄢ、
ㄩㄣ)機率分佈,其中較大的實線橢圓形分佈為原始的特徵參數的模型狀態統計 分佈,較小的虛線橢圓分佈為特徵參數轉換後(ML criterion)的模型狀態統計分 佈,菱形、正方形、圓形等幾何形狀代表著某個聲學模型在二維頻譜空間中的平 均值。箭頭的方向則是從原始特徵參數的平均值指向轉移後的特徵參數平均值。
由圖中觀察得知,相對於原始的特徵參數的模型統計分佈,特徵參數轉移後的統 計分佈確實變得更緊密,因此模型參數修正得更加精確,但是模型的平均值則會 有些許的移動。
圖 2.3 特徵參數轉換 v.s. 原始特徵參數的特徵參數分布 (ㄚ、ㄧ、ㄨ、ㄝ、ㄛ)
圖 2.4 特徵參數轉換 v.s. 原始特徵參數的特徵參數分布 (ㄨㄣ、ㄨㄤ、ㄨㄥ、ㄩㄝ、ㄩㄢ、ㄩㄣ)
章節 2.2 以前主要介紹在兩種不同原則下,如何對每一位語者求得矩陣 及 向量 的方法,並且透過
A
by
=Ax b 之轉換函式得到轉換後的特徵參數並觀察其
+ F-ratio 值。然而我們之所以可以得到如此精確的模型是因為訓練語料有正確切割 位置的資訊,有了切割資訊才可以精確的得到每位語者的轉移矩陣及偏移向量進 而消除語者/通道效應。接下來則要詳細介紹利用參數轉換之整個語者調適系統 流程;詳細說明訓練聲學模型步驟及如何得到每一位測試語者些許的語音及其正 確切割資訊來轉換測試語料並進行辨認。2.3 語者偏移量移除之語者調適系統
2.3.1 模型的訓練
語者效應補償由特徵參數轉移法取代原本的 SBR(Signal Bias Remove) 【6】
【7】法,以原始的特徵參數及切割資訊求取轉移參數矩陣 A 及向量 b,之後得
到訓練語料的轉移特徵參數、建立初始模型並對其進行訓練後產生更精準的聲學 模型,系統模型參數訓練流程如圖 2.5 所示:
圖 2.5 以轉換後之特徵參數訓練聲學模型流程圖
2.3.2 語者調適--從調適語料中求取轉移參數
由於調適方法為監督式調適法,所以可以用原始的語者不特定模型對調適語 料加以切割得到切割資訊,然後以調適語料的原始的特徵參數及此切割資訊求取 轉移參數矩陣 A 及向量 b 做為接下來此位語者辨識語料的轉移參數。求得測試 語者轉移參數矩陣 A 及向量 b 之流程如圖 2.6 所示
圖 2.6 從調適語料求得轉移參數流程圖
2.3.3 辨認流程
使用語者調適時所得到之矩陣 A 及向量 b 用來求取測試語料轉移後的特徵 參數,最後再使用轉換後的特徵參數所訓練之 HMM 模型進行維特比搜尋(Viterbi search) 【8】,進而得到連續單音節辨認結果,辨認之流程如圖 2.7 所示
圖 2.7 移除語者偏移量測試流程圖
第三章 實驗背景與實驗結果及分析
3.1 語音資料庫
3.1.1 訓練語料 (train data)
本論文使用的語音資料是由「中華民國計算語言學會」(ROC Computational Linguistic Society)所提供的「台灣之國語語音資料庫」(Mandarin speech database Across Taiwan,簡稱 MAT),是透過電話網路經由個人電腦錄製,以 8KHz 的取樣 頻率及 16 位元的取樣位元數來進行語音的收集,再經處理而成。 實驗中取 MAT 語料庫中的十分之九作為訓練語料。經過整理,參與訓練語料的人數為男生 2057 人,女生 2263 人,共 4320 人。總共訓練音節男生為 244463 個,女生為 263683 個,共 508146 個。
3.1.2 辨認語料 (test data)
以語者為單位,扣除調適語料後的十分之一 MAT 4500 為辨認語料。其中 MAT2000 的測試人數為 222 人,MAT2500 測試人數為 250 人,總共測試語者有 472 人。MAT4500 測試語料詳細的分類及統計如表 3.1:
MAT2000 測試 語料分類
內容 備註
第一部分 short spontaneous answers to questions (沒有使用)
第二部分 numbers (沒有使用)
第三部分 isolated Mandarin syllables (沒有使用) 第四部分 國語 2-4 字詞
第五部分 國語平衡長句 (平均每句話有 14 個 音節)
MAT2500 測試 語料分類
內容 備註
第六部分 國語數字串 第七部分 國語專有名詞 第八部分 國語 2-4 字詞
第九部分 國語平衡長句 (平均每句話有 13 個
音節) 表 3.1 MAT4500 測試語料詳細的分類及統計
3.1.3 調適語料
從十分之一 MAT 4500 測試語料中,以語者為單位,取出國語平衡長句(參 考表 3.1 ;MAT2000 為第五部分、MAT2500 為第九部分)為調適語料,句數從一 句開始增加。如果調適語料不夠時,則整個語者的語料皆不作辨認。可做調適語 料之句子的平均音節數為 14 個,平均時間為 4 秒。
3.2 語音訊號的特徵參數擷取
每一個音框(frame)的聲學特性經過數學的運算可以用一組特徵向量來表 示,表 3.2 詳細敘述參數擷取的詳細情形
取樣頻率 8K 快速傅利葉(FFT)轉換點數 256 音框長度(frame size) 30ms
音框平移 10ms
濾波器(filter bank)與濾波器個數 30 個梅爾刻度三角濾波器 表 3.2 本論文實驗所使用之特徵參數擷取
3.3 聲學模型架構
本論文所用的聲學模型皆為連續密度隱藏式馬可夫模型( continues density HMM),每一個中文音節可分成聲母與韻母兩部分;聲母模型為右相關模型(right dependent)或稱為 final-dependent,共有 100 個,由三個狀態(state)組成,韻母模 型總數為 40 個是由五個狀態組成。每個模型的高斯混合數(mixture)以 50 個 音框取ㄧ個混合數,最大混合數不超過 32 個。除此之外還有一個靜音模型只由 一個狀態組成,靜音模型的混合數取 64 個。
3.4 辨認率之計算
對連續音而言,由於辨認結果所得的音節總數,未必等於正確的音節總數,
因此辨認的結果除了「替代型」(Substitution)錯誤以外,還包含「插入型」(Insertion) 以及「刪除型」(Deletion) 錯誤。在此對於替代型、插入型、刪除型錯誤的認定 方式,是以得到最佳辨認率為原則,其具體做法是利用動態規劃法,將正確音節 字串與辨認結果做一對應,進行錯誤類型的認定,找出一條可得最佳辨認率的路 徑,再以下式計算辨認率:
辨認率 = (正確音節數 - (Sub + Ins + Del)) / 正確音節數 (3.1)
3.5 基本系統之測試比較
首先定義基本系統(baseline system)為沒有利用經過轉換的特徵參數所訓練 出來的聲學模型來對所有的測試語者進行辨認,訓練語料為十分之九 MAT4500 語料,測試語料為十分之一 MAT4500 語料。辨認結果可以當作語者調適系統時 的一個參考。如果沒有考慮 CMN(Cepstral Mean Normalization)時,基本辨識系統 辨識率為 58.59%;有考慮 CMN 的狀況時,基本辨識系統辨識率為 61.96%,兩 者相差大約 3 個百分點。詳細資訊如表 3.3 所示
Ins. Del. Sub. Total test syllable
Syllable correct rate Baseline
no CMN
2.69% 1.43% 34.58% 56691 58.59%
Baseline with CMN
維的特徵參數後再求取 12 維的回歸倒頻係數(△MFCC)、12 維的回歸回歸倒頻
維的特徵參數後再求取 12 維的回歸倒頻係數(△MFCC)、12 維的回歸回歸倒頻