空間與時間之特徵分布統計圖轉換法相關實驗結果 - 空間與時間之特徵分布補償法 - 使用空間-時間之特徵分布資訊於強健性語音辨識之研究

4.1 空間與時間之特徵分布補償法

4.1.2 空間與時間之特徵分布統計圖轉換法相關實驗結果

由於本論文所提出的方法之中心思想為同時考慮不同空間與時間之特徵，因此結合空間與時間之特徵分布資訊對於辨識效能的影響程度應詳細地探討。吾人將空間與時間上的參數分開討論，藉此以證明不同空間之間的交互補償確實有助於辨識率的提升。以下簡述本實驗之相關設定。在訓練階段我們只考慮梅爾倒頻譜係數之靜態(Static)係數的部分，針對靜態係數求得轉換矩陣，在測詴階段我們串接 2K+1 個梅爾倒頻譜係數之靜態部分成一個超級向量，並轉換此超級向量已形成還原的梅爾倒頻譜係數之靜態部分，最後才求算動態(Dynamic)部分。此外，所

有梅爾倒頻譜係數的第零維設定為 C0 值。

首先，吾人嘗詴使用不同的向量串接數目包括 1 個、3 個、5 個、7 個與 9 個。實驗結果如表 4-1 所示，由表格可以清楚發現隨著串接數目 P 增多，平均字錯誤率會隨之下降，在 P=5 時平均字錯誤率達 17.99％左右，相較於梅爾倒頻譜系數基礎實驗結果為 41.93％，平均字錯誤率達 56％左右的相對減少。然而，當 P 達到 7 或 9 時，平均字錯誤率反而上升，其原因可能為語音訊號在短時間內的變化雖然緩慢，但是我們所需的是能捕捉鄰近時間上特徵分布之變化的資訊，因此截取時間過長並不會帶來有效的資訊，反而應視訓練語料本身之語音特性而定，

如語者講話速度的快慢、取樣頻率的大小或是音框擷取的長度等等。

接著第二個實驗探討串聯空間上不同數目的元素，對於本方法的影響。也就是說藉由實驗來證明，同時將空間與時間的特徵值納入考慮，是否真能有助於辨識效能。此實驗中，吾人使用不同的梅爾倒頻譜係數向量的空間維度數目，總共有六組的實驗，分組的方式包括將其拆解成 3_3_3_4 一組、4_4_5 一組、6_6_1 一組、6_7 一組、12_1 一組與 13 一組。以 3_3_3_4 為例，將一個梅爾倒頻譜係數向量按照其原本向量空間上的順序，分割成四的區段，四個區段分別為：第一維至第三維為第一區段；第四維至第六維為第二區段、第七維至第十維為三區段，

表 4-1、空間與時間之特徵分布統計圖等化法中，搭配梅爾倒頻譜係數之靜態部分(Static)，在時域上使用不同串接數目之辨識結果

乾淨語料訓練模式

平均字錯誤率(％) 時域上之串連數目 P=2K+1 P=1 P=3 P=5 P=7 P=9 測詴集 A 20.60 18.33 18.06 19.04 18.05 測詴集 B 19.41 16.98 16.98 17.95 17.34 測詴集 C 20.93 19.34 18.97 19.43 20.13 Average WER 20.31 18.22 17.99 18.80 18.51

最後第十一維、第十二維和第零維為第四區段。對於所有訓練語料之梅爾倒頻譜係數向量皆分成上述四個區段(3_3_3_4)，分別計算各自的轉換矩陣，在測詴階段時不同的組別用其所屬的轉換矩陣來補償，因此在此例下，轉換矩陣不只一個而是四個，剩下的分割方式以此類推。實驗結果如表 4-2 所示，表格可清楚發現隨著空間上同時考慮的維度數目從分散(左)至集中(右)，平均字錯誤率也隨之下降。

表 4-2、空間與時間之特徵分布統計圖等化法中，在空間上串聯不同數目的元素，並且搭配時間上串接數目為 5 之辨識結果

乾淨語料訓練模式

平均字錯誤率(％) 空間上維度數目之分類模式

3_3_3_4 4_4_5 6_6_1 6_7 12_1 13 測詴集 A 28.30 23.51 19.54 19.28 18.73 18.06 測詴集 B 27.48 22.50 18.66 18.35 18.24 16.98 測詴集 C 26.68 21.41 19.74 19.98 18.91 18.97 Average 27.49 22.47 19.32 19.20 18.63 17.99

延續著上個實驗，從表 4-2 中，若我們更細微地觀察，可以發現各個測詴集對於空間中串接的數目增長有些微不同的反應。各個測詴集在不同分組模式下之字錯誤平均率走勢可由圖 4-2 中看得更清楚。其中值得注意的是，測詴集 C 相較於測詴集 A 和測詴集 B，其對於空間中越來越集中考慮不同維度的趨勢較不敏感，

其原因可能為測詴集 C 主要為含通道效應之語料，而通道效應屬於一種穩定性 (Stationary)的影響，其產生隨機特性的可能性較小，因此使用相同空間維度的方法應會比本方法對於通道效應更適合。

圖 4-2、使用不同空間中之分類模式對於各種字錯誤率之結果。

16.5 18.5 20.5 22.5 24.5 26.5 28.5

3_3_3_4 4_4_5 6_6_1 6_7 12_1 13

setA setB setC Average 平

均字錯誤率

％

空間維度之組合

本章節所提出之方法與其他傳統統計圖等化法之比較，可由圖 4-3 中清楚發現隨著訊噪比下降，空間與時間之特徵分布統計圖等化法對於雜訊環境的改善效果相較於其它方法仍然是穩定地成長，此現象也呼應我們一開始所期望的現象，

同時考慮鄰近的語音向量之空間與時間之特徵分布能提供有助於語音正規化之資訊。

圖 4-3、不同訊噪比下各種統計圖等化法之辨識結果。

0 10 20 30 40 50 60 70

Clean 20 15 10 5 0

THEQ QHEQ PHEQ STHEQ 平

均字錯誤率

％

訊噪比層級

表 4-3、傳統統計圖等化法和空間與時間之特徵分布統計圖轉換法之實驗結果

乾淨語料訓練模式

平均字錯誤率(％) 測詴集

setA setB setC Average THEQ 22.76 22.16 23.47 22.47 QHEQ 23.53 21.90 22.36 22.64 PHEQ 20.98 20.17 21.43 20.75 STHEQ 18.02 16.98 18.97 17.99

下個實驗吾人將探討空間與時間之特徵分布統計圖等化法(STHEQ)於其它強健式語音擷取法之結合以提升辨識效果。實驗結果如表 4-4，其中 MVA 為非因果關係移動平均，AGN 為自動增益正規化且主要作用於梅爾倒頻譜係數的第零維，

CMVN 為倒頻譜平均數與變異量正規化，以上三種方法皆使用在空間與時間之特徵分布統計圖等化法之後，即將雜訊語音向量還原到乾淨語音向量後。而 FD 為去掉語音句子前後 10 個非語音的特徵向量，使用在空間與時間之特徵分布統計圖等化法之前，即雜訊語音向量先去掉非語音向量後才執行空間與時間之特徵分布統計圖等化法方法，所以訓練階段和辨識階段都不包含純雜訊之向量。

由表中可以看到上述所有的方法皆能或多或少增進空間與時間之特徵分布統計圖等化法的效能。其中 STHEQ+AGN 將字錯誤率降低了 0.4 ％， STHEQ+CMVN 降低了 0.79％，但是 STHEQ+AGN+CMVN 可以將字錯誤率降低了 1.84％，顯示出不論是 AGN 或 CMVN 都還有著進步的空間，且能彌補彼此的不足。此外，FD+STHEQ 毫無意外地獲得可觀的進步幅度，不像遺失特徵理論(Missing Feature Theory)或聲學模型調適等方法，雜訊向量的存在對於統計圖等化法而言是破壞累積密度函數估測的重要因素。

表 4-4、空間與時間之特徵分布統計圖轉換法與其它正規化法結合之實驗結果

乾淨語料訓練模式

平均字錯誤率(％) 測詴集

setA setB setC Average STHEQ 18.02 16.98 18.97 17.99 STHEQ+MVA 17.37 16.96 18.44 17.59 STHEQ+AGN 17.76 16.71 18.69 17.74 STHEQ+CMVN 17.51 16.09 17.99 17.20 STHEQ+AGN+CMVN 16.62 15.14 16.87 16.15 FD+STHEQ 15.56 14.19 15.89 15.21

在文檔中使用空間-時間之特徵分布資訊於強健性語音辨識之研究 (頁 64-70)