• 沒有找到結果。

空間與時間之特徵分布統計圖轉換法相關實驗結果

4.1 空間與時間之特徵分布補償法

4.1.2 空間與時間之特徵分布統計圖轉換法相關實驗結果

由於本論文所提出的方法之中心思想為同時考慮不同空間與時間之特徵,因此結 合空間與時間之特徵分布資訊對於辨識效能的影響程度應詳細地探討。吾人將空 間與時間上的參數分開討論,藉此以證明不同空間之間的交互補償確實有助於辨 識率的提升。以下簡述本實驗之相關設定。在訓練階段我們只考慮梅爾倒頻譜係 數之靜態(Static)係數的部分,針對靜態係數求得轉換矩陣,在測詴階段我們串接 2K+1 個梅爾倒頻譜係數之靜態部分成一個超級向量,並轉換此超級向量已形成 還原的梅爾倒頻譜係數之靜態部分,最後才求算動態(Dynamic)部分。此外,所

有梅爾倒頻譜係數的第零維設定為 C0 值。

首先,吾人嘗詴使用不同的向量串接數目包括 1 個、3 個、5 個、7 個與 9 個。實驗結果如表 4-1 所示,由表格可以清楚發現隨著串接數目 P 增多,平均字 錯誤率會隨之下降,在 P=5 時平均字錯誤率達 17.99%左右,相較於梅爾倒頻譜 系數基礎實驗結果為 41.93%,平均字錯誤率達 56%左右的相對減少。然而,當 P 達到 7 或 9 時,平均字錯誤率反而上升,其原因可能為語音訊號在短時間內的 變化雖然緩慢,但是我們所需的是能捕捉鄰近時間上特徵分布之變化的資訊,因 此截取時間過長並不會帶來有效的資訊,反而應視訓練語料本身之語音特性而定,

如語者講話速度的快慢、取樣頻率的大小或是音框擷取的長度等等。

接著第二個實驗探討串聯空間上不同數目的元素,對於本方法的影響。也就 是說藉由實驗來證明,同時將空間與時間的特徵值納入考慮,是否真能有助於辨 識效能。此實驗中,吾人使用不同的梅爾倒頻譜係數向量的空間維度數目,總共 有六組的實驗,分組的方式包括將其拆解成 3_3_3_4 一組、4_4_5 一組、6_6_1 一組、6_7 一組、12_1 一組與 13 一組。以 3_3_3_4 為例,將一個梅爾倒頻譜係 數向量按照其原本向量空間上的順序,分割成四的區段,四個區段分別為:第一 維至第三維為第一區段;第四維至第六維為第二區段、第七維至第十維為三區段,

表 4-1、空間與時間之特徵分布統計圖等化法中,搭配梅爾倒頻譜係數之靜態 部分(Static),在時域上使用不同串接數目之辨識結果

乾淨語料訓練模式

平均字錯誤率(%) 時 域 上 之 串 連 數 目 P=2K+1 P=1 P=3 P=5 P=7 P=9 測詴集 A 20.60 18.33 18.06 19.04 18.05 測詴集 B 19.41 16.98 16.98 17.95 17.34 測詴集 C 20.93 19.34 18.97 19.43 20.13 Average WER 20.31 18.22 17.99 18.80 18.51

最後第十一維、第十二維和第零維為第四區段。對於所有訓練語料之梅爾倒頻譜 係數向量皆分成上述四個區段(3_3_3_4),分別計算各自的轉換矩陣,在測詴階 段時不同的組別用其所屬的轉換矩陣來補償,因此在此例下,轉換矩陣不只一個 而是四個,剩下的分割方式以此類推。實驗結果如表 4-2 所示,表格可清楚發現 隨著空間上同時考慮的維度數目從分散(左)至集中(右),平均字錯誤率也隨之下 降。

表 4-2、空間與時間之特徵分布統計圖等化法中,在空間上串聯不同數目的元 素,並且搭配時間上串接數目為 5 之辨識結果

乾淨語料訓練模式

平均字錯誤率(%) 空 間 上 維 度 數 目 之 分 類 模 式

3_3_3_4 4_4_5 6_6_1 6_7 12_1 13 測詴集 A 28.30 23.51 19.54 19.28 18.73 18.06 測詴集 B 27.48 22.50 18.66 18.35 18.24 16.98 測詴集 C 26.68 21.41 19.74 19.98 18.91 18.97 Average 27.49 22.47 19.32 19.20 18.63 17.99

延續著上個實驗,從表 4-2 中,若我們更細微地觀察,可以發現各個測詴集 對於空間中串接的數目增長有些微不同的反應。各個測詴集在不同分組模式下之 字錯誤平均率走勢可由圖 4-2 中看得更清楚。其中值得注意的是,測詴集 C 相較 於測詴集 A 和測詴集 B,其對於空間中越來越集中考慮不同維度的趨勢較不敏感,

其原因可能為測詴集 C 主要為含通道效應之語料,而通道效應屬於一種穩定性 (Stationary)的影響,其產生隨機特性的可能性較小,因此使用相同空間維度的 方法應會比本方法對於通道效應更適合。

圖 4-2、使用不同空間中之分類模式對於各種字錯誤率之結果。

16.5 18.5 20.5 22.5 24.5 26.5 28.5

3_3_3_4 4_4_5 6_6_1 6_7 12_1 13

setA setB setC Average

均 字 錯 誤 率

空間維度之組合

本章節所提出之方法與其他傳統統計圖等化法之比較,可由圖 4-3 中清楚發 現隨著訊噪比下降,空間與時間之特徵分布統計圖等化法對於雜訊環境的改善效 果相較於其它方法仍然是穩定地成長,此現象也呼應我們一開始所期望的現象,

同時考慮鄰近的語音向量之空間與時間之特徵分布能提供有助於語音正規化之 資訊。

圖 4-3、不同訊噪比下各種統計圖等化法之辨識結果。

0 10 20 30 40 50 60 70

Clean 20 15 10 5 0

THEQ QHEQ PHEQ STHEQ

均 字 錯 誤 率

訊噪比層級

表 4-3、傳統統計圖等化法和空間與時間之特徵分布統計圖轉換法之實驗結果

乾淨語料訓練模式

平均字錯誤率(%) 測詴集

setA setB setC Average THEQ 22.76 22.16 23.47 22.47 QHEQ 23.53 21.90 22.36 22.64 PHEQ 20.98 20.17 21.43 20.75 STHEQ 18.02 16.98 18.97 17.99

下個實驗吾人將探討空間與時間之特徵分布統計圖等化法(STHEQ)於其它強健 式語音擷取法之結合以提升辨識效果。實驗結果如表 4-4,其中 MVA 為非因果 關係移動平均,AGN 為自動增益正規化且主要作用於梅爾倒頻譜係數的第零維,

CMVN 為倒頻譜平均數與變異量正規化,以上三種方法皆使用在空間與時間之 特徵分布統計圖等化法之後,即將雜訊語音向量還原到乾淨語音向量後。而 FD 為去掉語音句子前後 10 個非語音的特徵向量,使用在空間與時間之特徵分布統 計圖等化法之前,即雜訊語音向量先去掉非語音向量後才執行空間與時間之特徵 分布統計圖等化法方法,所以訓練階段和辨識階段都不包含純雜訊之向量。

由表中可以看到上述所有的方法皆能或多或少增進空間與時間之特徵分布 統 計 圖 等 化 法 的 效 能 。 其 中 STHEQ+AGN 將 字 錯 誤 率 降 低 了 0.4 % , STHEQ+CMVN 降低了 0.79%,但是 STHEQ+AGN+CMVN 可以將字錯誤率降低 了 1.84%,顯示出不論是 AGN 或 CMVN 都還有著進步的空間,且能彌補彼此 的不足。此外,FD+STHEQ 毫無意外地獲得可觀的進步幅度,不像遺失特徵理 論(Missing Feature Theory)或聲學模型調適等方法,雜訊向量的存在對於統計圖 等化法而言是破壞累積密度函數估測的重要因素。

表 4-4、空間與時間之特徵分布統計圖轉換法與其它正規化法結合之實驗結果

乾淨語料訓練模式

平均字錯誤率(%) 測詴集

setA setB setC Average STHEQ 18.02 16.98 18.97 17.99 STHEQ+MVA 17.37 16.96 18.44 17.59 STHEQ+AGN 17.76 16.71 18.69 17.74 STHEQ+CMVN 17.51 16.09 17.99 17.20 STHEQ+AGN+CMVN 16.62 15.14 16.87 16.15 FD+STHEQ 15.56 14.19 15.89 15.21