• 沒有找到結果。

未經壓縮量化 未經壓縮量化 無 49.18 % 55.41 % 未經壓縮量化 量化失真

(餘弦與向量量化)

匹配 47.22 % 54.12 %

未經壓縮量化 量化失真 (餘弦與向量量化)

混合 46.89 % 53.88 %

表 3-12 不同碼本對於餘弦與向量量化壓縮法的效能影響

參閱表 3-12,我們使用混合語料所訓練得到的量化碼本群組,觀 察它對於大字彙國語語音辨識的影響,發現在聲碩連續國語語料庫的 效果都很好,因碼本差異而產生的辨識率下降都很少。

為了比較傳統分割式向量量化壓縮法與所提出的特徵參數壓縮 法。表 3-13、14 為分割式向量量化在 Aurora 2 語料庫上的結果。由 結果我們可以觀察到,當訓練碼本與測試語料不匹配時,使用乾淨語 料訓練模型的辨識效果很差,而複合情境訓練模型的辨識效果很不 錯,這表示或許因為碼本的差異,使得量化失真與某一種外加雜訊的

影響是類似的。

基礎實驗 (乾淨語音訓練) A 組 辨識率

(%) 地鐵 人聲 汽車 展覽館 平均值

基礎實驗 74.42 58.07 67.00 71.03 67.63 向量量化(a) 73.63 58.03 66.55 70.57 67.19 向量量化(b) 70.81 57.10 64.65 68.46 65.25 向量量化(c) 67.04 54.63 61.11 62.13 61.23

B 組 辨識率

(%) 餐廳 街道 機場 火車站 平均值

基礎實驗 60.32 67.77 60.82 62.89 62.95 向量量化(a) 60.14 67.32 60.44 62.63 62.63 向量量化(b) 59.65 65.57 59.87 61.29 61.60 向量量化(c) 56.71 62.70 55.94 58.37 58.43 表 3-13 分割式向量量化壓縮對 Aurora 2 實驗結果—乾淨語音訓練模型

(a) 碼本「匹配」 (b) 碼本「混合」 (c) 碼本「不匹配」

基礎實驗 (複合情境訓練) A 組 辨識率

(%) 地鐵 人聲 汽車 展覽館 平均值

基礎實驗 90.41 89.71 88.50 89.77 89.60 向量量化(a) 90.31 89.34 88.37 89.55 89.39 向量量化(b) 89.21 88.29 88.55 88.55 88.65 向量量化(c) 89.96 88.30 86.47 88.46 88.29

B 組 辨識率

(%) 餐廳 街道 機場 火車站 平均值

基礎實驗 87.61 88.95 89.43 87.26 88.31

向量量化(a) 87.20 88.72 89.11 87.06 88.02

向量量化(b) 86.20 87.79 88.53 86.98 87.37

向量量化(c) 86.75 87.43 88.34 86.05 87.14

表 3-14 分割式向量量化壓縮對 Aurora 2 實驗結果—複合情境訓練模型

訓練特徵參數 測試特徵參數 量化碼本 群組

發展語料 測試語料

(二)

未經壓縮量化 未經壓縮量化 無 49.18 % 55.41 % 未經壓縮量化 量化失真

(分割式向量量化)

匹配 45.77 % 52.13 %

未經壓縮量化 量化失真 (分割式向量量化)

混合 39.04 % 44.06 %

表 3-15 不同碼本對於分割向量量化壓縮法的效能影響

如果我們將上面所述的「混合」碼本用來對國語大字彙作辨識,

如表 3-15 所示,我們可以發現碼本的不同對於辨識率的影響很大,

辨識率下降的幅度高達 7-8%。

因此由以上的實驗中,我們可以發現不論在辨識率的維持、壓縮 強健性或是碼本的差異上,我們所提出的壓縮法都比傳統的分割式向 量量化法要來得出色。

3.5: 章節結論

在本章中我們提出了新的特徵參數壓縮法--2D-DCT 與 DCTSVQ 壓 縮法。有別於前人直接引用 JEPG 影像壓縮法所提出的 2D-DCT 壓縮 法,我們觀察梅爾倒頻譜係數的特性,並考量到分散式語音辨識系統 的時間延遲與無線通道所會遇到的傳輸錯誤問題,我們提出了新的

2D-DCT 壓縮法,在極低的資料壓縮速率下(1.45 Kbps),壓縮後的辨 識率比傳統 SVQ 壓縮法更高。並且在考慮了伺服器端可能使用的錯誤 補償機制,我們稍微改變了新提出的 2D-DCT 壓縮法,捨棄了第二次 的 DCT 轉換並且使用分割式向量量化取代原本的數值量化,仍然維持 相當不錯的壓縮效果。

在 Aurora 2 的實驗中,我們分析了為何提出的 DCT 轉換與係數 截取會提高系統辨識率。其中我們可以從前人的結論中發現事實上梅 爾倒頻譜係數並不是完美的語音特徵參數--在時域軸上語音資訊大 多存在於 2~15 Hz,也就是說連續音框的梅爾倒頻譜係數中有部分資 訊是語音辨識器所不需要的。

參考圖 3-11,不同於傳統 SVQ 壓縮法只考慮壓縮前後係數間的 失真度,我們所提出的壓縮法中 DCT 轉換與係數截取可以加強語音調 變頻率比較重要的部分,提高系統辨識率;除此之外,利用梅爾倒頻 譜係數在時域方向的高度相關係,我們選擇保留比較重要的資訊,提 高系統壓縮效率,因此我們所提出的壓縮法可以將梅爾倒頻譜係數壓 縮在極低的資料傳輸速率,而又能保有很高的辨識率。

(1)傳統 SVQ 壓縮法

(2)本論文所提出的壓縮法

圖 3-11 傳統 SVQ 壓縮法與新壓縮法的示意圖 MFCC

分割式向量量化

(SVQ) 量化符號

係數量化 (1/2D)DCT &

係數截取 MFCC

量化符號

第四章 外加傳送與接收機制之設計 (Extra Transmitting / Receiving Functionalities)

在本章裡,我們會提出外加傳送與接收機制的架構。因為分散式 語音辨識系統的即時需求,我們捨棄 GPRS 設定的難免有不少時間延 遲(Time Delay)的錯誤控制機制,以外加傳送與接收機制的模式來保 護數據之傳輸。我們所選用的數據保護機制是外加 BCH 錯誤更正碼與 位元分散器(Interleaver),並且在伺服器端根據接收到的特徵參數 音框向量,進行錯誤補償的動作以增加整體系統的辨識效能。

圖 4-1 基於 GPRS 之主從式架構分散式語音辨識系統方塊圖

量化碼本 量化碼本

特徵參數的 抽取與壓縮

特徵參數的 反壓縮

外加傳送機制 外加接收機制

GPRS 連結層 GPRS 連結層

GPRS

相關文件