• 沒有找到結果。

首先吾人先以梅爾倒頻譜係數(設定如 3.2 節所述)當作語音特徵參數,求算其在 各種不同雜訊與通道效應下的辨識結果,當作本論文的基礎實驗結果(Baseline)。

表 3-2 分別呈現於乾淨語料訓練模式與複合情境訓練模式的辨識結果,在乾淨語 料訓練模式下的平均字正確率約為 58.06%,在複合情境訓練模式下的平均字正 確率約為 83.3%,從二種不同訓練模式的呈現,吾人觀察到以下幾點現象:

1. 在不受任何雜訊干擾時,字正確率可高達 99%,然而隨著雜訊干擾程 度越來越大,辨識效能下降的非常快,尤其當訊噪比低於 5dB 時,下 降的程度更為明顯。

2. 複合情境訓練模式的辨識效能較乾淨語料訓練模式好,是因為複合情境 訓練模式是收集許多不同訊噪比干擾的資料,加以訓練聲學模型,因此 使得測詴語料與聲學模型間的不匹配問題降低,所以才能獲得比較好的 辨識效能。

3. 在複合情境訓練模式下,測詴集 A 的辨識效果比測詴集 B 好,主要是 因為測詴集 B 的雜訊型態是沒出現在複合情境訓練模式的訓練語料中,

所以可想而知效能比較差。

4. 測詴集 C 的辨識結果一般而言,較測詴集 A 與測詴集 B 差,主要原因 是因為測詴集 C 的通道效應是和訓練語料不相同的。

為了更清楚地理解複合情境訓練模是與乾淨語料訓練模式對於辨識效能的差別,

我們以乾淨語料(Clean)和雜訊語料(訊噪比為 5)為例,比較在乾淨語料訓練模式 與複合情境訓練模式下,不同測詴集之間的字正確率。圖 3-1 中,數線”乾淨_Clean”

代表乾淨語料訓練模式下乾淨語料的辨識結果,其於以此類推。由圖 3-1 可以發 現訊噪比高的 Clean 語料在複合情境訓練模型下與乾淨訓練模型相比,是幾乎沒 有改變的;反之,訊噪比較低的 SNR5 在複合情境訓練模型下可以獲得相當的提 升。也就是說,複合情境訓練模式收集許多受雜訊音干擾的語料以提升訊噪比低 的測詴語料,對於乾淨語料仍然保持著與乾淨語料訓練模式相同的辨識率。此外,

我們可以觀察到測詴集 C 在數線複合_SNR5 與數線乾淨_SNR5 中相比,所獲得 的效能提升不如測詴集 A 和測詴集 B,這也呼應了吾人前述四點觀察中的第四 點。

圖 3-1、比較不同訊噪比之測詴語料在乾淨語料訓練模式與複合情境訓練 模式下之字正確率。

0 20 40 60 80 100 120

測詴集A 測詴集B 測詴集C 測詴集平均

乾淨_Clean 複合_Clean 乾淨_SNR5 複合_SNR5

表 3-3 為梅爾倒頻譜係數在複雜式模型下的辨識結果。梅爾倒頻譜係數在

淨語料訓練模式與複合情境訓練模式下的平均辨識率分別為 41.11%和 9.98%。將表 3-2

的乾淨語料訓練模式與表 3-3 的乾淨語料訓練模式相比,可以發現用更複雜的高 斯混合模型的確提升了字正確率。但若從細部觀察可以發現其對訊噪比在 20 以 上的語料大多有著相當大的字正確率提升,但是對於乾淨語料(Clean)而言,其字 正確率反而是下降的。

表 3-3、使用梅爾倒頻譜係數(MFCC)於乾淨語料訓練模式與複合情境訓練模 式下搭配複雜式聲學模型的辨識結果。

乾淨語料訓練模式-複雜式連續密度隱藏式馬可夫模型

平均字正確率% 測詴集 A 測詴集 B 測詴集 C

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 99.75 99.76 99.67 99.91 99.75 99.76 99.67 99.91 99.66 99.73 20dB 95.70 96.34 97.05 96.33 96.96 96.28 97.88 97.87 94.87 95.77 15dB 86.67 84.67 87.24 87.66 88.27 87.21 91.23 89.23 85.94 86.55 10dB 67.18 57.74 62.57 64.92 65.8 64.96 70.56 66.46 67.02 62.91 5dB 36.60 25.00 29.11 29.74 34.79 36 38.77 33.94 37.30 34.52 0dB 15.60 1.63 11.21 6.17 7.71 15.6 13.6 10.4 15.11 15.24 -5dB 9.09 3.48 8.50 4.84 5.74 9.49 5.31 5.74 9.92 9.43 平均 60.35 53.07 57.43 56.96 58.70 60.01 62.40 59.58 60.04 58.99

複合情境訓練模式-複雜式連續密度隱藏式馬可夫模型

平均字正確率% 測詴集 A 測詴集 B 測詴集 C

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 99.29 99.43 99.37 99.57 99.29 99.43 99.37 99.57 99.32 99.43 20dB 98.86 98.85 99.05 98.52 98.96 98.34 99.11 99.2 98.74 98.25 15dB 97.79 98.13 98.39 98.06 98.13 97.67 98.63 98.27 98 97.49 10dB 96.22 96.37 96.36 95.56 95.46 95.5 97.05 96.58 96.13 95.19 5dB 90.88 86.15 91.17 88.83 86.09 87.73 91.59 88.46 90.14 88.45 0dB 73.29 56.95 68.57 68.37 59.96 68.32 73.55 67.82 71.81 69.8 -5dB 40.9 13.21 26.04 34.87 18.73 33.07 34.12 28.32 42.25 31.47 平均 91.40 87.29 90.70 89.86 87.72 89.51 91.98 90.06 90.96 89.83

由於複合情境模式訓練模式已經能大幅降低測詴語料與聲學模型間不匹配 的問題,但就乾淨訓練模式而言,仍有許多可努力的空間,因此吾人在本論文後 續章節將只探討乾淨語料訓練模式下的語音辨識。此外,所有實驗皆使用非複雜 式連續密度隱藏式馬可夫模型,只有在較主要的幾項實驗上使用複雜式連續密度 隱藏式馬可夫模型。首先,吾人將探討倒頻譜平均數和變異量正規化法(CMVN),

實驗結果如表 3-4 所示。從表中可清楚的發現其除了對於移除通道效應的影響有 非常顯著的效果,同時會對每一維語音特徵參數的變異做正規化,進而降低語音 表 3-4、使用倒頻譜平均數和變異量正規化法於梅爾倒頻譜係數上的辨識結果

乾淨語料訓練模式

平均字正確率% 測詴集 A 測詴集 B 測詴集 C

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 99.14 99.06 99.05 99.20 99.14 99.06 99.05 99.20 99.14 99.00 20dB 96.90 97.88 97.82 97.22 98.04 97.49 98.15 97.69 96.99 97.58 15dB 94.75 96.16 96.06 94.69 96.44 95.80 96.69 95.77 95.06 95.41 10dB 88.55 90.15 90.43 88.40 91.96 89.99 92.72 90.56 89.13 89.30 5dB 74.92 73.82 75.90 75.07 76.36 75.30 79.03 76.77 74.52 75.00 0dB 44.92 41.17 46.38 47.15 47.84 44.86 49.21 46.44 44.46 43.77 -5dB 16.09 14.36 17.00 19.47 19.07 16.26 20.16 17.53 16.03 16.90 平均 80.00 79.83 81.31 80.50 82.12 80.68 83.16 81.44 80.03 80.21

乾淨語料訓練模式-複雜式連續密度隱藏式馬可夫模型

平均字正確率% 測詴集 A 測詴集 B 測詴集 C

訊噪比 地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站 地下鐵 街道

Clean 99.79 99.70 99.61 99.88 99.79 99.70 99.61 99.88 99.69 99.70 20dB 98.00 98.88 98.6 98.30 98.80 98.58 99.19 98.52 98.00 98.61 15dB 96.32 96.70 97.23 95.65 97.45 97.31 97.55 96.64 96.16 96.46 10dB 90.73 91.93 93.08 89.88 93.58 91.35 93.95 91.67 90.02 90.69 5dB 77.89 77.51 79.30 77.72 80.38 78.23 81.54 78.83 77.22 77.57 0dB 50.26 47.31 50.82 52.67 53.24 49.33 55.03 51.22 48.05 48.52 -5dB 20.17 16.99 20.85 24.50 21.71 18.95 23.59 20.24 20.29 19.71 平均 82.64 82.46 83.80 82.84 84.69 82.96 85.45 83.37 81.89 82.37

特徵參數各個維度之間彼此的差異程度。此外,複雜式連續密度隱藏式馬可夫模 型(下表)將字錯誤率從 19.20%降到 16.93%,將所有測詴集內的語料之字錯誤率 皆下降了約 2%。反觀前述之梅爾倒頻譜係數不論使用複雜式模型或非複雜式模 型,其在乾淨語料訓練模式下皆獲得幾乎一樣的辨識率。顯而易見地,對於乾淨 語料而言,複雜式連續密度隱藏式馬可夫模型不一定能產生作用。但若對於正規 化過後的語音特徵則較能產生效果。值得一提的是,對於梅爾倒頻譜係數第零維 在本論文之實驗可定中皆為 C0,所以上述內容式並不適用於第零維是對數能量 的情形。吾人對於第零維是對數能量的梅爾倒頻譜所得到的實驗結果,複雜式連 續密度隱藏式馬可夫模型可將字錯誤率從 40.86%下降到 38.76%。

四、改良方法與實驗結果

4.1 使用空間與時間之特徵分布於特徵向量補償

因語音特徵參數處理的層面與出發點不同,大致上目前的主要研究方向可概 略分為二類:第一種是直接從雜訊語音特徵參數的特徵值域進行特徵參數補償或 特徵參數轉換。此類研究方向通常假設有關於雜訊干擾語音訊號的先備知識 (Prior Knowledge)或是假設乾淨語音特徵參數與雜訊語音特徵參數之間存在著某 種固定關係。所以在訓練階段可以事先求算此一關係,而在測詴階段利用此一關 係補償。因此,此種方向通常能有不錯的辨識效能。然而此種研究方向卻存在一 個潛在的問題,因為雜訊干擾語音訊號的影響非絕對是一對一的線性關係,所以 可能因某些非預期的因素影響,造成特徵參數補償或特徵參數轉換的效果不佳,

或更進一步使得辨識效能驟降。

另一種研究方向是利用一些較不容易因雜訊干擾而有所影響的語音特徵參 數值的統計特性,當作是特徵參數補償或是參數轉換的依據,通常此研究方向相 較於前者只需額外的短暫運算時間即可獲得良好的效能。但有些方法會事先對語 音特徵參數的分布做一些限制或假設,例如假設語音特徵參數的分布是高斯分布 等。然而此類假設並非完全正確,因此可能使得方法的補償效果受到侷限。

吾人嘗詴結合二種研究方向的優點,並以空間與時間之間的特徵分布取代第 一種研究方向之雜訊語音特徵向量與乾淨語音特徵向量之關係。結合語音特徵向 量之中,不同空間與時間之間的特徵分布資訊,提出空間與時間之特徵分布統計 圖等化法(Spatial-Temporal Distribution Characteristics HEQ, STHEQ)[Chen et al.

2008]。此方法不需依賴第一種研究方向所需之雙聲源語料,並且繼承統計圖等 化法有效補償因雜訊干擾而所產生的非線性失真之精神,更改善了在 2.1 節所描 述傳統統計圖等化法固有的問題。即無論是查表式統計圖等化法或是分位差統計

圖等化法,往往在執行等化的過程,各自有需耗費大量的記憶體使用空間或是處 理器運算時間的問題。

另一個值得探討的問題如[Torre 2005]所述,統計圖相關方法之效用依賴待測 語音特徵參數之統計圖估測的正確性與兩個假設。第一個假設為雜訊對於乾淨語 音的影響是單調(Monotonic)遞增或遞減之轉換。在此假設下,統計圖等化法所 展現的成效與訓練資料多寡成正比。然而一般而言,第二假設雖然較難被證明但 卻較符合多數的情形,此假設為雜訊之隨機特性(Random Behavior)可能會使雜 訊對乾淨語音之影響為非單調之轉換,進而導致無法回復(Irreversible)的資訊損 失。然而前述所有的統計圖相關方法皆只針對第一假設之情形處理,無法有效改 善第二假設所產生之資訊損失。而空間與時間之特徵分布統計圖等化法對第二假 設提供了一個新穎的解決方法,同時考慮多維度的語音特徵向量元素,突破傳統 方法僅個別考慮單一維度之方式,對語音特徵向量做補償。藉由鄰近語音特徵向 量之間所串連起的上下文資訊(Contextual Information),對於隨機特性對乾淨語音 所產生的非單調轉換之影響進行補償。將語音之累積密度函數對轉換至對應的乾 淨語音空間。

4.1.1 空間與時間之特徵分布統計圖等化法(STHEQ)

空間與時間之特徵分布統計圖等化法可從兩個方向來闡釋。首先,空間與時間之 特徵分布概念為當給定一些資料點數(ci,xi),我們可以用一個函數來描述反應變

x 與解釋變數i c 之關係。因為從短時間間隔來看,語音訊號的變化是緩慢的,i

我們假設鄰近串接的語音特徵向量能提供額外有助於正規化的資訊。我們定義此 為 結 合 空 間 與 時 間 之 特 徵 分 布 資 訊 (Joint Spatial-Temporal Distribution

我們假設鄰近串接的語音特徵向量能提供額外有助於正規化的資訊。我們定義此 為 結 合 空 間 與 時 間 之 特 徵 分 布 資 訊 (Joint Spatial-Temporal Distribution