• 沒有找到結果。

4.3.2 實驗結果及討論

如表4.1所示,這是探討向量量化的影響所得到的中文大字彙連 續語音的音節辨識結果。以下的幾個小節,將分別針對在實驗結果 中所觀察到的現象進行討論,在這邊我們先對表4.1做說明。在 第一欄中所列出的是將13維特徵向量分割成七個子特徵向量後,

所給定七個子特徵向量的碼本大小。例如,在第二列所示“666 6668”,是代表給第一個子特徵向量一個大小為2的碼本,

給第二個子特徵向量一個大小為2的碼本...,最後給第七個 子特徵向量一個大小為2的碼本;第三列所示“7766666”

碼本大小 是否

匹配 高斯混合數=2 高斯混合數=4 高斯混合數=8 傳輸速率

(Kbps)

基礎實驗 42.64 49.20 55.31 124.8 39.71 46.92 52.43

6666668

30.33 35.71 40.61 4.4 40.64 48.03 52.88

7766666

30.93 36.59 41.23 4.4 40.14 47.66 52.86

7766668

30.89 36.58 41.24 4.6 40.33 47.74 53.06

8776666

30.87 36.44 41.55 4.6 39.49 47.33 52.92

8777666

31.08 36.65 41.57 4.7 40.28 47.72 53.04

8777766

31.16 36.63 41.67 4.8 40.31 47.59 52.93

8777776

31.21 36.71 41.74 4.9 40.55 47.77 53.50

8877776

31.33 36.83 41.87 5.0

試語料所取出的特徵向量是否匹配。所謂匹配,是指訓練語料所取 出的特徵向量也有經過相同的向量量化的處理,此時測試語料所取 出的特徵向量,因為也有經過向量量化,故訓練出來的統計模型可 以與之相匹配,反之,不匹配是表示訓練語料有別於測試語料,並 未經過向量量化的處理。中間三欄列出不同的高斯混合數。最後一 欄則是列出傳送第一欄的碼本組合時所需的傳輸速度;之前我們一 再強調無線傳輸時的頻寬限制,因此列出傳輸速度做為衡量效能的 另一項依據。最後,在表的第一列所列出的是第三章末曾提到的基 礎實驗結果:基礎實驗是所有的特徵向量均沒有經過壓縮,也沒有 遭受無線環境雜訊的干擾。因為我們希望經過向量量化之後的辨識 效果可以趨近未做向量量化所得到的辨識結果,甚至可以更好,故 列出基礎實驗的結果以資比較。

●不匹配情形所造成的影響

在表4.1中第二欄所列,是有關訓練語料及測試語料所取出的特 徵向量是否匹配的情形。在第三章中曾提到過,我們使用隱藏式馬 可夫模型做為辨識用的統計模型,並使用高斯密度函數做為狀態輸

出函數。由於高斯密度函數是連續機率密度函數,因此雖然測試語 料所取出的特徵向量已經經過向量量化的處理,但仍可以用未量化 的特徵向量所訓練出來的統計模型來做辨識。如果因向量量化所產 生的量化錯誤(Quantization Error)不會太大,理論上不匹配的情形 應該不會導致辨識效果變差太多;不過在實際上,因為我們是以中 文的大字彙連續語音做為研究對象,所要求的辨識精確度相當高,

因一方面我們也可以假設量化錯誤是一個平均分布的隨機變數;故 量化錯誤的影響也可能很大,此時就可能造成辨識效果的下降。

那麼究竟匹配與否,會造成多大的辨識效果差異呢?在表4.1由 第二列起,我們可以觀察到這項差異在辨識效果上的影響:不匹配 的情況所得到的辨識正確率比匹配的情況所得到的辨識正確率足足 差了大約10%〜11%之多(例如,40%降到30%)!從實 驗的結果我們可以推知量化帶來很大的誤差,因此造成辨識正確率 的下降。其實從資料的壓縮也可以看出個端倪:我們將原先需要 1248個位元來描述的音框,壓縮到只用44個位元來描述,當 然量化錯誤會不容小覷。

為了量化誤差的問題,訓練一個匹配的模型是需要的:我們可以使 用語音辨識領域中,對抗雜訊情況的強健性(Robustness For Noise)

常用的模型分析來說明訓練匹配的模型的必要性:假設未經量化的

特徵向量是V,V 經過特徵向量量化後得到的新特徵向量是 V’,又 量化的誤差向量(Error Vector)記做 n,

則 V = V’ + n ,

最後要附帶說明的是,特徵向量在經過向量量化之後已轉成數目有 6666668

30.33 35.71 40.61 4.4 40.64 48.03 52.88

7766666

30.93 36.59 41.23 4.4 40.14 47.66 52.86

7766668

30.89 36.58 41.24 4.6 40.33 47.74 53.06

8776666

30.87 36.44 41.55 4.6

表4.2 實驗結果:不同的子特徵向量所反應出重要性的不同

上表4.2是表4.1的部分擷取。表4.2的第一列以及第二列

,分別是碼本大小“6666668”及“7766666”所得 的辨識結果,第三列及第四列則是碼本大小“7766668”及

“8776666”所得的辨識結果;以上兩組具有共同的特點,

那就是兩組用的傳輸速度都是相同的,第一組是4.4Kbps,第二組 則是4.6Kbps。

在4.2.2中,我們曾經討論到不同的子特徵向量,在語音辨識 上所表現出來的重要性也不一樣,而表4.2的兩組數據正反應出 這樣的事實。在兩組數據中,因為傳輸速度相同,所以對於各組中 不同碼本的配置,最後用來描述每個音框的位元數是固定的:第一 組是用44個位元來描述每個音框,第二組是用46個位元來描述 每個音框。在第一組中,”6666668”是給定前面的六個子特 徵向量同樣的碼本大小=26=64,最後一個子特徵向量給定碼本 大小=28=256,而“7766666”是給定前面兩個特徵向 量碼本大小=2=128,後面五個特徵向量給定碼本大小=26

=64;也就是說:“6666668”強調最後一個子特徵向量

(能量頻譜係數)的重要性,但“7766666”強調的是前面 二個特徵向量(梅爾倒頻譜係數前四個 C〜C)的重要性。由實驗

結果中可以看到,高斯混合數=2、4、8時,加強前面的子特徵 向量可以使辨識結果均得到些微的改進。同樣的在第二組數據(“

7766668”及“8776666”)中,若把“77666 68”用來描述第七個子特徵向量的8個位元分出兩個,一個給第 一個子特徵向量,另一個給第三個子特徵向量,使碼本安排變為“

8776666”,在表4.2中可以看到,除了在高斯混合數=

2、不匹配的情況是稍稍變差,其他的情況都是辨識效果有得到改 進。因此,我們經由實驗證實了之前提到的對特徵向量的基本了解

:梅爾倒頻譜係數中,次序愈小的係數對於辨識愈重要。

●傳輸速率和辨識結果的關係

如圖4.7,我們畫出了在各個傳輸速率下,所得到的辨識正確率 的變化;其中圖4.7(A)是在高斯混合數=2時的變化情形,

圖4.7(B)是在高斯混合數=4時的變化情形,圖4.7

(C)是在高斯混合數=8時的變化情形。在表4.1當中有兩個 傳輸速度的實驗,有兩種不同的碼本組合,得到兩種不同的結果;

於是我們將兩個實驗結果做平均,得到單一個值做為在該傳輸速

圖4.7(A) 在高斯混合數=2時,傳輸速度和音節辨識正確 率的關係。

圖4.7(B) 在高斯混合數=4時,傳輸速度和音節辨識正確

圖4.7(C) 在高斯混合數=8時,傳輸速度和音節辨識正確 率的關係。

度下的辨識結果。

在三張圖中,我們都可以觀察到一個趨勢:隨著傳輸速度的增加,

音節的辨識正確率也隨之微幅的增加。特別是在模型不匹配的情況 下,除了在高斯混合數=4,4.7Kbps〜4.8Kbps 間辨識正確 曾有少許的下降(36.65%變成36.63%)以外,所觀察 到的都是持續上揚的趨勢。至於模型匹配的情況,在傳輸速率變快

會有這樣的趨勢其實不難理解,因為傳輸速率的增加,意味著用來 描述每個音框的位元數增加,故特徵向量量化的精確度也跟著增加

,所造成的影響是:

一.對於模型不匹配的情況,因為用來訓練模型的特徵向量未做量 化,會讓向量量化的精確度提高,這樣一來量化後的向量和原 先的向量差別會愈小,而得到的辨識效果也可以更趨近未做量 化前的辨識正確率。

二.對於模型匹配的情況,因為用來訓練模型的特徵向量已做過量 化,所以訓練出來的統計模型也不相同,因此我們認為:最後 的辨識結果呈現跳動,應該是統計上些許的差異。不過整體來 說,提高向量量化的精確度,會讓量化後的特徵向量更具鑑別 力,也就是說,各個音節的區別也更加明顯。故隨著傳輸速度 增加,辨識正確率仍然大致呈現上升的趨勢。

因為傳輸速度會影響辨識效果,那麼我們可以事先選定兩種不同的 傳輸速度(當然,這兩種傳輸速度必須對應到可以接受的辨識正確 率),建立一個可適性(Adaptive)的機制,由伺服器所在的接收 端評估當時通訊情況是否是良好的,再把評估的結果告知用戶端所 持的手持設備;最後,手持設備再根據被告知的內容執行以下兩種

選擇:

●量化後辨識正確率些微的下降

在圖4.7(A)(B)(C)中,另外標示出基礎實驗(未經過向 量量化、且假設無線通道中沒有發生錯誤)的結果。在三個圖中,

我們可以很清楚的觀察到,在不匹配的情況下,特徵向量經過向量 量化後的辨識效果不如基礎實驗所得到的;若是模型匹配,辨識正 確率就會有所提升,大約是2〜3%的下降。因為我們的模型是用 來辨識中文的音節(Syllable),在中文的音節中,有許多的音節

,在聲學上的特性相似,所以我們認為,在經過向量量化之後,對 於音節和音節間的區別將比較失去鑑別性,如此一來就會造成辨識 率的下降。

為了觀察向量量化使那些音素在區分時產生混淆,我們將基礎實驗 所得到的辨識結果,與特徵向量經過量化後的辨識結果去做比較,

辨識結果有所不同之處,即是容易產生混淆的音素。比對之後我們 發現,上述容易混淆的音素包括了“ㄉ”和“ㄍ”、“ㄑ”“ㄒ”

、”ㄣ”和“ㄥ”、“ㄧ”和“ㄩ”、“ㄚ”和“ㄠ”、捲舌音跟不 捲舌音等等。像上面所描述的這些音素,就算是未做量化直接做對 其做辨識,也是容易混淆的。

像這些容易混淆的音素,或許在單音節的辨識當中無法清楚的分別

,但是在整個語音辨識中,我們後級尚有語言層次的處理:對於辨 識出來的國語單音節,我們可以考慮詞彙及前後文的關係,並且以 那些音素容易造成混淆做為背景知識,對發生錯誤的音素部分做修 正,以得到合於文法、語意的結果。因此上述的音素混淆,在接下 來利用語言知識做處理的過程當中可望獲得修正;也就是說,原先 在音節部分的辨識正確率在後級將可以獲得補償。因此,我們可以

,但是在整個語音辨識中,我們後級尚有語言層次的處理:對於辨 識出來的國語單音節,我們可以考慮詞彙及前後文的關係,並且以 那些音素容易造成混淆做為背景知識,對發生錯誤的音素部分做修 正,以得到合於文法、語意的結果。因此上述的音素混淆,在接下 來利用語言知識做處理的過程當中可望獲得修正;也就是說,原先 在音節部分的辨識正確率在後級將可以獲得補償。因此,我們可以