如表4.1所示,這是探討向量量化的影響所得到的中文大字彙連 續語音的音節辨識結果。以下的幾個小節,將分別針對在實驗結果 中所觀察到的現象進行討論,在這邊我們先對表4.1做說明。在 第一欄中所列出的是將13維特徵向量分割成七個子特徵向量後,
所給定七個子特徵向量的碼本大小。例如,在第二列所示“666 6668”,是代表給第一個子特徵向量一個大小為26的碼本,
給第二個子特徵向量一個大小為26的碼本...,最後給第七個 子特徵向量一個大小為28的碼本;第三列所示“7766666”
碼本大小 是否
匹配 高斯混合數=2 高斯混合數=4 高斯混合數=8 傳輸速率
(Kbps)
基礎實驗 42.64 49.20 55.31 124.8 是 39.71 46.92 52.43
6666668
否 30.33 35.71 40.61 4.4 是 40.64 48.03 52.88
7766666
否 30.93 36.59 41.23 4.4 是 40.14 47.66 52.86
7766668
否 30.89 36.58 41.24 4.6 是 40.33 47.74 53.06
8776666
否 30.87 36.44 41.55 4.6 是 39.49 47.33 52.92
8777666
否 31.08 36.65 41.57 4.7 是 40.28 47.72 53.04
8777766
否 31.16 36.63 41.67 4.8 是 40.31 47.59 52.93
8777776
否 31.21 36.71 41.74 4.9 是 40.55 47.77 53.50
8877776
否 31.33 36.83 41.87 5.0
試語料所取出的特徵向量是否匹配。所謂匹配,是指訓練語料所取 出的特徵向量也有經過相同的向量量化的處理,此時測試語料所取 出的特徵向量,因為也有經過向量量化,故訓練出來的統計模型可 以與之相匹配,反之,不匹配是表示訓練語料有別於測試語料,並 未經過向量量化的處理。中間三欄列出不同的高斯混合數。最後一 欄則是列出傳送第一欄的碼本組合時所需的傳輸速度;之前我們一 再強調無線傳輸時的頻寬限制,因此列出傳輸速度做為衡量效能的 另一項依據。最後,在表的第一列所列出的是第三章末曾提到的基 礎實驗結果:基礎實驗是所有的特徵向量均沒有經過壓縮,也沒有 遭受無線環境雜訊的干擾。因為我們希望經過向量量化之後的辨識 效果可以趨近未做向量量化所得到的辨識結果,甚至可以更好,故 列出基礎實驗的結果以資比較。
●不匹配情形所造成的影響
在表4.1中第二欄所列,是有關訓練語料及測試語料所取出的特 徵向量是否匹配的情形。在第三章中曾提到過,我們使用隱藏式馬 可夫模型做為辨識用的統計模型,並使用高斯密度函數做為狀態輸
出函數。由於高斯密度函數是連續機率密度函數,因此雖然測試語 料所取出的特徵向量已經經過向量量化的處理,但仍可以用未量化 的特徵向量所訓練出來的統計模型來做辨識。如果因向量量化所產 生的量化錯誤(Quantization Error)不會太大,理論上不匹配的情形 應該不會導致辨識效果變差太多;不過在實際上,因為我們是以中 文的大字彙連續語音做為研究對象,所要求的辨識精確度相當高,
因一方面我們也可以假設量化錯誤是一個平均分布的隨機變數;故 量化錯誤的影響也可能很大,此時就可能造成辨識效果的下降。
那麼究竟匹配與否,會造成多大的辨識效果差異呢?在表4.1由 第二列起,我們可以觀察到這項差異在辨識效果上的影響:不匹配 的情況所得到的辨識正確率比匹配的情況所得到的辨識正確率足足 差了大約10%〜11%之多(例如,40%降到30%)!從實 驗的結果我們可以推知量化帶來很大的誤差,因此造成辨識正確率 的下降。其實從資料的壓縮也可以看出個端倪:我們將原先需要 1248個位元來描述的音框,壓縮到只用44個位元來描述,當 然量化錯誤會不容小覷。
為了量化誤差的問題,訓練一個匹配的模型是需要的:我們可以使 用語音辨識領域中,對抗雜訊情況的強健性(Robustness For Noise)
常用的模型分析來說明訓練匹配的模型的必要性:假設未經量化的
特徵向量是V,V 經過特徵向量量化後得到的新特徵向量是 V’,又 量化的誤差向量(Error Vector)記做 n,
則 V = V’ + n ,
最後要附帶說明的是,特徵向量在經過向量量化之後已轉成數目有 6666668
否 30.33 35.71 40.61 4.4 是 40.64 48.03 52.88
7766666
否 30.93 36.59 41.23 4.4 是 40.14 47.66 52.86
7766668
否 30.89 36.58 41.24 4.6 是 40.33 47.74 53.06
8776666
否 30.87 36.44 41.55 4.6
表4.2 實驗結果:不同的子特徵向量所反應出重要性的不同
上表4.2是表4.1的部分擷取。表4.2的第一列以及第二列
,分別是碼本大小“6666668”及“7766666”所得 的辨識結果,第三列及第四列則是碼本大小“7766668”及
“8776666”所得的辨識結果;以上兩組具有共同的特點,
那就是兩組用的傳輸速度都是相同的,第一組是4.4Kbps,第二組 則是4.6Kbps。
在4.2.2中,我們曾經討論到不同的子特徵向量,在語音辨識 上所表現出來的重要性也不一樣,而表4.2的兩組數據正反應出 這樣的事實。在兩組數據中,因為傳輸速度相同,所以對於各組中 不同碼本的配置,最後用來描述每個音框的位元數是固定的:第一 組是用44個位元來描述每個音框,第二組是用46個位元來描述 每個音框。在第一組中,”6666668”是給定前面的六個子特 徵向量同樣的碼本大小=26=64,最後一個子特徵向量給定碼本 大小=28=256,而“7766666”是給定前面兩個特徵向 量碼本大小=27=128,後面五個特徵向量給定碼本大小=26
=64;也就是說:“6666668”強調最後一個子特徵向量
(能量頻譜係數)的重要性,但“7766666”強調的是前面 二個特徵向量(梅爾倒頻譜係數前四個 C1〜C4)的重要性。由實驗
結果中可以看到,高斯混合數=2、4、8時,加強前面的子特徵 向量可以使辨識結果均得到些微的改進。同樣的在第二組數據(“
7766668”及“8776666”)中,若把“77666 68”用來描述第七個子特徵向量的8個位元分出兩個,一個給第 一個子特徵向量,另一個給第三個子特徵向量,使碼本安排變為“
8776666”,在表4.2中可以看到,除了在高斯混合數=
2、不匹配的情況是稍稍變差,其他的情況都是辨識效果有得到改 進。因此,我們經由實驗證實了之前提到的對特徵向量的基本了解
:梅爾倒頻譜係數中,次序愈小的係數對於辨識愈重要。
●傳輸速率和辨識結果的關係
如圖4.7,我們畫出了在各個傳輸速率下,所得到的辨識正確率 的變化;其中圖4.7(A)是在高斯混合數=2時的變化情形,
圖4.7(B)是在高斯混合數=4時的變化情形,圖4.7
(C)是在高斯混合數=8時的變化情形。在表4.1當中有兩個 傳輸速度的實驗,有兩種不同的碼本組合,得到兩種不同的結果;
於是我們將兩個實驗結果做平均,得到單一個值做為在該傳輸速
圖4.7(A) 在高斯混合數=2時,傳輸速度和音節辨識正確 率的關係。
圖4.7(B) 在高斯混合數=4時,傳輸速度和音節辨識正確
圖4.7(C) 在高斯混合數=8時,傳輸速度和音節辨識正確 率的關係。
度下的辨識結果。
在三張圖中,我們都可以觀察到一個趨勢:隨著傳輸速度的增加,
音節的辨識正確率也隨之微幅的增加。特別是在模型不匹配的情況 下,除了在高斯混合數=4,4.7Kbps〜4.8Kbps 間辨識正確 曾有少許的下降(36.65%變成36.63%)以外,所觀察 到的都是持續上揚的趨勢。至於模型匹配的情況,在傳輸速率變快
會有這樣的趨勢其實不難理解,因為傳輸速率的增加,意味著用來 描述每個音框的位元數增加,故特徵向量量化的精確度也跟著增加
,所造成的影響是:
一.對於模型不匹配的情況,因為用來訓練模型的特徵向量未做量 化,會讓向量量化的精確度提高,這樣一來量化後的向量和原 先的向量差別會愈小,而得到的辨識效果也可以更趨近未做量 化前的辨識正確率。
二.對於模型匹配的情況,因為用來訓練模型的特徵向量已做過量 化,所以訓練出來的統計模型也不相同,因此我們認為:最後 的辨識結果呈現跳動,應該是統計上些許的差異。不過整體來 說,提高向量量化的精確度,會讓量化後的特徵向量更具鑑別 力,也就是說,各個音節的區別也更加明顯。故隨著傳輸速度 增加,辨識正確率仍然大致呈現上升的趨勢。
因為傳輸速度會影響辨識效果,那麼我們可以事先選定兩種不同的 傳輸速度(當然,這兩種傳輸速度必須對應到可以接受的辨識正確 率),建立一個可適性(Adaptive)的機制,由伺服器所在的接收 端評估當時通訊情況是否是良好的,再把評估的結果告知用戶端所 持的手持設備;最後,手持設備再根據被告知的內容執行以下兩種
選擇:
●量化後辨識正確率些微的下降
在圖4.7(A)(B)(C)中,另外標示出基礎實驗(未經過向 量量化、且假設無線通道中沒有發生錯誤)的結果。在三個圖中,
我們可以很清楚的觀察到,在不匹配的情況下,特徵向量經過向量 量化後的辨識效果不如基礎實驗所得到的;若是模型匹配,辨識正 確率就會有所提升,大約是2〜3%的下降。因為我們的模型是用 來辨識中文的音節(Syllable),在中文的音節中,有許多的音節
,在聲學上的特性相似,所以我們認為,在經過向量量化之後,對 於音節和音節間的區別將比較失去鑑別性,如此一來就會造成辨識 率的下降。
為了觀察向量量化使那些音素在區分時產生混淆,我們將基礎實驗 所得到的辨識結果,與特徵向量經過量化後的辨識結果去做比較,
辨識結果有所不同之處,即是容易產生混淆的音素。比對之後我們 發現,上述容易混淆的音素包括了“ㄉ”和“ㄍ”、“ㄑ”“ㄒ”
、”ㄣ”和“ㄥ”、“ㄧ”和“ㄩ”、“ㄚ”和“ㄠ”、捲舌音跟不 捲舌音等等。像上面所描述的這些音素,就算是未做量化直接做對 其做辨識,也是容易混淆的。
像這些容易混淆的音素,或許在單音節的辨識當中無法清楚的分別
,但是在整個語音辨識中,我們後級尚有語言層次的處理:對於辨 識出來的國語單音節,我們可以考慮詞彙及前後文的關係,並且以 那些音素容易造成混淆做為背景知識,對發生錯誤的音素部分做修 正,以得到合於文法、語意的結果。因此上述的音素混淆,在接下 來利用語言知識做處理的過程當中可望獲得修正;也就是說,原先 在音節部分的辨識正確率在後級將可以獲得補償。因此,我們可以
,但是在整個語音辨識中,我們後級尚有語言層次的處理:對於辨 識出來的國語單音節,我們可以考慮詞彙及前後文的關係,並且以 那些音素容易造成混淆做為背景知識,對發生錯誤的音素部分做修 正,以得到合於文法、語意的結果。因此上述的音素混淆,在接下 來利用語言知識做處理的過程當中可望獲得修正;也就是說,原先 在音節部分的辨識正確率在後級將可以獲得補償。因此,我們可以