４．３．２實驗結果及討論

如表４．１所示，這是探討向量量化的影響所得到的中文大字彙連續語音的音節辨識結果。以下的幾個小節，將分別針對在實驗結果中所觀察到的現象進行討論，在這邊我們先對表４．１做說明。在第一欄中所列出的是將１３維特徵向量分割成七個子特徵向量後，

所給定七個子特徵向量的碼本大小。例如，在第二列所示“６６６６６６８”，是代表給第一個子特徵向量一個大小為２^６的碼本，

給第二個子特徵向量一個大小為２^６的碼本．．．，最後給第七個子特徵向量一個大小為２^８的碼本；第三列所示“７７６６６６６”

碼本大小是否

匹配高斯混合數＝２高斯混合數＝４高斯混合數＝８傳輸速率

（Kbps）

基礎實驗 42.64 49.20 55.31 124.8 是 39.71 46.92 52.43

6666668

否 30.33 35.71 40.61 4.4 是 40.64 48.03 52.88

7766666

否 30.93 36.59 41.23 4.4 是 40.14 47.66 52.86

7766668

否 30.89 36.58 41.24 4.6 是 40.33 47.74 53.06

8776666

否 30.87 36.44 41.55 4.6 是 39.49 47.33 52.92

8777666

否 31.08 36.65 41.57 4.7 是 40.28 47.72 53.04

8777766

否 31.16 36.63 41.67 4.8 是 40.31 47.59 52.93

8777776

否 31.21 36.71 41.74 4.9 是 40.55 47.77 53.50

8877776

否 31.33 36.83 41.87 5.0

試語料所取出的特徵向量是否匹配。所謂匹配，是指訓練語料所取出的特徵向量也有經過相同的向量量化的處理，此時測試語料所取出的特徵向量，因為也有經過向量量化，故訓練出來的統計模型可以與之相匹配，反之，不匹配是表示訓練語料有別於測試語料，並未經過向量量化的處理。中間三欄列出不同的高斯混合數。最後一欄則是列出傳送第一欄的碼本組合時所需的傳輸速度；之前我們一再強調無線傳輸時的頻寬限制，因此列出傳輸速度做為衡量效能的另一項依據。最後，在表的第一列所列出的是第三章末曾提到的基礎實驗結果：基礎實驗是所有的特徵向量均沒有經過壓縮，也沒有遭受無線環境雜訊的干擾。因為我們希望經過向量量化之後的辨識效果可以趨近未做向量量化所得到的辨識結果，甚至可以更好，故列出基礎實驗的結果以資比較。

●不匹配情形所造成的影響

在表４．１中第二欄所列，是有關訓練語料及測試語料所取出的特徵向量是否匹配的情形。在第三章中曾提到過，我們使用隱藏式馬可夫模型做為辨識用的統計模型，並使用高斯密度函數做為狀態輸

出函數。由於高斯密度函數是連續機率密度函數，因此雖然測試語料所取出的特徵向量已經經過向量量化的處理，但仍可以用未量化的特徵向量所訓練出來的統計模型來做辨識。如果因向量量化所產生的量化錯誤（Quantization Error）不會太大，理論上不匹配的情形應該不會導致辨識效果變差太多；不過在實際上，因為我們是以中文的大字彙連續語音做為研究對象，所要求的辨識精確度相當高，

因一方面我們也可以假設量化錯誤是一個平均分布的隨機變數；故量化錯誤的影響也可能很大，此時就可能造成辨識效果的下降。

那麼究竟匹配與否，會造成多大的辨識效果差異呢？在表４．１由第二列起，我們可以觀察到這項差異在辨識效果上的影響：不匹配的情況所得到的辨識正確率比匹配的情況所得到的辨識正確率足足差了大約１０％〜１１％之多（例如，４０％降到３０％）！從實驗的結果我們可以推知量化帶來很大的誤差，因此造成辨識正確率的下降。其實從資料的壓縮也可以看出個端倪：我們將原先需要１２４８個位元來描述的音框，壓縮到只用４４個位元來描述，當然量化錯誤會不容小覷。

為了量化誤差的問題，訓練一個匹配的模型是需要的：我們可以使用語音辨識領域中，對抗雜訊情況的強健性（Robustness For Noise）

常用的模型分析來說明訓練匹配的模型的必要性：假設未經量化的

特徵向量是V，V 經過特徵向量量化後得到的新特徵向量是 V’，又量化的誤差向量（Error Vector）記做 n，

則 V ＝ V’ ＋ n ，

最後要附帶說明的是，特徵向量在經過向量量化之後已轉成數目有 6666668

否 30.33 35.71 40.61 4.4 是 40.64 48.03 52.88

7766666

否 30.93 36.59 41.23 4.4 是 40.14 47.66 52.86

7766668

否 30.89 36.58 41.24 4.6 是 40.33 47.74 53.06

8776666

否 30.87 36.44 41.55 4.6

表４．２實驗結果：不同的子特徵向量所反應出重要性的不同

上表４．２是表４．１的部分擷取。表４．２的第一列以及第二列

，分別是碼本大小“６６６６６６８”及“７７６６６６６”所得的辨識結果，第三列及第四列則是碼本大小“７７６６６６８”及

“８７７６６６６”所得的辨識結果；以上兩組具有共同的特點，

那就是兩組用的傳輸速度都是相同的，第一組是４．４Kbps，第二組則是４．６Kbps。

在４．２．２中，我們曾經討論到不同的子特徵向量，在語音辨識上所表現出來的重要性也不一樣，而表４．２的兩組數據正反應出這樣的事實。在兩組數據中，因為傳輸速度相同，所以對於各組中不同碼本的配置，最後用來描述每個音框的位元數是固定的：第一組是用４４個位元來描述每個音框，第二組是用４６個位元來描述每個音框。在第一組中，”６６６６６６８”是給定前面的六個子特徵向量同樣的碼本大小＝２⁶＝６４，最後一個子特徵向量給定碼本大小＝２⁸＝２５６，而“７７６６６６６”是給定前面兩個特徵向量碼本大小＝２^７＝１２８，後面五個特徵向量給定碼本大小＝２⁶

＝６４；也就是說：“６６６６６６８”強調最後一個子特徵向量

（能量頻譜係數）的重要性，但“７７６６６６６”強調的是前面二個特徵向量（梅爾倒頻譜係數前四個 C^１〜C^４）的重要性。由實驗

結果中可以看到，高斯混合數＝２、４、８時，加強前面的子特徵向量可以使辨識結果均得到些微的改進。同樣的在第二組數據（“

７７６６６６８”及“８７７６６６６”）中，若把“７７６６６６８”用來描述第七個子特徵向量的８個位元分出兩個，一個給第一個子特徵向量，另一個給第三個子特徵向量，使碼本安排變為“

８７７６６６６”，在表４．２中可以看到，除了在高斯混合數＝

２、不匹配的情況是稍稍變差，其他的情況都是辨識效果有得到改進。因此，我們經由實驗證實了之前提到的對特徵向量的基本了解

：梅爾倒頻譜係數中，次序愈小的係數對於辨識愈重要。

●傳輸速率和辨識結果的關係

如圖４．７，我們畫出了在各個傳輸速率下，所得到的辨識正確率的變化；其中圖４．７（Ａ）是在高斯混合數＝２時的變化情形，

圖４．７（Ｂ）是在高斯混合數＝４時的變化情形，圖４．７

（Ｃ）是在高斯混合數＝８時的變化情形。在表４．１當中有兩個傳輸速度的實驗，有兩種不同的碼本組合，得到兩種不同的結果；

於是我們將兩個實驗結果做平均，得到單一個值做為在該傳輸速

圖４．７（Ａ）在高斯混合數＝２時，傳輸速度和音節辨識正確率的關係。

圖４．７（Ｂ）在高斯混合數＝４時，傳輸速度和音節辨識正確

圖４．７（Ｃ）在高斯混合數＝８時，傳輸速度和音節辨識正確率的關係。

度下的辨識結果。

在三張圖中，我們都可以觀察到一個趨勢：隨著傳輸速度的增加，

音節的辨識正確率也隨之微幅的增加。特別是在模型不匹配的情況下，除了在高斯混合數＝４，４．７Kbps〜４．８Kbps 間辨識正確曾有少許的下降（３６．６５％變成３６．６３％）以外，所觀察到的都是持續上揚的趨勢。至於模型匹配的情況，在傳輸速率變快

會有這樣的趨勢其實不難理解，因為傳輸速率的增加，意味著用來描述每個音框的位元數增加，故特徵向量量化的精確度也跟著增加

，所造成的影響是：

一．對於模型不匹配的情況，因為用來訓練模型的特徵向量未做量化，會讓向量量化的精確度提高，這樣一來量化後的向量和原先的向量差別會愈小，而得到的辨識效果也可以更趨近未做量化前的辨識正確率。

二．對於模型匹配的情況，因為用來訓練模型的特徵向量已做過量化，所以訓練出來的統計模型也不相同，因此我們認為：最後的辨識結果呈現跳動，應該是統計上些許的差異。不過整體來說，提高向量量化的精確度，會讓量化後的特徵向量更具鑑別力，也就是說，各個音節的區別也更加明顯。故隨著傳輸速度增加，辨識正確率仍然大致呈現上升的趨勢。

因為傳輸速度會影響辨識效果，那麼我們可以事先選定兩種不同的傳輸速度（當然，這兩種傳輸速度必須對應到可以接受的辨識正確率），建立一個可適性（Adaptive）的機制，由伺服器所在的接收端評估當時通訊情況是否是良好的，再把評估的結果告知用戶端所持的手持設備；最後，手持設備再根據被告知的內容執行以下兩種

選擇：

●量化後辨識正確率些微的下降

在圖４．７（Ａ）（Ｂ）（Ｃ）中，另外標示出基礎實驗（未經過向量量化、且假設無線通道中沒有發生錯誤）的結果。在三個圖中，

我們可以很清楚的觀察到，在不匹配的情況下，特徵向量經過向量量化後的辨識效果不如基礎實驗所得到的；若是模型匹配，辨識正確率就會有所提升，大約是２〜３％的下降。因為我們的模型是用來辨識中文的音節（Syllable），在中文的音節中，有許多的音節

，在聲學上的特性相似，所以我們認為，在經過向量量化之後，對於音節和音節間的區別將比較失去鑑別性，如此一來就會造成辨識率的下降。

為了觀察向量量化使那些音素在區分時產生混淆，我們將基礎實驗所得到的辨識結果，與特徵向量經過量化後的辨識結果去做比較，

辨識結果有所不同之處，即是容易產生混淆的音素。比對之後我們發現，上述容易混淆的音素包括了“ㄉ”和“ㄍ”、“ㄑ”“ㄒ”

、”ㄣ”和“ㄥ”、“ㄧ”和“ㄩ”、“ㄚ”和“ㄠ”、捲舌音跟不捲舌音等等。像上面所描述的這些音素，就算是未做量化直接做對其做辨識，也是容易混淆的。

像這些容易混淆的音素，或許在單音節的辨識當中無法清楚的分別

，但是在整個語音辨識中，我們後級尚有語言層次的處理：對於辨識出來的國語單音節，我們可以考慮詞彙及前後文的關係，並且以那些音素容易造成混淆做為背景知識，對發生錯誤的音素部分做修正，以得到合於文法、語意的結果。因此上述的音素混淆，在接下來利用語言知識做處理的過程當中可望獲得修正；也就是說，原先在音節部分的辨識正確率在後級將可以獲得補償。因此，我們可以

在文檔中子計畫一：無線通訊環境下國語語音之分散式辨認(3/3) (頁 47-60)

４．３．２ 實驗結果及討論