位元錯誤率 高斯混合數=2 高斯混合數=4 高斯混合數=8 附加說明
0 42.64 49.20 55.31 基礎實驗
0 40.64 48.03 52.88
10-5 40.64 48.03 52.87 10-4 40.57 47.94 52.84 10-3 40.21 47.60 52.36 10-2 35.94 43.05 47.66
表5.1 實驗結果:隨機錯誤對辨識結果的影響。如表中所示,
列出的是在不同的位元錯誤率底下,中文大字彙連續語 音的音節辨識正確率。
上表5.1列出在無線通道發生隨機錯誤時,在各種不同的位元錯 誤率下,中文大字彙連續語音的音節辨識正確率。在第一欄中所列 出的,是各種不同的位元錯誤率:這一項的是所有發生錯誤的位元
數,除以所有的位元總數而得來,我們取10-2〜10-5之間的值
;中間三欄是在不同的高斯混合數下,所得到的辨識正確率。另外
,在表中的第一列所列出的是未經量化的基礎實驗的結果,第二列 所列出的是在傳輸端用”7766666”的碼本組合做向量化、
但在無線通道中沒有錯誤干擾時的辨識正確率;列出這兩列是為了 要做比較:以第一列做基準可以看出當發生傳輸錯誤時,因無線傳 輸所帶來辨識正確率的總和影響(量化錯誤+傳輸錯誤),由第二 列可以看出單單傳輸錯誤所帶來的影響。以下我們先將上面的數據 製圖如圖5.3,接下來再討論實驗結果。
圖5.3(A) 在高斯混合數=2時,發生隨機錯誤時位元錯誤 率和音節辨識正確率的關係。
圖5.3(B) 在高斯混合數=4時,發生隨機錯誤時位元錯誤 率和音節辨識正確率的關係。
圖5.3(C) 在高斯混合數=8時,發生隨機錯誤時位元錯誤 率和音節辨識正確率的關係。
●隨機錯誤之位元錯誤率與辨識正確率的關係
上面的三張圖中各列出三條線:第一條是在發生隨機錯誤的情況下
,不同的位元錯誤率所對應的辨識正確率;第二條是基礎實驗所得 的結果;第三條是沒有發生隨機錯誤時的情況。如前所述,列出第 二條和第三條是為了比較之用:第一條線和第二條線中的間距,代 表發生因無線傳輸所帶來的辨識效能下降;第一條線和第三條線中 的間距,則是單獨代表因隨機錯誤所帶來的辨識效能下降。若間距 愈大,表示辨識效能所受的影響愈大。三張圖中,觀察第一條線和 第三條線中的間距,不難發現:當高位元錯誤率的時候(約10-2
),單獨考慮隨機錯誤的因素,辨識正確率大約下降5%。但是當 位元錯誤率下降到10-3的時候.此時辨識正確率就只有微幅的、
約0.5%的下降,如果位元錯誤率更進一步下降到10-4、或是 10-5的低位元錯誤率時,此時辨識正確率就幾乎沒有下降了。
以上所得到的結果,由以下的分析可以得到解釋。
一.在我們所使用的語料中,一個字的平均時間長度大約是0.5 秒。在第三章曾提到,對於音節的描述,我們是採用「聲母加 上界音、韻母模型」的方式來描述;假設「聲母加上界音」以
及「韻母」兩個次音節單位的時間長度一樣長,那麼上述兩部 分音素的平均時間長度就是0.25s。
二.由語料中所取出的音框,其時間長度是10ms(0.01s
),故對於每一個次音節單位,取出的音框平均數大約為 0.25/0.01=25音框/次音節單位,
又一個音框取出一組特徵向量,故對於每一個次音節單位,取 出的特徵向量平均數即為25特徵向量/次音節單位。
三.而在主從式架構中,對於每一個特徵向量,在向量量化後我們 用44個位元來描述其所得到的量化代碼(使用“77666 66”的碼本),
因此,當位元錯誤率=10-2時,平均每2.27個特徵向量 會發生一個錯誤,在每個次音節單位中有25/2.27≒
11個特徵向量會發生1個錯誤;當位元錯誤率=10-3時,
平均每22.7個特徵向量會發生一個錯誤,在每個次音節單 位中有25/22.7≒1個特徵向量會發生1個錯誤;當位 元錯誤率<10-3時,則在每個次音節單位中不到1個特徵向 量會發生錯誤;
四.當次音節單位所對應的特徵向量發生改變的時候,那麼所得到 的辨識結果就有可能發生改變。如圖5.4所示,當發生辨識
辨識結果
次音節單位所對應的25個特徵向量中,若特徵向量改變的數 目愈多,原先辨識正確的愈有可能辨識錯誤,因此α會愈小,
對β的影響也是一樣,因此原先辨識錯誤的愈有可能辨識正確
。只不過變動的程度會有所不同:對於一個已知的次音節單位 而言,辨識錯誤的可能性總共有428種,辨識正確的可能性 只有1種(所有次音節單位總數為429)。因此α值要比β 值大得多,所以我們可以很合理的假設:在特徵向量改變時,
只有α值會小於1,β值可假設為1;而且特徵向量改變得 愈多,α值變得愈小。
五.由第三點以及第四點可以得知,因為在位元錯誤率=10-2時
,每個次音節單位中平均發生錯誤的向量個數多達11個,α 值下降的幅度必然很大;但在位元錯誤率=10-3時,每個次 音節單位中平均發生錯誤的向量個數只有1.1個,α值不會 比1小太多,若位元錯誤率更小時,那麼α值會更接近1。因 此,當位元錯誤率=10-2時,因為α變小,造成辨識效能的 大量下降;但是在位元錯誤率=10-3、或是更低的時候,α 的改變不大,因此辨識結果跟沒有發生錯誤時,並不會有太大 的差別。
●隨機錯誤對音節辨識的影響小於向量量化所帶來的影響
在前一小節曾提到:圖5.3中,第一條線和第三條線中的間距,
代表因為無線通道中發生隨機錯誤而造成的辨識效果下降。另外,
第二條線和第三條線的差距代表因為向量量化的量化誤差所導致的 辨識效果下降。若第一條線和第三條線中的間距,比第二條線和第 三條線中的間距要來得大,代表隨機錯誤的影響大過量化錯誤的影 響;反之,則是量化錯誤的影響大過隨機錯誤的影響。由圖5.3 可以知道,在位元錯誤率大於10-3時,隨機錯誤的影響大過量化 錯誤的影響,但在位元錯誤率小於10-3時,隨機錯誤的影響就極 小,主要的錯誤來自於量化錯誤。在無線通訊中,要將位元錯誤率 降到10-3以下其實是並不困難的,也就是說,在一般的狀況底下
,通道若發生隨機錯誤,對於整個音節辨識結果影響並不是很大;
主要的辨識率下降,還是取決在因向量量化所帶來的量化錯誤--
也正因為量化錯誤還是主要的辨識正確率下降的來源,更顯出如何 找到一個具有代表性的碼本的重要。由以上所述,在5.2這一節 中,我們得到的結論是:在主從式對於音節的辨識,若致力使整個 通訊系統的位元錯誤率維持在10-3以下,那麼我們就可以忽略通 道中的隨機錯誤所帶來的影響;此時若想進一步改善辨識正確率,
主要應從如何使碼本最佳化著手。