在這一節及下一節中,我們將探討前述三種錯誤補償對辨識效果的 幫助。在這一節中我們首先探討的是發生隨機錯誤時的錯誤補償情 況。下表5.3所列出的是通道發生隨機錯誤時,補償通道錯誤對 辨識結果的影響的實驗結果。第一欄列出的是各種不同的位元錯誤 率;第二欄列出的是錯誤補償的方式,其中標示“無”代表沒有做 錯誤補償,標示“消去法”表示基於音框的消去法,標示“外插法
(音)”代表基於音框的外插法,標示“外插法(子)”代表基於 子特徵向量的外插法;第三、四、五欄列出的是在高斯混合數=2
位元錯誤率 錯誤補 10-4 消去法 40.72/40.65 48.08/48.00 52.79/52.70 10-4 外插法(音) 40.67 48.04 52.86 10-4 外插法(子) 40.64 48.04 52.89 10-3 無 40.21 47.60 52.36 10-3 消去法 40.76/40.03 47.88/47.02 52.77/51.82 10-3 外插法(音) 40.62 48.02 52.85 10-3 外插法(子) 40.65 48.03 52.85 10-2 無 35.94 43.05 47.66 10-2 消去法 29.42/6.85 36.62/8.61 35.90/8.45 10-2 外插法(音) 40.12 47.67 52.29
圖5.11(A) 高斯混合數=2,發生隨機錯誤時對位元串流 做錯誤補償所得到的音節辨識正確率。
圖5.11(B) 高斯混合數=4,發生隨機錯誤時對位元串流
圖5.11(C) 高斯混合數=8,發生隨機錯誤時對位元串流 做錯誤補償所得到的音節辨識正確率。
以上三張圖共有六條折線:第一條是發生隨機錯誤、但不做錯誤補 償所得的辨識正確率;第二條是做基於音框的消去法補償所得的辨 識正確率;第三條是做基於音框的外插法補償所得的辨識正確率;
第四條是做基於子特徵向量的外插法補償所得的辨識正確率,以上 三條折線必須要在第一條折線之上,才能顯出補償的效果;第五條 是基礎實驗的辨識正確率;第六條是經過向量量化但沒有隨機錯誤 所得的辨識正確率,因為向量量化後會帶來量化誤差,造成辨識效 果的下降,所以這條折線被我們視為錯誤補償後辨識正確率的上限
。以下是我們對實驗結果的討論。
●基於音框的消去法對錯誤補償沒有幫助
基於音框的消去法之作法是:在44個用來描述某一特徵向量的位 元中,只要有一個位元發生了錯誤,就把整個特徵向量視為不可靠 的辨識資訊而略去不用。那麼,在不同的位元錯誤率下,略去不用 的特徵向量會有多少個呢?根據之前的討論,
一.在位元錯誤率=10-2時,用來描述1個次音節單位的
1100個位元中平均會有11個發生錯誤;視群集程度的不 同,最多可以有11個特徵向量出錯誤,也就是說,最多會略 去11個特徵向量。
二.在位元錯誤率>=10-3時,用來描述1個次音節單位的 1100個位元中平均不到一個會發生錯誤,也就是說,在每 個次音節單位所對應的特徵向量可能頂多1個被略去不看。
前面提過,在進行錯誤補償後,我們希望辨識效果能趨近只做向量 量化但沒有隨機錯誤影響時的情況(我們所認定的上限)。觀察使
用消去法時調整過後的的辨識正確率:
一.在位元錯誤率=10-2時只剩不到10%,這印證了之前所提 到的,每個次音節單位中最多將有11個特徵向量被略去,造 成辨識資訊不足的情形;
二.在位元錯誤率小於或等於10-3時,使用消去法還是沒有趨近 我們認定的上限。這是因為在位元錯誤率小的時候,可以看到 位元錯誤已經很少,而這個錯誤的位元影響只及於所在的子特 徵向量,其他的子特徵向量在辨識上依然是可信的--但是略 去整個特徵向量,同樣也略去另外的仍然可信的子特徵向量,
使得這些可信的子特徵向量無法在辨識上造成幫助。
因為消去法不只略去較不可信的資訊,同時也略去可信的資訊,所 以使用消去法所得到的辨識正確率不僅較我們認定的上限來得差,
同時也比有隨機錯誤干擾、但沒有做錯誤補償的情況(雖有不可信 的資訊,但也保留了可信的資訊)來得糟,尤其是高位元錯誤率的 時候。因為對錯誤的補償主要就是要改進在高位元錯誤率時的辨識 效果,因此,在這裡我們可以下一個結論,那就是:消去法對錯誤 補償並沒有幫助!
●兩種外插法可以補償隨機錯誤所帶來的辨識效`果下降
由圖5.11可以看到,使用兩種外插法所得到的折線都在未做錯 誤補償的折線上,顯示這兩種錯誤補償的方式達到了效果;不僅如 此,這兩條折線均可以逼近我們所認定的上限--經向量量化但沒 有隨機錯誤的干擾。仔細觀察在不同位元錯誤率時,兩種外插法所 得到的辨識正確率,則可以發現高位元錯誤率(10-2)時,基於 子特徵向量的外插法較基於音框的外插法還要好一些,而在位元錯 誤率小於10-3時,則兩種外插法的辨識效果幾乎己經沒有差距。
回想在上一個小節中,基於音框的消去法其辨識之效能較未做錯誤 補償之效能還要差,原因在於:基於音框的消去法將不可信的資訊 略去,但同時也略去可信的資訊,因此造成資料量不足,於是辨識 效果比不做錯誤補償來的差(不做錯誤補償:同時保留可信的、不 可信的資訊)。如果要辨識效果比不做錯誤補償來得好,那麼應該要 能保留可信的資訊,同時也修正不可信的資訊。就兩種外插法而言
,基於子特徵向量的外插法較基於音框的外插法更能達到上述的要 求:因為基於子特徵向量的外插法只有修正有錯誤的子特徵向量部 分,對於其他沒有錯誤的子特徵向量並不做任何修改;但是基於音 框的外插法不只修改了有錯誤的子特徵向量,對於其他沒有錯誤的
子特徵向量也做了修改。所以在位元錯誤率高的地方,基於子特徵 向量的外插法表現得就會比基於音框的外插法要好一些;至於在位 元錯誤率低的地方,位元串流中出錯的位元本來就少,因此在上述 兩種錯誤補償的機制下辨識效果並沒有太大的差異。
基於音框的外插法,既然對整個特徵向量都做了修改,那麼為何在 辨識效果上仍可以勝過消去法、勝過沒有做錯誤補償的、甚至逼近 我們所認定的上限呢?因為基於音框的外插法沒有略去任何的資訊
,不會造成無法辨識的情形,因此辨識效果要比消去法來得好;基 於音框的消去法雖然同時修正了發生錯誤的子特徵向量、以及沒有 發生錯誤的子特徵向量,但是因為音框與音框保有一定的相關性(
外插法使用的原理),使得原先沒有發生錯誤的子特徵向量即使作了 修正,也仍然近似於作修正之前的樣子,因此基於音框的外插法也 滿足了上述「要能保留可信的資訊,同時也修正不可信的資訊」的 要求,所以基於音框的外插法不但可以比沒有做錯誤補償時的辨識 結果來得好,同時也會趨近我們所認定的上限。
最後,從本小節的實驗結果我們可以得到一個重要的結論:對於隨 機錯誤所造成的影響,如果可以建立有效的錯誤偵測機制,那麼在
這一節當中所討論的兩種外插法幾乎可以完全補償因隨機錯誤所帶 來的辨識效果下降;也就是說,整體的音節辨識結果將完全決定在 前章所述的向量量化。