實驗模擬

第五章實驗模擬與結果分析

5.2 分散式語音辨識的應用

5.2.2 實驗模擬

在本實驗中，我們假設除了量化後的參數以外的資訊都不會發生錯誤，其中包括了同步序列，標頭序列，CRC，以及 VAD 位元，也就是說，我們在接收端先做框架的分割，只考慮將七個參數共 43 位元送至通道中，再接收端再依其原格式重新組合而得原本的形式，並再送至 ETSI 制訂的錯誤緩和機制，或是我們在第三章及第四章所提出的 SCCD 做解碼，流程圖如圖 5.1，再送至語音辨識器。

我們使用不限制字串長度的中文數字串做實驗模擬，使用的中文數字串資料庫事由 50 個男聲以及 50 個女聲錄製而成，每一個說話者錄製十個音檔，而且每一個音檔分別有 1 到 9 不等的數字，其中，90 個發聲者(45 個男聲以及 45 個女聲)所錄製的音檔做為訓練語料，剩下的 10 個發聲者所錄製的做為測試語料，訓練語料與測試語料分別有 6796 以及 642 個數字。在伺服器是由 HTK 軟體做辨識，中文數字

被模擬為隱藏式馬可夫模型（Hidden Markov Models, HMMs），每一個字以 8 個狀態模擬其統計模型，而每一個狀態均以 64 個高斯分佈混合模型來近似觀察值的機率分佈。除此之外，並分別以 3 個狀態的 HMMs 以及一個狀態的 HMMs 模擬間歇與停頓，即發音過程前後端與過程中字和字之間過渡時期內訊號的統計模型。在辨識中，12 個梅爾反頻譜係數以及對數能量參數再加上速度（1 階微分）與加速度（2 階微分）都需要納入考慮。

實驗模擬結果如圖 5.4 所示，在這裡使用的通道環境一樣是可加性高斯白雜訊通道。其中我們模擬了三種情況，第一條曲線 ETSI-MIT 就是在解碼完後利用 ETSI 所制訂的錯誤緩和機制改善因通道所產生的錯誤所造成的影響，SCCD1 則是利用以位元為基礎的 BCJR 演算法做解碼，考慮位元與位元間之間（即

M

_d = ）殘餘的關聯性，SCCD21 則是利用以索引為基礎的 BCJR 演算法，分別以七組參數量化的位元

數（），依不同參數的索引層級相關性做

解碼。

6,6,6,6,6,5,8

M

d =

P u u

( _t | _t₋₁)

圖 5.4 輸出軟性通道解碼應用於 DSR 的模擬

5.2.3 結果分析

在圖 5.4 中，縱座標為 HTK 軟體中所定義的字元辨識率(Word accuracy, WAcc)。首先，我們在接收端先利用了 ETSI 中的錯誤緩和機制得到了第一條曲線 ETSI-MIT 之後，以這條曲線做為參考基礎，

進而在接收端使用了我們所介紹的 SCCD，可以發現，當我們以位元為基礎的 BCJR 演算法 SCCD1 做解碼時，因為利用了位元之間的殘餘冗息，在與 ETSI-MIT 相比之下，將可以使得字元辨識率做微幅的提升。但不幸的是，當

E

_s/

N

₀ = −4 dB，因為通道環境太差，所以在解碼端已經沒有辦法作有效地解碼，辨識結果幾乎和 ETSI-MIT 差不

多，約只有 10％～12％，也就是說辨識率相當於我們任意地猜測結果，那麼此系統在這環境下已經沒有參考價值。但是當我們在接收端使用了以索引為基礎的 BCJR 演算法 SCCD2，此時的符號位元數等於在 ETSI 中 VQ 系統的索引位元數（

M

_d =6,6,6,6,6,5,8），所以利用到的是索引與索引之間所殘留的大量殘餘冗息，可以看出辨識率明顯優於前兩條曲線。這不但驗證了我們在第二章的推論，也確定了在第三章 SCCD 的概念中，當通道環境非常差時，SCCD 將更倚重訓練得到的事前訊息甚過於所接受到的序列，使得辨識效能達到極良好的改善。

第六章結論與未來展望

在文檔中符號冗息在訊源控制通道解碼之研究 (頁 53-56)

第五章 實驗模擬與結果分析