• 沒有找到結果。

第五章 實驗模擬與結果分析

5.2 分散式語音辨識的應用

5.2.2 實驗模擬

在本實驗中,我們假設除了量化後的參數以外的資訊都不會發生 錯誤,其中包括了同步序列,標頭序列,CRC,以及 VAD 位元,也就 是說,我們在接收端先做框架的分割,只考慮將七個參數共 43 位元 送至通道中,再接收端再依其原格式重新組合而得原本的形式,並再 送至 ETSI 制訂的錯誤緩和機制,或是我們在第三章及第四章所提出 的 SCCD 做解碼,流程圖如圖 5.1,再送至語音辨識器。

我們使用不限制字串長度的中文數字串做實驗模擬,使用的中文 數字串資料庫事由 50 個男聲以及 50 個女聲錄製而成,每一個說話者 錄製十個音檔,而且每一個音檔分別有 1 到 9 不等的數字,其中,90 個發聲者(45 個男聲以及 45 個女聲)所錄製的音檔做為訓練語料,剩 下的 10 個發聲者所錄製的做為測試語料,訓練語料與測試語料分別 有 6796 以及 642 個數字。在伺服器是由 HTK 軟體做辨識,中文數字

被模擬為隱藏式馬可夫模型(Hidden Markov Models, HMMs),每一 個字以 8 個狀態模擬其統計模型,而每一個狀態均以 64 個高斯分佈 混合模型來近似觀察值的機率分佈。除此之外,並分別以 3 個狀態的 HMMs 以及一個狀態的 HMMs 模擬間歇與停頓,即發音過程前後端與過 程中字和字之間過渡時期內訊號的統計模型。在辨識中,12 個梅爾 反頻譜係數以及對數能量參數再加上速度(1 階微分)與加速度(2 階微分)都需要納入考慮。

實驗模擬結果如圖 5.4 所示,在這裡使用的通道環境一樣是可加 性高斯白雜訊通道。其中我們模擬了三種情況,第一條曲線 ETSI-MIT 就是在解碼完後利用 ETSI 所制訂的錯誤緩和機制改善因通道所產生 的錯誤所造成的影響,SCCD1 則是利用以位元為基礎的 BCJR 演算法 做解碼,考慮位元與位元間之間(即

M

d = )殘餘的關聯性,SCCD21 則是利用以索引為基礎的 BCJR 演算法,分別以七組參數量化的位元

數( ),依不同參數的索引層級相關性 做

解碼。

6,6,6,6,6,5,8

M

d =

P u u

( t | t1)

圖 5.4 輸出軟性通道解碼應用於 DSR 的模擬

5.2.3 結果分析

在圖 5.4 中,縱座標為 HTK 軟體中所定義的字元辨識率(Word accuracy, WAcc)。首先,我們在接收端先利用了 ETSI 中的錯誤緩和 機制得到了第一條曲線 ETSI-MIT 之後,以這條曲線做為參考基礎,

進而在接收端使用了我們所介紹的 SCCD,可以發現,當我們以位元 為基礎的 BCJR 演算法 SCCD1 做解碼時,因為利用了位元之間的殘餘 冗息,在與 ETSI-MIT 相比之下,將可以使得字元辨識率做微幅的提 升。但不幸的是,當

E

s/

N

0 = −4 dB,因為通道環境太差,所以在解 碼端已經沒有辦法作有效地解碼,辨識結果幾乎和 ETSI-MIT 差不

多,約只有 10%~12%,也就是說辨識率相當於我們任意地猜測結 果,那麼此系統在這環境下已經沒有參考價值。但是當我們在接收端 使用了以索引為基礎的 BCJR 演算法 SCCD2,此時的符號位元數等於 在 ETSI 中 VQ 系統的索引位元數(

M

d =6,6,6,6,6,5,8),所以利用到 的是索引與索引之間所殘留的大量殘餘冗息,可以看出辨識率明顯優 於前兩條曲線。這不但驗證了我們在第二章的推論,也確定了在第三 章 SCCD 的概念中,當通道環境非常差時,SCCD 將更倚重訓練得到的 事前訊息甚過於所接受到的序列,使得辨識效能達到極良好的改善。

第六章 結論與未來展望

相關文件