• 沒有找到結果。

通道錯誤緩和機制

第五章 實驗模擬與結果分析

5.2 分散式語音辨識的應用

5.2.1 通道錯誤緩和機制

近來,在將自動語音辨識技術轉移至行動或是 IP 網路上使用的 概念上,DSR 被認為是一個很有效的方法。在 ETSI 的標準 ETSI ES 202 212(v.1.1.1)裡,描述了整個 DSR 系統中的語音處理、傳輸以及品質 效能。標準中並定義了前端語音參數的擷取,以及一個將語音的輸入 傳送至伺服器端的語音辨識系統的編碼機制。DSR 的根本概念就是在 局部的前端擷取語音參數,再經由資料通道(data channel)傳送至後 端計算量較複雜的辨識器。主要是因為若直接將語音傳輸時,往往因 為低位元語音編碼率以及通道傳輸錯誤使得系統效能嚴重地下降。所 以 DSR 捨棄語音通道(voice channel),而是代之以有錯誤保護的資 料通道傳輸參數,圖 5.2 即為 DSR 的架構圖。因為我們現在想要探討 的的是,在解碼端利用我們所提出的 SCCD 替換 ETSI 標準原先制定的 錯誤緩和(error mitigation)機制之後,在系統效能上的改善,所以 接下來我們將著墨於伺服器端的討論。

在標準中所訂定之參數擷取演算法將產生一 14 個元素的向量,

其 中 包 含 了 13 個 梅 爾 倒 頻 譜 係 數 ( Mel Frequency Cepstrum Coefficients, MFCC),從 到 ,和 1 個對數能量參數(log-energy coefficient)。語音信號的分析可被取樣為 8k 赫茲,11k 赫茲以及 16k 赫茲,每個框架長度 25 微秒且每 10 微秒做一次平移。而這些參數將

c

0

c

12

被壓縮為一 4800 bps 的資料串以作為傳輸。使用的量化器為分割向 量量化器(split vector quantizer, SVQ),其中 14 個元素將以每兩 個參數為一組的方式被分為七個子集合( 和

c

1

c

2, 和 ,

c

3

c

4

K

, 和 log-energy)。每一個子集合利用權重歐式距離(weighted Euclidean distance)分別產生與其相對應的碼書,其中 到 這五組的碼書以 的序列稱為多重框架(multiframe),如表 5.1 所示。在多重框架的 格式中,前兩個八位元組為同步(synchronization)序列,接下來 的 4 個八位元組為標頭(header)序列,和 138 個八位元組的框架封 包串,其中將了 24 個框架每兩兩分為一組。而每一組封包對(frame pair)有 88 個位元,並利用這些位元編碼出 4 位元的循環冗息碼

(cyclic redundancy code, CRC)跟隨在這封包對之後如表 5.2。

CRC 並沒有錯誤回復的功用,但是最大作用就是在接收端可以做錯誤 偵測,此編碼也被廣泛地使用。

另一方面,我們要介紹 ETSI 所制訂的錯誤緩和機制。 在 接 收

端解碼完之後,此錯誤緩和機制有兩種判斷法則:CRC 檢測以及資料 一致性。CRC 的檢測是當接收到解碼後的序列之後,我們將利用接受 到的框架對做 CRC 的計算,並再與接收序列中對應此框架對的 CRC 加 以比對,如果不一樣,那我們就判定此框架對為錯誤。除此之外,資 料的一致性則是經由演算法判斷封包對中的封包是否達成最小連續 性,如果不是的話,那我們仍然判定此框架對為錯誤。這是一個偵測 錯誤叢集(error bursts)的有效方法,假設錯誤叢集發生,連續

2 B ×

個框架被判定為錯誤,那麼前

B

個框架將被這錯誤叢集之前的最後一 個正確框架取代,後

B

個框架則被這錯誤叢集之後的第一個正確框架 所取代。

圖 5.3 DSR 格子架構圖 (a)終端機(b)伺服器 表 5.1 多重框架的格式

表 5.2 受 CRC 保護的封包串

相關文件