機率 γ 的推導

第四章符號層級 BCJR 演算法

4.3 機率 γ 的推導

機率 γ

_{i j}_,

( Y %

, s

_t₋₁

, ) s

可以由無記憶性高斯通道的轉移機率

(channel transition probability) 和編碼器的柵狀架構所決定。

藉著使用貝氏定理，

對一個無記憶性的高斯通道(memoryless Gaussian channel)而言，

（4.11）式的第一項可以被寫成:

可夫程序（first-order Markov process, AK1），可經由事前經大量

語料訓練而得。

展開以及初始狀態必為零的限制，可得其設定為

(

) (

|

,

2 2

由於解碼的遞迴演算法建構在迴旋編碼先天基礎上，須在演算過程支出使給予相對應的條件設定，並藉由機率運算驗證設定之合理性，而在系統的模擬實驗中，證實了初始的條件設定對於解碼器能否獲得穩定的結果有極大的影響。

第五章實驗模擬與結果分析

在 SCCD 的架構中，我們知道若能夠在接收端利用訊號源之間的殘餘冗息將會有效地提升系統的解碼效能。而在第二章節的訊源冗息分析中可以得到，殘餘冗息在符號層級之間存在的資訊將會比位元層級之間還要多。因此，在第三章提出了一個向量量化傳輸系統，並使用基於符號 BCJR 演算法的軟性輸出解碼架構。在本章，我們將這演算法應用於系統模擬，以期藉由系統之模擬結果驗證演算法之正確性。

本章的內容將分為兩小節來進行實驗之模擬與結果之分析討論。第一節我們將模擬第 3.1 節所介紹之傳輸系統，在接收端則是採用第 3.3 節中所提出之基於符號軟性輸出通道解碼的系統架構，並探討運用在不同程度的量化符號假設下所存在的殘餘冗息在接收端作解碼工作的效能評比與分析。在第二節中，將此軟性輸出通道解碼應用於歐洲電信標準局 (European Telecommunication Standards Institute, ETSI) 所制訂的分散式語音辨認架構 (Distributed

Speech Recognition, DSR)。在 DSR 標準的接收端所制訂的錯誤隱匿機制(error mitigation scheme)亦有做錯誤回復的解碼工作，其原理將在第二小節中介紹。最後，我們將在解碼端的部分使用我們所提模擬與結果分析。系統中訊號源取自一階自迴歸處理(first-order autoregressive process)，且其訊號源之相關因子（correlation factor）採用源送進量化器中。所採用之量化器為 LBG 演算法（Linde-Buze-Gray

n

n 0

algorithm）所產生出來的向量量化器（vector quantizer），其中碼書維度設定為 2，因此將 20000 點訊號源送入此量化器後將可以得到 10000 個索引，各個索引則使用

M

= 位元表示。由於研究重點不在6 於量化索引的最佳位元映對方法（bit mapping scheme），所以選用自然二位元編碼方式（natural binary code, NBC）[15]。在得到量化索引的位元資料後，將其通過二位元相位鍵移（BPSK）調變，把每 (AWGN channel)，即傳送過程中僅受到白色高斯雜訊的通訊干擾。

1/ 2

對照第三章以及第四章的介紹，我們的實驗流程圖如圖 5.1，主要探討的是在接收端，當考慮符號的位元數不同分別去做解碼，系統效能將會有如何的提升。因為在傳送端使用的是 6 位元的量化器，所以我們取其最大公因數分別做實驗，這次的實驗中，我們模擬了四種情況: ，

u

M

_d =2，

M

_d =3，

M

_d =6，並假設符號與符號前後之間的關聯性可以模擬為一階的馬可夫程序（AK1），亦即利用了一階事前消息

P u u

( _t | _t₋₁)。其中當

M

_d =1時，此基於符號的軟性輸出通道解碼退化即為基於位元的軟性輸出通道解碼。在這裡，我們另外產生 100000 個索引，依不同的符號等級以

M 個位元分割後做訓練，

_d 即可得到一階事前消息

P u u

( _t | _t₋₁)，其中

M

_d =1, 2,3,6。再將此事前消息代入前向與後向機率做計算，如此即可求得蘊含了量化後符號間之冗餘訊息的解碼後符號的後驗機率，分別以(AR, )(AR,

)(AR, ）（AR,

u

M

_d =1

d 2

M

_d =3

M

_d = ）表示，實驗結果如圖 5.2 所示。 6

圖 5.1 實驗流程圖

圖 5.2 基於符號的軟性輸出解碼之系統模擬

5.1.2 結果分析

圖 5.2 中，系統之評估為使用訊號源參數

v

_n和重建參數

v

ˆ_n之間的

訊號雜訊比（signal-to-noise ratio, SNR）作為衡量：

5.2.1 通道錯誤緩和機制

近來，在將自動語音辨識技術轉移至行動或是 IP 網路上使用的概念上，DSR 被認為是一個很有效的方法。在 ETSI 的標準 ETSI ES 202 212(v.1.1.1)裡，描述了整個 DSR 系統中的語音處理、傳輸以及品質效能。標準中並定義了前端語音參數的擷取，以及一個將語音的輸入傳送至伺服器端的語音辨識系統的編碼機制。DSR 的根本概念就是在局部的前端擷取語音參數，再經由資料通道(data channel)傳送至後端計算量較複雜的辨識器。主要是因為若直接將語音傳輸時，往往因為低位元語音編碼率以及通道傳輸錯誤使得系統效能嚴重地下降。所以 DSR 捨棄語音通道(voice channel)，而是代之以有錯誤保護的資料通道傳輸參數，圖 5.2 即為 DSR 的架構圖。因為我們現在想要探討的的是，在解碼端利用我們所提出的 SCCD 替換 ETSI 標準原先制定的錯誤緩和(error mitigation)機制之後，在系統效能上的改善，所以接下來我們將著墨於伺服器端的討論。

在標準中所訂定之參數擷取演算法將產生一 14 個元素的向量，

其中包含了 13 個梅爾倒頻譜係數（ Mel Frequency Cepstrum Coefficients, MFCC），從到，和 1 個對數能量參數（log-energy coefficient）。語音信號的分析可被取樣為 8k 赫茲,11k 赫茲以及 16k 赫茲，每個框架長度 25 微秒且每 10 微秒做一次平移。而這些參數將

c

₁₂

被壓縮為一 4800 bps 的資料串以作為傳輸。使用的量化器為分割向量量化器(split vector quantizer, SVQ)，其中 14 個元素將以每兩個參數為一組的方式被分為七個子集合（和

c

₁

c

₂, 和，

c

₃

c

₄

K

，和 log-energy）。每一個子集合利用權重歐式距離（weighted Euclidean distance）分別產生與其相對應的碼書，其中到這五組的碼書以的序列稱為多重框架（multiframe），如表 5.1 所示。在多重框架的格式中，前兩個八位元組為同步（synchronization）序列，接下來的 4 個八位元組為標頭（header）序列，和 138 個八位元組的框架封包串，其中將了 24 個框架每兩兩分為一組。而每一組封包對（frame pair）有 88 個位元，並利用這些位元編碼出 4 位元的循環冗息碼

（cyclic redundancy code, CRC）跟隨在這封包對之後如表 5.2。

CRC 並沒有錯誤回復的功用，但是最大作用就是在接收端可以做錯誤偵測，此編碼也被廣泛地使用。

另一方面，我們要介紹 ETSI 所制訂的錯誤緩和機制。在接收

端解碼完之後，此錯誤緩和機制有兩種判斷法則：CRC 檢測以及資料一致性。CRC 的檢測是當接收到解碼後的序列之後，我們將利用接受到的框架對做 CRC 的計算，並再與接收序列中對應此框架對的 CRC 加以比對，如果不一樣，那我們就判定此框架對為錯誤。除此之外，資料的一致性則是經由演算法判斷封包對中的封包是否達成最小連續性，如果不是的話，那我們仍然判定此框架對為錯誤。這是一個偵測錯誤叢集(error bursts)的有效方法，假設錯誤叢集發生，連續

2 B ×

個框架被判定為錯誤，那麼前

B

個框架將被這錯誤叢集之前的最後一個正確框架取代，後

B

個框架則被這錯誤叢集之後的第一個正確框架所取代。

圖 5.3 DSR 格子架構圖 (a)終端機（b）伺服器表 5.1 多重框架的格式

表 5.2 受 CRC 保護的封包串

5.2.2 實驗模擬

在本實驗中，我們假設除了量化後的參數以外的資訊都不會發生錯誤，其中包括了同步序列，標頭序列，CRC，以及 VAD 位元，也就是說，我們在接收端先做框架的分割，只考慮將七個參數共 43 位元送至通道中，再接收端再依其原格式重新組合而得原本的形式，並再送至 ETSI 制訂的錯誤緩和機制，或是我們在第三章及第四章所提出的 SCCD 做解碼，流程圖如圖 5.1，再送至語音辨識器。

我們使用不限制字串長度的中文數字串做實驗模擬，使用的中文數字串資料庫事由 50 個男聲以及 50 個女聲錄製而成，每一個說話者錄製十個音檔，而且每一個音檔分別有 1 到 9 不等的數字，其中，90 個發聲者(45 個男聲以及 45 個女聲)所錄製的音檔做為訓練語料，剩下的 10 個發聲者所錄製的做為測試語料，訓練語料與測試語料分別有 6796 以及 642 個數字。在伺服器是由 HTK 軟體做辨識，中文數字

被模擬為隱藏式馬可夫模型（Hidden Markov Models, HMMs），每一個字以 8 個狀態模擬其統計模型，而每一個狀態均以 64 個高斯分佈混合模型來近似觀察值的機率分佈。除此之外，並分別以 3 個狀態的 HMMs 以及一個狀態的 HMMs 模擬間歇與停頓，即發音過程前後端與過程中字和字之間過渡時期內訊號的統計模型。在辨識中，12 個梅爾反頻譜係數以及對數能量參數再加上速度（1 階微分）與加速度（2 階微分）都需要納入考慮。

實驗模擬結果如圖 5.4 所示，在這裡使用的通道環境一樣是可加性高斯白雜訊通道。其中我們模擬了三種情況，第一條曲線 ETSI-MIT 就是在解碼完後利用 ETSI 所制訂的錯誤緩和機制改善因通道所產生的錯誤所造成的影響，SCCD1 則是利用以位元為基礎的 BCJR 演算法做解碼，考慮位元與位元間之間（即

M

_d = ）殘餘的關聯性，SCCD21 則是利用以索引為基礎的 BCJR 演算法，分別以七組參數量化的位元

數（），依不同參數的索引層級相關性做

解碼。

6,6,6,6,6,5,8

M

d =

P u u

( _t | _t₋₁)

圖 5.4 輸出軟性通道解碼應用於 DSR 的模擬

5.2.3 結果分析

在圖 5.4 中，縱座標為 HTK 軟體中所定義的字元辨識率(Word accuracy, WAcc)。首先，我們在接收端先利用了 ETSI 中的錯誤緩和機制得到了第一條曲線 ETSI-MIT 之後，以這條曲線做為參考基礎，

進而在接收端使用了我們所介紹的 SCCD，可以發現，當我們以位元為基礎的 BCJR 演算法 SCCD1 做解碼時，因為利用了位元之間的殘餘冗息，在與 ETSI-MIT 相比之下，將可以使得字元辨識率做微幅的提升。但不幸的是，當

E

_s/

N

₀ = −4 dB，因為通道環境太差，所以在解碼端已經沒有辦法作有效地解碼，辨識結果幾乎和 ETSI-MIT 差不

多，約只有 10％～12％，也就是說辨識率相當於我們任意地猜測結果，那麼此系統在這環境下已經沒有參考價值。但是當我們在接收端使用了以索引為基礎的 BCJR 演算法 SCCD2，此時的符號位元數等於在 ETSI 中 VQ 系統的索引位元數（

M

_d =6,6,6,6,6,5,8），所以利用到的是索引與索引之間所殘留的大量殘餘冗息，可以看出辨識率明顯優於前兩條曲線。這不但驗證了我們在第二章的推論，也確定了在第三章 SCCD 的概念中，當通道環境非常差時，SCCD 將更倚重訓練得到的

M

在文檔中符號冗息在訊源控制通道解碼之研究 (頁 38-0)

第四章 符號層級 BCJR 演算法

4.3 機率 γ 的推導

機率 γ

( Y %

, s

, ) s

可以由無記憶性高斯通道的轉移機率

(channel transition probability) 和編碼器的柵狀架構所決定。

藉著使用貝氏定理，

對一個無記憶性的高斯通道(memoryless Gaussian channel)而言，

（4.11）式的第一項可以被寫成:

可夫程序（first-order Markov process, AK1） ，可經由事前經大量

語料訓練而得。

展開以及初始狀態必為零的限制，可得其設定為

(

) (

|

,

第五章 實驗模擬與結果分析

n

M

u

M

M

M

M

M

P u u

M

M 個位元分割後做訓練，

P u u

M

u

M

M

M

M

5.1.2 結果分析

v

v

5.2.1 通道錯誤緩和機制

c

c

c

c

c

c

K

2 B ×

B

B

5.2.2 實驗模擬

M

M

P u u

5.2.3 結果分析

E

N

M

M

第四章符號層級 BCJR 演算法

可夫程序（first-order Markov process, AK1），可經由事前經大量

第五章實驗模擬與結果分析