• 沒有找到結果。

第四章 符號層級 BCJR 演算法

4.3 機率 γ 的推導

機率 γ

i j,

( Y %

t

, s

t1

, ) s

t

可以由無記憶性高斯通道的轉移機率

(channel transition probability) 和編碼器的柵狀架構所決定。

藉著使用貝氏定理,

對一個無記憶性的高斯通道(memoryless Gaussian channel)而言,

(4.11)式的第一項可以被寫成:

可夫程序(first-order Markov process, AK1) ,可經由事前經大量

語料訓練而得。

展開以及初始狀態必為零的限制,可得其設定為

2

(

2

) (

1

|

2

,

2 2

由於解碼的遞迴演算法建構在迴旋編碼先天基礎上,須在演算過 程支出使給予相對應的條件設定,並藉由機率運算驗證設定之合理 性,而在系統的模擬實驗中,證實了初始的條件設定對於解碼器能否 獲得穩定的結果有極大的影響。

第五章 實驗模擬與結果分析

在 SCCD 的架構中,我們知道若能夠在接收端利用訊號源之間的 殘餘冗息將會有效地提升系統的解碼效能。而在第二章節的訊源冗息 分析中可以得到,殘餘冗息在符號層級之間存在的資訊將會比位元層 級之間還要多。因此,在第三章提出了一個向量量化傳輸系統,並使 用基於符號 BCJR 演算法的軟性輸出解碼架構。在本章,我們將這演 算法應用於系統模擬,以期藉由系統之模擬結果驗證演算法之正確 性。

本章的內容將分為兩小節來進行實驗之模擬與結果之分析討 論。第一節我們將模擬第 3.1 節所介紹之傳輸系統,在接收端則是採 用第 3.3 節中所提出之基於符號軟性輸出通道解碼的系統架構,並探 討運用在不同程度的量化符號假設下所存在的殘餘冗息在接收端作 解碼工作的效能評比與分析。在第二節中,將此軟性輸出通道解碼應 用 於 歐 洲 電 信 標 準 局 (European Telecommunication Standards Institute, ETSI) 所 制 訂 的 分 散 式 語 音 辨 認 架 構 (Distributed

Speech Recognition, DSR)。在 DSR 標準的接收端所制訂的錯誤隱匿 機制(error mitigation scheme)亦有做錯誤回復的解碼工作,其原 理將在第二小節中介紹。最後,我們將在解碼端的部分使用我們所提 模擬與結果分析。系統中訊號源 取自一階自迴歸處理(first-order autoregressive process),且其訊號源之相關因子(correlation factor)採用 源送進量化器中。所採用之量化器為 LBG 演算法(Linde-Buze-Gray

n

n 0

algorithm)所產生出來的向量量化器(vector quantizer),其中碼 書維度設定為 2,因此將 20000 點訊號源送入此量化器後將可以得到 10000 個索引,各個索引則使用

M

= 位元表示。由於研究重點不在6 於量化索引的最佳位元映對方法(bit mapping scheme),所以選用 自然二位元編碼方式(natural binary code, NBC)[15]。在得到量 化索引的位元資料後,將其通過二位元相位鍵移(BPSK)調變,把每 (AWGN channel),即傳送過程中僅受到白色高斯雜訊的通訊干擾。

1/ 2

對照第三章以及第四章的介紹,我們的實驗流程圖如圖 5.1,主 要探討的是在接收端,當考慮符號 的位元數 不同分別去做解 碼,系統效能將會有如何的提升。因為在傳送端使用的是 6 位元的量 化器,所以我們取其最大公因數分別做實驗,這次的實驗中,我們模 擬了四種情況: ,

u

t

M

d

=1

M

d

M

d =2,

M

d =3,

M

d =6,並假設符號與符 號前後之間的關聯性可以模擬為一階的馬可夫程序(AK1),亦即利用 了一階事前消息

P u u

( t | t1)。其中當

M

d =1時,此基於符號的軟性輸出 通道解碼退化即為基於位元的軟性輸出通道解碼。在這裡,我們另外 產生 100000 個索引,依不同的符號等級以

M 個位元分割後做訓練,

d 即可得到一階事前消息

P u u

( t | t1),其中

M

d =1, 2,3,6。再將此事前消 息代入前向與後向機率做計算,如此即可求得蘊含了量化後符號間之 冗餘訊息的解碼後符號 的後驗機率,分別以(AR, )(AR,

)(AR, )(AR,

u

t

M

d =1

d 2

M

=

M

d =3

M

d = )表示,實驗結果如圖 5.2 所示。 6

圖 5.1 實驗流程圖

圖 5.2 基於符號的軟性輸出解碼之系統模擬

5.1.2 結果分析

圖 5.2 中,系統之評估為使用訊號源參數

v

n和重建參數

v

ˆn之間的

訊號雜訊比(signal-to-noise ratio, SNR)作為衡量:

5.2.1 通道錯誤緩和機制

近來,在將自動語音辨識技術轉移至行動或是 IP 網路上使用的 概念上,DSR 被認為是一個很有效的方法。在 ETSI 的標準 ETSI ES 202 212(v.1.1.1)裡,描述了整個 DSR 系統中的語音處理、傳輸以及品質 效能。標準中並定義了前端語音參數的擷取,以及一個將語音的輸入 傳送至伺服器端的語音辨識系統的編碼機制。DSR 的根本概念就是在 局部的前端擷取語音參數,再經由資料通道(data channel)傳送至後 端計算量較複雜的辨識器。主要是因為若直接將語音傳輸時,往往因 為低位元語音編碼率以及通道傳輸錯誤使得系統效能嚴重地下降。所 以 DSR 捨棄語音通道(voice channel),而是代之以有錯誤保護的資 料通道傳輸參數,圖 5.2 即為 DSR 的架構圖。因為我們現在想要探討 的的是,在解碼端利用我們所提出的 SCCD 替換 ETSI 標準原先制定的 錯誤緩和(error mitigation)機制之後,在系統效能上的改善,所以 接下來我們將著墨於伺服器端的討論。

在標準中所訂定之參數擷取演算法將產生一 14 個元素的向量,

其 中 包 含 了 13 個 梅 爾 倒 頻 譜 係 數 ( Mel Frequency Cepstrum Coefficients, MFCC),從 到 ,和 1 個對數能量參數(log-energy coefficient)。語音信號的分析可被取樣為 8k 赫茲,11k 赫茲以及 16k 赫茲,每個框架長度 25 微秒且每 10 微秒做一次平移。而這些參數將

c

0

c

12

被壓縮為一 4800 bps 的資料串以作為傳輸。使用的量化器為分割向 量量化器(split vector quantizer, SVQ),其中 14 個元素將以每兩 個參數為一組的方式被分為七個子集合( 和

c

1

c

2, 和 ,

c

3

c

4

K

, 和 log-energy)。每一個子集合利用權重歐式距離(weighted Euclidean distance)分別產生與其相對應的碼書,其中 到 這五組的碼書以 的序列稱為多重框架(multiframe),如表 5.1 所示。在多重框架的 格式中,前兩個八位元組為同步(synchronization)序列,接下來 的 4 個八位元組為標頭(header)序列,和 138 個八位元組的框架封 包串,其中將了 24 個框架每兩兩分為一組。而每一組封包對(frame pair)有 88 個位元,並利用這些位元編碼出 4 位元的循環冗息碼

(cyclic redundancy code, CRC)跟隨在這封包對之後如表 5.2。

CRC 並沒有錯誤回復的功用,但是最大作用就是在接收端可以做錯誤 偵測,此編碼也被廣泛地使用。

另一方面,我們要介紹 ETSI 所制訂的錯誤緩和機制。 在 接 收

端解碼完之後,此錯誤緩和機制有兩種判斷法則:CRC 檢測以及資料 一致性。CRC 的檢測是當接收到解碼後的序列之後,我們將利用接受 到的框架對做 CRC 的計算,並再與接收序列中對應此框架對的 CRC 加 以比對,如果不一樣,那我們就判定此框架對為錯誤。除此之外,資 料的一致性則是經由演算法判斷封包對中的封包是否達成最小連續 性,如果不是的話,那我們仍然判定此框架對為錯誤。這是一個偵測 錯誤叢集(error bursts)的有效方法,假設錯誤叢集發生,連續

2 B ×

個框架被判定為錯誤,那麼前

B

個框架將被這錯誤叢集之前的最後一 個正確框架取代,後

B

個框架則被這錯誤叢集之後的第一個正確框架 所取代。

圖 5.3 DSR 格子架構圖 (a)終端機(b)伺服器 表 5.1 多重框架的格式

表 5.2 受 CRC 保護的封包串

5.2.2 實驗模擬

在本實驗中,我們假設除了量化後的參數以外的資訊都不會發生 錯誤,其中包括了同步序列,標頭序列,CRC,以及 VAD 位元,也就 是說,我們在接收端先做框架的分割,只考慮將七個參數共 43 位元 送至通道中,再接收端再依其原格式重新組合而得原本的形式,並再 送至 ETSI 制訂的錯誤緩和機制,或是我們在第三章及第四章所提出 的 SCCD 做解碼,流程圖如圖 5.1,再送至語音辨識器。

我們使用不限制字串長度的中文數字串做實驗模擬,使用的中文 數字串資料庫事由 50 個男聲以及 50 個女聲錄製而成,每一個說話者 錄製十個音檔,而且每一個音檔分別有 1 到 9 不等的數字,其中,90 個發聲者(45 個男聲以及 45 個女聲)所錄製的音檔做為訓練語料,剩 下的 10 個發聲者所錄製的做為測試語料,訓練語料與測試語料分別 有 6796 以及 642 個數字。在伺服器是由 HTK 軟體做辨識,中文數字

被模擬為隱藏式馬可夫模型(Hidden Markov Models, HMMs),每一 個字以 8 個狀態模擬其統計模型,而每一個狀態均以 64 個高斯分佈 混合模型來近似觀察值的機率分佈。除此之外,並分別以 3 個狀態的 HMMs 以及一個狀態的 HMMs 模擬間歇與停頓,即發音過程前後端與過 程中字和字之間過渡時期內訊號的統計模型。在辨識中,12 個梅爾 反頻譜係數以及對數能量參數再加上速度(1 階微分)與加速度(2 階微分)都需要納入考慮。

實驗模擬結果如圖 5.4 所示,在這裡使用的通道環境一樣是可加 性高斯白雜訊通道。其中我們模擬了三種情況,第一條曲線 ETSI-MIT 就是在解碼完後利用 ETSI 所制訂的錯誤緩和機制改善因通道所產生 的錯誤所造成的影響,SCCD1 則是利用以位元為基礎的 BCJR 演算法 做解碼,考慮位元與位元間之間(即

M

d = )殘餘的關聯性,SCCD21 則是利用以索引為基礎的 BCJR 演算法,分別以七組參數量化的位元

數( ),依不同參數的索引層級相關性 做

解碼。

6,6,6,6,6,5,8

M

d =

P u u

( t | t1)

圖 5.4 輸出軟性通道解碼應用於 DSR 的模擬

5.2.3 結果分析

在圖 5.4 中,縱座標為 HTK 軟體中所定義的字元辨識率(Word accuracy, WAcc)。首先,我們在接收端先利用了 ETSI 中的錯誤緩和 機制得到了第一條曲線 ETSI-MIT 之後,以這條曲線做為參考基礎,

進而在接收端使用了我們所介紹的 SCCD,可以發現,當我們以位元 為基礎的 BCJR 演算法 SCCD1 做解碼時,因為利用了位元之間的殘餘 冗息,在與 ETSI-MIT 相比之下,將可以使得字元辨識率做微幅的提 升。但不幸的是,當

E

s/

N

0 = −4 dB,因為通道環境太差,所以在解 碼端已經沒有辦法作有效地解碼,辨識結果幾乎和 ETSI-MIT 差不

多,約只有 10%~12%,也就是說辨識率相當於我們任意地猜測結 果,那麼此系統在這環境下已經沒有參考價值。但是當我們在接收端 使用了以索引為基礎的 BCJR 演算法 SCCD2,此時的符號位元數等於 在 ETSI 中 VQ 系統的索引位元數(

M

d =6,6,6,6,6,5,8),所以利用到 的是索引與索引之間所殘留的大量殘餘冗息,可以看出辨識率明顯優 於前兩條曲線。這不但驗證了我們在第二章的推論,也確定了在第三 章 SCCD 的概念中,當通道環境非常差時,SCCD 將更倚重訓練得到的

多,約只有 10%~12%,也就是說辨識率相當於我們任意地猜測結 果,那麼此系統在這環境下已經沒有參考價值。但是當我們在接收端 使用了以索引為基礎的 BCJR 演算法 SCCD2,此時的符號位元數等於 在 ETSI 中 VQ 系統的索引位元數(

M

d =6,6,6,6,6,5,8),所以利用到 的是索引與索引之間所殘留的大量殘餘冗息,可以看出辨識率明顯優 於前兩條曲線。這不但驗證了我們在第二章的推論,也確定了在第三 章 SCCD 的概念中,當通道環境非常差時,SCCD 將更倚重訓練得到的

相關文件