X 圖 3-4 本論文提出的 2D-DCT 壓縮法

基於上述的幾個原因，我們提出了新的特徵參數壓縮法，如圖 3-4 所示，首先我們將梅爾倒頻譜係數分成三群：分別是 C¹~C⁶、 C⁷~C¹²、C^E三群，因為 C^E的值和 C¹~C¹² 比較不同，因此我們將它特別獨立出來以音框間的分割式向量量化法作為它的壓縮方式，而 C¹~C⁶與 C⁷~C¹²的重要性較接近，因此把它們分在同一群。因此第一、

二群的維度是 6，因此我們在時間軸上暫存 6 個音框，將它們組成兩個 6×6 的矩陣 (B¹,B²)，並且利用下面所提出的演算法，作為它們的壓縮方式：(2D-DCT 壓縮法)

一：分別對暫存過的特徵參數矩陣 (B¹,B²) 作 2 維離散餘弦轉換，並且得到對應的輸出矩陣 (S¹,S²)。

二：保留 (S¹,S²) 中的前二行 (column 1、2)，其它的係數全部截取成零。(在這裡為了方便書寫，我們重新命名 S¹,S²中的係數)

)]

6 , 2 ( ),...., 1 , 1 ( ), 6 , 2 ( ),..., 1 , 2 ( ), 6 , 1 ( ),..., 1 , 1 ( [

] ,..., ,...,

, ,..., , [

2 2

1 1

24 12

7 6 2 1

S S

Y Y

Y Y Y Y

=

三：對於保留下的 24 個係數(Y¹,Y²,...,Y²⁴)，分別進行量化，

得到數個量化符號(X¹,X²,...,X²⁴)。

3.2 遞迴式位元數配置 (Iterative Bit Allocation)

為了得到最佳化的係數量化碼本群組位元數大小，並且考慮到實驗的收斂速度，我們提出了遞迴式位元數配置演算法(Iterative Bit Allocation Algorithm)尋找最佳化的答案。我們以 2.1 節中提到連續國語語音作為我們的實驗語料，其中國語語音聲學模型的訓練與 2.1 節相同，而發展語料則作為我們訓練碼本大小的訓練語料，測試

程圖如圖 3-5，詳細步驟如下：

圖 3-5 訓練碼本群組之演算法

一、給定這 24 個係數一個足夠大的碼本大小作為起始值，在我們的實驗中，起始值設為 8 (每個係數用 8 個位元量化)。

二、設定目標辨識率 (desired recognition accuracy) α，作為以下遞迴運算 (iteration) 的停止條件。另外我們定義每一個係數 --Y¹,Y²,..,Y²⁴，它的量化碼本位元數為 --N¹,N²,...,N²⁴。

對每一個係數的量化位元數減去 1 個位元

N

= N

-1 ...

N

= N

- 1

(1)個別對每一個係數的位元數加1個位元，並計算此位元對系統辨識率增加的幅度作為重要性的評估

(2)增加1個位元至(1)中辨識率進步量最多之係數的量化位元數 N

= N

+ 1

(3)此N

值為最後的決定值，將不再被改變辨識率>α

辨識器

辨識率<α

係數 Y

Y

... Y

位元數 N

N

... N

z 定義：目標辨識率(α)，作為遞迴運算的停止條件

z 起始設定：首先都對每個係數的量化碼本足夠的位元數，在我們的實驗中，通常起始值都設為 8

對每個系數的

量化碼本都給

予足夠的位元

三、比較在目前碼本大小下，系統的辨識率是否高於α，若是，

則將所有碼本位元數尚未決定的係數其碼本位元數(Ni)值減 1，並且重新測試新碼本群組的辨識率，若仍然高於α則持續減 1，直到辨識率低於α後，進入步驟四。

四、對於碼本位元數尚未決定的 L 個係數(Y¹,Y²,..,Y^L)，我們分別為它們的重要性作排序 (rank)：定義重要性的方法為---我們每次挑選其中一個係數，將它的碼本大小放大一倍(即位元數加 1)，並且保留另外 L-1 個係數的碼本大小，紀錄它們對於辨識率的影響 (辨識率增加的量)。

五、由先前的重要性排序中，我們可得到 Y¹,Y²,..,Y^L 相對的重要性，首先我們將最重要的係數碼本位元數加 1，並且此係數的碼本大小為最後的決定值，將不再被更改，因此碼本位元數尚未決定的係數數目 L 值也將少 1：L = L-1，再重新測試新碼本群組的辨識率，若辨識率仍然低於α則我們再重複上面所提到的動作，為暫存器中最重要的係數的碼本位元數加 1。當新碼本群組辨識率高於α且暫存器長度大於零，

則回到步驟三；當碼本位元數尚未決定的係數數目 L 值為零，則訓練完成。

料，停止臨界辨識率 α 定為 47% ( 未經量化失真的辨識率為 49.18% )，以上述的演算法訓練出最佳化的碼本群組，以測試語料觀察訓練得到的碼本群組的辨識效果，並且與 2.2 節所提到的分割式向量量化法作比較。實驗結果如表 3-1、2D-DCT 壓縮法之量化碼本群組如表 3-2：

表 3-1 2D-DCT 壓縮法之量化失真對音節辨識正確率影響

訓練特徵參數測試特徵參數測試語料(一) 測試語料（二）

未經壓縮量化未經壓縮量化 49.18 % 55.41 %

未經壓縮量化量化失真

(分割式向量量化)

45.77 % 52.13 %

未經壓縮量化量化失真

(2D-DCT 壓縮)

47.03 % 53.23 %

碼本 (Codebook)

碼本大小 (固定位元數)

碼本 (Codebook)

碼本大小 (固定位元數)

Y

5 Y

¹³

5 Y

4 Y

3 Y

4 Y

3 Y

⁵

4 Y

¹⁷

4 Y

3 Y

⁹

3 Y

²¹

3 Y

2 Y

0 Y

0 C

(音框間的分割式向量量化)：碼本位元數 = 6

如表 3-1 ，當我們將停止臨界辨識率α值設為 47%，以測試語料對訓練得到的碼本群組作測試，我們仍然可以得很高的辨識率 (55.41% -> 53.23%)，也比分割式向量量化法得到的辨識率高出不少。除此之外，2D-DCT 壓縮法的資料傳輸速率僅有 1.45 Kbps，比分割式向量量化法的 4.4 Kbps 更低且有更好的辨識效果，因為暫存而產生的時間延遲僅有 60 ms，仍然在及時系統的時間要求 (time constraint) 內，另外這些額外的傳輸空間提供了我們外加錯誤更正與控制的空間。

總合以上所述，參考圖 3-4，2D-DCT 壓縮法的過程如下：首先我們暫存了 6 個音框的語音特徵參數，並對它們分成三群(C¹-C⁶、C⁷-C¹² 與 C^E)，其中 C¹-C⁶與 C⁷-C¹²組成兩個 6×6 的矩陣(B¹與 B²)；並且對 B¹與 B²進行 2 維的離散餘弦轉換，截取後四行的係數並只對前兩行的係數進行量化壓縮。最後將所有量化後的量化符號(X¹,X²,...,X²⁴) 與 C^E 壓縮後的量化符號組成一個傳送封包，傳送至遠端的伺服器。

其中對於 C^E 我們是採取音框間的分割式向量量化，對於每兩個音框的[C^E(t),C^E(t+1)]壓縮成一個量化符號(X^E)。

3.3：結合離散餘弦轉換與分割式向量量化的特徵參數壓縮方法

在之前的討論中，我們發現我們所提出的 2D-DCT 壓縮法其壓縮效能比傳統分割式向量量化高出許多，然而基於以下三個原因，我們重新稍微改進了原先的特徵參數壓縮法：

1. 如同 3.1 節所說的，因為語音特徵參數在時間軸方向，音框與音框間參數值彼此有很大的相關性，但不同參數間彼此不相關，因此使用 2 維-離散餘弦轉換的第二次離散餘弦轉換所得到的壓縮效果其實不大。

2. 如果我們可以縮小暫存音框的數目，我們不僅可以使系統的延遲變短，離散餘弦轉換的複雜度與暫存器的數目都可以縮小。

3. 在第一次離散餘弦轉換後，我們將時域方向的特徵參數資訊壓縮在前幾個維度(行)中，若此時我們再將它進行第二次離散餘弦轉換，因為特徵參數間彼此沒有相關性，因此資訊不會有集中的現像，相反的，時域方向壓縮後的資訊會被分散不同係數之中。如此一來反而不利於我們在伺服器端進行錯誤補償。

圖 3-6 為更新一步改良的特徵參數壓縮與反壓縮流程圖。因為語音特徵參數只有在時間軸方向有很高的相關性，且為了減少時間延遲

並增加壓縮品質，我們對於每一維的梅爾倒頻譜係數，在時間軸上只暫存 4 個音框，形成 13 個長度為 4 的係數向量，並對每一個係數向量進行離散餘弦轉換。模仿上節的作法，我們將轉換後的向量進行係數截取 (truncated)，並對保留下的係數作分割式向量量化，得到最後壓縮的量化符號，詳細的數學推演如圖 3-7：

圖 3-6 餘弦與向量量化壓縮與反壓縮流程圖語音

特徵參數抽取

音框暫存 (4 音框)

時間軸方向的離散餘弦轉換

分割式向量量化碼本

係數壓縮壓縮後的資料串

(Compressed Data Stream) 係數反壓縮

時間軸方向的反

離散餘弦轉換合成連續音框辨識器

圖 3-7 餘弦與向量量化壓縮的數學表示

為了比較餘弦與向量量化壓縮法與 2D-DCT 壓縮法的壓縮效果，

我們模仿 2.2 節的實驗，使用同一套語音聲學模型、同樣使用發展語料作為訓練最佳化碼本群組的訓練語料，其中我們使用相同的訓練碼本群組演算法(如 2.1 節所提)，停止臨界辨識率α值同樣設為 47%，

並且將訓練得到的碼本群組，分別比較它們在測試語料所得到的結果，表 3-3 為它們的實驗結果、表 3-4 為訓練後得到的碼本群組：

C

(t) C

(t+1) C

(t+2) C

(t+3)

S

n,t

(0) S

n,t

(1) S

n,t

(2) S

n,t

(3) 離散餘弦轉換

S

n,t

(0) S

n,t

(1) 0 0

X

n,t

分割式向量量化

其中 C: 梅爾倒頻譜係數 n: 1,2,..,12,E

t: 音框的時間索引

截取

從表 3-3 中，我們可以發現雖然造成餘弦與向量量化壓縮法在測試語料的辨識率比 2D-DCT 壓縮法高約 1%可能是新的壓縮法比 2D-DCT 壓縮法的傳輸速率略高 (1.55Kbps > 1.45Kbps)，但

餘弦與向量量化訓練特徵參數測試特徵參數測試語料(一) 測試語料（二）

未經壓縮量化未經壓縮量化 49.18 % 55.41 %

未經壓縮量化量化失真

(分割式向量量化)

45.77 % 52.13 %

未經壓縮量化量化失真

(2D-DCT 壓縮)

47.03 % 53.23 %

未經壓縮量化量化失真

(餘弦與向量量化)

47.22 % 54.12 %

表 3-3 比較所有量化失真對音節辨識正確率的影響

碼本 (codebook)

碼本大小 (給定位元數)

對應之梅爾倒頻譜係數向量(MFCC) X

5 C

(t,t+1,t+2,t+3) X

5 C

(t,t+1,t+2,t+3) X

5 C

(t,t+1,t+2,t+3) X

5 C

(t,t+1,t+2,t+3) X

5 C

(t,t+1,t+2,t+3) X

5 C

(t,t+1,t+2,t+3) X

⁷

5 C

⁷

(t,t+1,t+2,t+3) X

5 C

(t,t+1,t+2,t+3) X

4 C

(t,t+1,t+2,t+3) X

4 C

(t,t+1,t+2,t+3) X

¹¹

4 C

¹¹

(t,t+1,t+2,t+3) X

4 C

(t,t+1,t+2,t+3) X

6 C

(t,t+1,t+2,t+3)

(系統的傳輸速率為 1.55 Kbps)

表 3-4 餘弦與向量量化壓縮的碼本群組

壓縮法擁有較少量的

計算量(離散餘弦轉換)、較少的碼本數目與較短延遲(40ms < 60ms)，另外每個碼本間是互相獨立的，當第 N 個碼本有錯誤產生時，在解壓縮後只會影響到第 N 維的梅爾倒頻譜係數，而這樣的特性有利於錯誤補償的機制。

3.4：英語數字辨識及強健性討論

在這一節中，我們將把餘弦與向量量化壓縮法應用在其它語言的語料上，並且討論在有背景雜訊的情況下，此壓縮法是否仍然有效。

在這裡，我們選用了 ETSI 所發行的語料—Aurora 2。這套語料目前是國際上用來評估雜訊環境下語音辨識系統效能的標準語料，它主要是在模擬日常生活中常見的加成性雜訊環境的影響。

3.3.1 Aurora 2 語料

Aurora 2【10】是一套英語連續數字語料，其內容以 TIDigits

【11】這套由美國成年男女錄製而成乾淨數字語料為基礎，將每個乾淨數字音段 (utterance) 以特定的通道效應濾波後再以人工方式加上八種加成性雜訊，並分成兩種聲學模型訓練模式 (training

mode)，每種訓練模式下都各有三種測試組合 (testing set)。絴細內容如表 3-5。

Aurora 2

取樣頻率 8 KHz

編碼格式 16 位元 PCM 無檔頭

語音內容英語數字 0~9，共 11 種發音 (0~9 加上 oh) 語音長度每音段包含不超過七個連續數字

乾淨語音訓練音段數: 8440

摺積性雜訊: G.712 通道特性加成性雜訊: 無

訓練模式

複合情境訓練音段數: 8440

摺積性雜訊: G.712 通道特性加成性雜訊: (共四種)

z 地下鐵雜訊 z 人聲雜訊 z 汽車雜訊 z 展覽會館雜訊

對於每種加成性雜訊，訊噪比都在 20dB，15dB，10dB，5dB 以及乾淨這五種程式，因此在此訓練模式下有 20 種不同的情境。

A 組 B 組 C 組

音段數: 28028 摺積性雜訊:

G.712 通道特性加成性雜訊:

如同複合情境訓練模式裡的雜訊

音段數: 28028 摺積性雜訊:

G.712 通道特性加成性雜訊:

z 餐廳雜訊 z 街道雜訊 z 機場雜訊 z 火車站雜訊

音段數: 14014 摺積性雜訊:

MIRS 通道特性加成性雜訊:

z 地下鐵雜訊 z 街道雜訊測試組合

對於上述的每種加成性雜訊，訊噪比都控制在 20dB、15dB、

10dB、5dB、0dB、-5dB 與完全乾淨七種程度，並且對於每種雜訊的每一個訊噪比程度都計算一組辨識結果

表 3-5 Aurora 2 語料內容介紹

其中 C 組的測試組合是將測試語料通過一個與訓練語料不同通道的特定通道，其主要的意義在於討論通道與加成性雜訊對辨識率的影響，但這並不包含於我們所討論的主題內，因此在這個章節裡我們將不討論 C 組的實驗結果。

從表 3-5 可以發現，由乾淨語音訓練模式(clean speech training) 訓練出來的聲學模型都不包含任何加成性雜訊的特性，因此以 A、B 組語料測試時會呈現與聲學模型非常不匹配(mismatched)的狀況。另一方面，由複合情境訓練模式(multi-condition training)訓練出來的聲學模型則包含了四種雜訊以各種不同程度破壞的特性，而且在 A 組測試語料上所加的雜訊和此訓練模式一模一樣，因此 A 組和此訓練模式所訓練得到的聲學模型可以說是相當匹配(matched)，而 B 組測試語料與複合情境訓練的差異在於所外加的雜訊不同。綜合上面所述，以複合情境模式訓練所訓練得到的聲學模型與測試語料是一個較為匹配的情況，所以可以預期比乾淨語音訓練所訓練的聲學模型有較好的辨識結果。

因為加成性雜訊除了對於測試語音的特徵參數抽取會產生影響外，特徵參數的壓縮所產生的量化失真亦可能會受到影響。對於主從式架構的分散式語音辨識系統而言，限制使用者必需在安靜環境下才能使用此系統是不被允許的，因此討論對於各種外加雜訊、各種不同

在文檔中特徵參數壓縮無線傳輸特徵參數反壓縮 (頁 43-57)

)]

6 , 2 ( ),...., 1 , 1 ( ), 6 , 2 ( ),..., 1 , 2 ( ), 6 , 1 ( ),..., 1 , 1 ( [

] ,..., ,...,

, ,..., , [

S S

S S

S S

Y Y

Y Y Y Y

=

圖 3-5 訓練碼本群組之演算法

對每一個係數的量化 位元數減去 1 個位元

N

= N

-1 ...

N

= N

- 1

(1)個別對每一個係數的位元數加1個位元，並計算此位元對系統 辨識率增加的幅度作為重要性的評估

(2)增加1個位元至(1)中辨識率進步量最多之係數的量化位元數 N

= N

+ 1

(3)此N

值為最後的決定值，將不再被改變 辨識率>α

辨識器

辨識率<α

係數 Y

Y

... Y

位元數 N

N

... N

z 定義：目標辨識率(α)，作為遞迴運算的停止條件

z 起始設定：首先都對每個係數的量化碼本足夠的位元數，在我們的實驗 中，通常起始值都設為 8

對每個系數的

量化碼本都給

予足夠的位元

表 3-1 2D-DCT 壓縮法之量化失真對音節辨識正確率影響

訓練特徵參數 測試特徵參數 測試語料(一) 測試語料（二）

未經壓縮量化 未經壓縮量化 49.18 % 55.41 %

未經壓縮量化 量化失真

(分割式向量量化)

45.77 % 52.13 %

未經壓縮量化 量化失真

(2D-DCT 壓縮)

47.03 % 53.23 %

碼本 (Codebook)

碼本大小 (固定位元數)

碼本 (Codebook)

碼本大小 (固定位元數)

Y

5 Y

5

Y

5 Y

4

Y

4 Y

3

Y

4 Y

3

Y

4 Y

4

Y

4 Y

4

Y

3 Y

3

Y

3 Y

3

Y

3 Y

3

Y

3 Y

對每一個係數的量化位元數減去 1 個位元

(1)個別對每一個係數的位元數加1個位元，並計算此位元對系統辨識率增加的幅度作為重要性的評估

值為最後的決定值，將不再被改變辨識率>α

z 起始設定：首先都對每個係數的量化碼本足夠的位元數，在我們的實驗中，通常起始值都設為 8

訓練特徵參數測試特徵參數測試語料(一) 測試語料（二）

未經壓縮量化未經壓縮量化 49.18 % 55.41 %

未經壓縮量化量化失真

未經壓縮量化量化失真

圖 3-6 餘弦與向量量化壓縮與反壓縮流程圖語音

時間軸方向的離散餘弦轉換

分割式向量量化碼本

係數壓縮壓縮後的資料串

離散餘弦轉換合成連續音框辨識器

餘弦與向量量化訓練特徵參數測試特徵參數測試語料(一) 測試語料（二）

未經壓縮量化未經壓縮量化 49.18 % 55.41 %

未經壓縮量化量化失真

未經壓縮量化量化失真

未經壓縮量化量化失真

對應之梅爾倒頻譜係數向量(MFCC) X