考慮合併現象建立獨立音節模型

第三章考慮音節合併現象之自發性語音辨認器

3.2 考慮合併現象建立獨立音節模型

在這裡我們先不考慮音節間相互影響的效應，我們將 MCDC 語料只依據 411 音節是否受合併現象影響做分類，分別建立兩個組的 411 模型，也就是將發生合併現象之音節與未發生合併現象之音節分別建立 411 模型，這裡我們對「感嘆詞」

和「不確定字/音」還是使用基本系統之模型，獨立音節模型建立步骤如下：

1. 如圖 3.1 所示，首先利用 MCDC 語料訓練出基本 411 音節辨識系統模型。

2. 將 MCDC 語料中針對發生合併現象和未發生合併現象的音節分開建立各自的 411 音節模型。

3. 當發生合併現象 411 音節模型訓練語料出現次數足夠（大於三次），我們建立其模型；如果出現次數不足三次，我們用基本辨識系統 411 音節模型替代之。

圖 3.1：獨立音節模型建立流程圖

3.2.1 發生及未發生合併現象之音節模型

針對未發生合併現象的音節，我們建立其 411 音節模型。當訓練語料不足時，我們用基本系統之 411 音節模型替代之。所以可以建立出未受音節合併現象影響的 411 音節模型，簡稱非合併型 411 音節模型，共訓練出不受合併現象影響的 100 個右相關 Initial 和 40 個 Final 模型。針對發生合併現象的音節，我們分別建立合併型之 411 音節模型。當訓練語料不足時，我們用已經建立好的基本 411 音節模型替代之。所以可以建立出受音節合併現象影響的 411 音節模型。

3.2.1.1 模型建立過程

在訓練發生合併現象的音節模型前，我們必需先定義發生合併現象的 Initial 及 Final，以便訓練其模型。首先我們來觀察一下音節間發生合併現象的狀況。如表 3.4 所示，觀察音節 Y，音節合併現象可依合併位置分為三類，底線表示音節合併狀況，例如：＂XY ＂表示音節 Y 與前ㄧ音節 X 發生合併現象。

表 3.4：音節(Y)發生合併狀況

音節(Y) 音節未發生合併現象音節發生合併現象

種類 1 2 3 4

音節合併情況 X Y Z X Y Z X Y Z X Y Z

當前後音節未發生音節合併現象時，我們拿來建立未發生音節合併現象的模型；當前後音節發生音節合併現象時，我們認定前一音節的 Final 部分和後一音節的 Initial 部分受到音節合併效應的影響，例如：上表中種類二為音節(X)的 Final 與音節(Y)的 Initial 受到音節合併效應影響，所以拿來建立發生合併現象的 Initial 及 Final 模型；雖然音節合併現象為前後音節互相影響的效應，但在這裡我們先不考慮前後文的相關性。同樣的當訓練語料不足以建立模型時，我

們拿基本系統的 411 音節模型替代之。所以可以建立出受音節合併現象影響的 411 音節模型，簡稱合併型 411 音節模型，共訓練出受合併現象影響的 100 個右相關 Initial 和 40 個 Final 模型。

3.2.1.2 HMM Model 狀態轉換之設定

由於受到音節合併現象的影響，音節長度(duration)將會比一般的音節來的短，所以我們針對模型狀態的轉移作新的設定，如表 3.5 所示。當發生音節合併現象時，該音節 Initial or Final 的音節長度（Syllable Duration）可能會相當短，故我們設定模型中狀態（State）轉移規則為：除了往前一個狀態外，允許跳過一個狀態(1-state skip)。我們設定兩種狀態轉換方式，之後將觀察其對辨識率的增進情況。

表 3.5：狀態轉移方法及模型種類

發生音節合併現象的模型跳躍的模型狀態跳躍方式

Initial ALL 如圖 3.2

Method 1

Final -- --

Initial ALL 如圖 3.3

Method 2

Final ALL 如圖 3.4

圖 3.2：Initial 的 State Skip（State 2 不可跳過）

圖 3.3：Initial 的 State Skip（可以 Skip 下個 State）

圖 3.4：Final 的 State Skip（可以 Skip 下個 State）

3.2.2 使用合併現象之音模型在辨識器之模型連接

當音節合併現象發生時至少為兩個音節以上的互相影響，所以我們對於音節合併的連接狀況要有所限制。例如：當音節的 Final 發生合併現象時，其後必定連接 Initial 發生合併現象的音節。另外當音節合併現象發生時，其音節間合併的情況相當的嚴重，所以我們在發生合併現象的音節間不留短暫停的模型（Short Pause Model）。

所以在辨識上我們將音節（Y）依據發生音節合併的情況分為四種情況(如表 3.6 所示)，底線部份表示音節合併現象的發生位置。

表 3.6：音節合併現象發生狀況

種類 1 2 3 4

音節合併情況 X Y Z X Y Z X Y Z X Y Z Initial I_NC I_C I_NC I_C

Final F_NC F_NC F_C F_C 註： I_NC & F_NC：未發生音節合併現象的 Initial & Final I & F ：發生音節合併現象的 Initial & Final

圖 3.3 為我們針對音節辨識所加的限制，可行路徑上我們不加其它分數，也就是類似無文法規則(Free Grammar)的作法。注意紅框範圍為我們針對音節合併現象所增加的限制，也就是有受到合併現象影響的韻母聲母必須要相連接。

圖 3.5：合併現象音節辨識器模型連接

3.2.3 實驗及結果分析

之前我們設定兩種狀態轉移規則，表 3.7 為比較兩種方法在辨識方面的表現。由表可看出，方法一的狀態跳躍方式略優於方法二，因為每一個 Initial 或 Final 其狀態應該有其穩定部份，我們不應該允許它被省略，故我們採用方法一。

表 3.7：比較兩種不同狀態轉移方式對於音節辨識率的影響

辨認率正確音節數刪除型錯誤替代型錯誤插入型錯誤方法一 39.20% 46.6% 10.6% 42.8% 7.4%

方法二 38.84% 47.1% 9.8% 43.1% 8.2%

分別建立非合併及合併型 411 音節模型之後，我們比較它們與基本辨識系統在整體辨識率上的表現，表 3.8 為兩組模型在辨識率上的比較，整體來說辨識率些微下降，正確數與刪除型錯誤雖有改進，但替代型錯誤與插入型錯誤相對增加。

表 3.8：新增音節合併現象模型後與基本音節模型在辨識上的比較

在文檔中自發性對話語音音節合併現象之分析及辨識改進 (頁 22-28)

第三章 考慮音節合併現象之自發性語音辨認器