使用多音節聲學模型對 MCDC 語料中音節合併現象做自動標示.28

第三章考慮音節合併現象之自發性語音辨認器

3.3 針對合併現象建立相依音節模型

3.3.3 使用多音節聲學模型對 MCDC 語料中音節合併現象做自動標示.28

標記做自動標示。當音節合併現象不嚴重時，在辨識時我們所訓練的多音節聲學模型相當有可能會跟（兩個）單一音節模型發生互相競爭的情況；我們藉著已經建立好的多音節聲學模型，重新對訓練語料做辨識，也就是對音節合併自動標示的工作，並與人工標示結果做比較。其一可確認音節合併模型之精確性；其二檢查人工標示之一致性。

圖 3.8：對音節合併現象做自動標示流程圖

如圖 3.6 所示，我們藉著專門為音節合併現象所建立的多音節聲學模型，對訓練語料中有標記發生音節合併現象的音節組合重新作分數（ log

probability ）上的評估；同時我們也拿基本 411 音節辨識系統對同個地方作分

數上的評估；如此一來，便可觀察出是否音節合併現象會具有相同特性及音節合併現象的標記狀況等等…。為了觀察不同模型在同一處的辨識狀況，我們定義分數的求取方法，其步骤如下列：

(1)我們利用專門為音節合併現象所建立的多音節聲學模型，對訊練語料中有標記發生音節合併現象的音節組合觀察其音框的平均辨識分數（ log p / per frame ），是為 S_con_.。

(2)再利用基本 411 音節模型對訓練語料中有標記發生合併現象的音節組合觀察其音框的平均辨識分數（ log p / per frame ），為 S₄₁₁。

如此一來在某個有標記發生音節合併現象的地方，我們可以得到兩個不同的分數，一個是用多音節聲學模型去觀察所得到的分數，一個是用基本 411 音節模型去觀察所得到的分數，我們將兩個分數相減得到

S _d = S _con _. − S ₄₁₁

為兩個分數的差距，若S 為正則代表多音節聲學模型所觀察到的分數較高（確_d 實發生音節合併現象）；反之若為負，則代表基本 411 音節模型所觀察到的分數較高（可能音節合併現象較輕微，未標記），我們對所有音節合併現象標記的作觀察。

(1) 多音節聲學模型對標記處的合併現象作觀察(訓練語料)

因為是對訓練語料作分數觀察，所以多音節聲學模型分數高於基本 411 音節模型是正常的，如圖 3.7，觀察重點為那些基本 411 音節模型分數高於多音節聲學模型的資料點應該回歸為未發生合併現象的標記。

6, 1418

Pair Model To Con.

Pair Model To 411

圖 3.10：多音節聲學模型對標記與未標記合併處音節組合觀察(訓練語料)

(3) 多音節聲學模型對標記處的合併現象作觀察(測試語料)

2, 197 Model Top7 Con.

Model Top7 Non-Con.

圖 3.12：多音節聲學模型對標記與未標記合併處音節組合觀察(top7 Model)

在曾淑娟老師的研究報告中曾指出不同人在自發性語音發生音節合併現象

將獨立的聲母依爆破音/鼻音…等分為五類；空聲母音節則依韻母發音特性分為六大類。依照下表的分類，對合併現象的前一音節建立右相關韻母模型。

表 3.18：合併現象後一音節聲母分類類別後一音節

1 爆破音ㄅ、ㄆ、ㄉ、ㄊ、ㄍ、ㄎ 2 鼻音ㄇ、ㄋ

3 摩擦音ㄈ、ㄏ、ㄒ、ㄕ、ㄖ、ㄙ 4 邊音ㄌ

5 塞擦音ㄐ、ㄑ、ㄓ、ㄔ、ㄗ、ㄘ 6 a- ㄚ、ㄞ、ㄠ、ㄢ、ㄤ 7 o- ㄛ、ㄡ

8 e- ㄜ、ㄝ、ㄟ、ㄥ、ㄣ、ㄦ

9 yi- ㄧ、ㄧㄚ、ㄧㄝ、ㄧㄞ、ㄧㄠ、ㄧㄡ、ㄧㄢ、ㄧㄣ、ㄧㄤㄧㄥ、ㄧㄛ

10 wu- ㄨ、ㄨㄚ、ㄨㄛ、ㄨㄞ、ㄨㄟ、ㄨㄢ、ㄨㄣ、ㄨㄤ、ㄨㄥ 11 yu- ㄩ、ㄩㄝ、ㄩㄢ、ㄩㄣ、ㄩㄥ

在模型建立數量方面我們仍然依據足夠的訓練語料，總共訓練出發生合併現象的 114 個右相關韻母模型。

3.3.4.2 新增右相關韻母模型後之辨認器架構

在辨識上我們聯合「非合併型 411 音節模型」、「多音節聲學模型」和「右相關韻母模型」參與辨識。辨識路徑如圖 3.10 所示，與之前不同的為我們針對發生合併現象音節建立右相關韻母模型，所以在音節的連接上必定有路徑上的限制；例如：假使該音節的韻母為發生合併現象的右相關爆破音韻母模型，則所連接的下個音節的聲母必定為發生合併現象的爆破音聲母模型等等...。同樣的這裡我們在辨識路徑上不留其它分數。

圖 3.13：RCD 模型辨識器連接

在文檔中自發性對話語音音節合併現象之分析及辨識改進 (頁 36-43)

使用多音節聲學模型對 MCDC 語料中音節合併現象做自動標示.28

第三章 考慮音節合併現象之自發性語音辨認器

3.3 針對合併現象建立相依音節模型

3.3.3 使用多音節聲學模型對 MCDC 語料中音節合併現象做自動標示.28

3.3.4.2 新增右相關韻母模型後之辨認器架構

第三章考慮音節合併現象之自發性語音辨認器