階層式韻律模型之訓練

第五章實驗結果與分析

5.2 階層式韻律模型之訓練

5.2.1 Break Syntax Model

Break syntax model 是根據多種語言參數將不同類的韻律邊界停頓作分類而得到一顆決策樹，其方法是利用 CART 演算法並搭配一個設計好的問題集(如附錄一)推導而出，決策樹中的每一個終止節點(leaf node)將存入每一類韻律邊界停頓的機率值，同時針對樹中的各非終止節點(nonterminal node)所問到的問題來分析其重要程度。

本研究所使用的韻律模型是利用 TCC300 中約十萬個音節來訓練而成，

下圖 5.2 及圖 5.3 就是訓練出來的決策樹架構，同時在利用 CART 演算法訓練韻律模型時還需要兩個基本設定如下所示：

設定一：決策樹中各終止節點(leaf node)內最小樣本數量(音節數量)必須大於 700。

設定二：訓練韻律模型過程中其相對相似度增益(relative likelihood gain)要大於 0.001。

圖 5.2：break syntax model 的決策樹架構

上圖 5.2 中每一個節點(node)裡代表 7 種韻律邊界停頓類型之分布圖(由左至右分別 為 B0, B1, B2-1, B2-2, B2-3, B3, B4)，H 則代表 Shannon entropy，用以評估韻律邊界停頓 類型分布之不確定性。

圖 5.3：圖 5.2 中 break syntax model 的決策樹架構更深層部分

觀察圖 5.2 的決策樹，從根節點(root node)開始往下生長，長的愈深就代表為了要預估出韻律邊界停頓所考慮的語言資訊就愈多，而韻律邊界停頓之機率分佈的 entropy 也愈來愈低；我們觀察這棵樹中最重要的兩種語言資訊分別是 PM 及 interword/intraword，

而樹中又分成三顆子樹：PM 子樹、interword 子樹及 intraword 子樹，其中 PM 子樹及 intraword 子樹的韻律邊界停頓之機率分佈的 entropy 隨著節點愈往下長其下降幅度愈大，也愈早到達 leaf node，從樹中我們不難發現在 PM 子樹中，根節點的韻律邊界停頓之機率分布大多集中在 B3、B4 等長停頓；反之在 intraword 子樹中則大多集中在 B0、

B1。而針對 interword 子樹而言，韻律邊界停頓之機率分佈的 entropy 就下降的緩慢許多，

而樹本身結構相較於其他兩顆子樹要複雜得多，也因此為了要使預估更精確，必須向下問更多重要問題，像是「右邊或左邊之特殊一字詞」，這是一個很重要的問題，與本研究想解決中文語音辨認上的一字詞易混淆及搶詞錯誤有很大的關連性，圖 5.3 就是針對 interword 子樹的更深層結構。

5.2.2 停頓聲學模型

在這部分的實驗，首先我們將各種停頓標記之下，決策樹根節點中各個參數的機率密度函數畫出，即不考慮語言參數之下各停頓標記之參數分佈，如圖 5.4。從圖 5.4 (a) 可以看出 B0 的停頓時長最短，接著 B1、B2-1、B2-3 的停頓時長次之且機率密度函數幾乎重疊在一起，B2-2、B3、B4 的停頓時長依序明顯增加。觀察圖 5.4 (b)、5.4 (c)，雖然正規化音節長度拉長現象不明顯，但還是可以看出主要分成兩個部分，B2-3、B3、

B4 的音節長度延長現象普遍會大於 B0、B1、B2-1、B2-2。圖 5.4 (d)是正規化音節間基頻差的分布，除了 B3、B4，B2-1 也表現出有明顯基頻差，B0、B1、B2-3 在正規化音節間基頻差則沒有大的鑑別度。從圖 5.4 (e)可看出韻律邊界停頓在音節間能量低點 (energy dip)上分布的情況，對照停頓時長分布來看，確實在有比較長停頓時長的音節邊界如 B2-2、B3、B4 來看，energy dip 會比停頓時長較短的邊界還來的低。

接下來將停頓聲學模型中七種韻律邊界停頓的決策樹結構之主要部分給畫出來，如圖 5.5 所示，一般來說，在韻律階層結構中，用來區分愈高階層韻律組成份子的韻律邊界停頓通常會具有較長的停頓時長 (pause duration) 、較低的音節間能量低點 (energy-dip)、較大的正規化基頻跳躍值(normalized pitch-level jump)、及較大的音節長度影響因子(duration lengthening factors)。對於每一種韻律邊界停頓來說，隨著決策樹長的愈深，代表需要更多語言資訊來預估停頓聲學參數，各節點中的相似度(likelihood)

( , , , , | _s, _p, _l)

Ppd ed pj dl dfϒ Λ Λ 便會增加，這意謂著語言參數確實能對於建立停頓聲學模型有一定的幫助、對預估停頓聲學參數更加準確。這裡值得注意的是，B4 決策樹的根節點並沒有向下分裂，因為在節點中各個停頓聲學參數的分佈相對均勻；另外針對 B3 及 B2-2 等 pause-related 韻律邊界停頓，用來分裂決策樹的問題會與較高階層的語法參數相關，

像是 PM 和 POS；相對地，B0、 B1、B2-1 及 B2-3 等 non-pause 韻律邊界停頓，用來分裂決策樹的問題會與較低階層的語言參數相關，像 interword/intraword 和 phonetic features。

(a) (b)

(c)

(e)

(d)

圖 5.4：(a)音節停頓長度 (b)正規化音節延長因子 1 (c)正規化音節延長因子 2 (d) 正規化基頻跳躍值之分布圖 (e)音節間能量低點

rB0 (1, 45, -0.039, -3, -7) rB1 (9, 40, -0.039, -17, -26)

i1 (1, 46, -0.035, 59, 97) i6 (1, 41, -0.048, -12, -34)

i2 (1, 44, 0.024, -6, -24) i7 (1, 41, -0.035, -14, -19)

i3 (1, 45, -0.048, -18, -32) i8 (1, 29, -0.061, -37, -56)

i4 (1, 45, -0.042, -9, -15) i9 (1, 29, -0.030, -54, -57)

i5 (1, 45, -0.038, 5, 7) i10 (8, 41, -0.042, -15, -19)

i11 (18, 41, -0.037, -12, -23)

rB2-1 (9, 42, 0.080, -2, 5) rB2-2 (55, 36, 0.000, 4,10)

i12 (1, 42, 0.081, 2, 6) i15 (55, 29, -0.024, 12, 3)

i13 (2, 42, 0.076, 3, 9) i16 (55, 37, 0.003, 3, 11)

i14 (20, 42, 0.083, -3, 2)

rB2-3 (7, 45, -0.039, 67, 79) rB3 (339, 19, 0.160, 52, 77)

i17 (1, 45, -0.045, 70, 92) i21 (360, 19, 0.178, 51, 78)

i18 (1, 45, -0.040, 64, 78) i22 (279, 20, 0.099, 57, 73)

i19 (19, 44, -0.040, 62, 62) i23 (279, 20, 0.123, 58, 76)

i20 (14, 44, -0.024, 70, 69) rB4 (642, 17, 0.227, 46, 53)

圖 5.5：停頓聲學模型針對 7 種韻律邊界停頓之決策樹架構

上圖 5.5 中實線(虛線)代表針對問提回答正確(錯誤)之走向；另外在每一個節點(node) 中的數字代表樣本數量及對樣本之平均相似度(括號中之數值)；對於每一個節點之統計 值以列表方式呈現在各決策樹之下，注意 r’s 代表每一種停頓類型的根節點(root node)，

表格中括號內的數值由左至右分別代表平均音節間停頓長度(pause duration)(ms)、音節間能量低點(energy-dip)大小(dB)、正規化之基頻跳躍(normalized pitch jump)(log-Hz)及兩種音節長度影響因子(duration lengthening factors )(ms)。

5.2.3 韻律狀態模型

圖 5.6 是針對在給定韻律邊界停頓的情況下之音節音高韻律狀態轉移機率

1 1

( _n| _n , _n )

P p p ₋ B₋ ，對於B0或B1，可以觀察到狀態轉移趨勢(high-to-low)，以及一次轉移的幅度幾乎都是nearby-state transitions，證明了在韻律詞(PW)內音節音高韻律狀態轉移是由高階緩慢下降的；對於B2-2而言，狀態轉移有兩種趨勢(high-to-low及low-to-high)；對於B2-1、B3、及B4而言，可以從它們的low-to-high狀態轉移趨勢裡發現到明顯的pitch reset 現象，這些現象通常會在跨越韻律詞(PW)、韻律短語(PPh)及呼吸組/韻律句組(BG/PG) 時發生，與這些明顯的reset現象相比，在B2-2條件下reset現象就不明顯；最後，B2-3的狀態轉移趨勢跟B0及B1非常類似，這代表了在音節拉長效應(duration lengthening)之後的韻律詞邊界裡沒有明顯的pitch reset。

圖 5.6：基於不同韻律邊界停頓類型之的音節音高韻律狀態轉移

上圖 5.6 中(a)是基於 B0、B1、B2-2 及 B2-3 之下；(b)則基於 B2-1、B3 及 B4 之下。

圖中每一個節點(node)代表韻律狀態的編號，編號愈大代表音節擁有較高的 log-F0 值，

同時圖中較深的線則代表較重要的狀態轉移。

在文檔中以韻律輔助之中文語音辨認系統之實現 (頁 54-60)

第五章 實驗結果與分析

5.2 階層式韻律模型之訓練

5.2.1 Break Syntax Model

5.2.2 停頓聲學模型

5.2.3 韻律狀態模型

第五章實驗結果與分析