韻律型特徵

第三章結合韻律模型的辨識系統

3.3 韻律相關特徵參數之抽取

3.3.2 韻律型特徵

由於音高、音段時長與能量會隨著語者不同而有不同的高低(如男性與者較女性語者低)；而且隨著音節在句子內的位置不同，其數值也會受到影響(例如在句子結尾處的基頻會較在句子開始處的基頻來的低[3])，所以使用長段平均(long term average)來正規化。正規化可以合理地消除韻律短語層以上加諸在音節韻律特徵的影響。

3.3.2.1 音高相關參數

我們可把音高相關參數的計算分為五類，分別針對韻律的不同面向所設計：

（一）重設(reset)特徵：當語者在開始一個新的主要單元，譬如新

的主題或是新的一句話時，會重設音高。基於兩點理由，我們使用重設來捕捉韻律詞邊界。第一，音高重設與 B3（韻律短語層的間隔）以上的邊界相關，而任何 B3 以上邊界必然包含 B2（韻律詞層的間隔）邊界，因此當然為不可忽略之特徵；第二，我們把語者在開始一個新的韻律單元會重設音高的現象觀察視為宏觀的韻律特徵，而假設在更往韻律架構的下層，即韻律詞層，韻律詞的單元切換也有微觀的韻律重設之可能性。

（二）範圍(range)特徵：在[30]中音高範圍是識別五聲聲調的重要特徵之一。因此我們也採用此重要特徵，其中包括音節內音高的最大值減最小值，以及音節開頭與結尾的相差值。

（三）斜率(slope)特徵：考慮由聲調和邊界造成的音節內音高變化。

（四）連續(continuity)特徵：考慮跨過音節邊界斜率的變化。我們假設若是韻律單元的邊界間隔會有頻率軌跡不連續的現象。我們計算了邊界前後音節的平均斜率差、邊界前後各n 個音框的平均斜率差（n=3 或 5）來代表其連續性。

（五）形狀(shape)特徵：在聲調辨識的研究中，四次的離散勒氏多項式(Discrete Legendre Polynomia)為一組可代表一個音節的音高輪廓的參數[31]。假設音界內有 N+1 個音框，則音高輪廓可寫成四個基底函數的展開：

ˆ _j _j , 0

i i

f a i N

N φ N

⎛ ⎞ ⎛ ⎞

⎜ ⎟ ⎜ ⎟

⎝ ⎠=

∑

= ⋅ ⎝ ⎠ ≤ ≤ ^(3.9) 其中四個基底函數如(3.10)~(3.13)式所示：

0 i 1

φ ^⎛^⎜_⎜N^⎞^⎟_⎟

⎝ ⎠= ^(3.10)

( )

1/2

1 12 1

2 2

i N i

N N N

⎡ ⎤ ⎡ ⎤

⎛ ⎞ ⎢ ⎥ ⎢⎛ ⎞ ⎥

⎜ ⎟ ⎢ ⎥ ⎜ ⎟

⎜ ⎟ ⎢ ⎥ ⎢⎜ ⎟ ⎥

⎝ ⎠ ⎢⎣ ⎥⎦ ⎣⎝ ⎠ ⎦

= ⋅ −

(3.11)

( )( )( )

1/2 2

2 180 1

1 2 3 6

i N i i N

N N N N N N N

⎡ ⎤ ⎡ ⎤

⎛ ⎞ ⎢ ⎥ ⎢⎛ ⎞ ⎛ ⎞ ⎥

⎜ ⎟ ⎢ ⎥ ⎢⎜ ⎟ ⎜ ⎟ ⎥

⎝ ⎠ ⎝ ⎠ ⎝ ⎠

⎢ ⎥ ⎣ ⎦

⎣ ⎦

⋅ −

= − + + − + ⋅

(3.12)

( )( )( )( )( )

1/ 2 5

3 2800

1 2 2 3 4

i N

N N N N N N

⎡ ⎤

⎛ ⎞ ⎢ ⎥

⎜ ⎟ ⎢ ⎥

⎝ ⎠

⎢ ⎥

⎣ ⎦

= ⋅

− − + + +

( )( )

3 2 2

2 2

1 2 3 6 3 2

2 10 20

N N

i i N N i

N N N N N

⎡ ⎤

⎛ ⎞ ⎛ ⎞ ⎛ ⎞

⎢ ⎥

⋅⎢⎢⎜⎜⎝ ⎟⎟⎠ ⎜⎜⎝ ⎟⎟⎠ ⎜⎜⎝ ⎟⎟⎠ ⎥⎥

⎢ ⎥

⎣ ⎦

− −

− +

− + −

⋅ ⋅

(3.13)

而 a^j則是音高輪廓對各基底的投影：

1 1

j j

i i

a f

N N

N ^⎛^⎜_⎜ ^⎞^⎟_⎟ φ ^⎛^⎜_⎜ ^⎞^⎟_⎟

⎝ ⎠ ⎝ ⎠

= +

∑

= ⋅ ^(3.14) 因此參數a=[a⁰,，a¹， a²， a³]為用以表示音高輪廓的參數組。第一維代表平均高度，二三四維則分別代表輪廓的主要特徵。

3.3.2.2 長度相關參數

（一）暫停長度：為邊界間隔的重要線索。我們利用辨識器的輸出即可取出暫停長度。在我們所使用辨識器中，除了每個聲母韻母，

短暫暫停也會有一個隱藏馬可夫模型，辨識器的規則設定此模型可選擇性串接在音節間。若辨識結果中，音節邊界沒有暫停，

此值設為 0。

（二）音節時長：許多對英語的研究[32]曾發現位於語句終點位置音節長度會較長，位於短語或是子句終點位置的音節皆被拉長。

因此認為將語尾音段時長拉長可以提示句子或片語的界線，此

稱為界線前拉長效應（pre-boundary lengthening）的現象或是語尾拉長效果（utterance final lengthing effect），片語或句末的最後一個重音節會被拉長，以暗示一個語言單位區段的結束[3]。而在國語中也有類似現象，根據[19]的線性迴歸分析，導出各個韻律層的音節終止式模版(syllable-cadence templates)：在韻律詞層和韻律短語層皆有結尾倒數兩個音節時長拉長，並在韻律短語層的倒數第三個音節更有明顯時長縮短現象。因此我們考慮相鄰音節的時長比為重要特徵參數之一。

3.3.2.3 能量相關參數

強度在國語韻律架構中各層也有不同的分佈樣式[19]。在音節層與韻律詞層都有隨著時間逐漸衰落的趨勢，並且單位長度越長，初始能量需要越高。故我們考慮相鄰音節的音量差為重要特徵參數之一。

雖然能量特徵在訊噪比低的情況下缺乏強健性，但基於兩點理由本論文仍採納其相關參數：（一）即使能量特徵之強健性有待商榷，

但仍是語者與聽者會盡可能運用或取得的資料，其承載的韻律訊息值得分析（二）就算在噪音環境下，我們相信藉由正規化的技術應用可以獲得較有可信度之能量特徵。這也是往後研究方向之ㄧ

在文檔中使用韻律模型的 (頁 42-45)

第三章 結合韻律模型的辨識系統