第三章 結合韻律模型的辨識系統
3.3 韻律相關特徵參數之抽取
3.3.2 韻律型特徵
由於音高、音段時長與能量會隨著語者不同而有不同的高低(如 男性與者較女性語者低);而且隨著音節在句子內的位置不同,其數 值也會受到影響(例如在句子結尾處的基頻會較在句子開始處的基頻 來的低[3]),所以使用長段平均(long term average)來正規化。正 規化可以合理地消除韻律短語層以上加諸在音節韻律特徵的影響。
3.3.2.1 音高相關參數
我們可把音高相關參數的計算分為五類,分別針對韻律的不同面 向所設計:
(一) 重設(reset)特徵:當語者在開始一個新的主要單元,譬如新
的主題或是新的一句話時,會重設音高。基於兩點理由,我們 使用重設來捕捉韻律詞邊界。第一,音高重設與 B3(韻律短 語層的間隔)以上的邊界相關,而任何 B3 以上邊界必然包含 B2(韻律詞層的間隔)邊界,因此當然為不可忽略之特徵;第 二,我們把語者在開始一個新的韻律單元會重設音高的現象觀 察視為宏觀的韻律特徵,而假設在更往韻律架構的下層,即韻 律詞層,韻律詞的單元切換也有微觀的韻律重設之可能性。
(二) 範圍(range)特徵:在[30]中音高範圍是識別五聲聲調的重要 特徵之一。因此我們也採用此重要特徵,其中包括音節內音高 的最大值減最小值,以及音節開頭與結尾的相差值。
(三) 斜率(slope)特徵:考慮由聲調和邊界造成的音節內音高變化。
(四) 連續(continuity)特徵:考慮跨過音節邊界斜率的變化。我們 假設若是韻律單元的邊界間隔會有頻率軌跡不連續的現象。我 們計算了邊界前後音節的平均斜率差、邊界前後各n 個音框的 平均斜率差(n=3 或 5)來代表其連續性。
(五) 形狀(shape)特徵:在聲調辨識的研究中,四次的離散勒氏多 項式(Discrete Legendre Polynomia)為一組可代表一個音節 的音高輪廓的參數[31]。假設音界內有 N+1 個音框,則音高 輪廓可寫成四個基底函數的展開:
3
0
ˆ j j , 0
j
i i
f a i N
N φ N
⎛ ⎞ ⎛ ⎞
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎝ ⎠=
∑
= ⋅ ⎝ ⎠ ≤ ≤ (3.9) 其中四個基底函數如(3.10)~(3.13)式所示:0 i 1
φ ⎛⎜⎜N⎞⎟⎟
⎝ ⎠= (3.10)
( )
1/2
1 12 1
2 2
i N i
N N N
φ
⎡ ⎤ ⎡ ⎤
⎛ ⎞ ⎢ ⎥ ⎢⎛ ⎞ ⎥
⎜ ⎟ ⎢ ⎥ ⎜ ⎟
⎜ ⎟ ⎢ ⎥ ⎢⎜ ⎟ ⎥
⎝ ⎠ ⎢⎣ ⎥⎦ ⎣⎝ ⎠ ⎦
= ⋅ −
+
(3.11)
( )( )( )
1/2 2
3
2 180 1
1 2 3 6
i N i i N
N N N N N N N
φ
⎡ ⎤ ⎡ ⎤
⎛ ⎞ ⎢ ⎥ ⎢⎛ ⎞ ⎛ ⎞ ⎥
⎜ ⎟ ⎢ ⎥ ⎢⎜ ⎟ ⎜ ⎟ ⎥
⎜ ⎟ ⎢ ⎥ ⎢⎜ ⎟ ⎜ ⎟ ⎥
⎝ ⎠ ⎝ ⎠ ⎝ ⎠
⎢ ⎥ ⎣ ⎦
⎣ ⎦
⋅ −
= − + + − + ⋅
(3.12)
( )( )( )( )( )
1/ 2 5
3 2800
1 2 2 3 4
i N
N N N N N N
φ
⎡ ⎤
⎛ ⎞ ⎢ ⎥
⎜ ⎟ ⎢ ⎥
⎜ ⎟ ⎢ ⎥
⎝ ⎠
⎢ ⎥
⎣ ⎦
= ⋅
− − + + +
( )( )
3 2 2
2 2
1 2 3 6 3 2
2 10 20
N N
i i N N i
N N N N N
⎡ ⎤
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
⎢ ⎥
⋅⎢⎢⎜⎜⎝ ⎟⎟⎠ ⎜⎜⎝ ⎟⎟⎠ ⎜⎜⎝ ⎟⎟⎠ ⎥⎥
⎢ ⎥
⎣ ⎦
− −
− +
− + −
⋅ ⋅
(3.13)
而 aj則是音高輪廓對各基底的投影:
0
1 1
N
j j
i
i i
a f
N N
N ⎛⎜⎜ ⎞⎟⎟ φ ⎛⎜⎜ ⎞⎟⎟
⎝ ⎠ ⎝ ⎠
= +
∑
= ⋅ (3.14) 因此參數a=[a0,,a1, a2, a3]為用以表示音高輪廓的參數組。第一 維代表平均高度,二三四維則分別代表輪廓的主要特徵。3.3.2.2 長度相關參數
(一)暫停長度:為邊界間隔的重要線索。我們利用辨識器的輸出即 可取出暫停長度。在我們所使用辨識器中,除了每個聲母韻母,
短暫暫停也會有一個隱藏馬可夫模型,辨識器的規則設定此模 型可選擇性串接在音節間。若辨識結果中,音節邊界沒有暫停,
此值設為 0。
(二)音節時長:許多對英語的研究[32]曾發現位於語句終點位置音 節長度會較長,位於短語或是子句終點位置的音節皆被拉長。
因此認為將語尾音段時長拉長可以提示句子或片語的界線,此
稱為界線前拉長效應(pre-boundary lengthening)的現象或 是語尾拉長效果(utterance final lengthing effect),片語 或句末的最後一個重音節會被拉長,以暗示一個語言單位區段 的結束[3]。而在國語中也有類似現象,根據[19]的線性迴歸分 析,導出各個韻律層的音節終止式模版(syllable-cadence templates):在韻律詞層和韻律短語層皆有結尾倒數兩個音節 時長拉長,並在韻律短語層的倒數第三個音節更有明顯時長縮 短現象。因此我們考慮相鄰音節的時長比為重要特徵參數之一。
3.3.2.3 能量相關參數
強度在國語韻律架構中各層也有不同的分佈樣式[19]。在音節層 與韻律詞層都有隨著時間逐漸衰落的趨勢,並且單位長度越長,初始 能量需要越高。故我們考慮相鄰音節的音量差為重要特徵參數之一。
雖然能量特徵在訊噪比低的情況下缺乏強健性,但基於兩點理由 本論文仍採納其相關參數:(一)即使能量特徵之強健性有待商榷,
但仍是語者與聽者會盡可能運用或取得的資料,其承載的韻律訊息值 得分析(二)就算在噪音環境下,我們相信藉由正規化的技術應用可 以獲得較有可信度之能量特徵。這也是往後研究方向之ㄧ