• 沒有找到結果。

韻律型特徵

在文檔中 使用韻律模型的 (頁 42-45)

第三章 結合韻律模型的辨識系統

3.3 韻律相關特徵參數之抽取

3.3.2 韻律型特徵

由於音高、音段時長與能量會隨著語者不同而有不同的高低(如 男性與者較女性語者低);而且隨著音節在句子內的位置不同,其數 值也會受到影響(例如在句子結尾處的基頻會較在句子開始處的基頻 來的低[3]),所以使用長段平均(long term average)來正規化。正 規化可以合理地消除韻律短語層以上加諸在音節韻律特徵的影響。

3.3.2.1 音高相關參數

我們可把音高相關參數的計算分為五類,分別針對韻律的不同面 向所設計:

(一) 重設(reset)特徵:當語者在開始一個新的主要單元,譬如新

的主題或是新的一句話時,會重設音高。基於兩點理由,我們 使用重設來捕捉韻律詞邊界。第一,音高重設與 B3(韻律短 語層的間隔)以上的邊界相關,而任何 B3 以上邊界必然包含 B2(韻律詞層的間隔)邊界,因此當然為不可忽略之特徵;第 二,我們把語者在開始一個新的韻律單元會重設音高的現象觀 察視為宏觀的韻律特徵,而假設在更往韻律架構的下層,即韻 律詞層,韻律詞的單元切換也有微觀的韻律重設之可能性。

(二) 範圍(range)特徵:在[30]中音高範圍是識別五聲聲調的重要 特徵之一。因此我們也採用此重要特徵,其中包括音節內音高 的最大值減最小值,以及音節開頭與結尾的相差值。

(三) 斜率(slope)特徵:考慮由聲調和邊界造成的音節內音高變化。

(四) 連續(continuity)特徵:考慮跨過音節邊界斜率的變化。我們 假設若是韻律單元的邊界間隔會有頻率軌跡不連續的現象。我 們計算了邊界前後音節的平均斜率差、邊界前後各n 個音框的 平均斜率差(n=3 或 5)來代表其連續性。

(五) 形狀(shape)特徵:在聲調辨識的研究中,四次的離散勒氏多 項式(Discrete Legendre Polynomia)為一組可代表一個音節 的音高輪廓的參數[31]。假設音界內有 N+1 個音框,則音高 輪廓可寫成四個基底函數的展開:

3

0

ˆ j j , 0

j

i i

f a i N

N φ N

=

= ≤ ≤ (3.9) 其中四個基底函數如(3.10)~(3.13)式所示:

0 i 1

φ N

= (3.10)

( )

1/2

1 12 1

2 2

i N i

N N N

φ

= ⋅ −

+

(3.11)

( )( )( )

1/2 2

3

2 180 1

1 2 3 6

i N i i N

N N N N N N N

φ

⋅ −

= − + + − + ⋅

(3.12)

( )( )( )( )( )

1/ 2 5

3 2800

1 2 2 3 4

i N

N N N N N N

φ

= ⋅

− − + + +

( )( )

3 2 2

2 2

1 2 3 6 3 2

2 10 20

N N

i i N N i

N N N N N

− −

− +

− + −

⋅ ⋅

(3.13)

而 aj則是音高輪廓對各基底的投影:

0

1 1

N

j j

i

i i

a f

N N

N φ

= +

= (3.14) 因此參數a=[a0,,a1, a2, a3]為用以表示音高輪廓的參數組。第一 維代表平均高度,二三四維則分別代表輪廓的主要特徵。

3.3.2.2 長度相關參數

(一)暫停長度:為邊界間隔的重要線索。我們利用辨識器的輸出即 可取出暫停長度。在我們所使用辨識器中,除了每個聲母韻母,

短暫暫停也會有一個隱藏馬可夫模型,辨識器的規則設定此模 型可選擇性串接在音節間。若辨識結果中,音節邊界沒有暫停,

此值設為 0。

(二)音節時長:許多對英語的研究[32]曾發現位於語句終點位置音 節長度會較長,位於短語或是子句終點位置的音節皆被拉長。

因此認為將語尾音段時長拉長可以提示句子或片語的界線,此

稱為界線前拉長效應(pre-boundary lengthening)的現象或 是語尾拉長效果(utterance final lengthing effect),片語 或句末的最後一個重音節會被拉長,以暗示一個語言單位區段 的結束[3]。而在國語中也有類似現象,根據[19]的線性迴歸分 析,導出各個韻律層的音節終止式模版(syllable-cadence templates):在韻律詞層和韻律短語層皆有結尾倒數兩個音節 時長拉長,並在韻律短語層的倒數第三個音節更有明顯時長縮 短現象。因此我們考慮相鄰音節的時長比為重要特徵參數之一。

3.3.2.3 能量相關參數

強度在國語韻律架構中各層也有不同的分佈樣式[19]。在音節層 與韻律詞層都有隨著時間逐漸衰落的趨勢,並且單位長度越長,初始 能量需要越高。故我們考慮相鄰音節的音量差為重要特徵參數之一。

雖然能量特徵在訊噪比低的情況下缺乏強健性,但基於兩點理由 本論文仍採納其相關參數:(一)即使能量特徵之強健性有待商榷,

但仍是語者與聽者會盡可能運用或取得的資料,其承載的韻律訊息值 得分析(二)就算在噪音環境下,我們相信藉由正規化的技術應用可 以獲得較有可信度之能量特徵。這也是往後研究方向之ㄧ

在文檔中 使用韻律模型的 (頁 42-45)

相關文件