考慮國語特徵之韻律模型建立

第三章結合韻律模型的辨識系統

3.2 考慮國語特徵之韻律模型建立

現在回去看(3.4)式中的P(F|W)，我們假設在給定詞串 W 的條件 下，每個對應於詞w^j的f^j是互相獨立，並且只有現在的詞w^j會影響 f^j的表現。這假設當然不完全對，但卻可幫助建立簡化但清楚的模型。在以上假設下可得：

1 N

j j j

P F W^⎛⎜⎝ ^⎞⎟⎠=

∏

= P f w^⎛⎜⎜⎝ ^⎞⎟⎟⎠ ^(3.5)

到目前為止所提出之架構可應用於任何語言的辨識系統中，而從次節 3.2.1 開始我們將針對國語的特性來計算P(f^j|w^j)。中文是單音節 (monosyllable)語言，每個字(character)都有其意義，其發音為單音節；而ㄧ個詞典詞(lexical word)由一到多個字（音節）所組成。

中文亦是聲調語言，每個單音節都會有一個聲調，國語中共有五種聲調，其中有四個字調(lexical tone)，以及一個輕聲（neutral）。本論文的韻律模型是根據上述的國語基本特徵，以及第二章所述之韻律結構而建立。

本論文研究的短程目標為提升字(character)或詞(word)的辨識率，韻律單位與辨識單位相對應的直接相關的程度顯然是架構中由下往上遞減。因此我們將以在第二章介紹之國語韻律架構中底部兩層圖 3-1 本論文完整辨識流程。兩階段辨識系統，其中第一階段利用

基礎辨識系統產生詞圖，第二階段利用韻律模型重新估分詞圖上每一條路徑。

（音節層與韻律詞層）作為出發點，做結合韻律訊息至語音辨識系統中的初步嘗試。以此為基礎，自然可繼續發展以更大韻律單元為輔的辨識系統。

3.2.1 韻律詞層(prosodic-word-level)模型

在文字上做語法、語義或文法分析時，詞典詞是基本的語法單位；另外一方面，若做語流的韻律相關分析，操作的單位之ㄧ則為韻律詞。在音系學（phonology）上的韻律詞又稱為 phonological word，

定義為在韻律階層（prosodic hierarchy）中介於韻律語

（phonological phrase）和音步（foot）¹之間的單位[27]。本論文則採用鄭氏在中文口語語流架構（參看圖 2-1 和表 2-1）中的定義：

韻律詞邊界的特徵是在知覺上語氣的變化而聽得出轉折的情形

[20]；可看作為一組在語流中聯繫緊密的、經常連在一起發音的字或音節。這些韻律詞伴隨了許多可幫助語音辨識的韻律訊息。

首先分析韻律詞與詞典詞之間的關係，可分為三類，圖 3-2 為以下三種情形之圖解：

(1)韻律詞即詞典詞。

(2)一個韻律詞由多個短詞典詞所組成。

(3)一個韻律詞是一個長詞典詞的一部份。

第三種情形在語料中較少出現，故本論文中的方法僅考慮前兩種關係。前兩種關係的存在可推論：韻律詞的邊界不會存在於詞典詞內部；換句話說，詞典詞內部的音節邊界(syllable boundaries)都不

1 音步：音系學中最基本的節奏單位，一般來說包含幾個音節，其中有一個音節是帶有重音的。

[ref5]

= 2)

圖 3-2 韻律詞與詞典詞的關係。

屬於韻律詞邊界。

圖 3-3 提供了一個例子：假設現在有一個由五個詞典詞串成的例句，其中詞w^j由L^j個字（或音節）組成，代表有L^j個音節邊界，其中有L^j-1個屬於詞典詞內部邊界，最後一個為詞典詞外部邊界。根據以上推論，我們可以確定的是內部邊界不會是韻律詞邊界，但對於外部邊界我們是無法確定的。所以我們針對詞典詞內部音節邊界，也就是非韻律詞邊界的特性建立了韻律詞層模型。每個音節定義變數B^jk，其中B^jk是詞w^j的第k 個音節的結尾邊界，是一個隨機變數，其值b 可以是 0 或 1。B_jk =b，^0,1^b^∈{ }^。^B^jk等於 1 表示音節邊界即為韻律詞邊界，B^jk等於 0 則代表音節邊界非韻律詞邊界：

1 1

| 0 , if 2

a given cons tan t, if 1

jk jk j

j j k

P f B L

P f w

⎧⎪ ⎛ ⎞

⎪⎪

⎛ ⎞ ⎜ ⎟

⎝ ⎠

⎜ ⎟ ⎨

⎝ ⎠ ⎪

⎪⎪⎩

−

= = ≥

∏

(3.6)

其中L_j為第j 個詞典詞w^j的長度，或說是總字數（總音節數）；對 w^j裡第 k個音節而言，f^jk是對其後的音節邊界抽取的韻律特徵參數；

T^jk則是對應此音節的聲調種類。因為我們只確定內部邊界之特質，所以只針對詞典詞內部的L^j-1個邊界計算條件機率，亦即在非韻律詞邊界的條件下韻律特徵參數的機率^{P f}

(

^jk^|^B^jk ⁼⁰

)

。若詞典詞長度為 1，即

PW1

LW1

LW1 LW2

LW1

圖 3-3 符號 w^j,L^j,B^jk,f^jk的使用定義。以詞串 W={w1, w2, w3, w4, w5}

為例，而每一個方塊代表一個音節。

為一字詞時，我們只給定一個常數值。此常數值可利用雙交叉驗證 (cross-validation)求出實驗的最佳值。

3.2.2 階層(hierarchical)模型

在第二種模型裡，我們捨棄了韻律詞邊界的特性，改而直接考慮韻律特徵訊息與詞典詞邊界的關係。原因是在韻律詞層模型中，雖然可把韻律詞邊界的因素考慮進來，但對於一字詞的狀況只能用給定一常數值的方式做處理，有過於簡化之嫌。而若以已知的詞典詞當做條件訊息，則每個音節邊界都能被考慮。

一段語句可被視為一連串的詞所組成，而每個詞有一到多個音節，如圖 3-4 所示，可分解為兩層架構。在音節層(syllable level)，

聲調是最主要影響韻律行為表現的因素。故我們爲每個音節定義隨機

圖 3-4 中文語音辨識的基本架構。一段語句可切分為幾個詞典詞組合，而每個詞典詞由一到多個音節所組成。

變數T_jk =t，其值 1, 2, 3, 4, 5t∈{ }，代表國語的五種聲調。這裡的下標 j,k 與前面相同，j 表示第j 個詞典詞w^j，k為 w^j中第k 個音節。第二層為詞典詞層(lexical word level)，而在這層影響韻律行為的因素乃是音節與詞典詞的相對位置的關係，若身為詞典詞的最後一個音節，

則與右鄰的音節屬於不同詞的單位；反之，若位在詞內部的音節，其與右鄰音節便屬於同一個詞單位。因此我們定義爲每個音節定義變數 Bjk =b，^0,1^b^∈{ }^{，與前面相同。}^B^jk等於 1 表示音節後即為詞邊界，

B^jk等於 0 則代表音節在詞內部，隨後仍接同一詞的音節。

我們把詞層的條件機率P(f^j|w^j)視為音節層的條件機率的乘積：

j j jk jk jk

P f w^⎛⎜⎜⎝ ^⎞⎟⎟⎠ = P f T^⎛^⎜⎜⎝ B ^⎞^⎟⎟⎠

∏

^(3.7)

其中L_j為第j 個詞w^j的長度，或說是總字數（總音節數）；對w^j裡第k 個音節而言，f^jk是對其後的音節邊界抽取的韻律特徵參數；T^jk 對應此音節的聲調種類；而B^jk則對應此音節後是否接詞邊界（B^jk=1 or 0）。圖 3-5 中為對於一個範例詞串W 的定義符號之圖解。

聲調(tone)是屬於國語特有的現象，這種現象可從備有聲調注釋

圖 3-5 符號 w^j,L^j,B^jk,T^jk,f^jk的使用定義。以詞串 W={w1, w2, w3, w4, w5}為例，而每一個方塊代表一個音節。

的詞典中查詢，故只要有一資料庫便可自動獲得，省卻了在第一章所提需要人工標註的困擾。而詞邊界訊息也是有辨識出來的文字就可以決定的位置。故本論文使用的韻律訊息皆不需要額外的人工標註。

在文檔中使用韻律模型的 (頁 34-40)

第三章 結合韻律模型的辨識系統

3.2 考慮國語特徵之韻律模型建立

∏

3.2.1 韻律詞層(prosodic-word-level)模型

∏

(

)

3.2.2 階層(hierarchical)模型

∏

第三章結合韻律模型的辨識系統