第三章 結合韻律模型的辨識系統
3.2 考慮國語特徵之韻律模型建立
現在回去看(3.4)式中的P(F|W),我們假設在給定詞串 W 的條件 下,每個對應於詞wj的fj是互相獨立,並且只有現在的詞wj會影響 fj的表現。這假設當然不完全對,但卻可幫助建立簡化但清楚的模 型。在以上假設下可得:
1 N
j j j
P F W⎛⎜⎝ ⎞⎟⎠=
∏
= P f w⎛⎜⎜⎝ ⎞⎟⎟⎠ (3.5)到目前為止所提出之架構可應用於任何語言的辨識系統中,而從 次節 3.2.1 開始我們將針對國語的特性來計算P(fj|wj )。中文是單音 節 (monosyllable)語言,每個字(character)都有其意義,其發音為 單音節;而ㄧ個詞典詞(lexical word)由一到多個字(音節)所組成。
中文亦是聲調語言,每個單音節都會有一個聲調,國語中共有五種聲 調,其中有四個字調(lexical tone),以及一個輕聲(neutral)。本 論文的韻律模型是根據上述的國語基本特徵,以及第二章所述之韻律 結構而建立。
本論文研究的短程目標為提升字(character)或詞(word)的辨識 率,韻律單位與辨識單位相對應的直接相關的程度顯然是架構中由下 往上遞減。因此我們將以在第二章介紹之國語韻律架構中底部兩層 圖 3-1 本論文完整辨識流程。兩階段辨識系統,其中第一階段利用
基礎辨識系統產生詞圖,第二階段利用韻律模型重新估分詞圖上每 一條路徑。
(音節層與韻律詞層)作為出發點,做結合韻律訊息至語音辨識系統 中的初步嘗試。以此為基礎,自然可繼續發展以更大韻律單元為輔的 辨識系統。
3.2.1 韻律詞層(prosodic-word-level)模型
在文字上做語法、語義或文法分析時,詞典詞是基本的語法單 位;另外一方面,若做語流的韻律相關分析,操作的單位之ㄧ則為韻 律詞。在音系學(phonology)上的韻律詞又稱為 phonological word,
定義為在韻律階層(prosodic hierarchy)中介於韻律語
(phonological phrase)和音步(foot)1之間的單位[27]。本論文 則採用鄭氏在中文口語語流架構(參看圖 2-1 和表 2-1)中的定義:
韻律詞邊界的特徵是在知覺上語氣的變化而聽得出轉折的情形
[20];可看作為一組在語流中聯繫緊密的、經常連在一起發音的字或 音節。這些韻律詞伴隨了許多可幫助語音辨識的韻律訊息。
首先分析韻律詞與詞典詞之間的關係,可分為三類,圖 3-2 為以 下三種情形之圖解:
(1)韻律詞即詞典詞。
(2)一個韻律詞由多個短詞典詞所組成。
(3)一個韻律詞是一個長詞典詞的一部份。
第三種情形在語料中較少出現,故本論文中的方法僅考慮前兩種關 係。前兩種關係的存在可推論:韻律詞的邊界不會存在於詞典詞內 部;換句話說,詞典詞內部的音節邊界(syllable boundaries)都不
1 音步:音系學中最基本的節奏單位,一般來說包含幾個音節,其中有一個音節是帶有重音的。
[ref5]
1)
= 2)
3)
圖 3-2 韻律詞與詞典詞的關係。
屬於韻律詞邊界。
圖 3-3 提供了一個例子:假設現在有一個由五個詞典詞串成的例 句,其中詞wj由Lj個字(或音節)組成,代表有Lj個音節邊界,其 中有Lj-1個屬於詞典詞內部邊界,最後一個為詞典詞外部邊界。根據 以上推論,我們可以確定的是內部邊界不會是韻律詞邊界,但對於外 部邊界我們是無法確定的。所以我們針對詞典詞內部音節邊界,也就 是非韻律詞邊界的特性建立了韻律詞層模型。每個音節定義變數Bjk, 其中Bjk是詞wj的第k 個音節的結尾邊界,是一個隨機變數,其值b 可以是 0 或 1。Bjk =b, 0,1b∈{ }。Bjk等於 1 表示音節邊界即為韻律詞 邊界,Bjk等於 0 則代表音節邊界非韻律詞邊界:
1
1 1
| 0 , if 2
|
a given cons tan t, if 1
Lj
jk jk j
j j k
j
P f B L
P f w
L
⎧⎪ ⎛ ⎞
⎪⎪
⎛ ⎞ ⎜ ⎟
⎝ ⎠
⎜ ⎟ ⎨
⎝ ⎠ ⎪
⎪⎪⎩
−
= = ≥
=
=
∏
(3.6)
其中Lj為第j 個詞典詞wj的長度,或說是總字數(總音節數);對 wj裡第 k個音節而言,fjk是對其後的音節邊界抽取的韻律特徵參數;
Tjk則是對應此音節的聲調種類。因為我們只確定內部邊界之特質,所 以只針對詞典詞內部的Lj-1個邊界計算條件機率,亦即在非韻律詞邊 界的條件下韻律特徵參數的機率P f
(
jk|Bjk =0)
。若詞典詞長度為 1,即PW1
LW1
LW1 LW2
LW1
圖 3-3 符號 wj,Lj,Bjk,fjk的使用定義。以詞串 W={w1, w2, w3, w4, w5}
為例,而每一個方塊代表一個音節。
為一字詞時,我們只給定一個常數值。此常數值可利用雙交叉驗證 (cross-validation)求出實驗的最佳值。
3.2.2 階層(hierarchical)模型
在第二種模型裡,我們捨棄了韻律詞邊界的特性,改而直接考慮 韻律特徵訊息與詞典詞邊界的關係。原因是在韻律詞層模型中,雖然 可把韻律詞邊界的因素考慮進來,但對於一字詞的狀況只能用給定一 常數值的方式做處理,有過於簡化之嫌。而若以已知的詞典詞當做條 件訊息,則每個音節邊界都能被考慮。
一段語句可被視為一連串的詞所組成,而每個詞有一到多個音 節,如圖 3-4 所示,可分解為兩層架構。在音節層(syllable level),
聲調是最主要影響韻律行為表現的因素。故我們爲每個音節定義隨機
圖 3-4 中文語音辨識的基本架構。一段語句可切分為幾個詞 典詞組合,而每個詞典詞由一到多個音節所組成。
變數Tjk =t,其值 1, 2, 3, 4, 5t∈{ },代表國語的五種聲調。這裡的下標 j,k 與前面相同,j 表示第j 個詞典詞wj,k為 wj中第k 個音節。第二層 為詞典詞層(lexical word level),而在這層影響韻律行為的因素乃 是音節與詞典詞的相對位置的關係,若身為詞典詞的最後一個音節,
則與右鄰的音節屬於不同詞的單位;反之,若位在詞內部的音節,其 與右鄰音節便屬於同一個詞單位。因此我們定義爲每個音節定義變數 Bjk =b, 0,1b∈{ },與前面相同。Bjk等於 1 表示音節後即為詞邊界,
Bjk等於 0 則代表音節在詞內部,隨後仍接同一詞的音節。
我們把詞層的條件機率P(fj|wj )視為音節層的條件機率的乘積:
1
,
Lj
j j jk jk jk
k
P f w⎛⎜⎜⎝ ⎞⎟⎟⎠ = P f T⎛⎜⎜⎝ B ⎞⎟⎟⎠
=
∏
(3.7)其中Lj為第j 個詞wj的長度,或說是總字數(總音節數);對wj裡 第k 個音節而言,fjk是對其後的音節邊界抽取的韻律特徵參數;Tjk 對應此音節的聲調種類;而Bjk則對應此音節後是否接詞邊界(Bjk=1 or 0)。圖 3-5 中為對於一個範例詞串W 的定義符號之圖解。
聲調(tone)是屬於國語特有的現象,這種現象可從備有聲調注釋
圖 3-5 符號 wj,Lj,Bjk,Tjk,fjk的使用定義。以詞串 W={w1, w2, w3, w4, w5}為例,而每一個方塊代表一個音節。
的詞典中查詢,故只要有一資料庫便可自動獲得,省卻了在第一章所 提需要人工標註的困擾。而詞邊界訊息也是有辨識出來的文字就可以 決定的位置。故本論文使用的韻律訊息皆不需要額外的人工標註。