• 沒有找到結果。

考慮國語特徵之韻律模型建立

在文檔中 使用韻律模型的 (頁 34-40)

第三章 結合韻律模型的辨識系統

3.2 考慮國語特徵之韻律模型建立

現在回去看(3.4)式中的P(F|W),我們假設在給定詞串 W 的條件 下,每個對應於詞wj的fj是互相獨立,並且只有現在的詞wj會影響 fj的表現。這假設當然不完全對,但卻可幫助建立簡化但清楚的模 型。在以上假設下可得:

1 N

j j j

P F W =

= P f w (3.5)

到目前為止所提出之架構可應用於任何語言的辨識系統中,而從 次節 3.2.1 開始我們將針對國語的特性來計算P(fj|wj )。中文是單音 節 (monosyllable)語言,每個字(character)都有其意義,其發音為 單音節;而ㄧ個詞典詞(lexical word)由一到多個字(音節)所組成。

中文亦是聲調語言,每個單音節都會有一個聲調,國語中共有五種聲 調,其中有四個字調(lexical tone),以及一個輕聲(neutral)。本 論文的韻律模型是根據上述的國語基本特徵,以及第二章所述之韻律 結構而建立。

本論文研究的短程目標為提升字(character)或詞(word)的辨識 率,韻律單位與辨識單位相對應的直接相關的程度顯然是架構中由下 往上遞減。因此我們將以在第二章介紹之國語韻律架構中底部兩層 圖 3-1 本論文完整辨識流程。兩階段辨識系統,其中第一階段利用

基礎辨識系統產生詞圖,第二階段利用韻律模型重新估分詞圖上每 一條路徑。

(音節層與韻律詞層)作為出發點,做結合韻律訊息至語音辨識系統 中的初步嘗試。以此為基礎,自然可繼續發展以更大韻律單元為輔的 辨識系統。

3.2.1 韻律詞層(prosodic-word-level)模型

在文字上做語法、語義或文法分析時,詞典詞是基本的語法單 位;另外一方面,若做語流的韻律相關分析,操作的單位之ㄧ則為韻 律詞。在音系學(phonology)上的韻律詞又稱為 phonological word,

定義為在韻律階層(prosodic hierarchy)中介於韻律語

(phonological phrase)和音步(foot)1之間的單位[27]。本論文 則採用鄭氏在中文口語語流架構(參看圖 2-1 和表 2-1)中的定義:

韻律詞邊界的特徵是在知覺上語氣的變化而聽得出轉折的情形

[20];可看作為一組在語流中聯繫緊密的、經常連在一起發音的字或 音節。這些韻律詞伴隨了許多可幫助語音辨識的韻律訊息。

首先分析韻律詞與詞典詞之間的關係,可分為三類,圖 3-2 為以 下三種情形之圖解:

(1)韻律詞即詞典詞。

(2)一個韻律詞由多個短詞典詞所組成。

(3)一個韻律詞是一個長詞典詞的一部份。

第三種情形在語料中較少出現,故本論文中的方法僅考慮前兩種關 係。前兩種關係的存在可推論:韻律詞的邊界不會存在於詞典詞內 部;換句話說,詞典詞內部的音節邊界(syllable boundaries)都不

1 音步:音系學中最基本的節奏單位,一般來說包含幾個音節,其中有一個音節是帶有重音的。

[ref5]

1)

= 2)

3)

圖 3-2 韻律詞與詞典詞的關係。

屬於韻律詞邊界。

圖 3-3 提供了一個例子:假設現在有一個由五個詞典詞串成的例 句,其中詞wj由Lj個字(或音節)組成,代表有Lj個音節邊界,其 中有Lj-1個屬於詞典詞內部邊界,最後一個為詞典詞外部邊界。根據 以上推論,我們可以確定的是內部邊界不會是韻律詞邊界,但對於外 部邊界我們是無法確定的。所以我們針對詞典詞內部音節邊界,也就 是非韻律詞邊界的特性建立了韻律詞層模型。每個音節定義變數Bjk, 其中Bjk是詞wj的第k 個音節的結尾邊界,是一個隨機變數,其值b 可以是 0 或 1。Bjk =b 0,1b{ }Bjk等於 1 表示音節邊界即為韻律詞 邊界,Bjk等於 0 則代表音節邊界非韻律詞邊界:

1

1 1

| 0 , if 2

|

a given cons tan t, if 1

Lj

jk jk j

j j k

j

P f B L

P f w

L

⎪⎪

⎪⎩

= = ≥

=

=

(3.6)

其中Lj為第j 個詞典詞wj的長度,或說是總字數(總音節數);對 wj裡第 k個音節而言,fjk是對其後的音節邊界抽取的韻律特徵參數;

Tjk則是對應此音節的聲調種類。因為我們只確定內部邊界之特質,所 以只針對詞典詞內部的Lj-1個邊界計算條件機率,亦即在非韻律詞邊 界的條件下韻律特徵參數的機率P f

(

jk|Bjk =0

)

。若詞典詞長度為 1,即

PW1

LW1

LW1 LW2

LW1

圖 3-3 符號 wj,Lj,Bjk,fjk的使用定義。以詞串 W={w1, w2, w3, w4, w5}

為例,而每一個方塊代表一個音節。

為一字詞時,我們只給定一個常數值。此常數值可利用雙交叉驗證 (cross-validation)求出實驗的最佳值。

3.2.2 階層(hierarchical)模型

在第二種模型裡,我們捨棄了韻律詞邊界的特性,改而直接考慮 韻律特徵訊息與詞典詞邊界的關係。原因是在韻律詞層模型中,雖然 可把韻律詞邊界的因素考慮進來,但對於一字詞的狀況只能用給定一 常數值的方式做處理,有過於簡化之嫌。而若以已知的詞典詞當做條 件訊息,則每個音節邊界都能被考慮。

一段語句可被視為一連串的詞所組成,而每個詞有一到多個音 節,如圖 3-4 所示,可分解為兩層架構。在音節層(syllable level),

聲調是最主要影響韻律行為表現的因素。故我們爲每個音節定義隨機

圖 3-4 中文語音辨識的基本架構。一段語句可切分為幾個詞 典詞組合,而每個詞典詞由一到多個音節所組成。

變數Tjk =t,其值 1, 2, 3, 4, 5t{ },代表國語的五種聲調。這裡的下標 j,k 與前面相同,j 表示第j 個詞典詞wj,k為 wj中第k 個音節。第二層 為詞典詞層(lexical word level),而在這層影響韻律行為的因素乃 是音節與詞典詞的相對位置的關係,若身為詞典詞的最後一個音節,

則與右鄰的音節屬於不同詞的單位;反之,若位在詞內部的音節,其 與右鄰音節便屬於同一個詞單位。因此我們定義爲每個音節定義變數 Bjk =b 0,1b{ },與前面相同。Bjk等於 1 表示音節後即為詞邊界,

Bjk等於 0 則代表音節在詞內部,隨後仍接同一詞的音節。

我們把詞層的條件機率P(fj|wj )視為音節層的條件機率的乘積:

1

,

Lj

j j jk jk jk

k

P f w = P f T B

=

(3.7)

其中Lj為第j 個詞wj的長度,或說是總字數(總音節數);對wj裡 第k 個音節而言,fjk是對其後的音節邊界抽取的韻律特徵參數;Tjk 對應此音節的聲調種類;而Bjk則對應此音節後是否接詞邊界(Bjk=1 or 0)。圖 3-5 中為對於一個範例詞串W 的定義符號之圖解。

聲調(tone)是屬於國語特有的現象,這種現象可從備有聲調注釋

圖 3-5 符號 wj,Lj,Bjk,Tjk,fjk的使用定義。以詞串 W={w1, w2, w3, w4, w5}為例,而每一個方塊代表一個音節。

的詞典中查詢,故只要有一資料庫便可自動獲得,省卻了在第一章所 提需要人工標註的困擾。而詞邊界訊息也是有辨識出來的文字就可以 決定的位置。故本論文使用的韻律訊息皆不需要額外的人工標註。

在文檔中 使用韻律模型的 (頁 34-40)

相關文件