第六章 高階音長模型的原理和數學說明
6.1 高階語言層次韻律訊息
6.1.3 音長訊息
一般而言,一段語句的最後一個字或是詞的最後一個字會比句中或詞中的字其音長要長 一些,這就是所謂的 Lengthening Effect。通常這些拉長的音節所代表的是類似停頓的功能,
以此方式來代表語意單位的結束。但是我們也可以觀察到並不是所有詞的最後一個音節皆會 發生 Lengthening Effect,一般認為,相同於其它韻律訊息,Lengthening Effect 比較容易發生 在語法片語和語句的最後一個字以及標點符號出現的地方。特別注意,因為不同的音節有不 同的基本音節之 Phonetic Structure 與不同的聲調,故僅觀察音節是無法絕對的觀察到 Lengthening Effect。因此,我們在觀察 Lengthening Effect 的時候必須要先將基本音節和聲調 對音長的影響去除掉,如此才能明確地觀察到高階語言層次韻律訊息中音長的 Lengthening Effect。
6.1.4 停頓 停頓 停頓訊 停頓 訊 訊 訊息 息 息 息
一般而言,人們在朗讀文章時於標點符號出現的地方會產生明顯的停頓,以表示另一個 語意段落的開始,然而在詞裡音節之間幾乎不會有停頓的發生,例如“行政院”的“行”和
“政”與“政”和“院”之間。停頓的發生一般在詞和詞之間才有機會,其有兩點原因,第 一是因為詞為最基本的語意單位;第二為語者為了能成功地傳遞訊息,因此會選擇在適當的 詞結束位置處做停頓。再者我們可以觀察到雖然詞是最基本的語意單位,但是在韻律上數個 詞可能連著一起唸,期間不會有停頓的發生,因而組成一個較大的韻律單元,我們稱之為韻 律詞。經過眾多語料的觀察,除了標點符號所對應的明顯停頓以外,在功能詞或是詞以及語 法片語的邊界處,也比較容易發生明顯的停頓。
6.2 高階音長模型的 高階音長模型的 高階音長模型的 高階音長模型的原理說明 原理說明 原理說明 原理說明
本節首先將對於漢語的語法和韻律結構做說明,而後觀察高階語言層次的音長軌跡現
象,最後呈現出各個高階語言層次音長韻律單位的音長軌跡示意圖。
6.2.1 漢語 漢語 漢語語法結 漢語 語法結 語法結 語法結構 構 構 構
對於漢語文句的語法結構方面,漢語文句之組成的最基本單位為字(Character),由一個 字到數個字不等組成最小的語意單位詞(Lexical Word),再由數個詞組成語法片語(Syntactic Phrase),接著由數個語法片語組成句子(Sentence),最後由數個句子組成文章。
6.2.2 漢語 漢語 漢語韻律結 漢語 韻律結 韻律結 韻律結構 構 構 構
對於漢語語句的韻律結構方面,漢語相對於其它語言為一字、一音、一調的特色,其韻 律架構是以音節(Syllable)為最基本的單位,由數個音節組成韻律詞(Prosodic Word),再由數 個韻律詞組成韻律片語(Prosodic Phrase),最後由數個韻律片語組成 Discourse。
6.2.3 高階語言層次階層音長軌跡現象 高階語言層次階層音長軌跡現象 高階語言層次階層音長軌跡現象 高階語言層次階層音長軌跡現象
我們由參考文獻[2、11、14]中所述與圖五.7、圖五.8和圖五.9的觀察可以知道,音長的 漢語語音階層韻律結構是以韻律詞為最基本單位,因此我們將圖五.5與圖五.7、圖五.8和圖 五.9去除掉 0B 和 1B 並且將B2 1− 和 2 2B − 結合為 2B ,以分別呈現出音長的漢語語音階層韻 律結構與對於高階語言層次的音長軌跡現象做進一步的觀察,如下的圖六.1與圖六.2、圖六.3 和圖六.4所示。
圖六.1:音長的漢語語音階層韻律結構。
4 B
4 B
4 B
MPPH
MIPPH B4
PW B2 PW B4
MIPPH 3
B
PW B3
4 B
PW
PW B2 B2
0 5 10 15 20 25 30 35
160 165 170 175 180 185 190
-0.15
1565 1570 1575 1580 1585 1590 之韻律單位的音長軌跡 Pattern,但是我們僅能夠明顯地觀察到 PW 的音長軌跡 Pattern,對於 MIPPH 和 MPPH 則較不易觀察出,因此我們將圖六.2、圖六.3和圖六.4依序去除掉 2B 與 3B , 分別如下的圖六.5、圖六.6和圖六.7與圖六.8、圖六.9和圖六.10所示。
0 5 10 15 20 25 30 35
160 165 170 175 180 185 190
-0.15
1565 1570 1575 1580 1585 1590
160 165 170 175 180 185 190
1565 1570 1575 1580 1585 1590
-0.15
我們將以數學模型來呈現出這些 Pattern,因此我們將 MPPH、MIPPH 和 PW 的音長軌跡 Pattern 示意圖繪出如圖六.11所示,並且以一句 13 個字的 MPPH 為例,繪出其和 MIPPH 與 PW 之 間的關係,如圖六.12所示。
圖六.11:漢語語音階層韻律單位之音長軌跡 Pattern 示意圖。(a).原始音長軌跡,
(b).MPPH 之音長軌跡 Pattern,(c). MIPPH 之音長軌跡 Pattern,(d). PW 之音長軌跡 Pattern。
時間
音長軌跡 MPPH
時間
音長軌跡 MIPPH MIPPH
音長軌跡 PW PW PW PW PW
時間
音長軌跡
3r sd
+
(a)
(b)
(c)
(d)
時間
+
+
圖六.12:一句 13 個字的 MPPH 與 MIPPH 和 PW 之間的關係圖。 料庫中 PW 的最大音節個數(Maximum Syllable Count, MSC),其中我們撰寫了程 式以找出每一個音節所屬的 PW 之長度和位置,並且得知MSCPW =15;
}
MIPPH MIPPH MIPPH
(MSC , 2),..., (MSC , MSC ) ,MSCMIPPH代表 MIPPH 的 MSC,其中我 們撰寫了程式以找出每一個音節所屬的 MIPPH 之長度和位置,並且得知
MIPPH
MSC =28;
˙γMPPHk n, 代表 MPPH 類型影響因素,MPPH∈
{
(1,1), (2,1), (2, 2),..., (MSCMPPH,1),MPPH MPPH MPPH
}
(MSC , 2),..., (MSC , MSC ) ,MSCMPPH 代表 MPPH 的 MSC,其中我
因此我們使用了最小平方誤差法則(Minimum Squared Error Criterion, MSEC),來推導出往後 的數學式和建立模型。
(PWk n, PW)
sd MIPPH MIPPH
sd MIPPH MIPPH
MIPPH MIPPH sd
γ
MIPPH MIPPH sd
γ δ γ γ
= = = =
⇒
∑∑
= =∑∑
− −(MIPPHk n, MIPPH)
δ =
, ,
sd MIPPH MIPPH
MIPPH if MIPPH MIPPH
k n if MIPPH MIPPH
sd MPPH MPPH
sd MPPH MPPH
MPPH MPPH sd
γ
MPPH MPPH sd
γ δ γ γ
sd MPPH MPPH
MPPH
其中 if MPPH MPPH
k n if MPPH MPPH
sd MIPPH MIPPH
MIPPH
{
(1,1), (2,1), (2, 2),..., (MSCMIPPH,1), (MSCMIPPH, 2),..., (MSCMIPPH, MSCMIPPH)}
(6.11)sd MPPH MPPH
MPPH
, ,
sd MIPPH MIPPH
MIPPH
sd MPPH MPPH
MPPH
的差之負值小於第i 次更新之Q''值乘上一個極小的數,我們令這個極小的數為10−7,如此便 符合收斂條件。”,其數學表示如下式所示:
( 1) ( ''( ) -− × Q i Q i''( -1))<Q i''( ) 10× −7 (6.18)
6.4.2.6 模型訓練的流程 模型訓練的流程 模型訓練的流程 模型訓練的流程
我們所採用的模型訓練流程為先更新γPW再更新γMIPPH最後更新γMPPH,而後再以上述的 (6.17)式更新Q''並且測試其是否符合上述的(6.18)式之收斂條件,如果符合便停止更新模型參 數,否則繼續更新模型參數直到符合收斂條件為止,我們將模型訓練的流程方塊圖繪出如圖 六.13所示。
圖六.13:高階音長模型的訓練流程方塊圖。
是,完成模 型的建立
否,重新訓 練模型 語音資料庫
(SD3)
MIPPH
γ 的初始值設定
γPW的初始值設定
γMPPH的初始值設定 ''
Q 的初始值計算
更新γMIPPH 更新γPW
更新γMPPH
是否符合收斂條件 更新Q''
第 第 第
第七 七 七 七章 章 章 高階 章 高階 高階音長模型的實驗結果 高階 音長模型的實驗結果 音長模型的實驗結果 音長模型的實驗結果 分析 分析
分析 分析
本章對於所建立的高階音長模型在符合收斂條件狀態下分析其參數,以觀察是否符合我 們所認知的語音特性,藉此來判斷所建立的模型是否正確,並且呈現出各個漢語語音階層韻 律結構的階層之高階音長軌跡 Pattern。
7.1 影響因素 影響因素 影響因素 影響因素
我們將在這一個小節中呈現出各個影響因素的值。
7.1.1 PW 類型 類型 類型 類型影響因素 影響因素 影響因素 影響因素
我們將γPW的值繪出如圖七.1到圖七.4所示。
0 2 4 6 8 10 12 14 16
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
PW聲聲
值(秒)
PW聲聲聲聲聲聲語值(第一~第一)
第一 第一 第一 第一
圖七.1:γPW的值(一字~四字)。
0 2 4 6 8 10 12 14 16 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
PW聲聲
值(秒)
PW聲聲聲聲聲聲語值(第一~八一)
第一 將一 七一 八一
圖七.2:γPW的值(五字~八字)。
0 2 4 6 8 10 12 14 16
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
PW聲聲
值(秒)
PW聲聲聲聲聲聲語值(九一~十第一)
九一 十一 十第一 十第一
圖七.3:γPW的值(九字~十二字)。
0 2 4 6 8 10 12 14 16 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
PW聲聲
值(秒)
PW聲聲聲聲聲聲語值(十第一~十第一)
十第一 十第一 十第一
圖七.4:γPW的值(十三字~十五字)。
7.1.1.1 實驗結果分析 實驗結果分析 實驗結果分析 實驗結果分析
我們由圖七.1到圖七.4可以觀察到 PW 的音長軌跡 Pattern,特別注意二字的 Pattern 為
“ˊ”,三字和四字的 Pattern 為“ˇ”,其確實如同我們於圖六.11中所述的形狀,而二字、
三字和四字的 Pattern 又可組成多字的 Pattern,因此模型所產生的γPW絕大部份是符合我們所 認知的語音特性。
7.1.2 MIPPH 類型 類型 類型影響因素 類型 影響因素 影響因素 影響因素
我們將γMIPPH的值繪出如圖七.5到圖七.11所示。
0 5 10 15 20 25 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
MIPPH聲聲
值(秒)
MIPPH聲聲聲聲聲聲語值(第一~第一)
第一 第一 第一 第一
圖七.5:γMIPPH的值(一字~四字)。
0 5 10 15 20 25
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
MIPPH聲聲
值(秒)
MIPPH聲聲聲聲聲聲語值(第一~八一)
第一 將一 七一 八一
圖七.6:γMIPPH的值(五字~八字)。
0 5 10 15 20 25 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
MIPPH聲聲
值(秒)
MIPPH聲聲聲聲聲聲語值(九一~十第一)
九一 十一 十第一 十第一
圖七.7:γMIPPH的值(九字~十二字)。
0 5 10 15 20 25
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
MIPPH聲聲
值(秒)
MIPPH聲聲聲聲聲聲語值(十第一~十將一)
十第一 十第一 十第一 十將一
圖七.8:γMIPPH的值(十三字~十六字)。
0 5 10 15 20 25 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
MIPPH聲聲
值(秒)
MIPPH聲聲聲聲聲聲語值(十七一~第十一)
十七一 十八一 十九一 第十一
圖七.9:γMIPPH的值(十七字~二十字)。
0 5 10 15 20 25
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
MIPPH聲聲
值(秒)
MIPPH聲聲聲聲聲聲語值(第十第一~第十第一)
第十第一 第十第一 第十第一 第十第一
圖七.10:γMIPPH的值(二十一字~二十四字)。
0 5 10 15 20 25 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
MIPPH聲聲
值(秒)
MIPPH聲聲聲聲聲聲語值(第十第一、第十八一)
第十第一 第十八一
圖七.11:γMIPPH的值(二十五字、二十八字)。
7.1.2.1 實驗結果分析 實驗結果分析 實驗結果分析 實驗結果分析
我們由圖七.5到圖七.11可以觀察到 MIPPH 的音長軌跡 Pattern,首先,我們的語料庫中 沒有二十六字和二十七字的 MIPPH 存在;再者,一字到十八字的 Pattern 確實如同我們於圖 六.11中所述的形狀,而十九字以上的 Pattern 則沒有固定的形狀,因此模型所產生的γMIPPH絕 大部份是符合我們所認知的語音特性。
7.1.3 MPPH 類型 類型 類型影響因素 類型 影響因素 影響因素 影響因素
我們將γMPPH的值繪出如圖七.12到圖七.26所示。
0 10 20 30 40 50 60 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(第一~第一)
第一 第一 第一 第一
圖七.12:γMPPH的值(一字~四字)。
0 10 20 30 40 50 60
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(第一~八一)
第一 將一 七一 八一
圖七.13:γMPPH的值(五字~八字)。
0 10 20 30 40 50 60 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(九一~十第一)
九一 十一 十第一 十第一
圖七.14:γMPPH的值(九字~十二字)。
0 10 20 30 40 50 60
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(十第一~十將一)
十第一 十第一 十第一 十將一
圖七.15:γMPPH的值(十三字~十六字)。
0 10 20 30 40 50 60 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(十七一~第十一)
十七一 十八一 十九一 第十一
圖七.16:γMPPH的值(十七字~二十字)。
0 10 20 30 40 50 60
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(第十第一~第十第一)
第十第一 第十第一 第十第一 第十第一
圖七.17:γMPPH的值(二十一字~二十四字)。
0 10 20 30 40 50 60 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(第十第一~第十八一)
第十第一 第十將一 第十七一 第十八一
圖七.18:γMPPH的值(二十五字~二十八字)。
0 10 20 30 40 50 60
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(第十九一~第十第一)
第十九一 第十一 第十第一 第十第一
圖七.19:γMPPH的值(二十九字~三十二字)。
0 10 20 30 40 50 60 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(第十第一~第十將一)
第十第一 第十第一 第十第一 第十將一
圖七.20:γMPPH的值(三十三字~三十六字)。
0 10 20 30 40 50 60
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(第十七一~第十一)
第十七一 第十八一 第十九一 第十一
圖七.21:γMPPH的值(三十七字~四十字)。
0 10 20 30 40 50 60 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(第十第一~第十第一)
第十第一 第十第一 第十第一 第十第一
圖七.22:γMPPH的值(四十一字~四十四字)。
0 10 20 30 40 50 60
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(第十第一~第十八一)
第十第一 第十將一 第十七一 第十八一
圖七.23:γMPPH的值(四十五字~四十八字)。
0 10 20 30 40 50 60 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(第十九一~第十第一)
第十九一 第十一 第十第一 第十第一
圖七.24:γMPPH的值(四十九字~五十二字)。
0 10 20 30 40 50 60
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(第十第一、第十九一、將十第一、將十第一)
第十第一 第十九一 將十第一 將十第一
圖七.25:γMPPH的值(五十四字、五十九字、六十一字、六十二字)。
0 10 20 30 40 50 60 -0.15
-0.1 -0.05 0 0.05 0.1 0.15
MPPH聲聲
值(秒)
MPPH聲聲聲聲聲聲語值(將十第一)
將十第一
圖七.26:γMPPH的值(六十三字)。
7.1.3.1 實驗結果分析 實驗結果分析 實驗結果分析 實驗結果分析
我們由圖七.12 到圖七.26 可以觀察到 MPPH 的音長軌跡 Pattern,首先,我們的語料庫 中沒有五十三字、五十五字到五十八字和六十字的 MPPH 存在;再者,一字到三十六字的 Pattern 有明顯固定的形狀,但是不同於我們在圖六.11 中所述在句尾會向上增長,其於句尾 會向下減短,而三十七字以上的 Pattern 則沒有固定的形狀,因此模型所產生的γMPPH絕大部 份是符合我們所認知的語音特性。
7.2 目標函數 目標函數 目標函數 目標函數
對於Q''我們將呈現出初始值、收斂值和更新曲線,以利於觀察對於模型之評估的平方 誤差是否隨著模型的收斂而降低。
7.2.1 初始值 初始值 初始值 初始值
我們將Q''的初始值呈現出如下:
'' 87.639( )
Q = 秒 2 (7.1)
7.2.2 收斂值 收斂值 收斂值 收斂值
我們將Q''的收斂值呈現出如下:
'' 84.684( )
Q = 秒 2 (7.2)
7.2.3 更新曲線 更新曲線 更新曲線 更新曲線
我們將Q''的更新曲線繪出如圖七.27所示:
0 2 4 6 8 10 12 14 16
84.5 85 85.5 86 86.5 87 87.5 88
更更更更 值(秒2)
目目目更Q"語更更之之之
圖七.27:目標函數Q''的更新曲線圖。
7.2.4 實驗結果分析 實驗結果分析 實驗結果分析 實驗結果分析
由以上所述,我們可以觀察到Q''是隨著模型的收斂而降低,此即代表了模型是朝著合 理的趨勢在收斂。
由以上所述,我們可以觀察到Q''是隨著模型的收斂而降低,此即代表了模型是朝著合 理的趨勢在收斂。