第五章 :實驗結果
5.5 韻律標記結果之分析
5.5.2 上層韻律單元內之變化情況
5%
14%
B0, B1 B2-1 B2-2 B2-3 B3, B4
BP, BPI, BPO 30%
40%
15%
4%
3%2%
5% B0
B1 B2-1 B3 B4 B2-2 B2-3
(a) (b)
圖5.24:(a) 所有音節邊界之停頓標記分布圖以及 (b)排除特殊音節邊界之停頓標記分布圖
5.5.2 上層韻律單元內之變化情況
如圖4.2 所定義之中文語音韻律階層式架構,有了停頓標記的狀況下,可將語音之韻律 分為各層級韻律單元之組合疊加,也就是PW、PPh 以及 BG/PG 對韻律之貢獻,首先表 5.3
7
在此語料庫中 B2-1、B2-2 以及 B2-3 出現之機率為 23%,而在朗讀式語音中為 22%;此語料庫出現 B2-1 之
15%,在朗讀式語音中為 10%;此語料庫出現 B2-2 之比率為 3%,在朗讀式語音中為 6%。
統計了各種韻律單元之音節長度,在此發現PG/BG 之長度較朗讀式語音短8【7】,在此推測 原因有二,其一為本研究設計之基本架構中包含特殊韻律單元,如圖4.2 所示,因此若原本 完整的PG/BG 單元很可能會被 Par 所隔開,分裂為兩個 PG/BG,因此造成 PG/BG 之長度較 短;其二為MCDC 語料為一自發性對話語料,語音很有可能因為對方的打斷或語者本身的 思考及遲疑產生長停頓,標示出B3 或 B4,形成一個短的 PG/BG,使語句較短,如圖 2.6 所 示。但在鄭秋豫博士之中文語音韻律階層式架構【20】中的定義,DM/PF 是扮演連接 PPh 的腳色,而本研究Par 大部分的組成份子為 DM/PF,所以 PPh 與 PW 大部分並不會為 Par 所 隔開,因此長度與朗讀式語音差不多。
表5.3:不同韻律單元之音節長度
PW PPh PG/BG
mean std mean std mean std 2.55 1.92 5.23 5.89 6.27 8.74
接著本研究利用扣除總體平均值、聲調以及基本音節型態AP 之基頻、音節長度以及能 量殘存值
sp2
n、sd 以及 33n se ,觀察 PW、PPh 以及 BG/PG 內韻律之變化,由於這些扣除音n 節層次AP 之殘存值包含 PW、PPh 以及 BG/PG 這些上層韻律狀態之貢獻,因此可將 PW、PPh 以及 BG/PG 仿效音節韻律模型之作法,首先將各個韻律單元依長度分類分類為 ( , )
PWn= i j (5-1) ( , )
PPhn= i j (5-2) / n ( , )
BG PG = i j (5-3) 分別代表音節
n
位於一個具有i 個音節之 PW、PPh 以及 BG/PG 的第 j 個位置,以表示各種 長度之韻律單元,且觀察不同韻律單元且不同長度之下之AP,定義如下:n n / n
r
n= n+ PW + PPh + BG PG
sp2 pm β β β
(5-4)3n nr PWn PPhn BG PG/ n
sd
=dm
+γ +γ +γ (5-5)3n nr PWn PPhn BG PG/ n
se
=em
+α +α +α (5-6)8
朗讀式語料中,PW 之平均長度為 2.80 個音節;PPh 之平均長度為 7.46 個音節:PG/BG 之平均長度為 16.85
個音節。
其中pm ,rn dm 和nr em 分別表示第nr
n
個音節扣除音節層次以及各韻律單元AP 的基頻軌跡、音節長度以及能量之殘存值,並且根據MMSE(Minimum Mean Square Error)法則訓練這三 個模型,使其誤差函數達到收斂,本研究定義之基頻軌跡、音節長度和音節能量之誤差函數 如下:
2
1 n n / n
N
p n PW PPh BG PG
n
E
=
=
∑
sp2 β− −β −β (5-7)(
/)
21
3 n n n
N
d n PW PPh BG PG
n
E sd γ γ γ
=
=
∑
− − − (5-8)(
/)
21
3 n n n
N
e n PW PPh BG PG
n
E se α α α
=
=
∑
− − − (5-9) 經由以上處理後,可獲得各種韻律單元在不同長度之下,基頻、音節長度以及能量之影響形 態,分別如圖5.25、5.26 以及 5.27 所示。首先觀察基頻在各種韻律單元以及不同長度的狀況下之AP,如圖 5.25 所示,發現在 PG/BG 這一層相較於朗讀式語音【7】由高至低的趨勢並不明顯,且動態範圍較朗讀式語音 小,其原因可能為PG/BG 被切割所致,造成其求取之 AP 不準確。而 PPh 以及 PW 這兩層 之趨勢皆是由高至低迅速下降,並無朗讀式語音中長的PPh 會有「升高-下降-維持-下降」
(rasing-falling-sustaining-falling)或長的 PW 會有「下降-維持-下降」(falling-sustaining-falling)
之趨勢,表示人類在自發性語音中,腦中構思(speech planning)與發音的過程(speech production)是同時進行,韻律的規劃是較為局部性且迅速的,相較於朗讀式語音較無長遠 之韻律規劃。
-0.15-0.1 -0.05 0 0.050.1 0.15
LogHz
PG/BG
-0.15-0.1 -0.050.050.150.10
LogHz
PPh
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 -0.15-0.1
-0.050.050.150.10
Length in syllable
LogHz
PW
圖5.25:各種韻律單元在不同長度下之基頻影響型態,顏色越深的線表示此種長度之韻律單 元數量越多
接著觀察音節長度在各種韻律單元以及不同長度的狀況下之AP,如圖 5.26 所示,發現 在PPh 及 PW 中,音節長度的趨勢皆為「起頭長-縮短-節尾拉長」和「起頭短-節尾拉長」,
再度證實人類會以句尾的拉長來表示一個PPh 以及 PW 的結束,且相較於朗讀式語音結尾音 節拉長之現象更為嚴重。而與朗讀式語音【7】相同的是,節尾拉長處皆位於 PPh 以及 PW 之倒數第三個音節開始發生,但在自發性語音當中倒數第三個音節並無發生音節縮短的現 象。
-0.02 0 0.02 0.04 0.06
sec
PG/BG
-0.02 0 0.02 0.04 0.06
sec
PPh
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 -0.02
0 0.02 0.04 0.06
Length in syllable
sec
PW
圖5.26:各種韻律單元在不同長度下之音節長度影響型態,顏色越深的線表示此種長度之韻 律單元數量越多
圖5.27 為能量在各種韻律單元以及不同長度的狀況下之 AP,發現在長的 PPh 會有「起 頭升高-下降-維持-下降」(rasing- falling-sustaining-falling)之趨勢,和朗讀式語音【7】之「下 降-維持-下降」(falling-sustaining-falling)相比,起頭會有一個能量加強的現象。此外短的 PPh 以及 PW 之趨勢則是由高至低迅速下降,相較於朗讀式語音【7】之 PW,節尾並無能量 拉高的現象。
-5 -3 -1 1 3 5
dB
PG/BG
-5 -3 -1 1 3 5
dB
PPh
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
-5 -3 -1 1 3 5
Length in syllable
dB
PW
圖5.27:各種韻律單元在不同長度下之能量影響型態,顏色越深的線表示此種長度之韻律單 元數量越多
最後利用PG/BG、PPh 以及 PW 之總殘餘誤差值,藉此觀察 PG/BG、PPh 以及 PW 與各 個影響因子對音節中韻律參數變化之貢獻大小,由表5.4 可以得知音節中基頻軌跡的變化貢 獻由大至小分別為:韻律狀態、PPh、包含連音現象之聲調、PG/BG 以及 PW;而對音節長 度的變化貢獻由大至小分別為:韻律狀態、基本音節型態、PW、包含連音現象之聲調、PPh 以及PG/BG;能量的變化貢獻由大至小分別為:韻律狀態、基本音節型態、包含連音現象之 聲調、PPh 、PG/BG 以及 PW。由此可知相較於音節層次之貢獻,基頻由 PW、PPh 這些韻 律上層之貢獻較大,而音節長度以及能量則是以音節層次之貢獻較大,在此PG/BG 之貢獻 非常小,可能是因為被Par 切割以致無法良好描述 PG/BG 之趨勢。
表5.4:不同組合之 AP 下之 TRE
Pitch Duration Energy APs TRE APs TRE APs TRE +Tone with
Coarticulation 90.61% +Tone with
Coarticulation 93.95% +Tone with
Coarticulation 94.27%
+Base Syllable 83.70% +Final 86.80%
+PW 88.84% +PW 74.20% +PW 84.57%
+PPh 78.51% +PPh 69.22% +PPh 79.12%
+PG/BG 75.68% +PG/BG 66.79% +PG/BG 76.24%
+Prsodic State 14.11% +Prsodic State 1.68% +Prsodic State 2.54%