第二章 文獻回顧
2.2 基於隱藏式馬可夫模型之語音合成
2.2.3 隱藏式馬可夫模型於語音參數之建模
2.2.3.2 基頻參數建模
在日常生活中,人們說話時因為聲帶振動使得空氣壓縮,因而產生了頻譜。
但是除了頻譜之外,也會產生另外一個資訊:基頻。由於在正常情況下,聲帶並 非持續的振動,故基頻並非一個連續不中斷的數值,如圖(六)所示:
圖(六):基頻圖示
圖(六)當中藍色線條即為基頻的數值,而在圖中每段基頻之間皆有一段不具
28
有數值的空缺便是聲帶沒有振動的情況,因此我們依基頻數值的有無將其區分 成具有數值的有聲區域(Voiced Region)與無數值的無聲區域(Unvoiced Region)。
因為基頻擁有上述之特性,使得一般離散(Discrete)或是連續之隱藏式馬可 夫模型難以應用至此一問題上。過去已有許多學者提出如何克服無聲區域的方 法[68]:(i)使用隨機產生的機率密度函數來替代無聲區域使其具有基頻之值,並 產生一數值較大的平方差使連續隱藏式馬可夫模型可適用於此一問題中[69];(ii) 將無聲區域的值以 0 替代,並代表無聲區域之 pdf 以混和模型加入原模型當中;
(iii)利用兩個基頻段落之間的結尾與開頭,將其延伸以補齊無聲區域的數值後便 可使用連續隱藏式馬可夫模型進行建模[70]。
在本章節中,我們將探討日本學者在 1999 年提出之基頻建模方法:多空間 機率分布之隱藏式馬可夫模型(Multi-Space Probability Distributions HMM,
MSD-HMM)[71]。
多空間機率分布
在語音辨識當中,我們常用高斯混合模型(Gaussian Mixture Model, GMM)來 模擬一個密度函數的分布,而多空間機率分布也使用了類似的概念。
我們假設有一空間分布Ω是由 G 個空間所組成,如式(39):
Ω = ⋃ Ω𝑔
𝐺
𝑔=1
(39)
其中Ω𝑔為一個𝑛𝑔維度的實域(real space)𝑅𝑛𝑔,且每個空間Ω𝑔皆有其出現之機 率值,即𝑃(Ω𝑔) = 𝑤𝑔,且∑𝐺𝑔=1𝑤𝑔 = 1。
29
如果維度𝑛𝑔 > 0,其空間皆存在一個機率分布函式𝑁𝑔(𝑥), 𝑥 ∈ 𝑅𝑛𝑔,且滿足
∫𝑅𝑛𝑔𝑁𝑔(𝑥) 𝑑𝑥 = 1 。 此 時 我 們 假 設 一 個 維 度 𝑛𝑔 = 0 之 空 間 僅 有 一 個 採 樣 點 (Sampling Point),因此,若𝑃(Ω)為 G 個空間Ω𝑔的機率總合,我們得到
𝑃(Ω) = ∑ 𝑃(Ω𝑔)
𝐺
𝑔=1
= ∑ 𝑤𝑔∫ 𝑁𝑔(𝑥) 𝑑𝑥
𝑅𝑛𝑔 𝐺
𝑔=1
= 1 (40)
此外,由於維度𝑛𝑔 = 0之空間僅有一個採樣點,故其𝑁𝑔(𝑥)並不存在,因此 我們定義在維度𝑛𝑔 = 0時,𝑁𝑔(𝑥) ≡ 1。
從上述內容,多空間機率分布便可以圖(七)所示。
圖(七):多空間機率分布
現在我們定義事件 E 為一個由連續隨機變數𝑥 ∈ 𝑅𝑛以及空間標記集合 X 所 組成的隨機變數 o,即
𝑜 = (𝑥, 𝑋) (41)
其中空間標記集合 X 內皆為 n 維度之空間。隨機變數 o 的觀察機率便可以
30
定義成式(42):
𝑏(𝑜) = ∑ 𝑤𝑔𝑁𝑔(𝑉(𝑜))
𝑔∈𝑆(𝑜)
(42) 其中𝑉(𝑜)與𝑆(𝑜)定義如下:
𝑉(𝑜) = 𝑥, 𝑆(𝑜) = 𝑋 (43) 從上述定義的機率分布當中,我們得知在多空間機率分布下,𝑛𝑔 ≡ 0以及 𝑛𝑔 ≡ 𝑚 > 0代表了離散分布與連續分布。此外,如果𝑆(𝑜) ≡ {1,2, ⋯ , 𝐺},其連續 分布將以一個 G 維的混和機率密度函數表示。因此,多空間機率分布便比離散 分布與連續分布來得更要具有彈性。
多空間機率分布之隱藏式馬可夫模型
本小節將探討多空間機率分布架構下的隱藏式馬可夫模型,其架構圖如圖
(八)所示。
圖(八):多空間機率分布之隱藏式馬可夫模型架構圖
假設目前我們有一個隱藏式馬可夫模型λ,其起始狀態機率𝜋 = {𝜋𝑗}𝑗=1𝑁 、狀
31
態轉移機率A = {𝑎𝑖𝑗}𝑖,𝑗=1𝑁 以及狀態之機率分布B = {𝑏𝑖(∙)}𝑖=1𝑁 ,其中狀態機率分布
即為前式(42),因此狀態轉移機率便可以下式(44)表示 𝑏𝑖(𝑜) = ∑ 𝑤𝑖𝑔𝑁𝑖𝑔(𝑉(𝑜))
𝑔∈𝑆(𝑜)
, 𝑖 = 1,2, ⋯ , 𝑁 (44)
在圖(八)中,每一個狀態 i 下有 G 個機率密度函數𝑁𝑖1(∙), 𝑁𝑖2(∙), ⋯ , 𝑁𝑖𝐺(∙),
其權重分別為𝑤𝑖1, 𝑤𝑖2, ⋯ , 𝑤𝑖𝐺,因此隱藏式馬可夫模型𝜆之觀察序列 O 之機率為:
𝑃(𝑂|𝜆) = ∑ ∏ 𝑎𝑞𝑡−1𝑞𝑡𝑏𝑞𝑡(𝑜𝑡)
𝑇
𝑡=1 𝑎𝑙𝑙 𝑞
= ∑ ∏ 𝑎𝑞𝑡−1𝑞𝑡𝑤𝑞𝑡𝑙𝑡𝑁𝑞𝑡𝑙𝑡(𝑉(𝑜𝑡))
𝑇
𝑡=1 𝑎𝑙𝑙 𝑞,𝑙
(45)
其中𝑞 = {𝑞1, 𝑞2, ⋯ , 𝑞𝑇}為可能的狀態序列,𝑙 = {𝑙1, 𝑙2, ⋯ , 𝑙𝑇} ∈ {𝑆(𝑜1) × 𝑆(𝑜2) ×
⋯ × 𝑆(𝑜𝑇)}為觀察序列 O 之可能的空間標記(space indices)序列。
其前向後向變數為與式(20)與(24)一致,故前向後向演算法(The
Forward-Backward Algorithm)可直接套用至此問題當中。
模型參數最佳化
與隱藏式馬可夫模型相同,本方法也會遇到模型參數最佳化之問題,在此,
我們定義一個輔助之函數𝑄(𝜆′, 𝜆),其中𝜆′、𝜆分別代表目前的參數與更新後的參
數。
𝑄(𝜆′, 𝜆) = ∑ 𝑃(𝑂, 𝑞, 𝑙|𝜆′) log 𝑃(𝑂, 𝑞, 𝑙|𝜆)
𝑎𝑙𝑙 𝑞,𝑙
(46)
32
而輔助函數 Q 滿足了以下三項定理:
定理 1:
𝑄(𝜆′, 𝜆) ≥ 𝑄(𝜆′, 𝜆′) → 𝑃(𝑂, 𝜆) ≥ 𝑃(𝑂, 𝜆′)
定理 2:若對於每個空間Ω𝑔,在𝑉(𝑜1), 𝑉(𝑜2), ⋯ , 𝑉(𝑜𝑇)當中共有𝑛𝑔 + 1個觀 察項(observations)3,其任意維度𝑛𝑔皆為互相線性獨立(linearly independent)時,則 參數集合λ之輔助函數𝑄(𝜆′, 𝜆)有一獨特的全域最大值(global maximum),且此最 大值即為該函數之極值。
定理 3:當參數集合λ為輔助函數𝑄(𝜆′, 𝜆)之極值時,其亦為機率式𝑃(𝑂|𝜆)之 極值。
利用上述之定理,參數更新問題即轉變成給予一個觀察序列 O 與模型𝜆′, 我們要找到一個模型λ使函數𝑄(𝜆′, 𝜆)有最大值。因此我們可將式(46)當中的 log 𝑃(𝑂, 𝑞, 𝑙|𝜆)改寫為
log 𝑃(𝑂, 𝑞, 𝑙|𝜆) = ∑(log 𝑎𝑞𝑡−1𝑞𝑡+ log 𝑤𝑞𝑡𝑙𝑡 + log 𝑁𝑞𝑡𝑙𝑡(𝑉(𝑜𝑡)))
𝑇
𝑡=1
(47)
所以式(46)可進一步改寫成式(48)
3因為包含維度為 0 之情況,故有𝑛𝑔+ 1種觀察項。
33
34
𝜉𝑡(𝑖, 𝑗) = 𝑃(𝑞𝑡 = 𝑖, 𝑞𝑡+1 = 𝑗|𝑂, 𝜆)
= 𝛼𝑡(𝑖)𝑎𝑖𝑗𝑏𝑗(𝑜𝑡+1)𝛽𝑡+1(𝑗)
∑𝑁𝑚=1∑𝑁𝑛=1𝛼𝑡(𝑚)𝑎𝑚𝑛𝑏𝑛(𝑜𝑡+1)𝛽𝑡+1(𝑛)
(55)
使用 MSDHMM 之基頻建模
在 MSDHMM 當中,其狀態 i 下有 G 個機率密度函數,其權重𝑤𝑖𝑔可視為一 時間音框下,其基頻為有聲區段或是無聲區段之機率;以物理上的角度來看,即 為該時間點下聲帶是否有振動的機率。對於有聲區段,通常我們使用維度為 1 的 高斯分布來描述其基頻分布,而無聲區段則是 MSDHMM 當中提到維度為 0 的 情況。
因此空間標記集合𝑆(𝑜𝑡)便由 G−1 個維度為 1 之有聲區間以及一個維度為 0 之無聲區間組成共 G 個空間之集合。