基頻參數建模

第二章文獻回顧

2.2 基於隱藏式馬可夫模型之語音合成

2.2.3 隱藏式馬可夫模型於語音參數之建模

2.2.3.2 基頻參數建模

在日常生活中，人們說話時因為聲帶振動使得空氣壓縮，因而產生了頻譜。

但是除了頻譜之外，也會產生另外一個資訊：基頻。由於在正常情況下，聲帶並非持續的振動，故基頻並非一個連續不中斷的數值，如圖(六)所示：

圖(六)：基頻圖示

圖(六)當中藍色線條即為基頻的數值，而在圖中每段基頻之間皆有一段不具

有數值的空缺便是聲帶沒有振動的情況，因此我們依基頻數值的有無將其區分成具有數值的有聲區域(Voiced Region)與無數值的無聲區域(Unvoiced Region)。

因為基頻擁有上述之特性，使得一般離散(Discrete)或是連續之隱藏式馬可夫模型難以應用至此一問題上。過去已有許多學者提出如何克服無聲區域的方法[68]：(i)使用隨機產生的機率密度函數來替代無聲區域使其具有基頻之值，並產生一數值較大的平方差使連續隱藏式馬可夫模型可適用於此一問題中[69]；(ii) 將無聲區域的值以 0 替代，並代表無聲區域之 pdf 以混和模型加入原模型當中；

(iii)利用兩個基頻段落之間的結尾與開頭，將其延伸以補齊無聲區域的數值後便可使用連續隱藏式馬可夫模型進行建模[70]。

在本章節中，我們將探討日本學者在 1999 年提出之基頻建模方法：多空間機率分布之隱藏式馬可夫模型(Multi-Space Probability Distributions HMM,

MSD-HMM)[71]。

 多空間機率分布

在語音辨識當中，我們常用高斯混合模型(Gaussian Mixture Model, GMM)來模擬一個密度函數的分布，而多空間機率分布也使用了類似的概念。

我們假設有一空間分布Ω是由 G 個空間所組成，如式(39)：

Ω = ⋃ Ω_𝑔

𝐺

𝑔=1

(39)

其中Ω_𝑔為一個𝑛_𝑔維度的實域(real space)𝑅^𝑛^𝑔，且每個空間Ω_𝑔皆有其出現之機率值，即𝑃(Ω_𝑔) = 𝑤_𝑔，且∑^𝐺_𝑔=1𝑤_𝑔 = 1。

如果維度𝑛_𝑔 > 0，其空間皆存在一個機率分布函式𝑁_𝑔(𝑥), 𝑥 ∈ 𝑅^𝑛^𝑔，且滿足

∫_𝑅_𝑛𝑔𝑁_𝑔(𝑥) 𝑑𝑥 = 1 。此時我們假設一個維度 𝑛_𝑔 = 0 之空間僅有一個採樣點 (Sampling Point)，因此，若𝑃(Ω)為 G 個空間Ω_𝑔的機率總合，我們得到

𝑃(Ω) = ∑ 𝑃(Ω_𝑔)

𝐺

𝑔=1

= ∑ 𝑤_𝑔∫ 𝑁_𝑔(𝑥) 𝑑𝑥

𝑅^𝑛𝑔 𝐺

𝑔=1

= 1 (40)

此外，由於維度𝑛_𝑔 = 0之空間僅有一個採樣點，故其𝑁_𝑔(𝑥)並不存在，因此我們定義在維度𝑛_𝑔 = 0時，𝑁_𝑔(𝑥) ≡ 1。

從上述內容，多空間機率分布便可以圖(七)所示。

圖(七)：多空間機率分布

現在我們定義事件 E 為一個由連續隨機變數𝑥 ∈ 𝑅^𝑛以及空間標記集合 X 所 組成的隨機變數 o，即

𝑜 = (𝑥, 𝑋) (41)

其中空間標記集合 X 內皆為 n 維度之空間。隨機變數 o 的觀察機率便可以

定義成式(42)：

𝑏(𝑜) = ∑ 𝑤_𝑔𝑁_𝑔(𝑉(𝑜))

𝑔∈𝑆(𝑜)

(42) 其中𝑉(𝑜)與𝑆(𝑜)定義如下：

𝑉(𝑜) = 𝑥, 𝑆(𝑜) = 𝑋 (43) 從上述定義的機率分布當中，我們得知在多空間機率分布下，𝑛_𝑔 ≡ 0以及 𝑛_𝑔 ≡ 𝑚 > 0代表了離散分布與連續分布。此外，如果𝑆(𝑜) ≡ {1,2, ⋯ , 𝐺}，其連續 分布將以一個 G 維的混和機率密度函數表示。因此，多空間機率分布便比離散 分布與連續分布來得更要具有彈性。

 多空間機率分布之隱藏式馬可夫模型

本小節將探討多空間機率分布架構下的隱藏式馬可夫模型，其架構圖如圖

(八)所示。

圖(八)：多空間機率分布之隱藏式馬可夫模型架構圖

假設目前我們有一個隱藏式馬可夫模型λ，其起始狀態機率𝜋 = {𝜋_𝑗}_𝑗=1^𝑁 、狀

態轉移機率A = {𝑎_𝑖𝑗}_𝑖,𝑗=1^𝑁 以及狀態之機率分布B = {𝑏_𝑖(∙)}_𝑖=1^𝑁 ，其中狀態機率分布

即為前式(42)，因此狀態轉移機率便可以下式(44)表示 𝑏_𝑖(𝑜) = ∑ 𝑤_𝑖𝑔𝑁_𝑖𝑔(𝑉(𝑜))

𝑔∈𝑆(𝑜)

, 𝑖 = 1,2, ⋯ , 𝑁 (44)

在圖(八)中，每一個狀態 i 下有 G 個機率密度函數𝑁_𝑖1(∙), 𝑁_𝑖2(∙), ⋯ , 𝑁_𝑖𝐺(∙)，

其權重分別為𝑤_𝑖1, 𝑤_𝑖2, ⋯ , 𝑤_𝑖𝐺，因此隱藏式馬可夫模型𝜆之觀察序列 O 之機率為：

𝑃(𝑂|𝜆) = ∑ ∏ 𝑎_𝑞_𝑡−1_𝑞_𝑡𝑏_𝑞_𝑡(𝑜_𝑡)

𝑇

𝑡=1 𝑎𝑙𝑙 𝑞

= ∑ ∏ 𝑎_𝑞_𝑡−1_𝑞_𝑡𝑤_𝑞_𝑡_𝑙_𝑡𝑁_𝑞_𝑡_𝑙_𝑡(𝑉(𝑜_𝑡))

𝑇

𝑡=1 𝑎𝑙𝑙 𝑞,𝑙

(45)

其中𝑞 = {𝑞₁, 𝑞₂, ⋯ , 𝑞_𝑇}為可能的狀態序列，𝑙 = {𝑙₁, 𝑙₂, ⋯ , 𝑙_𝑇} ∈ {𝑆(𝑜₁) × 𝑆(𝑜₂) ×

⋯ × 𝑆(𝑜_𝑇)}為觀察序列 O 之可能的空間標記(space indices)序列。

其前向後向變數為與式(20)與(24)一致，故前向後向演算法(The

Forward-Backward Algorithm)可直接套用至此問題當中。

 模型參數最佳化

與隱藏式馬可夫模型相同，本方法也會遇到模型參數最佳化之問題，在此，

我們定義一個輔助之函數𝑄(𝜆^′, 𝜆)，其中𝜆^′、𝜆分別代表目前的參數與更新後的參

數。

𝑄(𝜆^′, 𝜆) = ∑ 𝑃(𝑂, 𝑞, 𝑙|𝜆^′) log 𝑃(𝑂, 𝑞, 𝑙|𝜆)

𝑎𝑙𝑙 𝑞,𝑙

(46)

而輔助函數 Q 滿足了以下三項定理：

定理 1：

𝑄(𝜆^′, 𝜆) ≥ 𝑄(𝜆^′, 𝜆^′) → 𝑃(𝑂, 𝜆) ≥ 𝑃(𝑂, 𝜆^′)

定理 2：若對於每個空間Ω_𝑔，在𝑉(𝑜₁), 𝑉(𝑜₂), ⋯ , 𝑉(𝑜_𝑇)當中共有𝑛_𝑔 + 1個觀察項(observations)³，其任意維度𝑛_𝑔皆為互相線性獨立(linearly independent)時，則參數集合λ之輔助函數𝑄(𝜆^′, 𝜆)有一獨特的全域最大值(global maximum)，且此最大值即為該函數之極值。

定理 3：當參數集合λ為輔助函數𝑄(𝜆^′, 𝜆)之極值時，其亦為機率式𝑃(𝑂|𝜆)之極值。

利用上述之定理，參數更新問題即轉變成給予一個觀察序列 O 與模型𝜆^′，我們要找到一個模型λ使函數𝑄(𝜆^′, 𝜆)有最大值。因此我們可將式(46)當中的 log 𝑃(𝑂, 𝑞, 𝑙|𝜆)改寫為

log 𝑃(𝑂, 𝑞, 𝑙|𝜆) = ∑(log 𝑎_𝑞_𝑡−1_𝑞_𝑡+ log 𝑤_𝑞_𝑡_𝑙_𝑡 + log 𝑁_𝑞_𝑡_𝑙_𝑡(𝑉(𝑜_𝑡)))

𝑇

𝑡=1

(47)

所以式(46)可進一步改寫成式(48)

3因為包含維度為 0 之情況，故有𝑛_𝑔+ 1種觀察項。

𝜉_𝑡(𝑖, 𝑗) = 𝑃(𝑞_𝑡 = 𝑖, 𝑞_𝑡+1 = 𝑗|𝑂, 𝜆)

= 𝛼_𝑡(𝑖)𝑎_𝑖𝑗𝑏_𝑗(𝑜_𝑡+1)𝛽_𝑡+1(𝑗)

∑^𝑁_𝑚=1∑^𝑁_𝑛=1𝛼_𝑡(𝑚)𝑎_𝑚𝑛𝑏_𝑛(𝑜_𝑡+1)𝛽_𝑡+1(𝑛)

(55)

 使用 MSDHMM 之基頻建模

在 MSDHMM 當中，其狀態 i 下有 G 個機率密度函數，其權重𝑤_𝑖𝑔可視為一時間音框下，其基頻為有聲區段或是無聲區段之機率；以物理上的角度來看，即為該時間點下聲帶是否有振動的機率。對於有聲區段，通常我們使用維度為 1 的高斯分布來描述其基頻分布，而無聲區段則是 MSDHMM 當中提到維度為 0 的情況。

因此空間標記集合𝑆(𝑜_𝑡)便由 G−1 個維度為 1 之有聲區間以及一個維度為 0 之無聲區間組成共 G 個空間之集合。

在文檔中改善豐富文脈模型於中文語音合成之研究 (頁 33-40)

第二章 文獻回顧

2.2 基於隱藏式馬可夫模型之語音合成

2.2.3 隱藏式馬可夫模型於語音參數之建模

2.2.3.2 基頻參數建模

第二章文獻回顧