音節間連音狀態自動標記模型研究

(1)

國立交通大學

電信工程學系

碩士論文

音節間連音狀態自動標記模型研究

A Study on Auto-Labeling Model for Coarticulation

State between Syllables

研究生：陳慶安

指導教授：陳信宏

博士

(2)

音節間連音狀態自動標記模型研究

A Study on Auto-Labeling Model for Coarticulation

States between Syllables

研究生：陳慶安 Student：Ching-An Chen

指導教授：陳信宏博士 Advisor：Dr. Sin-Horng Chen

國立交通大學電信工程學系

碩士論文

A Thesis

Submitted to Departmant of Communication Engineering College of Electrical and Computer Engineering

National Chiao Tung University in Partial Fulfillment of the Requirements

for the Degree of Master of Science in Communication Engineering

August 2008

Hsinchu, Taiwan, Republic of China

(3)

音節間連音狀態自動標記模型研究

研究生：陳慶安指導教授：陳信宏

博士

國立交通大學電信工程學系碩士班

中文摘要

隨著計算機之運算速度及記憶體容量的加快與增大，以大型語料庫為基礎之語音合成系統已成為目前最普遍且品質最好的語音合成系統，其方法是先輸入欲合成之文字後，再經過分析得到語言參數，接著在大型語料庫中依據所得到之語言參數找到對應之候選合成單元組，最後透過語音合成器挑選出最合適的單元組進行串接以得到合成語音。然而在單元選取時，常因為所挑選的單元與目標句之前後文字不同亦或因為合成單元本身受到連音效應影響等因素而造成合成語音在聽覺上之不適。為了改善這些缺點，在本文中我們提出利用頻譜參數來建構音節頻譜模型並同時標記出中文語料庫中音節間連音狀態。在模型中，我們考慮了三種影響音節頻譜之因素：基本音節類型，前、後音節類型和其音節間之連音程度，我們假設這些影響因素獨立且有加成性，在重複訓練後模型之影響因素能夠有不錯的學習效果，除此之外由模型標記之頻譜連音狀態在韻律參數以及語言參數上也能有合理的解釋。此方法在未來可以應用在語音合成系統中單元挑選的部份來幫助提升合成語音的品質。

(4)

A Study on Auto-Labeling Model for Coarticulation State

between Syllables

Student：Ching-An Chen Advisor：Dr. Sin-Horng Chen

Department of Communication Engineering

National Chiao Tung University

Abstract

As the computation power and the memory capacity increase, the corpus-base speech synthesis system has become the best and most popular speech synthesis system. Based on the system, the linguistic features are first derived after the text is parsed, then some appropriate units are selected as candidates. Finally, the well-pronounced speech is synthesized by concatenating the best unit sequence by the synthesizer part of system. In the unit selection process, the smooth-less places of synthesized speech usually caused by choosing the units which have different context with target units, or because the coarticulation effecting influencing. In this paper, to solve these problems, we use MFCC features to construct syllable spectral model and labeling coarticulation state between syllables in Chinese corpus at the same time. In this model, we have considered the three kinds of affecting factors with syllable spectral: the basic syllable type of current syllable, the coarticulation affecting from previous and following syllable, we assume that these three factors are independent and additive. After well-training, the affecting factor patterns could have good performance in model learning, besides the updated coarticulation states have reasonable explanation by prosody features and linguistic features. This method can improve the performance of synthesized speech by apply to unit selection process of using TTS system.

(5)

目錄

中文摘要... I 英文摘要...II 目錄... III 表目錄...V 圖目錄... VI 第一章緒論...1 1.1 研究動機...1 1.2 研究方向...1 1.3 章節概要說明...2 第二章合成單元之選取...3 2.1 影響合成品質之因素...3 2.2 文獻回顧...3 2.2.1 依據決策樹挑選...4 2.2.2 依據 Cost Function 挑選...4 第三章音節模型的訓練和數學說明...5 3.1 語料庫簡介...5 3.2 音節參數表示...5 3.3 音節模型的原理...6 3.4 音節類型、Final-Initial pair、連音狀態的種類設定 ...8 3.4.1 音節類型：...8 3.4.2 Final-Initial pair 類型： ...8 3.4.3 連音狀態類型：...10 3.5 音節模型數學式...18

(6)

3.6 各影響因素的初始值：...20 3.7 各影響因素的更新值：...22 3.8 更新標記音節間連音狀態數學式...24 第四章音節模型實驗結果與分析...27 4.1 初始影響因素之分析...28 4.1.1 初始連音狀態對頻譜參數影響分析...28 4.1.2 不同連音狀態種類影響之程度分析：...29 4.2 模型收斂後影響因素之分析...35 4.2.1 不同連音狀態種類影響之程度分析：...37 4.3 連音狀態之分析...41 4.3.1 韻律、頻譜連音狀態之比較：...41 4.3.2 Break Type 與頻譜連音狀態之分析 ...44 4.3.3 音節長度與頻譜連音狀態之分析...45 4.3.4 頻譜連音狀態與決策樹分析...45 第五章：結論與未來展望...52 參考文獻...53 附錄音節類型與注音對照表...54

(7)

表目錄

表3.1：錄音軟硬體格式表...5 表3.2：音節類型分類表...8 表3.3：韻母分類表，依照發音特性分成 17 類...9 表3.4：聲母分類表，依照發音特性分成 7 類...10 表3.5：空聲母分類表，依照發音特性分成 7 類...10 表3.6：Break Type 與韻律連音狀態對照表 ...17 表4.1：Break Type 與頻譜連音狀態對應表 ...44 表4.2：正規化音長與頻譜連音狀態對應表...45

(8)

圖目錄

圖3.1：音節 state 切割位置示意圖 ...6 圖3.2：音節模型示意圖...7 圖3.3：相關韻律資訊示意圖...11 圖3.4：Break Type 分類決策樹示意圖 ...12 圖3.5：相關 pause-duration pdfs 求取流程圖...13

圖3.6：相關 normalized pitch jump pdfs 求取流程圖 ...15

圖3.7：相關 energy-dip pdfs 求取流程圖 ...16

圖3.8：漢語語音階層韻律結構圖...16

圖3.9：音節模型之訓練流程圖...24

圖4.1：Residual Variance 之比較圖 ...28

圖4.2：Residual Variance 之比較圖 ...29

圖4.3：連音狀態為C1時Residual Variance V1 與 V2 前 3 states 之比較圖 ...30

圖4.6：連音狀態為C1時Residual Variance V1 與 V2 後 5 states 之比較圖 ...32

圖4.9：log-likelihood 值Q 之更新曲線...35

圖4.10： Residual Variance V2 之比較圖 ...36

(9)

圖4.17：韻律連音狀態之 Energy-dip discrete probability 分佈圖...42

圖4.18：頻譜連音狀態之 Energy-dip discrete probability 分佈圖...42

圖4.19：韻律連音狀態之 Pause-duration discrete probability 分佈圖...43

圖4.20：頻譜連音狀態之 Pause-duration discrete probability 分佈圖...43

圖4.21：決策樹分列式意圖...47

(10)

第一章

緒論

1.1 研究動機

人和人之間的溝通是透過說與聽來達到資訊的交流，而現在的電腦技術也已經朝不需透過鍵盤及滑鼠來操作的目標發展，而在現今的技術中語音合成和語音辨識的研究就是讓人和機器也可以透過最自然說與聽的方式來溝通。文字轉語音合成 (Text-to-Speech Synthesis, TTS)是一種普遍被使用的語音合成技術。而交通大學語音實驗室近年來已發展以大型語料庫為基礎的中文文字轉語音合成系統（Corpus-based Mandarin TTS System），此論文的動機便是希望能夠將所提出的方法應用在上面，來提高合成語音的品質。

1.2 研究方向

在TTS 系統中，選取合成單元時常使用到 Cost Function 或是 Decision Tree 利用語料庫

中語言參數的資訊來選取最合適的合成單元，在論文中我們提出從訊號頻譜的角度來幫助合成單元挑選，方法是利用頻譜參數(i.e., MFCC, 梅爾倒頻譜參數)來訓練音節頻譜模型，之後在給定的條件下便能夠預估音節頻譜參數，如此ㄧ來在單元選取時就能增添頻譜上的考量。

而合成單元間的連音狀態 (Coarticulation State)也是在選取合成單元時會考量的一項重

要因素。ㄧ般來說我們會用音節間的停頓長度（Pause duration）、音節間能量最低點

（Energy-Dip Level）…等韻律參數 (Prosodic Feature)來標記連音狀態，在本論文中我們希望能分析訊號頻譜與韻律連音狀態之間的關係，再進一步觀察從頻譜連音狀態與語言參數之間

的關聯性，目的希望能讓 TTS 在合成時，能夠多考量了訊號頻譜上面的資訊來達到更好的

(11)

1.3 章節概要說明

本論文的內容共分為五章：第一章：緒論，介紹本論文之研究動機與方向第二章：合成單元之選取第三章：音節模型的訓練和數學說明第四章：音節模型實驗結果與連音狀態分析第五章：結論與未來展望

(12)

第二章

合成單元之選取

當我們要合成一段語音的時候，需要由大型語料庫中選取適用的合成單元，此時可能會有好幾個候選合成單元，所以我們必須在所有可能的組合中選出讓合成品質最自然流暢的合成單元。

2.1 影響合成品質之因素

通常不流暢之合成聲音品質不佳的原因主要來自合成單元連接處之韻律或頻譜不連續，在 [11]一書中作者將造成所謂“不連續”的因素歸納為以下四類：

1. 前後連接音不同 (Differences in Phonetic Contexts )：

合成單元原本的前後文和欲合成之目標句前後文發音特性不同將會造成音質不連續。 2. 音節切割位置不正確 (Incorrect Segmentation )： 切割位置錯誤會造成頻譜上的不連續。 3. 聲學特性上的變動 (Acoustic Variability)： 譬如錄音時的說話快慢以及錄音環境等也是容易造成頻譜不連續的因素之一。 4. 韻律上的差異 (Different Prosody)： 合成單元連接處左右之韻律參數不連續也是讓合成音質不良的原因。由此看來影響語音合成之品質的原因很多，所以單元選取的方法便是一項重要的課題，在2.2 節中將提到ㄧ般單元選取主要會使用的方法。

2.2 文獻回顧

如何挑出最合適的候選單元使合成品質最自然流暢是眾多學者研究的方向之一，大舉來說有兩種主要的方法，一類是用決策樹 (Decision Tree)方式作為挑選之依據，一類是用 cost

(13)

function 來選出候選單元。

2.2.1 依據決策樹挑選

決策樹主要可分為兩種：分類樹 (Classification Tree)和迴歸樹 (Regression Tree)。分類樹的目的在於區分成ㄧ離散的類別數值；迴歸樹目的則在分析已得到的連續型參數值，至於挑選合成單元的應用上，決策樹主要依據語言參數 (Linguistic Feature)來挑選合成單元，其中語言參數包含韻律參數、詞邊界、呼吸邊界等，因此比較接近迴歸樹的應用。

2.2.2 依據 Cost Function 挑選

此類方法主要是建構一個數學式來評估不同候選單元合成時所造成的誤差值。而影響合成聲音品質的誤差主要分為兩類： (1)單元誤差 (Unit Cost)：其差異的定義有很多方式，其中包含考慮合成單元和目標句之間語言參數的差異 [8]，或韻律參數的差異。舉例來說，語言參數包含合成單元在句子、或詞的位置，以及前後文發音特性等；韻律參數包含音節長度、音節能量、及音節平均音高 (pitch mean)等。 (2)轉移誤差 (Transition Cost)：是為合成單元與合成單元之間的差異。合成目標句的各個合成單元常常是從不同語句選出，所以在單元連接處容易發生韻律和頻譜不平滑的情況。評估轉移誤差也有很多方法，其中包含計算合成單元連接處之頻譜參數的距離 [10] (Spectral Distance)，如果頻譜之距離值愈大則轉移誤差值就會愈大。

Cost Function 的定義中還需要在以上兩種誤差之間設定合適的權重(weighting)，最後便是選擇使誤差總和最小的單元組合。

在論文中，我們所提出的音節頻譜模型功用為對某一音節來說，在給定其前、後音節類型以及音節間的連音狀態後能夠得到此音節頻譜參數之預估值，在單元選取中我們便能從許多候選詞中挑選出使頻譜參數誤差最小的單元。在第三章裡，我們將說明此音節頻譜模型所

(14)

第三章

音節模型的訓練和數學說明

在本章中將會簡單介紹訓練模型時所使用的語料以及音節參數的表示方式，接著會說明音節頻譜模型的原理以及訓練過程並列出其在數學上代表之意義。

3.1 語料庫簡介

在本論文中所使用的語料庫文字內容是取自中央研究院中文文句結構樹資料庫 1.1 版

（Sinica Treebank Version 1.1），其中包含429 段 Short Paragraphs，共有 56,653 個音節。音檔

方面，我們請了一位專業的女性廣播員幫我們錄製，其錄音軟體設備及格式詳細如下：

表3.1：錄音軟硬體格式表

錄音軟體 Cool Edit Pro 直接錄成聲音檔案

麥克風單一指向性錄音場所普通房間錄音情境依照所選出文稿唸出取樣頻率 20 kHz 發音速度每秒約4.6 個音節取樣大小 16 bits 聲道單聲道檔案格式 Pcm

3.2 音節參數表示

在本論文中我們用8 個狀態（state）來描述一個音節 HMM 模型，其中前 3 個 states 表

(15)

示音節聲母部份，後5 個 states 則表示韻母部份。為了得到音節中每個 state 之切割位置，我

們使用HTK（Hidden Markov Model Toolkit）軟體來訓練音節 HMM 模型並作切割音節動作，

首先我們採用HTK 說明手冊[2]中稱為 Isolated Word Model Toolkit 的訓練方法，使用的參數

設定為：12 維的梅爾倒頻譜參數、1 維能量參數、frame size：20ms、frame shift：5ms。訓

練語料是用經由人工校正過切割位置之 56,653 個音節。音節 HMM 模型訓練完後再對每一

個音節進行至state 位置的切割動作。最後我們以每個 state 中的所有 frame 的 12 維 MFCC

參數之平均值來表示該 state，所以每個音節的觀察值就可以用一個8 12 96× = 維的 super vector 來表示。音節 state 之切割位置範例如圖所示：圖3.1：音節 state 切割位置示意圖

3.3 音節模型的原理

我們考慮音節頻譜會受到本身基本音節類型影響，而且在連續語音中還容易受到前、後音節類型的影響，如此之外如果音節間連音程度愈嚴重則受前、後音節類型的影響愈大。基於以上的想法，在本論文中我們設計音節模型會受到3 種因素影響，分別是：基本音節類型的影響因素，前、後音節的音節類型以及和前、後音節間的連音狀態的影響因素。我們假設所有的影響因素可以用累加的方式來表示，示意圖如下：

(16)

圖3.2：音節模型示意圖 1, 1 , n n n n n f b n

= +

n S

+

FI ₋ C₋

+

FI C

o

r

μ

_(3.1) n

o

：第

n

個音節所呈現的特徵參數。 n

S

：第

n

個音節的基本音節類型。 n S

μ

_：第

_n

_{個音節受該音節類型之影響因素，以基本音節影響因素稱之。} n C ：第

n

個音節與第n+1個音節間的連音狀態。 : n FI Final-Initial pair ，第

n

個音節的韻母種類與第n+1個音節的聲母種類組合。 1, 1 n n f FI₋ C₋

μ

：與前音節之Final-Initial pair 為FI_n₋₁以及連音狀態為C_n₋₁的情況下，第n 個音節受 前一音節之影響因素，以前音節影響因素稱之。 , n n b FI C

μ

：與後音節之Final-Initial pair 為FIn以及連音狀態為C 的情況下，第 n 個音節受後一n 音節之影響因素，以後音節影響因素稱之。 n

r

：代表特徵參數向量

o

_n扣除上述三個影響因素後的殘餘值(residue)，也就是原始特徵參

(17)

數向量

o

_n對三個影響因素作正規化(normalized)後的值，我們可以令其機率分佈是為 zero

mean ,covariance matrix V 的高斯分佈。

從圖3.2 來看音節

o

_n受到 3 種因素影響(以框線所代表)，其中音節

o

_n之聲母部份受到音節

o

_n₋₁之韻母部份影響；音節

o

_n之韻母部份受到音節

o

_n₊₁之聲母部份影響。在3.4 節中，我們將針對所使用的語料庫來設定模型中各影響因素的類型。

3.4 音節類型、Final-Initial pair、連音狀態的種類設定

在本節將會說明我們在音節模型中所設定之影響因素之分類數量和分類的依據。

3.4.1 音節類型：

音節類型分成411 類，以下略舉(詳細對照表見附錄)。表3.2：音節類型分類表音節類型注音 1 ㄓ 2 ㄔ 3 ㄕ 4 ㄖ … … 411 ㄇㄜ

3.4.2 Final-Initial pair 類型：

我們知道在 411 種基本音節中可以將聲母部份分為 22 類、韻母部份分為 40 類，所以 Final-Initial pair 之組合有22 40 880× = 種，然而對於我們所使用的語料庫來說這樣的類別數

(18)

量卻導致許多類別中的資料量太少，這樣的結果會不利於模型之訓練與分析。為了解決這個

問題，我們依照發音特性將音節之40 種韻母繼續分成 17 類、將 22 種聲母分成 7 類，其中

被歸類為空聲母 (Initial NULL)的音節因為其聲母發音特性不見得相似，舉例來說：” 阿 (ㄚ)” 、 ”衣 (ㄧ)”、 ”屋 (ㄨ)”在聲母部份發音特性就不一樣。所以我們會將聲母為空聲母類型的音節再將其韻母分類 (也就是 Final-Final 之組合)，所以 Final-Initial pair 共分成

17 (6 7) 221× + = 類，如此ㄧ來便解決大多數類別中資料量太少的問題。以下為我們使用的聲母、韻母分類表：表3.3：韻母分類表，依照發音特性分成 17 類類別韻母 (Final) 類別韻母 (Final) 1 空韻母 10 ㄢ、ㄧㄢ、ㄨㄢ、ㄩㄢ 2 ㄚ、ㄧㄚ、ㄨㄚ 11 ㄣ、ㄧㄣ、ㄨㄣ、ㄩㄣ 3 ㄛ、ㄧㄛ、ㄨㄛ 12 ㄤ、ㄧㄤ、ㄨㄤ 4 ㄜ 13 ㄥ、ㄧㄥ、ㄨㄥ、ㄩㄥ 5 ㄝ、ㄧㄝ、ㄩㄝ 14 ㄧ 6 ㄞ、一ㄞ、ㄨㄞ 15 ㄨ 7 ㄟ、ㄨㄟ 16 ㄩ 8 ㄠ、ㄧㄠ 17 ㄦ 9 ㄡ、ㄧㄡ

(19)

表3.4：聲母分類表，依照發音特性分成 7 類類別聲母（Initial） (鼻音_濁音) 1 ㄇ、ㄋ、ㄌ、ㄖ (摩擦音_清音) 2 ㄏ、ㄒ、ㄕ、ㄈ、ㄙ (爆破音_不送氣) 3 ㄅ、ㄉ、ㄍ (塞擦音_不送氣) 4 ㄐ、ㄓ、ㄗ (爆破音_送氣) 5 ㄆ、ㄊ、ㄎ (塞擦音_送氣) 6 ㄑ、ㄔ、ㄘ 7 空聲母表3.5：空聲母分類表，依照發音特性分成 7 類類別空聲母（Initial NULL） (複韻母且介音為“ㄧ”) 1 ㄧ、ㄧㄚ、ㄧㄝ、一ㄞ、ㄧㄠ、ㄧㄡ、ㄧㄢ、ㄧㄣ、ㄧㄤ、ㄧㄥ、ㄧㄛ (複韻母且介音為“ㄨ”) 2 ㄨ、ㄨㄚ、ㄨㄞ、ㄨㄢ、ㄨㄛ、ㄨㄟ、ㄨㄣ、ㄨㄤ、ㄨㄥ (複韻母且介音為“ㄩ”) 3 ㄩ、ㄩㄢ、ㄩㄣ、ㄩㄥ、ㄩㄝ (單韻母且元音為“ㄚ”) 4 ㄚ、ㄤ、ㄢ、ㄞ、ㄠ (單韻母且元音為“ㄛ”) 5 ㄛ、ㄡ (單韻母且元音為“ㄜ”) 6 ㄜ、ㄣ、ㄥ、ㄦ (單韻母且元音為“ㄝ”) 7 ㄝ、ㄟ

3.4.3 連音狀態類型：

連音狀態類型數量的設定同樣需要考量到所使用之語料庫的數量，在這裡我們簡單分為三類，代表連音程度嚴重、中等、輕微。對於模型訓練來說，連音狀態之初始設定影響著模型訓練的效果。在我們所使用的語料

(20)

庫中沒有音節間連音程度的資訊。所以為了設定一個合理的初始值我們使用prosody 的方法預估初始之連音狀態。作法是參考文獻 [1]中作者所提出的 Prosody Break Type 分類方法，

先將語料庫中每個音節間的停頓分成6 類之後，我們再將連音程度相近的合併，將數量降為

三類。為了與模型所標記之連音狀態有所區別，初始標記之連音狀態我們以韻律連音狀態稱

之；而模型所標記之連音狀態以頻譜連音狀態稱之。在 3.4.3.1 小節中將介紹文獻中作者所

提出的分類方法。

3.4.3.1 Prosody Break Type 分類方法

文獻 [1]中作者利用音節與音節間距、以及其間距中能量最低點、基頻軌跡間距 (Pitch pause)等韻律資訊，還有音節間停頓在詞句中的位置等參數來做為 Break Type 分類決策樹之問題，相關韻律資訊以及決策樹示意圖如下。

(21)

Interword Interword Normalized pitch jump ≥ Th5

B4 B3 B2-2 B1 B2-1 Y Y Y Y Y Y N N N N N N B0 B1 Y N B1 B0 Y N Pitch pause < Th4 1 n Pd ≥Th 2 n Pd ≥Th 3 n Pd ≥Th 6 and n Pe ≥Th Pitch pause < Th4 6 and n Pe ≥Th 圖3.4：Break Type 分類決策樹示意圖

(1) Th1、Th2 和 Th3 之定義

Th1、Th2 和 Th3 是分類出 B4，B3，和 B2-2/B1 之 pause-duration threshold。直觀上 juncture 位置在標點符號上時，pause-duration 會較大所以連音程度會比較輕微。我們將這類 pause-duration 做 vector quantization 分成二群，並且分別用 Gamma 分佈去 fitting ，令平均

值較大的分佈為B4 之機率分佈 f_B₄(Pd)、另一個則為B3 之機率分佈 f_B₃(Pd)。再者，如果

juncture 位置在 intra-word 時通常其連音程度會較嚴重，我們將這類 pause-duration 用 Gamma

分佈去fitting，令其為 B0/B1 之機率分佈

f

B B0/ 1

(

Pd

)

。接下來我們將juncture 位置在 inter-word

且不在標點符號上的一群加上 f_B₃(Pd_n)> f_{B B}_{0/ 1}(Pd_n)的條件令其為 B2-2，在此要加上條件原

因是避免B2-2 的 pause-duration 與 B0/B1 相似。相關 pause-duration pdfs 求取流程圖和 Th1, Th2

(22)

圖3.5：相關 pause-duration pdfs 求取流程圖 (a) B3、B4； (b) B0/B1； (c) B2-2

(23)

(2) Th5 之定義

Th5 是將 pause-duration<Th3的juncture 再去分類出 B2-1 和 B0/B1 之 pitch jump threshold。以下是 normalized pitch jump 數學式：

1 1

(

) (

)

n n n n t n t

ξ

=

f

₊

−

β

₊

−

f

−

β

(3.2) 其中f 為第_n

n

個音節之pitch 平均值；β 為第_t_n

n

個音節聲調的影響因素，其聲調影響因素為所有該聲調音節之pitch 平均值。接著我們將位置在標點符號(PM)上

之juncture 的 normalized pitch jump 用高斯分佈 fitting，是為 f_PM( )ξ ；intra-word juncture 之 normalized pitch jump 高斯分佈為 f_intra( )ξ ；最後我們將juncture 位置

在inter-word 且不在標點符號上的一群加上 f_PM( )ξ > f_intra( )ξ 的條件令其為B2-1，

相關normalized pitch jump pdfs 求取流程圖和 Th5 之定義圖如下：

normalized pitch jump of intra-words n

ξ

Gaussian distribution fitting

F

0

intra( ) ( ; inra, intra)

f ξ =N ξ μ σ

normalized pitch jump of PM n

ξ

Gaussian distribution fitting

F

0 PM( ) ( ; PM, PM) f

ξ

=N

ξ μ σ

(a) (b)

(24)

圖3.6：相關 normalized pitch jump pdfs 求取流程圖：(a) intra-word (b) PM (c) B2-1(d) Threshold Th5 之定義圖

(3) Th4、 Th6 之定義

基本上連程度嚴重的juncture 其 pitch pause 會很小而且 energy-dip 很大。所

以我們令Th4 為 1 個 frame 長 (＝10ms)，也就是被分為 B0 類的 pitch pause 長度

為0。再來我們將剩餘未分類的 juncture 對其 energy-dip 做 VQ 分為二群並用高

斯分佈fitting，令平均值較高的那群為 B0 其 energy-dip 分佈為 fB0(Pe)；另一群

則為B1，energy-dip 分佈f_B₁(Pe)。相關energy-dip pdfs 求取流程和 Th6 之定義流

(25)

圖3.7：相關 energy-dip pdfs 求取流程圖(a) B0、B1，(b) Threshold Th4、 Th6 定義圖

3.4.3.2 Prosody Break Type 之合併

下圖為參考文獻[1]中作者所提出的漢語語音階層韻律結構圖：

圖3.8：漢語語音階層韻律結構圖

上圖中最低階層表示的是音節 (syllable, SYL)，此為韻律結構中最基本單元；第二階層中的韻律詞 (Prosody Word, PW)便是由一個或數個音節所構成；第三階層表示的是次要韻律片語 (Minor Prosody Phrase, MIPPH)，是由一個或數個

4 B 4 B 4 B 4 B MPPH MIPPH B4 PW B2 PW

SYL B2 SYL B / 01 B SYL B / 01 B SYL

4 B 4 B 4 B MIPPH 3 B PW B3 SYL 3 B

(26)

韻律詞所構成；最高階層是主要韻律片語 (Major Prosody Phrase, MPPH)。圖中

所示的B 、0 B 、 21 B 、 3B 和B 為音節間的 Break Type，4 B0和B 為韻律詞中音1

節間之停頓，其中B0為Tightly Couple； 1B 為 Normally Couple。B 為韻律詞之2

間之停頓，依停頓特性又可再細分為兩類：(1) 2 1B − ：音節間為 Minor Pitch

Reset；(2) 2 2B − ：音節間為 Short Pause。B3為次要韻律片語之間之停頓，音節

間為Medium Pause，其通常亦伴隨著 Medium Pitch Reset。 4B 為主要韻律片語

之間之停頓，音節間為Long Pause，其通常亦伴隨著 Large Pitch Reset。

接下來我們將以上6 種 Break Type 將連音程度相近的合併成 3 類，如下表所示：表 3.6：Break Type 與韻律連音狀態對照表合併後之連音狀態類型 Break Type C1 （連音程度最嚴重） B0 C2 （連音程度中等） B 、 2 11 B − C3 （連音程度最輕微） B2 2− 、B3、B 4

(27)

3.5 音節模型數學式

本節描述音節模型中所有影響因素之初始和更新數學式。音節模型的機率分佈： 1 1 1 1 1 ( | , ) N ( | , ) N ( | n , n ) n n n n n n P C S P C FI P C ₋ FI ₋+ = = ≈

∏

≈

∏

o o o (3.3)

:

o

觀察到的音節序列。

:

N

總音節數，

N

=

56653

。

:

C

連音狀態序列。

:

S

音節種類序列。 : n FI Final-Initial pair ，第

n

個音節的韻母種類與第n+1個音節的聲母種類組合。

一般來說殘餘值的機率分佈我們可以把它看成是 zero mean ,covariance matrix

V 的高斯分佈，也就是R N∼ ( ;0, )r_n V 。所以我們可以將音節模型的機率分佈用下列數學式描述： 1 1 1 1 1 , , 1

( |

,

)

( ;

, )

1

1 exp

(

)

(

)

2 (2 ) | |

n n n n n n n f b n n n n S FI C FI C T n n D

P

C

FI

N

π

− − + − − −

=

+

⎛

⎞

=

_⎜

−

_⎟

⎝

⎠

o

o μ

μ

V

o m V o m

V

(3.4) 其中 1, 1 , , 96 supervector dimention n _n _n _n _n f b S FI− C− FI C D = + + = m μ μ μ 。就數學意義上來說，我們可以將音節模型的機率分佈 1 11 1 ( | , ) N n n n n n n P C ₋ S ₋+ =

∏

o 視為概似函數（Likelihood Function），而我們目的就是如何對概似函數求出各個影響因素以

(28)

Likelihood Value )。為了考量使往後的運算方便，我們計算其 log-likelihood 值。所以我們首先對 ₁ ₁1 1 ( | , ) N n n n n n P C ₋ S ₋+ =

∏

on 取自然對數（Natural Logarithm)，數學式如下： 1 1 1 1 1 1 1 1 1 1 , , 1 1 1 log ( | , ) log ( | , ) log ( ; , ) 1 1 log exp ( ) ( ) 2 (2 ) | | 1 1 log(2 ) log | | ( 2 2 2 n _n _n _n _n N N n n n n n n n n n n N f b n S _{F I} _C _{F I} _C n N T n n n n D n n Q P C F I P C F I N D

π

− − + + − − − − = = = − = ⎡ ⎤ _⎡ _⎤ = _⎢ _⎥ = _⎣ _⎦ ⎣ ⎦ ⎡ ⎤ = _⎣ + + _⎦ ⎡ _⎛ _⎞⎤ = ⎢ _⎜− − − _⎟⎥ ⎝ ⎠ ⎢ ⎥ ⎣ ⎦ = − − + − −

∑

∏

∑

n n o o o μ μ μ V o m V o m V V o m 1 1 1 1 ) ( ) 1 log(2 ) log | | ( ) ( ) 2 2 2 N T n n n n N T n n n n n N D

_π

N − = − = ⎡ ⎛ ₋ ⎞⎤ ⎜ ⎟ ⎢ _⎝ _⎠⎥ ⎣ ⎦ × = − − − − −

∑

V o m V o m V o m (3.5) 1, 1 , where 96, | |: determinant of , _n n n n n f b n S _FI _C _{FI C} D − − = V V m =μ +μ +μ 。接下來，我們依序將 Q 對基本音節影響因素 μ_S_n、前音節影響因素 1, 1 n n f FI− C− μ 、後音節影響因素 _, n n b FI C μ 以及 covariance matrix V 做偏微分並使其為零，數學式如下： (1)基本音節影響因素： 1, 1 , 1 1 ( ) ( ) 0 , {1, 2,..., 411} ( ) n n n n n n N f b n _FI _C _{FI C} n n S N S n n S S Q Let S S S δ δ − − = = − − = ∂ = ⇒ = ∈ ∂ ₌

∑

o μ μ μ μ ＊　 (3.6)

(29)

(2)前音節影響因素： 1 1 1 1 1 1 , * 1 , , 1 1 1 ( ) ( , ) 0 ( , ) n n n n n n n N b n S _{FI C} n n f n N f FI C FI C n n n FI fi C c Q Let FI fi C c δ δ − − − − − − = − − = − − = = ∂ ₌ _⇒ ₌ ∂ ₌ ₌

∑

o μ μ μ μ where {(1,1),(2,1)...(16,13),(17,13)},fi∈ c∈{ 1, 2, 3}C C C 。 (3.7) (3)後音節影響因素： 1, 1 * 1 , , 1 ( ) ( , ) 0 ( , ) n n n n n n n N f n S FI C n n b n FI C N b FI C n n n FI fi C c Q Let FI fi C c δ δ − − = = − − = = ∂ = ⇒ = ∂ ₌ ₌

∑

o μ μ μ μ (3.8) where {(1,1),(2,1)...(16,13),(17,13)},fi∈ c∈{ 1, 2, 3}C C C 。 (4)Covariance Matrix V： * 1 ( ) ( ) 0 N T n n n n n Q N = − − ∂ = ⇒ = ∂

∑

o m o m V V (3.9) where n _n _n _n _n f b n = S FI-1,C-1 FI C, m μ + μ + μ 。

3.6 各影響因素的初始值：

在計算影響因素前我們合理的令所有影響因素皆為 0 接著代入上面推導後的數學式子，數學式如下： (1)基本音節影響因素初始值： 1 1 ( 0 0) ( ) , {1, 2,..., 411} ( ) n N n n n S N n n S s s S s

δ

= = − − = = ∈ =

∑

o μ _(3.10)

(30)

(2)前音節影響因素初始值： 1 1 1 1 2 , 1 1 2 ( 0) ( , ) ( , ) n n n N n S n n f n N FI C n n n FI fi C c FI fi C c

δ

− − − − = − − = − − = = = = =

∑

o μ μ _(3.11) where {(1,1),(2,1)...(16,13),(17,13)},fi∈ c∈{ 1, 2, 3}C C C 。 (3)後音節影響因素初始值： 1 1 1 , 1 1 , 1 ( ) ( , ) ( , ) n _n _n n n N f n S _FI _C n n b n N FI C n n n FI fi C c FI fi C c

δ

− − − = − = − − = = = = =

∑

o μ μ μ _(3.12) where {(1,1),(2,1)...(16,13),(17,13)},fi∈ c∈{ 1, 2, 3}C C C 。值得注意的是，在此音節模型中我們假設前音節影響因素只影響到音節的前3 個 states；後音節影響因素

只影響到音節的後5 個 states (Initial：前 3 個 states；Final：後 5 個 states)。所以

前、後音節影響因素值可以改寫為以下數學式： (1)改寫後之前音節影響因素初始值： 1 1 36 1 1 1 2 , 1 1 2 ( ) ( , ) ( , ) n n n N n S n n f n N FI C n n n FI fi C c FI fi C c

δ

− − − − = − − = − = = = = =

∑

o μ μ _(3.13) where {(1,1),(2,1)...(16,13),(17,13)},fi∈ c∈{ 1, 2, 3}C C C 。 (2)改寫後之後音節影響因素初始值： 1 96 37 1 1 , 1 ( ) ( , ) ( , ) n n n N n S n n b n N FI C n n n FI fi C c FI fi C c

δ

− = − = − = = = = =

∑

o μ μ _(3.14)

(31)

where {(1,1),(2,1)...(16,13),(17,13)},fi∈ c∈{ 1, 2, 3}C C C 。

3.7 各影響因素的更新值：

在模型的訓練過程中各影響因素不斷更新目的便是使概似值 Q 達到最大值，更新數學式如下： (1)更新基本音節影響因素數學式： 1, 1 , 1 1 ( ( 1) ( 1)) ( ) ( ) ( ) n n n n n N f b n FI C FI C n n S N n n i i S s i S s δ δ − − = = − − − − = = =

∑

o μ μ μ

_(3.15)

where {1,2,...,411}, : i-th s∈ i iteration。

(2)更新前音節影響因素數學式： 1 1 36 1 1 1 2 , 1 1 2 ( ( )) ( , ) ( ) ( , ) Sn n n N n n n f n N FI C n n n i FI fi C c i FI fi C c

δ

− − − − = − − = − = = = = =

∑

o μ μ _(3.16) where {(1,1),(2,1)...(16,13),(17,13)},fi∈ c∈{ 1, 2, 3}C C C 。 (3)更新後音節影響因素數學式： 1 96 37 1 1 , 1 ( ( )) ( , ) ( ) ( , ) n n n N n S n n b n N FI C n n n i FI fi C c i FI fi C c

δ

− = − = − = = = = =

∑

o μ μ _(3.17) where {(1,1),(2,1)...(16,13),(17,13)},fi∈ c∈{ 1, 2, 3}C C C 。

除了影響因素的更新，在每次iteration 時還要更新 covariance matrix V後才能計

(32)

(1)更新 covariance matrix V數學式： 1 ( ( )) ( ( )) ( ) N T n n n n n i i I i N = − − = =

∑

o m o m V (3.18) where ( ) ( ) ( ) ( ) n _n _n _n _n f b n i = S i FI-1,C-1 i FI C, i m μ + μ + μ (2)更新 log-likelihood 值 Q 數學式：

(

1

)

1 1 1 ( ) log(2 ) log | ( ) | ( ( )) ( )( ( )) 2 2 2 N T n n n n n D Q i π i i − i i = ⎡ ⎤ = _⎢− − − − − _⎥ ⎣ ⎦

∑

V o m V o m (3.19) 我們必須設定收斂條件讓更新標記連音狀態的動作停止，以下為收斂條件數學式： 5 ( ) ( 1) ( 1) 10 , 2 Q i −Q i− = Q i− × − i≥ (3.20) 以下圖3.9 為整個音節模型之訓練流程圖，而連音狀態的更新動作將在 3.8 章說明。

(33)

圖 3.9：音節模型之訓練流程圖

3.8 更新標記音節間連音狀態數學式

每一次在所有影響因素更新完成後必須更新連音序列才能讓音節模型之機率有最大概似值，更新連音狀態之數學式： * arg max ( | , ) C C = P O C S (3.21) 我們可以將上面從數學式子解釋成求出使概似函數 P( | , )O C S 有最大概似值的連音狀態序列

C

解。換句話說就是求出連音狀態序列

C

使數學式(3.4) 中的 Q 值最大，以下重述數學式 (3.4)：

(34)

(

)

(

1 1

)

1 1 1 ₁ 1 1 log(2 ) log | | ( ) ( ) 2 2 2 1 log(2 ) log | | 2 2 1 ( ( )) ( ( )) 2 n n n n n n n n n n N T n n n n n N n _f _b _T _f _b n S FI C FI C n S FI C FI C D Q D π π − − − = = ₋ ⎡ ⎤ = _⎢− − − − − _⎥ ⎣ ⎦ ⎡₋ ₋ ₋ ⎤ ⎢ ⎥ ⎢ ⎥ = ⎢ ⎥ − − ⎢ ⎥ ⎣ ⎦

∑

-1 -1 , , , , V o m V o m V o μ + μ + μ V o μ + μ + μ (3.22) 在這裡要注意的是，因為音節模型裡每一個音節的後音節影響因素只影響其音節後 5 個 states，而其前音節影響因素只影響其音節前 3 個 states，而所有音節間 juncture 彼此是不互相影響的，所以我們可以把問題想成是求每一個 juncture 的前音節後5 個 states 的概似值與後音節前 3 個 states 的概似值的和，我們以 _{Q 稱}' 之，那麼對於第n個juncture 而言，我們的目的就是要求 ' n Q 的最大值。 對於單一音節模型 1 1 1 ( | n , n ) n n P o_n C ₋ S ₋+ 來說，我們令其單一音節之概似值為 Q ，_n 其數學式敘述如下： 1 1 1 1 1 log(2 ) log | | ( ( )) ( ( )) 2 2 2 n n n n n n n n n n f b T f b n n S FI FI C n S FI C FI C D Q _{= −} π ₋ ₋ ₋ ₋ − ₋ ₋ -1 -1 ,C , , , V o μ + μ + μ V o μ + μ + μ (3.23) 我們利用數學式 (3.22)將 ' n Q 用以下數學式表示：

(

)

(

)

(

)

(

)

96 ₉₆ ' (96,96) 1 (37,37) ₃₇ 37 36 ₃₆ (36,36) 1 (1,1) 1 1 1 1 ₁ 1 1 1 log(2 ) log | | ( ) ( ) 2 2 2 1 1 log(2 ) log | | ( ) ( ) 2 2 2 T n n n n n d T n n n n d d Q d π π − = − + + + + = ⎛ ⎞ = _⎜− _⎟− − − − ⎝ ⎠ ⎛ ⎞ + _⎜− _⎟− − − − ⎝ ⎠

∑

V o m V o m V o m V o m (3.24) 1 where n n n n n f b n = S FI−,C-1 FI C, m μ + μ + μ 。在本論文中，為了增加連音狀態標記上的效果

我們特別加上Pause Acoustic Model P PD,ED C( | ) 的輔助，一般來說連音程度嚴

重的juncture 通常其 energy-dip 值會較高且 Pause duration 較短，反之亦然。以下

(35)

2 ( , | ) ( ; , ) ( ; , ) n n n n n n n n C C n C C P pd ed C =g pd α β N ed μ σ (3.25) where

: pause duration between n-th syllable and (n+1)-th syllable : energy-dip between n-th syllable and (n+1)-th syllable

n n pd ed 最後我們整合數學式(3.23)並表示成以下數學式：

(

)

*

_{arg max}

'

_{log( (}

_,

_|

_{)) ,}

_{{ 1, 2, 3}}

n _c n n n n

C

=

Q

+

P pd ed C

=

c

∈

C C C

(3.26)

更新連音狀態後我們便可以繼續更新影響因素，如此重複直到收斂便得到由頻譜參數標記的連音狀態序列值，我們將在下一章分析標記的結果。

(36)

第四章

音節模型實驗結果與分析

本章中實驗結果之分析主要有兩個部份：1.模型中影響因素的訓練效果、2. 韻律、頻譜連音狀態之分析。

在這裡我們對全部音節考慮其影響因素後的殘餘值之變異量(Residual

Variance)來觀察各影響因素所影響的程度。前面有提到過，我們把殘餘值的機率

分佈看成是 zero mean ,covariance matrix V 的高斯分佈，也就是

( ;0, )_n R∼N r V 。而為了往後方便表示，我們將音節殘餘值分成3 類： (1)

R

0

：原始所觀察到的音節參數，也就是不扣除任何影響因素，其機率分佈如下： 0 ( ;0, 0 |_n _n _n) R ∼N r V r =o (4.1) (2)R1：音節參數只考慮其基本音節影響因素後的殘餘值，其機率分佈如下： 1 ( ;0, 1|_n _n _n _S_n) R ∼N r V r =o −μ (4.2) (3)R2：音節參數考慮其基本音節影響因素和其前、後音節影響因素後的殘餘值，其機率分佈如下： 1, 1 , 2 ( ;0, 2 | _n f _n _n b _n _n) n n n S FI C FI C R ∼N r V r =o −μ −μ ₋ ₋ −μ (4.3) 我們假設MFCC 12 維參數的基底是互相正交的，所以我們只需觀察所有

Residual Covariance Matrix 主對角線上的值，並且為了簡潔的表示參數值在 state

上的變化程度，我們將主對角線上各屬於每一個state 的 12 維參數值做相加的動

(37)

1 2 3 4 5 6 7 8 0 5 10 15 20 25 30 state V0 V1 V2 圖4.1：Residual Variance 之比較圖 ● 結果分析：上圖中V1曲線呈現中間較低兩端較高之情況，這表示音節中愈接近前後音節之 state 所受的影響程度愈高，而V2曲線表示音節考慮所有影響因素後Residual Variance 能夠有效的繼續下降。在圖 4.1 中模型在多考慮前、後音節影響因素後之曲線能夠繼續下降，但是在我們的假設中，前、後音節影響因素所影響音節頻譜的程度與音節間的連音狀態有關，在以下4.1 節中我們進一步分析連音狀態與影響因素之關係。

4.1 初始影響因素之分析

4.1.1 初始連音狀態對頻譜參數影響分析

音節模型中，我們定義前、後音節影響因素包含連音狀態和有關係，接下來我們想知道的是從韻律參數預估的連音狀態是否真的會影響到頻譜。為了觀察連音狀態的有無對音節模型有沒有影響，我們特別定義另一個音節模型，其相關數

(38)

學式簡述如下： 1 n n n f b n _n _S _FI _FI −

= +

+

o

r

μ

_(4.4)

2 R

音節參數考慮其基本音節影響因素和其前、後音節影響因素後的殘餘值，其機率分佈如下： 1 2 ( ;0, 2 | _n f _n b _n) n n n S FI FI R ∼N r V r =o −μ −μ ₋ −μ (4.5) 我們可以發現新定義的音節模型其 Final-Initial Pair 是不考慮連音狀態的，接著我們比較兩種定義下Residual Variance 的差異：圖4.2：Residual Variance 之比較圖 ● 結果分析：從上圖我們可看出若兩者之曲線之Residual Variance 皆與V1比較的話，V2下降程度較V 多，由此可知影響因素中韻律連音狀態的考量的確2 對音節模型有所貢獻。

4.1.2 不同連音狀態種類影響之程度分析：

從4.2.1 小節我們知道韻律連音狀態會對頻譜參數造成影響，我們想再進一

(39)

步分析是否不同的程度連音狀態(C1：連音程度最嚴重、C2：連音程度次等、 3 C ：連音程度最輕微)會對頻譜造成不同程度的影響。在連續語音中，音節的發音會受到其前後音節的種類不同有所影響，直觀上音節受到前後音節影響程度會隨著連音程度愈嚴重而愈高。作法如以下所述：前音節影響因素之觀察：我們將所有音節依照其與前一音節間的連音狀態的種

類分為3 類，並分別比較其 Residual Variance V1與Residual Variance V2，目

的是為了觀察此3 類音節的前音節影響因素整體的差異性，以下為實驗結果與分

析：

韻律連音狀態為C1：state 平均下降 0.67

(40)

韻律連音狀態為C2： state 平均下降 0.36

圖4.4：連音狀態為C2時Residual Variance V1 與 V2 前 3 states 之比較圖

state

(41)

●結果分析：從上圖我們發現前音節影響因素在連音狀態為 C1 那一類之

Residual Variance 下降幅度最多，而在連音狀態為 C3 那一類之 Residual Variance 下降幅度最少，這個結果說明連音程度越嚴重則受前音節影響愈大。

後音節影響因素之觀察：同樣的，我們也將所有音節依照其與後一音節間

的連音狀態的種類分為 3 類，並分別比較其 Residual Variance V1與 Residual

Variance V2，目的是為了觀察此3 類音節的前音節影響因素整體的差異性，以

下為實驗結果與分析：

state

(42)

state

圖4.7：連音狀態為C2時Residual Variance V1 與 V2 後 5 states 之比較圖

(43)

●結果分析：從上圖我們發現後音節影響因素在連音狀態為 C1 那一類之

Residual Variance 下降幅度最多，而在連音狀態為 C3 那一類之 Residual Variance 下降幅度最少，這個結果說明連音程度越嚴重則受後音節影響愈大。

由4.1 節中我們可以發現韻律連音狀態之定義下在模型多考慮音節影響因素後能

夠使 Residual Variance 下降，如此之外不同的連音程度中也能表現出不同的結

果，而這也是我們希望在模型收斂後也能夠表現的結果，以下4.2 節中我們便分

(44)

4.2 模型收斂後影響因素之分析

1.目標函數概似值：

0 5 10 15 20 25 30 35 40 45 50 -4.05 -4 -3.95 -3.9 -3.85 -3.8 -3.75x 10 6 Iterarion Times log-l ik el iho od 圖4.9：log-likelihood 值 Q 之更新曲線 ● 結果分析：從上圖我們發現log-likelihood 值 Q 的確隨著重複更新遞增，這代 表著模型朝著合理的趨勢在收斂。

2. Residual Variance 之比較：

我們觀察初始以及模型收斂後的Residual Variance 曲線，如下圖 4.10。

(45)

1 2 3 4 5 6 7 8 2.5 3 3.5 4 4.5 5 5.5 state V2 - Initial V2 - Converge 圖4.10： Residual Variance V2 之比較圖 ● 結果分析：從圖4.10 我們可看出模型收斂後的 Residual Variance 曲線合理的比初始Residual Variance 曲線下降，這也表示合理的收斂結果，如此之外音節韻母部份下降程度比聲母大，這也能看出在連續語音中音節受後ㄧ音節之影響程度較大。以下 4.2.1 小節中我們利用相同方法來觀察頻譜連音狀態在不同連音程度下的表現。

(46)

4.2.1 不同連音狀態種類影響之程度分析：

頻譜連音狀態為C1：state 平均下降 1.04

(47)

頻譜連音狀態為C2： state 平均下降 0.55

圖4.12：連音狀態為C2時Residual Variance V1 與 V2 前 3 states 之比較圖

state

(48)

● 結果分析：從上圖我們發現前音節影響因素在連音狀態為 C1 那一類之

Residual Variance 下降幅度最多，而在連音狀態為 C3 那一類之 Residual Variance 下降幅度最少，這個與我們所希望模型訓練出來的結果相同。

後音節影響因素之觀察：同樣的做法我們觀察音節之韻母部份，以下為實驗結果與分析：

state

(49)

圖4.15：連音狀態為C2時Residual Variance V1 與 V2 後 5 states 之比較圖

(50)

●結果分析：從上圖我們發現後音節影響因素在連音狀態為C1 那一類之 Residual

Variance 下降幅度最多，而在連音狀態為 C3 那一類之 Residual Variance 下降幅度最少。經過觀察發現模型收斂後影響因素之表現也能合乎我們所預期的結果，表示模型之影響因素能夠有不錯的學習效果。以下4.3 節中將比較韻律、頻譜連音狀態與韻律參數、語言參數之間的關聯性。

4.3 連音狀態之分析

本節中我們首先透過韻律參數來比較韻律、頻譜連音狀態之間的差異，接著

我們觀察頻譜連音狀態和prosody break type 以及語言參數之間的關聯性。

4.3.1 韻律、頻譜連音狀態之比較：

1. Energy-dip 分析

在更新連音狀態時我們有加上Pause Acoustic Model 來輔助，所以在這裡我

們分別觀察韻律以及頻譜之 3 種連音狀態序列的 Energy-dip、Pause duration 之

discrete probability 分佈。

(51)

(1)韻律連音狀態序列：

20 30 40 50 60 70 80 90 100 0

0.1 0.2

Energy-dip discrete probability - C1

dB

20 30 40 50 60 70 80 90 100 0

0.1 0.2

dB

20 30 40 50 60 70 80 90 100 0

0.1

0.2 Energy-dip discrete probability - C3

dB

圖4.17：韻律連音狀態之 Energy-dip discrete probability 分佈圖

(2)頻譜連音狀態序列：

20 30 40 50 60 70 80 90 100 0

0.1 0.2

dB

20 30 40 50 60 70 80 90 100 0

0.1

0.2 Energy-dip discrete probability - C2

dB

20 30 40 50 60 70 80 90 100 0

0.1 0.2

dB

圖4.18：頻譜連音狀態之 Energy-dip discrete probability 分佈圖

● 結果分析：圖4.17 中 C1 的 Energy-dip 分佈較集中在 45～70dB 相較於 C2、

C3 有明顯差異；但圖 4.18 中 3 種連音狀態差異性很小。這結果顯示頻譜參

數的影響相較於Pause Acoustic Model 之影響大很多，且結果卻不如我們預期

(52)

2. Pause duration 分析

(1)韻律連音狀態序列：

0 20 40 60 80 100 120 0

0.5

1 Pause-duration discrete probability - C1

ms

0 50 100 150 200 250 0

0.5 1

Pause-duration discrete probability - C2

ms

0 100 200 300 400 500 600 700 800 900 0

0.1 0.2

ms

圖4.19：韻律連音狀態之 Pause-duration discrete probability 分佈圖

(2)頻譜連音狀態序列：

0 20 40 60 80 100 120 0

0.5

1 Pause-duration discrete probability - C1

ms

0 50 100 150 200 250 0

0.5 1

ms

0 100 200 300 400 500 600 700 800 900 0

0.1 0.2

ms

圖4.20：頻譜連音狀態之 Pause-duration discrete probability 分佈圖

●結果分析：圖 4.19 中 C1、C2 之 Pause-duration 較集中在 0～20ms，C3

與C1、C2 相較起來分佈很廣。而圖 4.20 之 C1、C2 、C3 分佈與圖 4.19 變異不

(53)

4.3.2 Break type 與頻譜連音狀態之分析

我們觀察break type 與頻譜連音狀態之間個數上的關係，以下為 Break type

與連音狀態對應圖。在第 3 章我們定義 B0 為 C1； B1、 B2-1 合併為 C2 ； B2-2、 B3、 B4 則合併為 C3，下表中以粗體線框起。而符號“〈〉”表示數量；括號“（）”表示固定一種 break type 對應於 3 種連音狀態之數量百分比。 表 4.1：BreakType 與頻譜連音狀態對應表 連音狀態 Break Type C1 C2 C3 B0〈4039〉〈1894〉 (46.89%) 〈1657〉 (41.03%) 〈488〉 (12.08%) B1〈32623〉〈7425〉 (22.76%) 〈20463〉 (62.73%) 〈4735〉 (14.51%) B2-1〈4641〉〈724〉 (15.60%) 〈3205〉 (69.06%) 〈712〉 (15.34%) B2-2〈8707〉〈520〉 (5.97%) 〈2182〉 (25.06%) 〈6005〉 (68.97%) B3〈3432〉〈14〉 (0.41%) 〈93〉 (2.71%) 〈3325〉 (96.88%) B4〈2782〉〈1〉 (0.04%) 〈46〉 (1.65%) 〈2735〉 (98.31%) ● 結果分析：從上圖發現每一種break type 之數量百分比最大值(醒目提示記號處)所對應的連音狀態和我們在第 3 章所之定義 break type 合併方式相同(最大值都出現在粗體線框內)，這結果說明利用韻律參數標記之 break type 和使用頻譜參數標記之連音狀態之間的重複性偏高，這樣的結果也顯示韻律參數和頻譜參數之間有著某種程度的關聯性。此外，我們還可以看出粗體線框內中以B3、B4 類別之數量百分比數值最大而 B4 類別之數量百分比數值最小，這或許和break type 分類時的方式有關。

(54)

4.3.3 音節長度與頻譜連音狀態之分析

表 4.2 中內容為為正規化後之平均音長(ms)，音節考慮的影響因素為音節基本類型、音調，數學式如下： n n r n n S t

sd

=

sd

+

μ

+

μ

(4.6)

where : basic

yllable

type

: syllable tone

n n

S

t

表 4.2：正規化音長與頻譜連音狀態對應表 ●結果分析：表4.2 中可以發現相對來說，音節左右連音狀態皆為 C1 的集合音長最短。此外橫列與直行的比較來看，橫列中音長隨著連音狀態不同音長之差異較直行中來的大，這表示音節受到與後ㄧ音節間之連音狀態影響較大。

4.3.4 頻譜連音狀態與決策樹分析

為了觀察我們頻譜連音狀態和語言參數之間的關係，在這裡我們透過決策樹的方法並以語言參數的資訊來當做問題集內容。

4.3.4.1 問題集

問題集中共有18 個問題，其中 Q1 ~ Q11 是對每一個 juncture 前音節的韻母類型以及 juncture 後音節的聲母類型來作為決策樹的問題；Q12、Q13 是對於

(55)

juncture 的在詞句中的位置來作為問題；Q14 ~ Q18 是對於 juncture 之 break type 種類作為問題。 Q1：聲母是否為【空(Null)】？ Q2：聲母是否為【ㄅ(b)】、【ㄉ(d)】、【ㄍ(g)】？ Q3：聲母是否為【ㄈ(f)】、【ㄏ(h)】、【ㄒ(x)】、【ㄕ(sh)】、【ㄙ(s)】？ Q4：聲母是否為【ㄇ(m)】、【ㄋ(n)】、【ㄌ(l)】、【ㄖ(r)】？ Q5：聲母是否為【ㄑ(q)】、【ㄔ(ch)】、【ㄘ(c)】？ Q6：聲母是否為【ㄆ(p)】、【ㄊ(t)】、【ㄎ(k)】？ Q7：聲母是否為【ㄐ(j)】、【ㄓ(zh)】、【ㄗ(z)】？ Q8：韻母是否為單韻母(Single Vowel)： 【一(yi)】、【ㄨ(wu)】、【ㄩ(yu)】、【ㄚ(a)】、【ㄛ(o)】、【ㄜ(e)】、【ㄝ(eh)】、【ㄦ(er)】？ Q9：韻母是否為複韻母(Compound Vowel)： 【ㄞ(ai)】、【ㄟ(ei)】、【ㄠ(ao)】、【ㄡ(ou)】、【一ㄚ(ya)】、【ㄧㄝ(ye)】、【ㄧㄞ(yai)】、【ㄧㄠ(yao)】、【ㄧㄡ(you)】、【ㄧㄛ(yo)】、【ㄨㄚ(wa)】、【ㄨㄛ(wo)】、【ㄨㄞ(wai)】、【ㄨㄟ(wei)】、【ㄩㄝ(yue)】？

Q10：韻母是否為鼻音結尾韻母(Nasal Ending Vowel)：

【ㄢ(an)】、【ㄣ(en)】、【ㄤ(ang)】、【ㄥ(eng)】、【ㄧㄢ(yan)】、【ㄧㄣ(yin)】、

【ㄧㄤ(yang)】、【ㄧㄥ(ying)】、【ㄨㄢ(wan)】、【ㄨㄣ(wen)】、【ㄨㄤ(wang)】、

【ㄨㄥ(weng)】、【ㄩㄢ(yuan)】、【ㄩㄣ(yun)】、【ㄩㄥ(yung)】？

Q11：韻母是否為含有介音(Medial)：

【一ㄚ(ya)】、【ㄧㄝ(ye)】、【ㄧㄞ(yai)】、【ㄧㄠ(yao)】、【ㄧㄡ(you)】、【ㄧㄢ(yan)】、【ㄧㄣ(yin)】、【ㄧㄤ(yang)】、【ㄧㄥ(ying)】、【ㄧㄛ(yo)】、【ㄨㄚ(wa)】、【ㄨㄛ(wo)】、【ㄨㄞ(wai)】、【ㄨㄟ(wei)】、【ㄨㄢ(wan)】、

(56)

【ㄩㄣ(yun)】、【ㄩㄥ(yung)】？ Q12： juncture 位置是否在 inter-word 之間？ Q13： juncture 是否在標點符號位置？ Q14： juncture之Break type標記為 B0 ? Q15： juncture之Break type標記為 B0, B1 ? Q16： juncture之Break type標記為 B0, B1, B2-1 ? Q17： juncture之Break type標記為 B0, B1, B2-1, B2-2 ? Q18： juncture之Break type標記為 B3, B4 ?

4.3.4.2 決策樹分裂條件

圖4.21：決策樹分列式意圖上圖為決策樹之示意圖，root node 在被問過一個問題後裡面的資料會分成兩群資料，root node 必須問過所有問題集(question set)的問題後，以 information gain 最大的那一個問題來分裂，而該問題會從問題集移除。而決策樹在 2 個條件下會停止生長：

1.當 node 中的數量 N < X時停止分裂。

(57)

3.問題集沒有剩餘問題。 information gain 算式如下：當決策樹在生長時我們可以依照每個node 中的不同連音狀態C 之個數計算i 出其entropy： 3 1

1 i log( ), where is numbers of i i i i n n E n C N N = = − ×

∑

× 。 (4.7) 1 2 1 2 information gain = - (E N E N E ) N × + N × 。 (4.8) 在這裡我們設定X=3000、Y=0.007，以下為決策樹分裂圖：

(58)

(59)

●結果分析：

以下我們分析上圖節點(nod)中連音狀態之數量百分比和語言參數之間的關聯性。

分析1 (Q16)：

是→nod 2：Break type 標記為 B0、B1、B2-1 之 juncture，其連音狀態 C3 數量最少。

否→nod 3：Break type 標記為 B2-2、B3、B4 之 juncture，其連音狀態 C3 數量最多。

●分析 1 小結：我們可以發現以 nod 3 為根節點 (root nod)之子支樹 (subtree) 中 的節點以C3 個數最多；以nod 2 為根節點之子支樹中的節點以 C3 個數最少 (除

了nod 10、nod 18，原因後述)。

分析2 (Q14)：

是→nod 4：Break type 標記為 B0 之 juncture，其連音狀態 C1 數量最多。

否→nod 5：Break type 標記為 B1、B2-1 之 juncture，其連音狀態 C2 數量最多。分析3 (Q17)：

是→nod 6：Break type 標記為 B2-2 之 juncture，其連音狀態 C3 數量最多。否→nod 7：Break type 標記為 B3、B4 之 juncture，其連音狀態 C3 數量最多。 ●分析 2, 3 小結：之結果可參照表 4.1，是為合理的結果。

分析4 (Q1)：

nod 8 是 nod 5 中聲母為空聲母之類別，而該類別聲母部份屬於有聲 (voised)聲母，所以比起無聲 (unvoised)聲母來說較容易對前一個音節造成影響，故 nod 8

(60)

分析5 (Q2)： nod 10 是 nod 9 中聲母為ㄅ、ㄉ、ㄍ為之類別，而該類別聲母發音特性為短暫閉氣之爆破音，所以相對其他類型聲母來說對前音節影響較小，故nod 10 中 C3 之數量百分比會提高，而這也是分析1 中C3 個數多於 C1 的原因。分析6 (Q9)： nod 12 是 nod 11 中韻母為複韻母之類別，而該類韻母發音時容易發生尾音拉長的情況而影響後一個音節，故nod 12 中 C3 之數量百分比會降低。分析7 (Q3)： nod 14 是 nod 13 中，聲母為ㄈ、ㄏ、ㄒ、ㄕ、ㄙ之摩擦音，所以相對其他類型韻母來說對後音節影響較大，故nod 14 中 C1 之數量百分比會提高。分析8 (Q10)： nod 16 是 nod 14 中韻母為鼻音結尾類別，而該類韻母發音時容易發生尾音拉長的情況而影響後一個音節，故nod 16 中 C1 之數量百分比會提高；同理，nod 17 中C3 之數量百分比會降低。分析9 (Q12)：

nod 18 是 nod 15 中 juncture 位置屬於 interword，相對於位置在 intraword 之 juncture 此類別前後音節的影響較小，故 nod 18 中 C3 之數量百分比會提高，而

這也是分析1 中C3 個數多於 C1 的原因；同理，nod 19 中 C3 之數量百分比會降

(61)

第五章：結論與未來展望

由實驗結果分析可看出模型中個影響因素能學習到不錯的成果，其中前、後音節影響因素在不同連音狀態時也能在頻譜參數上看出不同的表現。如此之外，頻譜連音狀態在部份韻律參數以及語言參數的分析上都能有合理的結果。然而因為語料庫有些音節種類之數量太少的關係，所以我們才假設一個音節的前、後音節影響因素是不互相影響並且降低聲母、韻母之類別數量，未來如果能夠將語料庫內容再擴充，那麼可以將前、後音節影響因素提升到syllable-pair 的程度亦或更多類別之連音狀態，如此一來建構出來的音節模型應該會更合乎真實的情況。應用方面，未來如果能夠在大型語料庫合成系統中原本之單元選取方法再加上音節頻譜模型提供的頻譜方面資訊，便能夠選出更合適的合成單元以提升語音合成效果。

音節間連音狀態自動標記模型研究

國 立 交 通 大 學

電信工程學系

碩士論文

音節間連音狀態自動標記模型研究

A Study on Auto-Labeling Model for Coarticulation

State between Syllables

研 究 生：陳慶安

指導教授：陳信宏

博士

音節間連音狀態自動標記模型研究

A Study on Auto-Labeling Model for Coarticulation

States between Syllables

研 究 生：陳慶安 Student：Ching-An Chen

指導教授：陳信宏 博士 Advisor：Dr. Sin-Horng Chen

音節間連音狀態自動標記模型研究

研 究 生：陳慶安 指導教授：陳信宏

博士

國立交通大學電信工程學系碩士班

中文摘要

A Study on Auto-Labeling Model for Coarticulation State

between Syllables

Student：Ching-An Chen Advisor：Dr. Sin-Horng Chen

Department of Communication Engineering

National Chiao Tung University

Abstract

目錄

表目錄

圖目錄

第一章

緒論

1.1 研究動機

1.2 研究方向

1.3 章節概要說明

第二章

合成單元之選取

2.1 影響合成品質之因素

2.2 文獻回顧

2.2.1 依據決策樹挑選

2.2.2 依據 Cost Function 挑選

第三章

音節模型的訓練和數學說明

3.1 語料庫簡介

3.2 音節參數表示

3.3 音節模型的原理

= +

+

+

o

r

μ

μ

μ

o

n

S

n

μ

n

n

n

μ

μ

r

o

o

o

o

o

o

o

3.4 音節類型、Final-Initial pair、連音狀態的種類設定

3.4.1 音節類型：

3.4.2 Final-Initial pair 類型：

3.4.3 連音狀態類型：

3.4.3.1 Prosody Break Type 分類方法

(1) Th1、Th2 和 Th3 之定義

f

(

Pd

國立交通大學

研究生：陳慶安

研究生：陳慶安 Student：Ching-An Chen

指導教授：陳信宏博士 Advisor：Dr. Sin-Horng Chen

研究生：陳慶安指導教授：陳信宏

_n

_⎜

_⎟