實驗環境設定

第三章語料庫簡介、實驗環境設定

3.2 實驗環境設定

在建立語音合成模型之前，吾人需先對訓練語句進行語句分析及斷詞，以便產生訓練文句所對應之文脈描述。

本論文使用中研院斷詞系統 CKIP(Chinese Knowledge Information

Processing)[88]作為中文語句分析與斷詞的系統。該系統能將文句進行斷詞，並給予詞彙相對應之詞性以及給予標點符號特定之代號。經統計，本訓練語料庫之文句經斷詞後，其詞性種類如表格(三)：

詞性種類表

FW

外文標記

A

非謂形容詞

ADV

副詞

ASP

時態標記

b

英文音譯詞

C

對等連接詞、關聯連接詞

DET

定詞

M

量詞

N

名詞、代名詞

Nv

名物化動詞

P

介詞

POST

連接詞、後置詞

Vi

動詞

Vt

動詞

T

的,之,得,地

表格(三)：訓練語料庫斷詞詞性表

在本論文中，並非全部的標點符號都納入文脈當中，吾人僅考慮較常出現

之標點符號，其內容與對應之文脈代號如表格(四)所示：

標點符號種類表

標點符號 文脈代號

： COLONCATEGORY

。 PERIODCATEGORY

， COMMACATEGORY

？ QUESTIONCATEGORY

、 PAUSECATEGORY

； SEMICOLONCATEGORY

練左至右之 5 個狀態的隱藏式馬可夫模型；此外，吾人亦使用隱藏式馬可夫模型來訓練時間長度模型。

為了避免資料稀疏問題，吾人亦使用最小描述長度決策樹將聲學模型依其文脈標記進行分群。進行分群所使用的問題集以及其決策樹之範例如表格(六)及圖(十六)，完整之問題集與決策樹請參閱附錄一及附錄二。

分群問題集範例

QS "Phone==a" {a^*,*^a-*,*-a+*,*+a=*,*=a/Tone:*}

QS "LL-Phone==a" {a^*}

QS "L-Phone==a" {*^a-*}

QS "C-Phone==a" {*-a+*}

QS "R-Phone==a" {*+a=*}

QS "RR-Phone==a" {*=a/Tone:*}

QS "Tone==1" {*/Tone:1+*,*+1-*,*-1@*}

QS "L-Tone==1" {*/Tone:1+*}

QS "C-Tone==1" {*+1-*}

QS "R-Tone==1" {*-1@*}

QS "POSTAG==FW" {*/POS:FW^*,*^FW_*,*_FW/PUNCT:*}

QS "L-POSTAG==FW" {*/POS:FW^*}

QS "C-POSTAG==FW" {*^FW_*}

QS "R-POSTAG==FW" {*_FW/PUNCT:*}

QS "L-PUNCTTAG==COLONCATEGORY" {*/PUNCT:COLONCATEGORY^*}

QS "C-PUNCTTAG==COLONCATEGORY" {*^COLONCATEGORY!*}

QS "PhoneInWordPosition-FW==1" {*/PIP:1_*}

QS "CharInWordPosition-FW==1" {*/CIP:1_*}

QS "WordInUttPosition-FW==1" {*/PIU:1_*}

QS "UttInAllPosition-FW==1" {*/UIA:1_*}

QS "CountPhnInWord==1" {*/CPP:1#*,*#1^*,*^1/CCP:*}

QS "CountWordInUtt==8" {*/CPU:8@*,*@8#*,*#8/CUTT:*}

QS "CountUttInAll==1" {/CUTT:1}

表格(六)：分群問題集範例

圖(十六)：分群決策樹範例

聲學模型經分群及訓練後，吾人便進行豐富文脈模型之訓練，訓練完成後，

將豐富文脈模型還原至所屬之葉節點當中，使分群模型之葉節點成為高斯混和模型(後以高斯混合豐富文脈模型代稱此模型)；在此，我們保留原有之基頻模型與時間長度模型，僅對頻譜特徵的部分進行豐富文脈模型的建立。

決策樹分群模型與豐富文脈模型在不同狀態下的模型數量如下表：

成員模型 狀態模型數量

頻譜決策樹分群模型

1 683 2 792 3 1495 4 856 5 942 豐富文脈模型 1–5 129483

表格(七)：模型數量表

從表格(七)當中吾人可推得以豐富文脈模型重組後的決策樹分群模型，其葉

節點為一個平均具有 135 個混合模型之高斯混和模型，在此，本論文將重組後的決策樹分群模型稱之為高斯混和豐富文脈模型。

高斯混和豐富文脈模型建立完成後，吾人將最小描述長度參數設定為 0.1，

使分群決策樹增大，藉此訓練頻譜之過度適應決策樹分群模型，並作為產生頻譜之起始語音參數序列之模型。在此，本論文保留先前依一般分群決策樹所訓練之基頻模型與時間長度模型，並無額外重新訓練過度適應決策樹分群模型。

在實驗當中，吾人將合成語句之測試集區分為主觀測試集與客觀測試集。

其中，主觀測試集的合成語句皆無標記每個發音之時間長度，並隨機從語料庫中挑選未用於訓練之語句共 30 句進行合成，並有 7 位受試者進行測驗；吾人分別將以聲音相似度、流暢度之主觀意見分數及 AB 喜好測試作為人耳聽覺上的喜好與分辨能力的實驗結果。

其中，吾人將平均主觀分數分成 5 等第，其對應之分數分別如表格(八)、表格(九)

相似度平均主觀分數等第表

分數說明

5

感覺與錄音者的聲音一致。

4

感覺與錄音者的聲音類似。

3

感覺很像錄音者的聲音，但又不太像。

2

感覺比較像是其他人的聲音，不太像錄音者。

1

感覺與錄音者的聲音完全不同。

表格(八)：相似度平均主觀分數等第表

流暢度平均主觀分數等第表

分數說明

5

聽起來十分自然、流暢。

4

聽起來相當流暢，但有些許的不自然。

3

聽起來很像人在說話，但又感覺不太像。

2

聽起來感覺很不自然、流暢，不太像人在說話。

1

聽起來完全不像是人在說話。

表格(九)：流暢度平均主觀分數等第表

而 AB 喜好測試則將三種不同技術分成三種不同組合進行測試，最後再進行不同技術喜好次數的統計百分比。

而客觀測試集則是從語料庫當中挑選了 29 句未經訓練，且含有時間標記的語句進行合成，其客觀實驗結果將以倒頻譜距離與語音品質感知測驗作為數據的呈現。倒頻譜距離之公式如下式：

𝑑(𝑐_gen, 𝑐_orig) = 10

𝑇 ln 10∑ √ ∑ (𝑐_𝑡,gen(𝑚) − 𝑐_𝑡,orig(𝑚))²

𝑀

𝑚=1 𝑇

𝑡=1

(96)

其中，維度為 M，時間總長為 T，原始語音之倒頻譜為𝑐_orig，合成語音之倒頻譜為𝑐_gen。

在文檔中改善豐富文脈模型於中文語音合成之研究 (頁 62-68)

第三章 語料庫簡介、實驗環境設定

3.2 實驗環境設定

FW

A

ADV

ASP

b

C

DET

M

N

Nv

P

POST

Vi

Vt

T

5

4

3

2

1

5

4

3

2

1

第三章語料庫簡介、實驗環境設定