• 沒有找到結果。

第三章 語料庫簡介、實驗環境設定

3.2 實驗環境設定

在建立語音合成模型之前,吾人需先對訓練語句進行語句分析及斷詞,以 便產生訓練文句所對應之文脈描述。

57

本 論 文 使 用 中 研 院 斷 詞 系 統 CKIP(Chinese Knowledge Information

Processing)[88]作為中文語句分析與斷詞的系統。該系統能將文句進行斷詞,並 給予詞彙相對應之詞性以及給予標點符號特定之代號。經統計,本訓練語料庫 之文句經斷詞後,其詞性種類如表格(三):

詞性種類表

FW

外文標記

A

非謂形容詞

ADV

副詞

ASP

時態標記

b

英文音譯詞

C

對等連接詞、關聯連接詞

DET

定詞

M

量詞

N

名詞、代名詞

Nv

名物化動詞

P

介詞

POST

連接詞、後置詞

Vi

動詞

Vt

動詞

T

的,之,得,地

表格(三):訓練語料庫斷詞詞性表

在本論文中,並非全部的標點符號都納入文脈當中,吾人僅考慮較常出現

之標點符號,其內容與對應之文脈代號如表格(四)所示:

標點符號種類表

標點符號 文脈代號

COLONCATEGORY

PERIODCATEGORY

COMMACATEGORY

QUESTIONCATEGORY

PAUSECATEGORY

SEMICOLONCATEGORY

58

59

練左至右之 5 個狀態的隱藏式馬可夫模型;此外,吾人亦使用隱藏式馬可夫模 型來訓練時間長度模型。

為了避免資料稀疏問題,吾人亦使用最小描述長度決策樹將聲學模型依其 文脈標記進行分群。進行分群所使用的問題集以及其決策樹之範例如表格(六)及 圖(十六),完整之問題集與決策樹請參閱附錄一及附錄二。

分群問題集範例

QS "Phone==a" {a^*,*^a-*,*-a+*,*+a=*,*=a/Tone:*}

QS "LL-Phone==a" {a^*}

QS "L-Phone==a" {*^a-*}

QS "C-Phone==a" {*-a+*}

QS "R-Phone==a" {*+a=*}

QS "RR-Phone==a" {*=a/Tone:*}

QS "Tone==1" {*/Tone:1+*,*+1-*,*-1@*}

QS "L-Tone==1" {*/Tone:1+*}

QS "C-Tone==1" {*+1-*}

QS "R-Tone==1" {*-1@*}

QS "POSTAG==FW" {*/POS:FW^*,*^FW_*,*_FW/PUNCT:*}

QS "L-POSTAG==FW" {*/POS:FW^*}

QS "C-POSTAG==FW" {*^FW_*}

QS "R-POSTAG==FW" {*_FW/PUNCT:*}

QS "L-PUNCTTAG==COLONCATEGORY" {*/PUNCT:COLONCATEGORY^*}

QS "C-PUNCTTAG==COLONCATEGORY" {*^COLONCATEGORY!*}

QS "PhoneInWordPosition-FW==1" {*/PIP:1_*}

QS "CharInWordPosition-FW==1" {*/CIP:1_*}

QS "WordInUttPosition-FW==1" {*/PIU:1_*}

QS "UttInAllPosition-FW==1" {*/UIA:1_*}

QS "CountPhnInWord==1" {*/CPP:1#*,*#1^*,*^1/CCP:*}

QS "CountWordInUtt==8" {*/CPU:8@*,*@8#*,*#8/CUTT:*}

QS "CountUttInAll==1" {/CUTT:1}

表格(六):分群問題集範例

60

圖(十六):分群決策樹範例

聲學模型經分群及訓練後,吾人便進行豐富文脈模型之訓練,訓練完成後,

將豐富文脈模型還原至所屬之葉節點當中,使分群模型之葉節點成為高斯混和 模型(後以高斯混合豐富文脈模型代稱此模型);在此,我們保留原有之基頻模型 與時間長度模型,僅對頻譜特徵的部分進行豐富文脈模型的建立。

決策樹分群模型與豐富文脈模型在不同狀態下的模型數量如下表:

成員 模型 狀態 模型數量

頻譜 決策樹分群模型

1 683 2 792 3 1495 4 856 5 942 豐富文脈模型 1–5 129483

表格(七):模型數量表

從表格(七)當中吾人可推得以豐富文脈模型重組後的決策樹分群模型,其葉

61

節點為一個平均具有 135 個混合模型之高斯混和模型,在此,本論文將重組後 的決策樹分群模型稱之為高斯混和豐富文脈模型。

高斯混和豐富文脈模型建立完成後,吾人將最小描述長度參數設定為 0.1,

使分群決策樹增大,藉此訓練頻譜之過度適應決策樹分群模型,並作為產生頻 譜之起始語音參數序列之模型。在此,本論文保留先前依一般分群決策樹所訓 練之基頻模型與時間長度模型,並無額外重新訓練過度適應決策樹分群模型。

在實驗當中,吾人將合成語句之測試集區分為主觀測試集與客觀測試集。

其中,主觀測試集的合成語句皆無標記每個發音之時間長度,並隨機從語料庫 中挑選未用於訓練之語句共 30 句進行合成,並有 7 位受試者進行測驗;吾人分 別將以聲音相似度、流暢度之主觀意見分數及 AB 喜好測試作為人耳聽覺上的 喜好與分辨能力的實驗結果。

其中,吾人將平均主觀分數分成 5 等第,其對應之分數分別如表格(八)、表 格(九)

相似度平均主觀分數等第表

分數 說明

5

感覺與錄音者的聲音一致。

4

感覺與錄音者的聲音類似。

3

感覺很像錄音者的聲音,但又不太像。

2

感覺比較像是其他人的聲音,不太像錄音者。

1

感覺與錄音者的聲音完全不同。

表格(八):相似度平均主觀分數等第表

62

流暢度平均主觀分數等第表

分數 說明

5

聽起來十分自然、流暢。

4

聽起來相當流暢,但有些許的不自然。

3

聽起來很像人在說話,但又感覺不太像。

2

聽起來感覺很不自然、流暢,不太像人在說話。

1

聽起來完全不像是人在說話。

表格(九):流暢度平均主觀分數等第表

而 AB 喜好測試則將三種不同技術分成三種不同組合進行測試,最後再進 行不同技術喜好次數的統計百分比。

而客觀測試集則是從語料庫當中挑選了 29 句未經訓練,且含有時間標記的 語句進行合成,其客觀實驗結果將以倒頻譜距離與語音品質感知測驗作為數據 的呈現。倒頻譜距離之公式如下式:

𝑑(𝑐gen, 𝑐orig) = 10

𝑇 ln 10∑ √ ∑ (𝑐𝑡,gen(𝑚) − 𝑐𝑡,orig(𝑚))2

𝑀

𝑚=1 𝑇

𝑡=1

(96)

其中,維度為 M,時間總長為 T,原始語音之倒頻譜為𝑐orig,合成語音之倒頻譜 為𝑐gen