第三章 語料庫簡介、實驗環境設定
3.2 實驗環境設定
在建立語音合成模型之前,吾人需先對訓練語句進行語句分析及斷詞,以 便產生訓練文句所對應之文脈描述。
57
本 論 文 使 用 中 研 院 斷 詞 系 統 CKIP(Chinese Knowledge Information
Processing)[88]作為中文語句分析與斷詞的系統。該系統能將文句進行斷詞,並 給予詞彙相對應之詞性以及給予標點符號特定之代號。經統計,本訓練語料庫 之文句經斷詞後,其詞性種類如表格(三):
詞性種類表
FW
外文標記A
非謂形容詞ADV
副詞ASP
時態標記b
英文音譯詞C
對等連接詞、關聯連接詞DET
定詞M
量詞N
名詞、代名詞Nv
名物化動詞P
介詞POST
連接詞、後置詞Vi
動詞Vt
動詞T
的,之,得,地表格(三):訓練語料庫斷詞詞性表
在本論文中,並非全部的標點符號都納入文脈當中,吾人僅考慮較常出現
之標點符號,其內容與對應之文脈代號如表格(四)所示:
標點符號種類表
標點符號 文脈代號
: COLONCATEGORY
。 PERIODCATEGORY
, COMMACATEGORY
? QUESTIONCATEGORY
、 PAUSECATEGORY
; SEMICOLONCATEGORY
58
59
練左至右之 5 個狀態的隱藏式馬可夫模型;此外,吾人亦使用隱藏式馬可夫模 型來訓練時間長度模型。
為了避免資料稀疏問題,吾人亦使用最小描述長度決策樹將聲學模型依其 文脈標記進行分群。進行分群所使用的問題集以及其決策樹之範例如表格(六)及 圖(十六),完整之問題集與決策樹請參閱附錄一及附錄二。
分群問題集範例
QS "Phone==a" {a^*,*^a-*,*-a+*,*+a=*,*=a/Tone:*}
QS "LL-Phone==a" {a^*}
QS "L-Phone==a" {*^a-*}
QS "C-Phone==a" {*-a+*}
QS "R-Phone==a" {*+a=*}
QS "RR-Phone==a" {*=a/Tone:*}
QS "Tone==1" {*/Tone:1+*,*+1-*,*-1@*}
QS "L-Tone==1" {*/Tone:1+*}
QS "C-Tone==1" {*+1-*}
QS "R-Tone==1" {*-1@*}
QS "POSTAG==FW" {*/POS:FW^*,*^FW_*,*_FW/PUNCT:*}
QS "L-POSTAG==FW" {*/POS:FW^*}
QS "C-POSTAG==FW" {*^FW_*}
QS "R-POSTAG==FW" {*_FW/PUNCT:*}
QS "L-PUNCTTAG==COLONCATEGORY" {*/PUNCT:COLONCATEGORY^*}
QS "C-PUNCTTAG==COLONCATEGORY" {*^COLONCATEGORY!*}
QS "PhoneInWordPosition-FW==1" {*/PIP:1_*}
QS "CharInWordPosition-FW==1" {*/CIP:1_*}
QS "WordInUttPosition-FW==1" {*/PIU:1_*}
QS "UttInAllPosition-FW==1" {*/UIA:1_*}
QS "CountPhnInWord==1" {*/CPP:1#*,*#1^*,*^1/CCP:*}
QS "CountWordInUtt==8" {*/CPU:8@*,*@8#*,*#8/CUTT:*}
QS "CountUttInAll==1" {/CUTT:1}
表格(六):分群問題集範例
60
圖(十六):分群決策樹範例
聲學模型經分群及訓練後,吾人便進行豐富文脈模型之訓練,訓練完成後,
將豐富文脈模型還原至所屬之葉節點當中,使分群模型之葉節點成為高斯混和 模型(後以高斯混合豐富文脈模型代稱此模型);在此,我們保留原有之基頻模型 與時間長度模型,僅對頻譜特徵的部分進行豐富文脈模型的建立。
決策樹分群模型與豐富文脈模型在不同狀態下的模型數量如下表:
成員 模型 狀態 模型數量
頻譜 決策樹分群模型
1 683 2 792 3 1495 4 856 5 942 豐富文脈模型 1–5 129483
表格(七):模型數量表
從表格(七)當中吾人可推得以豐富文脈模型重組後的決策樹分群模型,其葉
61
節點為一個平均具有 135 個混合模型之高斯混和模型,在此,本論文將重組後 的決策樹分群模型稱之為高斯混和豐富文脈模型。
高斯混和豐富文脈模型建立完成後,吾人將最小描述長度參數設定為 0.1,
使分群決策樹增大,藉此訓練頻譜之過度適應決策樹分群模型,並作為產生頻 譜之起始語音參數序列之模型。在此,本論文保留先前依一般分群決策樹所訓 練之基頻模型與時間長度模型,並無額外重新訓練過度適應決策樹分群模型。
在實驗當中,吾人將合成語句之測試集區分為主觀測試集與客觀測試集。
其中,主觀測試集的合成語句皆無標記每個發音之時間長度,並隨機從語料庫 中挑選未用於訓練之語句共 30 句進行合成,並有 7 位受試者進行測驗;吾人分 別將以聲音相似度、流暢度之主觀意見分數及 AB 喜好測試作為人耳聽覺上的 喜好與分辨能力的實驗結果。
其中,吾人將平均主觀分數分成 5 等第,其對應之分數分別如表格(八)、表 格(九)
相似度平均主觀分數等第表
分數 說明
5
感覺與錄音者的聲音一致。4
感覺與錄音者的聲音類似。3
感覺很像錄音者的聲音,但又不太像。2
感覺比較像是其他人的聲音,不太像錄音者。1
感覺與錄音者的聲音完全不同。表格(八):相似度平均主觀分數等第表
62
流暢度平均主觀分數等第表
分數 說明
5
聽起來十分自然、流暢。4
聽起來相當流暢,但有些許的不自然。3
聽起來很像人在說話,但又感覺不太像。2
聽起來感覺很不自然、流暢,不太像人在說話。1
聽起來完全不像是人在說話。表格(九):流暢度平均主觀分數等第表
而 AB 喜好測試則將三種不同技術分成三種不同組合進行測試,最後再進 行不同技術喜好次數的統計百分比。
而客觀測試集則是從語料庫當中挑選了 29 句未經訓練,且含有時間標記的 語句進行合成,其客觀實驗結果將以倒頻譜距離與語音品質感知測驗作為數據 的呈現。倒頻譜距離之公式如下式:
𝑑(𝑐gen, 𝑐orig) = 10
𝑇 ln 10∑ √ ∑ (𝑐𝑡,gen(𝑚) − 𝑐𝑡,orig(𝑚))2
𝑀
𝑚=1 𝑇
𝑡=1
(96)
其中,維度為 M,時間總長為 T,原始語音之倒頻譜為𝑐orig,合成語音之倒頻譜 為𝑐gen。