𝑚=1 𝑇
𝑡=1
(96)
其中,維度為 M,時間總長為 T,原始語音之倒頻譜為𝑐orig,合成語音之倒頻譜 為𝑐gen。
第四章 基礎實驗結果與討論
本章節中,吾人以 Conventional 代表基於隱藏式馬可夫模型之語音合成、
RCM 結合過度適應模型之豐富文脈模型之語音合成,其實驗結果如下所示:
63
圖(十七):相似度平均主觀分數圖
從上圖當中我們可以發現,豐富文脈模型之語音合成在聲音相似度的層面 具有較高的分數,表示豐富文脈模型之語音合成確實相較於基於隱藏式馬可夫 模型更能抓取語料庫錄音者音質的特色。
而其流暢度的平均主觀分數如下圖所示:
圖(十八):流暢度平均主觀分數圖
從圖(十八)當中,我們可以發現到基於隱藏式馬可夫模型之語音合成具有較
3.2 3.25 3.3 3.35 3.4 3.45 3.5 3.55
HMM-Based RichContextModel
平均主觀分數
相似度平均主觀分數
3.65 3.66 3.67 3.68 3.69 3.7 3.71 3.72
HMM-Based RichContextModel
平均主觀分數
座標軸標題
流暢度平均主觀分數
64
為優良的合成流暢度,但與豐富文脈模型之語音合成相比,其在平均主觀分數 的差異也僅有 0.02,表示兩者之間所產生的語音流暢度差異度不大。
而 AB 喜好測試結果如圖(十九):
圖(十九):AB 喜好測試結果
從 AB 喜好測試當中可以發現,兩者所合成的語音對於聽者其實相當難以 區分其差異性,而單單觀察基於隱藏式馬可夫模型之語音合成與豐富文脈模型 之語音合成可以發現兩者的喜好比例也相當接近,總結以上結果,可以發現兩 者所合成的語音對於聽者來說並無法明確指出特定的喜好。
從上述三個實驗結果當中,基於隱藏式馬可夫模型之語音合成與豐富文脈 模型之語音合成的整體效能可說是一致的。雖然豐富文脈模型能夠抓取語料庫 錄音者的語音特色,但是相較於流暢度略佳的基於隱藏式馬可夫模型之語音合 成,使得聽者難以區分其細微之差異。
接下來,吾人以客觀實驗直接觀察兩者所合成語音與原始語音之倒頻譜距
30.00%
28.00%
42.00%
AB喜好測試
HMM-Based RichContextModel No Preference
65
離以及與原始語音比較所計算其分數之語音品質感知測驗,其實驗結果如下表 所示:
HMM-Based RichContextModel
倒頻譜距離 3.7904 3.9431
PESQ
1.2610 1.2514表格(十):基於隱藏式馬可夫模型之語音合成與 豐富文脈模型之語音合成之客觀實驗結果
從表格(十)當中可以發現基於隱藏式馬可夫模型之語音合成在客觀實驗當 中皆具有較佳的效果,表示基於隱藏式馬可夫模型之語音合成所合成之語音應 與原始語音較為相近。但觀察豐富文脈模型之語音合成之實驗結果後也發現兩 者之間的差異不大,與前述的主觀實驗所獲得的結論一致。
從上述之實驗結果發現豐富文脈模型之語音合成雖然在客觀實驗當中語基 於隱藏式馬可夫模型之語音合成效果類似,但是觀察相似度之平均主觀分數後 發現豐富文脈模型確實更能抓取語料庫錄音者的聲音特質。
66