基礎實驗結果與討論

𝑚=1 𝑇

𝑡=1

(96)

其中，維度為 M，時間總長為 T，原始語音之倒頻譜為𝑐_orig，合成語音之倒頻譜為𝑐_gen。

第四章基礎實驗結果與討論

本章節中，吾人以 Conventional 代表基於隱藏式馬可夫模型之語音合成、

RCM 結合過度適應模型之豐富文脈模型之語音合成，其實驗結果如下所示：

圖(十七)：相似度平均主觀分數圖

從上圖當中我們可以發現，豐富文脈模型之語音合成在聲音相似度的層面具有較高的分數，表示豐富文脈模型之語音合成確實相較於基於隱藏式馬可夫模型更能抓取語料庫錄音者音質的特色。

而其流暢度的平均主觀分數如下圖所示：

圖(十八)：流暢度平均主觀分數圖

從圖(十八)當中，我們可以發現到基於隱藏式馬可夫模型之語音合成具有較

3.2 3.25 3.3 3.35 3.4 3.45 3.5 3.55

HMM-Based RichContextModel

平均主觀分數

相似度平均主觀分數

3.65 3.66 3.67 3.68 3.69 3.7 3.71 3.72

HMM-Based RichContextModel

平均主觀分數

座標軸標題

流暢度平均主觀分數

為優良的合成流暢度，但與豐富文脈模型之語音合成相比，其在平均主觀分數的差異也僅有 0.02，表示兩者之間所產生的語音流暢度差異度不大。

而 AB 喜好測試結果如圖(十九)：

圖(十九)：AB 喜好測試結果

從 AB 喜好測試當中可以發現，兩者所合成的語音對於聽者其實相當難以區分其差異性，而單單觀察基於隱藏式馬可夫模型之語音合成與豐富文脈模型之語音合成可以發現兩者的喜好比例也相當接近，總結以上結果，可以發現兩者所合成的語音對於聽者來說並無法明確指出特定的喜好。

從上述三個實驗結果當中，基於隱藏式馬可夫模型之語音合成與豐富文脈模型之語音合成的整體效能可說是一致的。雖然豐富文脈模型能夠抓取語料庫錄音者的語音特色，但是相較於流暢度略佳的基於隱藏式馬可夫模型之語音合成，使得聽者難以區分其細微之差異。

接下來，吾人以客觀實驗直接觀察兩者所合成語音與原始語音之倒頻譜距

30.00%

28.00%

42.00%

AB喜好測試

HMM-Based RichContextModel No Preference

離以及與原始語音比較所計算其分數之語音品質感知測驗，其實驗結果如下表所示：

HMM-Based RichContextModel

倒頻譜距離 3.7904 3.9431

PESQ

1.2610 1.2514

表格(十)：基於隱藏式馬可夫模型之語音合成與豐富文脈模型之語音合成之客觀實驗結果

從表格(十)當中可以發現基於隱藏式馬可夫模型之語音合成在客觀實驗當中皆具有較佳的效果，表示基於隱藏式馬可夫模型之語音合成所合成之語音應與原始語音較為相近。但觀察豐富文脈模型之語音合成之實驗結果後也發現兩者之間的差異不大，與前述的主觀實驗所獲得的結論一致。

從上述之實驗結果發現豐富文脈模型之語音合成雖然在客觀實驗當中語基於隱藏式馬可夫模型之語音合成效果類似，但是觀察相似度之平均主觀分數後發現豐富文脈模型確實更能抓取語料庫錄音者的聲音特質。

第五章結合向量空間模型之豐富文脈模型語

在文檔中改善豐富文脈模型於中文語音合成之研究 (頁 68-72)

第四章 基礎實驗結果與討論

相似度平均主觀分數

流暢度平均主觀分數

AB喜好測試

HMM-Based RichContextModel

PESQ

第五章 結合向量空間模型之豐富文脈模型語

第四章基礎實驗結果與討論

第五章結合向量空間模型之豐富文脈模型語