結合向量空間模型之豐富文脈模型語音合成 - 改善豐富文脈模型於中文語音合成之研究

在豐富文脈模型語音合成當中，為了解決在起始語音參數序列過於平緩的問題，日本學者 Takamichi 提出了使用過度適應模型來決定起始聲學參數序列。

吾人認為此一作法有以下幾個缺點：

1. 需額外訓練一個過度適應語料庫之分群模型供起始聲學參數向量序列使用。

2. 分群模型之大小會影響合成之效果，故須調整其大小。

此外，豐富文脈模型為描述特定語音片段之模型，故相較一般之決策樹分群模型來得精細；而從第四章的結論中，較為優良的起始語音參數序列對於語音合成有正面的幫助，因此豐富文脈模型應能用於產生起始語音參數序列當中。

又豐富文脈模型之語音合成為統計模型式之語音合成之一種，在統計模型式之語音合成當中，用於產生起始語音參數序列與更新語音參數序列之模型通常皆為同一組模型。因此，本論文將針對以上兩點提出改良之方法。

5.1 提出之方法描述

由於每一個豐富文脈模型皆具有獨特的文脈用於描述其聲學特色，且其文脈描述與其聲學模型之間息息相關，但在豐富文脈模型之語音合成當中，由於合成語句之文脈標記不見得能夠與豐富文脈模型之標記完全匹配，因此無法直接選擇某個特定的豐富文脈模型作為產生起始語音參數序列之模型。

為了解決此一問題，本論文提出使用在單元選取語音合成當中所使用的聲學空間公式(Acoustic Space Formula)，利用在訓練模型時獲得的決策分群樹，將合成語句所有的文脈標記進行分群，並藉此將文脈標記區分至標記上較為相近的豐富文脈模型群當中。此外，藉由分群的方式亦可降低需挑選豐富文脈模型的次數以節省時間。

分群完成後，本論文提出使用潛藏語意分析來分析合成語句之文脈標記與豐富文脈模型之文脈標記。以潛藏語意分析[29]的方式，可以分析出每個文脈標記的潛藏韻律，並獲得對應於該文脈標記之韻律向量，其中，韻律向量的維度皆為固定、且每個維度具有用於代表韻律資訊的獨特數值。最後，本論文引入了在資訊檢索領域當中用於計算查詢(Query)與文件(Document)之間關聯性之方法：

向量空間模型[30]。

向量空間模型係指將查詢或文件以向量表示，藉由計算其餘弦相似度

(Cosine Similarity)來進行排序，以獲得與查詢相似度最高之文件。在本論文當中，

可將查詢視為目標的韻律向量，文件則為豐富文脈模型之韻律向量。其中，假設 𝑡⃑為目標的韻律向量，而𝑚⃑⃑⃑為豐富文脈模型之韻律向量，其餘弦相似度如下式：

cos(𝑞⃑, 𝑑⃑) = 𝑡⃑ ∙ 𝑚⃑⃑⃑

‖𝑡⃑‖‖𝑚⃑⃑⃑‖ (97)

藉由上述步驟，文脈標記可簡化為以特定數值代表的韻律向量，並利用向量空間模型可求得與目標文脈標記有最高相似度的豐富文脈模型；最後使用尋找到的豐富文脈模型來產生起始語音參數序列，並搭配高斯混合豐富文脈模型以改

良式語音參數產生演算法進行語音參數序列的更新，因此本論文所提出之方法可以下圖表示：

圖(二十)：使用向量空間模型於挑選豐富文脈模型之起始語音參數序列

5.2 實驗設定

由於使用潛藏語意分析所獲得的韻律向量之維度為可設定之變數，為了找出韻律向量之最佳維度，本論文以客觀測試集進行實驗，以倒頻譜距離以及語音品質感知測驗呈現合成之結果，其結果如下表所示：

維度 5 10 15 20 25 Ceps.

Dist. 4.2621 4.2628 4.2885 4.2642 4.2725 PESQ 1.2109 1.2221 1.2151 1.2274 1.2209

維度 30 35 40 45 50 Ceps.

Dist.

4.2604 4.2695 4.2676 4.2691 4.2653

PESQ 1.2133 1.2205 1.2121 1.2113 1.2092

表格(十一)：不同維度之律韻向量所產生的合成語音之客觀實驗數據

從表格(十一)當中可以發現，倒頻譜距離在維度為 30 時有最佳表現，而

PESQ 則是在維度為 20 時有最佳表現，且當維度數值越大，所產生的 PESQ 的數值有著越小的趨勢存在，這表示為度過高的韻律維度會包含過多不必要的資訊，導致合成語音品質下降。而從表格(十一)當中可以發現不同維度所產生的倒頻譜距離差異不大，大多座落在 4.26–4.27 之區間當中，表示倒頻譜距離在本論文中無法區辨不同維度之優劣，因此本論文挑選產生最佳 PESQ 數值的維度

20 作為提出之方法的韻律向量之維度，與現有之豐富文脈模型之語音合成進行主觀測試。

在文檔中改善豐富文脈模型於中文語音合成之研究 (頁 72-76)