在豐富文脈模型語音合成當中,為了解決在起始語音參數序列過於平緩的 問題,日本學者 Takamichi 提出了使用過度適應模型來決定起始聲學參數序列。
吾人認為此一作法有以下幾個缺點:
1. 需額外訓練一個過度適應語料庫之分群模型供起始聲學參數向量序列 使用。
2. 分群模型之大小會影響合成之效果,故須調整其大小。
此外,豐富文脈模型為描述特定語音片段之模型,故相較一般之決策樹分 群模型來得精細;而從第四章的結論中,較為優良的起始語音參數序列對於語 音合成有正面的幫助,因此豐富文脈模型應能用於產生起始語音參數序列當中。
又豐富文脈模型之語音合成為統計模型式之語音合成之一種,在統計模型式之 語音合成當中,用於產生起始語音參數序列與更新語音參數序列之模型通常皆 為同一組模型。因此,本論文將針對以上兩點提出改良之方法。
5.1 提出之方法描述
由於每一個豐富文脈模型皆具有獨特的文脈用於描述其聲學特色,且其文 脈描述與其聲學模型之間息息相關,但在豐富文脈模型之語音合成當中,由於 合成語句之文脈標記不見得能夠與豐富文脈模型之標記完全匹配,因此無法直 接選擇某個特定的豐富文脈模型作為產生起始語音參數序列之模型。
67
為了解決此一問題,本論文提出使用在單元選取語音合成當中所使用的聲 學空間公式(Acoustic Space Formula),利用在訓練模型時獲得的決策分群樹,將 合成語句所有的文脈標記進行分群,並藉此將文脈標記區分至標記上較為相近 的豐富文脈模型群當中。此外,藉由分群的方式亦可降低需挑選豐富文脈模型 的次數以節省時間。
分群完成後,本論文提出使用潛藏語意分析來分析合成語句之文脈標記與 豐富文脈模型之文脈標記。以潛藏語意分析[29]的方式,可以分析出每個文脈標 記的潛藏韻律,並獲得對應於該文脈標記之韻律向量,其中,韻律向量的維度皆 為固定、且每個維度具有用於代表韻律資訊的獨特數值。最後,本論文引入了在 資訊檢索領域當中用於計算查詢(Query)與文件(Document)之間關聯性之方法:
向量空間模型[30]。
向量空間模型係指將查詢或文件以向量表示,藉由計算其餘弦相似度
(Cosine Similarity)來進行排序,以獲得與查詢相似度最高之文件。在本論文當中,
可將查詢視為目標的韻律向量,文件則為豐富文脈模型之韻律向量。其中,假設 𝑡⃑為目標的韻律向量,而𝑚⃑⃑⃑為豐富文脈模型之韻律向量,其餘弦相似度如下式:
cos(𝑞⃑, 𝑑⃑) = 𝑡⃑ ∙ 𝑚⃑⃑⃑
‖𝑡⃑‖‖𝑚⃑⃑⃑‖ (97)
藉由上述步驟,文脈標記可簡化為以特定數值代表的韻律向量,並利用向量空 間模型可求得與目標文脈標記有最高相似度的豐富文脈模型;最後使用尋找到 的豐富文脈模型來產生起始語音參數序列,並搭配高斯混合豐富文脈模型以改
68
良式語音參數產生演算法進行語音參數序列的更新,因此本論文所提出之方法 可以下圖表示:
圖(二十):使用向量空間模型於挑選豐富文脈模型之起始語音參數序列
5.2 實驗設定
由於使用潛藏語意分析所獲得的韻律向量之維度為可設定之變數,為了找 出韻律向量之最佳維度,本論文以客觀測試集進行實驗,以倒頻譜距離以及語 音品質感知測驗呈現合成之結果,其結果如下表所示:
69
維度 5 10 15 20 25 Ceps.
Dist. 4.2621 4.2628 4.2885 4.2642 4.2725 PESQ 1.2109 1.2221 1.2151 1.2274 1.2209
維度 30 35 40 45 50 Ceps.
Dist.
4.2604 4.2695 4.2676 4.2691 4.2653
PESQ 1.2133 1.2205 1.2121 1.2113 1.2092表格(十一):不同維度之律韻向量所產生的 合成語音之客觀實驗數據
從表格(十一)當中可以發現,倒頻譜距離在維度為 30 時有最佳表現,而
PESQ 則是在維度為 20 時有最佳表現,且當維度數值越大,所產生的 PESQ 的 數值有著越小的趨勢存在,這表示為度過高的韻律維度會包含過多不必要的資 訊,導致合成語音品質下降。而從表格(十一)當中可以發現不同維度所產生的倒 頻譜距離差異不大,大多座落在 4.26–4.27 之區間當中,表示倒頻譜距離在本 論文中無法區辨不同維度之優劣,因此本論文挑選產生最佳 PESQ 數值的維度
20 作為提出之方法的韻律向量之維度,與現有之豐富文脈模型之語音合成進行 主觀測試。
70