成本函數之設計

第二章文獻回顧

2.1 單元選取式語音合成

2.1.4 成本函數之設計

當我們決定好單位特徵之後，接下來的目標就是定義成本函數(Cost Function) 以求取整體成本之最小值。本章節當中，我們將分別介紹目標成本與聯結成本之成本函數的設計與種類。

 目標成本函數之設計：

過去研究指出，目標特徵與單元皆是分布在感知空間(Perceptual Space)當中的一點，目前有兩種方式用於估測目標特徵與單元在感知空間中差異，一為由杭特布萊克演算法所提出之獨立特徵公式(Independent Feature Formulation)，另一為聲學空間公式(Acoustic-space Formulation)。

在獨立特徵公式當中，目標特徵與單元之間的成本可以藉由估算對於每一個特徵之間的距離總和來求得其成本，又因其假設特徵之間皆是獨立且具有不同之權重之特性，因此，原本的目標成本函數便可以改寫如下：

𝑇(𝑠_𝑡, 𝑢_𝑡) = ∑ 𝑤_𝑝

𝑃

𝑝=1

(𝑇_𝑝(𝑠_𝑡[𝑝], 𝑢_𝑗[𝑝])) (5)

其中：

P 為用於描述單元與目標規格的特徵數量。

𝑠_𝑡為第𝑡個由 P 個特徵所組成之目標規格。

𝑢_𝑡為第𝑡個由 P 個特徵所組成之單元規格。

𝑠_𝑡[𝑝]為第𝑡個目標規格當中第𝑝個特徵值，𝑢_𝑡[𝑝]同理可推。

𝑇_𝑝(𝑥, 𝑦)即為特徵𝑝在𝑥、𝑦之間的距離函數。

𝑤_𝑝即為函數𝑇_𝑝之權重，𝑇(𝑠_𝑡, 𝑢_𝑡)則為目標規格與單元之間的總和成本。

特徵之間的距離函數可藉由曼哈頓距離(Manhattan Distance)[49]來總和𝑃個特徵成本獲得；此外，也有學者提出使用歐氏距離(Euclidean Distance)[50]來求取目標成本，其公式如下：

𝑇(𝑠_𝑡, 𝑢_𝑡) = √∑ 𝑤_𝑝(𝑇_𝑝(𝑠_𝑡[𝑝], 𝑢_𝑗[𝑝]))²

𝑃

𝑝=1

(6)

在獨立特徵公式中，由於不同特徵所給予的權重影響了目標特徵與單元之間的成本，因此如何設定其權重是相當重要的。目前權重的設定除了使用人工的方式進行權重的調整之外，藉由聲學之間的距離做權重比例的調整或是收集人類發音決策，以機器學習的方式來調整特徵的權重也是主流的方法之一。

聲學空間公式則是認為感知空間上目標特徵或是單元的分布與語音辨識當中頻譜分布類似，於是以樹狀分群(Tree-clustering)的方式，將類似的單元分在相同一群[52]。藉由分群的方式，目標特徵便依照樹狀分群所設計之規則分至特定群體當中，而同樣在該群體中的單元即為差異較小之單元。

 聯結成本函數之設計：

聯結成本函數為單元與單元之間的聯結成本，由於單元與單元之間的聲學特徵(如頻譜或是基頻)差異過大，會直接導致合成聲音不順暢有中斷感，因此在聯結成本函數的設計上，我們主要考慮的出發點皆為聲學的特徵。

聯結成本函數的設計主要分成音素分類(Phone-class)之聯結成本、聲學距離

(Acoustic Distance)之聯結成本及序列機率(Sequencing Probability)聯結成本三種類。

音素分類聯結成本考慮的是前後單元的音素(音節)是否一致，通常用於單元為雙音素或雙音節作為特徵之與單元選取當中[53, 54]。藉由選取前後音素(音節)

一致，讓其在聲學上的差異減小，但此一作法仍容易選取到在聲學特徵上差異較大之單元，故顯少單獨使用，較常與聲學距離聯結成本一同結合使用。

聲學距離聯結成本則是將單元之間聲學特徵距離作為其成本函數的方式。

聲學特徵意旨藉由數位訊號處理技術所獲得之特徵向量值，如：倒頻譜、線性預測倒頻譜(Linear-Prediction Cepstral Coefficients)[55]、共振峰或是梅爾倒頻譜

(Mel-Scale Cepstral Coefficients)[56]。目前已有四種用於估測聲學特徵距離的公式，分別為曼哈頓距離[50]、歐氏距離[51]、馬氏距離(Mahalanobis Distance)[57]

以及庫爾貝克萊柏爾距離(Kullback Leibler Distance)[56]。假設 N 為頻譜之維度，

有兩個不同的頻譜 x 與 y，兩頻譜之間的距離公式定義如下：

曼哈頓距離：

𝐷 = ∑ abs(𝑥_𝑖 − 𝑦_𝑖)

𝑁

𝑖=1

(7)

歐氏距離：

𝐷 = √∑(𝑥_𝑖 − 𝑦_𝑖)²

𝑁

𝑖=1

(8)

馬氏距離：

𝐷 = √∑(𝑥_𝑖 − 𝑦_𝑖 𝜎_𝑖 )²

𝑁

𝑖=1

(9)

庫爾貝克萊柏爾距離[56]：

𝐷 = ∑(𝑥_𝑖 − 𝑦_𝑖) log(𝑥_𝑖 𝑦_𝑖)

𝑁

𝑖=1

(10)

機率與序列聯結成本則是引入了自動語音辨識當中語言模型的 N 連模型來 改善聯結成本的預測結果[58]。藉由 N 連模型的幫助，單元之間的連結便可考慮 到前 N 個單元序列的資訊，這弭平了使用聲學距離聯結成本的缺點：容易選到 零成本(Zero Cost)的單元(即單元之間的聲學特徵毫無變化)。在實際語音當中，

語音會不斷的變化，即音框與音框之間皆有差異，因此零成本的聯結成本並不代表是最佳選擇。

2.2 基於隱藏式馬可夫模型之語音合成

在文檔中改善豐富文脈模型於中文語音合成之研究 (頁 19-23)

第二章 文獻回顧

2.1 單元選取式語音合成

2.1.4 成本函數之設計

2.2 基於隱藏式馬可夫模型之語音合成

第二章文獻回顧