聲碼器在訓練測試不同性別的強健性比較

在單語者的訓練集，測試在多語者的測試集的時候，我們無法分辨生成品質的大幅下降是因為測試集包含沒看過的語者就會大幅下降，還是主要是因為有沒看過的性別。畢竟我們知道男女性在聲音上有相當大的差距，因此訓練和測試資料頻譜上就有相當大的差距。因此我們在這個章節更近一步分析在單語者訓練集分別測試在兩種性別下的測試集分別會有什麼樣的結果。

4.5.1 實驗設計

其中我們所使用的單一語者資料集有男性英文、女性英文、女性中文的訓練集，而我們選擇4聲碼器(WaveNet, WaveRNN, FFTNet, Parallel WaveGAN)在表4.2中的En M, En F, Ma F訓練集的模型依據表4.5的對應關係，其中測試集的選擇都為多語者的測試集，詳細數據可參照表4.6且抽取聲學特徵值的方法也是使用表3.1的設置，其中MOS值為和生成結果一起做測試當作參考值，而MOS實驗測試方法可參照章節4.3。

本實驗產生的所有音檔放置在網站: https://bogihsu.github.io/

將實驗產生的音檔以MOS呈現在表4.7，從實驗數據得知訓練集為女性的時候，若其測試集也同樣是女性時，都可以有還不錯的表現，不過一旦測試集為男性就會有一定幅度的落差，可以發現聲碼器對於訓練集的性別是非常敏感的。

此外，雖然在測試集為同性別時，測試結果男性比不上女性。不過可以發現當訓練在女性語音而測試在男性語音時，其實表現還是遠比不上訓練在男性語音而測試在男性語音的。因此我們可以歸納出對於聲碼器而言，訓練集的多樣性是非常重要的，也沒有任何聲碼器有足夠強的強健性，可以僅訓練在單一語者就可以有很強的普遍性可應用在各式語音上。

4.6 本章總結

本章節的目的在於觀察當訓練和測試集所遭遇的情形不同時，哪些因素是影響生成結果的。我們設計了訓練集、測試集的對應關係，測試於人類真實語音上。

在章節4.4比較不同語言和語者的實驗，分析出語者的多樣性可以增進讓在訓練集未曾出現過的語者也表現的相當不錯。且聲碼器的訓練集的語言並不影響生成語言的結果。

在章節4.5比較單一語者的訓練集中，發現聲碼器訓練在女性的訓練集的強健性會比男性好一些，但是若要更有普遍性的話，必定還是需要多樣的語者才能有高品質的語音生成。

總結來說，多樣性的訓練語者可以大幅提高生成的結果，讓聲碼器可以藉助類似的語者去生成出高品質的音訊。

聲碼器架構聲碼器訓練集

En M En F Ma F 訓練和測試集相同語言相同性別

WaveNet 2.41±0.23 3.47±0.24 3.57±0.20 WaveRNN 2.85±0.21 3.49±0.21 4.08±0.20 FFTNet 2.01±0.24 2.45±0.21 3.56±0.14 Parallel WaveGAN 2.68±0.22 3.47±0.20 3.34±0.17

訓練和測試集相同語言不同性別

WaveNet 2.13±0.16 2.25±0.16 2.98±0.21 WaveRNN 2.36±0.20 2.29±0.15 3.01±0.20 FFTNet 1.52±0.15 1.97±0.20 2.34±0.15 Parallel WaveGAN 2.03±0.17 2.23±0.18 2.41±0.17

訓練和測試集不同語言相同性別

WaveNet 1.92±0.16 3.05±0.23 4.10±0.22 WaveRNN 2.78±0.18 3.12±0.21 3.77±0.18 FFTNet 1.74±0.17 2.00±0.17 3.40±0.17 Parallel WaveGAN 2.29±0.19 2.92±0.22 2.92±0.21

訓練和測試集不同語言不同性別

WaveNet 1.88±0.16 2.01±0.16 3.59±0.20 WaveRNN 2.29±0.17 2.12±0.19 2.84±0.21 FFTNet 1.38±0.11 1.51±0.11 1.91±0.16 Parallel WaveGAN 2.06±0.16 2.17±0.15 2.05±0.17

第五章多種聲碼器在語音生成應用上的強健性比較

5.1 簡介

第4章中我們測試當聲碼器遇到訓練和測試時資料不一致的情形，但都僅測試在人聲所抽取出來的聲學特徵值上。本章節中，我們將聲碼器使用在語音生成應用上，在語音生成應用的輸出可能不如人聲那麼完美，因此本章節會探討同樣是訓練在人聲所抽取的特徵值上，哪些聲碼器可以在表現較不完美的語音生成運用上仍有高品質的輸出。在章節5.2會比較各聲碼器應用在文句翻語音系統上的結果；

在章節5.3會各聲碼器應用在語者轉換系統上的結果。

在文檔中類神經網路聲碼器在語音波形生成上的強健性分析 (頁 56-60)

4.5.1 實驗設計

4.6 本章總結

第 五 章 多種聲碼器在語音生成應用上的強 健性比較

5.1 簡介

第五章多種聲碼器在語音生成應用上的強健性比較