聲碼器在語者轉換系統的強健性比較

5.3.1 語者轉換模型介紹

本論文使用實驗室學長周氏所研究之語者轉換模型 [26]透過生成對抗式學習，使得就算沒有平行語料也可以達到語者轉換的目的。所謂平行語料是指不同語者敘述相同的文句，而有著一一對應的關係。

此埋行之想法在於建立一個自動編碼器(Autoencoder)模型，就是透過編碼壓縮原始資訊，讓輸出和輸入相同的一種架構。語者轉換模型的架構可看成兩個子

圖 5.2: 周氏語者轉換模型架構

編碼器(內容編碼器、語者編碼器)、語者辨識器、解碼器。其原理如下：

• 內容編碼器專注在把文字的內容、發音部分壓縮在輸出的向量上，而不含有任何語者的資訊。達成目的方法在於將壓縮過的資訊經過語者辨識器(鑑別器)吐出他是該語者的機率，並透過對抗式生成學習將內容編碼器和語者辨識器的參數做更新。

• 語者編碼器，將語者的資訊壓縮在輸出的向量。且當我們將內容編碼器輸出和語者編碼器輸出通過解碼器時，希望還原出來的音訊波形越接近原始音訊越好。

要生成語者轉換的文句時，只要替換語者編碼的輸出，再將綜合兩編碼器輸出一起通過解碼器就可以得到語者轉換的成果。因此透過對抗式生成學習，可以在沒有平行語料的狀況下達成語者轉換。

我們此次選擇訓練語者轉換的訓練集為VCTK [27]，有包含多位男女英語語者，背景雜訊、口音都相當明顯。

5.3.2 實驗設計

上述周氏語者轉換模型是訓練在時頻譜上面的，故輸出也是時頻譜。因此，我們額外加了用Griffin-Lim演算法來估計相位，當作一個比較標準值。因訓練的聲碼器輸入是梅爾時頻譜，因此我們將周氏語者轉換模型輸出結果通過梅爾濾波器，

變成梅爾時頻譜之後，再餵進聲碼器變成最終生成的結果。

我們所選擇的聲碼器訓練集有4.2中的單語者英文的男性訓練集(En M)、單語者英文的女性訓練集(En F)、多語者英文的訓練集(En L)、多語者多語言(Lrg L)，

以及訓練語者轉換模型訓練集的VCTK。

本實驗產生的所有音檔放置在網站: https://bogihsu.github.io/

Robust-Neural-Vocoding/

5.3.3 實驗結果和分析

從表5.2我們發現在聲碼器的生成結果比用傳統Griffin-Lim演算法來的更加自然，

而且語者轉換系統生出來的結果通過梅爾濾波器做壓縮才經過聲碼器，因此若使用時頻譜當作聲碼器訓練的輸入，有機會可以更提升生成出來的音訊波形。

聲碼器架構聲碼器訓練集

VCTK En M En F En L Lrg L WaveNet 3.15±0.21 3.25±0.23 2.86±0.25 2.85±0.19 2.81±0.21 WaveRNN 3.54±0.20 3.21±0.23 2.98±0.23 2.88±0.22 2.90±0.21 FFTNet 2.71±0.22 2.19±0.21 2.30±0.23 2.28±0.23 2.51±0.21 Parallel WaveGAN 3.83±0.20 3.30±0.23 3.02±0.24 3.45±0.20 3.40±0.21

Griffin-Lim 2.72±0.21

表 5.2:以MOS呈現聲碼器測試在語者轉換模型輸出結果

從實驗結果可發現在我們所設定情境條件下聲碼器訓練集和語者轉換模型訓練集的語者相同時，WaveRNN和Parallel WaveGAN都相當適合，其中又以Parallel WaveGAN生成效果更加突出。 Parallel WaveGAN的表現上遠比其他聲碼器更適合當作語者轉換模型的聲碼器，不論在各訓練資料源都表現明顯比其他種類聲碼器來的更好。

此外Parallel WaveGAN只要找尋大量資料當作訓練集就可訓練出通用的語者轉換聲碼器，就算和語者轉換模型所包含的語者沒有重疊，也都可以有相當不錯

的成果，因此我們會推薦可以使用Parallel WaveGAN來當作語者轉換系統最合適的聲碼器。

在這次所使用的語者轉換系統，其生成結果綜觀來看會較人類語音容易出現模糊的生成結果，而此時Parallel WaveGAN的生成方式是非自回歸模型的，生成過程中不會受到前一時刻生出的結果，最終音訊波形比較不會有殘響的效果，對於聽眾而言自然會較為接近人聲。而相較於傳統估計相位的Griffin-Lim演算法來說，原本其估計相位的方法是根據原始人聲音訊所設計，對於生成較不完美的聲學特徵值時，估計相位的演算法的能力自然也會隨之受到影響，進而影響到生成出來的自然度。

5.4 本章總結

本章節將聲碼器訓練在人聲所抽取出的聲學特徵值上，應用在文句翻語音系統和語者轉換系統兩個語音生成的任務，並設定合適的參考值觀察出這兩類型的語者生成模型。

文字轉語音系統中，若文字轉語音系統輸出的聲學特徵值可以和原始音檔對齊當作聲碼器訓練的輸入和輸出，WaveNet是最合適的選擇。若無法取得和原始音檔對齊的聲學特徵值，建議選擇WaveRNN或WaveNet，並且和文字轉語音系統相同語者的音檔直接做聲碼器的訓練，也可以有高品質的生成結果。語者轉換系統中則是推薦Parallel WaveGAN為最好聲碼器模型，若使用和語者轉換系統中相同語者做訓練效果最佳，不然通過大量資料也可以訓練出通用的聲碼器。

從實驗分析來說，推測當我們所使用的語音生成系統品質非常清晰、近於人聲時，會推薦在人聲表現最好的WaveNet和WaveRNN。若生成出來的聲學特徵值綜觀來看沒有那麼細緻，則會建議非自回歸模型的Parallel WaveGAN。

第六章結論與展望

在文檔中類神經網路聲碼器在語音波形生成上的強健性分析 (頁 64-68)

5.3.1 語 者轉換模型介紹

5.3.2 實驗設計

5.3.3 實驗結果和分析

5.4 本章總結

第 六 章 結論與展望

5.3.1 語者轉換模型介紹

第六章結論與展望