音質改進之語音變換系統

(1)

行政院國家科學委員會專題研究計畫成果報告

音質改進之語音變換系統研究成果報告(精簡版)

計畫類別：個別型

計畫編號： NSC 99-2628-E-011-107-

執行期間： 99 年 08 月 01 日至 100 年 07 月 31 日執行單位：國立臺灣科技大學資訊工程系

計畫主持人：古鴻炎

計畫參與人員：碩士班研究生-兼任助理人員：黃崇哲碩士班研究生-兼任助理人員：簡延庭碩士班研究生-兼任助理人員：張世穎碩士班研究生-兼任助理人員：林祐靖碩士班研究生-兼任助理人員：張家維

報告附件：出席國際會議研究心得報告及發表論文

處理方式：本計畫可公開查詢

中華民國 100 年 10 月 19 日

(2)

行政院國家科學委員會專題研究計畫成果報告

音質改進之語音變換系統

A Voice-quality Improved Voice Conversion System 計畫編號：NSC 99-2628-E-011-107

執行期限：99 年 8 月 1 日至 100 年 7 月 31 日主持人：古鴻炎國立台灣科技大學資訊工程系

計畫參與人員：黃崇哲、張家維、簡延庭、張世穎、林祐靖 e-mail: [email protected]

一、中文摘要

我們提出以分段式(segmental)高斯混合模型(GMM)的觀念，來改進語音轉換的效能，

並且發展了一個基於動態規劃之自動GMM 挑選的演算法，以實際應用該觀念於線上(on-line) 進行的語音轉換處理。此外，為了使用單一高斯混合來對映(mapping) 離散倒頻譜係數 (DCC)，我們也設計了一種高斯混合選取之演算法。對於分段式GMM 觀念的評估，我們建造了三個不同功能組合之語音轉換系統，然後使用這些系統所轉換出的語音去作聽覺測試，實驗的結果顯示，分段式GMM 之觀念確實可用以改進音色相似度(timbre similarity)、

及語音品質(voice quality)。

關鍵詞：語音轉換，離散倒頻譜，高斯混合模 型，音色相似度，語音品質

ABSTRACT

The idea of segmental Gaussian mixture models (GMMs) is proposed for voice conversion. To apply this idea to implement an on-line voice conversion system, we have developed a dynamic-programming based automatic GMM selection algorithm. In addition, to map a discrete-cepstrum coefficient (DCC) vector with only one Gaussian mixture, a mixture selection algorithm is also developed.

To evaluate the performance of the idea, three voice conversion systems are constructed, and used to conduct listening tests. The listening test results show that segmental GMMs proposed here can indeed help to improve the performances in both timbre similarity and voice quality.

Keywords: voice conversion, Gaussian mixture model, discrete cepstrum, timbre similarity

二、緣由與目的

在一些應用裡，把輸入的資料設定為語音信號是比較恰當的，例如電影、電視劇人物的自動配音。這次計畫之目標，就是要研究、

製作一個可將輸入語音的音色變換(convert)成另一特定人音色的音色變換系統。題目裡的”

音質提升”，表示不僅是考慮變換出的語音音色要像目標(target)語者的，並且要設法維持良好的語音品質，不要像先前一些被提出的變換方法，雖然音色有像目標語者的，但是信號的品質卻衰退很多(即出現明顯的失真現象)。此外，我們希望所研究出的技術，能夠實際地被應用於製做系統，如前面提到的配音系統，因此我們設定在不需知道輸入語音的內容的條件下，來研究音色變換的方法，並且該方法能夠被實作成具有即時(或接近即時)的處理速度。

過去，我們對於目標語者為非特定語者的音色變換的研究，如把女子聲音變換成男子聲音或小孩聲音，已經有一些經驗，並且發表了研究成果[1, 2, 3]，其中兩篇[1,2]是在語音合成系統上考慮音色變換的問題，但是使用了不同的信號合成方法，分別是 TIPW 法(PSOLA 之變種) [1]，及 HNM (harmonic plus noise model)法[4, 5]；另外，第三篇[3]則是考慮輸入為語音信號的情況下，去研究音色變換的問題，我們經由作 DCC (discrete cepstrum coefficients)分析[3, 6]，取得各音框的振幅頻譜包絡(spectral magnitude envelope)，然後對包絡作調整，再用HNM 法把語音信號重新合成出來。

回顧前人在語音變換(voice conversion)

(3)

方面的研究成果，所提出的語音變換技術，大體上可分成 6 類，分別是: (a)向量量化對映 (mapping)[7,8]、(b)共振峰(formant)頻率對映 [9,10]、(c)GMM (Gaussian mixture model)對映 [11,12]、(d)ANN (artificial neural network)對映 [13] 、 (e) 單元挑選 (unit selection)[14,15] 、 (f)HMM (hidden Markov model)對映[16,17]。

三、研究方法

3.1 四個因素

一般來說，語音變換系統的製作需考慮到四個因素，分別是語料因素、頻譜特徵參數、

音色變換方法、信號合成方法。

關於語料因素，我們採取平行語料的方式，就是要求來源語者和目標語者都對同一份文句內容發音，如此在作系統訓練時，比較方便建立兩語者之間的頻譜參數的對應關係。

關於頻譜特徵參數，過去常被採用的包括了LPC 導出的 LSF (line spectrum frequency)線頻譜頻率係數[18]，LPC 導出的倒頻譜係數 [19]，由 STRAIGHT[20]頻譜計算出的 MFCC (mel-frequency cepstrum coefficient)梅爾倒頻譜係數，及 DCC 離散倒頻譜係數。在本計畫裡，我們採用了 DCC 係數來作為頻譜特徵參數。

關於信號合成的方法，雖然使用 STRAIGHT [20] 來對修改過的頻譜參數作合成，可以得到非常高品質的合成語音信號，但是 STRAIGHT 作信號合成的計算量非常大，

而無法在一般個人電腦上達成接近即時處理的要求，因此我們採用了基於HNM 之合成方法。

關於音色變換的處理，觀察近期許多語音變換的研究，都採取以GMM 作為基本的對映機制，因此我們也決定以GMM 對映機制為基礎，再加以改進。GMM 對映機制的一個重要問題，就是變換出的頻譜參數會有頻譜包絡 (spectral envelope)過於平滑(over-smoothed)的現象[21, 22]，所以會有語音品質退化的感覺。

一個典型的基於GMM 的對映函數，其公式如下[11]:

( ; , ) y F x  

  

¹

1 1

( ; , )

( )

( ; , )

x xx

M m m m y yx xx x

m m m m

M x xx

m m m m

m

w N x

x w N x

  







 

 

   

      

    

 

 

 

(1) 其中x 表示來源語者的頻譜特微向量，y 表示 變換後得到的頻譜特微向量，M 是高斯混合 N(,,)的總數，而 μ及 Ψ分別表示平均向量 與共變異矩陣的集合。我們認為把全部語料放在一起，去訓練一個GMM 模型的 M (如 128) 個高斯混合的參數，容易發生一種現象，就是一個高斯分佈為了照顧兩種音素的頻譜特性，而使得高斯分佈的中心落在兩音素 (phoneme)之間，也使得高斯分佈變得平緩。

因此，我們提出一個解決辦法，就是先把訓練語料裡的各個音框依其來源發音的韻母作分群，然後再分別對各群去訓練出自己的 GMM，如此各個 GMM 就可忠實地代表它所對應韻母的頻譜特性。

3.2 模型訓練階段

在訓練階段的主要處理步驟如圖 1 所示。我們邀請了三位錄音者，分別到隔音錄音室來錄製 375 句之平行語料，取樣率設為 22,050Hz，其中二位是男性，在此以 M1 和 M2 作代號，而另一位是女性，以 F1 作代號。

在本計畫裡，我們把M1 當作來源語者，而把 M2 和 F1 分別作為目標語者，也就是要把 M1 的語音變換成M2 及 F1 的語音。375 個訓練語句共可擷取出2,926 個音節音檔，我們再依音檔檔名中的韻母拼音符號，將這些音節音檔分成37 群。

3.2.1 DCC 係數計算

在本計畫裡，我們採用離散倒頻譜之頻譜包絡估計方法，並且以離散倒頻譜係數(DCC) 作為頻譜參數。對於一個語音音框，我們使用先前發展的 DCC 估計程式來計算出 40 維的 DCC 係數，在此一個音框的長度設為 512 個樣本點(23.2ms)，而音框位移則設為 110 個樣本點(5ms)。

3.2.2 分段式 GMM 之訓練

在圖 1 中經由方塊 ”Grouping into 37 classes” 的處理之後，對於各群的音節片段 (segment)，我們就分別拿去訓練出一個由 16

(4)

Training Segmental

GMMs Labeling and

segmenting Training sentences of

source speaker Training sentences of target speaker

Labeling and segmenting Grouping into

37 classes

Grouping into 37 classes

DTW alignment Estimating

DCC Estimating

DCC

Param. of 37 GMMs

Estimating pitch param.

Pitch param.

of target Pitch param.

of source

Framing Framing

圖1 訓練階段之主要處理流程個高斯混合所形成的GMM 模型，所以這樣得

到的 37 個 GMM ，就稱為 37 個分段式 (segmental) GMM。

由於我們使用的是平行語料，每一個來源語者音節和它對應的目標語音音節，可先以動態時間校正(dynamic time warping)作時間軸對齊的處理，這由圖1 裡的 ”DTW alignment” 方塊負責。然後，一個來源語音音框和它所對齊的目標語音音框，兩音框算出的 DCC 係數就可被合併成一個 80 維的頻譜特徵向量，接著我們使用基於 MLE (maximum likelihood estimate)的 GMM 訓練方法[23]，來對各群合併後DCC 向量進行 MLE 訓練，如此就可得到各群的聯合機率密度之GMM 模型。

3.2.3 音高參數

我們使用一種基於自相關函數及 AMDF 的基週偵測方法[24]，來偵測各音框的音高頻率，然後將一個語者發音中有聲(voiced)音框偵測出的音高頻率值收集起來，據以求出他們的平均值及標準差，這就是我們所需要的音高參數。

3.3 語音變換階段

我們研究的語音變換方法，其主要的處理流程如圖2 所示。當一句未知內容的語句輸入後，它首先會被切割成一序列的音框，而音框長度(512 點)和位移(110 點)則和 3.2.1 節裡使

用的一樣。然後，在圖2 的左邊流程，會對各音框的音高頻率作偵測，當一個音框被偵測為無聲時，圖 2 中的三個灰色方塊就被直接跳過，也就是不需作音高頻率的調整，且 DCC 頻譜參數也未被變換。

相對地當一個音框被偵測為有聲時，我們在此採用一種簡便的音高調整公式來調整音高頻率，

( )

y y x

t x t

q   p 

   (2)

其中p_t表示偵測出的音高頻率值，μ^x和σ^x分別表示來源語者的音高頻率平均值和標準查，而 μ^y和σ^y是目標語者的。

在圖2 裡的右邊流程，基本上是一個音框接著一個音框來作處理，但是在 “Selecting a GMM” 之方塊裡，我們提出一種 GMM 自動挑選之演算法，該演算法是以每 20 個有聲音框為一個批次(batch)來作 GMM 的挑選，以便為各個有聲音框從 37 個 GMM 中選出正確的 (或鄰近的)一個 GMM。之後，在 “Mapping with single mixture” 之方塊裡，我們再從一個音框所選取到的GMM 裡，選取出一個高斯混合來作單一高斯混合之 DCC 係數對映，以便避免頻譜曲線過度平滑的情形發生。不過，我們不能只依據加權值的大小來分別為各個音框挑選出單一個高斯混合，因為相鄰音框的變換後頻譜的連續性也必需被考慮，以避免怪音被產生出來。對於單一高斯混合選取的問題，

我們也發展了一個基於DP 的演算法，基本上是把一序列的有聲音框(左、右兩邊被無聲音

(5)

HNM based speech synthesis Pitch

adjusting

Selecting a GMM

Mapping with single mixture Estimating DCC

Converted voice Detect pitch freq.

Unknown spoken sentence

Framing

圖2 變換階段之主要處理流程框包夾)，當作一個批次來作單一高斯混合選

取的處理。接著在圖 2 裡左右流程合併之方塊 ”HNM based speech synthesis”，我們使用一個基於HNM 的信號合成方法，去依據變換出的 DCC 係數及音高頻譜，把語音信號再合成出來。

3.3.1 分段 GMM 之選取方法

對於一個線上處理的語音變換系統來說，輸入語音的說話內容是事先不知道的，因此當要對一個音框的 DCC 係數作對映時，我們如何知道37 個 GMM 當中的那一個應被選取?這樣的問題必須先被解決，而該問題是一種語音辨識的問題，不過它不需要像語音辨識那樣嚴厲地被對待，因為選取到錯誤但近似的 GMM 是可以容忍的。

在語音辨識領域，隱藏式馬可夫模型 (hidden Markov model, HMM)是最常被採用的統計模型，不過在此我們希望以所訓練出的37 個GMM 來取代 HMM 的角色，如此就不需另外去訓練HMM。此外，我們觀察到一個非常接近真實的現象是，一個人不可能在一個很短暫的時間如100ms 之內，發出多於 2 個的語音片段(在此語音片段指的是音節)。所以，我們決定把每20 個連續的有聲音框(含蓋 100ms 之時間範圍)作為一個批次，去作 20 個音框整批的GMM 選取之處理，如此一個批次裡就只需選出一個或二個的GMM。本論文研發了一個 DP 為基礎的 GMM 挑選之演算法，該演算法會依據最大似然率(maximum likelihood)去選

出一個或二個GMM。

令第 t 個輸入音框的 DCC 係數是由第 s 個GMM 所產生的機率是 Gt(s)，其詳細計算公式為

 

1

( ) = ( ) ; ( ), ( ) ,



 

^M ^x ^xx

t m t m m

m

G s w s N x s s (3)

其中 Wm(s)表示第 m 個高斯混合的加權，xt表示第 t 個音框的 DCC 向量。此外，令 R(t, s) 表示從時刻 1 到時刻 t 的音框都是由第 s 個 GMM 所產生的似然率對數值，而令 D(t, s)表 示從時刻1 到時刻 t 的音框是由 2 個 GMM 所 產生，並且第t 個音框是由第 s 個 GMM 所產 生的似然率對數值。依據前述的定義，我們可以推導出如下的兩個遞迴公式:

 

( , ) log _t( ) ( 1, ) ,

R t s  G s R t s (4)

 

( , ) log _t( ) D t s  G s 

 

0 37,

max max ( 1, ) , ( 1, ) ,

v v s R t v D t s

 

   

 

  (5)

其所需設定的邊界值是，D(1, s)=0 和 R(1, s)=G₁(s)，s=0, 1, ..., 36。接著，依據公式(4)和 (5)，我們可得到 T 個音框整體的最大似然率為

   



0 37 0 37



( ) max max ( , ) , max ( , ) ,

v v

A T R T v D T v

 

 (6)

其中 T 在本論文裡設為 20。在依據公式(4)，

(5)和(6)得到 A(20)之最大似然率數值之後，我 們可作回溯(backtrack)處理，去找出 A(20)數值的最佳行走路徑，而得到 20 個音框各自所被指派的GMM 編號。

(6)

3.3.2 單一高斯混合之對映

所謂使用單一高斯混合來對映一個輸入音框的DCC 係數，其實際作法是把公式(1)裡的累加符號及加權項移除，如此變換出的DCC 向量y 就變成以下列公式來計算，

  

¹

( ) ^y ^yx ( ) ,

k xx x

k k

y F x    ^ x  (7) 其中x 表示輸入音框的 DCC 係數，F^k(x)表示使用第k 個高斯混合所建立的對映函數。

關於公式(7)裡 k 值(即高斯混合之編號) 的選取的問題，我們設計了一個基於DP 的高斯混合選取之演算法。首先令3.3.1 節中為第 t 個音框自動挑出之 GMM 編號為 I(t)，接著以

( )( )

I tk t

F x 表示使用第k 個高斯混合來對第 t 個 音框之DCC 向量 x_t作對映，此外以C(t, k)表 示從時刻1 到時刻 t 的累積距離，但是限定在 時刻t 時使用編號為 k 的高斯混合，如此我們 設計的遞迴公式就可寫成



^{( )} ^{( 1)} ¹



0 ,

( ( 1))

( ), ( )

( , ) min ,

( 1, )

m

k m

I t t I t t

w I tm M H

dist F x F x C t k

C t m

 

  

 

 

   

(8) 其中dist(, )表示對兩 DCC 向量之間作幾何 距離的量測，H 是一個門檻參數，我們依經驗設定它的值為 0.3，而 Wm(I(t-1))表示第 I(t-1) 個GMM 的第 m 個混合的加權。

公式(8)的意義是，在各個時刻 t 先依 W_m(I(t)) > H 之條件篩選出加權夠大的幾個高斯混合，然後從各時刻篩選出的高斯混合中，

以DP 的觀念去串接出行走的路徑，最後在結束的時刻T 時，以下列公式找出最小的累積距 離B(T)，

 

0 , ( ( ))

( ) min ( , ) ,

k M w I Tk H

B T C T k

  

 (9)

所以依據公式(8)和(9)，我們可求得最小的累積距離，然後經由回溯的程序找出行走的路徑，如此就可決定時刻1 到時刻 T 各個音框所 應選取的高斯混合。至於公式(8)裡 C(t, k)在 t=0 時的邊界數值，我們可直接設定成 C(0, k)=0，0k < M。

3.3.3 基於 HNM 之語音信號合成

在諧波加雜音模型(HNM)中，一個有聲音框的頻譜被分割成低頻的諧波部分和高頻的雜音部分，而分割這兩部分的邊界頻率稱為最大有聲頻率(maximum voiced frequency ， MVF)。關於 MVF 值的偵測，在 Stylianou 的博士論文裡[11]，提出了一個對各個音框逐一

作偵測的方法，不過為了簡化語音信號合成處理的程序，在此我們把各個有聲音框的 MVF 值都直接設為6,000Hz。

假設第i 和第 i+1 個音框都是有聲的，並 且分別有 Lⁱ 和 Lⁱ⁺¹ 個諧波成分(harmonic partials)，Lⁱ的值以MVF / q_i作計算，q_i表示第 i 個音框的變換過的基頻值。當要對這兩個音 框之間的第t 個樣本點產生出信號樣本值，首 先我們以線性內插來計算第t 個樣本點上的各 個諧波成分的頻率值 f t_k( )和振幅值a t_k( )，計算方式如公式(10)所示，

1

( ) , 1, 2,..., ,

( ) , 1, 2,...,

i i

i k k

k k

i i

i k k

k k

f f

f t f t k L

N

a a

a t a t k L

N



    

(10)

其中 N 表示兩相鄰音框之間的樣本點總數(在 此設為 110，即音框位移的點數)，L 表示 Lⁱ 和Lⁱ⁺¹兩者的較大值，此外f_kⁱ和a_kⁱ分別表示第 i 個音框的第 k 的諧波成分的頻率值和振幅 值，_f_kⁱ可以f_kⁱ k q_i作計算，而a_kⁱ則必需依據第 i 個音框對映得到的 DCC 係數，變換成頻 譜包絡後再去求取它的數值，關於aⁱ_k數值求取的細節請參考我們先前發表的論文[25]。另外，如果Lⁱ小於Lⁱ⁺¹，我們就直接設定aⁱ_k= 0，

1, ..., 1

i i

k L L^。然後，第t 個樣本點上的諧 波信號h(t)就可以公式(11)來作計算，

1

( ) ( ) cos( ( )), 0 , ( ) ( 1) 2 ( ) / 22, 050

L

k k

k

k k k

h t a t t t N

t t f t



  



   

   

 ₍₁₁₎

其中_k( )t 表示第k 個諧波成分在樣本點 t 時的 累積相位，22,050 是取樣率。至於__k_{( )}_t 的初值

) (1

k ，我們可令它等於前一個音框最後一個樣本點時的累積相位(即_k(N1))，以保持相位的連續性。如果本音框是第一個音框(即沒有前一個音框)，則可令_k_(₁₎的值為一個隨機值，使用隨機值是符合語音信號特性的。

四、系統製作與聽測實驗

為了評估所提出的變換方法，我們建造了三個語音變換系統，分別以SOG，SSG 和 SLG 作為代號，在代號SOG (system using original GMM for mapping)的系統裡，我們使用 350 個訓練語句來訓練出一個由256 個高斯混合形成的GMM，然後使用公式(1)來對各個輸入音框

(7)

的DCC 係數作對映。另外，在代號 SSG (system using single Gaussian mixture for mapping)的系統裡，我們仍然使用350 個語句所訓練出的一個具有256 個高斯混合的 GMM，不過在變換階段，3.3.2 節裡說明的高斯混合選取方法被用來為一序列的輸入音框選取出各音框的單一高斯混合，然後各輸入音框的 DCC 係數就使用所選出的單一高斯混合及公式(7)來作對映。至於在代號 SLG (system using selected GMM for mapping)的系統裡，我們首先以 350 個語句來訓練出37 個分段式 GMM，而各分段式GMM 都只有 16 個高斯混合，然後在變換階段，我們採用3.3.1 節裡說明的 GMM 選取方法，來為每 20 個有聲音框選取出最大似然率的一個或兩個分段 GMM，接著採用 3.3.2 節裡的高斯混和選取方法，來為各輸入音框選取出單一個高斯混合，再依據公式(7)作對映。

當把一個來源語者的發音檔，分別輸入到前述的三個語音變換系統，我們就可得到三個變換出語音檔。然後使用變換出的音檔，我們進行了兩種類型的聽測實驗，分別是音色相似度之聽測、和語音品質之聽測。在這二類型的聽測實驗裡，我們都邀請了 25 位人士來聆聽音檔並給予相對分數，而在這 25 位人士中，

有20 位是不熟悉語音變換之研究的。

4.1 音色相似度測試

首先我們準備了5 個音檔，它們的代號分別是VS(由來源語者發音)，VT(由目標語者發音)，VX1(經由 SOG 系統變換得到)，VX2(經由 SSG 系統變換得到)，VX3(經由 SLG 系統變換得到)，其中 VS 與 VT 具有相同的說話內容，而VX1、VX2 和 VX3 三者也有相同的內容，但不同於VS 和 VT 的，這 5 個音檔可從網頁http://guhy.csie.ntust.edu.tw/VoiceConv/去下載。在進行聽測實驗時，我們以 ABX 的次序來撥放前述的音檔，在此 A 固定為 VS，B 固定為VT，而 X 則隨機由 VX1、VX2 和 VX3 三者中選出，每次以 ABX 次序播放完音檔後，受測者就被要求給一個分數。在此分數的定義是，9 分(或 1 分)表示 X 的音色確定就是 B(或 A)的音色，7 分(或 3 分)表示 X 的音色比較接近B(或 A)的音色，而 5 分表示 X 的音色無法判斷是接近A 或接近 B。

做完聽測實驗之後，25 位受測者所給的分數被用來計算出三個系統各自的平均分數 (AVG)和標準差(STD)，所得到的分數數值就

如表1 所列出的。由表 1 的平均分數可知，不同性別之間的語音變換(即從 M1 到 F1)，會比同性別之間的(即從 M1 到 M2)獲得明顯較高的分數。此外，拿三個系統的平均分數作比較，可從表一的數值得知，SLG 系統的表現明顯比SSG 系統的好許多(7.05 vs 6.24，7.60 vs 7.24)，而 SSG 系統的表現則是比 SOG 系統的稍微好一些(6.24 vs 6.08，7.24 vs 6.92)。所以本計畫提出的分段式 GMM 之觀念及自動 GMM 挑選之演算法，的確可幫忙改進所變換出語音的音色相似度。

表 1、音色相似度聽測之平均分數與標準差

SOG SSG SLG

AVG 6.08 6.24 7.05

M1=>M2

STD 1.11 1.09 0.93

AVG 6.92 7.24 7.60

M1=>F1

STD 1.13 1.07 1.10

4.2 語音品質測試

在此我們使用三個系統變換出的語音檔 VX1、VX2 和 VX3，來進行語音品質的聽測實驗。音檔撥放的次序為 AX，A 固定設為 VX1，而 X 則隨機由 VX2 和 VX3 兩者中取出，每次以AX 次序播放完音檔後，受測者就被要求給一個分數。在此分數的定應是，9 分 (或 1 分)表示 X 的語音品質明顯比 A 的好(或差)，7 分(或 3 分)表示 X 的品質比 A 的稍微好 (或差)一些，5 分則表示 X 和 A 的語音品質無法分辨優劣。

作完聽測實驗之後，我們收集 25 位受測者所給的分數，來計算出SSG 和 SLG 兩系統各自的平均分數和標準差，結果得到的數值如表2 裡列出的。依據表 2 的平均分數可看出，

同性別之間(即從 M1 到 M2)的變換語音的品質，會比不同性別之間(即從 M1 到 F1)的較好約0.5 分，這顯示不同性別之間的變換語音的品質，是比較難作改進的。此外，依據 SLG 和 SSG 兩系統的平均分數作比較，我們可看出SLG 的分數都比 SSG 的高約 0.7 分，並且 SLG 的平均分數都高於 5 分，所以分段式 GMM 之觀念及自動挑選 GMM 之演算法，確實可用以改進所變換出語音的語音品質。

(8)

表 2、語音品質聽測之平均分數與標準差 SSG vs SOG SLG vs SOG

AVG 5.23 6.04

M1=>M2

STD 1.43 1.45

AVG 4.89 5.55

M1=>F1

STD 1.50 1.47

4.3 倒頻譜距離量測

在所錄音的 375 句平行語料中，最後 25 句並未被用於訓練 GMM 模型，因此這 25 句來源語者發音的語音檔，在此就分別被輸入到三個語音變換系統 SOG、SSG 和 SLG，去作語音變換的處理，以便量測變換出語音和目標語音(目標語者發音)之間的倒頻譜距離，用以作為變換後頻譜和目標頻譜之間的接近程度的客觀量測。

對於變換出的語音音檔的每一個有聲音框，我們先依先前作DTW 時間對齊的資料，

來找出目標語者發音檔中對應的音框，然後將兩對應音框的 DCC 係數，拿去計算幾何距離，接著再依所有有聲音框量測到的距離去計算出平均距離，結果對於三個語音變換系統，

我們計算出的平均距離就如表3 裡所列出的。

表 3、變換後語音的平均倒頻譜距離

SOG SSG SLG

M1=>M2 0.543 0.609 0.601

M1=>F1 0.598 0.634 0.612

依據表3 列出的數值，可發現 SOG 系統會得到最小的平均距離，然而由聽測實驗的結果可知，SOG 系統在音色相似度方面是最差的，並且在語音品質方面也是比SLG 系統差，

如此的不一致性，其原因尚需進一步去了解。

另一方面，SLG 系統比起 SSG 系統所表現出的效能改進，則是有反應在所量測出的平均距離上，SLG 比 SSG 多增加了選取分段式 GMM 之處理步驟。

五、成果與討論

經由本計畫的執行，我們提出以分段式 GMM 之觀念，來解決傳統 GMM 語音變換方法，因使用數量很多的高斯混合，造成頻譜過於平滑，而導致語音音質衰退的問題。此外為了在線上處理的實際語音變換系統中，使用分段式 GMM 之觀念，我們也發展了一個自動

GMM 挑選的演算法。

為了驗證所提出的方法，我們實際建造了三個不同功能組合之語音變換系統，然後進行聽測實驗，其結果顯示 SLG 系統是三個系統之中效能最好的，不管是在音色相似度、還是在語音品質上都表現得最好，而 SLG 系統所採用的處理方法，就是本計畫提出的分段式 GMM 之觀念及自動 GMM 挑選之演算法。

另一方面，依據客觀量測出的平均倒頻譜距離，可知使用原始 GMM 變換方法之 SOG 系統，可得到三個系統中最小的平均距離，然而由聽測實驗的結果可知，SOG 系統在音色相似度方面是最差的，並且在語音品質方面也是比 SLG 系統差，如此的不一致性，其原因尚需進一步去探討。目前我們僅根據韻母來作語音的分段與分群，將來可再考慮把有聲聲母 (如/m/, /n/, /l/)的部分獨立切成語音段，這樣應可進一步改進語音變換的效能。

六、參考文獻

[1] Hung-Yan Gu and Wen-Lung Shiu, "A Mandarin-syllable Signal Synthesis Method with Increased Flexibility in Duration, Tone and Timbre Control", Proceedings of the National Science Council, Republic of China, Part A:

Physical Science and Engineering, Vol. 22, No.

3, pp. 385-395, 1998.

[2] Hung-Yan Gu, Chen-Lin Cai, and Song-Fong Cai, “An HNM-based Speaker-nonspecific Timbre Transformation Scheme for Speech Synthesis”, International Congress on Image and Signal Processing (CISP 2009), Tianjin, China, pp. 4304-4308, Oct. 2009.

[3] 古鴻炎、蔡松峰，「基於離散倒頻譜之頻譜包絡估計架構及其於語音變換之應用」，第二十一屆自然語言與語音處理研討會 (ROCLING 2009)，台中，第 151-164 頁，2009。

[4] Yannis Stylianou, Harmonic plus Noise Models for Speech, combined with Statistical Methods, for Speech and Speaker Modification, Ph.D.

Dissertation, Ecole Nationale Supèrieure des Télécommunications, Paris, France, 1996.

[5] Hung-Yan Gu and Yan-Zuo Zhou, “An HNM Based Scheme for Synthesizing Mandarin Syllable Signal”, International Journal of Computational Linguistics and Chinese Language Processing, Vol. 13, No. 3, pp.

327-341, 2008.

[6] O. Cappe and E. Moulines, "Regularization

(9)

Techniques for Discrete Cepstrum Estimation", IEEE Signal Processing Letters, Vol. 3, No. 4, pp. 100-102, April 1996.

[7] M. Abe, S. Nakamura, K. Shikano, and H.

Kuwabara, “Voice Conversion through Vector Quantization,” International Conference on Acoustics, Speech, and Signal Processing, New York, Vol. 1, pp. 655-658, Apr. 1988.

[8] S. Nakamura and K. Shikano, “Spectrogram Normalization Using Fuzzy Vector Quantization”,J. Acoust. Soc., Japan, Vol. 45, pp. 107-114, 1989.

[9] H. Mizuno and M. Abe, “Voice Conversion Algorithm Based on Piecewise Linear Conversion Rules of Formant Frequency and Spectrum Tilt”,Speech Communication, Vol. 16, No. 2, pp. 153-164, 1995.

[10] 吳嘉彧、王小川，”不需平行語料而基於共振

峰與線頻譜頻率映對之語者特質變換系統”，

第二十一屆自然語言與語音處理研討會 (ROCLING 2009)，台中，第 319-332 頁，2009。

[11] Stylianou Y., Capp´e O., Moulines E, ”Continuous Probabilistic Transform for Voice Conversion,” IEEE trans. Speech and Audio Processing, Vol. 6, No. 2, pp.131–142, 1998.

[12] Min Chu, “Voice Conversion with Smoothed GMM and MAP Adaptation”, Proc. of EuroSpeech, Geneva, Switzerland, pp.

2413-2416, 2003.

[13] Srinivas Desaiy, et al., “VoiceConversion Using Artificial Neural Networks,” ICASSP, Taipei, Taiwan, pp.3893–3896, 2009.

[14] Zhiwei Shuang, Fanping Meng, and Yong Qin,

“Voice Conversion by Combining Frequency Warping with Unit Selection”, ICASSP, Las Vegas, U.S.A , pp.4661-4664, 2008.

[15] D. Sundermann, et al.,“TextIndependentVoice Conversion Based on UnitSelection”,ICASSP, pp. 81-84, Toulouse, France, 2006.

[16] 劉德賢，應用雙可夫模型與聲音變換於情緒語音合成之研究，碩士論文，國立成功大學資訊工程研究所，2005。

[17] E. K. Kim, S. Lee, and Y. H. Oh, “Hidden

Markov Model Based Voice Conversion Using Dynamic Characteristics of Speaker”, Proc.

EuroSpeech, Vol. 5, Rhodes, Greece, 1997.

[18] A. Kain and M.W. Macon, “Spectral Voice Conversion for Text-to-speech Synthesis”,IEEE ICASSP, Seattle, Vol. 1, pp. 285-288, May 1998.

[19] K. S. Lee, “Statistical Approach for Voice Personality Transformation,”IEEE trans. Audio, Speech, and Language Processing, Vol. 15, No.

2, pp. 641-651, Feb. 2007.

[20] H. Kawahara, I. Masuda-katsuse and A. De Cheveign, “Restructuring Speech Represen- tations Using a Pitch-adaptive Time-frequency Smoothing and an Instantaneous-frequency- based F0 Extraction: Possible Role of a Repetitive Structure in Sounds”, Speech Communication, Vol. 27, pp. 187-207, 1999.

[21] T. Toda, H. Saruwatari,and K.Shikano,“Voice Conversion Algorithm Based on Gaussian Mixture Model with Dynamic Frequency Warping of STRAIGHT Spectrum”, ICASSP, Salt Lake City, pp. 841-844, May 2001.

[22] M. Zhang, J. Tao, H. Jia, and X.

Wang, ”Improving HMM Based Speech Synthesis by Reducing Over-Smoothing Problems”,International Symposium on Chinese Spoken Language Processing (ISCSLP), Kunming, China, Dec. 2008.

[23] R. A. Redner and H. F. Walker, “Mixture densities, maximum likelihood and the EM algorithm,” SIAM Review, vol. 26, no. 2, pp.

195-239, 1984.

[24] H.Y.Kim,etal.,“Pitch detection with average magnitude difference function using adaptive threshold algorithm for estimating shimmer and jitter,” 20-th Annual Int. Conf. of the IEEE Engineering in Medicine and Biology Society, Hong Kong, China, 1998.

[25] H.Y.Gu and S.F.Tsai,“A discrete-cepstrum based spectrum-envelope estimation scheme and itsexampleapplication ofvoicetransformation,” International Journal of Computational Linguistics and Chinese Language Processing, vol. 14, no. 4, pp. 363-382, 2009.

(10)

1

出席國際學術會議心得報告

計畫編號 NSC 99-2628-E-011-107 計畫名稱音質改進之語音變換系統

出國人員姓名服務機關及職稱

古鴻炎

台灣科技大學資訊工程系副教授會議時間地點 2010/10/21 ~ 2010/10/23, 中國蘇州

會議名稱 International Conference on Wireless Communications and Signal Processing (WCSP 2010)

發表論文題目 A Discrete-cepstrum Based Spectral-envelope Estimation Scheme with Improvements

一、參加會議經過

WCSP 2010 國際研討會，由上海交通大學、

東南大學、中國人民解放軍理工大學所共同主辦，而由 IEEE 通信學會(Communication Society) 與信號處理學會(Signal Processing Society)的南京支會等協辦，接受的論文將收錄於 IEEE Xplore 資料庫。WCSP 2010 研討會接受投稿的領域包含了無線通信與信號處裡之相關領域。個人投稿的論文，屬於語音信號處理，研究的成果是，在離散倒頻譜(discrete cepstrum) 為基礎的頻譜包絡 (spectral envelope)估計上，提出頻譜峰點之找尋方法、和提出頻率軸尺度的轉換函數，以改進頻譜包絡估計之準確性。

WCSP 2010 研討會共有 571 篇論文投稿，而被接受的論文有 243 篇(接受率 42%)，分別來自 25 個國家和地區。接受的論文，分成 30 個 sessions 進行口頭發表，30 個 sessions 之中有 8 個屬於信號處理之領域，我的論文排於 10 月 21 日 16:00~18:00 的 Speech and Audio Signal Processin Session 進行口頭發表，右邊上圖就是在

發表會場所拍攝的照片，而右邊下圖，則是在晚宴會場所拍攝的照片。

(11)

2

除了前述的論文發表session 之外，我還參加了另外兩個 sessions，即 Array & Multi-channel Signal Processing、Blind and Adaptive Signal Processing，其它信號處理的相關 sessions，則由於平行session 之安排方式而無法參與。

在行程方面，於 10 月 20 日搭乘 11:45 由松山機場直飛上海浦東機場的班機，然後搭乘長途巴士前往位於蘇州城內的會場(即國際會議中心飯店)，到達會場時大約是 17:40。參加研討會後，則於 23 日中午搭乘巴士前往上海虹橋機場第一航站，並且在航站附近的旅館住宿一晚，然後在隔日清晨8:05，趕搭由虹橋機場直航台北松山機場的班機。

二、與會心得

雖然WCSP 2010 研討會接受投稿的領域包含了無線通信與信號處裡之相關領域，但是所邀請的五位 keynote speaker 的演講題目，都集中於通信領域的議題。所以，個人感覺信號處理與語音處理並不是此次研討會的焦點，不過投稿信號處理領域的論文數量相對地少很多，應也是一個重要的原因。

在Speech and Audio Signal Processing 場次，共有 8 篇論文發表，其中有 7 篇是屬於語音處理的。除了我的論文之外，其它論文中有兩篇是作語音編碼(speech coding)的，有一篇是作語音強化(speech enhancement)的，一篇是作基週偵測的，及語者辨識等。雖然語音處理方面的篇數不多，但是也含蓋了幾個語音研究的子領域，因此仍可相互了解不同子領域裡的研究情況。