1.1 研究動機
人與人之間的溝通交流都是透過語言以及文字來進行,而在人與機器之間,卻還是必須 要透過鍵盤以及滑鼠來進行操作。因此,若能夠使機器像人一般可以理解人類的語言,以及 能夠發出像人類的聲音、說話的韻律,並以此與人溝通,則能夠使得操作機器時更人性化。
語音合成系統即是為了能讓機器發出如同人類說話的聲音進而發展出的技術。雖然目前已經 可以合成出品質頗佳的聲音,但是要表現出完全像是人類說話的韻律,以及抑揚頓挫等特 性,卻仍處於積極研究的階段。若能在語音合成系統上,運用聲音轉換的技術,並透過目標 語者的語料,使電腦能任意地轉換成不同語者說話韻律之特性,將能夠使合成的聲音更富有 多樣性。
語言學家發現,語音的韻律結構是呈階層式的架構,同樣一段文字會隨著語者說話方式 的不同,而有不同的斷句時機跟停頓時間長短等,尤其在唸愈長的語句中,語者之間說話方 式的差異會愈明顯。因此本論文之研究動機即是以過去所提出的韻律模型,將來源語者 (source speaker)與目標語者(target speaker)的韻律表現拆解成若干個影響因素,建立影響因素 之間的對應關係,進而達到不同語者之間說話韻律以及特性之轉換。
1.2 文獻回顧
聲音轉換的技術最常用在語者聲音轉換上[1],期望能將來源語者的聲音經由轉換後聽起 來像是目標語者,為了達成此目的,過去的做法主要從頻譜轉換以及韻律轉換兩方面著手;
除了上述的應用外,近年來,聲音轉換的技術也應用於以資料庫為基礎的文字轉語音系統 (corpus-based text-to-speech system)之後端,以便於將合成的語音轉換成目標語者之語音 [2,3],藉由此項技術,當需要合成不同語者的聲音,則不用重新錄製大量新語者之語料,僅 需要相對少量的訓練語料,用來建立轉換函式,即可合成新語者之聲音。此外,聲音轉換的
技術也應用在其它方面,例如將中性情緒的語音轉換成目標情緒語音[4, 5],歌唱聲音的轉換 [6],以及以窄頻訊號預估寬頻訊號[7]。
聲音轉換技術主要可以分為頻譜轉換以及韻律轉換,圖 1-1 為聲音轉換之基本架構圖。
如圖所示,主要分成訓練階段(training phase)與轉換階段(conversion phase)兩部份;在訓練階 段,傳統上是先由來源語者與目標語者錄製平行語料,亦即來源與目標語者錄製相同的文 本;接著,求取韻律以及頻譜有關的特徵向量。由於來源與目標語者所錄製的語句長度不同,
必須透過演算法,如動態時軸校準(Dynamic Time Wrapping, DTW)來建立來源與目標語者特 徵向量的對應關係,依據此對應關係訓練轉換函式(conversion function)以進行轉換。在轉換 階段,則是先將輸入的來源語音信號抽取出特徵向量,並將此特徵向量經由轉換函式進行轉 換得到估測之目標特徵向量,最後將估測之目標特徵向量藉由語音合成器合成聲音。
圖 1-1:聲音轉換基本架構圖
對聲音轉換而言,最重要的核心技術就是建立來源與目標語者之間的轉換函式,過去已 有許多的方法被提出,主要的做法可以分為以下幾種:
¾ 以向量量化(Vector Quantization)為基礎之轉換
此方法最早由 M. Abe 等人[8]所提出,作法為先利用 DTW 演算法對來源與目標語 者之訓練語料做校準,同時也分別對來源訓練語料與目標訓練語料做向量量化並建 立碼本(codebook),如此則可利用校準之結果找出來源碼字(codeword)與目標碼字之 對應關係,並統計每個碼字對應所佔之權重;在轉換部分,先查詢來源碼本中哪個 碼字與來源聲音之特徵參數最相近,即可利用查詢到之碼字以及其與目標碼字之對 應權重,以線性組合建立轉換。此方法雖然簡單,但轉換之結果僅為碼字之線性組 合,故為一不連續之轉換,聲音品質也不佳。
¾ 以高斯混合模型(Gaussian Mixture Model, GMM)為基礎之轉換
以 GMM 為基礎之轉換是由 Y. Stylianou 等人[1]所提出,之後有許多研究[9]都是以 此方法為基礎對其做進一步的改進。其中,又以 A. Kain 等人[10]所提出的改進方 式為目前聲音轉換最常被引用。其基本想法為利用高斯混合模型描繪來源與目標語 者之特徵參數,並以此建立轉換函式。因為高斯混合模型為連續機率密度函數,故 此方法解決了以向量量化為基礎之轉換不連續性問題。此一做法將於第三章做詳細 之介紹。
¾ 以隱藏式馬可夫模型(Hidden Markov Model, HMM)為基礎之轉換
高斯混合模型雖然解決了轉換上不連續的問題,但是並沒有考慮到語音信號在時間 上之相關性,因此 H. Duxans 等人[3]以及 C. H. Wu 等人[11]提出了以 HMM 為基礎 之轉換,藉由聲音信號在 HMM 狀態上之變換,而以不同轉換函式進行轉換,以解 決 GMM 對於時間獨立(time independent)之假設。
¾ 以分類迴歸樹(Classification and Regression Tree, CART)為基礎之轉換
除了最基本的語音特徵參數之外,語音學上的資訊(phonetic information)也為聲音的 重要特性,例如聲母(initial)、韻母(final)以及聲調(tone)等。因此 H. Duxans[3]提出 了以 CART 為基礎之轉換,在訓練轉換函式時除了基本的語音特徵參數外,進一步
每一葉節點建立轉換函式,形成多轉換函式之轉換方法。
韻律轉換之目標是將來源語者之韻律參數,例如基頻值(pitch value)或基頻軌跡(pitch contour)、音長(duration)、停頓(pause),以及能量位階(energy level)轉換成目標語者之韻律參 數。在早期聲音轉換之研究上,主要以探討頻譜為主,對於韻律的轉換,則是以簡單的方法,
如線性轉換來呈現之;而在探討韻律轉換之研究上,絕大多數仍是以基頻為主;其中,最普 遍的是以高斯正規化的方式,找出線性對應的函式對來源語者之基頻值做轉換,此方法的優 點在於簡單易於實現且不需要用到平行語料。近年來,開始有學者們嘗試用不同的方法於韻 律轉換之研究,例如以高斯混合模型為基礎於基頻轉換[5]。
對於基頻轉換,過去的作法[12, 13]主要是以音框為單位,亦即對基頻值做轉換。此作法 的缺點在於並未考量音框與音框之間時間上之關聯性,尤其影響以聲調語系為主的語言如中 文。由於中文是有聲調的語言,而聲調帶有語意上之資訊。聲調主要特徵來自於音節中的基 頻軌跡,因此基頻軌跡在轉換時若發生錯誤,則可能導致最後語意方面的誤解。故在一些文 獻中,開始有以音段(segmental)或超音段(suprasegmental)為轉換單元[5, 14-17],而不是單一 基頻值。在[18]中,就先以time normalization以及moving average filter對音節基頻軌跡作量 化,轉換方式則是基於音調碼本方法(tone codebook mapping method)做轉換。此外,[5]則是 以pitch target model[19]對音節基頻軌跡作量化,再以GMM與CART為基礎的轉換方式對此特 徵向量作轉換。本研究則是以正交化展開之三階係數描述音節的基頻軌跡,再對此係數作轉 換。
據韻律研究的文獻,語音的韻律結構是由階層式的架構(hierarchical structure)所組成[20, 21],因此近年來學者開始運用韻律以及語言學上的知識於基頻轉換。吳宗憲等人首先提出 一簡化的階層式架構,將來源與目標語者的基頻軌跡由上層至下層拆解為句子(sentence)、詞 (word)與次音節(sub-syllable)三個階層,對各階層間建立轉換函式,轉換時則以此不同階層的 轉換函式進行轉換[14]。
1.3 研究方向
本論文以江振宇的韻律模型[22]為基礎,提出中文韻律轉換的方法。首先在訓練部份,
利用A-PLM(Advanced unsupervised joint Prosody Labeling and Modeling)演算法分別對來源與 目標語者之所有訓練語料做標記並建立其韻律模型,此韻律模型建立了語者的音節基頻軌 跡、音長、能量位階之統計模型,而韻律標記資訊則描述了上層的韻律階層架構。
接著建立來源與目標語者在韻律標記上的對應函式;在轉換時,藉由韻律標記轉換函式 以及目標語者的部份影響因素(Affecting Factor),完成韻律轉換。最後,聲音的合成部份則 是使用STRAIGHT(Speech Transformation and Representation using Adaptive Interpolation of weiGHTed Spectrum)[23]合成器進行合成;本研究主要是針對韻律轉換,因此在頻譜部份,
則保有目標語音語句之頻譜參數進行合成。
1.4 章節概要說明
本論文共分為五章:
第一章 緒論:介紹本論文之研究動機與方向。