第二章 系統架構簡介
此章節首先介紹本論文所提出以韻律模型為基礎的轉換方法系統架構,接著介紹採用的 韻律模型。
2.1 韻律轉換系統架構
圖 2-1 與圖 2-2 分別為本研究提出之韻律轉換系統架構圖之訓練階段(training phase)與轉 換階段(conversion phase)。首先在訓練階段,分別對來源以及目標語料以音節為單位做切割,
並藉由切割資訊抽取出韻律參數(prosodic features),包括音節基頻軌跡、音節邊界的停頓時 長(pause duration)、音節長度、能量位階以及音節邊界的 energy-dip level 等資訊;同時以文 字處理器抽取出語言參數(linguistic features),包括聲調、詞長、詞類之資訊。接著以 A-PLM 演算法,結合韻律參數以及語言參數分別訓練來源語者與目標語者各自之韻律模型,並標記 韻律狀態(prosodic state)以及停頓標記(break type)。
圖 2-1:訓練階段之系統架構圖
為了要使來源語者之說話韻律特性經由轉換之後能與目標語者之說話韻律特性相近,本 論文採用的方法為統計來源與目標語者之間韻律狀態以及停頓標記的對應關係,以此建立韻
律標記之轉換函式(prosody mapping function)。在建立韻律轉換函式,本研究提出兩種方法,
分別為轉換方法一與方法二。首先在方法一中,運用了高斯正規化的概念對來源與目標的韻 律參數以及韻律狀態建立對應關係,因此,此方法並不需要特別用到平行語料,即可建立轉 換函式;其次,在方法二則是以 MMSE 法則,建立來源以及目標韻律標記資訊之間的轉換 關係,此該方法必需要使用平行語料。
在轉換階段,先將來源語音以音節為單位做切割,藉由切割位置抽取出韻律參數,同時 將語料文字抽取出語言參數;接著利用來源語者之韻律模型對輸入語音標記其韻律狀態及停 頓標記(source prosody tags),之後即可將得到的標記資訊,透過轉換函式,得到預估的目標 語者韻律標記(target prosody tags);最後,藉由預估得到的目標語者標記資訊以及目標韻律 模型還原音節基頻軌跡、音節長度以及音節能量位階,並利用目標語音原始之頻譜參數,以 STRAIGHT 合成器合成轉換之聲音。
圖 2-2:轉換階段之系統架構圖
2.2 A-PLM 演算法
本論文所採用之 A-PLM 演算法可以針對一個未經人工事先標記好的語料庫,經由一連 串參數最佳化的過程,同時做好韻律標記以及模型參數估測。圖 2-3 為在 A-PLM 演算法中 所採用之中文韻律階層架構;此架構由四層所構成:音節(SYL)、韻律詞(PW)、韻律短語 (PPh)、以及呼吸組/韻律句組(BG/PG)。
圖 2-3:A-PLM 演算法所採用之韻律階層架構
2.2.1 設計韻律模型
韻律標記問題可以視為,在給定語料庫之語音聲學參數集合A,和相對應的語言參數集 合L 之下,要求取輸出的韻律標記集合 之最佳解,因此整個過程可以看成一個求取最佳參 數解的過程,即
T
argmax ( | , )=argmax ( , | )P P
∗=
T T
T T A L T A L (2-1)
韻律標記集合包含了兩類很重要的漢語語音韻律資訊,第一類是階層韻律架構的音節邊 界停頓標記(Break Type),在本論文定義韻律邊界音節停頓標記集合 {B0, B1, B2-1, B2-2, B2-3, B3, B4},其中 B2-1、B2-2 及 B2-3 分別代表明顯音高重置(pitch reset)之韻律詞邊界、
短停頓(short pause)之韻律詞邊界以及含有音節拉長效應(duration lengthening)之後的韻律詞 邊界。另一類的韻律標記是音節的韻律狀態,在本方法中韻律狀態有 3 種,代表的意義分別 是經過量化和正規化音節基頻韻律狀態
= B
p 、音長韻律狀態 q 和音節能量韻律狀態 r 。正規化 後的基頻會扣除掉音節層次對基頻的貢獻,即聲調和連音的影響因素會被扣掉,此時音節基 頻的韻律狀態代表的是韻律詞、韻律短語、呼吸組/韻律句組對基頻的貢獻。至於音長或能
量強度則要分別扣除語句、聲調、基本音節類型或韻母類型的影響因素,使其分別表示最上 界的停頓時長(pause duration)、音節邊界的 energy-dip level、正規化的能量差、正規化的基 頻差(normalized pitch jump)以及正規化的音節長度拉長因子(normalized duration lengthening factor)等。根據上面的討論定義 A 包含音節基頻軌跡序列 sp、停頓時長序列 pd、energy-dip level 序列 ed、音節長度序列 sd、音節能量序列 se、正規化的音節內基頻差序列 pj,定義為: affecting patterns(APs),而正規化的音節長度拉長因子序列 dl 和 df 定義為:
x(1) βt tn
(Inter-syllabic Prosodic Feature)Y={pd ed, } (Differential Prosodic Feature)Z={ , ,pj dl df 。 }
至於語言參數方面,首先用L 來表示所有的語言參數集合。接下來將音節聲調、基本音 節類型與韻母類型從L 中獨立出來,這樣做的用意在於音節聲調、基本音節類型與韻母類型 分別對音節基頻軌跡、音長與音節能量有顯著的影響。其次考慮到不同語句時,說話速度上 的變動會造成音長的變化以及說話音量變動會造成能量的變化,再把兩個語句層次的正規化 因子獨立出來。最後將上述這些從L 中拿掉和獨立出來後剩餘的語言參數,定義為 reduced
linguistic feature set 格 2-1。
1:韻律標記、韻律參數和語言參數的表示法
brea
l,為了能清楚的了解這些符號定義,將其列在表 表
2-B: k type
p: pitch prosodic state
q: duration prosodic state prosodic tag
prosodic state
: energy prosodic state our
T:
PS:
r
sp: syllable pitch cont sd: syllable duration syllable prosodic feature
: syllab el
X:
se le energy lev
pd: pause duration
Y: inter-syllabic prosodic feature
: energy-dip level ed
pj: normalized pitch jump
dl: no duration lengthening prosodic feature
: differential prosodic features
:n duration lengthening factor 2
l: reduced linguistic feature set
t: syllable tone sequence
s: base-syllable type se
f: fi
quence nal type sequence
linguistic feature
L:
u: utterance sequence
綜合上述之討論,可將 2-1 式改寫為
break-syntax model。進一步將音節韻律模型 ( | ,P X B PS L 分解成三個模型,分別模擬音節基, ) distribution,即 ),則可以得到
r
spn 的
( r; , N sp 0 R
1 -1
CART)推導出來,其節點的分類標準是依據最大概似函數增益(Maximum Likelihood Gain),
( , | , )
CART 演算法可以利用一個已經設計好的問題集,依據不同的韻律邊界停頓同時將所有音節 的 pd 、n ed 、n pj 、n dl 和n df 做好分類。在此將n pd 以 gamma distribution 建構,而n edn、pj 、n
和 以 建
distribution 和四個 al distribution 的乘積。
韻律狀態模型可以進一步針對三種韻律狀態分解成三個子模型,表示為 韻律參數估測;而在疊代的過程中會先對所有語句定義一概似函數(Likelihood Function)
構 , 因 此 (p pd ed pj dl df B ln, n, n, n, n| n, )n 會 是 一 個 gamma dln dfn normal distribution
norm
1
第三章 以音節為基礎之韻律轉換
藉由正交化展開,可利用四維參數表示一個音節基頻軌跡;在基頻轉換所使用的向量,即為
3.2.2 聯合高斯混合模型轉換
[ ]
1權重,且 ;M 為總共的 mixture 數;利用 EM(Expectation-Maximization)演算法,可 以估計出高斯混合模型的參數。
Sentence
Syllable1 Syllable2 SyllableN
Prosodic Features
1
3-5 (General
Form)
(tone) (tone pair)
1 1 n
tn−+ 取代;此方法也假設目標語者與來源語者有相同的說
話風格(speaking style),也就是假設:
對於韻律狀態(Prosodic State)的轉換,目的是建立來源語者的韻律狀態 與目標語者的 韻律狀態 之間的關係。同樣的因為假設目標與來源語者有相同的說話風格,因此假設: 韻律狀態以外的影響因素(Affecting Factor)的標準差,如下數學式所述:
1 1
此方法繼承了高斯正規化轉換方式的優點,即不需要特別準備平行的訓練語料;此外,
* *
型(prosody-tag mapping model)。前者之簡化是為了只考慮對於 y 有最重要的影響因素,而後 者是為了只對韻律標記做轉換。
式決策(hard decision)的概念。
n n n n 一個高斯分佈,因此 3-24 式可改寫成
, , 1 , 2 * *
其中, 為韻律狀態對應函式(prosodic state mapping function),藉由前 一個轉換的韻律狀態
3.4 以韻律模型為基礎之音長與能量轉換
{ }
2
(Affecting Factor)的標準差,如下數學式所述:
( n n n
3.4.2 音長與能量轉換方法二
其中,P q q( |ny ny−1,qnx−*,1n+1,Bnx*)藉由前一個轉換的韻律狀態qny−1,以及來源音節相鄰的韻律標記
第四章 實驗結果與分析
在本章中,我們以客觀與主觀的評估方式對傳統方法與所提出的韻律轉換方法做比較,
實驗的轉換組別分別為:M1ÆM2、F1ÆM1、M2ÆF2 以及 F2ÆF1。首先,於客觀評量,我 們以 NMSE(Normalized Mean Square Error)評估轉換後的結果,並且進一步分析各方法對不 同語者說話特性(speaking style)所呈現之效能。最後,以主觀評估方式評估基頻轉換後的聲 音。
4.1 實驗環境設定
實驗所使用的語料庫為中央研究院之 COSPRO-03(Mandarin Continuous Speech Prosody Corpora)語料庫[25],包含 2 男 3 女,共五位語者所錄製的韻律平衡平行語料。此語料庫又 分成直述句、感嘆句以及疑問句三大類別,本研究則以直述句做為研究的語料。五位語者中 選擇兩位男性語者(語料庫中編號為 M002、M003,本論文分別以 M1 以及 M2 表示),以及 兩位女性語者 F002、F004(本論文分別以 F1 以及 F2 表示)所錄製的音檔;經由前處理(移除 文句中多字或少字的語句),每位語者分別使用 757 個音檔,總共 24369 個音節,音檔皆為 16kHz 之取樣率及 16-bit 之 wav 格式,作為訓練與測試語料;此語料庫本身即附有音素、音 節的切割資訊,切割資訊是由 Hidden Markov Model Tool Kit(HTK)[26]切割並經由人工手動 校正;音節基頻軌跡則是由 Wavesurfer 軟體所提供的 ESPS[27](Entropic Signal Processing System)演算法,對每個音框求取基頻數值,接著再利用音節的切割資訊對每個音節的基頻 軌跡取對數之後,做正交化展開抽取音節基頻軌跡參數向量,並同時計算每個音節之音節長 度、能量位階,以及音節停頓長度。
最後,為了加入語言參數,在此將語料庫中所有的文字語料藉由中央研究院斷詞系統 (CKIP)[28],得到音節聲調、詞性及詞長的資訊。
4.2 基頻轉換之客觀性評估
另一種是以 3-17 式預估(M_1_adv)。對於GMM轉換的mixture數設定,實驗得知當mixture數 為 16 時可得到最好的轉換效果。
表 4-1 展示了五種轉換方法對不同語者轉換組別的實驗結果。從表中發現,以平行語料 所推導得到的兩種轉換方法,M_2 以及 GMM,轉換的效果皆比不需平行語料所推導得到的 轉換方法,MV、M_1 以及 M_1_adv 來得好。此結果顯示,如果能有效的利用平行語料之間 的相關性,將可以大幅的改善轉換的效能。此外,以平行語料為基礎的方法中,M_2 之轉換 效果在不同轉換組別皆優於 GMM,而以非平行語料為基礎所推導的方法中,M_1 以及 M_1_adv 則均優於 MV,這也顯示了本論文提出的以韻律模型為基礎的音節基頻軌跡轉換方 法,在 NMSE 的評估下確實可得到較佳之效能。比較 M_1_adv 與 M_1,結果也說明來源語
表 4-1:五種轉換方法對四組轉換組別的客觀評估(NMSE)結果
F1ÆM1 M1ÆM2 M2ÆF2 F2ÆF1
MV 0.0257 1.0561 0.0647 0.1498
M_1 0.0246 0.9245 0.0584 0.1419
M_1_adv 0.0230 0.8818 0.0554 0.1206
GMM 0.0204 0.7586 0.0443 0.1186
M_2 0.0198 0.7489 0.0355 0.1049
圖 4-1 為 F2 轉 F1 的基頻軌跡轉換範例,每一列對應一種轉換方式,由上至下分別為 M_2、M_1_adv、GMM 以及 MV,而每列之粗虛線、細虛線與實線分別代表轉換、來源以及 目標基頻軌跡,垂直線代表音節邊界。從最底下的轉換圖中可以發現,高斯正規化的轉換方
150 200 250 300 350 400 450 500 550
0
為了進一步證明上述的論點,表 4-2 計算了轉換後的音節基頻軌跡向量後三維轉換誤
F1ÆM1 M1ÆM2 M2ÆF2 F2ÆF1
F1ÆM1 M1ÆM2 M2ÆF2 F2ÆF1