第一章 緒論
1.2 研究現況
第一章 緒論
本章節將介紹本論文之研究動機、語音合成之研究現況、本論文之研究貢獻 以及其研究架構。
1.1 研究動機
近年來電腦科技有了嶄新的面貌,智慧型手持裝置崛起,在人們的日常生活 中逐漸取代了傳統的電腦。在人與電腦的溝通的過程中,語音科技的進步使得傳 統使用鍵盤的方式也逐漸由語音輸入所取代;同時,人們也逐漸期望電腦與人的 互動不再侷限於人對電腦單方面的互動,希望電腦也能夠與人類一樣說話,減少 與電腦互動的隔閡感,而語音合成(Speech Synthesis)正是提供電腦輸出語音給使 用者的技術。
一般而言,語音合成技術泛指將文字以語音輸出的技術,目前已有許多人機 互動介面使用語音合成技術,如:語音助理、道路導航、虛擬導覽人(Avatar)與語 音電子書等。如此眾多的運用顯示出語音合成技術已成為日常生活當中不可或缺 的重要技術。為了讓使人與機器之間的隔閡縮小,因此科學家便開始追求語音合 成之品質,希望語音合成能夠提供機器更加順暢且高音質的語音。
在本論文中,吾人將探討目前主流之語音合成相關技術,並提出改善方法。
1.2 研究現況
語音合成技術,亦有人稱其為文字轉語音(Text-to-Speech, TTS)技術。此技術 係指使用者輸入一段文字後,經分析後,電腦會依其輸入的文字發出對應的語音。
2
因此語音合成技術相關的研究大多著重於文句的分析以及合成方法兩大區塊上。
在語音合成當中,首先會進行文字及語意的分析,以擷取隱含在文字當中的 資訊,而將其分析的結果轉譯至聲音訊號即為語音合成當中產生合成聲音的方法。
在本小節當中,吾人將介紹目前在文句分析與合成方法兩大方面的研究現況。
1.2.1 文句分析
在語音合成中,一般以文字作為輸入,因此首要的任務即為對文字進行處理。
為了從文字擷取供合成技術所需格式,文字的必須要經過以下幾個步驟進行處理
[1]:
1. 文字分析:
(1.) 符號分類(Semiotic Classification):將文字進行符號之判別,並依其 屬性進行分類,如:日期、金錢…等。
(2.) 解譯(Decoding):針對分入不同的屬性的符號進行轉換至一般文字 格式。
(3.) 語言化(Verbalization):將非自然語言之符號轉換為一般文字格式。
2. 同型異義字之處理(Homograph Resolution):將混淆的文字進行判別後將 其轉換至正確的文字格式。
3. 語法分析(Parsing):針對句子進行語法分析。
4. 韻律預測(Prosody Prediction):預測句子的韻律。
進行以上四個步驟前,首先以斷詞(Text Segmentation)技術對文字進行符號
3
化的判別以及句子的區分。目前斷詞已有許多不同的方法可以達成,如決策列表
(Decision Lists)[2]、詞性標記(Part-of-Speech Tagging, POS)[3,4];其中詞性標記為 目前主流的斷詞技術。詞性標記指的是藉由統計不同詞性之間的轉移機率,藉由 以知當前詞性的情況下,以預測與其串連之詞性種類,如圖(一)所示:
圖(一):不同詞性之轉移機率表示圖
而隱藏式馬可夫模型(Hidden Markov Models)是最常用於詞性標記的統計式 模型[5],亦有使用決策樹(Decision Tree)作為詞性標記的統計式模型[6]。
以隱藏式馬可夫模型之詞性標記斷詞為例,令原語句為 T,而斷詞後的結果 為 L,則其詞性標記斷詞以下式表示:
𝐿̂ = argmax
𝑙
{𝑃(𝐿|𝑇)} (1)
式(1)即為最大化給予一原始語句,產生詞性標記斷詞的機率值;其機率值可 藉由貝氏定理(Bayes Theorem)進行轉換後得到:
4
𝑃(𝐿|𝑇) =𝑃(𝐿)𝑃(𝑇|𝐿)
𝑃(𝑇) (2)
其中,P(L)為斷詞序列之機率值,可藉由建立 N 連語言模型(N-gram Language
Model)[7]來獲得;P(T)為原有語句之機率;而 P(T|L)為斷詞序列 L 產生原有語句 T 之機率值。
從詞性標記斷詞法中,除了可以藉由斷詞結果來獲得同型異義字的發音外,
亦能獲得語句結構資訊,而藉由詞彙的詞性與其語句結構資訊更能推測出語句的 韻律。
目前語音合成的研究中,已有學者針對從斷詞結果所獲得的語句結構資訊來 推測合成語句之韻律[8–10]。
1.2.2 合成方法
近代語音合成器的發展可以幾個不同世代之語音合成做為區分。
在 1980 年代之前,語音合成的主流技術是基於聲道模型(Vocal-Tract)的合成
[11]。由於該合成技術屬於模仿真人在說話時的聲道模型,故在合成階段需要相 當仔細的模型描述才能達成。此世代較為著名的合成技術為共振峰合成(Formant
Synthesis) 、 線 性 預 測 合 成 (Linear-Prediction Synthesis)[12,13] 、頻譜參 數合成 (Articulatory Synthesis)[14]。
後來語音合成器的主流逐漸轉往串接式語音合成與訊號處理[15]的方向發 展。串接式語音合成是一種串接真實語音的片段的合成技術,為了弭平串接所導 致的不自然,以及賦予聲音片段不同的韻律,通常會使用訊號處理的方式對聲音
5
片段進行處理後才串接。其主流技術分別為基週同步疊加 (pitch-synchronous
overlap and add, PSOLA)[16]、餘數訊號激發之線性預測(residual-excited linear prediction, RELP)[17]。
而從 1990 年代中期開始,統計模型式的語音合成與單元選取式語音合成[18]
成為目前語音合成技術的兩大主流。統計模型式的語音合成指的是將語音訊號以 統計模型進行建模,並使用其模型來進行語音合成,因此可視為聲道模型語音合 成的後繼技術;目前較為知名的統計模型式語音合成為基於隱藏式馬可夫模型之 語音合成[19]。單元選取式語音合成則為此世代的串接式語音合成,該技術偏向 蒐集更大量的語音資料庫以增加音訊片段的多樣性,並希望藉由音訊片段的多樣 性來降低對於訊號處理的依賴。
一般而言,統計模型式語音合成與串接式語音合成所產生的合成語音各有優 劣。以串接音訊片段的單元選取語音合成能夠產生高音質的合成語音,但其流暢 度會因語音片段的不連續而下降;在統計模型式語音合成當中,其合成語音受到 統計模型的影響,因此合成語音的音質較低,但藉由統計模型的幫助,其合成語 音的流暢度較高。
而亦有學者結合統計模型式語音合成與單元選取語音合成,提出混和式語音 合成[20–26]。
近兩年來,由於深層類神經網路(Deep Neural Network)的蓬勃發展,此一技 術也被使用於基於隱藏式馬可夫模型之語音合成當中[27,28],用其改善其聲學特
6
徵的建模。