緒論 - 中英夾雜語音之階層式韻律架構建立與語音合成之應用

1.1 研究動機

身在 21 世紀科技爆炸的時代裡，電腦、手機等電子資訊產品以飛快的速度推陳出新中，

且幾乎已成為人類生活中不可或缺的必需品，因此近年來，人機介面的發展也備受注目。從以往透過按鍵、滑鼠等操作電子產品，為了追求更便利更人性化的方式，語音便成為人類與機器間溝通的最佳選擇。語音合成技術則在此扮演相當中重要的角色。

近年來，單一語言的文字轉語音系統(Text-to-Speech)已經相當成熟，但鮮少有人發展出品質極佳的多語言系統，然而在全球化的潮流裡，人們往往會接觸到不同國家的人，無論是在商場上，甚至大專院校中也可看見越來越多國際交換學生，因此人們俱備兩種以上語言能力已變得越來越普遍。人們也更加期待機器可以同時說出不同語言，使得生活更加便利。

在現今華人社會裡的使用環境中，如中英文夾雜，國台語夾雜等都是日常生活中常見的情形，又以中英文夾雜尤為實用，例如:常用的縮寫專有名詞(PDA、IBM)、地名(New York)、

人名(Alice、John)等都常出現在新聞報章雜誌以及實際生活中的對話。因此本論文希望透過分析台灣人念的中英文夾雜文句之韻律，進一步完成中英文夾雜之文字轉語音系統。

1.2 文獻回顧

傳統上，研究多語言文字轉語音系統多半以實現整個系統為主，多以 Corpus-based【1-3】

為基礎的語音合成系統。【1】先錄製大量單一語者的單一語言語料，採用音素對應(phone mapping)找出次要語言與主要語言間的轉換關係，在合成次要語言的音素時，找出所對應的主要語言的音素，並使用單元選取，從語料庫中選出適當的單元合成，但此方法面臨的問題是即便兩種語言有相近的音素可以共享，但卻沒有足夠的較長合成單元(longer chunk)，因此

【1-2】又嘗詴錄製單一語者的多語言語料庫，使用共同的單元選取模組，但仍然沒有討論到 code-switch 處可能存在的聲學現象，且要找到一個會說多國語言的語者，並錄製語料是

相當困難且耗時的事情。【4】則提出以 RNN-MLP-based 為基礎下，目標合成出含有中英文夾雜的文句。以原有 RNN-based 中文韻律產生器【5】為基礎，將中英文夾雜文句中英文的語言參數，先以類似特性的中文之語言參數取代之，產生第一階段的中英文夾雜韻律，第二階段再使用 MLP 機制，針對第一階段 RNN 產生之英文韻律加以修正與學習，因而產生更精確的英文韻律。但此方法缺點在於要使用 RNN-MLP 訓練，需要大量的中英文夾雜文句，然而本研究採用的語料量略顯不足，且此方法不容易作錯誤分析。【6】則是少數專注在模擬混合語言中的韻律變化，觀察到中文夾雜少量英文單詞的文句中，英文單詞的韻律特性，如基頻和音節長度比貣此單詞在全英文文句中來的更加變化劇烈與更長，因此採取了簡單的線性轉換，來修正原本使用全英文語料所預估出的英文單詞韻律，達到更符合在中英文夾雜文句中的英文韻律特性，但仍然沒有考慮 code-switch 時兩種語言的互相影響程度。【7】則是基於 HMM-based 合成器下，使用單一語者分別錄製中、英文的語料進行 HMM 訓練，並使用 Kullback-Leibler divergence【8,9】建立誇語言間的狀態對應(state mapping)關係，以供給只會說英文的語者，利用建立好的中英狀態對應關係，合成出中文或中英混合的語音。

1.3 研究方向

中英文夾雜文句中的英文部分又可分為兩種，一類為以字母為單位發音(spelling)的文句，如 NBA、MLB；另一類則是以音節組合而成，依照英文音標發音的文句，如 word、paper。

本論文研究針對第一種類別進行韻律之分析，觀察此中文部分與一般中文語料有何不同之處，且著重在英文字母的韻律預估，並分析 code-switch 處帶給中文字與英文字母在韻律上各有何影響。因此本論文基於江振孙博士所提出之非監督式中文語音韻律標記及韻律模型 (Prosody Labeling and Modeling,PLM)【10】為基礎，針對英文字母做特定修改，進行中英文夾雜的韻律標記(prosodic tags)與韻律模型訓練。

此韻律標記的方法是以中文語音的韻律階層式架構為基礎，透過語言參數，聲學韻律參數，包含音節基頻軌跡、長度以及能量，和音節間韻律參數，包括音節間停頓長度、音節間

文字母鑲對在中文語句中，因此可將每個英文字母視為一個中文音節，同樣標記出每個英文字母的停頓標記與韻律狀態，並加以分析整個中英文夾雜語句的韻律標記分佈情形，

code-switch 處是否有何不同等，進一步預估中英文字的韻律參數，最後結合 HMM-based Speech Synthesis System(HTS)完成整個中英文夾雜之文字轉語音系統。

1.4 中英文夾雜 TTS 系統架構簡介

本研究最終目標為改善單純以 HMM-based Speech Synthesis System 所預估產生的語音韻律及合成語音的自然品質。因此在此先介紹本研究所提出之中英夾雜語音合成系統架構圖，如圖 1.1 訓練階段(Training Phase)與圖 1.2 合成階段(Synthesis Phase)。

如圖 1.1 所示，訓練階段為藉由中英夾雜語料的語言參數與聲學參數，使用本研究所提出之 PLM 演算法，自動標記出每個音節所屬的韻律標記，並建立韻律模型，此部分將在第三章詳述，接著藉由傳統語言參數所產生的文本標示(Label)，並加入韻律標記，產生更多韻律層次的文脈相關資訊，幫助 HTS 之 context dependent model 訓練廣義梅爾倒頻譜參數 (Mel-generalized Cepstrum, MGC)。

合成階段如圖 1.2 所示，輸入端為中英夾雜文字，經過文字分析器後得到其語言參數，

結合訓練端的韻律模型，進行停頓標記與韻律狀態的預估，此部分將在第五章詳述，接著透過預估出的停頓標記，一方面產生中英文夾雜的韻律架構，並產生 HTS 所需之文本標示，

進行頻譜參數的估計，另一方面也可以藉由訓練端之韻律模型和預估出的韻律狀態，直接預估出這些文字的韻律參數，包含其音高(Pitch)、音長(Duration)，最後將韻律參數和頻譜參數透過 MLSA filter(Mel-log Spectrum Approximation Filter)【11】，產生中英文夾雜語音。

Chinese-English Database

Spectral

Extraction Training of HMM

Text analysis &

Acoustic feature Extraction

Linguistic Feature Break Prediction &

Prosodic State Prediction

Label( Prosody Tags information)

Speech Synthesis

圖 1.2：合成階段的系統架構圖

1.5 語料庫簡介

本論文所使用之中英夾雜語料是由一個專業女性播音員所錄製而成，以中文為主體並穿插英文字母於中文語句中，共 539 個語句，總音節數為 13540 個音節，包含 11688 個中文音節與 1872 個英文字母。音檔為取樣頻率 20000 赫茲(Hertz)及 16 位元數之 PCM 格式，平均語速為一秒 3.5 個音節(3.5 音節/秒)。將此語料庫每 10 句中編號尾數為 7 之句子當作測詴語料，其餘為訓練語料。訓練語料共 12185 個音節，包含 10504 個中文音節與 1681 個英文字母，測詴語料則共 1355 個音節，包含 1164 個中文音節與 191 個英文字母，詳細訓練語料與測詴語料之各英文字母出現次數如表 1.1 與表 1.2。至於所有音節的切割標記、基頻軌跡及能量的偵測均先自動由 HTK(Hidden Markov Model Toolkit)【12】和 WaveSurfer【13】完成，

再經由人工修正。如此一來便可得到所有韻律參數，包含音節基頻軌跡、音節長度、音節能量及音節間停頓長度，其中本研究以一組四維正交化參數【14】來描述音節基頻軌跡。此外也透過交通大學語音處理實驗室之斷詞器得到每一個語句的斷詞情形與詞性，詞類分法則是依據中研院詞庫小組所制定的 46 類為準，其中英文詞的詞性多半為專有名詞(NB)，且詞長是以整個詞為單位，如『NBA』為一個三字詞。

表 1.1：訓練語料中個英文字母出現次數

A B C D E F G H I J K L M 122 91 147 147 53 34 56 33 93 9 34 43 102

N O P Q R S T U V W X Y Z 74 51 128 10 62 126 104 37 66 29 16 11 3

表 1.2：測詴語料中個英文字母出現次數

A B C D E F G H I J K L M 15 10 18 16 7 5 3 1 14 1 1 3 11 N O P Q R S T U V W X Y Z 11 8 15 0 7 14 13 3 6 5 2 2 0

1.6 章節概要說明

本論文的內容共分為六章：

第一章：緒論，介紹本論文之研究動機、研究方向、語音合成系統架構及語料庫說明。

在文檔中中英夾雜語音之階層式韻律架構建立與語音合成之應用 (頁 14-19)