四縣客家話之音節

第二章客家話語文特性

2.5 四縣客家話之音節

紀錄客語的文字大多是以音節為單位，一個國字代表語言裡一個音節。依據聲母、韻母、聲調的音韻結構，可能的音節組合形式有：17x71x6=7242 種，但實際上如同國語，四縣客家話有嚴格的聲韻組合規則，依據以上原則，可以衍生出 13 種不同的音節類型，如表 2-3 所示，四縣客家話音韻系統共有 671 個音節，其詳細列表如附錄一。

表 2-3 四縣客家話音節類型表

音節類型例字

元音 o2(襖)、i5(于)

元音化的鼻音輔音 m5(毋)、ng5(魚) 元音 + 輔音韻尾 it4(一)、ap4(鴨) 元音 + 元音韻尾 ai2(矮)、oi3(要) 介音 + 元音 iu3(柚)、ia5(爺) 介音 + 元音 + 輔音韻尾 iok8(浴)、iuk4(育) 介音 + 元音 + 元音韻尾 ieu5(謠)、iau1(飫) 輔音 + 元音 ho5(何)、pa1(爸) 輔音 + 元音 + 輔音韻尾 nap8(納)、ziip4(汁) 輔音 + 元音 + 元音韻尾 cai2(採)、tui3(退) 輔音 + 介音 + 元音 mia1(摸)、dui3(對) 輔音 + 介音 + 元音 + 輔音韻尾 giuk(趨)、liok8(略)

輔音 + 介音 + 元音 + 元音韻尾 tiau5(跳)、diau3(釣)

第三章 TTS 系統原理

在一個 TTS 系統中可分為四個部分，如第一章圖一所示，在本章節中我們將會簡單描述 TTS 中韻律訊息產生器與語音合成器的兩個部分。

3.1 韻律訊息產生器

在人類的發音模式中，是從肺部的氣流流經發音器官，藉由氣流的變化，可控制聲音的強弱、快慢，另一方面藉由聲帶的震動可控制聲音的頻率高低。韻律訊息產生器在文字翻語音系統中佔極重要的角色，也是合成流暢語音的主要關鍵。韻律訊息的變化是指發音的長短（包含音節和停頓的長度）、音量的大小和聲調的抑揚頓挫，目前對韻律合成的方法大致可分為：

1. 規則法[4,5]：運用語言學的分析方法，歸納出人類發音規則，利用這些規則來產生合成語音的韻律。但是人類說話的方式並非單一無變化，要能有效掌握並不是一件容易的事，必須經由長期的觀察研究才能得到良好的結果。

2. 統計法[6]：使用統計演算法，從大量的語音資料中統計出韻律變化的規則，運用這些規則來控制合成語音的韻律變化。但是此方法需要大量的語音資料，而且很難得到各種韻律特性的語音資料與不容易掌握文句的整體韻律變化。

3.類神經網路[7,8]：利用一組複雜的網路來模擬人腦的記憶與學習能，其學習方法是採用漸進式的修正錯誤與更新記憶的方式，在經由長時間的學習訓練後，可以得到不錯的效果。

類神經網路的方法不但可以避免前兩者方法的不同，更可以掌握文句的整體性的韻律變化。以下就介紹類神經網路韻律訊息產生器的運作原理。

3.1.1 產生韻律訊息

語音的韻律訊息包含音調的高低、音量的大小、音長的快慢，人類產生韻律訊息的概念圖，如圖 3-1 所示，首先分析輸入文句，獲得語言參數，語言參數可分為詞層次語言參數與音節層次語言參數，詞層次語言參數包含詞、詞類、標點符號等；

音節層次語言參數包含音節的子音、母音、聲調等，最後將語言參數送入韻律訊息產生器，產生韻律參數。

圖 3-1 人腦產生韻律資訊的概念模型

由於詞層次語言參數在文句分析而言是屬於上層語言參數，對於整體韻律訊息的影響較大，所以將韻律產生機制再細分成兩個部分，一為韻律模型，另一為韻律產生器，如圖 3-2 所示。韻律模型的輸入是詞層次語言參數，由輸出的韻律狀態來控制文句韻律的整體趨勢。韻律產生器則是在韻律模型的輔助下，依據音節層次語言參數而產生適當的韻律參數。根據上述模型，我們以遞迴式類神經網路

（Recurrent-Neural-Neteork, RNN）來完成圖 3-1 所示的韻律產生機制，其方塊圖如圖 3-3 所示。

圖 3-2 細分之韻律產生的概念模型

圖 3-3 遞迴式類神經網路方塊圖

如圖 3-3 所示的遞迴式類神經網路為一具有兩個隱藏層的四層網路。它的功能可以分成兩個部分。第一個部分是韻律模型由輸入層和第一個隱藏層所組成，其操作為詞層次。它是利用詞層次語言參數來探索文句與對應之語音的韻律結構，以詞為單位輸出每個詞之韻律狀態參數。韻律模型輸入的詞層次語言參數包含：目前欲

處理的詞之詞類、詞長、下一個詞的詞類、詞長以及前後的標點符號。其中詞長從一字詞到八字詞共八類；標點符號分成 4 類，如表 3-1 所示；詞類分成 43 類，如

表 3-1 標點符號分類表

類別標點符號

1 句邊界

2 ，。；！

3 「」：、

4 ？

第二部分是由第二隱藏層和輸出層所組成，其操作為音節層次，它接受第一部份韻律模型所產生之韻律狀態與音節層次語言參數，並以音節為單位產生每個音節的韻律訊息。為了降低網路的複雜度，將第二隱藏層和輸出層分成三個群組，分別輸出四個基頻軌跡參數、四個音長參數和一個能量參數。音節層次語言參數包括：

目前欲處理的音節部分：聲母類別、韻母類別、聲調、詞頭、中、尾、單字詞的分類。

下一個音節：聲母類別、聲調。

3.2 基頻同步疊加合成方法

基頻同步疊加法（Pitch Synchronous Overlap Add, PSOLA）分成三個步驟：

Step1、基頻同步分析：

將原來語音訊號與一序列基頻同步視窗函數相乘，可以得到一序列的短時（short-term）訊號。

Step2、基頻同步變換：

將這些短時訊號進行適當的時域或頻域轉換，得到與合成基頻軌跡同步的一序列合成短時訊號。

Step3、基頻同步疊加合成：

將合成短時訊號重疊相加而合成語音。

3.2.1 基頻同步分析

將原始訊號與一序列基頻同步的視窗函數相乘，得到一序列的短時訊號：

( )n h (t n) ( )x n

x_m = _m _m − ⋅ (3.1) 其中：

( )n :

x 原始語音訊號。

t 基頻同步標記的位置。

( )n :

h_m 中心位於t 的視窗函數。 _m

視窗一般是使用 Hamming window，視窗長度大於一個基頻（pitch），這樣使得相鄰 的短時信號總有一部份重疊。通常視窗長度取相對位置處的基頻 p 的 u 倍，

2≤ u≤ 。所以，我們可以得到視窗函數長度的變換公式：

⎟⎟⎠

⎜⎜ ⎞

⎝

= ⎛ up h n

h_m (3.2) 其中h( )t :具正規化長度的視窗函數。

3.2.2 基頻同步變換

將分析短時訊號序列x_m( )n 轉換成與合成語音基頻標記t~ 同步的合成短時信號_q 序列~x_q( )n ，此轉換包含三個步驟：改變短時信號個數、改變短時信號間的時間延遲和改變每個獨立的短時信號的波形。合成基頻標記t~ 的個數和基頻調節因子_q β和時長調節因子γ有關，透過適當的演算法找出~ → 的映射關係，進而找出由哪些分t_q ~t_m 析信號產生哪些合成信號。

3.2.3 基頻同步疊加合成

合成短時信號經過重疊相加的步驟後可以得到最後的合成語音輸出。重疊相加的方法有數種：

1. 最小平均方重疊相加：

( ) ( )

( )

P2 被重複。圖 3-4（b）表示為增加語音速度，有兩個分析短時信號 P3 與 P4 被刪除。

（a）

(b)

圖 3-4 以時域基頻同步疊加法改變時長

3.2.5 音高變化

音高變化就是按照基頻變化因子β改變相鄰合成短時信號的時間延遲。這時音高變化隱含著時長的變化。最簡單的一種情形是當基頻變化因子等於時長變換因子的時候，此時合成基頻標記與分析基頻標記是一一映射的，如圖 3-5 所示，圖 3-5

（a）表示為降低語音音高，圖 3-5（b）表示為升高語音音高。

（a）

(b)

圖 3-5 以基頻同步疊加改變音高（β = ） γ

然而在一般的情形下，這兩個因子是不相等的。但是，我們可以將視其為先作一次時長變換因子與基頻變換因子都為β的變換，再做一次時長變換因子為

β γ _的變

換。如圖 3-6 所示，分析短時信號先經過一次音高變換，此時音高與音長同時改變，

再經由一次時長變換得到適當的音長。事實上，我們可以根據基頻變化因子和時長變化因子找出分析時間軸與和誠實間軸的映射關係，進而找出分析短時信號與合成新號的映射關係，如此指需要進行一次變換即可完成所需的基頻和時長變換。

圖 3-6 以基頻同步疊加改變音高（β = ） γ

第四章訓練語料庫的前處理過程

類神經網路是運用複雜網路來模擬人腦的記憶與學習功能，以漸進式的學習方式修正錯誤與更新記憶，經由大量的學習訓練後，可以得到不錯的效果。在類神經網路學習前，我們必須建立出一套訓練樣本（training pattern）即語料庫，使類神經網路在學習的過程中有一個參考。用來進行網路訓練的輸出層資料稱為目標值

（Target），本系統中，目標值包含子音長度、母音長度、音節間停頓、能量、基頻軌跡的正交化係數。而整理訓練語料庫的品質，會影響整個 TTS 系統合成聲音的優劣，所以本章就介紹訓練語料庫的處理過程，包含語料的切割資訊的求取與調整、

基頻軌跡參數的求取與修正。

4.1 語料庫說明

四縣客家話語料庫文字稿，已收錄 57 篇文章，處理過程依序為蒐集文章、錄製語料、音節標記，主要由苗栗的兩位退休教師一位是龔萬灶老師、另一位為陳碧娥老師；與中華大學余秀敏教授所主筆，而陳老師也是語料的主要發音人。文章中有 57 篇已完成錄音，共有 42,337 個音節，語音檔共 325 個，407Mbytes。錄音軟硬體設備及格式如下表所示：

表 4-1 錄製音檔軟硬體設備與設定錄音軟體 Adobe Audition 1.0

麥克風單一指向性(Uni-directional)

錄音場所普通房間

錄音情境依照文稿唸出

取樣頻率（Sampling rate） 20 kHz

發音速度 4.3 syllable/second 取樣大小 16 bits

聲道單聲道(mono)

檔案格式 pcm

4.2 切割資訊

在此小節中，將介紹四縣客家話語料庫如何使用工具軟體，求得基本的切割位置，並為了精準化，進一步介紹人工調整切割位置的方法。

4.2.1 切割資訊的求取

雖然目前四縣客家話語料庫中已有 42,337 個音節，但在 671 基本音節中仍有約 99 個音節尚未出現，而只出現 5 次以內的音節有 215 個。本論文是利用 HTK（Hidden Markov Toolkit）軟體訓練音素(Phone)的 HMM Model，再對所有的語料進行強制切割（Forced Alignment）。其中參數的設定為 38 維的參數，包含 12 階的梅爾倒頻譜參數(Mel-frequency Cepstral Coefficients, MFCCs)與能量對數值(log energy)，及其一階微分與二階微分，扣除原本的能量對數值後共 38 維，音框大小(frame size)設為

在文檔中客語文句翻語音系統之實作 (頁 17-0)

第二章 客家話語文特性

2.5 四縣客家話之音節

第三章 TTS 系統原理

( )

第四章 訓練語料庫的前處理過程

第二章客家話語文特性

第四章訓練語料庫的前處理過程