結論與未來展望 - 台語語音合成技術之研究

1.3 章節概要說明

本論文一共分為五個章節，各章節內容分配如下:

第一章:緒論:介紹本論文之研究背景、動機與研究方向

第二章:台語語料庫介紹:介紹台語語音特性、變調規則、國台語字典的建立及本論文所使用之語料庫

第三章:台語語音合成系統實作:介紹基於 HMM 之語音合成系統原理及實作出一個中文文字轉台語語音合成系統

第四章:利用階層式韻律模型分析台語語料庫:本章節利用中文階層式韻律模型對本論文所使用之語料庫做分析

第五章:結論與未來展望:對本篇論文提出的語音合成系統做結論，並說明未來的改進方向

去掉聲母之後，剩下的部分稱為韻母，韻母可細分為韻頭、韻腹、韻尾三個部分，

其中韻腹是每個韻母都有的，韻首或韻尾則不一定。韻腹和韻尾都屬於元音，聲帶震動，

音強較大，在波形上可看到較大的振幅，呈現週期性。台語一共有68個韻母，分別為開尾韻、鼻聲韻、普通入聲韻、音節性輔音、喉塞入聲韻五類，其中四類再依據開口、齊齒及合口細分，分類列表如下，包括漢語拼音及[範例文字]表示法:

表 2-3 台語語音中的韻母分類表一、開尾韻

開口 a[佳] o[島] oo[姑] e[洗] ai[泰] au[草]

齊齒 i[止] ia[爺] io[搖] ue[瓜] iau[少] iu[樹]

合口 u[舊] ua[華] uai[怪] ui[肥]

二、鼻聲韻

m 韻尾 n 韻尾 ng 韻尾開口 am[堪] om[蔘] an[班] ang[紅] ong[王]

齊齒 iam[險] im[金] ian[電] in[真] iang[雙] iong[良] ing[永]

合口 uan[灣] un[溫]

三、普通入聲韻

p 韻尾 t 韻尾 k 韻尾開口 ap[合] at[賊] ak[六] ok[國]

齊齒 iap[業] ip[入] iat[列] it[七] iak[約] iok[菊] ik[竹]

合口 uat[雪] ut[術]

四、音節性輔音 m[毋] ng[光]

五、喉塞入聲韻

開口 ah[鴨] eh[厄] oh[學] aih auh

齊齒 ih[舌] iah[役] ioh[藥]

合口 uh[突] uah[活] ueh[劃]

與國語不同的是台語基本音節(base-syllable)為877個，較國語多出許多；另外，台語的聲調分為陰平、陰上、陰去、陰入、陽平、陽上、陽去、陽入等八個聲調，但其中二(陰上)、六聲(陽上)已合併，故實際上只剩下七種聲調，也較國語的聲調多，各聲調之特徵及例字如表2-4所示，其典型基頻軌跡(pitch contour)如圖2.1所示。

表 2-4 台語八聲例表聲調台文字羅馬拼音一聲(陰平) 衫 saN 二聲(陰上) 短 te2 三聲(陰去) 褲 khou3 四聲(陰入) 闊 Khoah4 五聲(陽平) 人 lang5 六聲(陽上) 矮 e2 七聲(陽去) 鼻 phiN7 八聲(陽入) 直 tit8

圖 2.1 台語八聲調之波形及基頻軌跡

2.2 台語變調規則

要合成出自然的台語語音，其中台語聲調的變調是一個重要因素，聲調是台語一項很重要的特色，很多情形下不同的聲調，會造成語詞的意義或是詞性的不同，例如:擔 taN-1 聲<挑>為動詞、taN-3 聲<擔子>變成名詞;分 hun-1 聲<分開>為動詞 hun-7 聲<份數

>變成量詞。

在詞層次，大多數情形是最後一音節讀本調，其餘讀變調。然而在句子的層次，大部分情形是在詞組或是標點符號的分界處最後一音節讀本調，其餘讀變調(包含詞的最後一音節也讀變調)。

變調的部分，除了規則變調(圖 2.2)外，變調又分為以下幾種情形:

1. 隨前變調：一般為代名詞或人名的後綴，前面一音節讀本調，此音節的聲調視前面聲調而定，為 1 或 3 或 7 聲，例如:A-eng-a [阿瑛啊](7-1-1)(第二個”a”是後綴，所以隨前變為 1 聲)。

2. 輕聲:輕聲前讀本調，輕聲的部分讀 3 聲或 4 聲(入聲)，例如:chau-chhut-lai [跑出來](2-4-3)(「出」念回本調 4 聲，「來」唸成 3 聲輕聲，原本「出來」一詞聲調為 8-5)。

3. 再變調：多半出現在喉塞音(-h)4 聲，規則變調兩次(4→2→1)，例如:beh-thak-chu [要讀書](1-4-1)(beh4 聲應變 2 聲，實際變 1 聲)。

4. a[仔]前變調:a 前的音節，只有 1、2 聲同規則變調，其餘不同，例如:sun-a[孫仔](7-2)(「孫」本調為 1 聲)。

5. 三連音變調:三連音疊詞的第 1 音節，2、3、4 聲同規則變調，其餘不同，例如:chheng- chheng- chheng[清清清](5-7-1)(第一個「清」因為三連音的緣故由 1 聲變 5 聲，第二個「清」則是照基本規則變調由 1 聲變 7 聲)。

6. 升調:通常發生在日語借詞，詞的第一個聲調變調為 5 聲，例如:han-to-lu[方向盤](5-1-3)。

由於考慮到平常對話的台語口語中，並非完全依照上述規則來進行變調，以及目前偵測台語變調位置的困難，因此在本篇論文中，所使用的變調規則為詞層次的規則變調。

圖 2.2 規則變調示意圖(圖中數字代表台語七種聲調)

2.3 語料庫簡介

在進行語音合成之前，首先必須收集足夠的語料來進行合成模型的訓練，且這些語料都必須要有其相對應的台語標音及切割位置，但並不是人人都能標準的說台語或是標示台語的拼音。以下將介紹本論文所使用的語料庫以及在訓練合成模型前對語料庫做了那些前處理。

本論文所使用的音檔由一位專業男性台語錄音員所錄製，其文章內容為阿瑛的故事，

文章內容以漢羅拼音來標記，音檔的錄製方式是將文章分成許多段落錄製而成，全部音檔時間共109分鐘，總音節數23631個，最長段落的音檔字數約為282個字，音檔均為20kHz 的取樣頻率及16-bit之PCM格式。

此語料庫經由本實驗室將文本內容作斷詞及詞性標記，斷詞之後的文本，最大詞單元字數為 7 字詞，各字數統計資料如下表:

表 2-5 文本斷詞長度數目統計

接著此語料庫藉由潘荷仙老師實驗室所做的聲調標記及音節時間切割資訊，使得此語料庫所含資訊更加完整豐富。聲調標記的方法直接使用人工聽音檔，藉由聽到的語者聲調，來標記文本中相對音節的聲調，因此在此所標記的聲調為已經經過語者變調後之聲調。

由於在語音合成中，聲調是一個很重要的影響因素，因此統計了此文本中的聲調分布狀況，由表 2-6 可看出 1、2、3、7 聲出現數量較多，不過也可發現到其他三個聲調的數量並不會有過少到造成訓練量不夠的問題。

表 2-6 聲調分佈統計聲調數量第 1 聲 4062 第 2 聲 3432 第 3 聲 3782 第 4 聲 1775

斷詞單元字數統計 1 字詞 5300 2 字詞 4683 3 字詞 2221 4 字詞 1215 5 字詞 162 6 字詞 22 7 字詞 1

第 5 聲 1282 第 7 聲 6434 第 8 聲 2018

同時利用已經切割好的音節位置(切割方法使用人工切割)，找出音節相對應的 initial final 分為 3:7 等分，接著再利用人工手動調整到較適當的 initial final boundary，圖 2.3 為音檔的切割狀況。

圖 2.3 音檔切割狀況

2.4 國台語字典的合併

為了建構國語轉台語語音合成系統，就必須具備國語字詞轉成台語字詞的翻譯字典，

因此我們將利用實驗室已有的國語轉台語字典及國語字典做合併的動作，首先把國語字典中缺少台語詞翻譯(在此所稱的翻譯是指將國語詞對應到台語拼音)的國語詞補上台語翻譯，並收錄一些新詞條擴充到此字典。

目前實驗室所擁有的字典資料如下: (1)國台翻譯字典共 126831 筆詞條; (2)國語字典

121624 筆詞條。這兩個字典所使用的拼音系統皆使用教會羅馬拼音系統，國台翻譯字典的各字詞資料統計如下表 2-7:

表 2-7 國台翻譯字典各字詞數量統計一字詞 13038

二字詞 75914 三字詞 26678 四字詞 9208 五字詞 1577 六字詞 416

總和 126831

國語字典各字詞資料統計如下表 2-8:

表 2- 8 國語字典各字詞數量統計一字詞 13459

二字詞 64827 三字詞 26044 四字詞 16067 五字詞 999 六字詞 155 七字詞 65 八字詞 8 總和 121624

2.4.1 國語轉台語一詞多音現象

由於大部分人在學台語時，都是聽長輩或者其他人的發音學來的，因此雖然是同個字，但卻可能因為發音方法的不同，造成同個字不同發音，例如:「日」就有 Chit、git、

jit、lit 四種發音，韻母都相同，只差在聲母的發音方法不同，再加上有些詞的字不管是文讀或白讀大家都聽得懂，因此大家也就不在意哪種讀音比較正確了，所以在國台翻譯字典中國語字詞翻譯到台語字詞時可能會發生同一個國語詞對應到很多不同的台語發音，例如:日光中的「日」就有 Chit、git、jit、lit 四種念法再加上「光」也有 Kng、kong 兩種念法，所以組合起來就有高達 8 種的念法，因此我們針對此現象對國語轉台語字典，

做了詞重複出現次數的統計如下:

表 2-9 詞重複出現次數統計重複出現次數

(次)

數量

2 7448 3 2216 4 1677 5 66 6 44 7 32

8 7

11 1 13 1 總數 11492

以下再針對各字詞分別做重複出現次數統計，統計資料如下:

表 2-10 各字詞重複出現次數統計 (1) 一字詞

重複出現次數(次) 2 次 3 次 4 次 5 次 6 次數量 376 65 56 2 1

(2) 二字詞

重複出現次數(次) 2 次 3 次 4 次 5 次 6 次 7 次 8 次 11 次 13 次數量 6115 1052 464 53 29 29 7 1 1

(3) 三字詞

重複出現次數(次) 2 次 3 次 4 次 5 次 6 次 7 次數量 935 1099 1157 11 14 3

(4) 四字詞 重複出現次數(次) 2 次

數量 14

(5) 五字詞 重複出現次數(次) 2 次

數量 8

針對一字多音的部分，我們利用計算 entropy，來評估一字多音的情況如何， entropy 使用公式為:

* ln( )

Entropy=

∑

P P ^(2-1)

i:當前一字詞的總發音數量

P:固定一種發音情形下，現有國台語字典中出現的機率值

Entropy 為一大於等於零的數值，數值越小代表越容易傾向於某一種讀音，當數值等於零時，代表此一字詞只會有一種發音情況。

字典中所有的一字詞共有 13038 個，在不考慮 tone 的相異性(同一讀音，但在不同字詞中有不同聲調先不考慮，在此都算同一種讀音)，只考慮讀音相同與否，共計有 3520 個字 entropy 大於零，大約佔一字詞的 27%，而其他 73%的一字詞不管在哪個詞彙中都只會有一個讀音。

表 2-11 未考慮 tone 的情況下，一字詞 entropy 的分布情形 Entropy 值數量

>2 2

2>Entropy>1 482 1>Entropy>0 3036

Entropy=0 9518

在加入了 tone 的考慮後，entropy 大於零的一字詞共 3957 個，較未考慮 tone 的影響下多了 437 個字，但普遍來說 entropy 都不算太高。

表 2-12 考慮 tone 的情況下，一字詞的 entropy 分布情形 Entropy 值數量

>2 7

2>Entropy>1 958 1>Entropy>0 2992

Entropy=0 9081

entropy 較高的一字詞，原因大多為這個字在不同詞彙下的讀音都不太相同，且各讀音中會有幾個讀音的出現機率很平均，造成 entropy 被拉大

例如:「券」: kng3-票「券」機率:0.506 koan3-債「券」機率: 0.291

khng3-寶「券」機率:0.012 khoan3-契「券」機率:0.189

因此如果只有一字詞的時候，很難只給定一個發音，但一字多音這個問題，在考慮到多字詞，經由詞彙的意義去做判斷後，都可以很容易給定一個恰當的讀音。

另外由表 2-9 可看出其中二字詞及三字詞所佔的重複次數比例較其他字詞為高，二字詞及三字詞重複的這些詞其原因大概可分為以下情形:

1. 不同地區會有不同的讀音，例如:海口腔、南、北部腔。

2. 不同情景造成不同讀音，例如:「丟掉」根據場景可能是:a.我把某樣東西「丟掉」

了，此時的情況為丟掉某樣東西了，讀音為 tan3-tiau7 或者是 b.我好像有某樣東西「丟掉」了，此時的情況又變成是我的某樣東西不見了，讀音卻變了成 pang3-kiN3。

3. 文讀白讀兩者皆可，例如:「台東」有人念白讀 tai5-tang1，也有人念文讀 tai5-tong1，

在文檔中台語語音合成技術之研究 (頁 12-59)