客語文字分析結果範例

第五章文字轉語音系統之製作

5.1 文句分析器

5.1.4 客語文字分析結果範例

以下為數個基於目前的客語文字分析器流程所分析出來的斷詞結果範例，為方便比較，以下將以自動／人工斷詞結果並排的方式列出並做簡單的討論。表格中第一行為客語文字，第二行為四位數音碼，最左邊第一位數代表聲調，後面三位數為音節帶碼，範圍由 001 至 0671，其代碼對應的音節如附錄一，第三行為音節在詞中的資訊，如：成功，「成」在此詞是詞首所以在第三行欄為填 201，「功」在詞中第二個字，所以填 202。

例句一：

自動斷詞：

但係(Cbb)無半樣(VH)成功(Nb)，總係(D)半(Da)途(Na)而(Caa)廢(A)。

dan3he3 mo5ban3iong3 siin5gung1 ，zung2he3 ban3 tu5 i5 fi3 。人工斷詞：

但係(Cbb)無半樣(VH)成功(Nb)，總係(D)半途而廢(VH)。

dan3he3 mo5ban3iong3 siin5gung1 ，zung2he3 ban3tu5i5fi3 。

此例句斷詞結果是好的，只有在句尾的「半途而廢」，因在斷詞器的詞典尚未收錄，所以無法斷成一個詞，解決方法是把自動斷詞與人工斷詞結果進行比對，從人工斷詞的文句中收錄尚未收錄的客語詞。目前從 57 篇文章（共 42186 個音節）中，

不包含一字詞，人工斷詞部分有 12,583 個客語詞，自動斷詞有 12029 個，所以約有 500 多個客語詞可加進總詞典中。

例句二：

自動斷詞：

第二個(DM)賴仔(Na)也(D)已(D)煞猛(A)，學著(VC)一手(DM)殺猪(Na)的 (DE)技術(Na)。

ti3ngi3ge3 lai3e2 ia1 i2 sat4mang1 ，hok8do2 it4su2 cii5zu1 ge3 gi1sut8 。

人工斷詞：

第二個(DM)賴仔(Na)也(D)已(D)煞猛(A)，學著(VC)一(A)手(Na)殺猪(Na)的(DE) 技術(Na)。

ti3ngi3e3 lai3e2 me3 i3 sat4mang1 ，hok8do2 it4 su2 cii5zu1 ge3 gi5sut8 。

此句斷詞結果，可從以下幾方面來探討：

1. 人工斷詞部分，其音碼欄位由龔老師聽語料，再進行標音，「個」字，因口語自然的表達，此字受前一字影響原本單字應念 ge3 而唸成 e3。

2. 「也」其人工、自動斷詞拼音不一致，原因為一字多音，即破音字。在語料中，

此句「也」發 me3，但在詞典一字詞中「也」是以 ia3 收錄，這也是目前 TTS 系統待解決的問題之一。

3. 「已」為人工與自動斷詞結果，聲調不一致，從此句的音高軌跡圖 5-2 來看，

為聲調 3，所以此字也是一字多音。

圖 5-2 音高軌跡圖

4. 自動斷詞已加入構詞規則，所以會將「一手」構成一個詞，而人工斷詞錯誤係人為疏忽。

5. 因自動斷詞目前未將變調規則加入，所以在「技」字，其聲調正確為 5。

總結，人工與自動斷詞的比較結果，主要有：

1. 音節不一致：

如果是單字詞，最有可能的原因是一字多音，如果是二字詞以上，可能是音節在此字受前後音影響，有念法有所不同。

2. 聲調不一致：

客語聲調主要有三個，如第二章客語語文特性中提到，如果將構詞規則加入斷詞器單元，最後合出的聲音，才可接近口語化。

3. 斷詞資訊不一致：

人工斷詞是需要的，可找到自動斷詞中詞典所未收錄的客語詞。

也已煞猛

5.2 韻律訊息產生器

韻律訊息，包含音節基頻軌跡、音節能量、聲(韻)母長度、及音節間停頓長度等，本系統使用的方法是類神經網路 (neural networks)，它由一個大的語料庫來學習語言參數到韻律參數的對應關係，訓練時藉調整類神經網路的神經元間連結的加權 (weights)，在合成時，將語言參數輸入來產生韻律參數。

首先我們請陳碧娥老師錄製了一個朗讀的語料庫，共有文章 57 篇，其中包含：

短文、諺語、俚語等，共 42186 字，文章是陳碧娥老師及余秀敏所蒐集，我們對文章進行處理，作了斷詞、標示詞類、標示音節碼的工作。

語音的錄製是使用 CoolEditer 軟體，由 PC 上的聲霸卡直接錄製，使用 16k Hz 的取樣率，量化採用 16 bits。錄製完之語音先訓練一個 HMM models，用來做 forced alignment 切割音節及聲韻母邊界，再以人工調整切割位置；另外我們使用 ESPS 軟體做 pitch detection，再以人工更正音高軌跡，詳細內容第四章所描述，如圖 5-3 為一段處理完後的語音範例，表 5-3 為由處理後的語音訊號中抽取出來的韻律訊息參數，這些參數將作為 RNN 類神經網路學習時之目標值。音節或聲韻母啟始與結束位置其單位是 sample，正交化軌跡參數也是以 sample 為單位。

圖 5-3 語音訊號處理範例

表 5-3 由處理後語音訊號中抽取出來的韻律訊息參數範例記得

我看過一篇文章

Pitch Contour

語音訊號 waveform

文字音碼斷詞詞性音節啟始位置聲母、韻母交界處音節結束位置能量參數基頻軌跡參數1 基頻軌跡參數2 基頻軌跡參數3 基頻軌跡參數4

記 3436 201 12 2802 3405 4363 58.17 61.20 1.05 0.56 0.00 得 4166 202 9 4398 4680 6360 64.45 72.06 5.86 -0.00 0.22 我 5551 101 24 6402 6920 9470 52.18 105.80 -3.13 -16.06 -10.15 看 3523 201 9 10251 11400 13960 49.40 85.41 0.285 -0.51 0.51 過 3442 202 9 14844 14915 17061 55.66 79.963 15.98 -6.34 11.87 一 4656 401 12 17434 17452 18338 52.90 72.59 25.89 -14.29 13.79 篇 1044 402 12 19083 20609 22223 54.89 101.73 22.63 -19.65 13.26 文 5125 403 12 22240 23880 27029 44.94 120.39 0.67 0.61 1.44 章 1314 404 12 27632 28625 31144 50.30 121.07 7.52 -0.69 -0.29

， 9001 101 49 0 0 0 0 0 0 0 0

它 5440 101 24 41608 42175 43000 64.19 91.56 2.40 -0.69 -0.19 內 3219 201 12 43080 44818 47317 54.72 72.61 -13.01 3.10 1.67 容 5651 202 12 47337 47376 49127 57.10 82.95 17.47 5.06 0.04 大 3182 201 1 52143 53318 55089 55.74 76.35 11.51 -13.66 11.99 約 4665 202 6 55128 55187 56997 57.85 82.66 -5.09 -13.95 -15.70

本系統之輸入語言參數包含兩類，一類是音節層次 (syllable-level) 的參數包括前後音節的 tones、現在音節的 17 類聲母及 47 類韻母、現在音節在詞中的四種位置資訊(單音節詞、多音節詞的詞首、詞中及詞尾)等，另一類是詞層次 (word-level) 的參數包括前後詞的詞類 (part of speech, POS)、詞長、詞前後是否有標點符號等。

在完成訓練後，此韻律信息產生器之效果不錯，產生之韻律信息可用以合成流利自然的語音，圖 5-4 為一個韻律參數產生之範例，由圖中可看出 RNN 產生的各種韻律參數和人語音的韻律變化整體而言有一致的之變化，表 5-4 列出各種韻律參數之均方根誤差，表 5-4(a)為將 57 篇短文，共 42,186 音節，表 5-4（b）為拿掉文章為諺語、俚語內容，共有 40,390 個音節，從這結果可以看出，因為念俚語、諺語時，

人類說話的速度與韻律變化不是以平常自然的方式說出，尤其在說話停頓的地方。

所以未來如欲增加語料，需以短文為主，但仍有少許的較大誤差，可能是 tone sandhi 效應所引起，需要在未來做進一步的改進。

表 5-4 韻律參數之均方根誤差

（a）

Inside Test

F0 Contour 30.397(sample)

Pause Duration 918.336(sample)

Initial Duration 324.910(sample)

Final Duration 689.168(sample)

Energy Level 3.794(db) (b)

Inside Test

F0 Contour 29.545(sample)

Pause Duration 886.671(sample)

Initial Duration 322.782(sample)

Final Duration 677.068(sample)

Energy Level 3.721(db)

註一：虛線表示合成結果，實線為人工標示求出；

註二：x表示此字之前為標點符號

圖 5-4 RNN 產生韻律參數之範例： (a) pitch mean, (b) energy level, (c) initial duration, and (d) final duration of syllables as well as (e) inter-syllable pause duration. 文章為

“第二叫著「田頭地尾」：客家婦女蒔田、割禾、除草、剷秧仔樣樣不會輸細賴仔。”

5.3 聲音波型資料庫

時域基頻同步疊加是一種利用波形表（Wave Table）來合成語音的合成方法，

因此我們必須整理出適用的語音波形。由於客語和漢語一樣是以音節為基本的發音單元，音節的數目並不多，我們因此使用不帶聲調的 671 個基本音節做為 TTS 系統的基本合成單元，本系統共使用 17 種聲母及 71 種韻母，其中包含空聲母、空韻母以及帶入聲之韻母。原本音節單音語料庫是設計了一個載字句將每一音節放在句中特定的位置，由陳碧娥老師以正常的速度朗讀，再以人工處理先將基本音節波形切出，但許多包含鼻音的音節會與前後音節產生耦合現象，使欲擷取的音節波形在啟始或結束位置不明確，之後也從語料庫中擷取音節波形，但仍有大部分的音節無法找到合適的。

最後，決定以單音錄製音節波形，以下是如何挑選出適合語音合成的音節波形判斷方法：

1. 初步由人耳判斷：

(1) 音節聲音清楚，無雜訊

(2) 音節波形，無受前後音節影響 (3) 說話速度一致

2. 從韻律訊息判斷：

(1) Duration

a. 音節波形長度不宜過長或過短，通常約在 0.15 - 0.4 秒以內。

(2) Energy

a. 音量不宜過大 b. 子音能量不宜過大

c. Energy contour 在音節波形起始段平滑上身；在結束段平滑下降 d. 子音不被雜訊影響

(3) Pitch

a. 週期特性明顯 b. Pitch Mean 值 3. 從音節所在位置判斷

a. 句首、句中、句尾 b. 單音

統計 671 音節平均長度約在 0.36 秒，如附圖 5-5，音節為 man，虛線為 pitch mark，

綠色為子母音交界處。

圖 5-5 基本音節 “man” 切割及 pitch marks 標示結果

另外以 p.t.k 為音節音節韻尾，因其週期特性有轉換，所以不加以標記，如圖 5-6，

音節為 tiet。

圖 5-6 基本音節 “ tiet” 切割及 pitch marks 標示結果

第六章結論與未來展望

本論文中，我們實現了視窗版的四縣客語話文字轉語音系統。整個實作過程中，

我們得到以下的結論：

1. 合成系統中韻律訊息產生器所需的訓練語料庫，其切割位置經由人工調整會比原始從 HTK 求得的位置更加準確，加上校正基頻軌跡不連續情況，可以得到較好的 RMSE。

2. 合成語料庫，其語料文稿應以短文為主，從實驗結果可得知，訓練韻律訊息時，

不包含諺語、俚語的語料，會得到較好的 RMSE。從這邊也可以得知語料音節數目到了一定的量時，其與改善 RMSE 並沒有直接對應的關係。

3. 合成單元波形表，音節的波形挑選，其波形的啟始與結尾需平滑的上升與下降，

使合成出來的聲音比較悅耳。

同時，我們覺得有些地方仍需要的改進：

1. 擴充四縣客家話語料庫，目前在語料庫中，671 音節裡仍有 99 個音節尚未出現，

而只出現 5 次以內的音節有 215 個，充足的語料才將能訓練良好的韻律模型。

2. 客語詞典在 TTS 系統佔非常重要的角色，目前客語詞典共有 36259 個詞，與國語詞典 121341 個詞仍明顯不足，尤其在一字詞，客語有 7326 個一字詞，國語有 13110 個一字詞。。

3. 合成單元波形表，目前是以單音錄音的方式，往前國語與台語將之從語料庫擷取可得到合適的音節波形，未來可從這方面著手。

4. 目前客語合成語音，並未對入聲韻偉(p.t.k)處理，未來合成音節波形

，可需之獨立處立。

參考文獻

[1] 鍾榮富，2004，<< 台灣客家語音導論 >>，五南圖書出版股份有限公司。

[2] 龔萬灶，2003，<< 客話實用手冊 >>，國家圖書館出版。

[3] S.H. Hwang, S.H. Chen, and Y.R. Wang,"A Mandarin Text-to-Speech system,"

in Proc. ICSLP-96, pp.1421-1424, Oct.1996.

[4] L.S.Lee,C.Y.Tseng,and M. Ouh-Young,＂The synthesis rules in Chinese text-to-speech system＂IEEE Trans.Acoust,Speech,Signal

Processing,vol.37,n0.9,p1309-1319,Sep. 1989

[5] L.S.Lee,C.Y.Tseng,and C.J.Hesih,＂Improved tone concatenation rules in a formant-based Chinese text-to-speech system,＂IEEE Trans.Speech and Audio Processing,Vol.1,No.3,pp.287-294,July 1993.

[6] S.H.Chen,S.G.Chang,and S.M.Lee,＂A statistical model based fundamental frequency synthesizer for Mandarin speech,＂J.Acoust. Soc.

Am.,92(1),pp.114-120,July 1992

[7] S.H.Chen,and S.H.Hwang,and Y.R.Wang,＂An RNN-based prosodic information synthesizer for Mandrain text-to-speech,＂IEEE Trans.Speech and Audio Processing,vol.6,no.3,pp.226-239,May 1998.

[8] 黃紹華，＂中文文句翻語音系統中韻律訊息產生器之研究＂，國立交通大學博士論文，民國八十五年六月。

附錄一

音碼音節聲母韻母

音碼音節聲母韻母 569 ngiang ng iang 570 ngong ng ong 571 ngiong ng iong 572 ngiung ng iung 573 ngip ng ip

音碼音節聲母韻母

附錄二：詞類表

編號標記詞類編號標記詞類

1 A 非謂形容詞 24 Nh 代名詞 2 Caa 對等連接詞 25 I 感嘆詞 3 Cab 連接詞，如：等等 26 P 介詞 4 Cba 連接詞，如：的話 27 T 語助詞 5 Cbb 關聯連接詞 28 VA 動作不及物動詞

在文檔中客語文句翻語音系統之實作 (頁 43-0)

第五章 文字轉語音系統之製作