緒論 - 基於隱藏式馬可夫模型之英文語音合成系統實作

第一章緒論

1.1 研究動機

隨著科技的蓬勃發展，電腦運算能力的不斷提升，使得電腦有能力處理以溝通和訊息交換為主的研究，在這過程中，早期的研究主要是致力於如何提供最有用，最有價值的資訊，然而，資訊最終的目的是要提供給使用者，所以人與電腦間的溝通就顯得格外的重要。

語音是人類自然的溝通方式，它也可以成為一種人機溝通方式，一個 TTS (text-to-speech)系統就是其中一種。在近幾年 TTS 系統已經發展成一種人機介面的輸出裝置，而且被使用在許多應用領域，例如：汽車導行系統、語音郵件、語言轉換系統等等。

然而傳統上使用不同語音單元，以連續串接的方式，合成各式各樣的語音特性，例如：不同語者、不同情緒，需要大量的語音資料庫，可是大量的語料不容易去收集、切割並儲存它們。從這角度看來，為了建立一個可以產生各種語音特性的語音合成系統。

一種基於 HMM(Hidden Markov Model)的 TTS 系統被提出。本論文主要著重在設計一套以語料庫為基礎的英文文句翻語音系統，期能使聲音音質的自然流暢度更為提升。

1.2 文獻回顧

傳統上，研究語言文字轉語音系統多半以實現整個系統為主，多以 Corpus-based 為基礎的語音合成系統。Corpus-based 共有兩種主要技術， Sample-based 合成法與統計 (statistical)合成法。Sample-based 合成法像是單元選取(unit selection)合成法[1][2]，一種直接從語料庫中選取聲音單元，再串接起來成為語音波形。unit selection 合成法的一個最主要好處是，藉著串接自然的聲音單元，可以得到保留原本語者特性的高品質聲音。

然而因為擁有目標單元特性(attribute)的聲音單元，不總是在語料庫中，因此，類似目標單元特性的其它單元將被代替使用，當串接這樣不同的單元在一起時，常會造成聽覺上不連續的現象。為減少此現象以達到高品質的聲音，一個廣泛包含各種特性的語料庫是必須的。因為有許許多多會影響韻律特性的上下文(contextual)因子，使語料庫變得非常巨大，要建立如此巨大的語料庫將會非常吃力，而且此種方法本質上很難具有彈性去合成出不同聲音特性的各種語音。

另一方面，統計合成法使用抽取語料庫中各音檔的各種統計參數來合成語音，根據這些統計參數合成的語音，具有較連續且較一致的品質。像是[3][4][5]在所有統計方法中，我們將把焦點放在 HMM-based 語音合成法[6][7]。HMM-based 語音合成法具有下列優點，(1)HMM 已被廣為人知，適合模擬語音參數的時間序列。(2)可以將許多原本運用在語音辨識上的計術，運用到語音合成上。(3)因為 HMM 在數學上較易處理，可藉著修改聲音統計參數，達到改變合成後的語音特性。

1.3 研究方向

這篇論文中，我們應用 HTS(HMM-based speech synthesis system)[8]的方法及另一個語音合成語音軟體 Festival[9]的資料，去合成英文語音。類似其它 data-driven 語音合成方法，HTS 有一個精簡的語言相依模組：一串文本因子(contextual factors)，透過自己用 Python 程式語言寫的程式抽取特徵(feature)。再使用 HTS 運算核心引擎合成語音，最後再實作一個可以線上 demo 的伺服器端程式與用戶端圖形使用者介面。

1.4 語料庫簡介

本論文所使用的語料是由一位以中文為母語的女性所錄製而成，以托福考試的英文

表 1. 4：word 中音節個數的統計

1 7306 4 661 7 2

2 2847 5 196

3 1473 6 44

表 1. 5：每種詞性 word 個數統計

PRP$ 96 VBZ 336 NNP 305 VBG 232 DT 1393 VB 368 VBD 280 RP 32 WRB 73 VBN 537 NN 2133 CC 504

VBP 247 TO 314 LS 1 WDT 97 PRP 188 PDT 8 JJ 1207 RB 572 RBS 13 WP 15 NNS 1292 RBR 24 CD 208 WP$ 4 JJS 20 EX 13 MD 153 JJR 47

IN 1806 NNPS 11

詞性使用 The Penn Treebank POS tag set，如表 1.6

表 1. 6：The Penn Treebank POS tag set[14]

1.5 章節概要說明

本論文一共分為五章，其各章節內容分配如下：

第一章：緒論。

在文檔中基於隱藏式馬可夫模型之英文語音合成系統實作 (頁 10-14)

緒論

第一章 緒論