第二章 文獻探討
第二節 文字轉語音技術與應用
一、 Text-to-speech 簡介
Text-to-speech(TTS)是文字轉語音系統,另外一個說法是語音合成系統。何 謂語音, Nicolas D’Alessandro(1999)說明語音的結果是從聲音器官的運作允許 腦袋對腦袋在空氣中的溝通,而語音合成即是將人類的聲音利用人工的方式發音。
Juergen Schroeter(2011)定義文字轉語音系統的目標是把任意輸入的文字轉換成 可理解和自然話語以便從機器傳遞資訊給個人;Search Mobile Computing(2001) 網站對於文字轉語音的定義是一種語音合成應用程式的類型可以被用在創建一 個口語聲音版本的文件於電腦中,像是協助的檔案或網頁。。綜合以上的說法,
對於語音合成的定義大同小異,電腦語音合成通常包含兩個部分:語音合成軟體
(TTS software)與語音合成引擎(TTS engine)。Juergen Schroeter(2011)區分 TTS 有前端系統(是接近文字輸入的系統)和一個 TTS 的後端系統(接近語音輸出 的系統),語音合成的過程包含文字分析、語音分析、音韻分析以及聲音合成,
一般語音合成的架構如圖 2.8 所示。
圖 2. 8 一般文字轉語音架構圖
資料來源: Schroeter, J.(2011). Text to-Speech (TTS) Synthesis. Circuits, Signals, Speech and Image
Processing.16, 1-11.
12
語音合成軟體部分主要是使用者介面,使用者可以輸入文字或者進行速度上 的調整等操作的動作。而語音合成引擎則是負責把接收到的文字與資料庫中預先 程式化的發音規則進行比對,然後組合出電腦語音輸出。語音合成也不一定是軟 體的形式提供給使用者。舉例來說,工研院所開發的 ITRI TTS Demo (如 2.9 圖),是透過網頁的方式,在網頁輸入文字後,按 play 鍵將文字送到 TTS engine 進行合成。
圖 2. 9 工研院 ITRI TTS Demo
資料來源:工研院(2011)。IRTI TTS Demo。取自http://atc.ccl.itri.org.tw/
二、 Text-to-speech 優點及限制
(一) 優點
語音合成軟體能夠對於學習或閱讀有障礙的人士有很大幫助。Jerome Elkind
(1998)指出電腦閱讀機制轉換成語音輸出材料可以大量的協助閱讀能力不良之 學習障礙人士。他們可以提高閱讀的速度與理解力,並增加持續閱讀的時間。
Haegh(1984)指出有了語音合成機器,視障者就能和眼明者使用同樣的電腦軟體。
因此語音合成軟體對於閱讀上有困難的人有很大的幫助。朱經明(1997)指出,
有閱讀障礙的兒童通常記憶力較差,在閱讀、書寫及概念形成等基本的技能上,
需要比一般人還多的練習,利用電腦的輔助能毫不疲倦的提供練習活動,以增進
13
(immediate error correction of whole word)對於閱讀 障礙學生的閱讀流暢性及識字能力均有非常大的正 面效果,而這正是語音合成系統最基本的功能之一。
14
15
三、 Text-to-speech 應用
Text-to-speech 可被應用在許多領域,如電子書閱讀、行車導航和手機即時 閱讀等等,本研究參考 iQ Technology(2011)網站整理出下列應用:
(一) 電子書閱讀器: 閱讀電子書內容。
16