1.1 研究動機
目前,交通大學語音處理實驗室所研究發展的“中文文字轉語音系統"
(Text-to-Speech System 簡稱 TTS System),已有相當不錯的合成品質。而此 系統的最前級必然是將輸入文句加以解析並斷詞的斷詞器。江振宇[1]的中文斷 詞器,採用中研院提出的六條斷詞規則[2],並以詞典樹(Lexicon Tree)的資料 結構儲存詞典,建立基本的斷詞單元。並將具備某種規則的詞,例如:定量複合 詞、重疊詞等,參考中研院提出的構詞規則[3,4]設計構詞單元。隨後還有給予 斷詞詞類的詞類標記單元,及將某些阿拉伯數字、詞或符號由寫法傳為語音讀法 的文字正規化單元,整體架構如圖 1-1 所示
中文斷詞器輸出的為語言參數,這些語言參數包括詞、詞長、詞類以及基本 音節等資訊,其後將這些語言參數送往韻律訊息產生器產生所需的韻律參數,如 基頻軌跡(pitch contour)、音長(duration)、停頓(pause)和音量(energy),最 後語音合成器利用 PSOLA 的技術,依據韻律參數將基本音節調合成語音。
為了合成出來的語音聽起來自然,符合人說話的方式,這些韻律參數簡而言
“抑揚頓挫"。而最為影響一個人了解另一個人說話的內容 參數莫過於停頓了,一個人說話,在不該停頓的地方停頓或是該停頓的地方不 停頓
本文研究的重點是希望能從斷完的短詞去預估每個短詞之間的停頓以及長 詞應斷為若干短語的停頓,將停頓的資訊送往後級的單元使用。基於這個方向,
針對短語與短語之間停頓的現象和長詞斷為若干短語的現象加以分析。首先我們 先對中研院提出的“詞綴、接頭 / 接尾詞參考表"[5]著手,此類的短詞因可與 其他短詞相接組合成另一新的短詞,所以詞典無法完全收錄,而導致斷詞時易被 of Speech)功用特別,
別之處。針對這兩方面,加以詞類等資訊,在未來的研究中 用數學模型,設計一自動預估停頓標記的方法,給予中文斷詞器更多韻律方面 之就像是人類說話的
的
都會讓人覺得不自然,進而無法了解一個人說話的真正涵義。但現在斷詞器 輸出的詞串是詞典中的詞或是構詞規則單元產生的詞,詞典大量的詞彙會造成搶 詞而造成不該出現的停頓;構詞規則可能構出太長的詞而造成該停頓的點卻沒出 現停頓,這兩種問題皆會造成人聽覺上的不舒服。所以我們希望能從文字方面得 到更多關於停頓方面的資訊,如此一來,能夠給予斷詞器更多韻律方面的資訊減 少斷出過多的短詞或是搶詞與構詞規則構出過長的詞,之後更進一步的冀望這類 停頓的資訊能幫助未來的斷詞器斷出韻律詞邊界( Prosodic Word Boundary)。
1.2 研究方向
斷為兩個短詞,而介詞與連接詞兩者,因為其詞類(Part 其停頓點應也有其特
套
的資訊。除此之外,我們進一步地將詞綴整理、歸納出詞綴構詞規則,並將規則 寫入中文斷詞器當中。為了之後對於破音字的研究,於本文也事先對破音字作了 前處理的工作以供未來研究之使用。我們以《中研院平衡語料庫 3.0 版》部分語 料經人工斷詞以及江振宇自動標記停頓標記的語料做為統計來源,給予詞綴、連 接詞及介詞三者,停頓分佈的詳細分析。提出特別字詞,以供未來從文字預估停 頓的研究上另一新的參數。最後,我們採用定量的測試方式來檢測詞綴構詞規則
第一章 究動機與方向。
簡述目前中文斷詞器的整體架構。
破音字前處理及詞綴構詞單元之設計:說明對於未來必然要面對之破音 字的問題,敘述如何處理以及選定破音字等前處理工作,以及建立詞綴 構詞規則並加入中文斷詞器中的演算法。
第四章 詞綴構詞單元之效能分析:以《中研院平衡語料庫 3.0 版》進行加入詞 綴構詞單元的中文斷詞器之定性與定量實驗分析。
第五章 文字中的特別字詞與停頓標記關係之統計:說明本論文針對“詞綴、接 頭 / 接尾詞參考表"以及介詞與連接詞三者進行停頓分佈的統計結果 並給予詳細的分析。
第六章 結論與未來展望。
的準確性。
1.3 章節概要
緒論:介紹本論文的研 第二章 中文斷詞器之概述:
第三章