緒論 - 以韻律輔助之中文語音辨認系統之實現

1.1 研究動機

使用韻律訊息於語音辨認是近幾年來非常熱門的研究議題。所謂韻律就是指在連續語音當中具有跨越區段(suprasegmental)的特徵現象，像是重音表現、聲調、停頓、語調及節奏等；如果將韻律現象以物理特性表現出，通常會出現在語音中音高軌跡的變化、

能量強度、語音長度及停頓當中。韻律與各層級的語言參數都有高度的相關性，從音素 (phone)、音節(syllable)、詞(word)、片語(phrase)到句子(sentence)甚至是更高層次的語言參數，也因為有著重要的相關性，韻律資訊對於提升語音辨認的準確度是會有幫助的。

一般來說，為了使用韻律資訊於語音辨認，我們會先找出語音中韻律聲學參數與語言參數之間的關係，並且將其關係特性訓練成韻律模型，最後將這些模型加入到語音辨認中，達到運用韻律資訊的效果。

1.2 文獻回顧

過去已經有許多關於使用韻律訊息於語音辨認的研究被發表 [1]-[10] 。 Ananthakrishnan等人 [1] - [3]提出以加入韻律語言模型和韻律聲學模型對於傳統的基於 HMM的語音辨認器所產生的N-best詞串或是word lattice作重新評分的動作，其中韻律聲學模型採用GMM/MLP來模式化(model)詞的二元音高重音(binary pitch accent)標記與韻律聲學參數(來自於語料中音高軌跡、能量及音長)之間的關係；語言韻律模型則是使用 trigram語言模型並將其中每一個詞建立複合標記(compound tokens)以及二元音高重音標記。此外，由於兩種韻律模型是使用少量人工韻律標記語料所訓練而成，所以研究中使用一非監督式的方法來對兩種韻律模型進行調適[1]，用以解決因缺乏大量人工韻律標記的語料庫所造成的問題，研究結果對於在Boston University Radio News Corpus (BU-RNC) 的詞錯誤率(WER)相對改善了1.2-3.1％。Chen等人[4]使用了兩種韻律資訊，分別為語調

短語邊界(intonational phrase boundary)和音高重音(pitch accent)，用以在語音辨認器中建立韻律相依(prosody-dependent)的詞及音素模型，研究結果對於在BU-RNC的WER相對改善了6.9％。Milone等人[5]提出將重音資訊加入到語音辨認，這種方法是利用語音信號中的音高及能量來建立一個詞的重音結構序列，完成後將其加入到語音辨認，其中音高及能量的取得是利用一個基於 HMM 的分類器或是類神經樹狀網路 (neural tree networks)分類器；辨認系統中的語言模型之建立也會利用到片語(phrase)中的詞屬重音結構。研究結果對於在medium-vocabulary Spanish continuous-speech recognition task的WER 相對改善了28.91%。Vergyri等人[6]提出整合多樣的韻律資訊語音辨認，研究中所使用的韻律模型包含詞長(word duration)模型、停頓(pause)語言模型以及一些隱藏事件（如句子邊界和語音不流暢性）的韻律模型，研究結果對於在Switchboard database的WER相對改善了2.6-3.1％。Ostendorf等人[7]提出了一種統計模型框架對於使用韻律資訊在語音辨認，其中幾個議題將在此進行討論，包括在不同時間刻度(time scale)中抽取韻律特徵參數和參數正規化、比較兩種建立韻律模型的方式，一種是使用一個intermediate symbol representation來作韻律模式(prosody modeling)；另一種是直接給定聲學相關(acoustic correlates)的條件下作韻律模式、如何設計問題集關於對韻律結構中的聲學模型作分類、

在給定韻律聲學特徵之條件下如何建立動態發音模型。在文獻[8]中，將在中文語音辨認裡採用word-dependent聲調模式(tone modeling)，此方法所使用的韻律參數包含音節長度、三個F0 values並搭配兩種back-off策略，研究結果對於在Mandarin broadcast news ASR task的字元錯誤率(CER)有少量的改善。在文獻[9]中，利用韻律特徵(音高軌跡)參數和語言參數所建立的聲調模型於中文語音辨認，研究結果對於在Project-863 database的CER 相對改善了3.65%。

除了上述關於使用韻律資訊幫助提升語音辨認的準確率外，還有許多跟韻律模式結合語音辨認的相關研究議題被提出，Liu等人[11]提出了一套豐富語音辨認作法，它能夠自動偵測出一般電話中對話及新聞廣播(NIST RT-04F)中的句子邊界及語音不流暢性。

Shriberg等人[12]使用了決策樹的方法將語音中的節奏(rhythmic)及旋律(melodic)等特徵給模式化，並利用至多項研究議題，如句子切割、語音不流暢性偵測、廣播新聞中的主

題偵測及追蹤、口語對話中的語音辨認、對話行為標記等；雖然韻律模式對於以上這些研究議題有幫助，但對於提升詞辨認率而言仍屬微量。

從上述關於使用韻律資訊於語音辨認的相關研究中，我們將重點歸類在韻律模型的建立，圖1.1便是這些相關研究如何做韻律模式的流程圖，這些研究的共同點都是先找尋一些關鍵且重要的韻律資訊，然後在利用人工做好標記的少量語料來建立韻律模型，用以描述韻律資訊與不同階層的語言參數甚至是韻律聲學參數之間的關係，通常人工韻律標記是基於ToBI標記系統[13]之下。這樣作法的主要缺點是缺乏一個大量且優質標記的語料庫，因此只有少數明顯的韻律資訊被利用，像是音高重音(pitch accent)及語調片語邊界(intonational phrase boundary)等，如此一來，想要靠使用韻律資訊來提升語音辨認的準確性，其提升幅度便會大受影響。

圖 1.1：傳統韻律模型之設計流程圖

1.3 研究方向

本研究將使用新的韻律模型，其產生方式如圖1.2所示，這也是延續了實驗室之前的研究[14]，關於使用未經人工標記的語料來做非監督式語音韻律標記及韻律模型建立。

韻律模型是建立在四階層式韻律架構之下，並且使用韻律邊界停頓、音節韻律狀態這兩種韻律標記來表達這階層式的韻律架構，本研究中所使用的多種韻律模型就是描述這兩種韻律標記與語言參數及韻律聲學參數之間的關係。至於訓練模型的方法，是使用韻律標記及韻律模式(joint prosody labeling and modeling，簡稱PLM)演算法[14]從大量未經標記的語料中訓練各種韻律模型。也由於現在所使用的韻律模型內包含了更多、更完整的韻律資訊，若是將它與語音辨認結合，可以期望其效能會超越以往的相關研究；此外，

本研究方法最終不只會解碼出詞(word)序列，同時會包含更多資訊，像是詞性(POS)、標點符號(PM)等語言參數序列及代表韻律架構的兩種韻律標記序列，屬於豐富語音辨認系統(enriched speech recognizer)。

圖 1.2：本研究所使用之韻律模型設計流程圖

1.4 章節概要說明

本論文一共分為六章，其各章節內容分配如下：

第一章：緒論。

在文檔中以韻律輔助之中文語音辨認系統之實現 (頁 12-16)