1.1 研究動機
使用韻律訊息於語音辨認是近幾年來非常熱門的研究議題。所謂韻律就是指在連續 語音當中具有跨越區段(suprasegmental)的特徵現象,像是重音表現、聲調、停頓、語調 及節奏等;如果將韻律現象以物理特性表現出,通常會出現在語音中音高軌跡的變化、
能量強度、語音長度及停頓當中。韻律與各層級的語言參數都有高度的相關性,從音素 (phone)、音節(syllable)、詞(word)、片語(phrase)到句子(sentence)甚至是更高層次的語言 參數,也因為有著重要的相關性,韻律資訊對於提升語音辨認的準確度是會有幫助的。
一般來說,為了使用韻律資訊於語音辨認,我們會先找出語音中韻律聲學參數與語言參 數之間的關係,並且將其關係特性訓練成韻律模型,最後將這些模型加入到語音辨認 中,達到運用韻律資訊的效果。
1.2 文獻回顧
過 去 已 經 有 許 多 關 於 使 用 韻 律 訊 息 於 語 音 辨 認 的 研 究 被 發 表 [1]-[10] 。 Ananthakrishnan等人 [1] - [3]提出以加入韻律語言模型和韻律聲學模型對於傳統的基於 HMM的語音辨認器所產生的N-best詞串或是word lattice作重新評分的動作,其中韻律聲 學模型採用GMM/MLP來模式化(model)詞的二元音高重音(binary pitch accent)標記與韻 律聲學參數(來自於語料中音高軌跡、能量及音長)之間的關係;語言韻律模型則是使用 trigram語言模型並將其中每一個詞建立複合標記(compound tokens)以及二元音高重音標 記。此外,由於兩種韻律模型是使用少量人工韻律標記語料所訓練而成,所以研究中使 用一非監督式的方法來對兩種韻律模型進行調適[1],用以解決因缺乏大量人工韻律標記 的語料庫所造成的問題,研究結果對於在Boston University Radio News Corpus (BU-RNC) 的詞錯誤率(WER)相對改善了1.2-3.1%。Chen等人[4]使用了兩種韻律資訊,分別為語調
短語邊界(intonational phrase boundary)和音高重音(pitch accent),用以在語音辨認器中建 立韻律相依(prosody-dependent)的詞及音素模型,研究結果對於在BU-RNC的WER相對 改善了6.9%。Milone等人[5]提出將重音資訊加入到語音辨認,這種方法是利用語音信 號中的音高及能量來建立一個詞的重音結構序列,完成後將其加入到語音辨認,其中音 高 及 能 量 的 取 得 是 利 用 一 個 基 於 HMM 的 分 類 器 或 是 類 神 經 樹 狀 網 路 (neural tree networks)分類器;辨認系統中的語言模型之建立也會利用到片語(phrase)中的詞屬重音結 構。研究結果對於在medium-vocabulary Spanish continuous-speech recognition task的WER 相對改善了28.91%。Vergyri等人[6]提出整合多樣的韻律資訊語音辨認,研究中所使用 的韻律模型包含詞長(word duration)模型、停頓(pause)語言模型以及一些隱藏事件(如句 子邊界和語音不流暢性)的韻律模型,研究結果對於在Switchboard database的WER相對 改善了2.6-3.1%。Ostendorf等人[7]提出了一種統計模型框架對於使用韻律資訊在語音辨 認,其中幾個議題將在此進行討論,包括在不同時間刻度(time scale)中抽取韻律特徵參 數和參數正規化、比較兩種建立韻律模型的方式,一種是使用一個intermediate symbol representation來作韻律模式(prosody modeling);另一種是直接給定聲學相關(acoustic correlates)的條件下作韻律模式、如何設計問題集關於對韻律結構中的聲學模型作分類、
在給定韻律聲學特徵之條件下如何建立動態發音模型。在文獻[8]中,將在中文語音辨認 裡採用word-dependent聲調模式(tone modeling),此方法所使用的韻律參數包含音節長 度、三個F0 values並搭配兩種back-off策略,研究結果對於在Mandarin broadcast news ASR task的字元錯誤率(CER)有少量的改善。在文獻[9]中,利用韻律特徵(音高軌跡)參數和語 言參數所建立的聲調模型於中文語音辨認,研究結果對於在Project-863 database的CER 相對改善了3.65%。
除了上述關於使用韻律資訊幫助提升語音辨認的準確率外,還有許多跟韻律模式結 合語音辨認的相關研究議題被提出,Liu等人[11]提出了一套豐富語音辨認作法,它能夠 自動偵測出一般電話中對話及新聞廣播(NIST RT-04F)中的句子邊界及語音不流暢性。
Shriberg等人[12]使用了決策樹的方法將語音中的節奏(rhythmic)及旋律(melodic)等特徵 給模式化,並利用至多項研究議題,如句子切割、語音不流暢性偵測、廣播新聞中的主
題偵測及追蹤、口語對話中的語音辨認、對話行為標記等;雖然韻律模式對於以上這些 研究議題有幫助,但對於提升詞辨認率而言仍屬微量。
從上述關於使用韻律資訊於語音辨認的相關研究中,我們將重點歸類在韻律模型的 建立,圖1.1便是這些相關研究如何做韻律模式的流程圖,這些研究的共同點都是先找尋 一些關鍵且重要的韻律資訊,然後在利用人工做好標記的少量語料來建立韻律模型,用 以描述韻律資訊與不同階層的語言參數甚至是韻律聲學參數之間的關係,通常人工韻律 標記是基於ToBI標記系統[13]之下。這樣作法的主要缺點是缺乏一個大量且優質標記的 語料庫,因此只有少數明顯的韻律資訊被利用,像是音高重音(pitch accent)及語調片語 邊界(intonational phrase boundary)等,如此一來,想要靠使用韻律資訊來提升語音辨認 的準確性,其提升幅度便會大受影響。
圖 1.1:傳統韻律模型之設計流程圖
1.3 研究方向
本研究將使用新的韻律模型,其產生方式如圖1.2所示,這也是延續了實驗室之前的 研究[14],關於使用未經人工標記的語料來做非監督式語音韻律標記及韻律模型建立。
韻律模型是建立在四階層式韻律架構之下,並且使用韻律邊界停頓、音節韻律狀態這兩 種韻律標記來表達這階層式的韻律架構,本研究中所使用的多種韻律模型就是描述這兩 種韻律標記與語言參數及韻律聲學參數之間的關係。至於訓練模型的方法,是使用韻律 標記及韻律模式(joint prosody labeling and modeling,簡稱PLM)演算法[14]從大量未經標 記的語料中訓練各種韻律模型。也由於現在所使用的韻律模型內包含了更多、更完整的 韻律資訊,若是將它與語音辨認結合,可以期望其效能會超越以往的相關研究;此外,
本研究方法最終不只會解碼出詞(word)序列,同時會包含更多資訊,像是詞性(POS)、標 點符號(PM)等語言參數序列及代表韻律架構的兩種韻律標記序列,屬於豐富語音辨認系 統(enriched speech recognizer)。
圖 1.2:本研究所使用之韻律模型設計流程圖
1.4 章節概要說明
本論文一共分為六章,其各章節內容分配如下:
第一章:緒論。