緒論 - 使用韻律信息之中文自發性語音辨認

第一章緒論

1.1 研究動機

當語音辨認(Automatic Speech Recognition, ASR)系統已有相當程度的技術，對於朗讀式語音辨認效能相當好時，人們開始研究更接近日常生活的自發性語音辨認，而在外國的研究方面，自發性語音也有一定的辨識率，但中文自發性語音辨識系統卻仍然沒有很好的效能，辨認率與朗讀式(Read Speech)有一段差距，造成這樣的原因主要是自發性語音說話速度(speaking rate)較快、語者在說話時未經大腦良好的規劃，使得語音型態發生改變、說話聲音大小不定、語流不流暢、語料不足等。

上述的原因可能造成自發性語音發生一些特殊的語音現象，像是語速較快時，語者為了要節省發音時所需的力氣，造成發音變異(pronunciation variation)或是音節合併 (syllable contraction)現象，對於人腦也許可以辨識出來，但是對於機器辨識上卻是一大挑戰；另外，因為說話時未經大腦良好規劃，語者常出現遲疑(hesitation)、詞語修補(repair)

、重複(repetition)…等現象，都會造成語流不順暢(disfluency)；而在文法結構上，常會產生不具意義的感嘆詞(particle)、語者慣用的語助詞(marker)，以上這些特殊現象都會造成辨認上的困難，如果我們能有效解決這些自發性語音特殊現象對語音辨認造成的問題，

相信自發性語音辨識效能會有大幅的提升。

在辨認系統上，聲學模型(Acoustic Model, AM)因為發音變異和音節合併這些現象必須做修正；語言模型(Language Model, LM)方面，因為難有大量的自發性文字語料，所以必須利用調適(adaptation)來得到適合的語言模型；而韻律模型方面，也必須考慮特殊單元和語流不流暢而需重新設計。傳統上的語音辨識系統是由聲學模型加入語言模型做辨識，本研究希望藉由韻律模型的加入來提升辨識率。

1.3 文獻回顧

在自發性語音中，因為常發生許多特殊現象，使得聲學模型難以有效建立，像是發音變異導致聲學模型混淆而辨識效能下降，這個問題可以從辨認字典(lexicon)中加入可能之發音變異【1】，或是改進底層之聲學模型來解決，文獻【2】中利用決策樹(decision tree)的方式來決定額外訓練的發音變異聲學模型，接著使用 state tying 以及 mixture tying 來得到較好的聲學模型。而自發性語音中語者因為重複或是遲疑現象造成不流暢語流，

【3】提出偵測重複現象的相關研究，考慮單一重複和多重重複，並將這些重複單元加入辨識字典中，對於偵測重複現象有不錯的效果；Zgank 等人【4】則將 filled pause 加入聲學模型中，並且利用 Interpolation 調適朗讀式語料與自發性語料來訓練語言模型，

自發性語音文字語料量少一直是語言模型難以有效建立的原因，口語對話因為回答對方或是猶豫時常有無意義的 particle 的產生，【5】考慮 filler prediction model，預估這些 particle 產生的位置；Ng and Ostendorf【6】則是利用從網路上收集文字資料，再與朗讀式語言模型作調適結合；【7】研究中也利用 MAP 及 Class-based Deleted Interpolation Smoothing 方法調適出適合自發性語音的語言模型。

在韻律模型幫助辨認之研究方面，【8】用 event-based 的方式增加語音辨認效能，利用韻律參數建立一個偵測事件的模型，例如：類語句邊界(sentence-like unit)或詞語修補中斷點，並利用事件及詞的序列一起建立語言模型，對辨認結果所產生之詞格(word lattice)重新計算分數；【9】則是利用韻律和語言結構之間的關係建立一套韻律相關之語言模型(prosody-dependent language model)，並且利用韻律邊界資訊來建立韻律相關之聲學模型(prosody-dependent acoustic model)【10】。

1.4 章節概要

本論文共分為六章，各章節內容分配如下：

第一章緒論：說明研究動機及研究方向。

第二章漢語口語對話語料庫介紹：介紹本研究實驗所使用之自發性語音語料庫、自發

在文檔中使用韻律信息之中文自發性語音辨認 (頁 12-15)

緒論

第一章 緒論

1.1 研究動機

1.3 文獻回顧

1.4 章節概要

第一章緒論