緒論 - 中文自發性語音辨認系統

1.1 研究動機

近年來隨著科技的進步，語音辨認(Automatic Speech Recognition, ASR)系統已經有相當成熟的技術，對於朗讀的語音輸入辨認效果極佳，然而要實際應用在生活化的商品上，則必頇考慮到更接近於人們日常生活對話的自發性語音(Spontaneous speech) 。但自發性語音之辨認率仍舊與朗讀式語音(Read speech)有一段差距。

造成自發性語音辨認率不如朗讀式語音之原因主要是因為自發性語音常會伴隨著非正規化(ill-formed)以及不流暢語流(disfluency)現象。首先，因為自發性語音有複雜的韻律 (prosody)變化及較快的說話速度(speaking rate)，使得音節與音節間會發生嚴重的相互影響，

例如：人們在日常對話時，大腦其實是只取一段句子中的關鍵字即可理解對方所要表達的意思，因此造成人類在發音時某些語音會被省略或產生發音變異(pronunciation variation)以及音節合併(syllable contraction)等現象。此外，由於自發性語音未經大腦良好的規劃，使得語流中常會出現遲疑(hesitation)、口吃(stutter)、非流暢現象(disfluency)等不合乎文法結構之語句，

以及許多感歎詞(particle)、語者慣用的語助詞(marker)出現。因此自發性語音在辨識上會比一般的朗讀式語音還要困難許多。如果我們能夠有效解決上述之自發性語音問題，相信一定能為人們在將來生活上帶來許多更便利的幫助。

本論文將建立一套中文自發性語音辨認系統。傳統上語音辨認系統皆是以聲學模型為主，語言模型為輔，然而在自發性語音中由於發音問題，較難有極佳的聲學模型，因此我們希望能藉由語言模型以及韻律模型的幫助來提升辨識率。

1.2 相關研究

1.2.1 語言模型之相關研究

在自發性語言模型中所遭遇的問題，主要在於自發性語音與朗讀式語音有很大的文法型態差異，而且自發性語音未經大腦良好的規劃，使得語流中常會出現遲疑、口吃、詞語修補等現象，因此較難估測出詞與詞之間的關聯程度；另外自發性語音中有許多口語化詞彙或不同語者的有不同的慣用語，但是在書寫上的文章並不會有此類文字出現，造成文字資料量不足以致於無法直接建立自發性語音之語言模型。

近年來許多研究者皆使用基於結合之方式調適出自發性語音之語言模型，首先在解決資料尚不足的問題時，Ng and Ostendorf 【1】利用從網路上收集文字資料，再與其基本語言模型作調適結合；Hiroaki and Tatsuya 【2】則使用基礎語言模型對其語料作辨識，再從辨識結果中挑出較佳之文字資料，與原本的基礎語言模型作調適結合，如此反覆結合及訓練出較好的語言模型。接著在調適訓練時，Bacchiani and Roark【3】使用最大事後機率(Maximum A Posteriori, MAP)估算法來估算機率；另外也有許多文獻利用基於分類(Class-based)的方法將有限的文字語料藉由分類(例如：詞性(POS))來增加訓練資料量【4】【5】【6】。

1.2.2 韻律模型幫助辨認之相關研究

除了由語言模型去計算詞與詞之間的關聯程度，若能有效地運用詞與韻律結構之間的關係，對於語音辨認上將是一大幫助。近年來利用韻律資訊協助語音辨認之方法主要分為三種，首先是以事件為基礎(event-based)的方式增加語音辨認之效能【7】，利用韻律參數建立一個偵測事件之模型，例如：類語句邊界(sentence-like unit)或詞語修補中斷點，並利用事件及詞的序列一貣建立語言模型，對辨認結果所產生之詞格(word lattice)重新計算分數；第二種為利用韻律參數對初級辨認結果所產生之詞格重新計算分數，直接利用韻律參數來驗證在

詞格中不同路徑其對應切割位置之可靠程度【8】；第三類則是利用韻律以及句法的關係建立

一套韻律相關之語言模型(prosody-dependent language model) 【9】，用以描述韻律以及詞之結合機率，並利用韻律邊界的資訊建立韻律相關的聲學模型(prosody-dependent acoustic model) 【10】。

1.3 研究方向

在本篇論文中，將以建立一套自發性語音辨認系統並以韻律模型協助辨認為目標。首先，本研究先建立一套語音辨識系統及韻律模型，架構圖如圖 1.1 所示，在聲學方面，使用隱藏式馬可夫模型(Hidden Markov Model, HMM)以聲母及韻母為單位，採用音節內右相關聲母/韻母模型；在語言學方面，先利用大量文字資料建立合呼朗讀式語音之語言模型，接著使用 MAP 及 Class-based Deleted Interpolation Smoothing 方法調適成合乎自發性語音之語言模型；最後，本研究利用【11】所提出之非監督式中文自發性語音韻律標記及模型為基礎作

在辨認階段本研究將採用兩段式(two pass)語音辨認架構。第一階段利用聲學模型計算語音信號聲學分數，接著利用語言模型計算詞與詞的關聯程度與出現機率，辨認產生最佳 N 條詞串(Top-N word sequence)；由於自發性語音中有許多不合乎文法結構之語句，詞組與詞組間之連接機率較不穩定，因此較難正確估算其關聯程度，但詞組與韻律結構之間的關係則較為明確，因此本研究在第二階段將另外利用韻律參數，給予每個音節邊界一個機率的分數，

最後將此三個模型機率分數作權重結合並對每一條路徑重新計算分數，決定出最可能之辨認結果。

1.4 章節概要

本論文共分為六章，各章節編排如下：

第一章緒論：說明研究動機與研究方向。

第二章漢語口語對話語料庫介紹：介紹本論文實驗使用之自發性語音語料庫及其特性

在文檔中中文自發性語音辨認系統 (頁 13-16)