• 沒有找到結果。

第一章 第一章

第一章 緒論 緒論 緒論 緒論

1.1 研究動機 研究動機 研究動機 研究動機

大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition; LVCSR)已 發展三十多年,至今仍然是語音辨識的重要課題之一。在前人的研究成果累積以及電腦設 備的進步推進之下,大詞彙連續語音辨識的相關研究有相當的突破。不僅是辨識的詞彙量 增多,對聲學模型特徵參數發展出多種抽取方法,以及利用更複雜的語言模型,例如加入 特定領域的 subword 與傳統 N 連語言模型(N-gram Language Model)結合來增進詞的覆蓋率 (Converge Rate);甚至在其他相關課題,如語者調適(Speaker Adaptation)、雜訊消除(Noise Cancellation)、或是在辨識過程利用多階段的重計分(Rescoring)方法等,亦有相當多的研究 與討論。

中文的大詞彙連續語音辨識與英文的語音辨識有所不同之處,主要為中文的詞(word) 並不存在很精確的邊界,導致可能發生斷詞錯誤的問題;另外,未在詞典收錄的詞(Out of Vocabulary; OOV)無法辨識,會影響最終的辨識結果。而聲學特性方面,中文發音是屬於 一個字(Character)對應一個音節(Syllable),所以聲學模式常使用音節模型(Syllable Model) 或是右相關聲韻母模型(Right Context Dependent Initial/Final Model; RCDIF)。近年來由於電 腦記憶體的增加,亦開始利用三連音素模型(Triphone)作為大詞彙連續語音辨識的聲學模 型。

大 詞 彙 連 續 語 音 辨 識 系 統 其 中 有 三 個 課 題 是 不 斷 地 受 人 討 論 的 : 語 音 辨 識 率 (Recognition Accuracy) 、 辨 識 速 度 (Recognition Speed) 、 以 及 記 憶 體 的 管 理 (Memory Management),此三者是在大詞彙語音辨識系統所需要做妥協(Trade off)。本論文著重於聲 學模型、語言模型以及詞轉移三方面,利用演算法與程式最佳化來加快辨識速度,而控制 辨識率的損失在可容許的範圍,並且將辨識系統設計成有彈性(Flexible),可依據不同的應 用,去讀取具文法規則(Grammar Rule)形式的語言模型,以建構語音辨識系統。

1.2 文獻回顧 文獻回顧 文獻回顧 文獻回顧

語音辨識的目的為「將一段語音信號轉換成文字」,然而從系統實作角度去觀察,如 何利用語音信號的各種特徵如聲學信號、頻譜、韻律等,配合上自然語言的文字、文法、

語義等特性去找出最符合的文字解答,才是語音辨識技術的關鍵;概括而論,結合各項語 音和文字資訊,設計出有效率的演算法來產生辨識解答,乃為語音辨識系統的核心內容。

語音辨識系統的設計軟體最廣泛被使用的為劍橋大學 S. J. Young 等人所發表的 HTK,所使用演算法名為 Token Passing 的演算法[1],想法上使用維特比演算法(Viterbi Algorithm),在 token 上紀錄回溯資訊,以便最後找出最佳辨識結果。

西元 2000 年前後,有關大詞彙連續語音辨識的系統演算法相繼被提出討論,常見的可 分成以下三類:

(A) H. Ney 與 S. Ortmanns 所提出利用動態規劃法(Dynamic Programming)[2]實作大詞彙連 續語音辨識,根據聲學模型、發音辭典和語言模型三者,以動態規劃搜尋出最佳辨識 結果。此論文提出語言模型預查(Language Model Look Ahead; LMLA)演算法[3],而相 關研究陸續提出進一步的改良,如利用 Hash Table 加速 LMLA 查詢時間[4],或是利用 結合 Phoneme Look-ahead 和 Language Model Look-ahead 加速辨識時間[5]等。

圖 1.1 以動態規劃法進行語音辨識(Copyright: H. Ney, et. al., 2000 [2])

(B) M. Mohri 與 M. Riley 提出利用有限狀態機(Weighted Finite State Transducers; WFSTs )[6]

機上,以語音為輸入,文字辨識結果為輸出,建立出語音辨識系統。其優點為可以更 複雜的語音相關資訊建立出有限狀態機,並且只需規定出適當的輸入以及輸出即可利 用結合(Composition)方法與原本的有限狀態機結合成一個更複雜的有限狀態機,而無需 更動整體系統的資料結構。然而建立出有限狀態機系統往往會因所需存入狀態數總量 過多導致系統記憶體使用過於龐大,因此近年來有許多在辨識時做狀態結合以降低其 數量至接近最佳值的演算法問題被討論[7-9]。

圖 1.2 以有限狀態機作語音辨識為例(Copyright: Mohri, Mehryar, et. al., 2000 [6]) (C) Asynchronous Stack Decoding 方法,是根據經驗搜尋法(Heuristics Search Method, known

as A* principle)去實作出大詞彙連續語音辨識,近年相關研究較少[10]。

除了辨認演算法研究之外,尚有其他語音辨識系統細部分析與演算法改良等相關論文:

(A) 利用語音的知識來源(Knowledge Source)對辨識系統作 Two-pass 實行重新計算分數 (Rescoring)動作。如利用中文聲調(Tone)[11-12]或是利用類神經網路(Artificial Neural Network; ANN)作屬性偵測(Attribute Detection)[13]等語音特性,對辨識系統重新計分動 作。

圖 1.3 兩階段語音辨識示意圖(Copyright: Jinyu Li, et. al., 2005 [13])

(B) 針對於如何快速計算 GMM Likelihood 以增進辨識速度方面,主要提出兩個方向:(a) 藉由相鄰音框的語音特性相近性質[14],或將 GMM 做分群(Gaussian Clustering) [15],

進而減少計算 GMM Likelihood 的計算量;(b)利用兩階段式計算 GMM Likelihood,先 使用粗略比對(Coarse Match)去除不可能的 hypothesis 之後再利用細部比對(Detail Match) 去計算出真正 Likelihood 值[16-17];利用發聲確認(Utterance Verification)作聲學快速比 對(Acoustic Fast-match)[18]用來加快辨識速度。

圖 1.4 兩階段式 GMM 計算示意圖(Copyright: Mohamed Afify, et. al., 2005 [18]) 語言模型方面,除了 LMLA 相關演算法之外,對於壓縮詞典樹並降低語言模型系統記 憶體的使用量也有相關討論[19][20];或是藉由建立低階的 LMLA 再去部分更新高階的

1.3 章節概要 章節概要 章節概要 章節概要

本論文共分為六章:

第一章 緒論:介紹本論文之研究動機與相關文獻回顧。

第二章 語音辨識與相關演算法介紹:簡介大詞彙連續語音辨識的基本知識以及基礎常用

相關文件