緒論 - 利用加速演算法之大詞彙連續語音辨識系統

第一章第一章

第一章緒論緒論緒論緒論

1.1 研究動機研究動機研究動機研究動機

大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition; LVCSR)已發展三十多年，至今仍然是語音辨識的重要課題之一。在前人的研究成果累積以及電腦設備的進步推進之下，大詞彙連續語音辨識的相關研究有相當的突破。不僅是辨識的詞彙量增多，對聲學模型特徵參數發展出多種抽取方法，以及利用更複雜的語言模型，例如加入特定領域的 subword 與傳統 N 連語言模型(N-gram Language Model)結合來增進詞的覆蓋率 (Converge Rate)；甚至在其他相關課題，如語者調適(Speaker Adaptation)、雜訊消除(Noise Cancellation)、或是在辨識過程利用多階段的重計分(Rescoring)方法等，亦有相當多的研究與討論。

中文的大詞彙連續語音辨識與英文的語音辨識有所不同之處，主要為中文的詞(word) 並不存在很精確的邊界，導致可能發生斷詞錯誤的問題；另外，未在詞典收錄的詞(Out of Vocabulary; OOV)無法辨識，會影響最終的辨識結果。而聲學特性方面，中文發音是屬於一個字(Character)對應一個音節(Syllable)，所以聲學模式常使用音節模型(Syllable Model) 或是右相關聲韻母模型(Right Context Dependent Initial/Final Model; RCDIF)。近年來由於電腦記憶體的增加，亦開始利用三連音素模型(Triphone)作為大詞彙連續語音辨識的聲學模型。

大詞彙連續語音辨識系統其中有三個課題是不斷地受人討論的：語音辨識率 (Recognition Accuracy) 、辨識速度 (Recognition Speed) 、以及記憶體的管理 (Memory Management)，此三者是在大詞彙語音辨識系統所需要做妥協(Trade off)。本論文著重於聲學模型、語言模型以及詞轉移三方面，利用演算法與程式最佳化來加快辨識速度，而控制辨識率的損失在可容許的範圍，並且將辨識系統設計成有彈性(Flexible)，可依據不同的應用，去讀取具文法規則(Grammar Rule)形式的語言模型，以建構語音辨識系統。

1.2 文獻回顧文獻回顧文獻回顧文獻回顧

語音辨識的目的為「將一段語音信號轉換成文字」，然而從系統實作角度去觀察，如何利用語音信號的各種特徵如聲學信號、頻譜、韻律等，配合上自然語言的文字、文法、

語義等特性去找出最符合的文字解答，才是語音辨識技術的關鍵；概括而論，結合各項語音和文字資訊，設計出有效率的演算法來產生辨識解答，乃為語音辨識系統的核心內容。

語音辨識系統的設計軟體最廣泛被使用的為劍橋大學 S. J. Young 等人所發表的 HTK，所使用演算法名為 Token Passing 的演算法[1]，想法上使用維特比演算法(Viterbi Algorithm)，在 token 上紀錄回溯資訊，以便最後找出最佳辨識結果。

西元 2000 年前後，有關大詞彙連續語音辨識的系統演算法相繼被提出討論，常見的可分成以下三類：

(A) H. Ney 與 S. Ortmanns 所提出利用動態規劃法(Dynamic Programming)[2]實作大詞彙連續語音辨識，根據聲學模型、發音辭典和語言模型三者，以動態規劃搜尋出最佳辨識結果。此論文提出語言模型預查(Language Model Look Ahead; LMLA)演算法[3]，而相關研究陸續提出進一步的改良，如利用 Hash Table 加速 LMLA 查詢時間[4]，或是利用結合 Phoneme Look-ahead 和 Language Model Look-ahead 加速辨識時間[5]等。

圖 1.1 以動態規劃法進行語音辨識(Copyright: H. Ney, et. al., 2000 [2])

(B) M. Mohri 與 M. Riley 提出利用有限狀態機(Weighted Finite State Transducers; WFSTs )[6]

機上，以語音為輸入，文字辨識結果為輸出，建立出語音辨識系統。其優點為可以更複雜的語音相關資訊建立出有限狀態機，並且只需規定出適當的輸入以及輸出即可利用結合(Composition)方法與原本的有限狀態機結合成一個更複雜的有限狀態機，而無需更動整體系統的資料結構。然而建立出有限狀態機系統往往會因所需存入狀態數總量過多導致系統記憶體使用過於龐大，因此近年來有許多在辨識時做狀態結合以降低其數量至接近最佳值的演算法問題被討論[7-9]。

圖 1.2 以有限狀態機作語音辨識為例(Copyright: Mohri, Mehryar, et. al., 2000 [6]) (C) Asynchronous Stack Decoding 方法，是根據經驗搜尋法(Heuristics Search Method, known

as A* principle)去實作出大詞彙連續語音辨識，近年相關研究較少[10]。

除了辨認演算法研究之外，尚有其他語音辨識系統細部分析與演算法改良等相關論文：

(A) 利用語音的知識來源(Knowledge Source)對辨識系統作 Two-pass 實行重新計算分數 (Rescoring)動作。如利用中文聲調(Tone)[11-12]或是利用類神經網路(Artificial Neural Network; ANN)作屬性偵測(Attribute Detection)[13]等語音特性，對辨識系統重新計分動作。

(B) 針對於如何快速計算 GMM Likelihood 以增進辨識速度方面，主要提出兩個方向：(a) 藉由相鄰音框的語音特性相近性質[14]，或將 GMM 做分群(Gaussian Clustering) [15]，

進而減少計算 GMM Likelihood 的計算量；(b)利用兩階段式計算 GMM Likelihood，先使用粗略比對(Coarse Match)去除不可能的 hypothesis 之後再利用細部比對(Detail Match) 去計算出真正 Likelihood 值[16-17]；利用發聲確認(Utterance Verification)作聲學快速比對(Acoustic Fast-match)[18]用來加快辨識速度。

圖 1.4 兩階段式 GMM 計算示意圖(Copyright: Mohamed Afify, et. al., 2005 [18]) 語言模型方面，除了 LMLA 相關演算法之外，對於壓縮詞典樹並降低語言模型系統記憶體的使用量也有相關討論[19][20]；或是藉由建立低階的 LMLA 再去部分更新高階的

1.3 章節概要章節概要章節概要章節概要

本論文共分為六章：

第一章緒論：介紹本論文之研究動機與相關文獻回顧。

第二章語音辨識與相關演算法介紹：簡介大詞彙連續語音辨識的基本知識以及基礎常用

在文檔中利用加速演算法之大詞彙連續語音辨識系統 (頁 10-14)

緒論

第一章 第一章

第一章 緒論 緒論 緒論 緒論

1.1 研究動機 研究動機 研究動機 研究動機

1.2 文獻回顧 文獻回顧 文獻回顧 文獻回顧

1.3 章節概要 章節概要 章節概要 章節概要

第一章第一章

第一章緒論緒論緒論緒論

1.1 研究動機研究動機研究動機研究動機

1.2 文獻回顧文獻回顧文獻回顧文獻回顧

1.3 章節概要章節概要章節概要章節概要