緒論 - 基於加權有限狀態轉換器國語語音辨認系統之設計

1.1 研究動機

科技不斷的進步，人類以最直接的方式聲音與機器之間的溝通不再是夢想，

語音系統日趨成熟，廣泛的應用於生活中各個科技產品，大大提升了生活上的便利性。

隨著網路崛起，資訊的傳播不再受到區域的限制，使得資訊隨手可得且資訊量大增，為了因應廣泛的資訊，語音系統追求著含蓋龐大的資訊量，也由於電腦硬體的進步，實現了技術上的可行性，近年來大詞彙連續語音辨識 (Large Vocabulary Continuous Speech Recognition, LVCSR)成為語音系統的趨勢，中文詞 (word)的變化很大，例如:名詞、專有名詞、地方詞等等，此類的詞彙會隨著時間而增加，因此在詞典的數目受到限制情況下，以有限的詞典大小選出有效率的詞典成為重要的課題。

語音系統的普及化，人們開始追求語音系統能即時反應且精準的辨識，使語音系統能達到實用性，本研究欲以有限狀態機(Finite State Machine, FSM )以最佳化提升辨識速度，並且確認影響速度與辨識的要素，此為本論文研究的重要議題。

1.2 文獻回顧

有限狀態機(Finite State Machine)是一種簡單而有效率的數學演算法，近年來廣泛的運用在語音辨認系統中，如:用來表示前後文相關(Context dependency) 的發音模型、表示大詞彙的字典…等等。最早由 A&T 實驗室的莫氏(M. Mohri) 等人[1]-[3]提出使用加權有限狀態機(Weight Finite State Machine)，在狀態間的轉移上賦予一個加權值，將語音辨識中重要的機率分數以加權有限狀態機中之加

權值表示。加權有限狀態機之特性為利用組合運算整合了傳統語音辨認中各自獨立的聲學模型、發音詞典以及語言模型，將之整合為單一一個加權有限狀態機，

並且運用了莫氏等人提出的確定性(determinization)以及最小化(minimization)演算法[1]、[4]來移除多餘之路徑，能有效的節省時間與空間。確定性可以在搜尋時減少有限狀態機存活的狀態數，最小化可求得狀態最少的等價有限狀態機；加權推移(Weight pushing)演算法[5]使語言模型的分數可以提早利用，辨識時移除掉不必要的路徑。臺灣大學的余氏[6]與交通大學的姜氏[7]曾以有限狀態自動機實做過中文大詞彙連續語音辨識，他們的論文核心在敘述有限狀態機的基本定義、

建構流程，如何以有限狀態機建構一套大詞彙連續中文語音辨識系統，經由實驗結果可以證實，加權有限狀態機和傳統辨識相比，加權有限狀態機在相同辨識率下減少所需要的辨識時間。

在大詞彙語音辨識系統中，N 連語言模型(n-gram language model) [8]最常被使用，此模型以統計的方式來描述詞與詞之間相連接的機率，但我們無法收集所有 N 連詞彙的組合。而往後有學者提出方法來加強語言模型，1992 年 Brown 等人提出類別式 N 連語言模型(class-based n-gram language model)[9]，加入了類別資訊來訓練語言模型，將詞彙依照特性分群，則資料的預估由詞彙組合數降低為類別的組合數，能夠有效改善資料稀疏的問題。

以往中文大詞彙辨識採用的詞典，多數依照各詞彙在語料中的詞頻來排序，

取其順位高者優先納入詞典中，由於中文構詞的多元與彈性，無法收入所有的詞彙，但不在詞典中的詞彙在辨識時即無法辨識出，這些不在詞典中的詞稱為 OOV word(Out-of-Vocabulary，OOV)，周氏[10]在其論文中提出階層式的辨識系統，

針對中文構詞最為彈性的人名、定量複合詞與詞綴三個類別，以構詞學的角度出發，依照各種詞類的特性將之拆解，以較少數量的構詞單元收錄以提升詞的涵蓋率。

語言模型用來計算一個句子的機率，計算方式為預測之下一個詞藉由前一個

或前 n 個詞來得知該詞出現的機率，前 n 個詞即為 n-gram 語言模型之 n， n 越大，預測之詞所帶的資訊量越多，辨識時之錯誤率越低，反之，亦然。

大詞彙語音辨識系統中，OOV 出現是不可避免的，當文章中出現 OOV，Bart Decadt[11]等人提出大詞彙語音辨識系統提升輸出文章的可看性，概念為利用 phoneme-to-grapheme(P2G)後處理 phoneme 辨識出的不確切詞彙；以往處理 OOV 的方式為將之忽略或以已知的詞彙取代但處理方式不佳，Bart Decadt 等人將每個詞彙加上資訊以分數，表示此辨識後詞彙的可信度，若分數低於門檻，則此詞彙以 phoneme 經 phoneme-to-grapheme 轉換後輸出的詞彙取代之，本研究以 phoneme-to-grapheme 的概念來評估語言模型。

語言模型為語音辨識系統中最困難突破的瓶頸，在發達的科技時代中，語言模型在辨識時需要快速，大小需要精小不能過於龐大，但往往語言模型內會存至千萬個 n-gram，因此對語言模型的儲存空間為一大挑戰；Zhijian OU[12]提出語音辨識系統以 WFST 表示時，轉移(arc)含有五個參數，包含初始狀態、終止狀態、

輸入字元、輸出字元和權重，每個轉移記憶體需要 20bytes 儲存，狀態(node) 帶有指向轉移的資訊，每個狀態記憶體需要 4bytes 儲存，因此一個加權有限狀態機記憶體需 4 +20 ，但並非每個轉移皆需儲存初始狀態，因此，記憶體儲存一個加權有限狀態機改為 4 +16 。

語音辨識為根據前面的參數找出與正確解答最相近的詞串，在搜尋時，相似的詞串相當多，通常在辨識時，只會搜尋部分，仍可能在辨識一個句子會歷經語言模型中千百條路徑，因此辨識所需之時間費時，但搜尋的路徑越多，辨識結果會越為準確；反之，搜尋的路徑越少，辨識結果的準確度會下降，但辨識速度會

變快，因此，時間、空間與辨識率之間的取捨成為學者們探討的問題。

1.3 研究方向

本論文中之語音辨識系統主要針對語言模型做改善，包含訓練語料的正規化、

選詞方式皆有做更新，提升語音辨識系統辨識的準確性，並且針對語言模型提出直接的方法來評估語言模型；語音辨識系統以加權有限狀態機取代傳統辨識系統，

在辨識速度上有明顯的提升，再討論影響辨識率與辨識速度之因素，探討 n-gram 之 n 與語言模型之後撤平滑化(back-off smoothing)改變時，語音辨識系統大小與系統涵蓋資訊的改變，導致語音辨識系統的辨識效能與辨識速度之變化，找出最適宜之加權有限狀態機。

1.4 章節概要說明

本論文一共分為五章，其各章節內容分配如下：

第一章：緒論

在文檔中基於加權有限狀態轉換器國語語音辨認系統之設計 (頁 10-13)