使用詞向量表示與概念資訊於中文大詞彙連續語音辨識之語言模型調適

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：陳柏琳. 博士. 使用詞向量表示與概念資訊於中文大詞彙連續語音辨識之語言模型調適 Exploring Word Embedding and Concept Information for Language Model Adaptation in Mandarin Large Vocabulary Continuous Speech Recognition. 研究生：陳思澄中華民國. 一O四. 年. 撰七. 月.

(2) 摘要近年來深度學習(Deep Learning)激起一股研究熱潮；隨著深度學習的發展而有分散式表示法(Distributed Representation)的產生。此種表示方式不僅能以較低維度的向量表示詞彙，還能藉由向量間的運算，找出任兩詞彙之間的語意關係。本論文以此為發想，提出將分散式表示法，或更具體來說是詞向量表示(Word Representation)，應用於語音辨識的語言模型中使用。首先，在語音辨識的過程中，對於動態產生之歷史詞序列與候選詞改以詞向量表示的方式來建立其對應的語言模型，希望透過此種表示方式而能獲取到更多詞彙間的語意資訊。其次，我們針對新近被提出的概念語言模型(Concept Language Model) 加以改進；嘗試在調適語料中以句子的層次做模型訓練資料選取之依據，去掉多餘且不相關的資訊，使得經由調適語料中訓練出的概念類別更為具代表性，而能幫助動態語言模型調適。另一方面，在語音辨識過程中，會選擇相關的概念類別來動態組成概念語言模型，而此是透過詞向量表示的方式來估算，其中詞向量表示是由連續型模型(Continue Bag-of-Words Model)或是跳躍式模型(Skip-gram Model)生成，希望藉由詞向量表示記錄每一個概念類別內詞彙彼此間的語意關係。最後，我們嘗試將上述兩種語言模型調適方法做結合。本論文是基於公視電視新聞語料庫來進行大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)實驗，實驗結果顯示本論文所提出的語言模型調適方法相較於當今最好方法有較佳的效用。. 關鍵詞：語音辨識、語言模型、深度學習、詞向量表示、概念模型.

(3) Abstract Research on deep learning has experienced a surge of interest in recent years. Alongside the rapid development of deep learning related technologies, various distributed representation methods have been proposed to embed the words of a vocabulary as vectors in a lower-dimensional space. Based on the distributed representations, it is anticipated to discover the semantic relationship between any pair of words via some kind of similarity computation of the associated word vectors. With the above background, this thesis explores a novel use of distributed representations of words for language modeling (LM) in speech recognition. Firstly, word vectors are employed to represent the words in the search history and the upcoming words during the speech recognition process, so as to dynamically adapt the language model on top of such vector representations. Second, we extend the recently proposed concept language model (CLM) by conduct relevant training data selection in the sentence level instead of the document level. By doing so, the concept classes of CLM can be more accurately estimated while simultaneously eliminating redundant or irrelevant information. On the other hand, since the resulting concept classes need to be dynamically selected and linearly combined to form the CLM model during the speech recognition process, we determine the relatedness of each concept class to the test utterance based the word representations derived with either the continue bag-of-words model (CBOW) or the skip-gram model (Skip-gram). Finally, we also combine the above LM methods for better.

(4) speech recognition performance. Extensive experiments carried out on the MATBN (Mandarin Across Taiwan Broadcast News) corpus demonstrate the utility of our proposed LM methods in relation to several state-of-the art baselines.. Keywords：speech recognition, language modeling, deep learning, word representation, concept model.

(5) 誌謝兩年的碩士求學生涯轉眼間就告一段落了，回憶起這段日子真是充滿歡笑與淚水。不僅能在知識上能有所成長，而在做人處事或是面對事情的態度更是學到不少，還有好多點點滴滴的回憶，今後都將銘記在心，更充滿感謝。首先，感謝我的家人對我的包容與體諒，讓我能自由地追隨自己的理想，在遇到困難時給予支持與鼓勵，我才能勇於面對各種挑戰，並且順利完成學業。誠摯的感謝指導教授陳柏琳博士，感謝老師殷殷教誨與耐心的教導，當我在研究上遇到挫折與困難時，老師總是細心指導與鼓勵，並提供優質的研究環境，讓我們能無後顧之憂地進行研究。老師不僅對於研究的熱情與殷切的指導，而在待人處事與嚴謹的生活態度皆是令人欽佩，做為我人生中學習的典範。謝謝口試委員洪志偉老師與王家慶老師，感謝老師們提出建議的與指導，讓我論文得以更臻完善。感謝實驗室的夥伴們，感謝冠宇學長，每當研究上遇到困難時總是義不容辭地伸出援手給予指導與建議，並不吝於分享學習的經驗與訣竅。感謝孝宗學長、柏翰學長、黃威學長、俊諭學長、予真學姊、欣汝學姊、庭豪、凱文、憶年、曜麒、明翰，與你們相互勉勵、一起探討研究上總總議題、相互分享生活趣事、一起並肩熬過無數個夜晚等，都是令人難忘的回憶，謝謝大家使得在研究所的這兩年增添許多快樂的回憶。. 思澄謹誌.

(6) 目錄目錄 .................................................................................................................................................... I. 圖目錄 ...............................................................................................................................................V. 表目錄 ............................................................................................................................................ VII. 第一章. 緒論 ................................................................................................................................. 1. 1.1. 研究背景 ................................................................................................................................... 1. 1.2. 語音辨識簡介 ........................................................................................................................... 3. 1.3. 語言模型研究 ........................................................................................................................... 5. 1.4. 論文貢獻 ................................................................................................................................... 8. 1.5. 研究論文架構 ........................................................................................................................... 9. 第二章. 文獻回顧以及方法探討 ................................................................................................ 10. 2.1. 語言模型調適 ......................................................................................................................... 10. 2.2. 語言模型演進 ......................................................................................................................... 11. 2.3. N 連語言模型 ......................................................................................................................... 17. 2.4. 主題模型 ................................................................................................................................. 18. 2.4.1 潛藏語意分析 .......................................................................................................................... 19. 2.4.2 機率式潛藏語意分析 .............................................................................................................. 20 i.

(7) 2.4.3 潛藏狄利克里分配 .................................................................................................................. 21. 2.4.4 詞主題模型 .............................................................................................................................. 23. 2.5. 關聯模型 ................................................................................................................................. 24. 2.6. 遞迴式類神經網路語言模型 ................................................................................................. 26. 2.7. 長短期記憶類神經網路 ......................................................................................................... 27. 第三章. 融入概念資訊於語言模型中 ......................................................................................... 30. 3.1. 概念語言模型 ......................................................................................................................... 30. 3.2. 詞概念語言模型 ..................................................................................................................... 31. 3.3. 群聚概念語言模型 ................................................................................................................. 33. 第四章. 融入詞向量表示於語言模型中 ..................................................................................... 35. 4.1. 詞向量表示法 ......................................................................................................................... 35. 4.2. 連續型詞袋模型 ..................................................................................................................... 36. 4.3. 跳躍式模型 ............................................................................................................................. 38. 4.4. 階層軟式最大化 ..................................................................................................................... 39. 4.5. 負例採樣 ................................................................................................................................. 42. 4.6. 分散式儲存模型 ..................................................................................................................... 44. 4.7. 分散式詞袋模型 ..................................................................................................................... 45. 第五章. 結合詞向量表示與概念資訊應用於語言模型 .............................................................. 46 ii.

(8) 5.1. 將詞向量應用於語言模型 ..................................................................................................... 46. 5.2. 將詞向量表示應用於詞圖搜尋 ............................................................................................. 47. 5.3. 結合詞向量表示與群聚概念資訊於語言模型 ..................................................................... 49. 第六章. 6.1. 實驗架構與結果討論 .................................................................................................... 50. 實驗架構 ................................................................................................................................. 50. 6.1.1 臺師大大詞彙連續語音辨識系統 .......................................................................................... 50. 6.1.1.1. 特徵擷取 ........................................................................................................................ 50. 6.1.1.2. 聲學模型 ........................................................................................................................ 50. 6.1.1.3. 詞典建立 ........................................................................................................................ 51. 6.1.1.4. 詞彙樹複製與搜尋 ........................................................................................................ 52. 6.1.1.5. 詞圖搜尋與 N-條最佳結果(N-Best)之產生 ................................................................. 53. 6.1.2 語言模型評估方式 ................................................................................................................. 54. 6.1.2.1. 語言複雜度 .................................................................................................................... 54. 6.1.2.2. 辨識錯誤率 .................................................................................................................... 55. 6.2. 實驗語料 ................................................................................................................................. 56. 6.3. 實驗結果與探討 ..................................................................................................................... 58. 6.3.1 基礎實驗 .................................................................................................................................. 58. 6.3.2 關聯模型 .................................................................................................................................. 59. iii.

(9) 6.3.3 遞迴式類神經網路語言模型 .................................................................................................. 60. 6.3.4 詞向量表示應用於群聚概念語言模型 .................................................................................. 62. 6.3.5 詞向量表示應用於詞圖搜尋 .................................................................................................. 64. 6.3.6 各式語言模型之實驗結果比較 .............................................................................................. 64. 第七章. 結論與未來展望 ............................................................................................................ 67. 參考文獻 ........................................................................................................................................... 69. iv.

(10) 圖目錄圖 1.1 自動語音辨識流程圖......................................................................................... 3 圖 1.2 語言模型研究分類示意圖................................................................................. 5 圖 2.1 語言模型調適架構圖....................................................................................... 10 圖 2.2 語言模型演進示意圖....................................................................................... 11 圖 2.3 潛藏語意分析示意圖....................................................................................... 19 圖 2.4 機率式潛藏語意分析之圖形表示法............................................................... 20 圖 2.5 潛藏狄利克里分配之圖形表示法.................................................................. 21 圖 2.6 詞主題模型之圖形表示法.............................................................................. 23 圖 2.7 關聯模型示意圖.............................................................................................. 24 圖 2.8 遞迴式類神經網路語言模型架構圖.............................................................. 26 圖 2.9 長短期記憶人工神經網絡語言模型架構圖................................................... 27 圖 2.10 長短期記憶人工神經網絡模型儲存單元示意圖......................................... 28 圖 3.1 概念模型示意圖.............................................................................................. 30 圖 3.2 詞概念語言語言模型流程圖.......................................................................... 32 圖 3.3 群聚概念語言模型流程圖.............................................................................. 33 圖 4.1 連續型詞袋模型示意圖.................................................................................. 36 圖 4.2 跳躍式模型示意圖.......................................................................................... 38 v.

(11) 圖 4.3 連續型詞袋模型網路結構示意圖.................................................................. 39 圖 4.4 跳躍式模型網路結構示意圖.......................................................................... 41 圖 4.5 映射之示意圖.................................................................................................. 42 圖 4.6 分散式儲存模型架構圖.................................................................................. 44 圖 4.7 分散式詞袋模型架構圖.................................................................................. 45 圖 5.1 詞圖搜尋示意圖.............................................................................................. 47 圖 6.1 遞迴式類神經網路語言模型之字錯誤率比較圖.......................................... 61 圖 6.2 遞迴式類神經網路語言模型之語言複雜度比較圖...................................... 61 圖 6.3 結合詞向量於群聚概念模型之不同群聚數的字錯誤率比較圖.................. 63 圖 6.4 結合詞向量於群聚概念模型之不同群聚數的語言複雜度比較圖.............. 63 圖 6.5 各式語言模型之字錯誤率結果比較圖........................................................... 65. vi.

(12) 表目錄表 1 語音辨識實驗使用之發展集語音語料統計資訊...................................... 57 表 2 語言模型估測所使用背景文字語料以及調適文字語料統計資訊......... 57 表 3 基礎實驗於發展集之字辨識率結果比較表............................................. 58 表 4 基礎實驗於發展集之語言複雜度結果比較表......................................... 58 表 5 關聯模型之字錯誤率比較表..................................................................... 59 表 6 關聯模型之語言複雜度比較表................................................................. 59 表 7 遞迴式類神經網路語言模型之字錯誤率比較表..................................... 60 表 8 遞迴式類神經網路語言模型之語言複雜度比較表................................. 61 表 9 結合詞向量於群聚概念模型之不同群聚數的字錯誤率比較表............. 62 表 10 結合詞向量於群聚概念模型之語言複雜度比較表............................... 63 表 11 詞向量表示應用於詞圖搜尋中之字錯誤率比較表 ............................... 64. vii.

(13) 第一章. 緒論. 1.1 研究背景語言對話是人類與生俱來的溝通能力，也是人與人最直接的溝通方式，語音承載著大量的訊息資訊。透過語音的傳達，人們可以彼此相互了解對方所欲表達的想法、意涵、情緒與感受。隨著時代的演進與資通訊科技的蓬勃發展，人們期待電腦或手機通訊設備亦能具備與人溝通與理解的能力，以期為我們的生活省卻許多複雜的操作，讓生活帶來更多的便利，因此自動語音辨識(Automatic Speech Recognition, ASR)[1]變得日益重要。為了要讓電腦更加了解人類的對話語音內容以及所要表達的語意資訊與情緒感受，自然語言處理(Natural Language Processing, NLP)[2]技術的發展成為關鍵因素。自然語言處理是人工智慧(Artificial Intelligence, AI)與語言科學(Linguistic Science)結合的一門學問。人們表達情意的話語或文字，可經由自然語言處理的統計推論 (Statistical Inference)、圖形辨識 (Pattern Recognition) 或是機器學習 (Machine Learning)等技術，分析擷取其中的語意資訊(Semantic Information)、文法規則(Syntactic Rule)、或語言結構(Linguistic Structure)等另一種形式的有用資訊，達到電腦理解語音或文字的能力。事實上，人類所有的知識與智慧幾乎都是以自然語言透過語音或文字的方式記錄儲存起來，因此自然語言處理技術扮演重 1.

(14) 要的角色。自然語言處理的應用範疇相當廣泛，包含機器翻譯(Machine Translation, MT)[3]、電腦輔助語言學習(Computer Assisted Language Learning, CALL)、資訊檢索 (Information Retrieval)[4] 、語音辨識 (Speech Recognition) 、文件分類 (Document Clustering)、以及情緒分析(Sentiment analysis)等領域。自然處理的技術發展與提升可使上述研究更臻精進與完善。為清楚闡述本論文之研究動機與方向，以下章節先針對語音辨識研究之基本原理進行描述。. 2.

(15) 1.2 語音辨識簡介. 圖 1.1 自動語音辨識流程圖基本上，一個自動語音辨識系統主要可以分為四個部分，分別為特徵擷取 (Feature Extraction)、聲學模型(Acoustic Models)、語言模型(Language Models)、以及語言解碼(Linguistic Decoding)，其辨識流程如圖 1.1 所示。當電腦接收到一段語音訊號時，首先透過特徵擷取將語音訊號中重要的資訊予以保留，以取得可以代表此段的語音特徵參數，並將所擷取的特徵參數轉換成語音特徵向量，以利語音辨識系統使用。接著，藉由收集統計語言的發音特性，為語言中的每一個最小聲音單位"音素"(Phoneme)建立一個聲學模型，用來判定每一段語音訊號最可能對應到的發音；再者，我們可以根據人們說話的用字遣詞的規律性，建立出一套用來預測每一個詞在不同情況下出現的語言模型；最後，根據聲學模型、語言模型、詞典以及特徵向量的資訊進行語言解碼，組合出一組最佳、最有可能發生的詞序列當作最後的辨識結果。 3.

(16) 我們可以將語音辨識的過程透過數學符號來表示。假設輸入一段語音訊號𝑂，透過聲學特徵擷取獲得聲學特徵向量序列 X，我們期望找出一段最可以代表此段語音訊號的詞序列 𝑊 ∗ : 𝑊 ∗ = argmax 𝑃(𝑊|𝑋) 𝑊. = argmax 𝑊. 𝑝(𝑋|𝑊)𝑃(𝑊) 𝑃(𝑋). = argmax 𝑝(𝑋|𝑊) 𝑃(𝑊) 𝑊. (1-1). 由於𝑃(𝑊|𝑋)難以直接估算，因此藉由貝式定理(Baye’s Rule)轉換，得到 𝑝(𝑋|𝑊)、𝑃(𝑊)和𝑃(𝑋)。其中𝑃(𝑋|𝑊)為聲學模型的估測值，表示給定一段詞序列 𝑊所對應到的聲學模型組合產生語音訊號𝑂的聲學特徵向量序列𝑋的機率； 𝑃(𝑊)為語言模型，代表產生某一詞序列𝑊的機率；而𝑃(𝑋)為語音訊號𝑋的事前機率，對同一段語音訊號X而言，𝑃(𝑋)皆相等，並不會影響排序結果，因此可以予以省略。因此式 1-1 可簡化為 argmax𝑊 𝑝(𝑋|𝑊) 𝑃(𝑊)，最後根據聲學模型與語言模型的分數連乘積 𝑝(𝑋|𝑊)𝑃(𝑊)進行搜尋，找出一條機率最大的詞序列 𝑊 ∗ 作為輸出。. 4.

(17) 1.3 語言模型研究語言模型是描述自然語言規律的一種數學模型。語言模型被廣泛地應用於語音辨識、手寫辨識、機器翻譯、資訊檢索等領域。在語音辨識的領域中，最主要是由聲學模型與語言模型兩大部分所組成，而語言模型最主要是為了補足聲學模型經常會有同音異字或是發音混淆之情況，因此可以透過語言模型的輔助，藉由語言特性彌補聲學模型的不足。. 圖 1.2 語言模型研究分類示意圖語言模型之研究大致又可以分為：語料前處理技術(Corpus)、各種不同的語言模型 (Modeling) 、語言模型調適 (Adaptation) 、以及語言模型的訓練研究 (Training)。語料的前處理包括文件收集(Data Collection)與斷詞處理(Word Segmentation)。近年來由於資通科技發達，我們正處於一個大數據的時代，資料的收集變得輕而 5.

(18) 易舉，因此我們可以透過網路獲得大量的文件資料進行語言模型的訓練[5]，事實上谷歌(Google)或是微軟(Microsoft)也釋出大量的 N 連詞的統計資訊。Ciprian Chelba [6] 於 2012 年在 Google 的研究報告指出，在巨量資料下簡單的 N 連語言模型有較佳的表現。此研究的發現使得後續研究漸朝向巨量資料與高速計算的方向發展。從收集到的文件進行斷詞處理，意旨將一篇文章中的一長串文字分割成多個個別的"詞"，並根據斷詞過後的結果擷取所需的資訊。一般採用最簡易的方法是使用長詞優先演算法。而國內也有許多斷詞系統融入自然語言技術，例如中央研究院所中文詞知識庫小組所開發的 CKIP (Chinese Knowledge Information Processing)線上斷詞系統[7]，利用自然語言技術使得文件中的詞彙判斷更為準確。在語音辨識的過程中，可能會因為不同的語者、每個人的說話習慣、或是隨著時間演變產生不同的流行用語以及新生成的詞彙，導致辨識結果有很大的差異性。解決之道為蒐集與測試語料高度相關的少量語料作為調適語料(Adaptation Corpus)，進而對背景語料進行調適，最後再透過詞頻混合法(Count Merging)與模型插補法(Model Interpolation)[8] 以克服此差異性，此種方式即為語言模型調適 (Language Model Adaptation)[9], [10]。然而近年來大部分的語言模型調適都應用於非監督式調適(Unsupervised Adaptation)，其做法為先透過語音辨識技術取得初次文字辨識結果或是前 N 條最 6.

(19) 佳辨識結果(N-Best List)，再對背景語言模型進行調適或是使用不同的語言模型技術將前 N 條最佳辨識結果重新排序進而獲得較佳的辨識結果。例如使用於會議的即時語音轉寫 (Meeting Transcription)[11] 、課程即時轉寫 (Lecture Transcription) [12]、以及廣播新聞即時轉寫(Broadcast News Transcription)[13]等。語言模型的建立最主要的資訊來源可以分為兩種方式，分別為詞規律資訊 (Word-Regularity-based Information) 以及歷史詞序列相關資訊 (HistoryDependency-based Information) 。詞規律資訊指詞彙與詞彙間通常會按照某個固定的規律或是有共同出現的關係，而歷史詞序列相關資訊則是探討歷史詞序列 (History Sequence)以及預測詞(Upcoming Word)之間的關係。例如主題模型(Topic Model)不直接預測長距離的詞彙規律資訊而是使用詞袋假設(Bag-of-Word)[14]，使得預測詞與歷史詞序列間擁有相同的主題資訊，透過此關係達到預測的效果。語言模型訓練在傳統語言模型通常以最大化相似度估測 (Maximum Likelihood Estimation, MLE)為訓練準則，希望最大化其生成訓練語料的相似度。另外一種訓練方式為鑑別式語言模型(Discriminative Language Models) [15]，以各種語言特徵為基礎，透過減損函數的定義找出每個模型特徵相對應的模型參數。. 7.

(20) 1.4 論文貢獻為了讓電腦更貼近人、更了解人們在語音溝通上欲傳達訊息，在一連串隨著時間不同而改變的語音訊號當中，我們必須找出其中最能代表此段語音訊號以及符合自然語言特性的一段詞序列來表達其含義。如 1.2 節所述，語音辨識系統包括特徵向量擷取(Feature Extraction)、聲學模型(Acoustic Models)、語言模型 (Language Models)及語言解碼(Linguistic Decoding)。本論文之主要研究在於語音辨識之語言模型，本研究將針對新近被提出的概念語言模型(Concept Language Model)加以改進；嘗試在調適語料中以句子的層次做模型訓練資料選取之依據，去掉多餘且不相關的資訊，使得經由調適語料中訓練出的概念類別更為具代表性，而能幫助動態語言模型調適。在語音辨識過程中，會選擇相關的概念類別來動態組成概念語言模型，而此是透過詞向量表示的方式來估算，其中詞向量表示是由連續型模型(Continue Bag-of-Words Model)或是跳躍式模型(Skip-gram Model)生成，希望藉由詞向量表示記錄每一個概念類別內詞彙彼此間的語意關係。本論文將詞向量表示資訊應用於詞圖搜尋之中，在語音辨識的過程中，對於動態產生之歷史詞序列與候選詞改以詞向量表示的方式來建立其對應的語言模型，希望透過此種表示方式而能獲取到更多詞彙間的語意資訊，以提升辨識的準確度。. 8.

(21) 1.5 研究論文架構本論文其他章節架構說明如下，第二章為文獻回顧以及方法探討，簡介語言模型調適概念以及語言模型演進，並回顧過去數十年來運用於語音辨識中的各式語言模型，包括傳統 N 連語言模型、主題模型、關聯模型、遞迴式類神經網路語言模型以及長短期記憶類神經網路語言模型理論的相關概念。第三章介紹運用概念資訊於語言模型(Concept Model)的想法，將從兩個面向進行探討，分別為以關鍵詞建立的概念模型與以群聚方式來建立概念模型。第四章將介紹詞向量表示法學習的相關技術及概念，包括詞向量表示的模型: 連續型詞袋模型(CBOW) 、跳躍式模型(Skip-gram) 、分散式儲存模型(PV-DM)、以及分散式詞袋模型(PV-DBOW)，並且介紹改善其模型效能的階層軟式最大化 (Hierarchical Softmax)以及負例採樣(Negative Sampling)之方法。第五章為本論文所提出之兩種方法，首先介紹結合詞向量表示與概念資訊於語言模型的想法。其次，簡介將詞向量表示應用至語音辨識中之詞圖搜尋概念。第六章描述實驗設定、評估方式以及各式語言模型的實驗結果與討論。第七章為本論文的結論以及未來展望。. 9.

(22) 第二章. 文獻回顧以及方法探討. 2.1 語言模型調適. 圖 2.1 語言模型調適架構圖一般而言，人與人的溝通通常會因為每個人的說話習慣、地域環境或是時代背景而有所差異。為了補足這個差異，在語音辨識的過程中，將一組數量較多的背景語料 (Background Corpus) 訓練為背景語言模型 (Background Language Model) ，並額外收集一些與測試語料(Test Corpus)高度相關的少量語料做為調適語料(Adaptation Corpus)。接著將調適模型與背景語言模型進行語言模型調適 (Language Model Adaptation)[9], [10]，利用模型插補法(Model Interpolation)[8]或是詞頻數合併法(Count Merging)將調適模型與背景模型結合。. 10.

(23) 2.2 語言模型演進. 圖 2.2 語言模型演進示意圖圖 2.2 為 1990 年代至今的語言模型演進示意圖，相關模型將於以下說明。在這些眾多的語言模型中，最基本的統計式語言模型為 N 連語言模型，該模型透過機率模型的建立來描述語言生成的規律性，最早可以追溯至克勞德‧香儂 (Claude Elwood Shannon)在資訊理論中所提出的馬可夫假設。在給定一串英文字母序列後，預測下一個最可能出現的字母，探討每一個字母的出現只會與其前 N-1 個字母相關，因而發展出著名的 N 連語言模型(N-gram Language Model)。N 連語言模型被廣為應用於自然語言處理、機器翻譯、語音識別、資訊檢索、語言模型等各個領域之中，但是 N 連語言模型經常會遇到資料稀疏(Data Sparseness) 11.

(24) [18], [19]以及缺乏長距離詞彙規則資訊(Insufficient Long-Distance Regularity)[20] 的問題。為了改善語言模型資料稀疏造成模型參數估測的問題，許多學者陸續提出不同的模型平滑化方法(Smoothing)來解決此問題，例如 Good-Turing 估算法[21] 與 Kneser-Ney 退回式平滑化法[22]等。在 1992 年 Brown 提出了類別 N 連語言模型(Class-based N-gram Model)[23]，表示在詞序列中的每一個詞都有隸屬於自己的詞類別(Word Class)，而在同一詞類別的詞具有相似的語意或語法資訊。透過詞類別的資訊可以解決 N 連語言模型參數量龐大的問題。為了解決 N 連語言模型缺乏長距離詞彙規則資訊的問題，在 1993 年略詞模型(Skipping Language Model)[24]被提出，略詞模型將詞對的相鄰限制條件放寬，允許前 N-1 個詞中的某個詞替換或者省略其中的幾個詞後的 N’ 連詞的機率值近似原來的 N 連語言模型機率值。略詞模型不僅能處理資料稀疏的問題同時也包含了過濾功能詞的效用。略詞模型亦有許多不同變形，而在 2011 年 Goodman 針對多種略詞模型討論並比較其效用。在 1993 年，Lau 與 Rosenfeld 提出觸發對語言模型(Trigger-based Language Model)[25]，將觸發對資訊運用於最大熵值法於語言模型之中。而 1994 年， Rosenfeld 提出將最大熵值法(Maximum Entropy)運用於語言模型中。最大熵值法其目的是希望語言模型對於給予每一個未見過的 N 連詞的機率越相近越好。在類別 N 連模型中，每一個詞只有對應到一個固定的詞類別，而實際上每一 12.

(25) 個詞並非只包含一種語意或是文法資訊。因此 Saul 以及 Pereira 於 1997 年提出聚合是馬可夫模型(Aggregate Markov Model)[26]，使得一個詞可以隸屬於多個類別以放寬詞與詞類別的對應關係。在 1997 年，Chelba 提出結構化模型[27] [28]，將歷史詞序列進行文法剖析 (Parsing)，利用解析出的詞性標註(Part-of-Speech Tagging) 、每個段落的主導詞 (Headword)以及詞序列建立機率模型藉以估測下一個預測詞的機率。另外，Bellegarda 於 1997 年提出潛藏語意分析(Latent Semantic Analysis, LSA)[29]運用於語音辨識研究。潛藏語意分析透過奇異值分解(Singular Value Decomposition, SVD)方法，將詞與文件投影至低維空間並藉此描述詞與文件間的關係。然而潛藏語意分析缺乏機率式涵義以及在奇異值分解後可能會有負值產生導致無法定義問題，因此於 1999 年 Hofmann 提出機率式潛藏語意分析 (Probabilistic Latent Semantic Analysis, PLSA)[30]運用於語音辨識中，而 Novak 在 2011 年時也提出非負矩陣分解[31]來解決此問題。在 2000 年時，Chen 等人提出使用鑑別式訓練[32]於語言模型中，直接以提升語音辨識的辨識率作為訓練目標，期望獲得一組特徵權重讓辨識錯誤率為最低的語言模型。而 2002 年 Kuo 提出以梯度下降法(Gradient Descent)[33]求取鑑別式語言模型參數解過程。 Bengio 於 2000 年時提出了類神經機率語言模型[34]，改善先前平滑技術多以 13.

(26) 較低階的 N 連語言模型機率值決定高階的 N 連語言模型機率值的方式。在 2007 年時，Chiu 提出詞主題模型(Word Topic Model, WTM)[35]，此模型針對在訓練語料中每一個詞所出現的資訊來建立其對應的詞虛擬文件 (Word Pseudo-document)，分別訓練出每一個詞的機率生成模型，組成文件或詞序列的機率生成模型以預測下一候選詞的出現。 Afify 於 2007 年時提出高斯混合語言模型 (Gaussian Mixture Language Model, GMLM) [36]，基於高斯混合模型已成功用於語音辨識的聲學模型中，而希望將此研究結果帶進語言模型中。 2010 年 Mikolov 提出遞迴式類神經網路語言模型 (Recurrent Neural Network Language Model, RNNLM)[37]，此模型是將前一個時間點的隱藏層資訊加入輸入層中，藉此架構保留長距離的資訊以獲得更好的預測，並加入類別層以減少計算上的複雜度。由於遞迴式類神經網路會因為梯度計算隨時間成指數增長或衰減而有梯度消失(vanishing gradient)[38]的問題導致模型難以訓練。為了彌補此問題， Sepp Hochreiter 以及 Jürgen Schmidhuber 於 1997 年所提出的長短期記憶人工神經網絡 (Long Short-Term Memory, LSTM)[39]，透過神經網路結構修改，能避免傳遞時造成的梯度消失問題。近年來深度學習(Deep Learning)興起，2012 年 Google X Lab 利用 1000 台電腦打造人工智慧系統，也就是所謂的 Google Brain。Google Brain 模擬人類頭腦 14.

(27) 的思維模式，在龐大的數據資料下找出隱含在其中的抽象規則資訊，使用一萬六千台電腦以及一千萬張隨機從 Youtube 影片中的截圖給 Google Brain 觀看學習，經過三天的學習後，成功地將這些圖片分成人臉、身體以及貓三類。在沒有額外加入其他圖像知識或是任何標籤的情況下，便能識別出貓，此實驗結果展現了驚人的機器學習能力。深度學習在圖像視覺以及語音識別上皆有顯著的效果，隨著深度學習的發展而有分散式表示法(Distributed Representation)的產生，不僅能以較低維度的向量表示還可以找出兩兩詞之間的語意關係。分散式表示法最早由 Hiton 於 1986 年提出[40]，在 2003 年時 Bengio 將其引用至語言模型中[34] 。隨後詞向量的訓練以及應用也陸續被提出，例如 Ronan Collobert 和 Jason Weston[41] 在 2008 年提出以 pair-wise 的方式訓練詞向量，並藉由訓練得到的詞向量應用於其他自然語言的任務例如詞性標注(Part-Of-Speech Tagging)、分類問題、命名實體識別(Named-Entity Recognition)等。 2008 年 Andriy Mnih 以及 Geoffrey Hinton[42], [43] 提出 Hierarchical Log-Bilinear(HLBL)模型，此模型的隱藏層可以直接和詞向量內積算出其相似度，而且隱藏層至輸出層改以詞向量做為輸出變量，最後在輸出層以二元樹的方式當作輸出，為一種機率式的線性模型，不僅降低了複雜度並且加快其運算的速度。由於類神經網路大部分的運算時間都花在非線性隱藏層上，所以 Tomas Mikolov[44]在 2013 年提出連續型模型(Continue Bag-of-Words Model)與跳躍式模型(Continue Skip-gram)，除去了隱藏層以減低計算時的複雜度，並發現可以透過 15.

(28) 計算兩個詞向量間的差異度找出其中的語義關係。隔年，Mikolov[46], [47]延續此模型並加入段落向量(Paragraph Vector)資訊於模型中。每當預測一個單詞時，便加入此單詞所在段落的段落向量當作輸入，所新增的段落向量可視為補足只用單詞訓練時僅有短距離的鄰近資訊，亦可將段落向量視為段落所對應的主題資訊。. 16.

(29) 2.3 N 連語言模型 N 連語言模型為大詞彙連續語音辨識中最常見的一種傳統統計式語言模型，在給定一連串詞序列 𝑤1 , 𝑤2 , … , 𝑤𝐾−1 , 𝑤𝐾，在已知前 K-1 個歷史詞的情況下去預測下一個詞 𝑤𝐾 出現的機率。可以由條件機率表示如下式: 𝐾. 𝑃(𝑤1 , 𝑤2 , … , 𝑤𝐾 ) = ∏ 𝑃(𝑤𝑘 |𝑤1 , 𝑤2 , … , 𝑤𝑘−1 ). (2-1). 𝑘=1. 由於詞與詞序列間的組合非常多，當詞序列越長時參數量越多，使得 N 連語言模型會有維度詛咒的問題。為了避免此問題，在此根據馬可夫假設，認為每一個詞的出現只與前 N-1 個歷史詞相關，並且限制 N 的大小以降低其計算的複雜度，以多項式(Multinomial)分佈表示如式(2-2): 𝐾. 𝐾. ∏ 𝑃(𝑤𝑘 |𝑤1 , 𝑤2 , … , 𝑤𝑘−1 ) ≈ ∏ 𝑃(𝑤𝑘 |𝑤𝑘−𝑁+1 , … , 𝑤𝑘−1 ) 𝑘=1. (2-2). 𝑘=1. 一般而言，N 的大小大都限制在 2 或 3，因此 N 連語言模型無法考慮長距離的語句資訊或是無法從語句中找出隱含在其中語意訊息，只能計算較短距離詞彙的接連機率。另一方面，N 連語言模型會因為訓練資料不足而導致資料稀疏問題，可以透過一些平滑化(Smoothing)的技術，如 Good-Turning 估算法[21]與 Kneser-Ney 退回式平滑化法[22]，以解決資料稀疏問題。. 17.

(30) 2.4 主題模型有許多模型的提出都是為了解決 N 連語言模型缺乏長距離的詞彙訊息以及面臨資料稀疏的問題，其中潛藏主題(Latent Topic)模型也是為了解決此問題而被提出。潛藏主題模型使用非監督的方式訓練(Unsupervised Training)，找出隱含在文件與詞彙間的主題資訊，並將每一個詞彙與每一篇文件賦予不同的主題機率，透過此主題機率的分佈訊息，藉以描述詞與詞之間、詞與文件或文件與文件間的關係。此類利用潛藏主題關係的模型包含潛藏語意分析(Latent Semantic Analysis, LSA)[48] [49] 、機率式潛藏語義分析 (Probabilistic Latent Semantic Analysis, PLSA)[30]、潛藏狄利克里分配(Latent Dirichlet Allocation, LDA)[51]、以及詞主題模型(Word Topic Model, WTM)[35]。. 18.

(31) 2.4.1. 潛藏語意分析. 圖 2.3 潛藏語意分析示意圖潛藏語意分析(Latent Semantic Analysis, LSA)是將文件與詞彙以矩陣的形式表示，假設文件集中文件與詞的組合代表其潛在的主題資訊，並藉由奇異值分解 (Singular Value Decomposition, SVD)將高維度的文件投影至低維度空間，如圖 2.3 所示。. A ≈ UΣV 𝑇. (2-3). 假設A 為一個高維的文件-詞彙矩陣，U為|𝑉| × K 矩陣，其中的每一列為一個 𝐾 維的詞向量 𝑢 ⃗，Σ為 𝐾 × 𝐾的對角矩陣，可將Σ視為一個潛藏的語意空間，V 𝑇 中的每一行為𝐾維文件向量 v ⃗⃗ 。投影至潛藏主題空間後，藉由計算低維度潛藏語意空間的向量距離或是計算其夾角可得到文件與詞之間的語意相似度。此做法不僅可以降低在計算文件與詞向量的複雜度，也能去除在文件與詞之間的組合時包含的部分雜訊資訊。. 19.

(32) 2.4.2. 機率式潛藏語意分析. 圖 2.4 機率式潛藏語意分析之圖形表示法機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)[30]，由潛藏語意分析延伸而得，將每一篇文章建立一個生成模型，透過一組隱藏變數找出詞與文件間潛藏的主題資訊，如圖 2.4 所示。藉由一組共享的潛藏主題 𝑇 = {𝑡1 , 𝑡2 , … , 𝑡𝑘 }，來描述一個詞 𝑤 發生於文件 𝑑𝑚 中的機率，𝑃(𝑡𝑘 |𝑑𝑚 )表示文件 𝑑 與詞 𝑤 的關係根據潛藏的主題機率分佈，而 𝑃(𝑡𝑘 |𝑑𝑚 ) 為詞 𝑤 出現在潛藏主題 𝑡𝑘 的機率，如式(2-4)所示: 𝐾. 𝑃(𝑤|𝑑𝑚 ) = ∑ 𝑃(𝑤|𝑡𝑘 ) 𝑃(𝑡𝑘 |𝑑𝑚 ). (2-4). 𝑘=1. 機率式潛藏語意分析的參數分別為每一個詞 𝑤 在每一潛藏主題 𝑡𝑘 下的機率值以及每一篇文件的主題機率分佈，這些參數可以經由最大化訓練語料中每一文件的對數相似度，以期望值最大化法(Expectation-Maximization, EM)[50]求得，其公式如式(2-5)所示: 20.

(33) 𝐾. L = ∑ ∑ 𝑐(𝑤𝑗 , 𝑑𝑚 ) log[ ∑ 𝑃(𝑤𝑗 |𝑡𝑘 ) 𝑃(𝑡𝑘 |𝑑𝑚 )] 𝑚. 𝑗. (2-5). 𝑘=1. 其中 𝑇 = {𝑡1 , 𝑡2 , … , 𝑡𝑘 }為一組潛藏主題，𝑃(𝑤𝑗 |𝑡𝑘 )與𝑃(𝑡𝑘 |𝑑𝑚 )參數使用期望值最大化法求得， c(𝑤𝑗 , 𝑑𝑚 )表示𝑤𝑗 出現在文件𝑑𝑚 中的次數。. 2.4.3. 潛藏狄利克里分配. 圖 2.5 潛藏狄利克里分配之圖形表示法潛藏狄利克里分配模型(Latent Dirichlet Allocation, LDA)[51]可以將文件集中的每篇文件的潛藏主題以機率分佈的方式來表示。此模型的優點在於對於一篇未見過的文件皆可找出其中潛藏主題機率的分佈，在訓練時不須人工標註，為一種非監督式學習。潛藏狄利克里分配模型假設在一篇文件中詞與詞之間不考慮先後順序關係，為典型的詞袋模型。一篇文件可以包含多個潛藏主題，並且文章中的每個詞都由其中的主題所生成。在潛藏狄利克里分配下，文件 𝑑𝑚 的生成機率為: 21.

(34) |𝑑𝑚 |. 𝐾. 𝑃(𝑑𝑚 |α, β) = ∫ 𝐷𝑖𝑟(𝜃𝑑𝑚 |𝛼) ∏(∑ 𝑃(𝑤𝑖 |𝑇𝑘 , 𝛽) 𝑃(𝑇𝑘 |𝜃𝑑𝑚 ))𝑑𝜃𝑑𝑚. (2-6). 𝑖=1 𝑘=1. α為狄利克里分配參數，β為𝑉 × 𝐾矩陣，𝑃(𝑤𝑖 |𝑇𝑘 )表示在潛藏主題 𝑇𝑘 下詞 𝑤𝑖 出現的機率。而潛藏狄利克里分配的參數估算，以變動性貝氏期望值最大化演算法(Variational Bayesian Expectation Maximization, VBEM)。相較於機率式潛藏語意分析，潛藏狄利克里分配能改善對於未出現過文件的預測能力以及在訓練語料增加時參數會呈現性成長的缺點。潛藏狄利克里分配能也被廣泛應用於其他領域之中，例如圖樣辨識(Pattern Recognition)、資訊檢索(Information Retrieval)、影像處理(Image Processing)等等。. 22.

(35) 2.4.4. 詞主題模型. 圖 2.6 詞主題模型之圖形表示法詞主題模型[52]最主要是透過一組潛藏主題機率分佈，並考慮詞彙間的相鄰資訊，以獲得文件或是歷史詞序列的長距離語意訊息。此模型主要做法是從訓練語料中收集每個詞 𝑤𝑗 的鄰近文字段落範圍內其他詞出現的資訊，將每一個詞 𝑤𝑗 訓練一個主題模型 𝑀𝑤𝑗 ，並建立詞虛擬文件(Word Pseudo-document)，亦即將詞 𝑤𝑗 的鄰近文字聚集成詞主題模型對應的訓練文件 ̃ 𝑑𝑗 。接著透過一組潛藏主題機率，估算詞 𝑤𝑗 的詞虛擬文件與其他詞共同出現關係，如式(2-7)所示: 𝐾. 𝑃 WTM (𝑤𝑖 |𝑀𝑤𝑗 ) = ∑ 𝑃(𝑤𝑖 |𝑇𝑘 ) 𝑃(𝑇𝑘 |𝑀𝑤𝑗 ). (2-7). 𝑘=1. 其中 K 為潛藏主題個數，𝑃(𝑤𝑖 |𝑇𝑘 )表示已知潛藏主題 𝑇𝑘 下詞 𝑤𝑗 出現的機率; 𝑃(𝑇𝑘 |𝑀𝑤𝑗 )為 𝑤𝑗 詞主題模型產生主題 𝑇𝑘 的機率。詞主題模型應用於語音辨識時，在給定歷史詞序列 H 以及候選詞𝑤𝑖 後，預測𝑤𝑖 出現的機率。在計算歷史詞序列產生潛藏的主題機率𝑃(𝑇𝑘 |𝐻)時，可由歷史詞序列中每一個詞𝑤𝑗 的主題模型產生. 23.

(36) 主題 𝑇𝑘 的機率 𝑃 (𝑇𝑘 |𝑀𝑤𝑗 )線性結合組成，而加快了語音辨識搜尋時的速度。. 2.5 關聯模型關聯模型(Relevance Model, RM)最早是由 Lavrenko 與 Crof 提出並應用於資訊檢索的領域之中[53]，透過建立與查詢(Query)有關的關聯分佈來強健使用者的查詢內容，以找出正確且相關的文件。當欲檢索與查詢相關的文件時，除了查詢本身的資訊外，額外使用代表查詢內容分佈的關聯性模型，來評估文件與查詢的相關程度，其概念如圖 2.7 所示。. 圖 2.7 關聯模型示意圖與使用者資訊需求 (Information Need) 相關的資訊表示為一個關聯類別 (Relevance Class)。由於關聯類別的求取不容易；因此，透過虛擬關聯回饋 (Pseudo-Relevance Feedback, PRF)[54]來近似關聯類別。接著，計算詞彙 w 與查詢 Q 共同出現在虛擬關聯文件的聯合機率，如式(2-8)所示:. 24.

(37) M. PRM (Q, w)   P(d m ) P(Q, w | d m ). (2-8). m 1. 更進一步假設詞彙w與查詢Q彼此之間是獨立且不考慮其先後次序，即為： M. PRM ( w | Q) .  P(d. m. m 1. ) P( w | d m ) P(q | d m ) qQ. (2-9). M.  P ( d ) P ( q ' | d m. m 1. m. ). q 'Q. 近年來，有學者[55], [56]將此關聯類別的概念應用至語音辨識中。其概念是將歷史詞序列 H 視為是一個已觀察到的查詢，我們可以藉由查詢找到一組與歷史詞序列最相關的虛擬關聯文件；考慮歷史詞序列 H 與候選詞 w 在虛擬關聯文件中同時出現的關係，計算出候選詞 w 出現在歷史詞序列 H 之後的可能機率：. PRM ( w | H ) . PRM ( H , w) PRM ( H ) L. M. .  P(d m ) P( w | d m ) P( wl | d m ) m 1. l 1. L. M.  P(d ) P( w m. l. m 1. l  1. 25. | d m ). (2-10).

(38) 2.6 遞迴式類神經網路語言模型. 圖 2.8 遞迴式類神經網路語言模型架構圖 Tomas Mikolov[37]最早將遞迴式類神經網路(Recurrent Neural Network, RNN) 應用於語言模型，遞迴式類神經網路語言模型的架構如圖 2.8 所示，其架構與前饋式神經網路不同之處為在輸入層加入上一個時間點的隱藏層資訊，並且利用迭代方式將長距離資訊保留下來。其優點為可以充分利用上下文的訊息來預測下一個出現的字詞，藉以獲得更好的預測。實驗結果發現遞迴式類神經網路語言模型相較於傳統 N 連語言模型有顯著的提升。. 26.

(39) 2.7 長短期記憶類神經網路. 圖 2.9 長短期記憶人工神經網絡語言模型架構圖長短期記憶人工神經網絡(Long Short-Term Memory, LSTM)於 1997 年由賽普·霍克賴特(Sepp Hochreiter )和于爾根·施密德胡伯(Jürgen Schmidhuber)所提出 [39]。由於遞迴式類神經網路或是深度神經網路會因為梯度計算隨時間成指數增長或衰減而有梯度消失(vanishing gradient)[38]的問題導致模型難以訓練。因此長短期記憶人工神經網絡模型透過網路的結構修改能避免遭遇此問題。. 27.

(40) 圖 2.10 長短期記憶人工神經網絡模型儲存單元示意圖圖 2.10 為長短期記憶人工神經網絡模型儲存單元示意圖，圖中以藍色標示的輸入閘(Input gate)、輸出閘(Output gate)皆為 Sigmoid gate，決定是否要將誤差流(Error flow)通過，忘記閘(Forget gate)則用來判斷是否將誤差值歸零並重新計算；綠色的點為乘法運算(Multiplication)；紅色的點為儲存單元(Memory Cell)，用來儲存誤差流的結果並透過忘記閘來決定是否要將誤差流的值保留或歸零。首先，輸入閘 𝜏𝑖 以及儲存單元𝑐𝑖 於時間點 𝑖 時，計算表示式如式(2-11)及 (2-12): 𝜏𝑖 = 𝜎(𝐴𝑥𝜏 𝑥𝑖 + 𝐴𝑦𝜏 𝑦𝑖−1 + 𝐴𝑐𝜏 𝑐𝑖−1 ). (2-11). 𝑐𝑖 = 𝜑𝑖 𝑐𝑖−1 + 𝜏𝑖 tanh(𝐴𝑥𝑐 𝑥𝑖 + 𝐴𝑦𝑐 𝑦𝑖−1 ). (2-12). 接著，計算𝜑𝑖 值為儲存單元的忘記閘在時間 𝑖 時，如式(2-13): 𝜑𝑖 = 𝜎(𝐴𝑥𝜑 𝑥𝑖 + 𝐴𝑦𝜑 𝑦𝑖−1 + 𝐴𝑐𝜑 𝑐𝑖−1 ) 28. (2-13).

(41) 在儲存單元更新後，輸出值 𝑦𝑖 (Output)是透過計算輸出閘 𝑤𝑖 的雙曲正切函數 (Tangent)而得，其計算式如式(2-15)及(2-16): 𝑤𝑖 = 𝜎(𝐴𝑥𝑤 𝑥𝑖 + 𝐴𝑦𝑤 𝑦𝑖−1 + 𝐴𝑐𝑤 𝑐𝑖 ). (2-15). 𝑦𝑖 = 𝑤𝑖 tanh(𝑐𝑖 ). (2-16). 在此 𝑥𝑖 為長短期記憶人工神經網路層的輸入，𝜎為雙彎曲函數(Sigmoid)作為激 1. 活函數: 𝜎(𝑧) = 1+exp(−𝑧) ， 𝐴𝑥𝜏、𝐴𝑦𝜏 、𝐴𝑐𝜏 、𝐴𝑥𝜑 、𝐴𝑥𝑐、𝐴𝑦𝑐、𝐴𝑥𝑤、𝐴𝑦𝑤、𝐴𝑐𝑤 等則為權重矩陣(Weight Matrix)。長短期記憶人工神經網絡的架構類似於遞迴式類神經網路，不同之處在於原本在隱藏層內的每個神經元改為儲存單元(Memory Cell)，而在儲存單元內分別包含輸入閘、輸出閘以及忘記閘，每個閘用於控制是否讓誤差流通過。. 29.

(42) 第三章. 融入概念資訊於語言模型中. 3.1 概念語言模型. 圖 3.1 概念模型示意圖在 2014 年時，Chen [57]提出了概念語言模型，其想法是認為一般人在表達一件事物時，所講的每一語句背後都隱含語者內心欲表達的概念，如圖 3.1 所示。希望藉由近似語者欲表達的概念，預測在此概念下的詞彙使用分布資訊，並將不同程度的鄰近資訊 (Proximity Information) 融入概念語言模型以放寬詞袋 (Bag-of-Words)假設的限制，達到動態語言模型調適的效果。概念語言模型分為兩種分別為: 詞概念語言模型(Word-based Concept Language Model, WCLM)與群聚概念語言模型(Cluster-based Concept Language Model, CCLM)。. 30.

(43) 3.2 詞概念語言模型當人們想要表達某件事物或是傳達某個特定的概念時，通常會透過一組具有代表性的概念關鍵詞(Concept Words)來加以描述。在建構詞概念模型時，針對每一語句不同的語言意涵，在調適語料的文件集中挑選出一組概念關鍵詞，藉以描述歷史詞序列與待預測詞彙之間的相依關係，如式(3-1)所示: PWCLM ( wi | H i ,W ) . P( wi , H i | W ) P( H i | W ). . cc P( wi , H i | c) P(c | W ) cc P( H i | c) P(c | W ). . cc P( wi | c)lLi 1 P(hl | c)P(c | W ) cc lLi1 P(hl | c)P(c | W ). (3-1). 其中 W 以語音辨識初步所產生的詞圖(Word Graph)[58]來近似語者欲表達的語言資訊；c 代表與語者欲表達的語言資訊有關的一組概念關鍵詞組。在挑選概念關鍵詞時利用虛擬關聯回饋 (Pseudo-Relevance Feedback, PRF)[54] 以及庫爾貝克 ─ 萊伯勒差異量 (Kullback-Leibler Divergence, KLDivergence)[59]的查詢與文件模型化技術，以詞圖 W 為查詢從調適語料的文件集檢索出虛擬關聯文件(Pseudo-Relevance Documents)，其流程如圖 3.2 所示。. 31.

(44) 圖 3.2 詞概念語言語言模型流程圖關於概念關鍵詞挑選準則，是基於詞頻與反向文件頻率分數 (TF-IDF Score)[60]，如式(3-2)所示： f j ,m  0 (1  log f j ,m )  log(N / n j ) if w j ,m   0 ohterwise . (3-2). 其中 f j ,m 代表詞彙 w j 在文件 d m 中出現的次數，稱為詞頻(Term Frequency, TF)，具有越高詞頻的詞彙對文件越重要；而在 log(N / n j ) 中， n j 代表詞彙 w j 出現在所有虛擬關聯文件的文件個數，稱為反向文件頻率(Inverse Document Frequency, IDF)，當某一詞彙出現僅出現在少數的文件之中，則此詞彙越具有獨特性。採行此準則以期待能找出具有重要性與獨特性的詞彙做為概念關鍵詞。. 32.

(45) 3.3 群聚概念語言模型. 圖 3.3 群聚概念語言模型流程圖群聚概念語言模型(Cluster-based Concept Language Model, CCLM)假設在調適語料的文件集內之文件可以由一組概念類別 C 來表示，藉由語者講欲表達的語言資訊 W 與這些概念類別的個別關聯程度來獲得語句可能的概念分布，並做為語言模型預測的根據，如式(3-3)所示： PCCLM-1 ( wi | H i ,W )  . CC P( wi , H i | C ) P(C | W ) CC P( H i | C ) P(C  | W ). CC P( wi | C )lLi 1 P(hl | C ) P(C | W ) CC lLi1 P(hl | C ) P(C  | W ). (3-3). 其中概念類別的求取可透過 K-Means 演算法[61]求得； P(C | W ) 可基於將語言資訊 W 與每一個概念類別 C 表示成向量形式，計算 W 與 C 之餘弦相似度求得； P(wi | C ) 代表概念類別 C 預測詞彙 wi 的單連語言模型機率，可透過最大化相似機 33.

(46) 率估測(Maximum Likelihood Estimation, MLE)。我們可以將式(3-3)中概念類別 C 預測詞彙 wi 的語言模型延伸成為雙連(Bigram)或者三連(Trigram)語言模型，概念語言模型可以同時考慮詞彙間出現的先後規則性或是鄰近資訊 (Proximity Information)，以免除詞袋(Bag-of-Words)假設的限制。. 34.

(47) 第四章. 融入詞向量表示於語言模型中. 4.1 詞向量表示法在自然語言中，最常見也是最為直觀的詞表示方式為 One-hot Representation，亦即將每個詞表示成一個很長的 N 維向量，其中 N 為詞彙的大小，而向量中僅有其中一維的值為 1，用來表示當前的詞，其餘則表示為 0。此種表示方式是採用稀疏的方式來儲存，並假設兩兩詞彙間彼此獨立，所以從此向量中並無法找出兩兩詞彙之間的關係。因此於 1986 年時，Hinton 提出了分散式表示法(Distributed Representation) [40]做為詞的表示法，這種向量表示是將詞表示成一個較低維度的實數向量，每個詞彙之間的關係可以利用餘弦或是歐式距離計算找出兩個詞向量間的語意相似度，我們將這些詞向量稱為詞表示法(Word Representation)。 Google 於 2013 年時開發出一套名為 word2vec 的工具，為一種簡單且高效率工具可以將文字轉換為實數向量表示，通常詞表示可以透過類神經網路訓練而得。其中最經典的兩種詞表示法分別為連續型詞袋模型(Continuous Bag-of-Word, CBOW) 與跳躍式模型 (Skip-Gram, SG) ，這兩種模型使用階層軟式最大化 (Hierarchical Soft-max, HS)[44]以及負例採樣(Negative Sampling, NS) [46]方法來提高訓練的速度並改善透過訓練後詞向量的質量。. 35.

(48) 4.2 連續型詞袋模型. 圖 4.1 連續型詞袋模型示意圖. 基於神經網路語言模型訓練詞向量會造成訓練時間過長。因此 Tomas Mikolov 等人[44]提出連續型詞袋模型(Continue Bag-of Words, CBOW)與跳躍式模型(Continue Skip-gram)，不僅降低計算量並且提高了計算的速度。連續型詞袋模型與前饋式類神經網路(Feed-Forward Neural Network)類似，不同之處在於連續型詞袋模型將非線性隱藏層(Non-Linear Hidden Layer)移除，並且在輸入層的所有單詞皆共享隱藏層。如圖 4.1 所示，此模型包含三層，分別為輸入層、投影層、輸出層。已知當前詞wt 的上下文wt−2 , wt−1 , wt+1 , wt+2 的情況下預測當前詞wt 出現的機率。在此目標函數為最大化詞向量的平均機率:. 36.

(49) 𝑇−𝑘. 1 ∑ 𝑙𝑜𝑔 𝑃(𝑤𝑡 |𝑤𝑡−𝑘 , … , 𝑤𝑡+𝑘 ) 𝑇. (4-1). 𝑡=𝑘. 其條件機率可以透過 Softmax 函數轉換為: 𝑒 𝑦𝑤𝑡 𝑃(𝑤𝑡 |𝑤𝑡−𝑘 , … , 𝑤𝑡+𝑘 ) = ∑ 𝑖 𝑒 𝑦𝑖. (4-2). 其中 y ={y1 ,…, yv }，而 y 中的每個 yi 為對於每一個詞 wi 還未經過正規化的 log 機率值，計算如下式: y=b+Uh(wt-k ,…,wt+k ,X). (4-3). 其中U、b為 Softmax 的參數，h 是從矩陣 X 中的詞向量(w ⃗⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗⃗⃗ t+k )加總平均，X為 t-k ,…,w 根據每個詞wi 的向量所組成的矩陣。. 37.

(50) 4.3 跳躍式模型. 圖 4.2 跳躍式模型示意圖. 跳躍式模型(Skip-gram)與連續型詞袋模型(CBOW)相反，使用當前的詞來預測周圍的詞。如圖 4.2 所示，已知當前詞 𝑤𝑡 的情況下，預測其上下文 𝑤𝑡−2 , 𝑤𝑡−1 , 𝑤𝑡+1 , 𝑤𝑡+2 的機率。給定一段詞序列𝑤1 , 𝑤2 , 𝑤3 , … , 𝑤𝑡，在此最大化目標函數: 𝑇. 1 ∑ 𝑇. ∑. 𝑙𝑜𝑔 𝑃(𝑤𝑡+𝑘 |𝑤𝑡 ). (4-4). 𝑡=1 −𝑐≤𝑘≤𝑐,𝑘≠0. 其中𝑐 為訓練上下文的窗口大小，𝑇 為訓練的文字語料長度， 𝑃(𝑤𝑡+𝑘 |𝑤𝑡 )表示在當前詞 𝑤𝑡 的條件下 𝑤𝑡+𝑘 出現的機率。計算在一個固定的窗口大小內兩兩詞彙之間的機率，可以用來找出在一段語句中詞彙彼此之間的相互關係。上下文的窗口越大，預測的結果越精準，相對的，訓練時間亦會隨之增加。 38.

(51) 4.4 階層軟式最大化. 圖 4.3 連續型詞袋模型網路結構示意圖階層軟式最大化(Hierarchical Softmax, HS)為提高連續型詞袋模型或跳躍式模型效能的一項關鍵技術。圖 4.3 為連續型詞袋模型的結構示意圖，此模型分別包含輸入層(Input Layer)、投影層(Projection Layer)、輸出層(Output Layer)。在輸入層中，包含在𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤)中的2𝑐個詞向量：𝑣(𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤)1 ), 𝑣(𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤)2 ) , … , 𝑣(𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤)2𝑐 ) ∈ 𝑹𝑚 ，其中𝑚代表詞向量的長度。在投影層為輸入層中的所有詞向量的加總，表示為 𝑥𝑤 = ∑2𝑐 𝑖=1 𝑣(𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤)𝑖 )。輸出層中會對應至一棵二元樹(Binary Tree)，此二元樹是以語料中所出現過的詞作為葉節點(Leaf Node)，並且根據每個詞在語料中的出現次數當作權重(Weight)而建構成一顆霍夫曼樹 (Huffman Tree)，葉節點共有𝑁(= |𝑉|)個，分別對應於詞彙𝑉中所有的詞，非葉節 39.

(52) 點為𝑁 − 1個(如圖 4.1 中的藍色節點)。在訓練時時會賦予每個非葉節點一個向量，該向量用以輔助計算詞的機率，每個葉節點表示為一個詞向量(詞表示法)。霍夫曼樹可使根節點由上至下沿著分支節點最後走到葉節點詞𝑤，其路徑中的每一次分支皆可視為一次的二元分類。除了根節點外，其餘的每一個節點皆對應至一個 0 或 1 的霍夫曼編碼，在此將霍夫曼編碼為 0 的節點定義為正類，編碼為 1 的節點定義成負類。並根據邏輯回歸(Logistic Regression)，可以將某一節點被分類到正類的機率如式(4-5)所示： 𝑇 σ(𝑥𝑤 𝜃) =. 1. (4-5). 𝑇. 1 + 𝑒 −𝑥𝑤 𝜃. 而被分類至負類的機率如式(4-6) 所示： 𝑇 1 − σ(𝑥𝑤 𝜃). (4-6). 其中𝜃為非葉節點所對應到的向量。將每一次的二元分類所產生的機率連乘後，可以得到以霍夫曼樹所定義出的上下文向量x𝑤 與條件機率𝑃(𝑤|𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤))，公式可表示如式(4-7)： 𝑙𝑤 𝑤 𝑃(𝑤|𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤)) = ∏ 𝑝(𝑑𝑗𝑤 |𝑥𝑤 , 𝜃𝑗−1 ). (4-7). 𝑗=2. 其中𝑙 𝑤 為從根節點至詞𝑤的葉節點路徑中所包含的節點數量，𝑑𝑗𝑤 ∈ {0,1}為路徑中第𝑗個節點所對應的霍夫曼編碼，而 𝑤 𝑃(𝑑𝑗𝑤 |𝑥𝑤 , 𝜃𝑗−1 ). ={. 𝑇 𝑤 σ(𝑥𝑤 𝜃𝑗−1 ),. 𝑑𝑗𝑤 = 0. 𝑇 𝑤 1 − σ(𝑥𝑤 𝜃𝑗−1 ),. 𝑑𝑗𝑤 = 1. 整體表示式如式(4-9)所示： 40. (4-8).

(53) 1−𝑑𝑗𝑤. 𝑤 𝑇 𝑤 𝑃(𝑑𝑗𝑤 |𝑥𝑤 , 𝜃𝑗−1 ) = [𝜎(𝑥𝑤 𝜃𝑗−1 )]. 𝑇 𝑤 ∙ [1 − 𝜎(𝑥𝑤 𝜃𝑗−1 )]. 𝑑𝑗𝑤. (4-9). 跳躍式模型的網路架構與連續型詞袋模型相似，如圖 4.4 所示，同樣包括輸入層、投影層、輸出層，不同之處在於輸入層僅包含當前詞𝑤的詞向量v(𝑤) ∈ 𝑹𝑚，而投影層保留與輸入層相同，因為在此方便與 CBOW 結構做對比，輸出層和 CBOW 模型相同亦為一顆霍夫曼樹(Huffman Tree)。. 圖 4.4 跳躍式模型網路結構示意圖. 41.

(54) 4.5 負例採樣 Mikolov 等人於 2013 年提出負例採樣(Negative Sampling, NS) [46]方法用來改善模型的效能。負例採樣是基於噪音對比估測(Noise Contrastive Estimation, NCE)的一個簡化版本，其最主要目的在於提升訓練的速度並且能改善經過訓練後所得到詞向量的質量。相較於階層軟式最大化(Hierarchical Softmax)，負例採樣並沒有複雜的霍夫曼樹(Huffman Tree)，因此可以大幅度的提升其效能。在負例採樣中，需要隨機生成一些負例，在語料庫中每個詞彙出現的次數皆不同，出現次數較高的詞，被選為負例的機率較大，對於出現次數較低的詞，被選中的機率較小，也就是類別分布(Categorical Distribution)問題，根據詞的分布進行抽樣。相關的做法有很多種，在 Google 的 word2vec 工具中是將機率以累積分布函數(Cumulative Distribution Function, CDF)的方式排列。如圖 4.5 所示，最左邊機率為 0；最右邊機率為 1， 𝑎、𝑏、𝑐出現機率分別為 0.5、0.3、0.2 為例，線段的切割點為 0.5、0.8。接著將該線段劃分為𝑚段，與該線段映射即可得知 0 至 𝑚中任意整數所對應字符。. 圖 4.5 映射之示意圖 42.

(55) 在連續型詞袋模型(CBOW)中，是利用上下文𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤)預測該詞𝑤的機率，對於給定的𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤)，詞𝑤為一個正樣本(Positive Sample)，而其它為負樣本 (Negative Sample)。而給定一個詞𝑤的負樣本子集𝑁𝐸𝐺(𝑤) ≠ ∅且∀ 𝑤 ̃ ∈ 𝑉，定義為公式(4.14)，以表示詞𝑤 ̃的標籤，正樣本標籤為 1，負樣本標籤則為 0。 1, 𝐿𝑤 (𝑤 ̃) = { 0,. 𝑤 ̃ =𝑤 𝑤 ̃ ≠𝑤. (4-10). 對於給定的該詞𝑤與其上下文𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤)，最大化公式如式(4-11)所示： 𝑔(𝑤) =. ∏. 𝑝(𝑢|𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤)). (4-11). 𝑢∈{𝑤}∪𝑁𝐸𝐺(𝑤). 其中 𝑝(𝑢|𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤)) = {. 𝑇 𝑢 ), 𝜎(𝑥𝑤 𝜃 𝐿𝑤 (𝑢) = 1 𝑇 𝑢 ), 1 − 𝜎(𝑥𝑤 𝜃 𝐿𝑤 (𝑢) = 0. (4-12). 整體表示式可以表示為： 𝑤 (𝑢). 𝑇 𝑢 )]𝐿 𝑝(𝑢|𝐶𝑜𝑛𝑡𝑒𝑥𝑡(𝑤)) = [𝜎(𝑥𝑤 𝜃. 43. 𝑤 (𝑢). 𝑇 𝑢 )]1−𝐿 ∙ [1 − 𝜎(𝑥𝑤 𝜃. (4-13).

(56) 4.6 分散式儲存模型. 圖 4.6 分散式儲存模型架構圖 2014 年 Mikolov[46]等人延續連續型詞袋模型(CBOW)以及跳躍式模型 (Skip-gram)提出分散式儲存模型(Distributed Memory Model of Paragraph Vector, PV-DM)，此模型將在同一段落內的詞進行訓練。圖 4.6 為 PV-DM 之架構圖，在此架構下每個段落都會對應到一個唯一的段落向量(Paragraph Vector)。段落向量可以用來儲存分類與關於該段落的相關資訊。在此架構中所謂的段落是指可以為任意長度的文字。分散式儲存模型與連續型詞袋模型類似，同樣以最大化目標中間詞輸出的機率為目標，其主要不同之處是在訓練的過程中於輸入層額外加入一個語句的段落編號(Paragraph ID)。並將詞向量與段落向量串聯作為輸出層軟式最大化法 (Softmax)的輸入。在一個語句或是文件的訓練過程中，段落編號會保持不變，共 44.

(57) 享相同的段落向量，相當於每次在預測一個詞的機率時，皆利用了整個語句的語意。而在預測階段時，給予待預測的語句分配一個新的段落編號，保持詞向量與輸出層軟式最大化法於訓練階段所得的參數，重新利用隨機梯度法訓練待預測語句，收斂完畢後，即得到待預測語句的段落向量。. 4.7 分散式詞袋模型. 圖 4.7 分散式詞袋模型架構圖分散式儲存模型(PV-DM)是採用詞向量與段落向量的平均或是串聯，進行預測下一個詞。而分散式詞袋模型(Distributed Bag-of-Words of Paragraph Vector, PV-DBOW)是將段落向量與詞向量一起用來預測下一個詞。如果單獨使用段落向量去預測其效用就會類似 Skip-gram，亦即段落向量用來預測一段文字視窗可能出現的詞。. 45.

(58) 第五章. 結合詞向量表示與概念資訊應用於語言模型. 5.1 將詞向量應用於語言模型如前所述，傳統的 One-hot Representation，每個詞都以一個很大維度的 0 - 1 向量表示，是以稀疏方式的方式儲存，並假設每個詞與詞之間彼此獨立毫無關聯。相較於 One-hot Representation，詞向量表示法(Word Representation)是將每個詞以連續分佈向量來表示，不僅能減少每個詞向量的維度大小以降低其計算上的複雜度，還可以藉由向量間的運算找出詞與詞之間的相似程度或是語義關係。基於上述比較，本論文嘗試將詞向量表示法應用於語言模型中，期望能在語音辨識的過程中藉由獲取詞彙與詞彙之間彼此的相似度或是語意上的關係，達到提升語音辨識的準確率的效果。本論文將詞向量表示法分別應用於語言模型中的兩個不同部分，分別為：將詞向量表示應用於詞圖搜尋之中，以及將詞向量表示融入群聚式概念語言模型中。. 46.

(59) 5.2 將詞向量表示應用於詞圖搜尋在語音辨識的過程中，每個音框會記錄語言模型的歷史詞序列、候選詞對應的開始與結束的音框、以及搜尋時聲學模型的解碼分數，來建立詞圖(Word Graph)，並在詞圖上使用三連詞(Trigram)或四連詞(Fourgram)等類似語言模型，在重新進行一次詞圖動態規劃搜尋(Word Graph Rescoring)中，找出一條最佳的辨識詞序列，如圖 5.1 所示。. 圖 5.1 詞圖搜尋示意圖詞圖是由詞彙樹複製搜尋過後所建立的圖，而詞圖中的每個分支(Arc)表示經過裁剪過後所保留的詞段，每個詞段會記錄其聲學分數。接著針對每個詞段進行維特比(Viterbi)搜尋，並記錄與每個詞段相連且最有可能的下一個詞段(亦即前詞段之結束時間與下一詞段的開始時間相同並且維特比分數為最高者) 。然而從詞圖中所保留的詞段，在聲學模型中大多為同音異字或是混淆的，所以需要透過語言模型的輔助。 47.

(60) 在詞圖搜尋時，給定歷史詞序列𝐻𝑖 下預測當前詞𝑤𝑖 的機率可以由下式表示: 𝑃(𝑤𝑖 |𝐻𝑖 ) = ∑ 𝛼𝑗 𝑃(𝑤𝑖 |𝑤𝑗 ) 𝑤𝑗 ∈𝐻𝑗. (5-1). 在此加入參數 𝛼𝑗 ，並且假設參數𝛼1 , 𝛼2 , … , 𝛼𝑗 加總為 1，使距離詞 𝑤𝑖 越近的詞給予較大權重，亦即在歷史詞序列中越靠近當前詞 𝑤 𝑖 的詞越重要。𝑃(𝑤𝑖 |𝑤𝑗 )表示在給定歷史詞序列 𝐻𝑖 中詞 𝑤𝑗 下預測當前詞 𝑤𝑖 的機率，可以由(5-2)式得到: 𝑃(𝑤𝑖 |𝑤𝑚 ) =. ⃗⃗⃗⃗𝑖 ∙ ⃗⃗⃗⃗⃗⃗⃗⃗ 𝑤𝑚 𝑒𝑤 ⃗⃗⃗ 𝑤𝑖 ∙𝑊 ∑𝑊∈𝑉 𝑒 ⃗⃗⃗⃗. (5-2). 其中 ⃗⃗⃗⃗ 𝑤𝑖 為當前詞 𝑤𝑖 的詞向量表示，⃗⃗⃗⃗⃗⃗⃗ 𝑤𝑚 為詞圖中的候選詞 𝑤𝑚 的詞向量表示，而 𝑊 為對於詞 𝑤𝑖 的所有候選詞集合，最後透過 Softmax 函數將其轉換為機率的方式表示。. 48.

(61) 5.3 結合詞向量表示與群聚概念資訊於語言模型本論文將詞向量表示法融入群聚式概念語言模型中，首先將在調適語料文件集內之文件由一組概念類別 C 來表示，以群聚之間的相似度近似語句概念表達的涵義，做法如式(5-3)所示: PC. C L-1M( wi. | H i ,W ) . CC P( wi , H i | C ) P(C | W ) CC P( H i | C ) P(C  | W ). P( wi | C )lLi 1 P(hl | C ) P(C | W )   CC CC lLi1 P(hl | C ) P(C  | W ). (5-3). 其中 W 代表語者所講語句欲表達的語言資訊，在此以語音辨識初步所產生的詞圖(Word Graph)來近似。本論文在調適語料中以句子的層次做模型訓練資料選取之依據，去掉多餘且不相關的資訊，使得經由調適語料中訓練出的概念類別更為具代表性。𝑃(𝐶|𝑊)是透過語言資訊 W 與每一個概念類別 C ，以詞向量表示 (Word embedding)的方式，先將詞轉換成向量的形式，接著計算其餘弦相似度而得。其中詞向量表示是由連續型模型(Continue Bag-of-Words Model)或是跳躍式模型(Skip-gram Model)生成。𝑃(𝑤𝑖 |𝐶)表示概念類別 C 預測詞彙 wi 的單連語言模型機率，可以透過最大化相似機率估測而得。. 49.

(62) 第六章. 實驗架構與結果討論. 6.1 實驗架構. 6.1.1. 臺師大大詞彙連續語音辨識系統. 本節將先介紹國立台灣師範大學語音實驗室所發展的語音辨識系統，包含前端特徵擷取、聲學模型、辭典建立、詞彙樹複製與搜尋方式以及詞圖搜尋與 N 條(N-Best)最佳結果之產生。接著說明本實驗的評估方式：語言複雜度以及語音辨識錯誤率。最後介紹本論文使用於訓練與測試時的語音語料。. 6.1.1.1. 特徵擷取. 在語音特徵擷取部分，本系統以梅爾濾波器組(Mel-frequency Filter Bank)輸出為基礎，使用異質性線性鑑別分析(Heteroscedastic Linear Discriminant Analysis, HLDA)結合最大化相似度線性轉換(Maximum Likelihood Linear Transformation, MLLT)兩種不同語音特徵參數，獲得 39 維語音特徵向量，最後使用倒頻譜平均與變異數正規化技術(Cepstral Mean and Variance Normalization, CMVN)進行正規化。. 6.1.1.2. 聲學模型. 在聲學模型部分，由於考慮中文語音結構，因此分別為聲母建立 INITIAL 50.

(63) 模型、為韻母建立 FINAL 模型以及一個靜音(Silence)模型。其中 INITIAL 模型包含 22 種，FINAL 模型包含 38 種。每個中文的音節皆是由一個 INITIAL 以及 FINAL 模型組成，其中聲母會受到右邊相連的韻母而影響其發音特性，所以進一步將 INITIAL 模型細分為 112 種，亦即右相關聯模型(Right-Context-Dependent Model, RCD Model)，這些聲母及韻母共組合成 403 個不同的基本音節(Base Syllables) 。最後總共使用 151 個隱藏式馬可夫模型(Hidden Markov Models)做為聲學模型，其中每個模型有 3 至 6 個狀態(State)，每個狀態由 1 至 128 個高斯分佈組成。聲學模型先經由最大化相似度估測(Maximum Likelihood Estimation, MLE )訓練得到，再透過最小化音素錯誤(Minimum Phone Error, MPE)[62]訓練，期望獲得最佳化聲學模型參數。. 6.1.1.3. 詞典建立. 由於中文約有 7,000 多個單字詞(Character, Char)，藉由合併不同的單字詞可以產生複合詞彙(Compound Words, Word)。本系統根據單字詞在語料中的統計特性，以自動化方式產生新的複合詞。在語料中任意相鄰的兩個詞，分別計算其前向二連(Forward Bigram)機率以及後向二連(Backward Bigram)機率，再計算前後向二連的幾何平均作為判斷詞與詞之間是否合併的依據。接著將文字語料從一個包含約六萬六千個一至四字詞的辭典進行斷詞，再利用上述計算方式，經過多次迭代和不同門檻值(Thresholds)設定，產生約五千多個二至十字詞的複合詞。最 51.