運用鄰近與概念資訊於語言模型調適之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：陳柏琳. 博士. 運用鄰近與概念資訊於語言模型調適之研究 Leveraging Proximity Cues and Concept Information for Language Model Adaptation in Speech Recognition. 研究生：郝柏翰. 中華民國. 一百 O 三. 撰. 年. 一. 月.

(2) 摘要本論文研究語言模型調適技術用於中文大詞彙連續語音辨識，其主要貢獻有兩個部分：第一部分探討主題模型(Topic Models)之延伸與改進，除了希望能放寬詞袋假設的限制之外，更藉由融入鄰近資訊(Proximity Information)期望使主題模型有更好的預測效能；第二部分提出概念模型(Concept Language Model, CLM)，其主要目的為近似使用者心中所想之概念，並藉此觀察較為相關之用詞；同時，本論文更嘗試以不同方式來估測概念模型。本論文實驗以字錯誤率(Character Error Rate, CER)與語言複雜度(Perplexity)為評估依據；結果顯示本論文所提出方法對辨識效能之提升有明顯的幫助。. 關鍵詞：語音辨識、語言模型、鄰近資訊、概念資訊.

(3) Abstract This thesis investigates and develops language model adaptation techniques for Mandarin large vocabulary continuous speech recognition (LVCSR) and its main contribution is two-fold. First, the so-called “bag-of-words” assumption of conventional topic models is relaxed by additionally incorporating word proximity cues into the model formulation. By doing so, the resulting topic models can achieve better prediction capabilities for use in LVCSR. Second, we propose a novel concept language modeling (CLM) approach to rendering the relationships between a search history and an upcoming word. The instantiations of CLM can be constructed with different levels of lexical granularities, such as words and document clusters. A series of experiments on a LVCSR task demonstrate that our proposed language models can offer substantial improvements over the baseline N-gram system, and achieve performance competitive to, or better than, some state-of-the-art language models.. Keywords: Automatic Speech Recognition, Language Modeling, Proximity Cues, Concept Information.

(4) 誌謝兩年多的時間轉眼間就過了，充實的碩士生活也就到這邊告一段落。在這段日子之中有喜悅有惆悵有歡笑有眼淚，點點滴滴造就了今日以及未來的我，與當年剛踏入語音實驗室的時候相比，在知識以及心態方面應該都有明顯的不同吧？至少我是這麼認為的。首先，非常感謝家人對我的支持，有你們的陪伴，讓我可以無後顧之憂的做自己的安排、做我想做的事，也謝謝你們對我的包容與體諒，在我遭遇到挫折的時候給我足夠的空間與支持讓我繼續前進。特別感謝的是我的指導教授─陳柏琳教授。謝謝老師耐心且細心的教導，面對我的不足之處總是不厭其煩地細細提點，也謝謝老師給了許多的機會，除了鼓勵我們參加研討會之外，甚至讓我們出國去參加會議，也因此了解到老師口中所提到頂尖學者的研究精神，也讓我們感受到自己的渺小。跟老師相處的這些日子，從老師身上學到很多東西，往後學生也將應用在老師身上所學的知識與態度，向老師看齊。謝謝參與畢業口試的王新民老師、洪志偉老師與曹昱老師，感謝老師們認真的審視我的論文，也提出了許多的建議與指導，讓學生的首部著作更加的完善。謝謝實驗室的各位夥伴，感謝冠宇學長每個禮拜不懼風雨的與我們討論並耐心的分享學習的經驗。謝謝阿邦學長、金毛學長、予真學姊和憶文學姊，有你們的帶領也讓我的研究之路走得更加有信心。也感謝我的研究所好夥伴，孝宗、俊諭、逸婷和黃威，我們一起互勉互勵一起討論一起玩樂，並建立了深厚的情感。謝謝大家。. 柏翰僅誌.

(5) 目錄第 1 章、. 緒論......................................................................................................... 1. 1.1、研究背景 ........................................................................................................ 1 1.2、語音辨識簡介 ................................................................................................ 2 1.3、語言模型簡介 ................................................................................................ 3 1.4、語言模型研究 ................................................................................................ 3 1.5、研究動機與目的 ............................................................................................ 6 1.6、論文貢獻 ........................................................................................................ 7 1.7、論文章節安排 ................................................................................................ 8 第 2 章、文獻分析與探討............................................................................................. 9 2.1、語言模型調適 ................................................................................................ 9 2.2、語言模型演進 .............................................................................................. 10 2.3、 N 連語言模型(N-gram Language Model) ................................................... 13 2.4、潛藏語意分析(Latent Semantic Analysis, LSA) ......................................... 14 2.5、機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA) ..... 15 2.5.1、. 近年所提出雙連機率式潛藏語意分析模型之比較........................... 16. 2.6、關聯模型(Relevance Model, RM) ............................................................... 18 2.6.1、. 鄰近關聯模型(Proximity Relevance Model, PRM) ............................ 20. 2.7、鑑別式語言模型(Discriminative Language Models, DLM) ....................... 21 2.8、類神經網路語言模型(Neural Network Language Model, NNLM) ............ 22 2.9、遞迴式類神經網路語言模型(Recurrent NNLM, RNNLM) ....................... 24 第 3 章、應用鄰近於概念資訊於語言模型............................................................... 25 3.1、鄰近資訊用於主題模型及關聯模型之研究 .............................................. 25 3.1.1、. 鄰近資訊介紹....................................................................................... 26 i.

(6) 3.1.2、. 鄰近雙連機率式潛藏語意分析(Proximity Bigram-PLSA, PBPLSA)介. 紹. 26. 3.2、概念語言模型(Concept Language Model, CLM) ....................................... 28 3.2.1、. 以詞角度建立概念語言模型(Word-based CLM, WCLM) ................ 28. 3.2.2、. 以群聚角度建立概念語言模型(Cluster-based CLM, CCLM) ........... 32. 3.2.3、. 概念模型與關聯模型之比較............................................................... 34. 第 4 章、實驗架構與結果討論................................................................................... 36 4.1、實驗設定 ...................................................................................................... 36 4.1.1、. 臺師大大詞彙連續語音辨識系統....................................................... 36. 4.1.2、. 實驗語料............................................................................................... 39. 4.1.3、. 語言模型評估....................................................................................... 40. 4.2、基礎實驗結果 .............................................................................................. 42 4.3、鄰近資訊用於主題模型比較 ...................................................................... 46 4.4、概念語言模型用於語音辨識之實驗 .......................................................... 47 4.4.1、. 詞概念模型(Word-based Concept Language Model, WCLM) ........... 47. 4.4.2、. 群聚概念模型(Cluster-based Concept Language Model, CCLM) ...... 48. 4.5、各式語言模型比較 ...................................................................................... 53 第 5 章、結論以及未來展望....................................................................................... 54 參考文獻....................................................................................................................... 56. ii.

(7) 圖目錄圖一、語音辨識流程圖................................................................................................. 2 圖二、語言模型研究分類示意圖................................................................................. 3 圖三、語言模型調適架構圖......................................................................................... 9 圖四、語言模型演進................................................................................................... 12 圖五、LSA 示意圖 ...................................................................................................... 14 圖六、機率式潛藏語意分析之圖形表示法............................................................... 15 圖七、關聯模型示意圖............................................................................................... 18 圖八、鄰近資訊示意圖............................................................................................... 20 圖九、全部語句平均排名與字正確率關聯圖........................................................... 21 圖十、某一語句排名與字正確率關聯圖................................................................... 21 圖十一、類神經網路語言模型架構........................................................................... 22 圖十二、遞迴式類神經網路語言模型架構............................................................... 24 圖十三、利用移動框探索鄰近資訊示意圖............................................................... 25 圖十四、概念模型示意圖........................................................................................... 28 圖十五、詞概念語言模型流程圖............................................................................... 30 圖十六、群聚概念語言模型示意圖........................................................................... 32 圖十七、潛藏主題角度概念模型示意圖................................................................... 33 圖十八、詞圖搜尋示意圖........................................................................................... 38 圖十九、鄰近資訊用於關聯及主題模型於測試集之字錯誤率比較圖................... 46 圖二十、詞關聯模型建立方式於發展集之字錯誤率比較圖................................... 47 iii.

(8) 圖二十一、延伸至多連詞資訊群聚概念模型於發展集之字錯誤率比較圖........... 49 圖二十二、探討歷史詞長度於群聚概念語言模型(以|C|=8 為例)之字錯誤率於發展集比較圖....................................................................................................................... 51 圖二十三、各式語言模型之字錯誤率測試集比較圖............................................... 53. iv.

(9) 表目錄表一、雙連機率式潛藏語意分析之複雜度比較....................................................... 17 表二、概念關鍵詞挑選結果範例............................................................................... 31 表三、關聯模型與概念模型比較表........................................................................... 34 表四、實驗語料統計資訊表....................................................................................... 39 表五、基礎實驗之字辨識率結果比較表................................................................... 42 表六、基礎實驗之語言複雜度結果比較表............................................................... 42 表七、機率式潛藏語意分析之語言複雜度比較表................................................... 43 表八、機率式潛藏語意分析之字錯誤率比較表....................................................... 43 表九、關聯模型之語言複雜度比較表....................................................................... 44 表十、關聯模型之字錯誤率比較表........................................................................... 44 表十一、遞迴式類神經網路語言模型之字錯誤率比較表....................................... 45 表十二、遞迴式類神經網路語言模型之語言複雜度比較表................................... 45 表十三、實驗不同移動窗於鄰近資訊於發展集之字錯誤率比較表....................... 46 表十四、詞概念模型於測試集之字錯誤率實驗結果............................................... 47 表十五、探討群聚概念語言模型中群聚個數於發展集之字錯誤率比較表........... 48 表十六、延伸至多連詞資訊群聚概念模型於發展集之語言複雜度比較............... 49 表十七、群聚概念模型之語言複雜度於測試集實驗結果....................................... 50 表十八、群聚概念模型之字錯誤率於測試集之實驗結果....................................... 50 表十九、主題估測於群聚概念模型之字錯誤率於發展集比較表........................... 51. v.

(10) 第1章、緒論. 1.1、研究背景電腦的發明無疑是近年來最重要且最具有影響力的事件，電腦強大的運算處理功能成為了科技發展重要的利器，也漸漸在人們的生活中擁有了不可或缺的地位。但人類與電腦之間的溝通仍然存在著難以跨越的障礙，儘管電腦的使用已經從原本艱澀難懂的指令模式 (Command-based) 進步成容易理解的圖形介面模式 (Graphic User Interface, GUI)，但我們並不滿足，希望能以通俗使用的「語言」與電腦溝通，因此有了計算語言學(Computational Linguistics)的發展。計算語言學是一門跨領域的學問，其最終目的是為了能讓電腦像人類般分析、理解和處理自然語言，是涵蓋了語言學、數學與邏輯學等等概念的綜合科學。計算語言學涵蓋範圍的非常廣泛，包括自動語音辨識 (Automatic Speech Recognition, ASR)、語音合成(Speech Synthesis)、語者辨識(Speaker Recognition) 和語言辨識(Language Identification)等主題。以上述技術為基石，更發展了電腦輔助語言學習(Computer Assisted Language Learning, CALL)與電腦輔助發音訓練 (Computer Assisted Pronunciation Training, CAPT)等研究，以自動語音辨識結果的回饋，輔助使用者的學習過程。而自動語音辨識相關研究也常與其他領域結合，如資訊檢索(Information Retrieval)[1]、機器翻譯(Machine Translation, MT)[2]或自然語言處理(Nature Language Processing, NLP)[3]等。由此可知，自動語音辨識與許多領域息息相關，而自動語音辨識的成熟與正確率的提升也是使上述研究能更進一步的關鍵所在。. 1.

(11) 1.2、語音辨識簡介要想要解決語音辨識的問題，我們可以先探討人類是如何接受聲音，進而做出理解與反應。人類在聽到聲音之後，會根據聲音的特性去分析，包含音高、音調、響度及音長，再藉由大腦所學習的記憶來辨別聲音所帶來的資訊，進而做出理解與反應；而當今的語音辨識流程也類似於上述人類的聽覺感受過程。如圖一所示，現今自動語音辨識系統最主要可以分成四個部分[1]，分別是特. 圖一、語音辨識流程圖徵擷取(Feature Extraction)、聲學模型(Acoustic Model)、語言模型(Language Model) 與語言解碼(Linguistic Decoding)。當電腦接受到一段語音訊號，首先透過特徵擷取來處理語音訊號，得到可以代表此段語音訊號的特徵參數；接著，將所擷取的特徵參數轉換成語音特徵向量，以利語音辨識系統使用或分析。另一部分，則使用語音語料和文字語料分別建構出聲學模型和語言模型，用以表示語音與文字之間的對應關係以及代表語言中各種詞彙的出現情形。再根據聲學模型、語言模型、詞典和特徵向量所提供的資訊以進行語言解碼，獲得最後辨識結果。而本論文主要探討語言模型之改進，在以下章節之中將為大家簡短地介紹語言模型之概念。. 2.

(12) 1.3、語言模型簡介語言模型最主要的目的則是為了獲取語言的特性。因此語言模型也經常被應用在許多自然語言處理[2]之相關領域中，例如機械翻譯[3]、資訊檢索[4]以及上述提到之語音辨識領域中。在上節敘述中提到，語音辨識主要是由聲學模型以及語言模型兩個部分所組成，然而由於聲學模型經常因為發音混淆以及同音異字等等不同的問題導致辨識錯誤情況的發生，因此語言模型在此時能另外以文字的角度觀察辨識詞發生之合理性，並藉以彌補聲學模型所造成的辨識誤差。語言模型欲描述之問題看似簡單，卻蘊含著許多複雜的學問，將其應用於語音辨識領域也有數十年之歷史與研究成果。因此，本論文在下一節之中將以近年提出有關語言模型之研究為例，將語言模型用於語音辨識之研究簡單分為三個面向作介紹。. 1.4、語言模型研究. 圖二、語言模型研究分類示意圖. 語言模型除了可以應用在多種不同的領域之外，其研究面向也可說是五花八門、錯綜複雜，雖然語言模型的最終目的都是為了去獲取語言的特性，然而根據其應 3.

(13) 用方式與其觀察角度的差異而有多種不同面向的研究探討。本節以近年提出有關語言模型之研究為例，介紹語言模型的研究的不同。由於語言的產生千變萬化並且隨著時間的演進有所不同，就此種角度而言，我們可以將語言序列視為一連串連續的訊號(特別是中文或日文等語言，並不像英文在詞與詞之間以一個空白字元做為區隔)。因此，在探討語言模型問題之前，我們首先會將語句經過“斷詞處理”，將一串連續的文字序列切割成若干個“詞”，透過一個個完整的詞重新描述語句原來的含意，此項處理將有利於統計以及後續之運算操作。而目前國內也發展了許多斷詞系統，如中央研究院所中文詞知識庫小組開發的 CKIP (Chinese Knowledge Information Processing)線上斷詞系統[5]，更融入了自然語言處理技術，達到更準確的判斷結果。然而，大多數的語言模型，假設語言中的詞彙數是固定且有限的並將其蒐集成詞典，此種假設雖然為語言模型的探討帶來了便利性，卻也因詞典的固定以及侷限衍生了許多問題。猶如先前的介紹，語言的產生隨著時空環境的不同而有所差異，例如專有名詞、人名與新興話題等等，此類不存在於詞典的詞，在預測時將會造成一定程度的誤差。為了觀察此種誤差對語音辨識所造成的影響程度，有許多學者投入探討此類問題。例如，Andr´e Mansikkaniemi 等學者[6]在 2013 年所發表的文章，專注討論外國人名(Foreign Entity Names, FENs)之辨識錯誤率，並藉由語言模型調適的方式降低外國人名之辨識誤差，並探討此類錯誤對整體語音辨識影響之重要程度。另外，Michał Kozielski 等學者[7]也研究了開放性詞典之問題，利用權重式有限狀態機偵測並辨識未出現在詞典之中的詞，並應用在手寫辨識系統之中。綜觀語言模型的建立，本論文粗略地將其目的分為兩種資訊的獲取。其一為詞規律資訊(Word-Regularity-based Information)，另外一個則為歷史詞序列相關資訊 (History-Dependency-based Information)。詞規律資訊是指在語言之中詞與詞之間經常共同或以某一種固定順序出現，我們將 N 連語言模型視為估測詞規律資訊 4.

(14) 的代表之一；歷史詞序列相關資訊則是指，預測詞(Upcoming Word)與歷史詞序列 (History Sequence)之間存在著某種特定的關係或者共同的特徵，而擷取這種關係或者是特徵的表示將有助於語言模型的建立，例如主題模型(Topic Model)認為歷史詞序列與預測詞之間有相同之主題分佈，並利用此分佈達到預測及鑑別之效果，為利用歷史詞序列相關資訊之代表。另外一方面，由於近年來網際網路的發達，線上資源可謂取之不盡，用之不竭，因此許多研究也應運而生。值得一提的是，在 2012 年 Ciprian Chelba 等學者 [8]在 Google 的研究報告中指出，在巨量資料下傳統且簡單的 N 連語言模型將會有更加精確的表現。此項發現也影響了學者們研究語言模型之觀點，使後續研究紛紛朝向大量資料的方向前進，而近年來「大量資料」和「高速計算」的快速發展則為造成此項趨勢的主因。除此之外，由於社群網站的興起，更有學者利用其特性蒐集個人化的資料，例如在 2013 年，T.-H. Wen 等學者[9]利用 Facebook 以及 Plurk 等社群網站媒介，蒐集與使用者相近之文字語料，並以遞迴式類神經網路訓練出個人化語言模型應用於語音辨識之任務中，亦有相當的成效。根據上述的討論，本論文粗略的將語言模型的研究以三個 E 來表示，分別為語言編碼(Encoding)、模型建立(Establishment)以及方法延伸(Extension)。語言編碼(Encoding)是將語言轉化為機器能夠理解的資訊，也可以說是前處理步驟；模型建立(Establishment)代表著以資訊獲取的概念對語言的理解，進而建立語言模型；方法延伸(Extension)則為利用額外資料使語言模型最適化以及相關之分析討論，本論文將語言模型調適亦歸納為方法延伸之範疇。. 5.

(15) 1.5、研究動機與目的根據上述的討論，我們將主題模型(Topic Models)總結為是以獲取「歷史詞序列相關資訊」為目的而建立之模型，然而大多數主題模型建立時忽略了詞出現的先後順序，也就是所謂的詞袋假設(Bag-of-Words Assumption)。而建立此假設上之模型也較難以描述在語音辨識任務中也相對重要之「詞規律資訊」。因此，本論文以研究語言模型調適技術出發，第一部分主要改進受限於詞袋假設之主題模型，並嘗試利用詞與詞之間的鄰近關係所建立之鄰近資訊以及藉由融入雙連詞資訊等等方式，嘗試獲取在主題模型中較難以描述之「詞規律資訊」，希望藉此模型能以更加完整的資訊描述歷史詞與預測詞之間的關聯，進而增進語音辨識效能。第二部分本論文提出關聯模型(Concept Language Model, CLM)，嘗試以另一角度觀察語言模型之問題。主要目的則是以近似使用者心中所想之概念，並藉此觀察較為相關之用詞，由於使用者心中之概念為難以描述之抽象想法，因此本論文嘗試以多種不同角度近似此抽象概念。. 6.

(16) 1.6、論文貢獻本論文研究語言模型調適技術用於中文大詞彙連續語音辨識，其主要貢獻有兩個部分： (一)、. 近年來學者放寬主題模型中的詞袋假設，改以雙連詞資訊描述主題分佈，對語音辨識有相當的幫助。因此本論文亦將嘗試把詞彙之間的相鄰資訊融入於主題模型之中，並進行相關比較與討論。. (二)、. 本論文另外提出概念模型，並藉由詞角度與群聚角度詮釋概念模型中歷史詞序列與預估詞的共同關係，更針對詞角度比較各種關鍵詞挑選方法，以及針對群聚角度提出不同的估測方式，並將其應用於語音辨識領域之中。. 7.

(17) 1.7、論文章節安排第二章為文獻分析與探討，在第二章之中會介紹語言模型調適概念以及語言模型演進，更進一步的簡述常見之語言模型，如：N 連語言模型、主題模型、鑑別式語言模型與類神經網路語言模型理論的相關想法以及進展。第三章將介紹本論文提出於語言模型調適架構下之改進方法，主要分為兩個部分：其一、探討鄰近資訊用於雙連機率式潛藏語意分析(Bigram Probabilistic Latent Semantic Analysis, Bigram-PLSA)之改進，並與現有鄰近關聯語言模型(Proximity Relevance Model, PRM)比較；其二、提出概念模型(Concept Model)、並以關鍵詞以及群聚方式描述概念模型，並探討其差異。第四章則為本論文在大詞彙連續語音辨識任務上一系列的實驗結果與討論，並以字錯誤率以及語言複雜度為評估標準。第五章則為結論以及未來展望。. 8.

(18) 第 2 章、文獻分析與探討以下將介紹語言模型調適以及近年來的語言模型演進，並且簡介數種常見的語言模型。. 2.1、語言模型調適. 圖三、語言模型調適架構圖語言模型最主要的目的則是企圖擷取語言的特性，並進一步達到預測下一個詞的目的。在語音辨識之中，通常會收集一組較大的背景語料(Background Text Corpus) 訓練背景語言模型(Background Language Model)。在概念上，背景模型嘗試獲取文字的基本規律，藉此描述語言中約定成俗的詞彙用法 (Word-usage Information)，並利用大量蒐集的統計資料去消弭因為個人說話習慣差異所造成的語者相依，甚至是地區相依的誤差。因此，此模型具有較廣泛的預測能力。然而在實際使用上，語言經常因為地域、時空的不同導致慣用詞彙或者語法結構的差異。為了彌補這樣的差異，我們另外蒐集一份與測試語料(Test Corpus) 高度相關的文件集，此文件集亦稱為調適語料(Adaptation Corpus)，將此語料訓練而得到調適語言模型(Adapted. Language Model)，再利用模型補插法等方式. [10]，將調適模型與背景模型結合，進而獲得更符合當前使用情況的語言模型。而此種方式稱為語言模型調適(Language Model Adaptation)[11, 12]。 9.

(19) 2.2、語言模型演進語言模型的研究最早可以追溯到 Claude Elwood Shannon 在資訊理論中所研究的主題：在給定一個字母序列下，最有可能出現的字母為何？此問題可應用馬可夫假設，即假設字母的出現只與最後 N-1 個字母有關，並經由統計訓練資料的方式獲得字母排列組合的機率分佈。爾後此方法衍伸以詞為單位，即為著名的 N 連詞語言模型(N-gram Language Model)，應用在資訊檢索、自然語言處理和語言模型等許多應用之中。儘管 N 連語言模型已廣泛被應用至許多領域之中，但仍遭遇訓練與測試資料不匹配、缺乏長距離資訊(Insufficient Long-Distance Regularity)[13] 與資料稀疏(Data Sparseness)[14, 15]之問題。許多學者為了改善 N 連語言模型的資料稀疏缺點，提出了許多平滑化之方法，例如 Good-Turing 估算法[16]與 Kneser-Ney 退回式平滑化法[17]等。除了語言模型平滑化技術之外，在 1992 年 Brown 提出了類別 N 連語言模型 (Class-based N-gram Model)[18]，此方法的主要概念為假設所有詞都能夠對應至其歸屬的詞類別，而同一個類別內的詞具有相近的概念，可以解釋成在語法表示內具有相同的腳色甚至是在語意表達中具有相似的描述。而在 1993 年，為了解決 N 連語言模型詞序列組合資料稀疏的問題，有所謂的略詞模型(Skipping Language Model)[19]被提出，略詞模型放鬆蒐集詞對時緊密相鄰的限制，在統計訓練語料時允許將 N-1 個詞中的某個詞省略或者替換掉。除了能夠舒緩資料稀疏的問題之外，也有過濾功能詞的效果。而略詞模型有許多不同的變形，甚至本論文應用之鄰近資訊也與略詞模型有相同的概念。除了單純統計詞對出現次數之外，在 1993 年 Lau 與 Rosenfeld 更提出觸發對語言模型(Trigger-based Language Model)[20]，以最大化隨機變數之熵值為目標，即希望在訓練語料中未出現的 N 連詞機率能夠越相近越好。且 1994 年 Rosenfeld 所提出之最大熵值法(Maximum Entropy)也為此精神為主。. 10.

(20) 在 1997 年，Chelba 提出了結構化模型[21, 22]，並利用文法解析器(Parser)，將候選句 (Hypotheses) 或歷史詞序列解析成文法樹，再利用解析出來的 POS-tag(Part-of-Speech Tag)、中心詞(Head Word)與詞序列一起考慮建立機率模型，並估測下一個預測詞的機率值。另外，在 1997 年由 Bellegarda 提出潛藏語意分析(Latent Semantic Analysis, LSA)[23]運用於語音辨識的研究，潛藏語意分析主要利用奇異值分解(Singular Value Decomposition, SVD)技術，將文件與詞投影至一個低維度空間，並且在此語意空間內描述文件與詞之間的關係。然而在 1999 年，Hofmann 提出了機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)[24]。相較於潛藏語意分析，機率式潛藏語意分析使用較具彈性的機率理論建立模型，避免了奇異值分解後可能有負值使得語意無法定義的問題。在 2000 年時，Chen 等人[26]提出了使用鑑別式訓練於語言模型上，其概念是以最小化辨識錯誤率為訓練目的，並期望藉此訓練可以獲得一組特徵權重，使用於語音辨識系統上時，能讓辨識錯誤率最低的語言模型。近年來多位學者紛紛投入探討類神經網路用於語言模型研究之中[27, 28, 29]，其主要概念是藉由模仿神經元(Neuron)的運作模式，模擬人腦內的學習與運算過程之效果。其歷史可追溯 1943 年心理學家 McCulloch 與 Pitts 所提出之閾值邏輯單元(Threshold Logic Unit, TLU)。在 1990 年代許多學者將其利用至文字處理領域之中。2000 年，Xu 和 Rudnicky 比較了類神經網路語言模型和傳統 N 連語言模型，實驗結果顯示類神經網路的相較於傳統 N 連有較高的學習能力，除此之外，更因為類神經網路的架構將原本離散型的統計結果轉化為連續型的表達方式，以達到平滑化之效果。另外，在 2010 年 Mikolov[27]將語言模型與遞迴式類神經網路結合，藉由遞迴式的架構學習長距離資訊之影響，並引入類別層大幅降低其計算複雜度，為近年語言模型之重要發展之一。. 11.

(21) 由於遞迴式類神經網路語言模型之成功，近年來針對類神經網路語言模型的研究可謂百花齊放，其研究主要針對兩個大方向：其一，針對類神經網路之架構進行改進，例如近年頗受注目之深層類神經網路語言模型[30]與藉由模擬長短期記憶而發展而得的長短期記憶類神經網路語言模型；其二，由於類神經網路架構之所花費之計算複雜度相當的高，也有部分學者針對其學習演算法進行改進 [32]，希望能在不影響其效能的情況下獲得更快速的學習速度。. 圖四、語言模型演進. 12.

(22) 2.3、 N 連語言模型(N-gram Language Model) N 連語言模型的定義是希望能找出一串詞序列 w1...wL 的發生機率， P(w1...wL ) ，更簡單的來說它是根據前 L-1 個歷史詞序列來預測第 L 個詞所發生的機率，可拆解成一連串條件機率的連乘積，如下式： L. Pw1,, wL    Pwl | w1,, wl 1 . (1). l 1. 由於詞序列的組合個數相當的多，依照詞序列的長度使參數增加，更讓計算 N 連語言模型時間及空間複雜度有指數性的成長，稱之為維度詛咒。為了避免維度詛咒的問題，藉由馬可夫假設，假設每一個出現詞只會與其前 N-1 個詞有關，進而降低模型之運算複雜度，並限制 N 之大小(通常為 2 或 3)，如下式： L. L. l 1. l 1.  Pwl | w1,, wl1    Pwl | wlN 1,, wl1 . (2). N 連語言模型限制了 N 的大小，因此模型僅能擷取短距離的詞彙規則資訊，無法考慮長距離的語句或篇章資訊，造成資訊的損失進而影響整體的效能。另外一方面也會因訓練及測試資料的不匹配而影響語言模型之效能。N 連語言模型，也會因為訓練資料不足造成資料稀疏的問題，而資料稀疏的問題更會因為 N 的成長而更加劇烈。解決此問題的其中一個方法方式為平滑化(Smoothing)技術。而常見的平滑化技術有 Good-Turning 平滑化法[16]和 Katz 平滑化法[33]等，其概念是將訓練語料中每個詞序列出現的統計次數依照各式比例原則折扣部份次數，再把這些次數依比例分派給在訓練語料中沒有出現的其它詞序列，以解決機率為零之問題。. 13.

(23) 2.4、潛藏語意分析(Latent Semantic Analysis, LSA). 圖五、LSA 示意圖潛藏語意分析[23]假設文件中有若干潛藏語意成分，藉由線性代數的奇異值分解(Singular Value Decomposition, SVD)，可將高維的向量空間根據詞頻(TermFrequency)投影到潛在語意空間之中，達到降維的效果。.   UVT 我們利用 LSA 將 A 矩陣分為 K 個潛在語意， 為 K  K 的對角矩陣，可以視. . 為一個潛藏語意空間， U 則為 | V | K 的矩陣，每一列是一個 K 維的詞向量 u ，最. . 後 VT 則為 K | D | ，每一行是一個 K 維的文件向量 v ，如圖五所示。文件與詞之間的語意相似度可藉由他們在這個低維度的潛在語意空間向量距離或者夾角計算而得。這樣的做法不僅可以簡化文件以及詞的表示方法，也能達到去除雜訊的效能。. 14.

(24) 2.5、機率式潛藏語意分析 (Probabilistic Latent Semantic Analysis, PLSA). 圖六、機率式潛藏語意分析之圖形表示法為了利用文件中長距離的語意資訊，彌補 N 連語言模型之不足，機率式潛藏語意分析[24]起初是運用於資訊檢索領域，其後更被介紹至語音辨識之中。機率式潛藏語意分析是用來描述一個詞 w 發生於文件 d 中的可能性，藉由一組共享的潛藏主題 Z  {zl , z2 ,...,zK } ，文件 d 與詞 w 的關係將根據文件 d 中蘊含每一個潛藏主題的可能性 P(zk | d ) ，以及詞 w 出現在每一個潛藏主題中的機率值 P(w | zk ) 來估算： K. P(w | d )   P(w | zk ) P( zk | d ). (3). k 1. 當機率式潛藏語意分析運用於語音辨識時，其任務是在給定一段歷史詞序列. H  w1,, wL 後，預測下一個可能的候選詞 w 出現的可能性。因此我們將歷史詞序列 H 視為是一篇文件，下一個可能的候選詞 w 出現的可能性即為： K. PP LSA(w | H )   P(w | zk ) P( zk | H ). (4). k 1. 相較於傳統 N 連語言模型僅能藉由先前緊鄰的 N-1 個歷史詞序列的資訊來預測候選詞 w 出現的可能性，機率式潛藏語意分析使用完整的歷史詞序列資訊來預測候選詞的出現機率值。訓練機率式潛藏語意分析的模型是以最大化訓練語料中每一篇文件 d m 的對數相似度為目標： K. L  c(wj , dm )log[ P(wj | zk )P( zk | dm )] m. j. k 1. 15. (5).

(25) 並使用期望值最大化法(Expectation-Maximization Algorithm)[34]來求得模型的參數. P(wj | zk ) 與 P(zk | dm ) ，其中   {z1, z2 ,...,zK } 代表一組潛藏主題，c(wj , dm ) 則代表詞 wj 出現在文件 d m 中的次數。. 近年所提出雙連機率式潛藏語意分析模型之比較. 2.5.1、 . Nie et al.’s Bigram PLSA Model. 在 2007 年，Nie 等學者[35]以 P(wj | wi , dm ) 取代了傳統 PLSA 中 P(wj | dm ) 的估測機率，其中 wi 代表前一個詞， w j 則為目前要預測的詞。額外考慮了緊鄰出現且具有順序性的雙連詞詞對(word pair) “ wi wj ”出現在文件之中的機率進而改寫了傳統的 PLSA 的預測模式。此方法相對於傳統的雙連語言模型以及傳統 PLSA 都有些許的進步。 K. P(wj | wi , dm )   P(wj | wi , zk )P( zk | dm ). (6). k 1. . Bahrani et al.’s Bigram PLSA Model. 2010 年，Bahrani 等學者[36]延伸了 Nie et al.的研究。他發現 Nie’s Bigram-PLSA 的方法建立在前一個詞 wi 與潛藏主題 zk 相互獨立的假設之上，然而此種方法可以改用更加符合數學邏輯的方式實現，拿掉詞與潛藏主題獨立的假設，進而提出了下列的公式。 K. P(wj | wi , dm )   P(wj | wi , zk )P( zk | wi , dm ). (7). k 1. 在辨識率方面 Bahrani et al.提出的方法與 Nie’s Bigram-PLSA 相比有相對性的進步，儘管在時間及空間複雜度上都有些許的增加，但相對於傳統 PLSA 到 Bigram-PLSA 的增加比例可以說是微乎其微，因此他認為這樣的代價是合理且可 16.

(26) 以接受的。 . Haidar et al.’s Bigram PLSA Model. 由於 Bigram PLSA 的計算複雜度相當的龐大，較不適合對於龐大的文件做處理。在 2013 年，Haidar 等學者[37]觀察到以雙連詞描述主題模型將會造成非常嚴重資料稀疏的問題。因此他改變 Bahrani’s Bigram-PLSA，以文件 d m 以及前一個詞 wi 共同描述潛藏主題分佈，在藉由潛藏主題 zk 來計算目前預測詞 w j 的發生機率。相較於上述的兩種 Bigram-PLSA 實作方法，Haidar’s Bigram-PLSA 的參數量有顯著性的降低，其優點不僅能夠降低運算複雜度，更可以舒緩資料稀疏的問題。 K. P(w j | wi , dm )   P(w j | zk ) P( zk | wi , dm ). (8). k 1. 方法. 參數量. 時間複雜度. Nie’s Bigram PLSA. V (V  1)K  (K  1)M. O(V 2 MK). Bahrani’s Bigram PLSA. V (V  1)K  (K  1)VM. O(V 2 MK). Haidar’s Bigram PLSA. (V 1)K  (K 1)VM. O(VMK). 表一、雙連機率式潛藏語意分析之複雜度比較表一為比較三種 Bigram-PLSA 實作方式的複雜度，其中 V 代表詞彙個數、M 代表文件個數而 K 則代表潛藏主題個數。而根據[37]的研究顯示，可以觀察到 Haidar’s Bigram-PLSA 具有較低的時間複雜度，另外在辨識率方面，此種方法相對於上述兩種 Bigram-PLSA 也有比較好的成效。因此，我們可以歸納出 Bigram-PLSA 面臨最主要的問題主要是在解決資料稀疏的問題上。在本論文的實驗之中我們將實現 Haidar’s Bigram-PLSA 的方法，並加入鄰近資訊與關聯模型比較。. 17.

(27) 2.6、關聯模型(Relevance Model, RM) 關聯模型最初是被使用在資訊檢索的任務之中[38]，其出發點是認為每一筆查詢 (Query, Q)皆代表著一個使用者所提出的資訊需求(Information Need)，而真正與使用者的資訊需求相關的資訊可視為一個關聯類別(Relevance Class)，查詢 Q 中的每一個詞就可以解釋為是使用者由這個關聯類別中所選取出來最足以代表這個類別的字詞。因此，我們可以將資訊檢索的問題轉換成如何準確地描述使用者所需要的關聯類別，關聯模型應運而生。. 圖七、關聯模型示意圖實際上，關聯類別是非常難以求得的；為此，我們透過虛擬關聯回饋 (Pseudo-Relevance Feedback, PRF)[39]來尋找與關聯類別可能相關的一些文件，並藉由這些文件來近似關聯類別。更明確地，在實作上我們首先把使用者給定的查詢輸入到一個資訊檢索系統，挑選出一組與查詢可能相關的文件 {d1,, dM } ，我們稱之為虛擬關聯文件(Pseudo Relevant Documents)，接著，透過檢視詞w與查詢 Q在這組虛擬關聯文件中同時出現的關係來計算詞w與查詢Q的聯合機率： M. PRM (Q, w)   P(dm )P(Q, w | dm ). (9). m1. 當我們進一步地假設在給定某一篇虛擬關聯文件時，詞w與查詢Q是獨立的，並且 18.

(28) 查詢內的詞彙也是獨立且不考慮其先後次序，則藉由虛擬關聯回饋所估測的關聯模型即為： M. PRM (w | Q) .  P(d. m. m1. ) P(w | d m ) P(q | d m ) qQ. (10). M.  P(d ) P(q'| d m. m1. m. ). q 'Q. 近年來，有學者[40, 41]將此關聯類別的概念介紹、應用至語音辨識任務之中。其概念是將歷史詞序列 H 視為是一個已觀察到的查詢，藉由這個查詢，我們可以找到一組與歷史詞序列最相關的虛擬關聯文件；同樣地，考慮歷史詞序列 H 與可能的候選詞 w 在這組虛擬關聯文件中同時出現的關係，我們可以計算出候選詞 w 緊鄰出現在歷史詞序列 H 之後的可能性：. PRM (w | H ) . PRM ( H , w) PRM ( H ) L. M.  P(d.  m1. m. ) P(w | dm ) P(wl | dm ) l 1. L. M.  P(d ) P(w m. m1. l. l 1. 19. | dm ). (11).

(29) 2.6.1、. 鄰近關聯模型(Proximity Relevance Model, PRM). 圖八、鄰近資訊示意圖為了克服詞袋假設的限制，有學者[42]將 N 連語言模型融入關聯模型之中，如雙連語言模型般地額外考慮了詞對(Word-Pair)的相依性，稱之為鄰近關聯模型：. PP RM( H , w | d m ) L.  P(h1 | d m )[ P(hl | hl 1 , d m )]P(w | hl , d m ). (12). l 2. 除了詞對資訊外，鄰近關聯模型亦額外地使用鄰近資訊(Proximity)[43]取代原本嚴厲規範詞對緊密相連以及順序性的計算方式，其主要概念則是假設在一篇文件中的每一個詞都與出現在周圍的鄰近詞有密切的關係，計算方式則改以統計詞對在一個固定長度的移動窗(τ)內的共同出現頻數(Frequency)，利用類似略詞模型 (Skip Bigram Model)[19]的概念計算詞對在文件中出現的次數：. P(w | hl , d m ) . c (w, hl , dm ) w' c (w' , hl , dm ). 20. (13).

(30) 2.7、鑑別式語言模型 (Discriminative Language Models, DLM). 圖九、全部語句平均排名與字正確率關圖十、某一語句排名與字正確率關聯圖聯圖傳統統計式語言模型計算出來最好的辨識結果都是挑選機率最高的詞序列，雖然平均而言，以機率值做為唯一參考的排序結果相當可靠(如圖九所示)；但如果我們將詞圖 (Word-Graph or Lattice) 中前 M 條最佳候選詞序列 (M-best List or Hypotheses)，並仔細觀察 M-best List 中每一排名之字正確率，以圖十為例，我們可以發現在許多辨識語句中，機率最高的結果並不一定是詞錯誤率(Word Error Rate)最小的結果。因此，鑑別式語言模型期望利用鑑別式訓練的方式將 M-best List 中的語句加以重新排序(Reranking)，期望能找到詞錯誤率最低的詞序列。鑑別式語言模型主要可分為兩種研究，其一是以模型訓練方式；其二則是特徵的選用。常見的鑑別式語言模型有感知器演算法(Perceptron)[44]、最小化錯誤率訓練(Minimum Error Rate Training, MERT)[45]、全域條件式對數線性模型 (Global Conditional Log-linear Model, GCLM)[46]及權重式全域條件式對數線性模型(Weighted Global Conditional Log-linear Model, WGCLM)[47]等。另外值得一提的是，鑑別式訓練以特徵方式觀察語句，並以最小化辨識錯誤率為主要目的，因此特徵定義亦為鑑別式訓練之相關研究議題。相對於 N 連語言模型僅能擷取短距離之詞彙資訊，鑑別式語言模型能夠藉由定義特徵之方式獲得長距離之語句資訊，以充實鑑別式語言模型之判斷。 21.

(31) 2.8、類神經網路語言模型 (Neural Network Language Model, NNLM). 圖十一、類神經網路語言模型架構前饋式類神經網路語言模型(Feedforward Neural Network Language Models)之架構如圖十一所示，其中包含輸入層(Input Layer)、隱藏層(Hidden Layer)與輸出層 (Output Layer)，將歷史詞序列存入 w(t ) 向量之中，以 One-of-N 的編碼方式表示。訓練類神經網路主要有兩個步驟，前饋 (Feed-Forward) 以及倒傳遞 (Back-propagation)。前饋會將輸入層的資訊藉由連結的權重一層一層往後傳遞到輸出層，輸出層的大小等同於欲預測的字詞個數，每一維則代表該詞在歷史詞序列發生的機率。有了前饋所得到的輸出值之後再與實際輸出計算出誤差值，進而調整整個類神經網路的權重，使其得到學習的效果。由於類神經網路的架構，減緩了資料稀疏問題所影響的程度。但類神經網路訓練時所使用的梯度下降學習法相當耗時，其訓練時間與輸出層個數成正比，為了改善訓練時間過長的問題，近年來提出了 Shortlist NNLMs，此種方法是藉由統計訓練語料內出現頻率較高的詞並將其蒐集為候選詞(Shortlist)，透過只預測 Shortlist 的方式，強迫減少預測的數量(通常為八千到兩萬詞)，而不在候選詞之中的詞(Out of Shortlist)的詞將使用 N-gram 機率取代。而經過實驗證實，這樣的方法的確可以有效降低類神經網路的訓練時間，對於詞錯誤率(Word Error Rate, WER)也沒有明顯效能降低的情況發生。 22.

(32) 雖然類神經網路的架構舒緩了資料稀疏的問題，但對於缺少長距離資訊的困難並沒有得到解決，因此 Mikolov 等學者[27]，更改了類神經網路的架構，發展遞式類神經網路語言模型 (Recurrent Neural Network Language Models, RNNLMs)，期待遞迴式的結構能夠為網路加入長距離資訊的考慮，接下來將要介紹遞迴式類神經網路語言模型。. 23.

(33) 2.9、遞迴式類神經網路語言模型 (Recurrent NNLM, RNNLM). 圖十二、遞迴式類神經網路語言模型架構遞迴式類神經網路語言模型的架構如圖十二，此部分結構是把輸入層加大，且將上一時間點的隱藏層利用暫存複製起來，用迭代的方式將長距離的資訊保存下來，以獲得更好的預測，實驗結果發現遞迴式類神經網路語言模型有顯著的成效，若結合 N 連語言模型則有更進一步的提升。但也有研究學者指出[48]透過梯度下降法對於學習長距離資訊有一定的困難，在學習時，鏈鎖率會不斷的延伸，最終連乘積則會趨近於零。推導結果說明了，遠距離部份的權重更新量只有小幅度的改變，而近距離部份則會有較明顯的影響。所以，遞迴式類神經網路仍然缺乏長距離資訊，但對於中短距離資訊部份，尚可以有效地獲得。為了更進一步獲得長距離的資訊，有研究[53]使用額外的資訊來增進遞迴式類神經網路語言模型的預測能力。例如，使用句子和句子間的關聯性或詞與詞之間的關聯性來協助預測下一個詞發生的機率。相較於傳統遞迴式類神經網路語言模型也有些許的提升。. 24.

(34) 第 3 章、應用鄰近於概念資訊於語言模型本論文研究於語言模型調適任務中，可分為兩個主要部分：第一部分，本論文延伸鄰近關聯語言模型(Proximity Relevance Model, PRM)[42]所提出之方法，以拓展鄰近資訊的方式對雙連機率式潛藏語意分析(Bigram Probabilistic Latent Semantic Analysis, Bigram-PLSA)[35, 36, 37]進行改善以獲得更好的效果；第二部分，本論文提出概念模型，藉由詮釋語言產生時使用者欲表達之概念以達到辨識之效果。而針對概念模型之表述，本論文更以詞角度概念語言模型(Word-based Concept Language Model, WCLM) 與群聚角度概念語言模型 (Cluster-based Concept Language Model, CCLM)兩種方式探討概念模型。. 3.1、鄰近資訊用於主題模型及關聯模型之研究為了達成簡化公式推導以及降低計算複雜度等目的，許多模型在考慮長距離語意資訊的同時，皆不考慮歷史詞序列中詞與詞之間出現的先後關係(也就是所謂的詞袋假設)，然而此種假設應用在語言模型之中卻造成了詞規律資訊的損失。為此，有許多學者為了彌補詞袋假設所造成的誤差，進而引入雙連詞資訊建構語言模型，(例如於本論文 2.5.1 中所介紹之雙連機率式潛藏語意分析)。而在本論文之中，更進一步的嘗試引入鄰近資訊用於語言模型建構，希望能藉由拓展鄰近資訊豐富語言模型的建構。. 圖十三、利用移動框探索鄰近資訊示意圖. 25.

(35) 3.1.1、鄰近資訊介紹詞袋假設(Bag-of-Words Assumption)在資訊檢索中被廣泛討論與運用，其主要概念為「藉由忽略詞與詞之間出現的順序以達到降低複雜度之目的」。然而，此項假設應用在實際生活之中卻也造成了許多問題。因此，我們希望能重新獲得詞與詞之間之順序資訊，而不造成複雜度的劇烈增加。為了達到這個效果，鄰近資訊 (Proximity Information)[43]被使用於資訊檢索中以彌補詞袋假設之不足。將其利用至語音辨識領域之中的想法即是我們認為歷史詞序列中越接近候選詞，對於候選詞出現與否應該佔有更重要的影響性。圖十三則為鄰近詞資訊之範例，假設兩詞距離在一固定長度之移動框(  )內則具有鄰近關係，並以統計鄰近資訊的方式，重新調整雙連詞的發生機率。除了簡單的利用移動框統計鄰近詞對重新估測之外，也有學者發展利用各式鄰近函數[43]探討詞與詞之間的距離對於鄰近資訊詮釋。. 3.1.2、鄰近雙連機率式潛藏語意分析 (Proximity Bigram-PLSA, PBPLSA)介紹鄰近資訊的使用，除了能舒緩資料稀疏的問題之外，也能利用鄰近資訊彌補語言模型的不足。為此，本論文試圖將鄰近資訊的統計方式應用在雙連機率式潛藏語意分析建構之中。延伸前人的研究，在雙連機率式潛藏語意分析之中以期望值最大化法估測模型參數時，我們取代了原本在雙連機率式潛藏語意分析內詞對 “ wi wj ”緊密相鄰的特性，改以採用計算詞對在固定移動框(τ)內之鄰近統計值. c(wi ,wj ,dm ) ，並以此鄰近計數為基底進行模型參數之估測，並期望能夠藉由鄰近計數的加入能夠使模型包含更加全面的資訊，我們稱此模型為鄰近雙連機率式潛藏語意分析(Proximity Bigram PLSA, PBPLSA)。而雙連機率式潛藏語意分析所使用之期望值最大化法之公式如式(14)至式(17)所示。 26.

(36) E-step:. P(zk | wi , wj , dm ) . P(w j | zk )P( zk | wi , dm ) k ' P(wj | zk ' )P(zk ' | wi , dm ). (14). M-step:.   c(w , w , d )P( z | w , w , d )    c(w , w , d )P( z | w , w , d  c(w , w , d )P(z | w , w , d ) P(zk | wi , dm )    c(w , w , d )P(z | w , w , d ) P(wj | zk ) . wi. wi. w j. w j. j. i. m. i. wj. l'. i. m. j. i. m. j. m. j. k. m. k. k. m. i. i. k. j. m. i. j. j. i. m. j. m. ). (15). (16). m. 在測試階段時，我們將歷史詞序列視為一篇未完成之短篇文件，代入(Fold-in)鄰近雙連機率式潛藏語意分析之中計算主題分佈 P(zk | wi , H ) ，並與訓練而得之. P(wj | zk ) 結合，如式(17)：. PPBPLSA(wj | wi , H )  k P(wj | zk )P( zk | wi , H ). (17). 在鄰近雙連機率式潛藏語意分析之中，我們延伸前人的研究成果，放寬了原本受限於詞袋假設的限制，將短距離的詞規律資訊在融入模型，更以鄰近資訊放寬詞對之間緊密相鄰的特性，除了能獲得短距離內的詞規律資訊之外，也能藉由加入鄰近資訊補強模型的建立。最終再將鄰近雙連機率式潛藏語意分析與背景語言模型以模型補插法結合。其中  為一可調變之參數，在本論文之應用中，  則設定為調適語料集所獲得的最佳參數設定結果：. P(w | H )  PBG (w | H )  (1 )PPBPLSA(w | H ). 27. (18).

(37) 3.2、概念語言模型(Concept Language Model, CLM). 圖十四、概念模型示意圖概念模型最主要的概念則是認為，每一句的語句背後都隱含著使用者內心的概念，並藉由語言描述其對應的概念。而概念模型最主要的目的則是希望能夠獲取使用者欲表達的概念，並假設在同一概念之中歷史詞序列以及預測詞具有共同的關係，藉此共同關係達到預測的目的。在使用上，概念模型使用第一次辨識的初步結果近似同領域文件內表述的若干概念，藉以描述使用者內心欲表達的真正含意。而在本論文之中，概念模型的詮釋則分為兩個探討方向，詞角度與群聚角度來近似概念模型，以下將為大家介紹各角度對概念模型之見解與探討。. 3.2.1、. 以詞角度建立概念語言模型 (Word-based CLM, WCLM). 在我們想要表達某一特定概念時，我們常常會利用一組具有代表性的概念關鍵詞 (Concept Words)來表達我們對事物的看法，而在同一概念底下用來描述事物的概念關鍵詞之間則具有相當高的關聯程度。例如在馬致遠的【天淨沙‧秋思】之中，連續使用了「枯藤」、「老樹」等多個名詞串接，並藉由這一組連續的名詞描述秋天蕭瑟荒涼的景象。由此概念為發想，本論文提出詞概念模型(Word-base Concept Language Model, WCLM)，並用於語言模型調適的任務之中。 28.

(38) 在建構詞概念模型時，我們期望能夠針對每一句不同的語言意涵，在同領域文件之內挑選一組具有代表性的「概念關鍵詞組」，藉以描述歷史詞序列與預測詞之間的共同關係。其公式如式(19)所示：. PW CLM(w | H , W ) . P(w, H | W ) P( H | W ) (19).  P(w | c) P(h | c)P(c | W )   P(h | c)P(c | W ) L. . l 1. c. L. c. l. l. l1. 在詞概念模型之中 W 代表使用者每一句對話背後的抽象概念，我們假設語言在產生的時候都以此概念為基礎，因此在同一概念之下的語句則具有相當高的關聯程. . 度。另外，H 代表著歷史詞序列，而 L 則為歷史詞序列的長度、 c  {c1, c2 ,...,c|C|} 則為一組挑選出的概念關鍵詞。式(19)藉由貝式定理轉換，將原本描述歷史詞序列與預測詞之間的聯合機率轉化為條件機率表示，另外再藉由詞袋假設進一步的轉化，探討預測詞以及歷史詞序列之間的概念距離，用於語音辨識任務之中。在實現詞概念模型時，首先我們遭遇到的問題就是「如何挑選具代表性的關鍵詞？」。為了解決此問題，本論文在挑選概念關鍵詞時運用了兩階段的挑選方式，如圖十五所示，在第一階段時，我們利用了在資訊檢索領域之中常使用的虛擬關聯回饋技術(Pseudo-Relevance Feedback, PRF)[39]，並利用庫爾貝克─萊伯勒差異量(Kullback-Leibler Divergence, KL-Divergence)[55]，初步地挑選了同領域文件內的文件，稱之為虛擬關聯文件(Pseudo-Relevance Documents)，假設利用檢索系統所挑選出的文件都與欲描述之抽象概念相近。 29.

(39) 圖十五、詞概念語言模型流程圖雖然經過檢索系統的初次挑選，我們仍希望概念關鍵詞能夠具有整體代表性，因此第二階段我們再更進一步的針對此文件集進行挑選，挑選出固定數量的「概念關鍵詞組」，藉由這組固定數量的概念關鍵詞描述歷史詞序列與預測詞在此概念下的共同關係。而在本論文實驗了兩種挑詞方式，分別為詞頻與反向文件頻率加權(TF-IDF)與主題關鍵評分(Topic Significant Score)，以下將分別介紹兩種挑詞方式的目的與做法。 1. 詞頻與反向文件頻率加權(TF-IDF). N  (1  log fi,m )  log wi ,m   ni  0. if fi,m  0. (20). ohterwise. 詞頻與反向文件頻率加權(TF-IDF)是一項常被用於資訊檢索以及文字分析領域中的技術，其概念則是直接以統計的方式重新調整文件集之中所有詞的重要性。如式(19)所示，詞頻與反向文件加權主要可分為兩個主要部分：第一部分為. (1 log fi,m ) ，其中的 fi,m 則代表詞 wi 在此文件 d m 中所出現的次數，稱之為詞頻 (Term Frequency, TF)，可以解釋為越高的詞頻，則越具有代表此文件代表性；第二部分為 log. N ，其中 ni 之則是代表詞 wi 出現在虛擬關聯文件的文件個數，稱之 ni. 為反向文件頻率(Inverse Document Frequency, IDF)，當某一字詞出現僅出現在少數的文件之中，則此字詞越具有獨特性。經過此種加權計算後，我們期望能找出 30.

(40) 檢索文件內具有代表性與獨特性的字詞。 2. 主題關鍵評分(Topic Significant Score). St j (Tk ) .  n(t , d j. m. dmD. ). P(Tk | dm )  P(Tl | dm ). (21). Tl ,l k. K. STS (t j )   St j (Tk ) P(Tk | dm ). (22). k 1.  主題關鍵評分[56]則是藉由一組共享潛藏主題 T  {T1, T2 ,...,Tk } 描述文件與詞之間的關聯，相較於 TF-IDF 的方式，主題關鍵評分能將詞投影至潛藏主題空間表示，並且觀察詞在此潛藏主題空間內之代表。在此評估方式之下，詞頻數越高之詞，在潛藏主題空間將越具代表性，而在潛藏主題之下越重要之詞，越有可能會被挑選出來當作是概念關鍵詞。表二則為概念關鍵詞之挑選範例，藉由利用主題分佈的特性可以觀察到表內的每一行在潛藏語意空間有相似的特性，而排名較高之關鍵詞在潛藏主題空間之內也較具有代表性。準備金. 米粉. 評等. 核武. 島民. 海參. 統籌分配款. 椰子. 退貨. 參議院. 寒夜. 猩猩. 節流. 甘蔗. 欠稅. 政協. 天然林. 豐年祭. 憑證. 糕餅. 平等互惠. 兵變. 救國團. 肌瘤. 稅款. 山藥. 候補. 磁浮. 關島. 租屋. 報稅. 月餅. 查核. 神盾艦. 孫運璿. 安眠藥. 表二、概念關鍵詞挑選結果範例. 31.

(41) 以群聚角度建立概念語言模型 (Cluster-based. 3.2.2、. CLM, CCLM). 圖十六、群聚概念語言模型示意圖群聚概念語言模型的出發點為，在同領域文件集內的文件，可以粗略的分為 C 種概念類別，取代了詞與詞之間的關聯性，改以群聚之間的相似度近似語句概念表達的涵義。.  (w | H , W ) . PCCLM. P(w | C)l 1 P(hl | C) P(C | W ) L. C. C l1 P(hl | C)P(C | W ) L. (23). 而計算群聚相似度，本論文實驗了餘弦相似性以及潛藏主題分佈兩種方式探討，以下將詳細的介紹兩種方式的不同。 1.. 初次辨識結果與分群語料之餘弦相似性. 在此方法之中，我們利用初次辨識的結果與概念群聚計算餘弦相似性[57]，單純以文件內詞的共同出現機率估測，若群聚文件集與初次辨識結果的用詞組成相似，則會有較高的餘弦值，再經過機率值正規化轉化為機率分佈。 2.. 利用機率式潛藏主題分析計算主題分佈. 此方法利用機率式潛藏語意分析，計算各別概念群聚之特徵向量( P(w | C) )，而在 32.

(42) 測試時，將初次辨識結果視為一則篇幅較短的文件，代入機率式潛藏語意分析之中計算出分佈情形，並將此分佈視為測試語句在概念模型之中的權重。此方法以機率式潛藏主題分析的方式計算，其特點能夠將文件之內的共同出現機率擴展至潛藏主題內的共同出現機率，可以視為是機率式潛藏語意分析的重新組合。. PCCLM(w | H,W ).  [ . K. C. k 1. P(w | zk ) P( zk | C)]l 1[k 1 P(hl | zk ) P( zk | C)]P(C | W ) L.   [ C. L. K. l 1. k 1. K. (24). P(hl  | zk  ) P( zk  | C)]P(C | W ). 而潛藏主題概念於群聚角度概念語言模型也能更加的延伸，在詞與概念群聚之間加入了一層潛藏主題，並利用機率式潛藏語意分析計算詞在主題之中的出現機率。這種做法如同詞概念語言模型相似，將共享的潛藏主題視為一組抽象的概念關鍵詞。. 圖十七、潛藏主題角度概念模型示意圖. 33.

(43) 3.2.3、. 概念模型與關聯模型之比較. 經過上述的介紹，我們可以發現概念模型與關聯模型都企圖以關聯基底去描述使用者內心想表述的真正意圖。然而，概念模型與關聯模型仍有許多不同之處，本節將對概念模型與關聯模型進行詳細的比較。在表三中，本論文以建構基底、模型構想、檢索文件需求、是否具有詞袋假設以及遭遇資料稀疏問題的嚴重程度等等不同面相比較概念模型以及關聯模型的差異。. 關聯模型. 詞概念模型. 群聚概念模型. 基底. 文件. 詞. 群聚. 模型構想. 以關聯文件近似關聯類別. 以概念關鍵詞描述語句概念. 以概念群聚近似語句概念. 檢索文件. . . . 詞袋假設. . . (可放寬). 資料稀疏. (較多). (較多). (較少). 表三、關聯模型與概念模型比較表詞概念模型與關聯模型皆利用了由檢索系統所檢索出的虛擬關聯文件，特別的是詞概念模型將虛擬關聯文件進行第二階段的「概念關鍵詞挑選」，並嘗試以重組詞與詞之共同關係為目的建立模型。相較於關聯模型，以關鍵詞所建立之詞模型較不受限於檢索文章個數之差異。然而，檢索文件集則可能因為初次辨識結果之錯誤而造成檢索偏差的情形發生，而建立於此偏差文件集之上之詞概念模型，則可能因為進行第二階段挑選而造成偏差加劇的情況。相較之下，群聚概念模型捨去了檢索文件的過程，單純的以初次辨識結果計算概念權重分佈。儘管初次辨識結果之中含有錯誤辨識的情形，但其造成之權重偏差相較於詞概念模型與關聯模型之影響較小。另外一方面，群聚概念模型則藉由統計大量文件群聚內之詞資訊，相較於詞概念模型與關聯模型也較不受到資料稀疏問題的影響。因此，群聚概念模型較容易更進一步的獲得詞規律資訊，藉由 34.

(44) 將模型推廣至以 N 連詞資訊建立模型，放寬詞袋假設的限制，以獲取短距離的詞彙規則資訊。. 35.

(45) 第 4 章、實驗架構與結果討論 4.1、實驗設定 4.1.1、. 臺師大大詞彙連續語音辨識系統. 以下將個別介紹臺師大大詞彙連續語音辨識系統採用的特徵擷取、聲學模型、詞典建立、詞彙樹複製搜尋(Tree-copy Search)以及詞圖搜尋等部分。（一）. 特徵擷取. 本系統在前端處理中之語音特徵擷取方面，使用了異質性線性鑑別分析 (Heteroscedastic Linear Discriminative Analysis, HLDA)結合最大相似度線性轉換 (Maximum Likelihood Linear Transformation, MLLT)兩種不同語音特徵參數。而本論文主要使用異質性線性鑑別分析加上最大相似度線性轉換，獲得 39 維語音特徵向量，接著再使用倒頻譜平均與變異數正規劃(Cepstral Mean and Variance Normalization, CMVN)加強語音特徵。（二）. 聲學模型. 在聲學模型部分，由於是處理中文語料，因此我們分別為聲母建立 INITIAL 模型以及為韻母建立 FINAL 模型，基本的 INITIAL 模型為 22 種，FINAL 模型為 38 種。因為聲母會受右邊相連的韻母影響其發音特性，所以再將 INITIAL 模型細分為 112 種，即右相關聯模型(Right-context-dependent Model, RCD Model)，最後加上一個靜音(Silence)模型，共有 151 個聲學模型。其中每個模型的中有 3 到 6 個狀態(State)，而每一個狀態為 1 到 128 個高斯分佈所組成的高斯混合分佈。聲學模型首先經由最大化相似度估測(Maximum Likelihood Estimation, MLE)訓練而得，再透過最小化音素錯誤(Minimum Phone Error, MPE)訓練[58]以期望獲得最佳化聲學模型參數。 36.

(46) （三）. 詞典建立. 中文裡大約有 7000 個單字詞，而藉由合併不同的單字詞可以產生新詞。本系統考慮了語料中各個字詞的統計特性，以自動化方式產生新的複合詞(Compound Words)。對於語料中任意相鄰的兩個詞，例如，分別計算它們的前向二連(Forward Bigram)機率與後向二連(Backward Bigram)機率，再由前後向二連機率的幾何平均，作為詞與詞是否合併的依據。接著將文字語料從含有一至四字詞約六萬六千個詞的原始詞典進行斷詞，再利用上述的計算方式，經過數次的迭代和不同的門檻值(Thresholds)設定，產生約五千餘個二至十字詞的複合詞。最後將這五千餘個新詞加入原始詞典中，得到一個含有約七萬兩千個詞的新詞典。（四）. 詞彙樹複製搜尋. 本系統之大詞彙連續語音辨識方法是採取由左至右 (Left-to-right)、音框同步 (Frame-synchronous)的詞彙樹複製搜尋方法。在詞彙樹中每一個分支(Arc)代表一個 INITIAL 或 FINAL 的隱藏式馬可夫模型，由根節點(Root)到任一個葉節點(Leaf) 的路徑代表一個詞或一些發音相同的詞，路徑上的分支就是代表這個詞或這些詞彙使用到的隱藏式馬可夫模型。進一步來說，我們所用的詞彙樹複製搜尋演算法，在搜尋時每個音框會同時存在數棵詞彙樹複製(Tree Copies)，每個詞彙樹則代表不同的語言模型歷史詞序列(History Word Sequence)。實際上，搜尋時產生的不完全路徑(Partial Path)如果擁有相同的歷史詞序列會被歸類在同一棵詞彙樹複製裡，以進行隱藏式馬可夫模型狀態層次(State-level)維特比(Viterbi)動態規劃搜尋。在每個音框裡，假如有不完全路徑已到達葉節點時，表示一個完整詞已可被產生；同時，不同詞彙樹複製間已抵達葉節點的不完全路徑，若具有相同的語言模型歷史詞序列，則會進行再結合(Recombination)，保留較大分數者，並以它們的歷史詞序列為標註，產生一棵新的詞彙樹複製，或加入到一棵已存在且具有相 37.

(47) 同歷史詞序列的詞彙樹複製中。值得注意的是，我們在實作時並不需要真的建立如此多的詞彙樹複製，僅需建立一棵詞彙樹作為搜尋時路徑展開參考之用即可，並分別記錄搜尋時存活下來的隱藏式馬可夫模型狀態節點的相關資訊。另一部分，因為存下來的隱藏式馬可夫模型的狀態節點會隨著音框呈指數倍成長，因此我們利用光束搜尋(Beam Search)技術，將分數較低的不完全路徑或節點進行剪裁。此外，根據每個音框中記錄的資訊，例如：語言模型歷史詞序列、候選詞所對應的開始與結束的音框及搜尋時聲學模型解碼的分數，來建立詞圖(Word Graph)，並在詞圖上使用更高階的語言模型，重新進行一次詞圖動態規劃搜尋 (Word Graph Rescoring)，找出最佳的辨識詞序列。在本系統中，詞彙樹複製搜尋階段是使用二連詞語言模型，而在詞圖搜尋階段是使用三連詞語言模型。（五）. 詞圖搜尋與 M-最佳結果(M-Best)之產生. 圖十八、詞圖搜尋示意圖詞圖為詞彙樹複製搜尋過後所建立的圖，詞圖中的每個分支代表經過裁減所保留的詞段，每個詞段有各自對應的起始音框和結束音框，並會記錄其聲學分數。由於詞圖是已經簡化過的，因此我們在語言模型上可使用較複雜的語言模型，例如三連詞模型、遞迴式類神經網路語言模型或機率式潛藏語意分析模型等。接著將每個詞段進行維特比搜尋，根據音框資訊、聲學分數、歷史詞序列以及從語言模. 38.

(48) 型中計算出的分數查找出多條詞序列。最後挑選分數最高的詞序列當作辨識結果；亦可以輸出分數前 M 高的詞序列進一步做處理，像是藉由鑑別式訓練來找出字錯誤率最低的詞序列，或利用訓練好的語言模型進行重新排序以得到更準確之辨識結果。. 4.1.2、. 實驗語料. 本論文所使用的實驗語料來自於公視新聞的公視電視新聞語料庫 (Mandarin Across Taiwan Broadcast News, MATBN)[59]，是由中央研究院資訊所口語小組耗時三年(2001~2003)與公共電視台合作錄製完成，總共 197 小時的新聞語料。我們再由 2003 年所蒐集的語料中挑選各約 1.5 個小時作為發展集語料 (Development Set)以及測試集語料(Test Set)，分別包含了 292 與 307 個句子。而本論文實驗在語言模型調適，調適語料部分我們亦蒐集同為公視電視新聞語料庫中的同領域文件，約三千六百多句作為調適語料集。背景語言模型使用的訓練語料是來自 2001 至 2002 年中央通訊社(Central News Agency, CNA)的文字新聞語料，內含有約一億五千萬個中文字，經由斷詞之後約有八千萬個詞。此語言模型是使用 SRI Language Modeling Toolkit (SRILM)[60]訓練而得，採用 Good-Turning 平滑化方法來解決資料稀疏的問題。實驗語料統計資訊如表四所示。語料發展集語料測試集語料語料調適語料背景語料. 句數 292 307. 長度(小時) 約 1.5 約 1.5 詞數約 1,000,000 約 80,000,000. 表四、實驗語料統計資訊表. 39. 說話速度 8.52 字/秒 8.50 字/秒句數 3,643 2,068,991.

(49) 4.1.3、. 語言模型評估. 本論文實驗以詞圖重新計分(Word-Graph Rescroing)的方式探討語言模型對語音辨識的影響，由於背景三連語言模型是由大量的資料訓練而成的，較不會受到資料稀疏的影響，因此本論文提出之模型都將會與背景三連語言模型組合，並利用發展集語料找出調適模型與背景模型的最佳組合比例，再藉由測試集語料測試其一般性並評估調適模型對於語言模型改進之程度或影響。本論文評估語言模型的方法是計算辨識錯誤率。以美國標準與科技組織(U.S. NIST F.O.M. Metric)所訂立的評估標準，將辨識結果與正確參照轉寫透過動態規劃的方式求得最佳字串的對齊結果。然而在字串對齊中，兩字串可能發生三種字串對齊錯誤，分別是替代(Substitution)、刪除(Deletion)及插入(Insertion)。最後我們可以根據這三種錯誤發生的次數與正確參照轉寫計算出辨識正確率 (Accuracy)，其中 S 為替代錯誤、D 代表刪除錯誤而 I 代表插入錯誤，而 N 則代表正確參照轉寫的單位數量。另外，在中文辨識的使用上較注意以字(Character) 為單位的辨識率，所以我們選擇以字當作對齊單元計算字錯誤率(Character Error Rate, CER)。. Character Error Rate . S  D I 100% N. (25). 除了字錯誤率之外，本論文並另外比較語言複雜度(Perplexity)。其定義如下，若給定一個語言模型以及一段測試詞序列 W，若詞序列的長度非常長，那麼語言模型作用於詞序列 W 上的交互熵值(Cross-Entropy)，則可近似為：. H (W )  . 1 log 2 P (W ) |W |. (26). 詞序列 W 的聯合機率可以將它拆解成一連串條件機率的連乘積。我們將依語言模型的語言複雜度定義為：. PPL(W )  2H (W ). 40. (27).

(50) 其代表意義為語言模型給予詞序列 W 中每一個詞的(幾何)平均機率值，亦可將複雜度視為語言模型對於詞的預測的平均分支度(Average Branching Factor)。因此，一個語言模型越有效的預測詞序列中每一個出現詞的出現，則語言複雜度分數會越低。. 41.

(51) 4.2、基礎實驗結果. 背景三連語言模型(BG) 同領域雙連語言模型+BG 同領域三連語言模型+BG 詞圖中最佳解碼(Oracle). 發展集字錯誤率(%). 測試集字錯誤率(%). 20.22 19.12 19.04 7.72. 20.08 18.89 18.84 9.05. 表五、基礎實驗之字辨識率結果比較表. 背景三連語言模型(BG) 同領域雙連語言模型+BG 同領域三連語言模型+BG. 發展集語言複雜度. 測試集語言複雜度. 667.23 442.04 427.60. 682.10 445.96 432.22. 表六、基礎實驗之語言複雜度結果比較表除了上述的背景三連語言模型之外，我們也將同領域語料訓練成一個 N 連語言模型與背景三連語言模型做結合，以同領域文件調適語言模型，讓模型更貼近測試的情況，並與本論文提出的模型做比較。另外，詞圖中最佳解碼則是利用動態規劃的方式，找出詞圖中字錯誤率最低的路徑，儘管語音辨識會受到聲學模型的強烈影響，但我們相信一個完美的語言模型能夠達到撥亂反正的效果，因此我們將此數值當作本研究題目的上界(Upper Bound)。基礎實驗結果如表五及表六所示。. (1) 機率式潛藏語意分析(PLSA) 機率式潛藏語意分析是以非監督式學習，藉由數學推導方式得到一組共享之潛藏主題。因此，在機率式潛藏語意分析實驗中，我們探討不同主題個數對語言模型之影響，並將此最佳化設定應用至測試集觀察其一般化程度。而潛藏主題之個數依序設定為 8, 16, 32, 64 與 128，並與背景三連語言模型以模型補差法結合。首先，在觀察語言複雜度實驗時 (如表七)，我們可以發現其效能隨著主題個數之增加而同步上升，我們認為這應是由於主題數增加時，各個潛藏主題間的差. 42.

(52) 異性可以區分的更加明顯，故語言複雜度實驗可以獲得越來越好的實驗結果。當然，使用機率式潛藏語意分析不斷地考慮長距離的語意資訊，的確對於語言模型有很大的幫助。然而在語音辨識的實驗之中，測試集之字錯誤率卻沒有隨著主題增長而逐漸下降，探究其原因應為訓練與測試語料不匹配所造成之誤差，導致在發展集中的最佳實驗設定並不完全適合於測試集之中。主題個數. 發展集語言複雜度. 測試集語言複雜度. 8 16 32 64 128. 531.87 515.63 504.12 488.68 470.78. 676.33 529.89 514.74 500.98 482.84. 表七、機率式潛藏語意分析之語言複雜度比較表主題個數. 發展集字錯誤率(%). 測試集字錯誤率(%). 8 16 32 64 128. 19.36 19.36 19.38 19.25 19.20. 19.27 19.11 19.03 19.28 19.23. 表八、機率式潛藏語意分析之字錯誤率比較表. (2) 關聯模型(RM) 將關聯模型與機率式潛藏主題分析比較，首先我們可以發現關聯模型的表現在各個文件數的選擇上相較於機率式潛藏語意分析在發展集中都有較佳的表現，探究其原因應為關聯模型在計算預測詞機率時，能夠單獨考慮每一個歷史詞的重要性，相較於機率式潛藏語意分析以潛藏主題分佈描述歷史詞序列的方式，關聯模型能以更直接的方式詮釋。. 43.