語言模型調適使用語者用詞特徵於會議語音辨識之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：陳柏琳博士. 語言模型調適使用語者用詞特徵於會議語音辨識之研究 Language Model Adaptation Leveraging SpeakerAware Word-Usage Characteristics for Meeting Speech Recognition. 研究生：陳映文撰. 中華民國一百零七年七月.

(2) 摘要在會議中，如何翔實地記錄交談內容是一項很重要的工作；藉由閱讀會議記錄，可以讓未參與的人員了解會議內容。同時，也因為語音被轉寫為文字，可以使會議內容的檢索更為精準。然而，人工會議紀錄往往費力耗時；因此，使用自動語音辨識技術完成會議交談內容的轉寫，能夠節省許多時間與人力的投入。但是會議語料庫和其它一般常見的語料如新聞報導之間存在很大差異；會議語料庫通常包含不常見的單詞、短句、混合語言使用和個人口語習慣。有鑑於此，本論文試圖解決會議語音辨識時語者間用語特性不同所造成的問題。多個語者的存在可能代表有多種的語言模式；更進一步地說，人們在講話時並沒有嚴格遵循語法，而且通常會有說話延遲、停頓或個人慣用語以及其它獨特的說話方式。但是，過去會議語音辨識中的語言模型大都不會針對不同的語者進行調整，而是假設不同的語者間擁有相同的語言模式，於是將包含多個語者的文字轉寫合成一個訓練集，藉此訓練單一的語言模型。為突破此假設，本研究希望根據不同語者為語言模型的訓練和預測提供額外的信息，即是語言模型的語者調適。本文考慮兩種測試階段的情境──「已知語者」和「未知語者」，並提出了對應此兩種情境的語者特徵擷取方法，以及探討如何利用語者特徵來輔助語言模型的訓練。在中文和英文會議語音辨識任務上的一系列語言模型的語者調適實驗顯示，我們所提出的語言模型無論是在已知語者還是未知語者情境下都有良好的表現，並且比現有的先進技術方法有較佳的效能。關鍵字：會議語音辨識、語言模型、語者調適、遞迴式類神經網路. i.

(3) Abstract In a meeting environment, how to faithfully produce the meeting minutes is considered an important task. By reading the minutes of the meeting, the nonparticipating personnel can understand the content of the meeting. Meanwhile, due to that the spoken content of the meeting has been transcribed into text, searching of relevant meetings in a database thus becomes more accurate. However, manually transcribing the content of a meeting is often labor-intensive and time-consuming; using automatic speech recognition (ASR) technologies to transcribe the content will be a good surrogate for this purpose. Also worth mentioning is that there are great distinctions between those speech corpora that are frequently-dealt with, such as news datasets, and meeting corpora. A meeting corpus usually contains uncommon words, short sentences, code-mixing phenomena and diverse personal characteristics of speaking. In view of the above, this thesis sets out to alleviate the problems caused by the multiple-speaker situation occurring frequently in a meeting for improved ASR. There are a wide variety of ways to utter in a multiple-speaker situation. That is to say, people do not strictly follow the grammar when speaking and usually have a tendency to stutter while speaking, or often use personal idioms and some unique ways of speaking. Nevertheless, the existing language models employed in ASR of meeting recordings rarely account for these facts but instead assume that all speakers participating in a meeting share the same speaking style or word-usage behavior. In turn, a single language is built with all the manual transcripts of utterances compiled from multiple speakers that were taken holistically as the training set. To relax such an assumption, we endeavor to augment additional information cues into the training phase and the prediction phase of language modeling to accommodate the variety of speaker-related characteristics, i.e., conducting speaker adaptation for language modeling. To this end, two disparate scenarios, i.e., "known speakers" and "unknown speakers," for the prediction phase are taken into consideration for developing methods to extract speaker-related information cues to aid in the training of language models. A series of experiments carried out on automatic transcription of Mandarin and English meeting recordings show that the proposed language models along with different mechanisms for speaker adaption achieve good performance gains in relation to some state-of-the-art methods compared in the thesis. Index Terms: speech recognition, language modeling, speaker adaptation, recurrent neural networks. ii.

(4) 誌謝學校生涯告一個段落，在師大待了六年的時間，遇到了許多人、事、物，得到許多的幫助，兩年的碩士生涯更是學到了非常多，如今離開這裡更是有點依依不捨。首先，我要感謝指導教授陳柏琳老師在這兩年多的指導，讓我知道了研究學者的態度與堅持，如同柏琳老師所說的，成就是由許多小事情累積而成，在思考如何做偉大的事情前，先將眼前的所有小事都做好。感謝口試委員洪志偉教授及王家慶教授對於論文的指正，讓我的論文更加完整。感謝實驗室學長冠宇帶我完成兩篇的論文投稿、與我分享許多研究上的寶貴經驗，孝宗教導了研究的訣竅，研究領域的觀念與實作。曜麒、明翰為我們學弟妹提供許多研究上的幫助。純伊、敬弘與必成提供系上課程的寶貴經驗。感謝同學佳樺、奕儒、天宏、明璋一起完成許多計劃與報告，共同分享學術上的心得，並且幫助我在許多事情上可以沒有後顧之憂，因為有你們的支持，我才能完成許許多多的工作。感謝實驗室的學弟妹修瑞、慈恩、偉成、日鳳、振恩、建瑋為實驗室帶來了歡樂的氣氛。也感謝你們一起營造了實驗室認真為研究、為實驗室努力向上的氣氛。感謝家人給予我生活上的幫助，讓我能順利完成學業。感謝我的女朋友，在碩士生涯的最後給予我許多精神上的支持。最後，感謝在求學期間給予我幫助與支持的人，因為有你們才有現在的我。. iii.

(5) 目錄第1章. 緒論 ............................................................................................ 1. 1.1 1.2 1.3 1.4 1.5. 研究背景與動機......................................................................................... 1 自動語音辨識............................................................................................. 2 語言模型的用途......................................................................................... 8 會議語音辨識的困境............................................................................... 10 本論文研究內容與貢獻........................................................................... 11. 1.6. 論文架構................................................................................................... 12. 第2章. 文獻探討 .................................................................................. 13. 2.1. 統計式語言模型(Statistical Language Modeling) ................................... 14 2.1.1 N 連詞語言模型(N-gram Language Model) ................................ 16 2.1.2 機率式潛在語意分析(Probabilistic latent semantic analysis) ..... 17 2.2 類神經網路(Artificial Neural Networks) ................................................. 18 2.2.1 深層類神經網路(Deep Neural Networks) ................................... 19 2.2.2 遞迴式類神經網路(Recurrent Neural Networks) ........................ 19 2.2.3 摺積式類神經網路(Convolutional Neural Networks)................. 20 2.2.4 類神經網路語言模型(Neural Network Language Model) .......... 20 2.3 語言模型調適(Language Model Adaptation) .......................................... 23. 第3章. 遞迴式類神經網路用於自動語音辨識之語言模型 .............. 25. 3.1. 遞迴式類神經網路語言模型................................................................... 25 3.1.1 長短期記憶(Long Short-Term Memory) ..................................... 25 3.1.2 時序性倒傳遞演算法推導........................................................... 27 3.1 類神經語言模型用於自動語音辨識....................................................... 29. 第4章. 語者調適用於會議語言模型 .................................................. 31. 4.1. 語者特徵的擷取....................................................................................... 33 4.1.1 語者用詞特徵模型(Speaker Word-Usage Characteristics Model). 33 4.1.2 語者慣用語模型(Speaker Slang Model, SSM) ........................... 36 4.2 語者特徵用於語言模型調適................................................................... 37 4.3 語者調適混和模型(Speaker Adaptive Mixture Model, SAMM) ............ 38. 第5章. 實驗環境設定 .......................................................................... 41. 5.1. 實驗語料說明........................................................................................... 41 iv.

(6) 5.2. 實驗的評估方式....................................................................................... 43 5.2.1 複雜度 (Perplexity) ..................................................................... 43 5.2.2 詞錯誤率與字錯誤率 (Word Error Rate and Character Error Rate). 44. 第6章. 語者調適用於會議語音實驗之結果探討 .............................. 46. 6.1. 華語會議語料........................................................................................... 46 6.1.1 基礎實驗....................................................................................... 46 6.1.2 語者用詞特徵............................................................................... 47. 6.1.3 語者慣用語特徵........................................................................... 48 6.1.4 語者調適混和模型....................................................................... 49 6.2 AMI 會議語料 .......................................................................................... 52 6.2.1 基礎實驗....................................................................................... 52 6.2.2 語者慣用語特徵........................................................................... 53 6.2.3 語者調適混和模型....................................................................... 54. 第7章. 結論與未來展望 ...................................................................... 55. 第8章. 參考文獻 .................................................................................. 57. v.

(7) 圖目錄圖圖圖圖圖圖. 1-1 自動語音辨識流程 ............................................................................................ 4 1-2 GMM-HMM 與 DNN-HMM 的比較 ................................................................ 6 1-3 會議語音的問題與挑戰 .................................................................................. 10 2-1 語言模型研究的四個面向 .............................................................................. 14 2-2 PLSA 示意圖 ................................................................................................... 17 2-3 類神經網路語言模型的歷史 .......................................................................... 20. 圖圖圖圖圖圖圖圖圖. 2-4 前饋式類神經網路語言模型 .......................................................................... 22 2-5 遞迴式類神經網路語言模型 .......................................................................... 22 2-6 語言模型的調適流程圖 .................................................................................. 24 3-1 長短期記憶架構 .............................................................................................. 26 3-2 LSTM 語言模型............................................................................................... 27 3-3 詞網重新打分與 N 連詞重新打分 ................................................................. 29 4-1 CNN 語者特徵擷取 ......................................................................................... 37 4-2 RNN 語言模型使用語者調適 ......................................................................... 38 4-3 AMM 語者特徵擷取 ....................................................................................... 39. vi.

(8) 表目錄表表表表表表. 3-1 1000 候選序列被詞網包含的查全率 ............................................................. 30 3-2 詞網重新打分與最佳候選詞序列之比較 ...................................................... 30 5-1 華語會議語料之聲學模型訓練集 .................................................................. 42 5-2 華語會議語料語言模型之訓練、發展與測試集 .......................................... 42 5-3 AMI 會議之訓練、發展與測試集 ................................................................. 43 6-1 華語會議文字基礎實驗 .................................................................................. 46. 表表表表表表表表表. 6-2 華語會議語音基礎實驗詞錯誤率與字錯誤率 .............................................. 47 6-3 華語會議文字實驗以語者用詞特徵作輔助 .................................................. 48 6-4 華語會議語音辨識實驗以語者用詞特徵作輔助 .......................................... 48 6-5 華語會議語者特徵抽取器 .............................................................................. 49 6-6 華語會議文字實驗以語者慣用語特徵作輔助 .............................................. 49 6-7 華語會議語音辨識實驗以語者慣用語特徵作輔助 ...................................... 49 6-8 華語會議語音各語者資料 .............................................................................. 50 6-9 華語會議文字實驗使用調適混和模型 .......................................................... 51 6-10 華語會議語音辨識實驗使用調適混和模型 ................................................ 51. 表表表表表表表表表. 6-11 華語會議文字實驗使用調適混和模型 ........................................................ 51 6-12 華語會議語音辨識實驗使用調適混和模型 ................................................ 52 6-13 AMI 會議文字基礎實驗 ............................................................................... 52 6-14 AMI 會議的詞與字錯誤率(%) ..................................................................... 53 6-15 AMI 會議語者特徵抽取器 ........................................................................... 53 6-16 AMI 會議文字實驗以語者慣用語特徵作輔助 ........................................... 53 6-17 AMI 會議語音辨識實驗以語者慣用語特徵作輔助 ................................... 54 6-18 AMI 會議文字實驗使用調適混和模型 ....................................................... 54 6-19 AMI 會議語音辨識實驗使用調適混和模型 ............................................... 54. vii.

(9) 第1章. 緒論. 1.1 研究背景與動機語音辨識技術越趨成熟，生活中隨處可見其應用，自動語音辨識技術(Automatic Speech Recognition, ASR)讓電腦能聽得懂人類的語言，也就是試圖理解人類在發音上和用語上的規則，初期的語音辨識只能在非常理想無噪音的環境中，且只能辨識單獨的詞彙，所以當時的語音辨識，在實際上的用途非常有限。但是隨著計算機能力的大幅進化，計算機科學家開始發展大詞彙連續語音辨識 (Large Vocabulary Continuous Speech Recognition, LVCSR)技術，從初期的高斯混和模型 -隱藏式馬可夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM) 作為聲學模型，N 連詞模型(N-gram Model)作為語言模型，到最近深度學習(Deep Learning)開始盛行，使得聲學模型演變成深層類神經網路-隱藏式馬可夫模型 (Hybrid Deep Neural Networks-Hidden Markov Model, DNN-HMM) [Hinton, 2012]，語言模型則是將類神經網路應用在候選詞序列(N-best)或詞網(Lattice)的重新計分 (Rescoring)。語言模型是一種將文字文本模型化的技術，常用於語音辨識的 N 連詞模型是利用 N 連詞的發生機率來將文件模型化，但是 N 連詞模型的問題是當資料過於稀疏(Data Sparseness)時難以估測，原因是 N 連詞模型中每個詞的語意都是各自獨立的，只考慮統計上的關係，類神經網路便可以解決這個問題，因為類神經網路語言模型可以習得詞語的分布式表示(Distributed Representation) [Bengio, Y., 2003]，使每個詞的語意關係可以被表示出來，接著便可以使用前饋式神經網路 (Feedforward Neural Networks, FNN) 或是遞迴式神經網路 (Recurrent Neural Networks, RNN)作預測。 1.

(10) 會議語音語料和一般新聞等較為嚴謹的語料有非常大的差異，會議語料通常有著冷門用詞、短語句、語言混雜使用、個人用語習慣等特性。本研究就是要針對不同語者有著不同的說話習慣這個問題作深入研究。每種語言可以用一套文法公式來描述；不過實際上人們說話時，並不會嚴格遵守文法，且會擁有習慣用吃或是口吃等獨特的說話方式。但是現今常用於語音辨識的語言模型，並不會針對不同語者做不同的調整，而是將整份訓練資料當作同一種語言模式。所以本研究希望根據不同的語者，對語言模型的訓練與預測提供額外的資訊，也就是對語言模型作語者調適(Speaker Adaptation)。以下的章節會先介紹語音辨識的相關技術，接著介紹語言模型在自然語言處理領域中有哪些用途，再來討論會議語音辨識會遇到的困境，以及本篇論文應對這些問題做了哪些改進，最後是本篇論文的架構。. 1.2 自動語音辨識自動語音辨識是模擬人類，聽到語音轉成文字的過程，人類聽到語音訊號後，會考慮聲音在我們的知識中符合哪些符號，例如中文的注音符號，而且也會考慮這些符號符合哪些詞彙，且文意符不符合上下文，最後決定一個聲音最像，且符合上下文意的詞，當作輸入的音訊所代表的語句。現在大部分的自動語音辨識，基本架構依據上述的流程，並作出利用貝式定理在機率假設下描述出自動語音辨識的問題，給定一段語音訊號，目標是找出一段條件機率最大的語句，通常我們會使用統計式模型及最大事後機率(Maximum a Posteriori, MAP)法則進行語音辨識[Jelinek 1999] 如下式，：. 2.

(11) 𝑊 ∗ = arg max 𝑃(𝑊|𝑋) = arg max 𝑃 𝑤. 𝑤. 𝑃(𝑋|𝑊)𝑃(𝑊) 𝑃(𝑋). (1-1). = arg max 𝑃(𝑊)𝑃(𝑋|𝑊) 𝑤. 𝑋為給定的語音訊號，𝑃(𝑊|𝑋)為給定語音𝑋，詞序列𝑊的事後機率，經過貝式定理轉換後，其中 𝑃(𝑋|𝑊)代表聲學模型(Acoustic model)產生語音𝑋的機率密度 (Probability Density)，直接估測語音訊號𝑋發生在詞序列𝑊中的音節(Syllable)、音素(Phoneme)或更小發音單位對應模型的相似度(Likelihood)；𝑃(𝑊)代表語言模型 (Language model)計算詞序列𝑊的機率，用於評估詞序列 W 於自然語言的合理性，可視為詞序列𝑊的事前機率，輔助解決聲學上的混淆，使得最後選擇出的詞序列 𝑊 ∗ 能夠符合該語言的形式；𝑃(𝑋)表示語音𝑋的事前機率密度，然而，我們是針對某句語音𝑋進行辨識，對於每一條詞序列𝑊都一樣同除以𝑃(𝑋)，故可以忽略。語音辨識亦可視為分類問題，自動在統計式語音辨識中，我們的目的是要找出一句最接近代測語音之文句，其中我們可以藉由統計的方法來測量一段語音跟一句文句的相似程度，然後以機率的量值來代表其之間的相似程度值，這樣一來，我們便可以從搜尋最大相似度的角度來看待語音辨識的問題。目前已廣泛地被使用的統計式語音辨識技術，其架構主要可區分為特徵擷取 (Feature Extraction)、聲學模型(Acoustic Model)訓練、語言模型(Language Model) 訓練和聲學比對(Acoustic Matching)與語言解碼(Linguistic Decoding)等四個部分，如下圖，以下分四部分作介紹。. 3.

(12) 圖 1-1 自動語音辨識流程. （一）特徵擷取(Feature Extraction) 語音辨識中的特徵擷取是指從輸入的原始語音訊號尋找計算出有代表性的資訊，常見用於語音辨識的特徵擷取有下列幾項：限性預測係數 (Linear Prediction Coefficients, LPC)[Makhoul, 1975]、感知線性預測係數(Perceptual Linear Prediction Coefficients, PLPC)[Hermansky, 1990]、最大相似度線性轉換(Maximum Likelihood Linear Transformation, MLLT)[Gales, 1998] 、梅爾倒頻譜係數 (Mel-Frequency Cepstral Coefficients, MFCC)[Davis and Mermelstein, 1998]等不同的語音特徵，現今語音辨識最常使用的是梅爾倒頻譜係數，因為其以類似人耳的方式對音頻進行處理，可以有效提高語音辨識的效能。梅爾倒頻譜係數的特徵擷取過程可以分為以下幾個階段：預強調 (Preemphasis)、音框化(Windowing)、離散傅立葉轉換(Discrete Fourier Transform, DFT)、梅爾三角濾波器組處理(Mel-Scaled Triangular Filterbank Processing)、離散餘弦轉換(Discrete Cosine Transform, DCT)、對數能量(Log Energy)運算及時間差量(Time Derivation)運算等。. 4.

(13) GMM 忽略了不同特徵維度之間的相關性，而梅爾倒頻譜係數因為進行了離散餘弦轉換降低了維度之間的相關性，所以可以在 GMM-HMM 上得到不錯的效果。但是隨著深度學習被應用在語音辨識系統，類神經網路能夠自動學習到音訊的規則，所以更接近原始語音訊號的 Filter Bank 能得到更好的辨識結果。. （二）聲學模型(Acoustic Model) 在大詞彙的自動連續語音辨識中，聲學模型使用比詞更小的單位建立模型如子詞 (Sub-word Unit)單位、音素(Phone)或音節(Syllable)等，然後利用發音詞典將小單位層級轉換成詞層級。因為語音具有時序性，而馬可夫模型可以模型化輸入資訊的前後相關性，又考慮到聲學資訊的複雜程度，所以聲學模型在建模時，常使用隱藏式馬可夫模型 (Hidden Markov Model, HMM)[Rabiner, 1989]。現今常用於語音辨識的 HMM 是具有三個狀態且每個狀態中都會有對每個音框(Frame)所形成的語音特徵參數向量之觀測機率分佈(Observation Probability Distribution)和相對應的狀態轉移機率 (State Transition Probability)，用來決定是否要停留在此狀態或是轉移到下個狀態。傳統的高斯混和模型–隱藏式馬可夫模型(GMM-HMM)是指 HMM 的觀測機率是由高斯混和模型所構成，而深層類神經網路–隱藏式馬可夫模型(DNN-HMM) 則是指 HMM 的觀測機率由 DNN 所產生。近年來 DNN 已經慢慢取代以往的 GMM，最主要的幾個原因是：第一、DNN 在建模時不需要假設特徵分佈是由高斯分佈或是其它種機率分佈組成，所以具有更高的彈性，第二、GMM 只能使用單個音框作為輸入，而 DNN 能夠通過拼接鄰近的音框捕捉有效的上下文訊息。. 5.

(14) 圖 1-2 GMM-HMM 與 DNN-HMM 的比較. 常見的聲學模型訓練準則(Training Criteria)有以下幾種：最大化相似度訓練法 (Maximum Likelihood, ML)[Bahl et al., 1983]、最大化交互資訊(Maximum Mutual Information, MMI)[Bahlet al., 1986]、最小化分類錯誤(Minimum Classification Error, MCE)[Juang and Katagiri,1992] 或是最小化音素錯誤 (Minimum Phone Error, MPE)[Povey,2004]。. （三）語言模型(Language Model) 語言模型希望能將文字文本中的上下文意、文法、用詞等隱含的資訊用數學模型模型化，可以用於判斷新的文句是否符合訓練文本的語言特性，不同於聲學模型考慮聲音，語言模型只考慮文字層級的資訊。語言模型通常會被假設成機率模型，最主要的問題要解決文句發生的機率也就是下式：. 𝑊 ∗ = argmax P(𝑊) = argmax 𝑊. 𝑊. P(𝑤𝑖 |ℎ𝑖−1). ∏ 𝑤∈𝑊,ℎ∈𝐻. 6. (1-2).

(15) 𝑊代表的是文句、𝑤代表的是文句中的詞、ℎ代表𝑤發生前的事件，在這裡可以直接解是成𝑤之前的歷史詞，當P(𝑊)越大代表文句𝑊越符合訓練文本的語言特性，自動語音辨識便是希望透過語言模型找出最符合訓練文本的語句𝑊 ∗ 。因為在統計上很難考慮所有的歷史詞，考慮的歷史詞越多所需的參數空間也會越大，所以為了縮減參數的估計目前最廣泛使用的語言模型是 N 連詞語言模型。 𝑖−1 它是基於以知的 N-1 個歷史詞判斷當前詞的機率，也就是P(𝑤𝑖 |ℎ𝑖−𝑁 )，一般為了. 減少參數量會使用二連詞(Bigram)或是三連詞(Trigram)。但是使用這樣的近似估計除了得到較容易估計的優點外也會產生丟失太多歷史詞資訊的缺點，且因為是統計產生的模型，所以常會產生某些冷門詞機率太小甚至為零的情況。平滑化 (Smoothing)常會被使用來解決這樣的問題，常見的機率模型平滑化有 Katz 平滑化法[Katz, 1987]和 Good-Turning 平滑化法[Good, 1953;Chen and Goodman, 1999] 等。其概念是將訓練語料中每個詞序列出現的統計次數依照各式比例原則折扣部份次數，再把這些次數以各式比例原則分派給在訓練語料中沒有出現的其它詞序列，以解決機率為零之問題。. （四）語言解碼(Linguistic Decoding) 透過輸入語句的特徵向量在聲學模型上計算音素的事後機率，以及所形成詞序列 (Word Sequence)之語言模型機率，結合兩種機率我們可以找出最有可能的詞序列。一般我們會使用維特比動態規劃搜尋 (Viterbi Dynamic Programming Search)[Viterbi, 1967]，結合聲學相似度和語言模型之機率去有效率地找出可能的詞序列。此外，由於龐大的詞彙量與複雜的語言模型會使得搜尋的空間呈現指數型態的成長，為了降低搜尋的空間複雜度及加快辨識速度，一般會分成兩個階段做處 7.

(16) 理。第一階段使用聲學模型和較低階的語言模型進行詞彙樹動態規劃搜尋，以及利用語言模型前看(Language Model Look-ahead)[Aubert, 2002]技術、聲學前看與光束搜尋(Beam Search)等技術減少搜尋所需的空間與時間，捨棄機率較低的詞序列來產生最佳詞序列和詞圖(Word Graph)。第二階段則是使用更高階的語言模型如類神經網路語言模型(Neural Network Language Model, NNLM)，結合其它的信心度分數(Confidence Score)對詞圖重新進行動態規劃搜尋，一般通稱為重新計分(Rescoring)，分為詞網重新計分(Lattice Rescoring)和 N 條最佳詞序列重新排序(N-Best Re-ranking)，來找出 N 條最佳詞序列(N-Best)。由於詞圖所產生的最佳詞序列，並不一定是詞錯誤率(Word Error Rate) 最低的詞序列。因此有許多研究透過改變語言模型的訓練準則以最小化詞錯誤率 (Minimum Word Error Rate)當作目標訓練語言模型，期望能從 M 條最佳詞序列中找出詞錯誤率最低的詞序列，作為最後的輸出結果。. 1.3 語言模型的用途語言模型的目的是將一段文字文本建立模型，文字文本可以是一條句子也可以是一篇文章，甚至可以是百萬篇文章集合，將這些文字文本建模後我們可以將之運用在許多自然語言處理的任務上。在語音辨識任務中，我們會需要找出一條句子，其最符合訓練文本的用詞與文法特徵，此時語言模型就常用於計算某句子被模型產生的機率，也就是下式：. (1-3). P(𝑊|𝑀). 𝑀是使用訓練文本訓練的模型，𝑊是欲估測的句子，在語音辨識任務中，語言模型的存在，可以保證辨識出來的句子有文法上的合理性，概念上類似人類聽語句時不只會聽聲音還會用上下文推敲。 8.

(17) 在資訊檢索或摘要任務中，我們會需要比較兩段文字間的差異程度，例如資訊檢索中，需比較查詢句與每篇文章之間的差異度，當句子和文章都轉成語言模型，問題就變成計算兩個機率模型之間的差異，但是兩個機率模型難以直接計算距離，所以我們常會使用KL散度(Kullback–Leibler divergence, KLD) [Kullback, 1951]估算之間的差異，原理是計算理論分布近似到觀察分布所要損失的成本，如下式：. 𝐷𝐾𝐿 (𝑃||𝑄) = − ∑ 𝑃(𝑖) ln 𝑖. 𝑄(𝑖) 𝑃(𝑖). (1-4). 𝑃為觀察到的數據分布，𝑄是理論分布，這裡採用的是離散的KL散度，因為語言模型多半是離散的機率分布，在資訊檢索任務中，𝑃為被檢索的文章，而𝑄為欲檢索的查詢句，目標找到一些文章，能夠讓查詢句近似文章時，所付出的成本比較少。另一種常見的語言模型應用是句子的生成，我們如何利用語言模型，生成與訓練文本相似的句子，當訓練好一個語言模型後，我們可以決定一個種子文本 (Seed Text)，藉由計算給定種子文本輸出最大機率的句子，我們也將這種技術稱為序列對序列(sequence to sequence)，如下式：. 𝑊 ∗ = argmax P(𝑊|𝑆, 𝑀). (1-5). 𝑊. 𝑆指的是種子文本，𝑀指的是訓練好的語言模型，𝑊是生成的句子，此類方法也被廣泛應用在機器翻譯(Machine Translation, MT)、問答系統(Question Answering, QA)。. 9.

(18) 1.4 會議語音辨識的困境會議語音辨識是一項困難的任務，它具有非常多困境如內容廣泛、吵雜環境和遠距語音、多語言混雜、偏即性口語、巨量詞彙等(圖 1-3)。「內容廣泛」指的是，會議語音不像是新聞報導或朗讀等事先限定內容的語料，許多時候只有一個題目，與會者便使用自己的方式自由闡述，造成會議內容較為雜亂；「吵雜環境和遠距語音」是因為開會地點通常不是專業的錄音環境，所以會有一些無法預期的噪音，且麥克風有時是桌上型麥克風導致收音不佳；「多語言混雜」在一些專業領域的討論中常會出現，我們所使用的「華語會議語音」中，與會者討論許多關於語音技術的議題，造成裡頭有許多中英文混雜；「偏即性口語」指的是每名語者有自己的講話方式，這些個人的口語習慣或稱特殊因子 (specific factor)容易導致 ASR 系統的錯誤率上升[Mustafa, 2015]；「巨量詞彙」是詞彙量受到上述的內容廣泛和多語言混雜以及偏即性口語等影響，以致於詞彙量爆增，ASR 系統需要搜尋的詞圖也會遞增。本篇論文主要針對「偏即性口語」，希望能改善一般化的 ASR 難以應對特殊的口語習慣的問題。. 圖 1-3 會議語音的問題與挑戰. 10.

(19) 1.5 本論文研究內容與貢獻一、本論文彙整過去語言模型的演進以及近年來關於類神經網路語言模型調適用於自動語音辨識的研究，以及會議自動語音辨識的相關論文，期望能建立完整的語言模型發展脈絡，提供語言模型的相關研究一個具有價值的參考。二、過去的會議語言模型調適並沒有考慮不同的語者會有不同的講話方式，而是將整個文本訓練一個語言模型，為了能讓語言模型能夠針對不同的語者作出相應的調整，所以本篇論文提出語者調適用於語言模型的方法，用於語者調適的輔助特徵必須要含有語者的特徵，本論文提出幾種利用訓練文本提取語者資訊的方法，主要分為三類: I.. 第一類是利用傳統的單詞語言模型(Unigram)模組化語者資訊，將語者表示成單詞模型，單詞語言模型可以將文本投影到維度為詞典 (Lexicon)大小的空間中的一個向量或是一個點，此種將某種特徵表示成單詞模型的方法也可稱為詞袋模型的特徵表示法(Bag of words representation)，因為是將「已知」的語者模型化所以此類方法訓練和測試階段必須都有句子的語者資訊。. II.. 第二類則是利用摺積式類神經網路對整個句子作語者辨識，取中間的隱藏層當作該句子的語者資訊，也就是做一個類神經語者資訊擷取器(Neural Speaker Information Extractor)，這類方法只需要訓練資料含有語者資訊，測試資料並不需要，實驗中會以 AMI 當作語料庫比較這兩類方法與傳統方法的差異。. III.. 第三類則是利用注意力(Attention)機制，讓模型自動決定輸入的詞序列是屬於哪一名語者，使用注意力機制決定權重將每個語者的模型混和並預測下一個詞。 11.

(20) 1.6 論文架構本論文的後續章節安排如下: 第二章介紹過去經典的語言模型包含 N 連詞語言模型、類神經網路語言模型以及語言模型用於會議語音的相關研究。第三章介紹遞迴式類神經網路用於自動語音辨識的語言模型。第四章介紹本篇論文所使用的語者特徵擷取的方法以及類神經網路語言模型的調適方法。第五章介紹實驗的環境設定。第六章是實驗的結果和分析。第七章是結論與未來展望。. 12.

(21) 第2章. 文獻探討. 語言模型是一種企圖將人類語言模組化的技術，過去有許多研究人類文法並將之轉為機器能理解的決策樹(Decision Tree)等模型，但是當文字資料大量產生，統計式的方法效果顯著的提升，到了近代人們對語言模型的認知已經幾乎與統計式語言模型畫上等號，統計式語言模型的基本概念可以追朔到 1941 年，Shannon 提出了利用預測下一個文字的方式來提取人類的語言知識，並且使用這樣的概念有效的降低英語文本的亂度[Rosenfeld, Ronald, 2000]，在 1980 年以後許多著名的統計式語言模型誕生並改善許多自然語言處理(Natural Language Processing, NLP)的任務，以下會介紹最廣泛應用於語音辨識任務的 N 連詞模型、能找出隱藏文章主題的機率式潛在語意分析、能夠觀察長距離的歷史詞的類神經網路語言模型。近年來類神經網路的興起也使語言模型的研究得到很大的突破，資料量和運算速度的大為提升使得數據驅動(Data-driven)的類神經網路取得很大的成功，它可以藉由將詞彙投影到連續空間中來表示詞彙間的語意關係，除此之外，類神經網路不像 N 連詞語言模型只能考慮前 N-1 個詞，遞迴式類神經網路的設計可以考慮所有歷史詞來估算語言模型的機率。雖然通用型(General Purpose)的資料越來越充足但是實際要應用到個人化的系統時還是會遇到領域(Domain)資料量不足的問題，為了解決領域資料量不足便有了將通用型知識應用到領域任務中的方法，將現有已經訓練完成的通用型語言模型經過適當的調整使之能更好的應用在領域任務上的方法稱之為語言模型調適(Language Model Adaptation)。以下第一部分會先對統計式語言模型做詳盡的介紹以及介紹幾個具有代表性的傳統語言模型，第二部分介紹現今廣泛用於各個分類任務的遞迴式神經網路. 13.

(22) 和摺積式類神經網路以及它們在語言模型上應用，第三部分會針對語言模型的調適作詳盡的介紹。. 2.1 統計式語言模型(Statistical Language Modeling) 統計式語言模型的研究大致上可以分為四個面向，包括有：語料的前處理技術 (Corpus Preprocessing)、語言模型的建模(Modeling)、語言模型調適(Adaptation)和語言模型訓練的目標函數(Training Criteria)。. 圖 2-1 語言模型研究的四個面向. 在語料前處理技術(Corpus preprocessing)中，主要有兩個議題被探討著，文件資料的收集(Data collection)、以及斷詞(Word segmentation)處理。文件資料的收集是指如何有效地收集文件語料、用人造的方式創造一些訓練文件等，而斷詞研究則是指如何將詞彙和詞彙分開，以便後續研究能從詞級(Word Level)的面向切入， 14.

(23) 這在中文或日文等語言尤其重要，國內有許多斷詞系統，他們結合各種自然語言處理的技術(例如詞性規則(Part Of Speech, POS) [Chen and Ma 2002; Tsai and Chen 2004]，讓文件中的詞可以判斷得更準確，除此之外，也有研究學者提出如何使用未經斷詞的原始語料(Raw Data)訓練語言模型[Mori and Takuma 2004]。在語音辨識中，通常都會事前收集一組大量的文字語料(Text Corpus)，即所謂背景語料(Background Corpus)，用以訓練一個具廣泛預測能力的背景語言模型 (Background Language Model)。但是由於人類的語言、每個人的用字遣詞或是隨著時空轉變所新生成或常用的詞彙皆具有很大的相異性，因此我們會收集一份與目標(測試)語料(Testing Corpus)高度相關的少量語料，即所謂調適語料(Adaptation Corpus)，將調適語料中擷取的資訊對背景語料資訊進行調適，組成一個更符合辨識環境的語言模型。模型插補法 (Model Interpolation) 與詞頻數混合法 (Count Merging)是常見的語言模型調適法[Bacchiani and Roark 2003; 蔡文鴻 2005]。近年來，語言模型調適著重於非監督式調適(Unsupervised Adaptation)，例如運用於會議即時語音轉寫(Meeting Transcription)[Tur and Stolcke 2007]、廣播新聞即時轉寫 (Broadcast News Transcription)[Chen et al. 2003] 或是課程即時轉寫 (Lecture Transcription)[Novak and Mammone 2001]等。這類型的調適法主要是先透過語音辨識技術對少量的語音語料進行辨識，得到相對應的最佳辨識文字結果或是 N 條最佳辨識結果(N-Best List)，再從中擷取資訊調適背景語言模型或是使用各種方式運用於語音辨識上。語言模型訓練的研究則是在探討使用各種訓練準則(Training criterion)於語言模型。最大化相似度估測(Maximum Likelihood Estimation, MLE)是傳統語言模型主要的訓練準則，其訓練目標是期望語言模型生成訓練語料的相似度越高越好；近年來，使用鑑別式訓練的語言模型興起，這類語言模型多是以各種語言特徵 (Features)為基礎，透過定義各式各樣的減損函數，採用各種鑑別式訓練找出每一個特徵相對應的模型參數，這類型的語言模型稱之為鑑別式語言模型。 15.

(24) 語言模型的建模是指用不同的思路去理解文字，有些研究以單詞的詞頻 (Term frequency)當作建模依據，有的則考慮詞與詞之間的相互關係，最近的類神經網路的崛起也對語言模型的建模帶來新的思路，以下介紹兩種經典的語言模型建模。. 2.1.1 N 連詞語言模型(N-gram Language Model) N 連(N-gram)語言模型是最為人所知且廣泛地運用於各種自然語言處理領域。N 連語言模型可以追溯至 Claude Elwood Shannon 在資訊理論中所提出的研究成果，他以英文為研究對象，觀察在給定一串字母序列後，預測下一個最可能出現的字母會是什麼，並且藉由馬可夫假設，探討每一個字母出現的可能性僅與前 N-1 個字母有關，這就是至今最為人所熟知的 N 連語言模型。N 連語言模型嘗試紀錄詞與詞之間共同出現的關係，估測每一個詞在其先前緊鄰 N-1 個詞已知的情況下出現的條件機率，並以多項式(Multinomial)分布表示之，故下式可簡化為[Jelinek 1991]：. 𝑚. 𝑃(𝑊) = 𝑃(𝑤1 ) ∏ 𝑃(𝑤𝑖 |𝑤𝑖−𝑛+1 , … , 𝑤𝑖−1 ). (2-1). 𝑖=2. 由於詞與詞序列有相當多種排列組合，致使 N 連語言模型的參數量相當可觀。 N 連語言模型常會因為訓練語料的不足而限制其 N 值的大小(通常 N 設為 2 或 3)，以致於它僅能用以計算短距離詞彙的接連機率，而缺乏擷取出語句中所隱含的語意資訊之能力。. 16.

(25) 2.1.2 機率式潛在語意分析(Probabilistic latent semantic analysis). 圖 2-2 PLSA 示意圖機率式潛藏語意分析(Probabilistic Latent Semantic Analysis)[Hofmann 1999;Glidea and Hofmann 1999]是由潛藏語意分析延伸發展而來；不同於潛藏語意分析以線性代數的方法尋找語料集中隱含的主要語意結構成分，機率式潛藏語意分析使用機率模型的方式，找出詞與文件之間的主題資訊。機率式潛藏語意分析可視為是一種觀點模型(Aspect Model)，透過一組隱藏變數的機率分布，達到共同預測同一事件發生的可能性，而此組隱藏變數，就可以視為是一組潛藏主題，如下圖，藉由一組共享的隱藏主題𝑍 = {𝑧1 , 𝑧2 , … , 𝑧𝑘 }，來描述一個詞w出現於文件𝑑𝑚 中的機率， 𝑃(𝑧𝑘 |𝑑𝑚 )表示文件 d 與詞 w 的關係根據潛藏的主題機率分佈，而𝑃(𝑤|𝑧𝑘 )為詞𝑤 出現在潛藏主題𝑧𝑘 的機率:. 𝐾. (2-2). P(𝑤|𝑑𝑚 ) = ∑ 𝑃(𝑤|𝑧𝑘 )𝑃(𝑧𝑘 |𝑑𝑚 ) 𝑘=1. 機率式隱藏語意分析的參數分別為每一個詞𝑤在每一潛藏主題𝑧𝑘 下的機率值以及每一篇文件的主題機率分佈，這些參數可以經由最大化訓練語料中每一文件的對數相似度，已期望值最大化法(Expectation-Maximization, EM)求得:. 17.

(26) 𝐾. L = ∑ ∑ 𝑐(𝑤𝑗 , 𝑑𝑚 )log⁡(∑ 𝑃(𝑤𝑗 |𝑧𝑘 )𝑃(𝑧𝑘 |𝑑𝑚 )) 𝑚. 𝑗. (2-2). 𝑘=1. 其中Z = {𝑧1 , 𝑧2 , … , 𝑧𝑘 }為一組潛藏主題，𝑃(𝑤𝑗 |𝑧𝑘 )與𝑃(𝑧𝑘 |𝑑𝑚 )參數使用期望值最大化求得，𝑐(𝑤𝑗 , 𝑑𝑚 )表示𝑤𝑗 出現在文件𝑑𝑚 中的次數。. 2.2 類神經網路(Artificial Neural Networks) 直到近年來，類神經網路的崛起使得各項領域的研究都有所突破，類神經網路對於分類問題有者過去傳統方法所無法比擬的強大能力，在語言模型上也取得巨大的成功，藉由將語言模型轉化成分類問題，類神經網路能自動歸納複雜未經整理的特徵，從中找出抽象的概念以提升分類的準確性。人工類神經網路(Artificial Neural Networks, ANN)是為了讓電腦具備與人類一樣的學習能力，1981 年，美國神經生物學家 David Hubel 和 Torsten Wiesel 對於動物視覺系統的處理信息方式有了進一步的了解經過觀察動物頭腦對光影變化的反應，Hubel 和 Wiesel 發現，不同的視覺神經元對於不同影像下的反應也會有所差異；也就是說在不同情形下的視覺神經元有著不同的活躍程度，每個神經元在意的細節都不一樣，在實驗中有些神經元只會對圖像的某些特定細節產生反應。生物學上的神經元研究，啟發了人工智慧領域關於「類神經網路」的概念。神經系統由神經元構成，彼此間透過突觸以電流傳遞訊號。是否傳遞訊號、取決於神經細胞接收到的訊號量，當訊號量超過了某個閾值(Threshold)時，細胞體就會產生電流、通過突觸傳到其他神經元。 18.

(27) 2.2.1 深層類神經網路(Deep Neural Networks) 深度類神經網路顧名思義就是一個多層架構的網路，隨著硬體設備的增強，多層架構不再被視為空談，多層的架構所能提供的好處是可以擷取更加抽象的特徵，壞處則是我們很難理解裡頭抽象的特徵所代表的意義，參數的更新則是使用反向傳播演算法(Backpropagation)。深層類神經網路其實是一種資料投影的過程，將資料投影至抽象空間再投影到目標空間中的方法，以文字處理為例，先將文字投影至連續空間中（也就是 Encoding），再將連續空間的向量或點投影至不同的語意空間，最後投影到目標空間（也就是 Decoding），訓練時就是將預測的結果與真實目標計算差異（指的是 Loss)，以這個差異回推更新所有參數（反向傳播演算法）。. 2.2.2 遞迴式類神經網路(Recurrent Neural Networks) 遞迴式類神經網路(Recurrent Neural Networks)是為了處理有時序的特徵，最早是使用在手寫數字辨識，在近年，遞迴式類神經網路被廣泛應用在語音辨識領域，因為語音訊號具有明顯的時序性。遞迴式類神經網路主要概念是將上一個時間點的隱藏層傳遞至現在這個時間點。遞迴式類神經網路會遇到梯度消失或爆炸 (Gradient Vanishing or Exploding)問題，由於誤差在經過多次傳播後會乘以權重無數次，到最後可能就會接近於零或是指數式的爆炸，所以長短期記憶(Long ShortTerm Memory, LSTM)被拿來解決這個問題，他利用閥門(Gate)的概念決定要留下或丟掉多少資訊，LSTM 在語言模型領域與其他類神經網路結構相比有目前最好的表現。 19.

(28) 2.2.3 摺積式類神經網路(Convolutional Neural Networks) 摺積式神經網路(Convolutional neural networks, CNN)將特徵擷取的部分交由一個或多個摺積層和池化層(Pooling layer)組成，輸出層還是依照任務需求使用全連通層(Fully connected layer)。摺積層是利用過濾器(Filter)對原始特徵進行轉換，將鄰近的特徵經過轉換後得到新的特徵，這樣的結構使得摺積神經網路能夠利用輸入資料的二維結構。與其他深度學習結構相比，摺積神經網路在圖像和語音識別等方面扮演重要的角色。此模型也可以使用反向傳播演算法進行訓練。比起前饋式神經網路，摺積神經網路需要估計的參數更少，使之在特徵有鄰近關係時成為目前最好的特徵擷取結構。. 2.2.4 類神經網路語言模型(Neural Network Language Model). 圖 2-3 類神經網路語言模型的歷史 20.

(29) 類神經網路在語言模型的應用最早是 Yoshua Bengio 在 2003 年提出的，他將 N 連詞的估測交由類神經網路計算，為了改善 N 連詞資料太過稀疏的缺點，他也將一個重要的概念 ─ 詞嵌入 (Word Embeddings) ，應用在類神經網路語言模型中 [Yoshua Bengio, 2003]，在 2010 年，Tomáš Mikolov 提出了遞迴式類神經網路語言模型(Recurrent Neural Network Language Model, RNNLM)，讓語言模型不再受到 N 連詞的限制，歷史詞不再只能是 N-1 個詞，但是缺點是模型難以訓練，且容易遇到梯度消失或爆炸(Gradient Vanishing or Exploding)的問題[Tomáš Mikolov, 2010]，2012 年 Martin Sundermeyer 提出了利用長短期記憶語言模型解決這個問題[Martin Sundermeyer, 2012]，至此 LSTM 語言模型一直是最好的語言模型架構，但是也有一些人試圖使用其他架構建模，例如 Yann N. Dauphin 在 2016 年提出了在摺積式類神經網路上面加上閥門(Gate)，能稍微的改善語言模型，但是也因為他複雜的網路導致訓練不易等問題[Yann N. Dauphin, 2016]。類神經網路語言模型因為執行效率差所以難以用在第一階段解碼(First Pass Decoding)，所以通常用在第一階段結果的重新打分，又因為執行效率的問題，幾乎只能將類神經網路應用在候選詞序列(N-best)的重新打分，而不能應用在詞網 (Lattice)，為了解決這個問題，Xunying Liu 提出了近似的方法，藉由減少詞網的分支加速詞網重新打分，雖然因為是近似的方法所以會使得結果略遜於候選詞序列重新打分，但是他的方法使類神經網路語言模型也能有效地應用在詞網重新打分。. 21.

(30) 圖 2-4 前饋式類神經網路語言模型. 圖 2-5 遞迴式類神經網路語言模型. 22.

(31) 2.3 語言模型調適(Language Model Adaptation) 語言模型調適指的是當訓練文本的資訊不足時，利用額外資訊輔助訓練，額外資訊可以是外部的大型通用語料庫，也可以是內部的額外資訊如環境資訊、語者資訊等。語言模型調適的概念最早可以追朔到 Kuhn 開發了快取模型[Kuhn, 1990]，它是一種無監督訓練(Unsupervised Training)的方法，其假設文件中較早出現的單詞較可能再次出現，快取的概念也被用來增加文件中不存在但是和該文件有相關的詞的概率。 Gokhan Tur 提出了一種語言模型調適應用於會議語音辨識，其利用會議主題對語言模型進行調適[Gokhan Tur, 2007]。Liu, Yang 提出利用專有名詞 (Named Entity)訊息進行主題分析和通過潛在狄利克雷分配(LDA)進行語言模型調適[Liu, Yang, 2008]。隨著神經網絡的發展，ASR 語言建模也取得了很大的進展。基於 NN 的語言模型通常用於候選詞序列(N-best)和詞網(lattice)重新編碼以改善 ASR 結果。 Kombrink 使用基於類別的遞歸神經網絡(Class-based Recurrent Neural Network)的語言模型來改進會議語音辨識器。神經網絡語言模型調適的一些研究是將輔助特徵加入主要特徵的隱藏層 (Hidden Layer)中，Chen, Xie 利用潛在狄利克雷分配(LDA)和層次狄利克雷過程 (Hierarchical Dirichlet Processes, HDP)提取主題訊息，然後利用這些特徵來調適 RNN 類的語言模型。一些研究除了使用主題訊息外，還利用未來的訊息來調適語言模型。Chen, Xie 和 Liu, Qi 提出了利用未來訊息來改善詞網重新計分而不是只像雙向 RNNLM 改善最佳詞序列重新計分的方法。Ma, Min 提出了四種調適架構改善 ASR，得到的結論是輔助資訊運用在越前面的層會得到比較好的結果。. 23.

(32) 語言模型的調適是指運用輔助資訊，重新調整原有的語言模型的機率分佈，大概的流程如下圖，先以訓練語料將背景語言模型訓練好，接著從調適語料中擷取調適用的資訊，最後用一些模型調適的技術，將原有的語言模型調適成更適合測試環境的機率分佈。常見將調適後的機率分佈與原有的語言模型的機率分佈結合的方式有下列兩種，線性差值(Linear interpolation)和對數線性差值(Log-linearly interpolation): 線性差值:. 𝑃𝑐 (𝑤𝑡 |𝑤1𝑡−1) = (1 − ⁡ 𝜆1 )𝑃𝑜 (𝑤𝑡 |𝑤1𝑡−1 ) + 𝜆1 𝑃𝑎 (𝑤𝑡 |𝑤1𝑡−1). (2-3). 對數線性差值:. 𝑃𝑐 (𝑤𝑡 |𝑤1𝑡−1) = 𝑃𝑜 (𝑤𝑡 |𝑤1𝑡−1 )(1−⁡ 𝜆2) 𝑃𝑎 (𝑤𝑡 |𝑤1𝑡−1)𝜆2. (2-4). 𝑃𝑐 指的是結合出來的語言模型，𝑃𝑜 則是原有的語言模型，𝑃𝑎 則是調適後的語言模型。. 圖 2-6 語言模型的調適流程圖 24.

(33) 第3章. 遞迴式類神經網路用於自動語音辨識之語言模型. 類神經網路的崛起，提升了許多自然語言領域任務的精準度，其中對語言模型任務也有莫大的幫助。在P(𝑊) = ∏𝑤∈𝑊,ℎ∈𝐻 P(𝑤𝑖 |ℎ𝑖−1)的假設下（也就是假設句子 𝑊 = 𝑤1 , 𝑤2 , 𝑤𝐾 的機率是由每個詞的條件機率相乘而得），藉由將語言模型任務視為分類任務（將輸入的歷史詞分成 K 類，K 是詞典大小），使得類神經網路得以運用其中，更好的估測下一個詞的機率。以下的小節會探討，遞迴式類神經網路如何運用在語言模型，以及類神經網路語言模型在自動語音辨識中扮演怎麼樣的角色。. 3.1 遞迴式類神經網路語言模型遞迴式類神經網路的出現，改善了有時序特徵的預測任務，遞迴式類神經網路 (Recurrent Neural Network, RNN)藉由將前一個時間點的資訊傳遞給下一個時間點作輔助，來幫助下一個時間點的預測，相較於前饋式類神經網路，遞迴式類神經網路可以處理更長遠的時序特徵，但是會碰到梯度消失或爆炸的問題。. 3.1.1 長短期記憶(Long Short-Term Memory) 為了解決梯度消失或爆炸，長短期記憶(Long Short-Term Memory, LSTM)被提出來，藉著閥門的結構，控制資訊保留或丟棄，以達到防止梯度消失或爆炸，長短期記憶的遞迴式神經網路也時常被當作目前最好的類神經語言模型，以下是長短期記憶的詳細架構： 25.

(34) 𝑓𝑡 = 𝜎(𝑊𝑓𝑥 𝑥𝑡 + 𝑊𝑓ℎ ℎ𝑡−1 + 𝑏𝑓 ) 𝑖𝑡 = 𝜎(𝑊𝑖𝑥 𝑥𝑡 + 𝑊𝑖ℎ ℎ𝑡−1 + 𝑏𝑖 ) 𝑜𝑡 = 𝜎(𝑊𝑜𝑥 𝑥𝑡 + 𝑊𝑜ℎ ℎ𝑡−1 + 𝑏𝑜 ) 𝑐̅𝑡 = tanh(𝑊𝑐𝑥 𝑥𝑡 + 𝑊𝑐ℎ ℎ𝑡−1 + 𝑏𝑐 ) 𝑐𝑡 = 𝑓𝑡 ∗ 𝑐𝑡−1 + 𝑖𝑡 ∗ 𝑐̅𝑡 ℎ𝑡 = 𝑜𝑡 ∗ tanh(𝑐𝑡 ). 圖 3-1長短期記憶架構 𝑓𝑡 指的是遺忘閥(forget gate)，𝑖𝑡 指的是輸入閥(input gate)，𝑜𝑡 指的是輸出閥(output gate)，𝑐𝑡 指的是記憶元(memory cell)，ℎ𝑡 指的是輸出的隱藏層(output layer)，LSTM 的設計與傳統RNN的不同是使用一個記憶元來保存需要的資訊，使用前一個時間點的隱藏層和現在時間點的輸入來決定三個閥門的值，輸入閥決定現在時間點的資訊要保留多少，遺忘閥則是決定前一個時間點的資訊要丟棄多少，最後輸出閥決定記憶元要有多少資料輸出給下一層，LSTM因為有遺忘閥的設計，可以有效的解決梯度消失或爆炸的問題。因為LSTM能很好的解決梯度消失問題，且在語言模型上的表現優於大部分的RNN架構，所以現今類神經網路語言模型多半採用LSTM，以下是LSTM語言模型的架構。. 26.

(35) 𝑒𝑡 = 𝐸(𝑥𝑡 ) ℎ𝑡 = 𝐿𝑆𝑇𝑀(𝑒𝑡 , ℎ𝑡−1 , 𝑐𝑡−1 ) 𝑝𝑡 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑊ℎ𝑦 ℎ𝑡 + 𝑏ℎ𝑦 ) 𝑦𝑡 = argmax(𝑝𝑡 ). 圖 3-2 LSTM語言模型 LSTM語言模型的測試階段，先將詞的獨熱編碼(One-Hot Encoding)，也就是維度為詞典大小的空間，經過嵌入層投影到維度較小的語意的連續空間中，接著使用LSTM將過去時間點的資訊加入計算，最後解碼回維度為詞典大小的空間中，並且使用歸一化指數函數(Softmax)將輸出變成機率和為1。在訓練階段，訓練的準則(Training Criterion)是交互熵值(Cross-Entropy)，訓練的演算法則是時序性倒傳遞演算法 (Backpropagation Through Time) [Werbos, 1990]。. 3.1.2 時序性倒傳遞演算法推導與倒傳遞演算法不同的地方，遞迴式類神經網路是利用時間的變化來調整權重值，也就是說會調整不只一次且經由不同時間點上的隱藏層資訊來進行調整。在時間點t 所使用的權重是過去時間點所累積的，但利用此方法必須要記錄所有歷史資訊及過去的網路狀態，這將造成記憶體不足和運算量倍增的問題。因此需定義一個變數𝜏當作遞迴的次數[Bengio et al., 1994]，以此來決定想使用多少的歷史資訊，並且忽略掉更早之前的資訊。如前述所提到，假使網路是穩定的話，則權重的更 27.

(36) 新量將會隨著時間越來越小，這是因為網路倚靠有力的小幅度回饋來增加強度。換句話說，將更早之前的資訊忽略掉並不會造成太大的問題，透過多次的回饋則可彌補此缺點。其中，誤差函數則增加了時間上的累計，如式(3-1)所示。𝐸𝑡𝑜𝑡𝑎𝑙 (𝑇 − 𝜏 + 1, 𝑇) 則代表從時間點𝑇 − 𝜏 + 1到𝑇的誤差總和，𝑇 為目前的時間點。. 𝑇. 𝐸𝑡𝑜𝑡𝑎𝑙 (𝑇 − 𝜏 + 1, 𝑇) =. ∑. (3-1). 𝐸(𝑡). 𝑡=𝑇−𝜏+1. 由於推導過程大致和類神經網路相似，在此就將兩者之間的差別點出。其中隱藏層和輸出層間更新權重𝑊的部分和類神經網路相同，式(3-2)則是表示權重𝑉 與權重𝑈在輸入層和隱藏層間的關係。. 𝑦𝑗 (𝑡) = 𝑓(∑ 𝑣𝑗𝑖 𝑥𝑖 (𝑡) + ∑ 𝑢𝑗𝑗 𝑦𝑗 (𝑡 − 1)) 𝑖. (3-2). 𝑖. 因此權重V與權重U的更新量可以由式(3-3)和式(3-4)來求得。. 𝑇. 𝜕𝐸𝑡𝑜𝑡𝑎𝑙 (𝑇 − 𝜏 + 1, 𝑇) ∆𝑉 = −𝜂 = −𝜂 𝜕𝑉. ∑ 𝑡=𝑇−𝜏+1. 𝜕𝐸𝑡𝑜𝑡𝑎𝑙 (𝑇 − 𝜏 + 1, 𝑇) ∆𝑈 = −𝜂 = −𝜂 𝜕𝑈. 𝑇. ∑ 𝑡=𝑇−𝜏+1. 𝜕𝐸(𝑡) 𝜕𝑉. (3-3). 𝜕𝐸(𝑡) 𝜕𝑈. (3-4). 所以我們可以得到前𝜏次的更新量，並用包含歷史資訊的權重來做預測。. 28.

(37) 3.1 類神經語言模型用於自動語音辨識遞迴式類神經網路在作預測時，需要經過數個矩陣運算，而不像傳統 N 連詞語言模型只需作查表。因為執行效能上的限制，所以難以將類神經網路語言模型使用在第一階段語音解碼，多半是使用在第一階段解碼過後獲得的詞網，將之重新打分，同樣因為執行效率，詞網直接重新打分並不切實際，詞網重新打分通常必須經過剪枝(Pruning)，另一種方式是藉由 N 連詞語言模型產生最佳候選詞序列，再將之重新排序，因為詞網重新打分需要剪枝，所以會喪失一些路徑，(表 3-1)是實驗中 1000 候選序列被詞網包含的查全率(Recall)。. 圖 3-3 詞網重新打分與 N 連詞重新打分. 29.

(38) 表 3-1 1000候選序列被詞網包含的查全率可以由表中發現，1000 候選序列有許多句子，沒有在詞網重新打分時被計算， 95~100%只佔全部的 64.68%，從下表的詞錯誤率中也可以發現，在我們的語料庫中，詞網重新打分並不會比最佳候選詞序列的結果來的好，根據前人的實驗同樣顯示最佳候選詞序列重新打分會比詞網重新打分的效果來的好[Liu, X, 2014]，依據此結果，我們的實驗會以最佳候選詞序列當作第二階段解碼的方法。詞錯誤率. 發展集. 測試集. 1000 候選詞序列重新打分. 21.17%. 20.41%. 詞網重新打分. 21.53%. 20.75%. 表 3-2詞網重新打分與最佳候選詞序列之比較. 30.

(39) 第4章. 語者調適用於會議語言模型. 會議語音辨識的待轉寫文件常會包含多個語者，每位語者之間其實會有一定程度的用語和講話習慣等差異，但是過去的會議語言模型並不會考慮，不同語者存在於同一個文本當中的問題，以下就是探討如何運用「訓練語料中的語者資訊」輔助訓練。在語音辨識的第一階段，如(4-1)式，𝑃(𝑊)由 N 連詞語言模型來估計，𝑃(𝑋|𝑊) 則由聲學模型估計，藉由兩種模型估計每條詞序列𝑊的分數，從無限制的詞網中修剪出屬於這句語音的詞網，由這些詞序列的詞組成詞網(Lattice)，如(4-2)。. 𝑊 ∗ = argmax𝑃(𝑊|𝑋) = argmax 𝑃 𝑊. 𝑊. 𝑃(𝑋|𝑊)𝑃(𝑊) = argmax 𝑃(𝑊) 𝑃(𝑋|𝑊) 𝑃(𝑋) 𝑊. 𝐿∗ = 𝑝𝑟𝑢𝑛𝑒(𝐸, 𝜇). (4-1). (4-2). 第二階段的處理，我們使用類神經網路語言模型重新估測𝑃(𝑊)，如式(4-3)。. 𝑊 ∗∗ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑃(𝑊 ′ ) 𝑃(𝑋|𝑊 ′ ). (4-3). 𝑊 ′ ∈𝐿∗. 接著我們可以分兩種情況進行， (一) 已知每條詞序列的語者：. 𝑃(𝑊 ′ ) = ∑ 𝑃(𝑊 ′ |𝑘)𝑃(𝑘). (4-4). 𝑘∈𝐾. 31.

(40) 𝑃(𝑘) ∶= {. 1, 𝑘 = 𝑘 ′ 0, 𝑘 ≠ 𝑘 ′. (4-5). ∑ 𝑃(𝑊 ′ |𝑘)𝑃(𝑘) = 𝑃(𝑊 ′ |𝑘 ′ ) (4-6). 𝑘∈𝐾. (二) 未知每條詞序列的語者：. 𝑃(𝑊 ′ ) = ∑ 𝑃(𝑊 ′ |𝑘)𝑃(𝑘) = ∑ 𝑃(𝑊 ′ |𝑘) ∑ 𝑃(𝑘|𝑊 ′′ )𝑃(𝑊 ′′ ) 𝑘∈𝐾. 𝑃(𝑊 ′′ ) {. = 1, 𝑊 ′′ = 𝑊 ′ = 0, 𝑊 ′′ ≠ 𝑊 ′. (4-8). ∑ 𝑃(𝑊 ′ |𝑘) ∑ 𝑃(𝑘|𝑊 ′′ )𝑃(𝑊 ′′ ) = ∑ 𝑃(𝑊 ′ |𝑘)𝑃(𝑘|𝑊 ′ ) 𝑘∈𝐾. 𝑊 ′′. (4-7). 𝑊 ′′. 𝑘∈𝐾. 𝑘∈𝐾. (4-9). 當已知詞序列的語者時，依據全機率公式(Law of total probability)，𝑃(𝑊 ′ )可以寫成∑𝑘∈𝐾 𝑃(𝑊 ′ |𝑘)𝑃(𝑘) (式 4-4)，而因為語者已知是𝑘 ′ ，所以𝑃(𝑘)就可以估測為：當語者是𝑘 ′ 時，𝑃(𝑘) = 1，反之則𝑃(𝑘) = 0 (式 4-5)，將之代入後便可得到 𝑃(𝑊 ′ |𝑘′) (式 4-6)，給定已知語者𝑘′，估測詞序列𝑊 ′ 的機率。當未知詞序列的語者時，同樣依據全機率公式，但是此時𝑃(𝑘)因為是未知語者所以不能用上述的方法估測，所以再次依據全機率公式拆解成 ∑𝑊 ′′ 𝑃(𝑘|𝑊 ′′ )𝑃(𝑊 ′′ ) (式 4-7)，因為詞序列已知是𝑊 ′ ，所以當𝑊 ′′ 為𝑊 ′ 時， 𝑃(𝑊 ′′ ) = 1，其餘為 0 (式 4-8)，代入後可以寫成∑𝑘∈𝐾 𝑃(𝑊 ′ |𝑘)𝑃(𝑘|𝑊 ′ ) (式 4-9)，由該詞序列產生語者資訊𝑘，再估測給定語者資訊𝑘，詞序列𝑊 ′ 的機率。以上的𝑃(𝑊 ′ |𝑘)和𝑃(𝑘|𝑊 ′ )的估測將在下面的章節作介紹，以下第一節介紹語者特徵的擷取，包含估測𝑃(𝑘|𝑊 ′ )，接著第二節介紹如何將語者特徵運用在模型的訓練與測試，也就是𝑃(𝑊 ′ |𝑘)的估測。. 32.

(41) 4.1 語者特徵的擷取. 本篇論文提出兩種情境的語者特徵擷取方法，第一種情境是已知語者，先用各個語者各自的文本擷取出特徵，詞序列的語者特徵便是直接使用擷取好的語者特徵，此類預先由語者文本擷取特徵的方法稱為「語者用詞特徵模型(Speaker WordUsage Characteristics Model)」。第二種情境是未知語者，所以必須先從該序列動態擷取出隱藏的語者特徵，接著利用動態產生的語者特徵輔助語言模型，我們提出了動態產生語者特徵的方法，「語者慣用語模型(Speaker Slang Model)」，以下兩小節會對兩種情境的模型方法作詳盡的介紹。. 4.1.1 語者用詞特徵模型(Speaker Word-Usage Characteristics Model) 我們希望能夠從語者文本擷取出該語者的常用用詞，並將之模型化，我們將嘗試使用三種單詞模型作為語者特徵，第一種是只考慮每個詞在該語者的話語中出現的機率，第二種則是利用機率式潛在語意分析(Probabilistic latent semantic analysis, PLSA)，第三種是語者特殊用詞模型(Speaker Specific Model, SSM)。 (一) 基於詞頻模型(TF-based Model) 此模型希望表現出語者常用的詞，所以將此語者所說過的所有句子基於詞頻建模成語言模型，最後再將每條句子的語言模型作線性結合(Linear Combine)，每個模型的權重相等，如式(4-10). 33.

(42) 𝑃(𝑡|𝑠) =. 𝑐(𝑡, 𝑠) ∑𝑡 ′ ∈𝑠 𝑐(𝑡 ′ , 𝑠). (4-10). 𝑠是語者，𝑐(𝑡, 𝑠)是計算詞𝑡在句子𝑠的出現次數，「基於詞頻模型」雖能表現每位語者不同的用詞，但是會有以下缺點：第一項缺點是此模型的維度是詞典的大小，過於龐大，且資料非常稀疏，所以為了解決這個問題我們提出第二種語者用詞模型，「基於機率式潛在語意分析的模型(PLSA-based Model)」，此模型可將語者資訊投影至潛在的語意空間，以達到降維的效果。第二項缺點是此模型因為只計算詞頻，所以功能詞(function word)會使得每個語者模型不夠有鑑別度，為了提升每個語者模型之間的鑑別度，所以我們提出了第三種語者用詞模型，「特殊用詞模型」，以濾掉過於頻繁出現的背景詞 (Background Word)，提升語者模型之間的鑑別度。 (二)基於機率式潛在語意分析模型(PLSA-based Model) 有別於基於詞頻模型，基於機率式潛在語意分析模型藉由找出潛在語意，重新估測語者模型，如式(4-11)，潛在語意的估測依據 EM 演算法，式(4-12)是目標函數 (Objective Function)，目標找出能最大化目標函數的𝑃(𝑡|𝑧𝑘 )與𝑃(𝑧𝑘 |𝑆)，為了達到降維的目的，所以我們取用𝑝(𝑧𝑘 |𝑆)當作語者的特徵。. 𝐾. 𝑃(𝑡|𝑠) = ∑ 𝑃(𝑡|𝑧𝑘 )𝑃(𝑧𝑘 |𝑠). (4-11). 𝑘=1. 𝐾. log 𝑝(𝑆|𝛶) = ∑ ∑ 𝑐(𝑡, 𝑠) log (∑ 𝑃(𝑡|𝑧𝑘 )𝑃(𝑧𝑘 |𝑠)) 𝑠∈𝑆 𝑡∈𝑉. 𝑘=1. 34. (4-12).

(43) (三)特殊用詞模型(Speaker Specific Word Model, SSWM) 為了能有效提升模型的鑑別度，所以我們提出特殊用詞模型，用意在減少背景詞對語者模型的影響，藉由假設語者文本由特殊用詞模型和背景詞模型線性組合而成，如式(4-13)，為了最大化目標函數(4-14, 4-15)，採用 EM 演算法，在 E 步驟以現有的模型參數求得𝑃(𝜃𝑥 )的期望值，接著利用 E 步驟得到的期望值為基礎，在 M 步驟最大化目標函數，重複這兩個步驟直到收斂，便可以得到降低背景詞影響的特殊用詞模型𝑃(𝑡|𝜃𝑠𝑠𝑚 )。. 𝑃(𝑡|𝑠) = ∑ 𝑥∈{𝑏𝑔,𝑠𝑠𝑤𝑚}. 𝑙𝑜𝑔 𝑝(𝑆|𝛶) = ∑. 𝜆𝑥 𝑃(𝑡|𝜃𝑥 ). ∑ 𝑑∈𝑆. (4-13). 𝑐(𝑡, 𝑑) 𝑙𝑜𝑔 (∑ 𝑡∈𝑑. 𝜆𝑥 𝑃(𝑡|𝜃𝑥 )). (4-14). 𝑥∈{𝑏𝑔,𝑠𝑠𝑤𝑚}. 𝛶 ∗ : = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑝(𝑆|𝛶). (4-15). 𝛶. E 步驟(Estimation Step)：. 𝑃(𝜃𝑥 ) =. 𝜆𝑥 𝑃(𝑡|𝜃𝑥 ) ∑𝑥 ′ 𝜖{𝑏𝑔,𝑠𝑠𝑤𝑚}𝜆𝑥′ 𝑃(𝑡|𝜃𝑥′ ). (4-16). M 步驟(Maximization Step)：. 𝑃(𝑡|𝜃𝑆𝑆𝑊𝑀 ) =. ∑𝑠𝜖𝑆 𝑐(𝑡, 𝑑) 𝑃(𝜃𝑠𝑠𝑤𝑚 ) ∑𝑡′𝜖𝑉∑𝑠𝜖𝑆 𝑐(𝑡′, 𝑑) 𝑃(𝜃𝑠𝑠𝑤𝑚 ). 35. (4-17).

(44) 儘管單詞模型能夠表現語者的用詞習慣，但是這類單詞模型的方法具有幾項缺點：無法表現語者的前後文用語習慣、測試文本也必須有語者資訊。. 4.1.2 語者慣用語模型(Speaker Slang Model, SSM) 上述的方法注重的是語者的用詞特徵，用單詞模型的結構描述語者，但是除了用詞，說話時人們也常會有習慣性的用語，且並不限於單一詞彙，例如：有的人說「對啊」時會習慣性的講兩次變成，「對啊對啊」，我們希望建模出能表示慣用語特徵的語者模型，以下是我們提出的語者慣用模型。使用摺積式類神經網路對每條句子進行特徵擷取，藉由語者識別的任務來進行，因為每條句子的語法並不一定會都只由某個人說出來，舉例來說，我們只能確定某 A 句是由某甲語者所述的，但是不能肯定 A 句不會由其他語者說出來，所以輸出層我們不是選用分多類常見的歸一化指數函數(Softmax)，而是針對每個語者對應各自的 S 函數(Sigmoid)，但是要訓練 S 函數當輸出的類神經網路，就必須要有正例和反例，假如我們現在要訓練某語者的識別的神經網路則正例就是屬於該語者的句子，而反例我們藉由查詢似然估計(Query Likelihood Estimation, QLE)來計算與該語者相句最遠的語者，從中隨機挑選語句當作該語者的反例，式(4-12)。. 𝑆 ∗ = ⁡ argmin ∏ 𝑃(𝑤|𝑆)𝑡𝑓𝑤,𝑄 𝑆. (4-18). 𝑤∈𝑄. 詳細的網路架構如下圖。. 36.

(45) 圖 4-1 CNN語者特徵擷取. 4.2 語者特徵用於語言模型調適. 獲得語者特徵後，我們便將之運用在語言模型的調適，許多類型的神經網絡調適方法可以主要分為兩種類型。第一個添加輔助特徵到主任務的隱藏層（這裡指的是語言模型），另一種則是將特徵用於副任務的目標作多任務學習(Multi task learning)。在本文中，我們主要使用第一種處理語者特徵作為輔助特徵的方法(圖 4-3)。在[R. Rosenfeld, 1996]和[Min Ma, 2018]中，他們的實驗結果都指出，在輸入層添加輔助特徵可以獲得更好的效果，而不是添加在隱藏層。除了這些研究之外，關於神經網絡模型調適的一些研究還表明，將輔助特徵直接附加到主要特徵可以帶來最佳效能，例如使用 I-vector 進行聲學模型語者調適[Tian Tan, 2016]。. 37.

(46) 圖 4-2 RNN語言模型使用語者調適. 4.3 語者調適混和模型(Speaker Adaptive Mixture Model, SAMM). 相較於以上兩階段式的方法，先擷取語者特徵，再將語者特徵用於語言模型，語者調適混和模型則是直接使用語言模型任務來擷取特徵，所以 AMM 可以直接使用於第二階段解碼，SAMM 的主要想法是讓模型自行決定目前的語者，先訓練好各語者各自的語言模型，接著由組合器(Combinator)決定每個特殊語者(Specific Speakers)模型的權重，詳細的架構如下圖。. 38.

(47) 𝑒𝑡 = 𝑊𝑒 𝑤𝑡 (𝑘). (𝑘). ℎ𝑡 , 𝑐𝑡. (𝑐𝑜𝑚𝑏𝑖𝑛𝑎𝑡𝑜𝑟). ℎ𝑡. (𝑘). (𝑘). = 𝐿𝑆𝑇𝑀𝑘 (𝑒𝑡 , ℎ𝑡−1 , 𝑐𝑡−1 ) (𝑐𝑜𝑚𝑏𝑖𝑛𝑎𝑡𝑜𝑟). , 𝑐𝑡. (𝑐𝑜𝑚𝑏𝑖𝑛𝑎𝑡𝑜𝑟). = 𝐿𝑆𝑇𝑀𝑘 (𝑒𝑡 , ℎ𝑡−1 (𝑐𝑜𝑚𝑏𝑖𝑛𝑎𝑡𝑜𝑟). 𝑔𝑡 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑊𝑐𝑜𝑚𝑏𝑖𝑛𝑎𝑡𝑜𝑟 ℎ𝑡. + 𝑏𝑐𝑜𝑚𝑏𝑖𝑛𝑎𝑡𝑜𝑟 ). 𝐾 (𝑘). 𝑠𝑡 = ∑ 𝑔𝑡 (𝑘)ℎ𝑡 1. 𝑝(. |𝑤0𝑡 ). = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑊𝑜𝑢𝑡 𝑠𝑡 + 𝑏𝑜𝑢𝑡 ) 圖 4-3 AMM語者特徵擷取 39. (𝑐𝑜𝑚𝑏𝑖𝑛𝑎𝑡𝑜𝑟). , 𝑐𝑡−1. ).

(48) 在模型的測試階段，模型的嵌入層和輸出層都是共用的，當前一個時間點的詞進入模型，先經過嵌入層投影至空間向量，接著經過各個特殊語者和組合器的 LSTM 模型，輸出每個語者的隱藏層輸出以及組合權重，再將每個語者的隱藏層輸出藉由組合器輸出的權重作線性組合，最後經過一個全連接層(Fully Connected Layer)與歸一化指數函數(Softmax)輸出下一個詞的機率。訓練階段時，因為此模型比較龐大，訓練難以一步到位，所以我們在訓練時是分以下幾個步驟：第一步、使用所有數據訓練背景 LSTM 語言模型。第二步、以背景語言模型為基礎，使用背景模型的參數作為各個語者模型的初始化參數，接著固定嵌入層和輸出層，保持這些參數不變，並僅使用相應的語者數據訓練每個特殊語者 LSTM 語言模型。第三步、獲取所有特殊語者 LSTM 參數，輸入前一階段的嵌入和輸出參數以初始化最終組合器模型，保持所有特殊語者的 LSTM 參數以及嵌入層參數不變，並在混合器 LSTM 上訓練所有數據，同時微調輸出層參數。此方法中的組合器輸出可視為一種語者特徵，輔助之後的語言模型，因為此模型的輸出是下一個詞的機率，所以也可以直接當作語音辨識第二階段解碼的語言模型。. 40.

(49) 第5章. 實驗環境設定. 我們所使用的語料庫為「華語會議語料」以及「AMI 會議語料 [Carletta, J. (2006)]」，以下會先針對「華語會議語料」和「AMI 會議語料」作說明，接著對實驗工具與環境作說明。. 5.1 實驗語料說明 (一) 華語會議語料華語會議語料庫為台灣師範大學與國內某大公司的產學合作計畫語料庫，收錄了約 43.18 小時的會議語料。語料庫由專業人員轉寫與標記。會議參與人員有 23 位語者。共有 45,284 句。本實驗將會議語料庫分為訓練集、發展集與測試集。其中訓練集有 44.2 小時，42,998 句；發展集有 1.5 小時，1,267 句；測試集有 1.1 小時，1019 句。與 AMI 語料相比，華語會議語料對於會議談話內容與參與人員的對話方式並沒有經過設計，而是貼近一般公司在實際開會中將會面臨的問題，例如聊到專業技術時，常會出現中英文夾雜的對話；發表談話時可能有停頓、口齒不清或口吃的現象，語速和音量也可能差異很大；會議進行時可能出現不可預期的外部噪音；對話過程中，主題可能斷斷續續不連貫；加上不同會議可能位於不同的地點，錄音品質、所使用的麥克風都可能不同，例如有些會議室只有近距離麥克風，有些則是只有遠距離麥克風，抑或是會議室可能有回音干擾等等。相較於 AMI 語料庫，華語會議語料更具挑戰性，下表是華語會議語料的詳細說明。. 41.

(50) 語料類型. 會議. 語料名稱. MMWM 01-69. 小時數(小時). 44.2. 演講. 音節. 新聞. 朗讀英文. EDU. TED. TCC. MATBN. Hub4. Triple-I. EAT. TIMIT. 15.7. 9.2. 4.0. 27.0. 27.9. 34.7. 61.1. 5.4. 表 5-1華語會議語料之聲學模型訓練集. 語料型別. 訓練集. 發展集. 測試集. 總計. 小時數(小時). 44.2. 1.5. 1.1. 46.8. 語句數(句). 42,998 20. 1,019 6 (1 無出現在訓練集). 45,284. 語者數(位). 1,267 9 (1 無出現在訓練集). 21. 表 5-2華語會議語料語言模型之訓練、發展與測試集. (二) AMI 會議語料 AMI 會議語料是由歐盟資助開發的，AMI 團隊致力於研究和開發輔助團體互動的技術，AMI 主要的目的是開發會議瀏覽器，想讓會議關聯者能夠更容易得查看歷史紀錄來提高工作效率。AMI 團隊的研究專注在如何幫助團隊成員遲到時能夠從中加入會議或是從遠端出席會議，在這兩種情況下，關鍵的方法是為使用者提供依照屬性編輯的會議索引。例如，標記某段到某段的主題是甚麼、最終下決定的時刻、激烈討論、或提到特定人物或主題的地方。為了幫助開發這個索引，該團隊收集了 AMI 會議語料，一系列已記錄的會議現在已提供給大眾做為研究開發使用，雖然數據集是專門為該工作所設計的，但它可用於語言學、組織和社會心理學、語音和語言工程、影音處理和多模式系統等多種不同目的，下表是 AMI 的詳細資訊。 42.