探究有效偵測及修正語音辨識錯誤技術之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：陳柏琳. 博士. 探究有效偵測及修正語音辨識錯誤技術之研究 A Study on Effective Detection and Correction Techniques for Speech Recognition Errors. 研究生：吳佳樺. 撰. 中華民國一零九年二月.

(2) 摘要本論文著重在研究語音辨識錯誤相關的幾個重要面向，尤其是當一般的語音辨識系統應用於特殊領域下所產生的未知詞問題。為此目的，我們提出一個兩階段的方法，包括了語音錯誤偵測和錯誤內容修補。在錯誤偵測階段，我們嘗試比較多種序列標記方法去偵測不同型態的錯誤。更進一步，在錯誤修正階段，藉由上一階段所偵測的結果作為依據，利用音素比對方法以特殊領域的關鍵詞表來修正錯誤。在四種應用領域，包括教育議題、工業技術相關訪談、語音記事及會議錄音，所進行的一系列實驗。由實驗結果顯示，我們提出的方法可以使得一般語音辨識系統在上述應用領域中有某種程度上的提升。關鍵詞：語音辨識，辨識錯誤，錯誤偵測，錯誤修正，未知詞. i.

(3) Abstract This paper sets out to study several important aspects pertaining to speech recognition errors, especially the out-of-vocabulary (OOV) word problem that is caused by using generic speech recognition systems for a specific application domain. To this end, a twostage processing method, involving error detection and error correction, is proposed. For error detection, we explore and compare disparate sequence labeling methods to detect possible errors of different types. Further, in the error correction stage, an effective phone-level matching mechanism along with a domain-specific keyword list is exploited to correct errors of different types detected by the previous stage. Extensive experiments conducted on four application domains, including educational issues, industrial technology-related interviews and speech memos and meeting recordings, show that our proposed methods can boot the performance of a given general speech recognition system on the aforementioned application domains to some extent. Keywords: Speech Recognition, Recognition Errors, Error Detection, Error Correction, Out of Vocabulary Words.. ii.

(4) 目錄第1章. 緒論............................................................................................................. 1. 1.1. 研究背景及動機......................................................................................... 1. 1.2. 本論文研究內容及貢獻............................................................................. 2. 1.3. 論文架構..................................................................................................... 3. 第2章. 文獻探討..................................................................................................... 4. 2.1. 自動語音辨識............................................................................................. 4. 2.2. 2.3. 2.4. 2.1.1. 語音辨識流程................................................................................. 4. 2.1.2. 現階段語音辨識之發展及應用..................................................... 6. 語音辨識錯誤處理..................................................................................... 7 2.2.1. 語音辨識錯誤之類型..................................................................... 7. 2.2.2. 語音辨識錯誤之影響..................................................................... 9. 2.2.3. 語音辨識錯誤處理相關研究....................................................... 10. 語音辨識錯誤偵測................................................................................... 12 2.3.1. 基於信心評估............................................................................... 13. 2.3.2. 未知詞偵測................................................................................... 13. 語音辨識錯誤修正................................................................................... 15 2.4.1. 語音辨識錯誤修正方法............................................................... 16. 2.4.2. 語音辨識錯誤修正流程............................................................... 17. 第3章. 語音辨識錯誤偵測及修正方法............................................................... 18. 3.1. 語音錯誤偵測之分類模型....................................................................... 18. 3.2. 語音辨識錯誤修正................................................................................... 19. 第4章. 辨識錯誤偵測之特徵............................................................................... 21 iii.

(5) 4.1. 韻律特徵(Prosodic features) .................................................................... 21 4.1.1. 能量(Energy) ................................................................................ 22. 4.1.2. 過零率(Zero-crossing rate) ........................................................... 22. 4.1.3. 基本音頻(Fundamental Frequency, F0) ....................................... 22. 4.1.4. 發音時間(Duration) ...................................................................... 22. 4.2. 語言學特徵(linguistic feature) ................................................................. 23. 4.3. 詞表示法(Word Embedding) .................................................................... 23. 第5章. 實驗架構與設定....................................................................................... 24. 5.1. 實驗語料說明........................................................................................... 24 5.1.1. 會議對話語料............................................................................... 24. 5.1.2. MATBN 新聞語料........................................................................ 25. 5.2. 實驗評估方法........................................................................................... 26. 5.3. 實驗語料標記方式................................................................................... 27. 第6章. 實驗結果與討論....................................................................................... 28. 6.1. 錯誤偵測模型........................................................................................... 28. 6.2. 語音辨識修正........................................................................................... 31. 第7章. 結論與未來展望....................................................................................... 33. 參考文獻....................................................................................................................... 34. iv.

(6) 圖目錄圖 2-1、自動語音辨識流程圖 ...................................................................................... 4 圖 2-2、語音辨識及應用之流程圖 ............................................................................ 10 圖 2-3、語音辨識錯誤偵測之研究面向 .................................................................... 12 圖 2-4、語音辨識錯誤修正之研究面向 .................................................................... 15 圖 3-1、語音辨識錯誤修正流程圖 ............................................................................ 18 圖 3-2、以 bidirectional RNN 為例之錯誤偵測模型架構......................................... 19. v.

(7) 表目錄表 2-1、語音辨識錯誤標記之範例 .............................................................................. 7 表 5-1、華語會議語料內容介紹 ................................................................................ 24 表 5-2、華語會議語料內容介紹 ................................................................................ 25 表 5-3、MATBN 中文廣播新聞語料庫 .................................................................... 25 表 5-4、ROC 分析的四項指標在錯誤偵測中的定義 ............................................... 26 表 5-5、以會議語音辨識結果為例之錯誤類別標記 ................................................ 27 表 6-1、比較不同模型之錯誤檢測效能 .................................................................... 28 表 6-2、以 BRNN 為偵測模型並比較不同特徵之錯誤檢測效能 ........................... 29 表 6-3、以 BRNN 為偵測模型並加入不能特徵之效能表現 ................................... 30 表 6-5、以華語新聞語料及 BRNN 模型並加入不能特徵之結果 ........................... 31 表 6-6、錯誤修正之結果 ............................................................................................ 32. vi.

(8) 第1章. 緒論. 本研究主旨在於探討語音辨識後的錯誤真的及修正技術。本章是緒論，第一節介紹研究背景與動機，第二節說明本論文研究內容及貢獻，最後，在第三節中，將說明論文章節安排。. 1.1 研究背景及動機近年來，由於機器學習及深度學習的迅速發展[1][2][3][4]，許多領域的性能表現都有大幅度的提升及突破，而語音辨識也不例外。許多大型企業也相繼投入研究，並且提供使用者語音相關服務，例如：Google ASR, Apple Siri, Amazon echo, IBM 等。而語音辨識的應用逐漸與我們的生活結合，例如：對話系統、智慧型家電、語音機器人等。但這些基於語音辨識後的應用，多半隨著語音辨識效能所影響，因此只能在某些假設環境下使用，導致應用受限。一般語音辨識器須預先訓練聲學模型及語言模型，然而可能因為錄製環境、語者口音、音速及音量等差異，導致聲學模型無法有良好表現。由於語言模型，使用預先建構辭典。因此，辨識器只能辨識辭典中的已知詞(in-vocabulary words, IV words)。而這樣的限制可能導致嚴重的辨識錯誤，因為我們無法避免辨識語音中可能包含未知詞(out-of-vocabulary words, OOV words)，這些辨識錯誤通常被辨識成辭典中的字詞[5]，而在本論文中，把上述問題歸類為訓練集與測試集之間環 1.

(9) 境不匹配的問題。當這些未知詞出現在測試語料中，系統將無法識別，導致它被誤認成已知詞。此外，發生未知詞的同時，更可能連帶影響周遭其他的已知詞[6]，而平均來說，一個未知詞可能產生 1.2 個字錯誤[7]。在口語對話中，常見包含人名或是專業術語等類型的專有名詞，皆屬於非常重要的關鍵詞，並且可能反覆復誦。而這些字詞通常很難透過預訓練方式來完整辨識，而其所導致的辨識錯誤不僅影響整體的辨識率，更嚴重破壞文本的結構，導致語意不清且內容難以解讀。語音辨識應用，如同資訊檢索(information retrieval)[8]、對答系統(question answering)[9][10]、摘要(summarization)[11]。由於需透過語音辨識系統，將語音轉換文字(speech to text)，我們將此文件稱為口語文件(spoken document)，而口語文件因為受到語音辨識錯誤影響，導致其應用往往受到限制。因此，我們針對語音辨識錯誤提出了一系列的修正措施。提升語音文件的文本質量及應用的廣泛性。. 1.2 本論文研究內容及貢獻本論文貢獻有幾點： 1.. 首先我們探討各種不同模型應用於語音辨識錯誤偵測之效能. 2.. 探討不同特徵對於偵測效能之影響. 3.. 設計兩階段之修正流程，有效降低修正錯誤的假警報. 2.

(10) 1.3 論文架構本論文第二章簡介語音辨識錯誤偵測及修正的歷史演進及相關研究，第三章介紹語音辨識錯誤偵測及修正之方法，第四章介紹我們嘗試使用之特徵，第五章實驗架構及設定，第六章實驗結果及第七章結論及未來展望。. 3.

(11) 第2章. 文獻探討. 在本章中，我們首先將概略地介紹語音辨識的架構及近年來語音辨識發展及應用。再來，我們將會接續探討語音辨識錯誤處理相關之研究，最後，我們將深入探討有關語音辨識結果偵測及修正之相關研究發展。. 2.1 自動語音辨識 2.1.1語音辨識流程. 語音辨識系統是將一段語音訊號轉換成文字序列，而語音辨識技術主要包含四個部分。分別為特徵抽取(Feature Extraction)、聲學模型(Acoustic Models)、語言模型 (Language Models)以及語言解碼 (Linguistic Decoding)，流程圖如圖 2-1 (一)、. 特徵抽取：特徵抽取是將語音訊號 X 轉換成語音辨識系統可容易分. 析、使用的資料型態，如特徵向量(Feature Vectors)。特徵抽取的目的是將語音訊號中重要的資訊保留於特徵向量上，例如被廣泛使用的梅爾倒頻譜 4.

(12) 係數(Mel-frequency Cepstral Coefficients, MFCC)，因為此特徵能模擬聽覺感知特性[12]。 (二)、. 聲學模型：藉由收集並統計語言的發音特性，我們可以為語言中的每. 一個最小聲音單位音素(Phoneme)建立一個聲音模型，聲學模型可以用來判斷每一段語音訊號最可能對應的發音。 (三)、. 語言模型：在語言中，存在著特定的規律性，像是語法或是語言規則. 等，而我們可以藉由文本來訓練每個詞在不同形況下出現的機率模型。 (四)、. 語言解碼：在自然語言中，詞序列的可能性有成千上萬多種，而我們. 必須有效且正確地去搜尋出最可能的序列，因此在這個階段，將結合聲學模型及語言模型來限制可能的搜尋空間，並在有限的時間內，找到一組最佳的候選序列。接下來，我們將用數學符號來表達與音辨識的過程。給定一段語音訊號 O，透過聲學特徵擷取，得以獲得聲學特徵向量序列 X，而我們期望獲得一段最可以代表 ̂，這段語音訊號的詞序列𝑊 ̂ = 𝑎𝑟𝑔 max 𝑃(𝑊|𝑋) 𝑊 𝑊. (2.1). 其中w代表所有可能詞序列所構成的集合，P(W|X)為給定語句X，發生詞序列W的事後機率。但由於𝑃(𝑊|𝑋)不容易直接估計，因此我們藉由貝式定理(Bayes Rule) 將式(2.1)中的事後機率項展開：. 5.

(13) P(W|X) =. 𝑃(𝑋|𝑊)𝑃(𝑊) 𝑃(𝑋). (2.2). 其中𝑃(𝑋|𝑊) 即為聲學模型的估測值，代表著某一段詞序列W所對應聲學模型組合產生語音特徵O之聲學特徵向量序列X的機率；P(W)則為詞序列W在自然語言中發生的可能性，也就是語言模型的機率估測值。而對於任一條詞序列而言，P(X) 皆是一個相等的定值，並不影響決策的排序結果，估可將其省略。語音辨識系統於式根據聲學模型以及語言模型的分數乘積P(X|W)P(W)進行比對、 ̂ 作為輸出。搜尋、尋找出一條最佳的詞序列𝑊. 2.1.2現階段語音辨識之發展及應用自動語音識別（ASR）研究領域至今已超過六十年。語言，是人與人之間最直接的溝通方式，自動語音辨識技術也成為人與電腦之間的溝通橋樑。然而過去數十年來，語音辨識技術並未成為一項人機互動重要的工具。近年來，大數據及電腦運算能力的大幅提升，以至於語音辨識技術已經進展到更具挑戰的應用，甚至被實踐於現實環境中[13]。而語音辨識系統中的聲學模型已由深層類神經網路(Deep Neural Network, DNN)技術取代傳統高斯混合模型(Gaussian Mixture Model, GMM)，並且在語音辨識任務上獲得更好的效能[1]。而在過去三十多年來，已有數以百計的強健性(noise-robust)語音辨識方法被提出，並且證明其中有許多方法在研究及商業用途上具有重大影響及效用[13]。. 6.

(14) 由於機器學習及深度學習的迅速發展[1]，許多領域的性能表現都有大幅度的提升及突破，而語音辨識也不例外。許多大型企業相繼投入語音方面的研究及應用上，並且提供使用者語音相關服務，包含雲端計算與終端裝置的語音辨識的應用程式介面(API)。因為上述平台提供的便利性，使得大量語音互動的智慧型裝置被廣泛地應用，例如車載電腦的語音對話介面和語音客服等，這類的應用通常是依附在語音辨識器之後。因為語料的收集便利性及成本的差異，使得一般的使用者日常對話或熱門話題都能達到良好的辨識正確率，而目前語音辨識技術在近年來效能大幅度的提升，甚至有些公司已經提出超越人類語音辨識效能。但目前語音辨識器雖能達到高度效能，但在應用上仍受到很大限制，例如目前廣為被使用在於手機裝置的近距離錄音，以及居家機器人於固定環境、固定噪音且限制距離情況之下使用自動語音辨識，以上的應用對於更多商業的使用，例如：餐廳服務、工業製造等應用而言，語音辨識系統仍然存在很多未解決的問題及未面臨的挑戰。. 2.2 語音辨識錯誤處理 2.2.1語音辨識錯誤之類型. 語音辨識結果. 可. 不. 可以. 取得. 利益. 之. 錯誤類型標記. C 可. C 不. C 可以. S 舉個. S 例子. I. 人工轉寫. C：正確詞；S：替換詞錯誤；I：插入詞錯誤；D：刪除詞錯誤. 7.

(15) 在語音辨識上，在不同階段其實都可能發生錯誤，例如：聲學上的發音錯誤、語言模型中的未知詞錯誤等等，然而為了方便計算錯誤率(WER)及對齊人工轉寫答案，我們將語音錯誤主要分成三種類型，插入錯誤、替換錯誤及刪除錯誤，錯誤型態及標記如表 2-1。 (一)、. 刪除錯誤：刪除錯誤為語音辨是無法將語者講話的內容辨識出來，導. 致該字詞被刪除或省略，刪除錯誤為語音辨識中最少見的錯誤類別，但其通常發生於環境過於吵雜或語者音量過小等等的情況之下，導致語音辨識無法辨識該字詞，因而發生刪除錯誤。而發生此類錯誤可能導致句子的語意受到影響。 (二)、. 插入錯誤：插入錯誤通常和說話語者有很大關係，由而個人發音、語. 者重疊或是背景噪音等問題導致辨識器將原本訊號辨識成其他多餘的字詞，此類辨識錯誤甚至可能辨識出比原本語句更長的字詞。 (三)、. 替換錯誤：替換錯誤通常出現在於語者發音不準確或是因為講話過程. 中出現字典中未出現的字詞，導致詞彙識為其他字詞，像是未知詞( OOV ) 的問題。而一般而言，替換錯誤為語音辨識中最常見的錯誤類型，由於此替換錯誤字可能被辨識成與相同或相似發音之詞彙，但在整體語義上可能受到嚴重的破壞。. 8.

(16) 2.2.2語音辨識錯誤之影響語音辨識錯誤之影響可由不同層面來討論。而其中最主要影響層面包含語音辨識及語音辨識之應用。語音辨識錯誤可能影響語音辨識之效能，導致字錯誤率(WER) 過高；另外，在語音辨識之應用，可以能受到語音辨識錯誤影響，雖然語音辨識錯誤可能不影響應用的結果，但因口語文件可能在語義上遭到破壞，導致其應用上受限，進而影響應用系統的效能。 (一)、語音辨識：以語音辨識角度而言，辨識錯誤之嚴重性及複雜度依序為刪除錯誤>替換錯誤>插入錯誤。任一個錯誤都可能影響語音辨識系統之效能，但刪除錯誤為不可逆的錯誤型態，我們很難在以語音辨識器中的詞圖(word lattice)上的資訊或是辨識後的修正來去處理此類問題。 (二)、語音辨識之應用：以語音辨識應用或口語文件的角度而言，其嚴重性則依序為替換字錯誤>刪除字錯誤>插入字錯誤。語音辨識應用而言，最常出現的替換錯誤反而導非常嚴重的影響，由於其可能影響整體語意導致語意偏離，而當此詞彙關鍵性的詞彙時，將大大影響語音辨識後應用之效能。. 9.

(17) 2.2.3語音辨識錯誤處理相關研究本小節探討在語音辨識及應用中，針對語音辨識錯誤所提出相關的措施。當我們要說話之前，我們會在腦中構想說話的內容，並且藉由嘴巴發出聲音。一段語音辨識及應用的過程，如同圖二，我們會將腦中的構思的過程比擬成文字生成(Text Generator)生成出語句 W；利用嘴巴發聲的過程比擬成語音生成(Speech Generator) 生成出語音訊號 X，再來會由語音辨識器辨識一段訊號 X，將其轉換成文字序列 ̂ 。在語音辨識應用中，例如像問答系統，該系統會藉由輸入序列𝑊 ̂ 或𝑊 ̂ ′，該問 𝑊 答系統會計算出最佳答案序列𝑌̂ ′ 。. 為避免語音辨識發生錯誤，過去研究也針對語音辨識及應用中不同階段提出來對應的解決辦法，其中主要分成三個部分，分別為語音辨識階段(speech recognition model) 、語音辨識後處理階段 (ASR post-processing) 以及語音辨識應用階段 (application systems)，如圖 2-2。 (一)、. 語音辨識階段(speech recognition models)：為了處理語音辨識錯誤，我們. 通常會調整既有的辨識模型，而最常見的方法為聲學模型的調適及語言模型 10.

(18) 的調適，然後此類型的調適方法雖有某些程度上的改善，此方法皆於個別模型的調適而非整體的優化。 (二)、. 語音辨識後處理階段(ASR post-processing)：後處理階段主要分成兩種. 方法，第一種方法為以語音辨識結果為基礎，對於辨識的候選前 N 個選項重新評分，並且找到更佳的候選序列。第二種方法是以人工轉寫為基礎，盡可能地將語音辨識結果以序列轉換的方式轉換成正確轉寫。 (三)、. 語音辨識應用階段(application systems)：在應用階段，為了避免語音辨. 識錯誤影響系統效能，最常見的方法從資料集上做領域知識的遷移(domain adaptation)，將完全正確的文本當作來源資料(source data)，而辨識錯誤文本當作目標資料(target data)，將原本應用系統做領域知識遷移至含有錯誤文本的資料集上。. 11.

(19) 2.3 語音辨識錯誤偵測. 來源. 特徵. •對話語音 •新聞語音. •解碼特徵 •非解碼特徵. 方法. 目標任務. •基於信心分數 •基於模型預測. •錯誤類別偵測 •未知詞偵測. 語音辨識錯誤偵測方法主要可依照四個面向分類(如圖 2-3)，可依照來源、特徵、方法、目標等細分不同類別： (一)、. 來源：針對語音內容主要分成兩種，對話語音及新聞語音，口語對話. 上的問題在於對話中常會出現一些人名、專有名詞等關鍵字，而當辨識器無法辨識該字詞時，將其辨識成其他相似音的詞彙，導致辨識錯誤。而新聞語音上的問題除了包含專有名詞的問題之外，在於新聞內容的領域知識較廣，而當語音辨識器無法涵蓋各領域知識時，可能因而辨識率會下降。 (二)、. 特徵：可分為辨識器解碼特徵及非解碼特徵，解碼特徵包含語音辨識. 器之信心分數、聲學資訊，非解碼特徵包含韻律特徵及詞彙資訊。目前錯 12.

(20) 誤偵測相關研究上，許多研究主要是嘗試不同特徵組合對於錯誤偵測效能的影響。 (三)、. 方法：早期的方法主要基於信心分數設定門檻值，藉由門檻值判斷該. 詞是否為錯誤詞。後來的方法主要是嘗試不同特徵對於錯誤偵測模型效能，藉由模型預測該詞是否為錯誤詞。 (四)、. 目標任務：偵測錯誤的目標主要分成兩種，第一是偵測錯誤類別，像. 是替換錯誤、插入錯誤等，第二種是針對未知詞偵測。. 2.3.1 基於信心評估基於語音辨識過程產生的一些資訊，來評估辨識結果。而基於特徵表示來計算更好的信心分數，而其中特徵包含了聲學特徵、事後機率、信心分數、語言及字詞表示方法，這些特徵可被稱為預估特徵，將所有有效評估特徵合成一個分布，並藉由建立機率密度函數來區分正確詞及錯誤詞，過去已有許多研究在討論信心評估的方法。. 2.3.2 未知詞偵測未知詞是一個出現在測試語料，但並且不存在於辨識辭典中的字詞。然而，大多數語音辨識系統都是屬於封閉詞彙(closed-vocabulary)的辨識器，即只能辨識固定且有限的詞彙。當這些未知詞出現在測試語料中，系統將無法識別，導致它被誤認成已知詞。此外，發生未知詞的同時，更可能連帶影響周遭其他的已知詞[6]。 13.

(21) 而平均來說，一個未知詞可能產生 1.2 個字錯誤[7]。為了改善未知詞的問題，許多研究提出了以模型調適(model adaptation)或是開放詞彙(open-vocabulary)方法來做改善。一般而言，需要收集自然語句才能建立語言模型供辨識器使用，但使用專有名詞的語句不容易收集。以下我們針對語音識別錯誤的改善所使用的特徵及模型方法做更進一步的探討。近二十年來，已有許多研究嘗試檢測和修復語音辨識錯誤。有幾個方法能夠偵測未知詞：1)以混合語言模型(hybrid language model)做解碼(decoding)，並且以音素、子詞等來表示未知詞；2)以信心分數(confidence score)和其他資訊來尋找可能的未知詞區域；3)結合混合語言模型及信心分數，進一步提升檢索性能[6]。 (1) 以混合語言模型(hybrid language model)為基礎的方法[14]-[17]：在語言模型解碼(decoding)時，未知詞(OOV)將以音素(phone)、子詞(sub-word)、詞圖 (graphemes)或字詞(word)模型表示。 (2) 以解碼(decoding)分數和其他資訊為基礎的方法[18]–[21]：以聲學特徵 (Acoustic features)、上下文特徵(Context features)或信心分數(confidence score)等資訊，尋找可能發生辨識錯誤或未知詞(OOV)的區域。 (3) 結合混合語言模型及信心分數，進一步提升檢索性能[22], [23]。. 14.

(22) 2.4 語音辨識錯誤修正. 來源. 修正層級. •詞圖 •詞序列. •字層級 •詞層級 •句子層級. 方法. 任務目標. •音素比對 •語言模型 •seq2seq. •未知詞 •關鍵詞. 語音辨識錯誤修正方法主要可依照四個面向分類(如圖 2-4)，可依照來源、方法、任務目標、修正層級等細分不同類別： (一)、. 來源：主要分成兩大類，詞圖與詞序列。詞圖上的修正常見有詞圖重. 新評分，並解碼出最佳序列。詞序列的部分，可分成最佳詞序列及前 N 句詞序列。 (二)、. 修正層級：修正層級可分成三類，字層級修正、詞層級修正以及句子. 層級修正，而在不同層級上，可能修正的面向不同。過去最常見是在詞層級上做修正。 (三)、. 方法：修正方法主要可以分成三種，第一種方法以音素比對的方式， 15.

(23) 將辨識錯誤詞轉成正確詞，而這個方法必須預先收集錯誤詞及型態。第二種方法是以語言模型來重新對詞序列評分，也是與音辨識上最常見的方法之一。第三種方法是以序列到序列的方法，利用模型訓練將錯誤詞序列轉換成正確詞序列。 (四)、. 任務目標：修正目標基本上都會以文本中重要的詞彙為主，在這部分. 可被分成三類，第一是語音辨識無法辨認的未知詞。第二是文本中的關鍵詞彙。. 2.4.1 語音辨識錯誤修正方法在錯誤修正方面，演算法可以分成簡易的字串搜尋比對，和基於語句擷取特徵再更正文字的兩類。基於語句特徵的方法是藉由上下文資訊來判斷修復內容，方法包含機率模型、統計模型、機器學習、機器翻譯[24]以及音素對照法[25]。通常是以字詞(word)、音素(phone)、符號(symbol)等作為輸入特徵。例如：[26]提出了一個在對話系統中的語音到語音(speech-to-speech)轉換機制，是利用條件隨機域偵測錯誤標記達到修正文字的目的。[27]提出了一種基於藉由潛在語義分析(latent sematic analysis, LSA)提取上下文的向量表示方法，並利用支持向量機(support vector machine, SVM)分類器作人名辨認。由於上下文語意及主題模型需要大量資料訓練字詞表示法，並且不適用於文本結構較弱的會議語音轉寫中，所以在本文，我們將採用字串搜尋比對[25]作為基礎方法。 16.

(24) 在特定領域的語音辨識中，罕見詞或未知詞的處理都是核心的問題[28]。而本論文探討的情境是在一個具有語音強健性的辨識器的情況下，嘗試利用該領域少量的語料資源解決罕見詞與未知詞造成的問題。 (1) 以機器學習(machine learning)為基礎的方法：用機器學習方式學習語句特徵表示，並且學習常發生錯誤的區域[17]。 (2) 以音素比對(phone match)為基礎的方法：以音素比對計算編輯距離，並找尋相似區域[18]。. 2.4.2 語音辨識錯誤修正流程錯誤修復流程包含錯誤偵測及錯誤修正兩階段。錯誤偵測方法可分為基於設定門檻值(threshold-based)與分類器(classification-based)為基礎的兩種策略。兩者之間有些許差異，基於門檻值的方法是設定單一評估指標或分數來判定是否發生錯誤；而基於分類器的方法大多是整合多種特徵去訓練二元分類器。基於制定門檻值的作法可依據聲學模型的發音分數[29]或語言模型的機率當作信心分數。聲學模型所擷取的對數事後機率或對數相似值作為發音分數[20]。另一方面，利用語言模型計算詞序列機率也是常用的方法，可以作為辨識字詞的信心分數。在基於分類器的方法，主要是以統計模型、機器學習或類神經網路等的進行二元分類。例如以音長模型(duration model)、語音辨識模組中的聲學模型機率及辨識結果等作為輸入特徵，再搭配合適的標記方式。 17.

(25) 第3章. 語音辨識錯誤偵測及修正方法. 在本節，我們探討辨識錯誤修正的問題，並且提出了一個兩步驟錯誤修正架構(圖一)。第一步驟，尋找可能測試語料中，可能發生錯誤的位置。第二步驟，以音素比對法尋找可能發生錯誤的區塊。以下我們將實驗架構中的兩大主軸，錯誤偵測模型與辨識錯誤修正，做更進一步的模型及方法介紹。. 3.1 語音錯誤偵測之分類模型我們探討使用機器學習及類神經網路模型來捕捉辨識字的特性，在此架構下，網路輸入為辨識轉寫文件 D，其中 n 個詞構成的語句以{𝑤1 , 𝑤2 , 𝑤3 … 𝑤𝑛 } 表示。網路輸出為錯誤類別，我們使用 𝑝(𝑘|𝑤𝑖 , Θ) 來定義字詞 𝑤𝑖 屬於錯誤類別𝑘的事後機率，其中 Θ 表示模型中的參數。 18.

(26) 在模型部分，我們探討在不同監督式學習方法中，對於偵測錯誤的效能。為了符合語音轉寫富含時間及序列特性，我們更深入探討了以下幾種方法，在本任務上的效能。如：深層類神經網路(DNN)、遞迴神經網路(RNN)、長短期記憶類神經網路(LSTM)、雙向遞迴神經網路(BRNN)。以詞向量作為輸入，並且與神經網路參數一同訓練。. 3.2 語音辨識錯誤修正在本論文中，我們使用萊文斯坦距離(Levenshtein distance)[9]去比較自動語音辨識輸出的音素序列與假設的關鍵詞相似性，而這樣的方式也常被使用在字層級的比對。語音轉寫的錯誤主要分為三種，包含：代替、插入、刪除。當語音辨識中未知詞導致語音錯誤時，可能同時發生代替及刪除的連續錯誤。因此，為了解決連續錯誤導致字詞邊界模糊的問題，我們將使用音素層提升尋找關鍵字的可能性。 19.

(27) 並且經由我們初步實驗，音素對照法能比文字層級的比對找尋到更細部的差異，由於本論文使用之語料富含之較多領域詞，並且內容通常中英混雜，因此在這樣的情況下，以字層級來做比對是較難符合我們的期待。萊文斯坦距離能夠簡單找到一組給定句子中最可能的全貌，或是用給定詞彙中最相似的詞來替換識別的單詞。而為了改善並且尋找到更多可能領域詞，我們將在本論文第四節中，我們所實驗的錯誤修正是以設定相似度門檻值為 0.8。(圖一) 我們定義兩字串A和B之間的萊文斯坦距離的數學定義為𝑙𝑒𝑣𝐴,𝐵 (𝑖, 𝑗)，其中a, b分別為A, B的長度，萊文斯坦距離的計算如下： 𝑖 𝑗 𝑙𝑒𝑣𝐴,𝐵 (𝑖, 𝑗) =. ,𝑗 = 0 ,𝑖 = 0. 𝑙𝑒𝑣𝑎,𝑏 (𝑖, 𝑗 − 1) + 1 𝑙𝑒𝑣𝑎,𝑏 (𝑖 − 1, 𝑗) + 1 𝑚𝑖𝑛 { 𝑙𝑒𝑣𝑎,𝑏 (𝑖 − 1, 𝑗 − 1) + 1(𝑎𝑖 ≠𝑏𝑖 ) {. 20. (3.1) , 𝑜𝑡ℎ𝑒𝑟𝑤𝑜𝑠𝑒.

(28) 第4章. 辨識錯誤偵測之特徵. 每個字藉由特徵向量去表示，其中包含的特徵如下：字詞特徵 (word features) 主要以辨識結果為主，輸入類神經網路一起訓練字詞表示法(word embedding)，並且利用模型建立上下文之關聯性，豐富字詞表示方法；句法特徵 (Syntactic features) 為詞性的標記並將該詞性轉換成向量表示法，詞性標註主要使用中研院斷詞系統 1. 處理語音辨識轉寫結果；韻律特徵(Prosodic features)是音素的數量，及辨識字發. 音時間、音素初始時間、音素結束時間、音素個數以及平均值(Mean)、標準差 (Variance)。事後機率特徵(Posterior probability features)為預訓練分類模型並將分類結果作為置信度評估，將字詞表示法輸入至 Bi-LSTM 模型中訓練並預測該字詞為正確/插入/替換字詞，在下一個階段，將該預測結果，當作輸入之特徵向量。. 4.1 韻律特徵(Prosodic features) 韻律特徵為由語音訊號所提取的語音特徵，其富含有語音及語者原始的樣貌，並且藉由音訊轉換，計算出音訊的能量、音頻等更具表示的語言特徵，然而這本段落，我們將描述韻律特徵的計算及抽取，並且進一步假設其對於語音錯誤的影響。. 1. http://ckipsvr.iis.sinica.edu.tw 21.

(29) 4.1.1 能量(Energy) 語音能量是一種音訊轉換，將音訊轉換成數值，並且藉由數值來表示音訊之能量 (音量)大小，而語音能量也能輔助我們去界定一個字詞的初始發音及結尾發音，因此我們能夠藉由能量來去計算一個字詞的邊界，但其界定邊界卻不是非常準確，因為在錄音過程中，可能包含了一些雜訊噪音、其他語者或環境回音等。 𝑚+1. 1 E[m] = ∑ 𝐸̃ [𝑖] 3. (4.1). 𝑖=𝑚−1. 𝑁. 1 𝑖𝑁 + ⁄ where 𝐸̃ [𝑖] = 𝑙𝑛 {√𝑁 ∑𝑖𝑁𝑠ℎ −𝑁⁄2 𝑥 2 [𝑛]} 𝑠ℎ. (4.2). 2. 4.1.2過零率(Zero-crossing rate) 當字到字轉換中的語音活動減少時，我們期待該字詞邊界的過零率和單詞內的過零率不同，通過在分析音框內找到信號通過零的次數來計算過零率。. 4.1.3基本音頻(Fundamental Frequency, F0) 基本音頻為音訊轉換之後的音頻，可藉由音頻區分高低音及聲音的類別，基本音頻在很多聲學特徵上都會使用到，像是語音辨識或是情緒辨識等。. 4.1.4發音時間(Duration) 將辨識結果的字詞與音訊強制對齊，計算出每個字詞所發音的時間，然後再這個部分，我們假設錯誤發音可能導致因發音對齊上的差異，另外在發音時間上，我 22.

(30) 1. 1. 們計算了音素發音時間的平均值 𝜇 = 𝑛 ∑𝑛𝑖=1 𝑥𝑖；標準差 𝑉𝑎𝑟(𝑋) = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2。上述計算中，其中𝑥𝑖 為第𝑖個音素發音的時間，𝑛為該字詞所包含音素的數量。. 4.2 語言學特徵(linguistic feature) 本論文所使用的語言學特徵為詞性( part of speech )表示，由於語音辨識中有許多人名、專業術語等類的專有名詞難以被正確的轉寫，然而這些字詞大部分被歸類為名詞，因此我們假設詞性特徵對於語音錯誤有相對的關係，並且其可藉由序列模型找到更多語言學上的知識。在訓練過程，我們將把每個字詞的詞性轉換成詞性表示法( POS Embedding )，並將其與其他特徵做結合。. 4.3 詞表示法(Word Embedding) 詞嵌入(word embedding)是一個字詞的分布表示(distributed representation)。分布表示適用在類神經網路模型的輸入值，並且能與其一起調整參數，計算出一個更佳的任務字詞表示法。傳統表示法中，例如一元表示法(one-hot representation)，可能因為辭典太大導致維度詛咒的問題[21]。因此在本論文中，我們提出同時考慮詞與詞性的新標記，再訓練新標記的詞向量。首先將辨識結果的每個語句詞序列做中文斷詞及標記詞性，並且將字詞及詞性存放在辭典中。文本中的字詞 𝑤𝑖 與其詞性 𝑝𝑖 的詞索引值為 𝑤 ̂ 𝑖 ，可以表示為 𝑤 ̂ 𝑖 = [𝑤𝑖 ; 𝑝𝑗 ] 。經由結合詞以及其詞性得到的新索引，預期增強中文詞彙在不同用法間的鑑別性，再透過預訓練詞向量作為合適的表示法，新的詞向量以 𝐞1 , 𝐞2 , 𝒆3 … 𝒆𝑛 表示。 23.

(31) 第5章. 實驗架構與設定. 5.1 實驗語料說明 5.1.1會議對話語料本論文使用華語對話及會議語料為台灣師範大學與國內企業的產學合作計畫語料庫，本語料部分語音為改善語音辨識錯誤而重新錄製的實驗室錄音語料。主要由四個不同領域主題內容及兩種不同的錄製模式，其中 Corpus01~ Corpus04 為實驗室錄音，實驗室錄音之內容主要選取對話中關鍵詞彙片段錄製，並且由專業人員轉寫與標記。會議參與人數約 7 位語者，本實驗將語料庫分成訓練集、發展集及測試集，主要以語料之總句數比例為 8:1:1。會議語言主要為中文，夾雜少部分英文。. 錄製模式. 編號代號. 語音主題. Corpus01. 課堂試驗對話. Corpus02. 業務拜訪對話. Corpus03. 語音記事情境. Corpus04. 技術會議對話. 實驗室錄音. 24.

(32) Corpus01. Corpus02. Corpus03. Corpus04. 字數. 3878. 2593. 1267. 1665. 句數. 204. 175. 322. 84. 語者數. 7. 8. 8. 7. 準確率. 93.4%. 87.5%. 77.7%. 75.9%. 正確字. 94.1%. 87.8%. 79.2%. 83.3%. 替換錯誤字. 4.8%. 11.1%. 19.3%. 15.0%. 插入錯誤字. 0.7%. 0.3%. 1.5%. 7.4%. 刪除錯誤字. 1.2%. 1.1%. 1.5%. 1.7%. 關鍵字. 40. 52. 36. 28. 平均句長. 13. 9. 2. 17. 5.1.2MATBN 新聞語料 MATBN 是由「公視新聞深度報導」和「公視晚間新聞」兩個國語新聞廣播節目之內容，每次節目進行長度一個小時，語料辨識結果及相關統計如表 5-3。. MATBN 字數. 255405. 句數. 34672. 正確字. 188308. 替換錯誤字. 58849. 插入錯誤字. 8248. 刪除錯誤字. 26787. 詞錯誤率. 34.27%. (WER). 7. 平均句長. 25.

(33) 5.2 實驗評估方法. 描述錯誤的接受 (false negatives, FN) 錯誤的拒絕 (false positives, FP) 正確的接受 (true positives, TP) 正確的拒絕 (true negatives, FN). 實際上發生辨識錯誤，系統卻認為該詞為正確詞實際上發生辨識正確，系統卻認為該詞為錯誤詞實際上發生辨識正確，系統也判斷為正確詞實際上發生辨識錯誤，系統也認為該詞為錯誤詞. 在本論文的分類問題中，我們將根據正確接受(true positives)、錯誤接受(false negatives)、錯誤拒絕(false positives)、正確拒絕(true negatives)的四項指標計算二種評估方式：召回率(Recall)和準確率(Precision)，並以 F1 分數(F1-score)作為本實驗中主要評估，如式子(5.1)~(5.3)。. 𝑅𝑒𝑐𝑎𝑙𝑙𝐶 =. #𝑇𝑃 #𝑇𝑃 + #𝐹𝑁. 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛𝑐 =. 𝐹 − 𝑆𝑐𝑜𝑟𝑒𝑐 =. #𝑇𝑃 #𝑇𝑃 + #𝐹𝑃. 𝑅𝑒𝑐𝑎𝑙𝑙 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 2 (𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛). 26. (5.1). (5.2). (5.3).

(34) 5.3 實驗語料標記方式以辨識結果之文本和人工轉寫文本計算編輯距離，並標記為三種模式： . 標記 1：正確(C)及錯誤(C ̅)之區塊. . 標記 2：未發生刪除錯誤(D ̅)及刪除錯誤(D)之區塊. . 標記 3：正確(C)、插入錯誤(I)及替換錯誤(S)之區塊. Label sequence. Reference Transcript. Recognition Result. Alignment Results. 1.. 2.. 3.. …. …. …. …. …. 需要. 需要. C. task 應該. 他時刻. I. C C̅. … ̅ D. I. 應該. C. C. ̅ D ̅ D. 是. 是. C. C. 更. 更. C. C. 適合. 適合. C. C. 用. 用. C. delta. 丟他. I. C C̅. asr 來. asset 來. I C. C C. ̅ D ̅ D. C. ̅ D ̅ D. C I. C̅. ̅ D ̅ D. C. ̅ D. C. C C I. D. 做阿. 阿. C. C̅. D. C. …. …. …. …. …. …. 27.

(35) 第6章. 實驗結果與討論. 6.1 錯誤偵測模型表 6-1 為以華語會議語料為訓練資料所實驗在不同模型上的實驗結果，由實驗結果我們可看出 Bi-LSTM 的偵測效能可比 RNN 及 LSTM 較佳，而由錯誤字偵測可顯著看出它的效能。. Type. RNN. LSTM. Bi-LSTM. Correct word. 0.96. 0.97. 0.98. Incorrect word. 0.52. 0.66. 0.72. Correct word. 0.94. 0.97. 0.96. Incorrect word. 0.70. 0.85. 0.83. Correct word. 0.93. 0.96. 0.97. Incorrect word. 0.79. 0.88. 0.91. Correct word. 0.74. 0.85. 0.86. Incorrect word. 0.65. 0.76. 0.76. CORPUS01. CORPUS02. CORPUS03. CORPUS04. 表 6-2 為以華語會議語料為訓練資料所實驗 Bi-LSTM 模型上比較不同特徵之實驗結果，而我們由表六可看出字詞特徵加上韻律特徵(Word+Posodic)比起字詞特. 28.

(36) 徵加上詞性特徵(Word+pos)實驗結果佳，也藉由此實驗來證明我們假設的韻律特徵可以更豐富表示並且得到更好的分類結果。. Type. Baseline. Word+pos. Word+Posodic. Correct word. 0.98. 0.95. 0.96. Incorrect word. 0.72. 0.50. 0.59. Correct word. 0.96. 0.93. 0.96. Incorrect word. 0.83. 0.77. 0.85. Correct word. 0.97. 0.95. 0.95. Incorrect word. 0.91. 0.86. 0.81. Correct word. 0.86. 0.85. 0.86. Incorrect word. 0.76. 0.73. 0.71. CORPUS01. CORPUS02. CORPUS03. CORPUS04. 表 6-3 為以華語會議語料為訓練資料所實驗再加入不同長度的相鄰詞，但在本實驗中我們可看出，因為語料之語句長度不一，因此效果不一致的結果。. 29.

(37) CORPUS01. CORPUS02. CORPUS03. CORPUS04. Type. baseline. Unigrams. Bigrams. Trigrams. 4-grams. Correct word. 0.98. 0.99. 1.0. 0.94. 0.97. Incorrect word. 0.72. 0.93. 0.0. 0.98. 0.78. Correct word. 0.96. 0.94. 0.92. 1.0. 0.96. Incorrect word. 0.83. 0.81. 0.35. 0.0. 0.84. Correct word. 0.97. 0.00. 0.65. 1.00. 1.00. Incorrect word. 0.91. 1.00. 0.64. 0.00. 0.00. Correct word. 0.86. 0.87. 0.91. 0.91. 0.80. Incorrect word. 0.76. 0.24. 0.84. 0.30. 0.50. 表 6-4 是以華語新聞語料為訓練資料所實驗，在本實驗中，比較不同模型之結果，在不同模型及複雜模型之下，效果沒有太大差異。表 6-4、以 BRNN 檢測錯誤用於混合不同領域之語料 Type. RNN. LSTM. Bi-LSTM. Correct word. 0.8338. 0.8420. 0.8407. Incorrect word. 0.6276. 0.6342. 0.6342. MATBN. 表 6-5 是以華語新聞語料為訓練資料所實驗，再加入不同長度的相鄰詞，但在本實驗中我們可看出由於語句長度較長，因此加入特徵表現較一致。其中在加入 30.

(38) Trigrams 的表現最佳。. MATBN. Type. Unigrams. Bigrams. Trigrams. 4-grams. Correct word. 0.9588. 0.9588. 0.9933. 0.8981. Incorrect word. 0.6967. 0.6967. 0.9480. 0.7599. 6.2 語音辨識修正在表 6-6 中，我們做了錯誤修正的基礎實驗稱為音素比對法(Phone Match)簡稱為 PM 以及改良方法簡稱為 IMP_PM，如同第三節所描述方法，我們使用音素比對法來去尋找與關鍵詞相似的位置，但由實驗中觀察到，此方法在某些語料上容易產生假警報(false alarm)。為了改善這個問題，我們將偵測辨識錯誤的結果作為此部分的參考值，若我們偵測此區域發生辨識錯誤，才以關鍵字詞表做為替換的候選詞，並以音素比對法找出最相似的關鍵字詞。而由我們在基礎實驗中的關鍵字修正表現就能達到平均召回率約 78%、精確率約 87%，然而我們更進一步做修正改善，並且呈現出更好性能表現平均召回率約 78%、精確率約 90%，有效提升 3% 領域詞精確率，並且改善語音辨識文本的錯誤。. 31.

(39) Corpus Name CORPUS01 CORPUS02 CORPUS03 CORPUS04. evaluation. PM. IMP_PM. Precision. 0.75. 0.82. Recall. 0.94. 0.94. Precision. 0.87. 0.90. Recall. 0.87. 0.87. Precision. 0.94. 0.97. Recall. 0.91. 0.91. Precision. 0.93. 0.93. Recall. 0.39. 0.39. 32.

(40) 第7章. 結論與未來展望. 本論文探討一般的語音辨識系統應用於特定領域的對話中導致的辨識錯誤，並且提出了兩步驟改善措施，其中包含了辨認錯誤區域和修補毀損內容。在第一步驟中，我們探討了序列標記的方法應用於錯誤檢測的效能，在實驗中我們發現利用有時間序列及記憶的遞迴神經網路對於錯誤偵測是非常有幫助的；在第二步驟中，我們以第一步驟的標記結果作為依據，並以特殊領域的關鍵詞表與錯誤字做音素比對。經由我們的兩階段改錯方法，能夠有效提高關鍵字修正的精確率，並且降低原本音素對照法造成假警報所產生的問題。未來我們希望能夠針對辨識錯誤及未知詞做更進一步的探討及分析，並且加入語句及語意資訊強化偵測模型，讓修正錯誤字能夠有更穩定的效能表現。本論文期望提出一個改善架構，來解決未知詞所導致文本語意不清的問題。. 33.

(41) 參考文獻 [1] Hinton, Geoffrey, et al. "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups." IEEE Signal processing magazine 29.6 (2012): 82-97. [2] Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep learning. MIT press, 2016. [3] LeCun,. Yann,. Yoshua. Bengio,. and. Geoffrey. Hinton.. "Deep. learning." nature 521.7553 (2015): 436-444. [4] Schmidhuber, Jürgen. "Deep learning in neural networks: An overview." Neural networks 61 (2015): 85-117. [5] Ogawa, Atsunori, and Takaaki Hori. "Error detection and accuracy estimation in automatic speech recognition using deep bidirectional recurrent neural networks." Speech Communication 89 (2017): 70-83. [6] Qin, Long, Ming Sun, and Alexander Rudnicky. "OOV detection and recovery using hybrid models with different fragments." Twelfth Annual Conference of the International Speech Communication Association. 2011. [7] Bazzi, Issam. Modelling out-of-vocabulary words for robust speech recognition. Diss. Massachusetts Institute of Technology, 2002. 34.

(42) [8] Bennacef, S. K., et al. "A spoken language system for information retrieval." Third International Conference on Spoken Language Processing. 1994. [9] Mishra, Taniya, and Srinivas Bangalore. "Qme!: A speech-based questionanswering system on mobile devices." Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010. [10] Misu, Teruhisa, and Tatsuya Kawahara. "Speech-based interactive information guidance system using question-answering technique." 2007 IEEE International Conference on Acoustics, Speech and Signal Processing-ICASSP'07. Vol. 4. IEEE, 2007. [11] Hori, Chiori, and Sadaoki Furui. "Advances in automatic speech summarization." Seventh European Conference on Speech Communication and Technology. 2001.. [12] Davis, Steven, and Paul Mermelstein. "Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences." IEEE transactions on acoustics, speech, and signal processing 28.4 (1980): 357-366. [13] Li,. Jinyu,. et. al.. "An. overview. of. noise-robust. automatic. speech. recognition." IEEE/ACM Transactions on Audio, Speech, and Language Processing 22.4 (2014): 745-777. [14] Szoke, Igor, et al. "Sub-word modeling of out of vocabulary words in spoken term 35.

(43) detection." 2008 IEEE Spoken Language Technology Workshop. IEEE, 2008. [15] Klakow, Dietrich, Georg Rose, and Xavier Aubert. "OOV-detection in large vocabulary system using automatically defined word-fragments as fillers." Sixth European Conference on Speech Communication and Technology. 1999. [16] Bisani, Maximilian, and Hermann Ney. "Open vocabulary speech recognition with flat hybrid models." Ninth European Conference on Speech Communication and Technology. 2005. [17] Schaaf, Thomas. "Detection of OOV words using generalized word models and a semantic class language model." Seventh European Conference on Speech Communication and Technology. 2001. [18] Wessel, Frank, et al. "Confidence measures for large vocabulary continuous speech recognition." IEEE Transactions on speech and audio processing 9.3 (2001): 288298. [19] Sun, Hui, et al. "Using word confidence measure for OOV words detection in a spontaneous spoken dialog system." Eighth European Conference on Speech Communication and Technology. 2003. [20] Lin, Hui, et al. "OOV detection by joint word/phone lattice alignment." 2007 IEEE Workshop on Automatic Speech Recognition & Understanding (ASRU). IEEE, 2007. 36.

(44) [21] Burget, Lukas, et al. "Combination of strongly and weakly constrained recognizers for reliable detection of OOVs." 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2008. [22] Rastrow, Ariya, Abhinav Sethy, and Bhuvana Ramabhadran. "A new method for OOV detection using hybrid word/fragment system." 2009 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2009. [23] Parada, Carolina, et al. "Contextual information improves OOV detection in speech." Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010. [24] Rastrow, Ariya, Abhinav Sethy, and Bhuvana Ramabhadran. "A new method for OOV detection using hybrid word/fragment system." 2009 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2009. [25] Twiefel, Johannes, et al. "Improving domain-independent cloud-based speech recognition with domain-dependent phonetic post-processing." Twenty-Eighth AAAI Conference on Artificial Intelligence. 2014. [26] Bechet, Frederic, and Benoit Favre. "Asr error segment localization for spoken recovery strategy." 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013. 37.

(45) [27] Bechet, Frederic, and Benoit Favre. "Asr error segment localization for spoken recovery strategy." 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013. [28] Li,. Jinyu,. et. al.. "An. overview. of. noise-robust. automatic. speech. recognition." IEEE/ACM Transactions on Audio, Speech, and Language Processing 22.4 (2014): 745-777. [29] Kim, Yoon, Horacio Franco, and Leonardo Neumeyer. "Automatic pronunciation scoring of specific phone segments for language instruction." Fifth European Conference on Speech Communication and Technology. 1997.. 38.

(46)