語音辨識錯誤處理 - 探究有效偵測及修正語音辨識錯誤技術之研究

2.2.1 語音辨識錯誤之類型

語音辨識結果可不可以取得利益之

錯誤類型標記 C C C S S I

人工轉寫可不可以舉個例子

C：正確詞；S：替換詞錯誤；I：插入詞錯誤；D：刪除詞錯誤

在語音辨識上，在不同階段其實都可能發生錯誤，例如：聲學上的發音錯誤、語言模型中的未知詞錯誤等等，然而為了方便計算錯誤率(WER)及對齊人工轉寫答案，我們將語音錯誤主要分成三種類型，插入錯誤、替換錯誤及刪除錯誤，錯誤型態及標記如表2-1。

(一)、刪除錯誤：刪除錯誤為語音辨是無法將語者講話的內容辨識出來，導致該字詞被刪除或省略，刪除錯誤為語音辨識中最少見的錯誤類別，但其通常發生於環境過於吵雜或語者音量過小等等的情況之下，導致語音辨識無法辨識該字詞，因而發生刪除錯誤。而發生此類錯誤可能導致句子的語意受到影響。

(二)、插入錯誤：插入錯誤通常和說話語者有很大關係，由而個人發音、語者重疊或是背景噪音等問題導致辨識器將原本訊號辨識成其他多餘的字詞，此類辨識錯誤甚至可能辨識出比原本語句更長的字詞。

(三)、替換錯誤：替換錯誤通常出現在於語者發音不準確或是因為講話過程中出現字典中未出現的字詞，導致詞彙識為其他字詞，像是未知詞( OOV ) 的問題。而一般而言，替換錯誤為語音辨識中最常見的錯誤類型，由於此替換錯誤字可能被辨識成與相同或相似發音之詞彙，但在整體語義上可能受到嚴重的破壞。

2.2.2 語音辨識錯誤之影響

語音辨識錯誤之影響可由不同層面來討論。而其中最主要影響層面包含語音辨識及語音辨識之應用。語音辨識錯誤可能影響語音辨識之效能，導致字錯誤率(WER) 過高；另外，在語音辨識之應用，可以能受到語音辨識錯誤影響，雖然語音辨識錯誤可能不影響應用的結果，但因口語文件可能在語義上遭到破壞，導致其應用上受限，進而影響應用系統的效能。

(一)、語音辨識：以語音辨識角度而言，辨識錯誤之嚴重性及複雜度依序為刪除錯誤>替換錯誤>插入錯誤。任一個錯誤都可能影響語音辨識系統之效能，但刪除錯誤為不可逆的錯誤型態，我們很難在以語音辨識器中的詞圖(word lattice)上的資訊或是辨識後的修正來去處理此類問題。

(二)、語音辨識之應用：以語音辨識應用或口語文件的角度而言，其嚴重性則依序為替換字錯誤>刪除字錯誤>插入字錯誤。語音辨識應用而言，最常出現的替換錯誤反而導非常嚴重的影響，由於其可能影響整體語意導致語意偏離，而當此詞彙關鍵性的詞彙時，將大大影響語音辨識後應用之效能。

2.2.3 語音辨識錯誤處理相關研究

本小節探討在語音辨識及應用中，針對語音辨識錯誤所提出相關的措施。當我們要說話之前，我們會在腦中構想說話的內容，並且藉由嘴巴發出聲音。一段語音辨識及應用的過程，如同圖二，我們會將腦中的構思的過程比擬成文字生成(Text Generator)生成出語句 W；利用嘴巴發聲的過程比擬成語音生成(Speech Generator) 生成出語音訊號X，再來會由語音辨識器辨識一段訊號 X，將其轉換成文字序列 𝑊̂ 。在語音辨識應用中，例如像問答系統，該系統會藉由輸入序列𝑊̂ 或𝑊̂^′，該問答系統會計算出最佳答案序列𝑌̂^′。

為避免語音辨識發生錯誤，過去研究也針對語音辨識及應用中不同階段提出來對應的解決辦法，其中主要分成三個部分，分別為語音辨識階段(speech recognition model) 、語音辨識後處理階段 (ASR post-processing) 以及語音辨識應用階段 (application systems)，如圖 2-2。

(一)、語音辨識階段(speech recognition models)：為了處理語音辨識錯誤，我們通常會調整既有的辨識模型，而最常見的方法為聲學模型的調適及語言模型

的調適，然後此類型的調適方法雖有某些程度上的改善，此方法皆於個別模型的調適而非整體的優化。

(二)、語音辨識後處理階段(ASR post-processing)：後處理階段主要分成兩種方法，第一種方法為以語音辨識結果為基礎，對於辨識的候選前N 個選項重新評分，並且找到更佳的候選序列。第二種方法是以人工轉寫為基礎，

盡可能地將語音辨識結果以序列轉換的方式轉換成正確轉寫。

(三)、語音辨識應用階段(application systems)：在應用階段，為了避免語音辨識錯誤影響系統效能，最常見的方法從資料集上做領域知識的遷移(domain adaptation)，將完全正確的文本當作來源資料(source data)，而辨識錯誤文本當作目標資料(target data)，將原本應用系統做領域知識遷移至含有錯誤文本的資料集上。

在文檔中探究有效偵測及修正語音辨識錯誤技術之研究 (頁 14-19)