語音錯誤偵測之分類模型

我們探討使用機器學習及類神經網路模型來捕捉辨識字的特性，在此架構下，網路輸入為辨識轉寫文件 D，其中 n 個詞構成的語句以{𝑤₁, 𝑤₂, 𝑤₃… 𝑤_𝑛} 表示。網路輸出為錯誤類別，我們使用 𝑝(𝑘|𝑤_𝑖, Θ) 來定義字詞 𝑤_𝑖 屬於錯誤類別𝑘的事後機率，其中Θ 表示模型中的參數。

在模型部分，我們探討在不同監督式學習方法中，對於偵測錯誤的效能。為了符合語音轉寫富含時間及序列特性，我們更深入探討了以下幾種方法，在本任務上的效能。如：深層類神經網路(DNN)、遞迴神經網路(RNN)、長短期記憶類神經網路(LSTM)、雙向遞迴神經網路(BRNN)。以詞向量作為輸入，並且與神經網路參數一同訓練。

3.2 語音辨識錯誤修正

在本論文中，我們使用萊文斯坦距離(Levenshtein distance)[9]去比較自動語音辨識輸出的音素序列與假設的關鍵詞相似性，而這樣的方式也常被使用在字層級的比對。語音轉寫的錯誤主要分為三種，包含：代替、插入、刪除。當語音辨識中未知詞導致語音錯誤時，可能同時發生代替及刪除的連續錯誤。因此，為了解決連續錯誤導致字詞邊界模糊的問題，我們將使用音素層提升尋找關鍵字的可能性。

並且經由我們初步實驗，音素對照法能比文字層級的比對找尋到更細部的差異，

由於本論文使用之語料富含之較多領域詞，並且內容通常中英混雜，因此在這樣的情況下，以字層級來做比對是較難符合我們的期待。

萊文斯坦距離能夠簡單找到一組給定句子中最可能的全貌，或是用給定詞彙中最相似的詞來替換識別的單詞。而為了改善並且尋找到更多可能領域詞，我們將在本論文第四節中，我們所實驗的錯誤修正是以設定相似度門檻值為0.8。(圖一) 我們定義兩字串A和B之間的萊文斯坦距離的數學定義為𝑙𝑒𝑣_𝐴,𝐵(𝑖, 𝑗)，其中a, b分別為A, B的長度，萊文斯坦距離的計算如下：

𝑙𝑒𝑣_𝐴,𝐵(𝑖, 𝑗) = {

𝑖 , 𝑗 = 0 𝑗 , 𝑖 = 0 𝑚𝑖𝑛 {

𝑙𝑒𝑣_𝑎,𝑏(𝑖, 𝑗 − 1) + 1 𝑙𝑒𝑣_𝑎,𝑏(𝑖 − 1, 𝑗) + 1 𝑙𝑒𝑣_𝑎,𝑏(𝑖 − 1, 𝑗 − 1) + 1_(𝑎_𝑖_≠𝑏_𝑖₎

, 𝑜𝑡ℎ𝑒𝑟𝑤𝑜𝑠𝑒

(3.1)

第4章辨識錯誤偵測之特徵

每個字藉由特徵向量去表示，其中包含的特徵如下：字詞特徵 (word features) 主要以辨識結果為主，輸入類神經網路一起訓練字詞表示法(word embedding)，並且利用模型建立上下文之關聯性，豐富字詞表示方法；句法特徵 (Syntactic features) 為詞性的標記並將該詞性轉換成向量表示法，詞性標註主要使用中研院斷詞系統

1處理語音辨識轉寫結果；韻律特徵(Prosodic features)是音素的數量，及辨識字發音時間、音素初始時間、音素結束時間、音素個數以及平均值(Mean)、標準差 (Variance)。事後機率特徵(Posterior probability features)為預訓練分類模型並將分類結果作為置信度評估，將字詞表示法輸入至 Bi-LSTM 模型中訓練並預測該字詞為正確/插入/替換字詞，在下一個階段，將該預測結果，當作輸入之特徵向量。

在文檔中探究有效偵測及修正語音辨識錯誤技術之研究 (頁 25-28)

3.2 語音辨識錯誤修正

第4章 辨識錯誤偵測之特徵

第4章辨識錯誤偵測之特徵