我們探討使用機器學習及類神經網路模型來捕捉辨識字的特性,在此架構下,網 路輸入為辨識轉寫文件 D,其中 n 個詞構成的語句以{𝑤1, 𝑤2, 𝑤3… 𝑤𝑛} 表示。網 路輸出為錯誤類別,我們使用 𝑝(𝑘|𝑤𝑖, Θ) 來定義字詞 𝑤𝑖 屬於錯誤類別𝑘的事後 機率,其中Θ 表示模型中的參數。
19
在模型部分,我們探討在不同監督式學習方法中,對於偵測錯誤的效能。為了符 合語音轉寫富含時間及序列特性,我們更深入探討了以下幾種方法,在本任務上 的效能。如:深層類神經網路(DNN)、遞迴神經網路(RNN)、長短期記憶類神經網 路(LSTM)、雙向遞迴神經網路(BRNN)。以詞向量作為輸入,並且與神經網路參 數一同訓練。
3.2 語音辨識錯誤修正
在本論文中,我們使用萊文斯坦距離(Levenshtein distance)[9]去比較自動語音辨識 輸出的音素序列與假設的關鍵詞相似性,而這樣的方式也常被使用在字層級的比 對。語音轉寫的錯誤主要分為三種,包含:代替、插入、刪除。當語音辨識中未 知詞導致語音錯誤時,可能同時發生代替及刪除的連續錯誤。因此,為了解決連 續錯誤導致字詞邊界模糊的問題,我們將使用音素層提升尋找關鍵字的可能性。
20
並且經由我們初步實驗,音素對照法能比文字層級的比對找尋到更細部的差異,
由於本論文使用之語料富含之較多領域詞,並且內容通常中英混雜,因此在這樣 的情況下,以字層級來做比對是較難符合我們的期待。
萊文斯坦距離能夠簡單找到一組給定句子中最可能的全貌,或是用給定詞彙中最 相似的詞來替換識別的單詞。而為了改善並且尋找到更多可能領域詞,我們將在 本論文第四節中,我們所實驗的錯誤修正是以設定相似度門檻值為0.8。(圖一) 我們定義兩字串A和B之間的萊文斯坦距離的數學定義為𝑙𝑒𝑣𝐴,𝐵(𝑖, 𝑗),其中a, b分別 為A, B的長度,萊文斯坦距離的計算如下:
𝑙𝑒𝑣𝐴,𝐵(𝑖, 𝑗) = {
𝑖 , 𝑗 = 0 𝑗 , 𝑖 = 0 𝑚𝑖𝑛 {
𝑙𝑒𝑣𝑎,𝑏(𝑖, 𝑗 − 1) + 1 𝑙𝑒𝑣𝑎,𝑏(𝑖 − 1, 𝑗) + 1 𝑙𝑒𝑣𝑎,𝑏(𝑖 − 1, 𝑗 − 1) + 1(𝑎𝑖≠𝑏𝑖)
, 𝑜𝑡ℎ𝑒𝑟𝑤𝑜𝑠𝑒
(3.1)
21
第4章 辨識錯誤偵測之特徵
每個字藉由特徵向量去表示,其中包含的特徵如下:字詞特徵 (word features) 主要以辨識結果為主,輸入類神經網路一起訓練字詞表示法(word embedding),並 且利用模型建立上下文之關聯性,豐富字詞表示方法;句法特徵 (Syntactic features) 為詞性的標記並將該詞性轉換成向量表示法,詞性標註主要使用中研院斷詞系統
1處理語音辨識轉寫結果;韻律特徵(Prosodic features)是音素的數量,及辨識字發 音時間、音素初始時間、音素結束時間、音素個數以及平均值(Mean)、標準差 (Variance)。事後機率特徵(Posterior probability features)為預訓練分類模型並將分 類結果作為置信度評估,將字詞表示法輸入至 Bi-LSTM 模型中訓練並預測該字 詞為正確/插入/替換字詞,在下一個階段,將該預測結果,當作輸入之特徵向量。