• 沒有找到結果。

在實驗中,我們使用 Kaldi[114]語音辨識工具包,實驗語料庫為 AMI(Augmented multi-party interaction)[37]和 LibriSpeech[36]。相關設定如下,前者視為領域內資 料,包含了人工轉寫語料以及未轉寫語料,後者則視為領域外資料,我們會在後 續章節更詳細地介紹兩個語料庫。

在章節 5.1.1 中,我們將簡介 AMI 和 LibriSpeech 兩個語料庫,包含語料專 案動機和基本資訊;在章節 5.1.2 中,我們會詳述本次實驗設置的流程與架構;

在 章 節 5.1.3 ,我 們 會 提 及 本 實驗 使 用 的聲 學 模 型 ─ 時 間 延 遲類 神 經 網 路 (Time-delay neural network, TDNN),以及特徵相關設定;在章節 5.1.3 則為評估 方法─詞錯誤率(Word error rate, WER)、詞修復率(Word recovery rate, WRR)[115]

和絕對進步率(Absolute improvement)。

68

5.1.1 實驗語料說明

在本章節中,我們會介紹 AMI 和 LibriSpeech 兩個語料庫,包含語料庫的內容、

實驗中如何使用,以及相關的基本統計資訊。

Augmented Multi-Party Interaction (AMI)

AMI 語料庫是來自歐盟發起的會議瀏覽(Meeting browser)計畫,其中包含情境會 議(Scenario meetings)和非情境的會議(Non-scenario meetings)。情境會議意旨具有 明確目標的會議,在情境會議中,會議彼此之間互有關連。舉例來說,在電視遙 控器設計的會議中,每次會議內容皆是以該主題和之前會議結果的延伸;另一方 面,非情境會議則反之,討論內容較沒有明確主題,會議彼此之間也大多沒有相 關性,以學生或研究者組成討論的小型會議,內容包含線性代數、微積分等。非 情境會議的相關語料主要提供者如下,英國愛丁堡大學、瑞士 Idiap 研究中心、

荷蘭 TNO 人為因素研究所。除語音內容以外,AMI 語料庫也包含影像、文字、

語音。影像紀錄會議視角、投影機畫面和白板書寫記錄;文字包含語音轉寫、對 話特性,可用於摘要、情緒與對話;最後是語音的部分,可分為耳掛式近距離麥 克風、固定式遠距離麥克風。本實驗只用到語音語料,AMI 的基本統計資料如 表 5.1,由於過往於 AMI 的訓練中並沒有用到發展集,我們也依循這樣的慣例,

因此實際上的訓練集為原訓練集加發展集(約 78 小時)。

表 5.1:AMI 會議語料之訓練、發展與測試集。由於 AMI 語料中並無使用到 發展集,因此實際上的訓練集為原訓練集加發展集,共 78 小時。

語料單位 訓練集 發展集 測試集 1 測試集 2 總計 小時數 70.09 7.81 8.71 8.97 95.79 語句數 97,222 10,882 13,059 12,612 133,775

69

LibriSpeech

LibriSpeech 是 LibriVox 專案中的一部分,語料內容為 LibriVox 的有聲書朗讀,

內容橫跨 8,000 個公開領域,皆為自願者的錄音。訓練集分為 100 小時、360 小 時以及 500 小時,合計 960 小時。平均來說,比起後者的 500 小時,在 100 小時 和 360 小時語料的錄音品質更高,口音更接近美國英語,因此較容易訓練好的聲 學模型。發展集和測試集可分為四個部份,分別為發展集(Dev,約 5.4 小時)、發 展集 1(Dev_Other,約 5.3 小時)、測試集(Test,約 5.3 小時)和測試集 1(Test_Other,

約 5.1 小時)。上述四個子集可視為乾淨(無 Ohter 後綴)和其他(有 Ohter 後綴),區 分方法為利用華爾街日報語料庫(The Wall Street Journal corpus, WSJ)[116]訓練 好的聲學模型辨識(發展集+測試集),其中較低的 WER 為乾淨語料,較高的 WER 為其他語料,並隨機抽取 20 名男性和 20 名女性做為發展集。由於測試集的 WER 普遍比發展集高,因此較具有挑戰性。我們將詳細的統計資料紀錄於表 5.2。

表 5.2:LibriSpeech 之訓練、發展與測試集。發展集和測試集為乾淨語料 (Clean),WER 較低;發展集 1 和測試集 1 為其他語料(Other),WER 較高。

語料單位 訓練集 發展集 發展集 1 測試集 測試集 2 總計 小時數 960.9 5.4 5.3 5.4 5.1 982.1 語句數 301,819 2,703 2,864 2,620 2,939 312,945

70

5.1.2 實驗流程設定

本實驗將 AMI 的訓練集(共 78 小時的原訓練集+發展集)切割成 16 小時的監督(轉 寫)語料和 62 小時的非監督(未轉寫)語料,測試在 AMI 的測試集 1 和測試集 2。

可參考表 5.3。另一方面,我們使用 1,000 小時的 LibriSpeech 為具轉寫的領域外 資料,由於 LibriSpeech 和 AMI 皆為英文語料,但由於前者偏美國口音,而後者 偏歐洲口音,因此本遷移學習除了領域的遷移之外(有聲書朗讀領域到會議語音 辨識領域),也可視為口音的遷移(美國口音英語到歐洲口音英語)。

整體實驗的架構可參考圖 5.1。詳細來說,訓練流程可分為兩階段,第一階 段為利用監督語料訓練種子模型,以及再使用非監督語料提升效能,其中我們的

表 5.3:AMI 會議語料的半監督式設定

語料單位 訓練(轉寫) 訓練(未轉寫) 測試集 1 測試集 2 總計

小時 16 62 8.71 8.97 95.79

語句 20,000 88,104 13,059 12,612 133,775

圖 5.1:基本實驗流程圖。我們著重於假說(Hypothesis)的改善,以及品質評估 (Quality estimation)。前者可透過遷移學習、模型核合併與壓縮技術提升;後者則 是利用 NCE 準則與詞圖監督(Lattice for supervision)輔助。

71

監督語料包含領域內 16 小時的 AMI 和領域外 1,000 小時的 LibriSpeech,非監督 語料則是 62 小時未轉寫的 AMI 語料。

實驗皆做在 LF-MMI 目標函數之上。首先,探討使用 NCE 準則(詞圖事後機 率的權重)與詞圖監督(Lattice for supervision)。其次,後處理模型合併及知識蒸 餾。注意,由於著重探討多樣性影響,本實驗不探討模型合併權重,因此每個模 型在合併時的權重皆為模型數量的倒數(e.g. M個模型,則權重為1/M)。接著,

跨領域和口音的遷移學習,著重於權重遷移、多任務學習。最後則是上述三者間 的交互關係。

5.1.3 聲學模型與相關設定

對於聲學模型,我們的訓練流程是僅使用領域內轉寫語料訓練 GMM-HMM 系 統,並使用來自 GMM 的多元音素(Senones)的事前機率(Prior)作為監督資訊訓練 時間延遲類神經網路(Time-delay neural network, TDNN),該 TDNN 使用該監督資 訊和 LF-MMI 目標函數,並在 AMI 語料庫上建立基礎聲學模型(即種子模型)。

前端特徵由 40 維的高分辨率 MFCC (i.e. High resolution MFCC)和 100 維的 i-vector[117]作為聲學特徵,其中 i-vector 用於類神經網路中的語者調適。實驗中 比起一般常見流程有些許改變,首先,為了排除 i-vector 的任何影響,我們訓練 組合轉寫和未轉寫語料(皆為 AMI 語料)的 i-vector。此外,為了進行比較,我們 僅使用來自轉寫語料的統計資料用以訓練上下文相關的決策樹。最後,在自我訓 練的第二階段時,我們需要建立轉寫和未轉寫語料的音素語言模型。具體來說,

當我們在估計分母項 Finite state transducer (FST)時,給予轉寫語料的音素序列更 高的權重(轉寫語料為 1.5,未轉寫語料為 1),這部分並無特別調動。

接著,我們簡單介紹聲學模型 TDNN。該模型提出於 1989 年的音素辨識任 務[61],由於 TDNN 是對每一個隱藏層的輸出在時間上的擴展,即每個隱藏層的

72

輸入是前一層在不同時間的輸出,因此可容許特徵向量序列之時間長度不一致。

這樣的特性可捕捉住上下文長時間相關性,該優點是可比傳統 DNN 計算更長的 時間,且在訓練及解碼上取得相仿的速度。我們在 AMI 和 LibriSpeech 的訓練中 皆使用 TDNN 做為聲學模型,在半監督式訓練中,我們使用多任務學習架構,

意旨有兩個輸出層(皆包含 CE 和 LF-MMI),其中分別對應轉寫語料和未轉寫語 料,如圖 5.2。

圖 5.2:多任務學習架構的半監督式聲學模型示意圖。

表 5.4:WER 錯誤類型。分別為插入錯誤(Insertion, I)、取代錯誤(Substitution, S)、

刪除錯誤(Deletions, D)以及正確(Correct, C)。

REF PORTABLE **** PHONE UPSTAIRS LAST NIGHT SO

HYP PORTABLE FROM ***** STORES LAST NIGHT SO

OP C I D S C C C

73

5.1.4 實驗評估方式

在實驗中,我們使用詞錯誤率(Word error rate, WER)和詞修復率(Word recovery rate, WRR)做為評估。首先,我們先來介紹 WER,WER 為評估預測轉寫(解碼結 果)與參考轉寫(正確答案)間的相似度,其中包含插入錯誤、取代錯誤及刪除錯 誤,詳細的錯誤樣式可參考表 5.4。而統計完錯誤次數後,便可由下式計算:

WER = 100 ×𝐼𝑛𝑠𝑒𝑟𝑡𝑖𝑜𝑛𝑠 + 𝑆𝑢𝑏𝑠𝑡𝑖𝑡𝑢𝑡𝑖𝑜𝑛𝑠 + 𝐷𝑒𝑙𝑒𝑡𝑖𝑜𝑛𝑠

𝑇𝑜𝑡𝑎𝑙 𝑤𝑜𝑟𝑑 𝑖𝑛 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑡𝑟𝑎𝑛𝑠𝑐𝑟𝑖𝑝𝑡𝑠 (5.1) 聲學模型的好壞與 WER 計算出的數值成反比,WER 越低代表聲學模型的效果 越好,反之亦然。由於三種錯誤加起來可能會大於所有的正確文字數量,因此 WER 可能會大於 100,而 WER 為目前自動語音辨識中最廣泛採用的評估方法。

接著我們介紹用於評估半監督式訓練的 WRR,公式如下:

WRR = 𝐵𝑎𝑠𝑒𝑙𝑖𝑛𝑒𝑊𝐸𝑅 − 𝑆𝑒𝑚𝑖𝑠𝑢𝑝𝑊𝐸𝑅

𝐵𝑎𝑠𝑒𝑙𝑖𝑛𝑒𝑊𝐸𝑅 − 𝑂𝑟𝑎𝑐𝑙𝑒𝑊𝐸𝑅 (5.2) 𝐵𝑎𝑠𝑒𝑙𝑖𝑛𝑒𝑊𝐸𝑅代表僅用轉寫語料訓練出的種子模型的 WER;𝑆𝑒𝑚𝑖𝑠𝑢𝑝𝑊𝐸𝑅代表 利用半監督式訓練或遷移學習的模型 WER;𝑂𝑟𝑎𝑐𝑙𝑒𝑊𝐸𝑅則代表結合了所有領域 內語料(AMI 的 78 小時語料)的模型 WER。因此,我們可稱式(5.2)為評估缺乏轉 寫語料訓練下的聲學模型,以及全部都用轉寫語料訓練的聲學模型間的效能差 距。WRR 越高代表聲學模型效果越接近理想結果,越低則反之。

絕對進步率(Absolute improvement, AI)公式如下:

AI = 𝑆𝑒𝑚𝑖𝑠𝑢𝑝𝑊𝐸𝑅 − 𝐵𝑎𝑠𝑒𝑙𝑖𝑛𝑒𝑊𝐸𝑅 (5.3)

相關文件