• 沒有找到結果。

傳統的語音辨識流程利用 HMM 處理語音訊號在時間上的變異[46],並利用生成 式模型 GMM 建立語音訊號的聲學模型。因為要人工決定需要多少高斯分佈才能 近似真實的機率分佈,反而使 GMM 在發展上受到侷限。近年來以屬鑑別式模型 的類神經網路輔助 GMM 的不足之處[53],最簡易的模型為深層類神經網路(Deep neural network, DNN)。相較於 GMM 的限制,DNN 具有四點好處,首先是彈性 的輸入特徵,可用音框跨度較大的音窗,除此之外,仍可用 MFCC 以外的語音 特徵,如 FBANK、PLP 等;其次為多個隱藏層帶來的好處,特徵與目標間的非 線性對應關係;最後則是無需假設特徵的機率分佈,及較具有鑑別力的模型參數。

16

以下將簡單介紹 DNN 如何運用在聲學模型的訓練,示意圖可參考圖 2.3。

DNN 可以視為一個簡單的前饋式類神經網路(Feed-forward neural network),其中 包含輸入層、隱藏層及輸出層。在向前計算時,每一個隱藏層的神經元會將前一 層的輸出與權重向量相乘積,並透過非線性函數轉換成輸出,非線性函數通常為 Sigmoid,前饋運算可以表示為:

𝐯=𝜎(𝐳) ≡ 𝜎(𝐖𝐯ℓ−1+ 𝐛) ,

( ℓ = 0, 1, 2, 3, … , 𝐿 )

(2.5) 圖 2.3:DNN 用於自動語音辨識訓練。

17

𝜎(𝑧𝑖) = 1

1 + exp (−z𝑖) , 0 < 𝜎(z𝑖) < 1 (2.6)

在 式 (2.5) 和 式 (2.6) 中 ,𝑁∈ ℕ , 為 第 ℓ 層 的 神 經 元 數 量 。 𝐯∈ ℝ𝑁×1, 𝐖 ∈ ℝ𝑁×𝑁ℓ−1,𝐛 ∈ ℝ𝑁×1。 𝐯為第ℓ層的輸出向量;𝐖為第ℓ層的權重矩陣,

為可訓練參數,通常採取隨機初始化(Random initialization);z𝑖為𝐳內的元素,

意旨同一層中第𝑖個神經元的輸出。

若將 DNN 應用在預測類別(音素或其他更小單位)的事後機率上,每一個神 經元的輸出都可表示為一個類別,總共可分為𝐶類,輸出表示為𝑖 ∈ {1, … , 𝐶},第 𝑖個輸出神經元的值v𝑖𝐿表示輸入音框的語音特徵𝐨𝑡對應該類別𝑖的機率𝑃(𝑖|𝐨𝑡),假 設輸出向量𝐯𝐿滿足多項式分佈(Multinomial distribution),那麼𝐯𝐿需要滿足v𝑖𝐿 ≥ 0 及∑𝐶𝑖=1𝑣𝑖𝐿 = 1,可以透過軟式最大化(Softmax):

𝑣𝑖𝐿 = softmax(𝐳𝐿, 𝑖) = exp(𝑧𝑖𝐿)

𝐶𝑘=1exp(𝑧𝑘𝐿) (2.7)

在訓練 DNN 的階段使用 GMM 產生強制對齊(Force alignment)得到狀態標籤 (State label)的序列,並作為監督資訊,傳統訓練使用交叉熵(Cross entropy)目標函 數− ∑ 𝐝𝑖 𝑖log 𝐯𝑖𝐿,其目的是最小化 DNN 輸出與狀態標籤d𝑖的差異(𝐝𝑖為 one-hot 表 示法)。接著,我們再使用反向傳播演算法(Back-propagation)[54]於隨機梯度下降 (Stochastic gradient descent algorithm)最小化損失函數,參數更新可透過:

𝐖𝑡+1  𝐖𝑡− ε∆𝐖𝑡

𝐛𝑡+1  𝐛𝑡− ε∆𝐛𝑡

(2.8)

18

接下來我們簡單介紹深度學習與自動語音辨識的歷史,記錄如圖 2.4,從早期的 深度信念網路(Deep belief network, DBN)[55],到資料逐漸充足後,可直接應用上 下文相關類神經網路(Context-dependent deep neural network, CD-DNN)於自動語 音 辨 識 的 訓 練 [56] , 後 續 技 術 如 雨 後 春 筍 般 冒 出 。 儘 管 DNN-HMM 可 比 GMM-HMM 有更好的特徵轉換的能力,但在 DNN-HMM 中,前饋式類神經網路 較難利用到存在於語音信號的時間依賴性,有鑑於此,[57][58]提出利用遞迴式 類神經網路 (Recurrent neural network, RNN),特別是長短期記憶單元 (Long short-term memory, LSTM)[59],基於 LSTM 的特性,LSTM-HMM 可對序列式資 料建模,進而捕捉到語音訊號的時間依賴性,可達到比起 DNN-HMM 更好的效 能。儘管如此,由於 LSTM 的計算難以平行化[60],使得訓練時間較為冗長,也 無法達到自動語音辨識要求的即時性,使得該議題大多為研究相關,實用程度較

圖 2.4:深度學習與自動語音辨識的歷史。

19

低。[61]使用了時間延遲類神經網路(Time-delay neural network, TDNN)做為聲學 模型,TDNN 可視為 1 維的摺積層(Convolutional layer),在模型的特性上與 LSTM 相似,可根據輸入的歷史計算未來輸出,因此對於長時間依賴性也可得到良好的 建模,且訓練效率也相仿 DNN。因為可同時兼顧有效性與即時性,TDNN-HMM 成為目前主流自動語音辨識受歡迎的模型之一。因此本文會基於 TDNN 之上,

進行一系列的研究。

相關文件