• 沒有找到結果。

第 3 章 深層類神經網路模型訓練

3.2 類神經網路架構

本章節將介紹深層類神經網路的架構 [11],深層類神經網路是非常強力的判別式 模型 (discriminative model),許多學者的研究顯示出將類神經網路使用在語音辨識 的任務能夠增進辨識的正確率 [37],優於傳統使用高斯混合模型加上隱藏馬可夫 模型的效果。深層類神經網路是由傳統多層感知器 (multilayer perceptron, MLP) 與 多層的隱藏層所構成。深層學習網路可分為兩個步驟:前饋 (feed forward) 及反向 傳播 (backpropagation)。假設輸入層表示為第 0 層,輸出層表示為第 L 層,表示 有 L + 1 層的深層類神經網路,此前饋運算可以表示為:

v = f (z) = f (Wvℓ´1+ b), for 0 ă ℓ ă L (3.1)

輸⼊層 始值可以改善語音辨識的正確率,我們使用限制性波茲曼機 (restricted boltzmann machine, RBM) 來預訓練權重的初始值,vℓ´1 為第 ℓ ´ 1 層的輸出向量,bℓ´1為第

區酷似神經元的激發態,兩側區酷似神經元的傳導態,因而在類神經網路學習方 面,可以將重點特徵推向中央區,將非重點特徵推向兩側區。無論是哪種解釋,

看起來都比早期使用的的線性活化函數 (y = x) 或指示函數 (indicator function) 高 明了不少。

由 於 雙 曲 正 切 函 數 是 奇 函 數, 它 的 圖 形 通 過 原 點 且 關 於 原 點 對 稱, 因 此 tanh(z) 可看作是 S 型函數的一種變形,這兩種活化函數具有相同的建模能力。S 型函數輸出值域範圍為 (0, 1),它的函數值域具備非對稱的特性,使得隱藏層神經 元紀錄較稀疏的值。另一方面,雙曲正切函數的輸出值域範圍為 (´1, 1),它的值 域有對稱性,並且有研究學者認為雙曲正切函數能幫助模型的訓練。2001 年,神 經科學家 Dayan、Abott 從生物學角度,模擬出了腦神經元接受訓號更精確的活化 模型。這個模型對比 S 型函數系主要變化有三點:(1) 單側抑制;(2) 相對寬闊的 激發邊界;(3) 稀疏激活性。同年,Charles Dugas 等人在做正數回歸預測論文中偶 然使用了 Softplus 函數,Softplus 函數是 Sigmoid 函數的原型。

Softplus(z) = log(1 + ez) (3.4)

按照論文的說法,Charles Dugas 等人一開始想要使用指數函數作為活化函數,但 是指數函數的梯度實在太大,難以訓練,因此加上 log 來減緩上升趨勢。加了 1 是為了保證非負性。同年,Charles Dugas 等人在 NIPS 會議論文中證明 Softplus 可 以看作是強制非負校正函數 max(0, x) 的平滑版本。偶然的是,同是 2001 年機器 學習領域的 Softplus/Rectifier 活化函數與神經科學領域的提出腦神經元活化函數 有些神似之處,這促成了新的活化函數的研究。近年來,修正線型單元 (rectified linear unit, ReLU) 函數成為學術界的新寵兒:

ReLU(z) = max(0, z) (3.5)

由於 sigmoid 函數的輸出值只能非常趨近於 0,但沒辦法到達 0,而 ReLU 函數 強迫輸出值變得相當稀疏,並且很容易計算梯度。類神經網路運用於聲學模型 時,預測音框屬於哪一個狀態視為是一種分類問題,每一個輸出神經元都表示 一種分類,總共可分為 C 類,表示為 i P t1, …, Cu,則第 i 個輸出神經元的值 viL 表示觀測向量 o 分類到類別 i 的機率 P (i|o),假設輸出向量 vL 滿足多項式分佈 (multinomial distribution),那麼 vL需要滿足 vLi ď 0 及řC

i=1viL= 1,可以透過軟式 最大化 (softmax) 做到:

vLi = Pdnn(i|o) = softmaxi(z) = eziL řC

j=1ezjL (3.6) 其中 ziL表示激發向量 zL中第 i 個元素。已知觀測向量 o,類神經網路的輸出由模 型參數 tW, bu 計算而得,如式 3.1 ,從第 1 層層層計算到第 L ´ 1 層,接著利用 式 3.6 計算觀測向量 o 分類到 C 類的事後機率。

相關文件