類神經網路的介紹

第四章類神經網路相關研究探討

4.1 類神經網路的介紹

類神經網路系統(Artificial Neural Networks)，其理論起源於約 1940 年代。類神經網路想要模仿人腦的神經網路，跟大腦有一樣的特質去運作並有隨著累積經驗學習的能力。大腦是由大約有 100 億個腦神經細胞(Neuron)所組成的，而每個腦神經細胞又會與其他一些腦神經細胞，所以是個高度連接性的網路 (Highly

Interconnected Network)。然而類神經網路是透過的使用數學的方法去學習模擬人腦的腦神經網路，使用大量簡單的相連人工神經來模仿生物神經網路的能力從外部環境或其他神經元獲得訊息。透過電腦的快速計算能力，最後開發出一個具有推論結果能力的人工智慧機器。

圖 4-1 神經元的示意圖

做一個簡單的敘述，在圖 4-1 中為某一個神經元的示意圖，有多個輸入及一個輸出，多個輸入其它神經元傳輸過來的。輸入(Input)集合為{𝑋_𝑖|𝑖 = 1,2, … , 𝑛}，

46 的邏輯運算問題。所以後來推出了多層感知器(Multilayer Perceptrons, MLP)來解決此問題，將在下節對其做介紹。

圖 4-2 常見之轉移函數

圖 4-3 單層感知器網路概念圖圖 4-4 多層感知器網路概念圖

4.2 深層神經網路

由於隱藏層(Hidden layer)的引入，一些單層感知器所無法解決的問題，似乎得到解決的曙光。多層感知器[Seung, 2002][Delashmit, 2005]便是包含著多層隱藏層的網路，是個前饋神經網路(Feed-Forward Neural network)。網路包含一層輸入單元，

至少一個以上的隱藏層及一個輸出層，因為輸入的值是直接傳進隱藏層，而隱藏層及輸出層皆以神經元組成，所以在此並未把輸入層當作網路架構中的一層。如圖 4-4，稱為兩層的類神經網路。隱藏層是輸入層和輸出層之間的神經元連接而成的，隱藏著期望的輸出值，沒有明顯的方式可以去得到隱藏層期望的輸出值的資訊。無法去分析隱藏層內的神經元，只能由隱藏層自行決定它期望的輸出。提供多層神經網路學習的演算法不只一種，這種前饋神經網路最常使用的是誤差倒傳遞演算法(Error Back Propagation, EBP)。所以深層神經網路(Deep Neural Network) 結合倒傳遞演算法，稱之前饋倒傳遞類神經網路 (Feedforward Backpropagation Neural Networks, DNN)，可運用在語音辨識上[Bourlard, 1994]。

4.3 誤差倒傳遞演算法

誤差倒傳遞演算法為一個監督式學習(Supervised Learning)的方法。需要一組有

「輸入(Input)」的訓練資料放在輸入層及「目標(Target)」的訓練資料放在輸出層，

分為訓練學習階段及測試回想階段。在訓練學習階段，用我們已知的輸入及目標的訓練資料，利用誤差倒傳遞演算法去尋找一組連結權重，可以讓輸入訓練資料透過這組在神經網路上連結權重得到目標訓練資料。在得到一組訓練好的連結權

步驟 4：我們去利用剛剛算出的誤差 E(式 4-4)作偏微分(Partial Differentiation) (式 4-5) (式 4-6) (式 4-7)，用來更新連結權重𝑤_𝑥ℎ(式 4-8)及𝑤_ℎ𝑦(式 4-9)。

執行網路正反向傳遞運算，若有達到則訓練完成。

4.4 摺積神經網路

摺積神經網路(Convolutional Neural Network, CNN)[Abdel-Hamid et al, 2013][Hu

et al., 2014]與深層神經網路相比較，深層神經網路中相鄰的兩層的神經元彼此間是完全的連接(Fully Connected)，而摺積神經網路使用了局部的連接性(Local

Connectivity)還有權重分享(Weight Sharing)限制了神經網路的架構，以至於摺積神經網路可以利用空間局部相關性(Spatially Local Correlation)。

摺積神經網路是個具有特殊結構的神經網絡。在摺積神經網路中的第一層，包含著許多特徵圖(Feature Maps)，而第一層被稱為是摺積層(Convolution Layer)。摺積神經網路中的每一個特徵擷取層(摺積層)都緊跟著一個用來求局部平均(Local

Average)與第二次擷取的池化層(Pooling Layer)。在摺積層中，每一個神經元會接收一個輸入，此輸入是從一個局部感受野(Local Receptive Field)而來，局部感受野代表一個限定的頻率範圍內的特徵，因為摺積神經網路的神經元間不是完全的連接的。而不同的神經元若是屬於同一個特徵圖(指同一個摺積濾波器)，會接收不同的頻移輸入，但是會分享相同的權重。此特性會使摺積神經網路結構更類似於生物神經網路，減少了神經網絡需要訓練的參數的個數，降低了網路模型的複雜度。

假設摺積神經網路的輸入𝑉𝜖𝑅^𝐴×𝐵，其中𝐴是特徵表示成一個輸入頻帶的數量，

𝐵是輸入頻帶的數量。若是在特徵的情況下解釋，𝐵是代表濾波器組(Filter Bank)

51 𝜃(𝑥)是 S 型函數(Sigmoid Function)所設定的激發函數。

池化層是為了要計算摺積層激發的較低的解析度之表示，透過子採樣 (Sub-Sampling)的方式加進摺積層中。池化函數是要計算一些激發的統計值，像是典型應用在神經元沿著頻帶的一個窗口，是在摺積層從相同的特徵圖產生的。

而在最大池化函數(Max Pooling Function)是要簡單的計算特徵在相應的頻帶的

最大值，最大池化激發可利用下式運算出來：

第五章語料庫介紹與實驗設定及基礎實驗結果

本章節主要是介紹本論文中實驗語料庫與相關實驗設定。第一節介紹所使用的實驗語料庫；第二節說明使用語料庫的相關設定；第三節介紹辨識效能的評估方式，

最後第四節呈現相關基礎實驗結果與觀察。

5.1 Aurora-2 語料庫

Aurora-2 是歐洲電信標準協會(European Telecommunications Standards Institute, ESTI)

所發行的語料庫。以美國成年人的聲音作為錄音來源，內容是連續的英文數字由

0(Zero)到 9(Nine)跟 Oh 等發音字詞[Hirsch and Pearce, 2002]，共十一個詞組成。語料

庫內有乾淨及附有雜訊的語音，雜訊中有八種不同的加成性雜訊與兩種不同的通道

效應，而通道效應是使用國際電信聯合會 (International Telecommunication Union,

ITU)標準中的 G.712 和 MIRS。根據不同的雜訊干擾，分成三個測試集：SetA、SetB

及 SetC。Set A 的語音分別含有地下鐵(Subway)、人聲(Babble)、汽車(Car)和展覽會

館(Exhibition)等四種加成性雜訊與 G.712 通道效應；Set B 的語音則分別含有餐廳 (Restaurant)、街道(Street)、機場(Airport)和火車站(Train Station)等四種加成性雜訊與 G.712 的通道效應；Set C 分別加入了地下鐵(Subway) 與街道(Street)兩種雜訊與 MIRS 通道效應。而其中的訊噪比(Signal-to-Noise Ratio, SNR)：

𝑆𝑁𝑅(𝑑𝐵) = 10 ∗ 𝑙𝑜𝑔 (𝐸_{𝑆𝑝𝑒𝑒𝑐ℎ}

𝐸_{𝑁𝑜𝑖𝑠𝑒}) (式 5-1)

則有七種，為 clean、20dB、15dB、10dB、5dB、0dB 和-5dB，並且提供二種訓練模式：乾淨情境訓練模式 (Clean-Condition Training) 與複合情境訓練模式

5.2 實驗設定

在本文中的基礎實驗是採用梅爾倒頻譜係數 (Mel-scale Frequency Cepstral

Coefficients, MFCC)做為語音特徵參數，取樣頻率(Sampling Rate)為 8000Hz，預強調(Pre-Emphasis)參數設為 0.97，使用的窗函數為漢明窗(Hamming Window)，

音框長度(Frame Length)是 25 毫秒，音框間距(Frame Shift)為 10 毫秒。每一個音框的特徵使用 13 維梅爾倒頻譜係數(第 1 維至第 12 維還有第 0 維)，加上其一階差量計算和二階差量計算，共 39 維之特徵參數。在特徵的強健性處理方法，本文在處理特徵時，只針對 13 維的靜態特徵參數(Static Feature)進行處理，處理完成後才額外將一階差量和二階差量加入。

本文在進行聲學模型的訓練和測試部份，是使用隱藏式馬可夫模型工具套件 HTK[Young et al., 2009]，其是劍橋大學所開發的。數字辨識之每個數字的聲學模型皆以「從左到右(Left-To-Right)」形式的連續密度隱藏式馬可夫模型(Continuous Density Hidden Markov Model, CDHMM)表示，共 11 個數字模型(one, two ,…, nine, zero , and oh)以及靜音模型。其中每個數字模型包含 16 個狀態(State)，並且每個狀態是利用 3 個高斯混合分布(Gaussian Mixture Distribution)表示。另外用來表示語句開始跟結束時的靜音(Silence)模型的部份有二種模型，一個為靜音模型包含三個狀態，每個狀態用 6 個高斯模型建模；另一個為間歇(Pause)模型包含 1 個狀態，用 6 個高斯模型建模，表示語句內數字與數字之間的短暫停止。另外，

還有關於複雜式的(Complex)連續密度隱藏式馬可夫模型設定。數字模型包含 16

的狀態，每個狀態利用 20 個高斯混和表示。靜音模型含一個狀態，一個狀態用

36 個高斯混合模型。間歇模型包含 1 個狀態，以 36 個高斯模型建模。

5.3 辨識效能評估方式

辨識效能的評估方式是採用美國標準與科技組織 (The National Institute of

Standards and Technology, NIST)所訂立的評估標準，進行正確轉譯文句字串與辨識字串的比較。評估單位是以字正確率(Word Accuracy)為單位，計算正確轉譯文句字串與辨識字串彼此間，字的取代個數(Substitutions)、字插入個數(Insertions) 和字刪除個數(Deletions)；計算的方式有兩種，字正確率(Word Accuracy Rate)與字錯誤率(Word Error Rate)，分別如下所示：

詞精確率(%) =詞正確辨識個數− 詞插入個數

輸入詞總數 × 100% (式 5-2)

詞錯誤率(%) =詞取代個數+ 詞插入個數 − 詞刪除個數

輸入詞總數 × 100% (式 5-3) 本文參照國際學者之設定，在對每一種噪音的訊噪比的結果作加總的動作時，

去掉極端的訊噪比 clean 跟-5，只計算範圍 20dB 到 0dB 中的平均詞精確率或平均詞錯誤率的結果再取其平均值。本論文的全部實驗皆是利用平均詞精確率來評估計算辨識的結果。

動差進行正規化。一階動差為機率分布之平均值，二階動差為機率分布之變異數。

故統計圖等化法相較於倒頻譜消去法和倒頻譜平均值與變異數正規化法考慮了更多統計資訊，其辨識結果也較倒頻譜平均值與變異數正規化法突出。而調變頻譜平均正規化法與調變頻譜平均與變異數正規化法結合了倒頻譜平均值與變異數正規化法也能達到好的效果。

第六章調變頻譜非負矩陣分解法之研究

本章將說明我們在調變頻譜域中所使用的方法，然後運用在語料庫 Aurora-2 上所產生的實驗數據，然後討論實驗的結果。本章節使用的方法有：傳統非負矩陣分解法(NMF)、非平滑非負矩陣分解法(nsNMF)、基於圖正則化非負矩陣分解法

(GNMF)以及我們所提出的統計圖等化法之非負矩陣分解法(HNMF)。

6.1 非負矩陣分解法之調變頻譜正規化法

非負矩陣分解法是想要想要學習以部分為基礎之線性子空間表示法，此線性表示法是一個想要以加法的且非消減之組合模式來表示原始的資料，因為上述所描述的特性，所以非負矩陣分解法之運算數值都是為非負的形式，因為調變頻率的強度是都正的，所以我們希望可以運用非負矩陣分解法在調變頻譜上。

一開始我們會將 Aurora-2 的乾淨訓練集𝐽個原始語音的語句分別作擷取梅爾倒頻譜係數(MFCC)的動作以得到𝐽個語句之倒頻譜。接著會如圖 6-1 的流程圖，

我們會分別對每個語句之倒頻譜作離散傅立葉轉換(DFT)的處理轉至到調變頻譜域。接著將每一句的調變頻譜結合起來，變成一個由多個語句之調變頻譜向量組合而成的矩陣V_𝐼∗𝐽。接著對矩陣V_𝐼∗𝐽作非負矩陣分解法，分解出兩個非負矩陣，

分別是基底矩陣W_𝐼∗𝐾以及編碼矩陣H_𝐾∗𝐽，而我們使用到第三章所提及的歐式距

離之減損函式：

D_F(V||WH) = ||V − WH||_F² = ∑(V_𝑖𝑗− (WH)_𝑖𝑗)²

𝑖,𝑗

(式 6-1)

圖 6-1 非負矩陣分解法概念示意圖

其中W與H為隨機產生，為了得到區域最小值，便採用對歐式距離之減損函式

作梯度下降法的結果之乘法更新規則以求之：

在文檔中調變頻譜分解之改良於強健性語音辨識 (頁 57-0)

第四章 類神經網路相關研究探討