基於圖正則化非負矩陣分解法(GNMF)

第三章非負矩陣分解法

3.6 基於圖正則化非負矩陣分解法(GNMF)

基於近期的學者[Seung and Lee, 2000][Belkin et al., 2006]發現當資料被採樣成機率分布的形式來繪製時，在周圍的空間會近似一個子流形(Submanifold)的情況。

假設在歐式空間𝑅^𝑀中有一個子集合是維度為 d 的子流形𝑀^𝑑 ⊂ 𝑅^𝑀，其看起來會 像是一個維度為 d 的扁平歐式空間[Lee, 2002]。為了可以去檢測潛在流形結構，

很多流形學習算法已被提出，例如局部線性表示 (Locally Linear Embedding,

LLE)[Roweis and Saul, 2000]、ISOMAP[Tenenbaum et al., 2000]、拉普拉斯特徵映射(Laplacian Eigenmap)[Belkin and Niyogi, 2001]。

以上有提到的這些算法使用所謂的局部不變性(Locally Invariant)[Hadsell et al., 2006]的概念。換句話說，在附近資料點，可能有類似的表示。也被證明了如果利用幾何結構(Geometrical Structure)且考慮局部不變性，該學習效能可增強。

基於圖正則化非負矩陣分解法 (Graph Regularized Non-negative Matrix

Factorization, GNMF) [Cai et al., 2011]考慮了局部不變性，且建造了一個最近鄰圖形(Nearest Neighbor Graph)去獲取資料空間的幾何結構資訊。意味著若兩個資料點在最近鄰圖形中是相連接的話，代表兩個資料點彼此間是足夠接近的。此方法將最近鄰圖形的納入減損函式中，當作是增加ㄧ個額外的正則項(Regularization

Term)，可以比傳統非負矩陣分解法更加有鑑別力。因為傳統非負矩陣分解法在歐式空間中學習時，沒辦法學習到固有的內在幾何結構，對於一些現實世界的應用可能會少了一些鑑別力。

(1)0-1 權重(0-1 Weighting)：

E_𝑗𝑙 = 1，代表資料點𝒗_𝒋與𝒗_𝒍是連接的，這是個普遍簡易的方法。

(2)熱核權重(Heat Kernel Weighting)：

E_𝑗𝑙 = 𝑒⁻^{‖𝒗𝒋−𝒗𝒍‖}

𝜎 ，代表資料點𝑣_𝑗與𝑣_𝑙是連接的，熱核在流形的微分函式之拉普拉斯貝爾特拉米運算元(Laplace Beltrami Operator)有內在的連繫。

(3)點積權重(Dot-Product Weighting)：

圖 3-6 資料點關係示意圖

圖 3-7 權重矩陣 E 之例子

如果假設𝒉_𝒋 = [ℎ_𝑗1, … , ℎ_𝑗𝑘]^𝑇為編碼矩陣H的第 j 行，𝒉_𝒋可被視為是第𝒗_𝒋個資料點相對於新的基底矩陣W之新表示(低維的表示)。在此我們討論較常見的歐式距離：

𝑑(𝒉_𝒋, 𝒉_𝒍) = ‖𝒉_𝒋− 𝒉_𝒍‖² (式 3-23) 此距離用來測量剛所提到的相對於新的基底矩陣W，而兩個資料點𝒉_𝒋與𝒉_𝒍之低維表示的之間差異(Dissimilarity)，距離函式值越大代表此兩個資料點𝒉_𝒋與𝒉_𝒍彼此差

異越大。

第 4 章類神經網路相關研究探討

4.1 類神經網路的介紹

類神經網路系統(Artificial Neural Networks)，其理論起源於約 1940 年代。類神經網路想要模仿人腦的神經網路，跟大腦有一樣的特質去運作並有隨著累積經驗學習的能力。大腦是由大約有 100 億個腦神經細胞(Neuron)所組成的，而每個腦神經細胞又會與其他一些腦神經細胞，所以是個高度連接性的網路 (Highly

Interconnected Network)。然而類神經網路是透過的使用數學的方法去學習模擬人腦的腦神經網路，使用大量簡單的相連人工神經來模仿生物神經網路的能力從外部環境或其他神經元獲得訊息。透過電腦的快速計算能力，最後開發出一個具有推論結果能力的人工智慧機器。

圖 4-1 神經元的示意圖

做一個簡單的敘述，在圖 4-1 中為某一個神經元的示意圖，有多個輸入及一個輸出，多個輸入其它神經元傳輸過來的。輸入(Input)集合為{𝑋_𝑖|𝑖 = 1,2, … , 𝑛}，

46 的邏輯運算問題。所以後來推出了多層感知器(Multilayer Perceptrons, MLP)來解決此問題，將在下節對其做介紹。

圖 4-2 常見之轉移函數

圖 4-3 單層感知器網路概念圖圖 4-4 多層感知器網路概念圖

4.2 深層神經網路

由於隱藏層(Hidden layer)的引入，一些單層感知器所無法解決的問題，似乎得到解決的曙光。多層感知器[Seung, 2002][Delashmit, 2005]便是包含著多層隱藏層的網路，是個前饋神經網路(Feed-Forward Neural network)。網路包含一層輸入單元，

至少一個以上的隱藏層及一個輸出層，因為輸入的值是直接傳進隱藏層，而隱藏層及輸出層皆以神經元組成，所以在此並未把輸入層當作網路架構中的一層。如圖 4-4，稱為兩層的類神經網路。隱藏層是輸入層和輸出層之間的神經元連接而成的，隱藏著期望的輸出值，沒有明顯的方式可以去得到隱藏層期望的輸出值的資訊。無法去分析隱藏層內的神經元，只能由隱藏層自行決定它期望的輸出。提供多層神經網路學習的演算法不只一種，這種前饋神經網路最常使用的是誤差倒傳遞演算法(Error Back Propagation, EBP)。所以深層神經網路(Deep Neural Network) 結合倒傳遞演算法，稱之前饋倒傳遞類神經網路 (Feedforward Backpropagation Neural Networks, DNN)，可運用在語音辨識上[Bourlard, 1994]。

4.3 誤差倒傳遞演算法

誤差倒傳遞演算法為一個監督式學習(Supervised Learning)的方法。需要一組有

「輸入(Input)」的訓練資料放在輸入層及「目標(Target)」的訓練資料放在輸出層，

分為訓練學習階段及測試回想階段。在訓練學習階段，用我們已知的輸入及目標的訓練資料，利用誤差倒傳遞演算法去尋找一組連結權重，可以讓輸入訓練資料透過這組在神經網路上連結權重得到目標訓練資料。在得到一組訓練好的連結權

步驟 4：我們去利用剛剛算出的誤差 E(式 4-4)作偏微分(Partial Differentiation) (式 4-5) (式 4-6) (式 4-7)，用來更新連結權重𝑤_𝑥ℎ(式 4-8)及𝑤_ℎ𝑦(式 4-9)。

執行網路正反向傳遞運算，若有達到則訓練完成。

4.4 摺積神經網路

摺積神經網路(Convolutional Neural Network, CNN)[Abdel-Hamid et al, 2013][Hu

et al., 2014]與深層神經網路相比較，深層神經網路中相鄰的兩層的神經元彼此間是完全的連接(Fully Connected)，而摺積神經網路使用了局部的連接性(Local

Connectivity)還有權重分享(Weight Sharing)限制了神經網路的架構，以至於摺積神經網路可以利用空間局部相關性(Spatially Local Correlation)。

摺積神經網路是個具有特殊結構的神經網絡。在摺積神經網路中的第一層，包含著許多特徵圖(Feature Maps)，而第一層被稱為是摺積層(Convolution Layer)。摺積神經網路中的每一個特徵擷取層(摺積層)都緊跟著一個用來求局部平均(Local

Average)與第二次擷取的池化層(Pooling Layer)。在摺積層中，每一個神經元會接收一個輸入，此輸入是從一個局部感受野(Local Receptive Field)而來，局部感受野代表一個限定的頻率範圍內的特徵，因為摺積神經網路的神經元間不是完全的連接的。而不同的神經元若是屬於同一個特徵圖(指同一個摺積濾波器)，會接收不同的頻移輸入，但是會分享相同的權重。此特性會使摺積神經網路結構更類似於生物神經網路，減少了神經網絡需要訓練的參數的個數，降低了網路模型的複雜度。

假設摺積神經網路的輸入𝑉𝜖𝑅^𝐴×𝐵，其中𝐴是特徵表示成一個輸入頻帶的數量，

𝐵是輸入頻帶的數量。若是在特徵的情況下解釋，𝐵是代表濾波器組(Filter Bank)

51 𝜃(𝑥)是 S 型函數(Sigmoid Function)所設定的激發函數。

池化層是為了要計算摺積層激發的較低的解析度之表示，透過子採樣 (Sub-Sampling)的方式加進摺積層中。池化函數是要計算一些激發的統計值，像是典型應用在神經元沿著頻帶的一個窗口，是在摺積層從相同的特徵圖產生的。

而在最大池化函數(Max Pooling Function)是要簡單的計算特徵在相應的頻帶的

最大值，最大池化激發可利用下式運算出來：

第五章語料庫介紹與實驗設定及基礎實驗結果

本章節主要是介紹本論文中實驗語料庫與相關實驗設定。第一節介紹所使用的實驗語料庫；第二節說明使用語料庫的相關設定；第三節介紹辨識效能的評估方式，

最後第四節呈現相關基礎實驗結果與觀察。

5.1 Aurora-2 語料庫

Aurora-2 是歐洲電信標準協會(European Telecommunications Standards Institute, ESTI)

所發行的語料庫。以美國成年人的聲音作為錄音來源，內容是連續的英文數字由

0(Zero)到 9(Nine)跟 Oh 等發音字詞[Hirsch and Pearce, 2002]，共十一個詞組成。語料

庫內有乾淨及附有雜訊的語音，雜訊中有八種不同的加成性雜訊與兩種不同的通道

效應，而通道效應是使用國際電信聯合會 (International Telecommunication Union,

ITU)標準中的 G.712 和 MIRS。根據不同的雜訊干擾，分成三個測試集：SetA、SetB

及 SetC。Set A 的語音分別含有地下鐵(Subway)、人聲(Babble)、汽車(Car)和展覽會

館(Exhibition)等四種加成性雜訊與 G.712 通道效應；Set B 的語音則分別含有餐廳 (Restaurant)、街道(Street)、機場(Airport)和火車站(Train Station)等四種加成性雜訊與 G.712 的通道效應；Set C 分別加入了地下鐵(Subway) 與街道(Street)兩種雜訊與 MIRS 通道效應。而其中的訊噪比(Signal-to-Noise Ratio, SNR)：

𝑆𝑁𝑅(𝑑𝐵) = 10 ∗ 𝑙𝑜𝑔 (𝐸_{𝑆𝑝𝑒𝑒𝑐ℎ}

𝐸_{𝑁𝑜𝑖𝑠𝑒}) (式 5-1)

則有七種，為 clean、20dB、15dB、10dB、5dB、0dB 和-5dB，並且提供二種訓練模式：乾淨情境訓練模式 (Clean-Condition Training) 與複合情境訓練模式

5.2 實驗設定

在本文中的基礎實驗是採用梅爾倒頻譜係數 (Mel-scale Frequency Cepstral

Coefficients, MFCC)做為語音特徵參數，取樣頻率(Sampling Rate)為 8000Hz，預強調(Pre-Emphasis)參數設為 0.97，使用的窗函數為漢明窗(Hamming Window)，

音框長度(Frame Length)是 25 毫秒，音框間距(Frame Shift)為 10 毫秒。每一個音框的特徵使用 13 維梅爾倒頻譜係數(第 1 維至第 12 維還有第 0 維)，加上其一階差量計算和二階差量計算，共 39 維之特徵參數。在特徵的強健性處理方法，本文在處理特徵時，只針對 13 維的靜態特徵參數(Static Feature)進行處理，處理完成後才額外將一階差量和二階差量加入。

本文在進行聲學模型的訓練和測試部份，是使用隱藏式馬可夫模型工具套件 HTK[Young et al., 2009]，其是劍橋大學所開發的。數字辨識之每個數字的聲學模型皆以「從左到右(Left-To-Right)」形式的連續密度隱藏式馬可夫模型(Continuous Density Hidden Markov Model, CDHMM)表示，共 11 個數字模型(one, two ,…, nine, zero , and oh)以及靜音模型。其中每個數字模型包含 16 個狀態(State)，並且每個狀態是利用 3 個高斯混合分布(Gaussian Mixture Distribution)表示。另外用來表示語句開始跟結束時的靜音(Silence)模型的部份有二種模型，一個為靜音模型包含三個狀態，每個狀態用 6 個高斯模型建模；另一個為間歇(Pause)模型包含 1 個狀態，用 6 個高斯模型建模，表示語句內數字與數字之間的短暫停止。另外，

還有關於複雜式的(Complex)連續密度隱藏式馬可夫模型設定。數字模型包含 16

的狀態，每個狀態利用 20 個高斯混和表示。靜音模型含一個狀態，一個狀態用

36 個高斯混合模型。間歇模型包含 1 個狀態，以 36 個高斯模型建模。

5.3 辨識效能評估方式

辨識效能的評估方式是採用美國標準與科技組織 (The National Institute of

Standards and Technology, NIST)所訂立的評估標準，進行正確轉譯文句字串與辨識字串的比較。評估單位是以字正確率(Word Accuracy)為單位，計算正確轉譯文句字串與辨識字串彼此間，字的取代個數(Substitutions)、字插入個數(Insertions) 和字刪除個數(Deletions)；計算的方式有兩種，字正確率(Word Accuracy Rate)與字錯誤率(Word Error Rate)，分別如下所示：

詞精確率(%) =詞正確辨識個數− 詞插入個數

輸入詞總數 × 100% (式 5-2)

詞錯誤率(%) =詞取代個數+ 詞插入個數 − 詞刪除個數

輸入詞總數 × 100% (式 5-3) 本文參照國際學者之設定，在對每一種噪音的訊噪比的結果作加總的動作時，

去掉極端的訊噪比 clean 跟-5，只計算範圍 20dB 到 0dB 中的平均詞精確率或平均詞錯誤率的結果再取其平均值。本論文的全部實驗皆是利用平均詞精確率來評估計算辨識的結果。

動差進行正規化。一階動差為機率分布之平均值，二階動差為機率分布之變異數。

在文檔中調變頻譜分解之改良於強健性語音辨識 (頁 53-0)

第三章 非負矩陣分解法