第三章 非負矩陣分解法
3.6 基於圖正則化非負矩陣分解法(GNMF)
基於近期的學者[Seung and Lee, 2000][Belkin et al., 2006]發現當資料被採樣成機 率分布的形式來繪製時,在周圍的空間會近似一個子流形(Submanifold)的情況。
假設在歐式空間𝑅𝑀中有一個子集合是維度為 d 的子流形𝑀𝑑 ⊂ 𝑅𝑀,其看起來會 像是一個維度為 d 的扁平歐式空間[Lee, 2002]。為了可以去檢測潛在流形結構,
很多流形學習算法已被提出,例如局部線性表示 (Locally Linear Embedding,
LLE)[Roweis and Saul, 2000]、ISOMAP[Tenenbaum et al., 2000]、拉普拉斯特徵映 射(Laplacian Eigenmap)[Belkin and Niyogi, 2001]。
以上有提到的這些算法使用所謂的局部不變性(Locally Invariant)[Hadsell et al., 2006]的概念。換句話說,在附近資料點,可能有類似的表示。也被證明了如 果利用幾何結構(Geometrical Structure)且考慮局部不變性,該學習效能可增強。
基 於 圖 正 則 化 非 負 矩 陣 分 解 法 (Graph Regularized Non-negative Matrix
Factorization, GNMF) [Cai et al., 2011]考慮了局部不變性,且建造了一個最近鄰圖 形(Nearest Neighbor Graph)去獲取資料空間的幾何結構資訊。意味著若兩個資料 點在最近鄰圖形中是相連接的話,代表兩個資料點彼此間是足夠接近的。此方法 將最近鄰圖形的納入減損函式中,當作是增加ㄧ個額外的正則項(Regularization
Term),可以比傳統非負矩陣分解法更加有鑑別力。因為傳統非負矩陣分解法在 歐式空間中學習時,沒辦法學習到固有的內在幾何結構,對於一些現實世界的應 用可能會少了一些鑑別力。
42
(1)0-1 權重(0-1 Weighting):
E𝑗𝑙 = 1,代表資料點𝒗𝒋與𝒗𝒍是連接的,這是個普遍簡易的方法。
(2)熱核權重(Heat Kernel Weighting):
E𝑗𝑙 = 𝑒−‖𝒗𝒋−𝒗𝒍‖
2
𝜎 ,代表資料點𝑣𝑗與𝑣𝑙是連接的,熱核在流形的微分函式之拉普拉斯 貝爾特拉米運算元(Laplace Beltrami Operator)有內在的連繫。
(3)點積權重(Dot-Product Weighting):
43
圖 3-6 資料點關係示意圖
圖 3-7 權重矩陣 E 之例子
如果假設𝒉𝒋 = [ℎ𝑗1, … , ℎ𝑗𝑘]𝑇為編碼矩陣H的第 j 行,𝒉𝒋可被視為是第𝒗𝒋個資料點相 對於新的基底矩陣W之新表示(低維的表示)。在此我們討論較常見的歐式距離:
𝑑(𝒉𝒋, 𝒉𝒍) = ‖𝒉𝒋− 𝒉𝒍‖2 (式 3-23) 此距離用來測量剛所提到的相對於新的基底矩陣W,而兩個資料點𝒉𝒋與𝒉𝒍之低維 表示的之間差異(Dissimilarity),距離函式值越大代表此兩個資料點𝒉𝒋與𝒉𝒍彼此差
異越大。
44
45
第 4 章 類神經網路相關研究探討
4.1 類神經網路的介紹
類神經網路系統(Artificial Neural Networks),其理論起源於約 1940 年代。類神經 網路想要模仿人腦的神經網路,跟大腦有一樣的特質去運作並有隨著累積經驗學 習的能力。大腦是由大約有 100 億個腦神經細胞(Neuron)所組成的,而每個腦神 經 細 胞 又 會 與 其 他 一 些 腦 神 經 細 胞 , 所 以 是 個 高 度 連 接 性 的 網 路 (Highly
Interconnected Network)。然而類神經網路是透過的使用數學的方法去學習模擬人 腦的腦神經網路,使用大量簡單的相連人工神經來模仿生物神經網路的能力從外 部環境或其他神經元獲得訊息。透過電腦的快速計算能力,最後開發出一個具有 推論結果能力的人工智慧機器。
圖 4-1 神經元的示意圖
做一個簡單的敘述,在圖 4-1 中為某一個神經元的示意圖,有多個輸入及一 個輸出,多個輸入其它神經元傳輸過來的。輸入(Input)集合為{𝑋𝑖|𝑖 = 1,2, … , 𝑛},
46 的邏輯運算問題。所以後來推出了多層感知器(Multilayer Perceptrons, MLP)來解 決此問題,將在下節對其做介紹。
47
圖 4-2 常見之轉移函數
圖 4-3 單層感知器網路概念圖 圖 4-4 多層感知器網路概念圖
48
4.2 深層神經網路
由於隱藏層(Hidden layer)的引入,一些單層感知器所無法解決的問題,似乎得到 解決的曙光。多層感知器[Seung, 2002][Delashmit, 2005]便是包含著多層隱藏層的 網路,是個前饋神經網路(Feed-Forward Neural network)。網路包含一層輸入單元,
至少一個以上的隱藏層及一個輸出層,因為輸入的值是直接傳進隱藏層,而隱藏 層及輸出層皆以神經元組成,所以在此並未把輸入層當作網路架構中的一層。如 圖 4-4,稱為兩層的類神經網路。隱藏層是輸入層和輸出層之間的神經元連接而 成的,隱藏著期望的輸出值,沒有明顯的方式可以去得到隱藏層期望的輸出值的 資訊。無法去分析隱藏層內的神經元,只能由隱藏層自行決定它期望的輸出。提 供多層神經網路學習的演算法不只一種,這種前饋神經網路最常使用的是誤差倒 傳遞演算法(Error Back Propagation, EBP)。所以深層神經網路(Deep Neural Network) 結 合 倒 傳 遞 演 算 法 , 稱 之 前 饋 倒 傳 遞 類 神 經 網 路 (Feedforward Backpropagation Neural Networks, DNN),可運用在語音辨識上[Bourlard, 1994]。
4.3 誤差倒傳遞演算法
誤差倒傳遞演算法為一個監督式學習(Supervised Learning)的方法。需要一組有
「輸入(Input)」的訓練資料放在輸入層及「目標(Target)」的訓練資料放在輸出層,
分為訓練學習階段及測試回想階段。在訓練學習階段,用我們已知的輸入及目標 的訓練資料,利用誤差倒傳遞演算法去尋找一組連結權重,可以讓輸入訓練資料 透過這組在神經網路上連結權重得到目標訓練資料。在得到一組訓練好的連結權
49
步驟 4:我們去利用剛剛算出的誤差 E(式 4-4)作偏微分(Partial Differentiation) (式 4-5) (式 4-6) (式 4-7),用來更新連結權重𝑤𝑥ℎ(式 4-8)及𝑤ℎ𝑦(式 4-9)。
50
執行網路正反向傳遞運算,若有達到則訓練完成。
4.4 摺積神經網路
摺積神經網路(Convolutional Neural Network, CNN)[Abdel-Hamid et al, 2013][Hu
et al., 2014]與深層神經網路相比較,深層神經網路中相鄰的兩層的神經元彼此間 是完全的連接(Fully Connected),而摺積神經網路使用了局部的連接性(Local
Connectivity)還有權重分享(Weight Sharing)限制了神經網路的架構,以至於摺積 神經網路可以利用空間局部相關性(Spatially Local Correlation)。
摺積神經網路是個具有特殊結構的神經網絡。在摺積神經網路中的第一層,包含 著許多特徵圖(Feature Maps),而第一層被稱為是摺積層(Convolution Layer)。摺 積神經網路中的每一個特徵擷取層(摺積層)都緊跟著一個用來求局部平均(Local
Average)與第二次擷取的池化層(Pooling Layer)。在摺積層中,每一個神經元會接 收一個輸入,此輸入是從一個局部感受野(Local Receptive Field)而來,局部感受 野代表一個限定的頻率範圍內的特徵,因為摺積神經網路的神經元間不是完全的 連接的。而不同的神經元若是屬於同一個特徵圖(指同一個摺積濾波器),會接收 不同的頻移輸入,但是會分享相同的權重。此特性會使摺積神經網路結構更類似 於生物神經網路,減少了神經網絡需要訓練的參數的個數,降低了網路模型的複 雜度。
假設摺積神經網路的輸入𝑉𝜖𝑅𝐴×𝐵,其中𝐴是特徵表示成一個輸入頻帶的數量,
𝐵是輸入頻帶的數量。若是在特徵的情況下解釋,𝐵是代表濾波器組(Filter Bank)
51 𝜃(𝑥)是 S 型函數(Sigmoid Function)所設定的激發函數。
池化 層是為了要計算摺積層 激發 的較低的解析度之表示,透過子採樣 (Sub-Sampling)的方式加進摺積層中。池化函數是要計算一些激發的統計值,像 是典型應用在神經元沿著頻帶的一個窗口,是在摺積層從相同的特徵圖產生的。
而在最大池化函數(Max Pooling Function)是要簡單的計算特徵在相應的頻帶的
最大值,最大池化激發可利用下式運算出來:
52
第五章 語料庫介紹與實驗設定及基礎實驗結果
本章節主要是介紹本論文中實驗語料庫與相關實驗設定。第一節介紹所使用的實 驗語料庫;第二節說明使用語料庫的相關設定;第三節介紹辨識效能的評估方式,
最後第四節呈現相關基礎實驗結果與觀察。
5.1 Aurora-2 語料庫
Aurora-2 是歐洲電信標準協會(European Telecommunications Standards Institute, ESTI)
所發行的語料庫。以美國成年人的聲音作為錄音來源,內容是連續的英文數字由
0(Zero)到 9(Nine)跟 Oh 等發音字詞[Hirsch and Pearce, 2002],共十一個詞組成。語料
庫內有乾淨及附有雜訊的語音,雜訊中有八種不同的加成性雜訊與兩種不同的通道
效應,而通道效應是使用國際電信聯合會 (International Telecommunication Union,
ITU)標準中的 G.712 和 MIRS。根據不同的雜訊干擾,分成三個測試集:SetA、SetB
及 SetC。Set A 的語音分別含有地下鐵(Subway)、人聲(Babble)、汽車(Car)和展覽會
館(Exhibition)等四種加成性雜訊與 G.712 通道效應;Set B 的語音則分別含有餐廳 (Restaurant)、街道(Street)、機場(Airport)和火車站(Train Station)等四種加成性雜 訊與 G.712 的通道效應;Set C 分別加入了地下鐵(Subway) 與街道(Street)兩種 雜訊與 MIRS 通道效應。而其中的訊噪比(Signal-to-Noise Ratio, SNR):
𝑆𝑁𝑅(𝑑𝐵) = 10 ∗ 𝑙𝑜𝑔 (𝐸𝑆𝑝𝑒𝑒𝑐ℎ
𝐸𝑁𝑜𝑖𝑠𝑒) (式 5-1)
則有七種,為 clean、20dB、15dB、10dB、5dB、0dB 和-5dB,並且提供二種訓 練 模 式 : 乾 淨 情 境 訓練 模 式 (Clean-Condition Training) 與 複 合 情 境 訓 練 模 式
53
54
5.2 實驗設定
在 本 文 中 的 基 礎 實 驗 是 採 用 梅 爾 倒 頻 譜 係 數 (Mel-scale Frequency Cepstral
Coefficients, MFCC)做為語音特徵參數,取樣頻率(Sampling Rate)為 8000Hz,預 強調(Pre-Emphasis)參數設為 0.97,使用的窗函數為漢明窗(Hamming Window),
音框長度(Frame Length)是 25 毫秒,音框間距(Frame Shift)為 10 毫秒。每一個音 框的特徵使用 13 維梅爾倒頻譜係數(第 1 維至第 12 維還有第 0 維),加上其一階 差量計算和二階差量計算,共 39 維之特徵參數。在特徵的強健性處理方法,本 文在處理特徵時,只針對 13 維的靜態特徵參數(Static Feature)進行處理,處理完 成後才額外將一階差量和二階差量加入。
本文在進行聲學模型的訓練和測試部份,是使用隱藏式馬可夫模型工具套件 HTK[Young et al., 2009],其是劍橋大學所開發的。數字辨識之每個數字的聲學模 型皆以「從左到右(Left-To-Right)」形式的連續密度隱藏式馬可夫模型(Continuous Density Hidden Markov Model, CDHMM)表示,共 11 個數字模型(one, two ,…, nine, zero , and oh)以及靜音模型。其中每個數字模型包含 16 個狀態(State),並且每個 狀態是利用 3 個高斯混合分布(Gaussian Mixture Distribution)表示。另外用來表 示語句開始跟結束時的靜音(Silence)模型的部份有二種模型,一個為靜音模型包 含三個狀態,每個狀態用 6 個高斯模型建模;另一個為間歇(Pause)模型包含 1 個狀態,用 6 個高斯模型建模,表示語句內數字與數字之間的短暫停止。另外,
還有關於複雜式的(Complex)連續密度隱藏式馬可夫模型設定。數字模型包含 16
55
的狀態,每個狀態利用 20 個高斯混和表示。靜音模型含一個狀態,一個狀態用
36 個高斯混合模型。間歇模型包含 1 個狀態,以 36 個高斯模型建模。
5.3 辨識效能評估方式
辨 識 效 能 的 評 估 方 式 是 採 用 美 國 標 準 與 科 技 組 織 (The National Institute of
Standards and Technology, NIST)所訂立的評估標準,進行正確轉譯文句字串與辨 識字串的比較。評估單位是以字正確率(Word Accuracy)為單位,計算正確轉譯文 句字串與辨識字串彼此間,字的取代個數(Substitutions)、字插入個數(Insertions) 和字刪除個數(Deletions);計算的方式有兩種,字正確率(Word Accuracy Rate)與 字錯誤率(Word Error Rate),分別如下所示:
詞精確率(%) =詞正確辨識個數− 詞插入個數
輸入詞總數 × 100% (式 5-2)
詞錯誤率(%) =詞取代個數+ 詞插入個數 − 詞刪除個數
輸入詞總數 × 100% (式 5-3) 本文參照國際學者之設定,在對每一種噪音的訊噪比的結果作加總的動作時,
去掉極端的訊噪比 clean 跟-5,只計算範圍 20dB 到 0dB 中的平均詞精確率或平 均詞錯誤率的結果再取其平均值。本論文的全部實驗皆是利用平均詞精確率來評 估計算辨識的結果。
56
57
58
動差進行正規化。一階動差為機率分布之平均值,二階動差為機率分布之變異數。
動差進行正規化。一階動差為機率分布之平均值,二階動差為機率分布之變異數。