調變頻譜統計圖等化法(Spectral Histogram Equalization, SHE)

調變頻譜統計圖等化法(Spectral Histogram Equalization, SHE)[34]此方法是將統計圖等化法(Histogram Equalization, HEQ)應用在調變譜域上，期望將測試語料的頻譜強度的機率分布對應到訓練語料之調變頻譜強度的機率分布 (Probability Distribution Function, PDF)所訓練成之參考函數，利用此非線性的轉換，使訓練語句和試測試語句的調變頻譜強度的機率分布趨於一致。其新的調變頻譜(測試語句之調變頻譜，| ̃[ ]|)強度和原始(訓練語句之調變頻譜，| [ ]|)強度之關係為：

| ̃[ ]| 𝐹_𝑟𝑒⁻¹(𝐹 | [ ]| ) 2. 調變頻譜平均正規化法(Spectral Mean Normalization, SMN)

調變頻譜平均正規化法[36]之目標與倒頻譜平均正規化法相似，假設當各種音素在環境中占的比例近似於一致時，每一維度特徵的調變頻譜之平均值應該為一定值。計算更新強度成分之公式如式 2-7 所示，其中更新強度成分| ̃[ ]|，目前強

度成分為| [ ]|，單一語句的調變頻譜強度平均值為𝜇_𝑠，所有訓練語句之調變頻譜強度平均值為𝜇_𝑎：

| ̃[ ]| | [ ]| 𝜇_𝑠+ 𝜇_𝑎 7 3. 調變頻譜平均與變異數正規化法(Spectral Mean and Variance Normalization,

SMVN)

調變頻譜平均與變異數正規化法[36]是對調變頻譜之平均值與變異數正規化，目的同倒頻譜平均與變異數正規化法，假設特徵向量參數之平均值在理想環境中比例驅於一致時，平均值應為零，且特徵向量參數之分布可以變異數來估測，計算公式如式 2-8，其更新強度成分| ̃[ ]|，目前強度成分為| [ ]|，單一語句的調變頻譜強度平均值為𝜇_𝑠，所有訓練語句之調變頻譜強度平均值為𝜇_𝑎，單一語句的調變頻譜強度變異數為𝜎_𝑠，所有訓練語句之調變頻譜強度變異數為𝜎_𝑎：

| ̃[ ]| | [ ]| 𝜇_𝑠

𝜎_𝑠 𝜎_𝑎+ 𝜇_𝑎

三、資料壓縮法

一般而言，資料分析的研究大多是期望找出資料中潛藏的架構並加以描述，並降低實際表達資料需要的維度(Dimensionality)。資料壓縮法(Data Compression)便是其中一種資料分析的方法。由於多數現實世界的資料中皆有統計冗餘(Data Redundancy)的問題，故資料壓縮是希望利用較少的空間來表達出原始資料中的資訊[40]。資料壓縮法是從資料本身的特性出發，尋找數據中隱含的冗餘成分並予以剔除，以達到壓縮的目的，經過壓縮的處理後不但可以有較小的資料大小和較好的儲存空間利用率，而且也可以將類似的技術應用在資料安全的保護上。資料壓縮的方法有壓縮(Compression)與解壓縮(Decompression)兩個主要的部份，而根據壓縮後解壓縮回來的資料與原始資料的關係，可將資料壓縮方法分為兩大類：

非破壞性資料壓縮(Lossless Compression)和破壞性資料壓縮(Lossy Compression)。

非破壞性資料壓縮是指資料在經過壓縮後，資料訊息不會因此而被破壞，解壓縮後可以完全與原始的資料一模一樣，也可稱為無失真資料壓縮；另一方面，破壞性資料壓縮則是資料在經過壓縮和解壓縮的過程中，會損失一部份的資訊，另一種說法為失真資料壓縮。在這兩大類方法中，破壞性資料壓縮法較常用在影像、

視訊、聲音訊號等可稍微容忍失真的應用情境。由此可看出破壞性資料壓縮仍然可以保有原始資料重要的部分，且可獲得較非破壞性資料壓縮法較小的資料。

破壞性資料壓縮有許多不同的方法，例如線性預測編碼(Linear Predictive Coding, LPC)[41]便是很常用於音訊處理和語音處理的一種技術。線性預測編碼的概念是假設每一個時間點的語音訊號，可以用若干個過去觀察到的語音訊號線性組合來逼近之。本節中將介紹幾個近年來較常被用來處理語音資料，且可以應用在調變頻譜處理上的破壞性資料壓縮方法。

(一) 非負矩陣分解法

非負矩陣分解法(Non-negative Matrix Factorization, NMF) 是一種以部分為主 (Part-based)，並使用非消減式(Non-subtractive)線性組合的方式逼近原始資料的方法。非負矩陣分解法最初是在 1999 年被提出[42]，該學者將非負矩陣分解法應用在人臉辦識領域，將非負矩陣分解法找出的基底(basis)向量視為人臉重要的特徵，

例如：眼睛、鼻子、眉毛…等，而編碼向量(Encoding)則可解讀成把重要的人臉特徵用不同比例組合成實際的人臉圖像。相較於其它類似的矩陣分析方法例如主成分分析法(Principal Component Analysis, PCA)、獨立成分分析法(Independent Component Analysis, ICA)[43] 、線性鑑別分析 (Linear Discriminant Analysis, LDA)[44]、異質性線性鑑別分析 (Heteroscedastic Linear Discriminant Analysis, HLDA)[45-46]、異質性鑑別分析(Heteroscedastic Discriminant Analysis, HDA)[47]

等，非負矩陣分解法最大的特色就在於其所求取出的基底向量及編碼向量中不會有任何負值存在，而使其更適合運用在不容許負值的應用領域。在 2001 年有學者在[48]中詳細地說明了非負矩陣分解法的概念和求取基底向量與編碼向量的過程，此文章討論了二種非負矩陣分解法的更新法則：最小平方誤差法(Least Square Error)和 KL 距離(Kullback–Leibler Divergence)[48]，更詳細的推導過程可以參考附錄一的內容。前人對非負矩陣分解法的研究大多專注在影像處理的領域，因為

為基底向量的個數乘以資料的個數，即𝐻_𝑟∗𝑚。其三者的關係可見式 3-1 與圖 3-1。

𝑉_𝑛∗𝑚≈ 𝑊𝐻 _𝑛∗𝑚 ∑ 𝑊_𝑛∗𝑖𝐻_𝑖∗𝑚

𝑟

𝑖=1

圖 3- 1：非負矩陣分解法示意圖。

有了資料的維度(n)及資料的個數(m)之後，如何選擇基底向量的個數是一個 很重要的問題。基底向量矩陣(𝑊)和編碼向量矩陣(𝐻)的乘積(𝑊𝐻)，可以視為原始資料矩陣(𝑉)的一種壓縮，基底的數量愈少，表達原始資料所需要的空間越小，

壓縮比例也就愈高。根據[42]的研究，在非負矩陣分解法中，基底向量的個數必須要符合下式的條件限制，而其對語音的影響也將在第五章的實驗中加以討論：

+ 𝑚 𝑟 < ∗ 𝑚 3 由於在資料壓縮中，解壓縮後的資料應該盡可能與原始的資料接近，而這樣的目標可以用如下的減損函數(Loss Function)來表示。在這裡使用的是最小平方法則(Least Square Method)，也可稱為歐式距離(Euclidean Distance)：

𝐹 ‖𝑉 𝑊𝐻‖² 3 3 而依此減損函數進行維分[48]，可推演出迭代(Iterative)更新法則為：

𝑊_𝑛𝑖 ← 𝑊_𝑛𝑖 𝑉𝐻^𝑇 _𝑛𝑖

𝑊𝐻𝐻^𝑇 _𝑛𝑖 𝐻_𝑖𝑚 ← 𝐻_𝑖𝑚 𝑊^𝑇𝑉 _𝑖𝑚

𝑊^𝑇𝑊𝐻 _𝑖𝑚 3 4

decoder

≈

basis

V W H

圖 3- 2：非負矩陣分解法研究發展情形。

由於原始的非負矩陣分解法可以調整的參數較少，也有部分學者致力於研究不同減損函式的非負矩陣分解法、不同的更新方式，或在非負矩陣分解法中加入其他限制條件以改善非負矩陣分解法的效能。在 [48] 中有學者提出了使用 KL-divergence 作為判定距離的方法，依此距離定義的減損函數為：

𝐹_𝐾𝐿 𝑉‖𝑊𝐻 ∑ (𝑉_𝑖𝑙𝑜𝑔 𝑉_𝑖

𝑊𝐻 _𝑖 𝑉_𝑖+ 𝑊𝐻 _𝑖)

𝑖

由此減損函數而得之更新法則為：

𝑊_𝑛𝑖 ← 𝑊_𝑛𝑖∑ 𝐻_𝜇 _𝑖𝜇𝑉_𝑛𝜇⁄ 𝑊𝐻 _𝑛𝜇

∑ 𝐻_𝑎 _𝑖𝑎 𝐻_𝑖𝑚 ← 𝐻_𝑖𝑚∑ 𝑊_𝑙 _𝑙𝑖𝑉_𝑙𝑚⁄ 𝑊𝐻 _𝑙𝑚

∑ 𝑊_𝑘 _𝑘𝑖 3

在 2011 年也有學者將上述使用 KL-divergence 為減損函數的方法加以延伸 [50]，利用[51]中提出之保存位置資訊的非負矩陣分解法(LPNMF)，進一步考慮𝑉 與𝑊𝐻兩兩配對(Pair-wise)的 KL-divergence。同年，亦有學者提出強健性非負矩陣分解法(Robust Non-negative Matrix Factorization, RNMF)[52]，也就是在減損函

式中加入一個誤差矩陣𝑆 (Error vector)，並限制此誤差矩陣要符合稀疏之特性──

亦即元素值為零之個數不可小於某個參數值𝜔：

𝑊,𝐻,𝑆min‖ 𝑊𝐻 𝑆‖² 𝑠. 𝑡. 𝑊 ≥ 0, 𝐻 ≥ 0, ‖𝑆‖ ≤ 𝜔 3 7 實驗結果也顯示強健性非負矩陣分解法在人臉辨識之研究，效果優於其他相關的方法。

除了使非負矩陣變得更強健、效果更好的研究外，在 2012 年也有學者針對其計算複雜度進行改進，提出了運用正交投影(Orthogonal Projection)減少計算量的技術[53]，並在語音特徵強健性的實驗中證實了這種技術除了可以增進辨識率以外，也可以有效的減少非負矩陣分解法的計算複雜度。其與原始非負矩陣分 解法的差別，主要是在已順利求得訓練資料的基底 W 以後，以此來重建新資料的 步驟：在原始非負矩陣分解法中，是運用式 3-4 的迭代法則來針對固定的 W 求取 H，再將此兩個矩陣相乘取得重建後的資料；而正交投影法則是運用在向量空間 上的幾何性質，如圖 3-2 所示，將現有資料矩陣𝑉投影到已知的基底矩陣𝑊上，

使其不需要迭代式的更新法則：

圖 3-2：正交投影示意圖。

(二) 非負矩陣分解法之稀疏性

稀疏性(Sparseness)的概念是避免直接對充滿冗餘性的資料學習其特性，而是期望透過取出資料中較重要的部分，將其視為優化後的資料，再建立模型學習優化後之資料分布。由於在現今的應用中大多需要大量的資料，因此矩陣稀疏化的研究也是近年來相當熱門的主題之一，而非負矩陣分解法當然也能夠受益於此領域的

研究。2004 年有學者在[54]中將稀疏化的概念應用在非負矩陣分解法中，將原本的最小平方法則加入稀疏化的限制條件。此方法定義一個計算稀疏化的函數，此函數考慮 L1-norm 和 L2-norm 的綜合影響，可寫成下式：

sparseness √ ∑| 𝑖| √∑ ⁄ _𝑖²

√ 3 其中 n 為 x 的維度。[54]是實作在影像處理的研究上，在該文獻中觀察其所呈現 出來的影響資訊，可以發現加上稀疏化的限制條件以後，不同基底向量之間差異較原始的方法來得大，也就是基底向量之間的冗餘性有明顯的減少。建立在這樣的基礎之上，[55-56]分別在 2008 及 2010 年提出使用 L0-norm 的法則來進一步改善基底向量的稀疏程度。L0-norm 的定義是向量中非零項的個數，是對「稀疏性」

最直接的數學描述，但由於 L0-norm 並非一可微分的連續函數，故此研究先運用前述的 sparseness 定義來求取較稀疏的基底矩陣，再以分解後的矩陣為基礎進行調整，找出更稀疏的矩陣。除此以外，2007 年提出的稀疏化限制矩陣分解非負元素法 (Constrained Sparse Matrix Factorization with non-negative components, CSMFnc)[57]及 2009 年所提出的[58]，也都是運用類似的概念，但以不同的方式組合限制條件來達成不同的稀疏效果，並分別在其應用領域中取得良好的成效。

值得一提的是，稀疏化的限制條件可以套用在求取基底矩陣 W 的部份，也 可以套用在求取編碼矩陣 H 的部份，此兩種概念具有不同的意義。當應用在基底 矩陣 W 時，能夠有效地使使基底之間重覆的部份變少，而減少其冗餘性；當應用 在編碼矩陣 H 時，則能強迫資料重建的過程使用較少的基底向量，有助於提升資 料的鑑別性(discriminativity)。由於我們的目標是減少冗餘的資訊，本論文中將以基底矩陣的稀疏性為主要的討論重心。

由此研究發展趨勢可看出非負矩陣分解法是一種可以有效擷取出重要資訊的方法，也可借由不同的減損函式和更新方式來達到不同的效果。

(三) 壓縮感知法

訊號取樣壓縮法中最常見而直覺的方法為 Nyquist 取樣法，當在限制頻寬的情況

在文檔中運用調變頻譜分解技術於強健語音特徵擷取之研究 (頁 23-0)

調變頻譜統計圖等化法(Spectral Histogram Equalization, SHE)

三、 資料壓縮法

decoder

≈

basis

V W H

三、資料壓縮法