Nonlinear Projection Column Masking

第四章稀疏成分分析法

4.3 Nonlinear Projection Column Masking

為了將訊號投影到稀疏領域，首先要找出其主要的兩個方向。如（圖 4-9）所示，

假設我們想要找到的方向向量為 w，則散佈圖上各點對於 w 的投影量 yt定義如下：

(4-8)

其中 xt為各點的座標向量， 表示兩個向量 w 與 xt的夾角。PCA 是對於各個方 向的 w，找出使 E[yt2

]最大化的方向向量 w，E[.]代表期望值。如（圖 4-9）所示，此方 法在預估 w 時，會受到另一個方向的訊號點所干擾，雖然當 xt與 w 的夾角很大時，

的值會比較小，但全部的點所加總起來的影響，還是會使求出的 w 稍微偏 離真正所要找的方向（圖 4-9(a)）。

(b) 投影成稀疏訊號 (a) 聲譜圖邊緣之散佈圖

圖 4-8 長脈衝響應下的混和情況

為避免此問題，我們可在找方向時，先遮蔽掉遠離 w 的所有訊號點，如此一來就較 不會受到屬於另一個方向的訊號點所干擾，可以較正確地找出 w 的方向（圖(b)）。[26]

提出了一個非線性投影的方法將遠離主要方向的點遮蔽掉（Nonlinear Projection Column Masking, NPCM），其想法是定義出一個閾值 c0（threshold），對於每個點 xt計算

，當時表示 xt與 w 較為接近，再對這些點做 PCA。但是在

這樣的定義下，閾值 c0的選擇對效果好壞會有很大的影響，所以文中提出了一個非線性

函數 f(.)，將投影量 yt重新定義為：

(4-9)

此 f(.)為一遞減函數，並滿足以下三個條件：

(1) (2)

(3) and if

條件(3)就表示當 xt與 w 在同一個方向上時，f(.)會有最大值，而遠離 w 的點對於 yt

的貢獻值就很小，如此可以達到遮蔽的效果。f(.)可以是任意滿足條件的函數，在此使用。其中為常數，根據其值大小可以決定指數函數 f(x)的衰減速度，

若越大，f(x)衰減越快，表示夾角一定要很小，xt才不會被遮蔽，也就是值可以控制訊號點被遮蔽的門檻。

根據以上的假設，可以定義出目標函數：

(4-10) 圖 4-9 散佈圖上的主要方向

(a) PCA (b) NPCM

對各個不同方向的 w 計算 J(w)值，當 J( )有最大值時，就應該是我們要求的主 要方向。假設有兩個聲源訊號，J(w)就會有兩個高峰（圖 4-10(a)），這兩個高峰也就對 應了主要的兩個方向 w1、w2的角度（圖 4-10(b)）。而根據當點 xt所計算出的函數值的大小，可以決定 x t距離哪個方向比較近，再將此點投影到該方向上（式 4-11）。

(4-11)

對每個點 xt皆投影到 w1或 w2的方向上後，就可以得到一個方向很明確的散佈圖（圖 4-11(a)），此經過投影的訊號經過白化處理後，就可以達到 de-correlation 的效果（圖 4-11(b)），然後再繼續解分離矩陣。

將投影過的訊號當作新的混和訊號，用所解出的白化矩陣和分離矩陣再回來解 x，流程圖如（圖 4-12）所示，我們將原本聲譜圖的邊緣訊號 E1和 E2作 NPCM，會得

圖 4-10 NPCM 所找出的兩個方向

(a) (b)

圖 4-11 稀疏訊號經過白色化處理後的變化

(a) (b)

到一個新的訊號和，用、 所解出的白化矩陣與分離矩陣乘上原影像 X1、X2，就可以得到分離出的聲譜圖、。

此方法是將一個新訊號的解直接用在原訊號 x 上，但因為 x 到之間的轉換為非線性的，將 x 轉換成的過程就破壞了訊號原本的特性，所以也是只有在訊號源位於不同邊的情況下效果比較好，若是訊號源來自同一邊，還是會因為混和訊號太過相似，導致分離效果依然有限，詳細的結果會在第五章再作討論。

在文檔中應用盲訊號分離法於語音訊號分離之研究 (頁 36-39)

第四章 稀疏成分分析法

4.3 Nonlinear Projection Column Masking

第四章稀疏成分分析法