第四章 稀疏成分分析法
4.3 Nonlinear Projection Column Masking
為了將訊號投影到稀疏領域,首先要找出其主要的兩個方向。如(圖 4-9)所示,
假設我們想要找到的方向向量為 w,則散佈圖上各點對於 w 的投影量 yt定義如下:
(4-8)
其中 xt為各點的座標向量, 表示兩個向量 w 與 xt的夾角。PCA 是對於各個方 向的 w,找出使 E[yt2
]最大化的方向向量 w,E[.]代表期望值。如(圖 4-9)所示,此方 法在預估 w 時,會受到另一個方向的訊號點所干擾,雖然當 xt與 w 的夾角很大時,
的值會比較小,但全部的點所加總起來的影響,還是會使求出的 w 稍微偏 離真正所要找的方向(圖 4-9(a))。
(b) 投影成稀疏訊號 (a) 聲譜圖邊緣之散佈圖
圖 4-8 長脈衝響應下的混和情況
為避免此問題,我們可在找方向時,先遮蔽掉遠離 w 的所有訊號點,如此一來就較 不會受到屬於另一個方向的訊號點所干擾,可以較正確地找出 w 的方向(圖(b))。[26]
提出了一個非線性投影的方法將遠離主要方向的點遮蔽掉(Nonlinear Projection Column Masking, NPCM),其想法是定義出一個閾值 c0(threshold),對於每個點 xt計算
,當 時表示 xt與 w 較為接近,再對這些點做 PCA。但是在
這樣的定義下,閾值 c0的選擇對效果好壞會有很大的影響,所以文中提出了一個非線性
函數 f(.),將投影量 yt重新定義為:
(4-9)
此 f(.)為一遞減函數,並滿足以下三個條件:
(1) (2)
(3) and if
條件(3)就表示當 xt與 w 在同一個方向上時,f(.)會有最大值,而遠離 w 的點對於 yt
的貢獻值就很小,如此可以達到遮蔽的效果。f(.)可以是任意滿足條件的函數,在此使用 。其中 為常數,根據其值大小可以決定指數函數 f(x)的衰減速度,
若 越大,f(x)衰減越快,表示夾角 一定要很小,xt才不會被遮蔽,也就是 值可 以控制訊號點被遮蔽的門檻。
根據以上的假設,可以定義出目標函數:
(4-10) 圖 4-9 散佈圖上的主要方向
(a) PCA (b) NPCM
對各個不同方向的 w 計算 J(w)值,當 J( )有最大值時, 就應該是我們要求的主 要方向。假設有兩個聲源訊號,J(w)就會有兩個高峰(圖 4-10(a)),這兩個高峰也就對 應了主要的兩個方向 w1、w2的角度(圖 4-10(b))。而根據當點 xt所計算出的函數值 的大小,可以決定 x t距離哪個方向比較近,再將此點投影到該方向上(式 4-11)。
(4-11)
對每個點 xt皆投影到 w1或 w2的方向上後,就可以得到一個方向很明確的散佈圖(圖 4-11(a)),此經過投影的訊號 經過白化處理後,就可以達到 de-correlation 的效果(圖 4-11(b)),然後再繼續解分離矩陣。
將投影過的訊號當作新的混和訊號 ,用 所解出的白化矩陣和分離矩陣再回來解 x,流程圖如(圖 4-12)所示,我們將原本聲譜圖的邊緣訊號 E1和 E2作 NPCM,會得
圖 4-10 NPCM 所找出的兩個方向
(a) (b)
圖 4-11 稀疏訊號經過白色化處理後的變化
(a) (b)
到一個新的訊號 和 ,用 、 所解出的白化矩陣與分離矩陣乘上原影像 X1、X2, 就可以得到分離出的聲譜圖 、 。
此方法是將一個新訊號 的解直接用在原訊號 x 上,但因為 x 到 之間的轉換為非 線性的,將 x 轉換成 的過程就破壞了訊號原本的特性,所以也是只有在訊號源位於不 同邊的情況下效果比較好,若是訊號源來自同一邊,還是會因為混和訊號太過相似,導 致分離效果依然有限,詳細的結果會在第五章再作討論。