高斯濾波器 - 雙向濾波器 - 影像分析 - 研究方法 - 串流式音訊分類於智慧家庭之應用

第三章研究方法

3.2 影像分析

3.2.1 雙向濾波器

3.2.1.1 高斯濾波器

(Gaussian Distribution)的 參數，依高斯分布隨空間距離越遠而遞減。其算式如下所示，

其中I表一灰階影像、I 表位置 p 上之強度(intensity)、S 表空間域上可能的像素位置、_p

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

會因此特性而失去。如圖 3-5、圖 3-7 所示實驗結果，隨著 kernel size 與



的增加，其模糊化效果上升，而原強度分布也因模糊化效果而呈現單閾值分布或是雙閾值分布，如圖 3-6、圖 3-8 所示。雖然高斯濾波器有著優異的模糊化效果，但其運算方式造成時間與頻率上的資訊被視為相同而模糊化，也失去音訊事件之輪廓，如此造成在之後的音訊區塊偵測錯誤，故我們改採以可保留其邊緣的平滑化技術，稱之為雙向濾波器，並對其定義加以改寫，對音訊事件的區塊邊緣與其時間頻率訊息可以更有意義的被保留。

圖 3-5. 高斯濾波器(火災警報聲)

圖 3-6. 高斯濾波器-強度分布直方圖(火災警報器)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3-7. 高斯濾波器(門鈴聲)

圖 3-8. 高斯濾波器-強度分布直方圖(門鈴聲)

3.2.1.2 雙向濾波器 (Bilateral Filter)

為使因強度差異所造成的邊緣能在平滑化的過程中保留下來，而加上了考慮周圍鄰點之像素值所產生的權重。而雙向濾波器的基礎概念建立在平滑化時不僅考慮兩點距離，

同時也將兩點間的強度差異加入考量。將影像分割成大範圍的結構特徵與小範圍的紋理特徵處理，如下圖所示。

‧



為 Gaussian range weighting

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

參數



_s 控制

G

_s 以降低距離過遠的點所造成之影響，增加空間參數 (spatial parameter)



_s 會將結構上的特徵平滑化。而



_r則控制

G

_r以降低兩點間強度過大時所造成的影響，當範圍參數(range parameter)



_r增加時，因為

G

_r逐漸平坦，雙向濾波器所產生效果會逐漸接近高斯濾波器。而圖 3-11、圖 3-12 呈現兩個參數間關係所造成之結果差異。由實驗結果可觀察其現象，因



_s 的增加造成結構上的平滑化，而



_r的增加則可有效產生消除雜訊的結果，有助於取得對於判讀音訊事件所需資訊。

圖 3-11. 雙向濾波器(火災警報聲) -



_r與



_s 影響所得結果

圖 3-12. 雙向濾波器(門鈴聲) -



_r與



_s 影響所得結果

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

同時，透過雙向濾波器的可迭代特性，可以讓區域更為平坦化，其影響與空間、範圍參數的設定不同，雖然一個較大的範圍參數



_r可產生平滑化效果，有效的將紋理特徵濾去，但同時也讓邊緣更趨於平坦化。而迭代可以讓紋理的部分更為平坦，仍將結構特徵保留下來，於圖 3-13、圖 3-14 顯示其結果與其分布直方圖，由此實驗結果可見，

迭代方法可產生與



_r、



_s 設定不同的效果，雖然增加



_r可以將雜訊去除，但也因為



_r 的過度增加造成邊緣的平滑化，而迭代方法則可將較大的邊緣結構保留下來，對細微的邊緣結構加以平滑化，藉以找出此時間-頻率頻譜圖中音訊事件。

圖 3-13. 雙向濾波器(火災警報聲) -迭代次數之影響

圖 3-14. 雙向濾波器(門鈴聲) -迭代次數之影響

然而，於原本雙向濾波器中，對於空間參數與空間權重其縱軸與橫軸同為空間意義，

而在時間-頻率頻譜圖上的縱軸與橫軸卻分別代表不同的意義，於本實驗中縱軸為時間，

而橫軸為頻率。為因應聽覺對於時間與頻率的反應對應至時間-頻率頻譜圖的空間座標，

我們將空間參數與空間權重更細分為時間權重與頻率權重。其算式改寫如下。

‧

G

__f



為 Gaussian frequency weighting )

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3-16. 改寫雙向濾波器(門鈴聲) 設定



_t與



_f 所得結果 (



_r設定為 0.8)

雙向濾波器於本研究中做為起始點偵測之波動削減處理，主要目的在於降低雜訊與非音訊主結構之像素所造成的影響，將



_r設定趨近於高斯濾波器之效果，以除去雜訊之用。根據聽覺心理學中對於人耳特性之闡述，我們企圖利用



_t與



_f 的設定模擬人耳對於時間與頻率變化之感受，由於音訊於時間軸上的快速變動，故



_t的設定傾向於將時間軸上之波動更為有效的削減，而對於頻率軸資訊則傾向設定



_f 以強調音訊事件之主體。經過雙向濾波器之影像，則接著由起始點偵測以判斷此段時間中，是否有音訊事件之產生。

在文檔中串流式音訊分類於智慧家庭之應用 - 政大學術集成 (頁 29-36)

高斯濾波器

第三章 研究方法

3.2 影像分析

3.2.1 雙向濾波器

3.2.1.1 高斯濾波器

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y



‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧



‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y



G





G



G













‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y











‧

G



‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

















第三章研究方法

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學