• 沒有找到結果。

第三章 研究方法

3.2 影像分析

3.2.1 雙向濾波器

3.2.1.1 高斯濾波器

(Gaussian Distribution)的 參數,依高斯分布隨空間距離越遠而遞減。其算式如下所示,

其中I表一灰階影像、I 表位置 p 上之強度(intensity)、S 表空間域上可能的像素位置、p

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

會因此特性而失去。如圖 3-5、圖 3-7 所示實驗結果,隨著 kernel size 與

的增加,其模 糊化效果上升,而原強度分布也因模糊化效果而呈現單閾值分布或是雙閾值分布,如圖 3-6、圖 3-8 所示。雖然高斯濾波器有著優異的模糊化效果,但其運算方式造成時間與頻 率上的資訊被視為相同而模糊化,也失去音訊事件之輪廓,如此造成在之後的音訊區塊 偵測錯誤,故我們改採以可保留其邊緣的平滑化技術,稱之為雙向濾波器,並對其定義 加以改寫,對音訊事件的區塊邊緣與其時間頻率訊息可以更有意義的被保留。

圖 3-5. 高斯濾波器(火災警報聲)

圖 3-6. 高斯濾波器-強度分布直方圖(火災警報器)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 3-7. 高斯濾波器(門鈴聲)

圖 3-8. 高斯濾波器-強度分布直方圖(門鈴聲)

3.2.1.2 雙向濾波器 (Bilateral Filter)

為使因強度差異所造成的邊緣能在平滑化的過程中保留下來,而加上了考慮周圍鄰 點之像素值所產生的權重。而雙向濾波器的基礎概念建立在平滑化時不僅考慮兩點距離,

同時也將兩點間的強度差異加入考量。將影像分割成大範圍的結構特徵與小範圍的紋理 特徵處理,如下圖所示。

r

為 Gaussian range weighting

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

參 數

s 控 制

G

s 以 降 低 距 離 過 遠 的 點 所 造 成 之 影 響 , 增 加 空 間 參 數 (spatial parameter)

s 會將結構上的特徵平滑化。而

r則控制

G

r以降低兩點間強度過大時所造 成的影響,當範圍參數(range parameter)

r增加時,因為

G

r逐漸平坦,雙向濾波器所 產生效果會逐漸接近高斯濾波器。而圖 3-11、圖 3-12 呈現兩個參數間關係所造成之結 果差異。由實驗結果可觀察其現象,因

s 的增加造成結構上的平滑化,而

r的增加則 可有效產生消除雜訊的結果,有助於取得對於判讀音訊事件所需資訊。

圖 3-11. 雙向濾波器(火災警報聲) -

r

s 影響所得結果

圖 3-12. 雙向濾波器(門鈴聲) -

r

s 影響所得結果

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

同時,透過雙向濾波器的可迭代特性,可以讓區域更為平坦化,其影響與空間、範 圍參數的設定不同,雖然一個較大的範圍參數

r可產生平滑化效果,有效的將紋理特 徵濾去,但同時也讓邊緣更趨於平坦化。而迭代可以讓紋理的部分更為平坦,仍將結構 特徵保留下來,於圖 3-13、圖 3-14 顯示其結果與其分布直方圖,由此實驗結果可見,

迭代方法可產生與

r

s 設定不同的效果,雖然增加

r可以將雜訊去除,但也因為

r 的過度增加造成邊緣的平滑化,而迭代方法則可將較大的邊緣結構保留下來,對細微的 邊緣結構加以平滑化,藉以找出此時間-頻率頻譜圖中音訊事件。

圖 3-13. 雙向濾波器(火災警報聲) -迭代次數之影響

圖 3-14. 雙向濾波器(門鈴聲) -迭代次數之影響

然而,於原本雙向濾波器中,對於空間參數與空間權重其縱軸與橫軸同為空間意義,

而在時間-頻率頻譜圖上的縱軸與橫軸卻分別代表不同的意義,於本實驗中縱軸為時間,

而橫軸為頻率。為因應聽覺對於時間與頻率的反應對應至時間-頻率頻譜圖的空間座標,

我們將空間參數與空間權重更細分為時間權重與頻率權重。其算式改寫如下。

G

f

為 Gaussian frequency weighting )

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 3-16. 改寫雙向濾波器(門鈴聲) 設定

t

f 所得結果 (

r設定為 0.8)

雙向濾波器於本研究中做為起始點偵測之波動削減處理,主要目的在於降低雜訊與 非音訊主結構之像素所造成的影響,將

r設定趨近於高斯濾波器之效果,以除去雜訊 之用。根據聽覺心理學中對於人耳特性之闡述,我們企圖利用

t

f 的設定模擬人耳 對於時間與頻率變化之感受,由於音訊於時間軸上的快速變動,故

t的設定傾向於將時 間軸上之波動更為有效的削減,而對於頻率軸資訊則傾向設定

f 以強調音訊事件之主 體。經過雙向濾波器之影像,則接著由起始點偵測以判斷此段時間中,是否有音訊事件 之產生。

相關文件