異音監測方法架構[15]

第三章聲音監控方法

3.3 建立聲音監控模型

3.3.2 異音監測方法架構[15]

本論文對於異音監測可以分為兩部分。第一部分是假設異音出現在麥克風陣列所監控的角度上。第二部分是異音不在我們所假設的角度上。

首先(圖 3-4)表示異音出現在所監控的角度上:

圖 3-4 系統流程一

假設麥克風陣列的麥克風個數是 8，可以根據(2-8)式對某一方向做聲音的監控。在本篇論文中是假設以麥克風陣列前方180 度，以每 22.5 度依序是(22.5 度、45 度、67.5 度、90 度、112.5 度、135 度、157.5 度、180 度)8 個角度做聲音監控。以 90 度為例，因為是平面波假設。根據(2-6)可以得知8 顆麥克風之間的延遲時間為零，所以 8 顆麥克風是同時收到訊號。所以對90 度方向的 Beamformer 就是將 8 顆麥克風收到的訊號相加之後再取平均。這是(系統流程圖一)中建立多方向 Delay and Sum Beamformer 的部分。

建立好 Delay and Sum Beamformer 之後，會得到 8 組方向的聲音資料。

一樣還是以 90 方向的 Beamformer 為例，可以根據(2-19)對 90 度的 Beamformer 聲音資料當作，以每512 點為一音框所以是計算音框內的通過零點的次數。所以90 方向的 Beamformer 的資料計算完越零率之後會得到一組數據，這筆數據代表在這段時間內每512 點聲音的頻率變化。

想要對這筆數據建立高斯混合模型可以利用 K-means 分群的方法得到這筆數據可以分的群數和群中心點的值加快其收斂速度。利用k-means 得到初始值，再由期望值最大演算法求得代表90 方向的 Beamformer 的聲音頻率分佈情形。

論文中監控 8 個角度，依序求得 8 個監控方向各自的聲音頻率分佈情況，所以就有8 個高斯混合模型。現在訓練好環境的背景模型後，依照(系統流程圖一)。現在假設異音出現在 90 度的方向，當麥克風陣列再次收到一組聲音後，根據Delay and Sum Beamformer 和(2-19)會求得 8 組方向的聲音資料，之後代入各自監控角度的高斯混合模型。現在假設異音出現在 90 度的方向，所以 Delay and Sum Beamformer 會將 90 度異音的訊號放大。

放大之後對於高斯混合模型就會有較好的辨識能力。判斷是否為異音判斷的方法是收到的資料需落在高斯混合模型的每一個高斯分佈的 2.5 倍的標準差以內。根據統計推論，發生在 2.5 倍的標準差之外的機率值發生的不到百分之五。所以認定此聲音不屬於此分佈，也就不是環境的背景聲音。

其他角度因為異音不在所監控的角度上，所以異音會被抑制，辨識的效就不佳。

根據(表 3-1)當有異音出現在 90 度方向時，表中的 8 個監控角度各自計算出來的機率值，其中有 6 個角度的事後機率值都大於 2.5 倍標準差的機率值，所以都把異音判斷為環境的背景聲音。只有 90 度和 135 度判斷為異音，所以就知道異音出現在大約90 度到 135 度的方向。

(表 3-2)是將 8 個監控角度建立一個高維的高斯混合模型，判斷是否有

發生異音的方法和上述一樣。由實驗可得知，將監控方向一起建立高維度高斯混合模型只要發生的異音，利用麥克風陣列所收到的聲音，即使微量的頻率變化能可辨識出來。但高維度的高斯混合模型就無法知道方向，但可以由(表 3-1)的方法得知方向。

機率值判斷的機率值

22.5 度 0.0122944608409649 0.00118979577102284 45 度 0.00578747663259773 0.00108626085249277 67.5 度 0.00326971304910512 0.00137091506324151 90 度 0.000296154795649129 0.0014976867597792 112.5 度 0.00277923363716396 0.00117718514408275

135 度 0.000678437091262902 0.00171458881773066 157.5 度 0.0104770571235841 0.00151854383892775 180 度 0.00331716029086139 0.00137528519985491

表 3-1 異音位於監控方向的判斷

機率值判斷的機率值

1.65713387434465e-094 2.44685719600539e-054 表 3-2 高維度高斯混合模型對異音的判斷 (圖 3-5)另外一種情況表示異音沒有在所監控的角度上:

圖 3-5 系統流程二

系統流程二說明的是假設聲源一開始不在所監控的角度上。當麥克風陣列收到聲音後，一樣會各自和一開始所監控的高斯混合模型比對。但是異音不在監控的角度上所以在監控角度上的高斯模型都無法判別出來，由(表 3-3)可看出當有異音的資料進入到 8 個監控角度時，都判斷環境背景聲音。

機率值判斷的機率值

22.5 度 0.0165733731334948 0.00118979577102284 45 度 0.0133653890710188 0.00108626085249277 67.5 度 0.0136452102442473 0.00137091506324151 90 度 0.0147645098870454 0.0014976867597792 112.5 度 0.0159753304010597 0.00117718514408275

135 度 0.0127393977987231 0.00171458881773066 157.5 度 0.0116954210058476 0.00151854383892775 180 度 0.01447470927028 0.00137528519985491

表 3-3 異音不在監控方向的判斷

但是由(表 3-4)判斷的結果可以看出是有異音出現的。

機率值判斷的機率值

6.69184101280151e-218 2.44685719600539e-054 表 3-4 高維度高斯混合模型對不在監控方向的異音判斷

所以在系統流程二中如果異音沒有出現在監控的角度上，但是高維度的高斯混合模型仍可以判斷出來有異音的出現。如果再移動監控的角度，重覆判斷直接找到異音大約的方位。

在文檔中利用訊號特徵及麥克風陣列 (頁 38-43)

第三章 聲音監控方法

3.3 建立聲音監控模型

3.3.2 異音監測方法架構[15]

第三章聲音監控方法