• 沒有找到結果。

第三章 研究方法

3.3 相似度搜尋

3.3.2 距離定義

1. Chi-Square Distance

bB

+M b

2. Histogram Intersection

3. Log Likelihood Ratio

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第四章 實作與實驗結果

本章將說明實作之架構與辨識結果。辨識實驗將依三種距離定義透過 K 個最近鄰點演算 法做為分類方式,計算本實驗之準確率。此外,為符合真實應用情境,我們將原本音訊 加入家庭常見之環境音與雜訊,以驗證其分類能力。而由於本研究強調智慧家庭之應用,

因此本章的最後也將討論本系統的計算複雜度與即時性。

4.1 系統實作

本系統以電腦視覺函式庫 EmguCV 進行實作,系統介面如圖 4-1 所示:

圖 4-1. 系統介面

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

設計不同測試資料。

4.2.1 分類結果

測試集為 8 個分類各 7 個測試用資料,以三種不同距離定義加以比較。以下分別列 出將 intra-class 視為不同 class 與相同 class 之辨識正確率(accuracy)。

表 4-2. 以 Chi-Square Distance 為距離之辨識結果(視 intra-class 為不同分類)

Class 1 2 3 4 5 6 7 8 平均

1-NN 57.14 100.00 71.43 85.71 100.00 100.00 100.00 42.86 82.14 3-NN 42.86 85.71 85.71 85.71 100.00 100.00 100.00 57.14 82.14 5-NN 57.14 85.71 71.43 85.71 100.00 100.00 100.00 42.86 80.36 平均 52.38 90.48 76.19 85.71 100.00 100.00 100.00 47.62 81.55 單位:百分比

表 4-3. 以 Chi-Square Distance 為距離之辨識結果(視 intra-class 為相同分類)

Class 1+2 3+4 5 6 7 8 平均

1-NN 100.00 100.00 100.00 100.00 100.00 42.86 90.48 3-NN 100.00 92.86 100.00 100.00 100.00 57.14 91.67 5-NN 100.00 100.00 100.00 100.00 100.00 42.86 90.48 平均 100.00 97.62 100.00 100.00 100.00 47.62 90.87 單位:百分比

表 4-4. 以 Histogram Intersection 為距離之辨識結果(視 intra-class 為不同分類)

Class 1 2 3 4 5 6 7 8 平均

表 4-5. 以 Histogram Intersection 為距離之辨識結果(視 intra-class 為相同分類)

Class 1+2 3+4 5 6 7 8 平均

表 4-6. 以 Log-Likelihood Ratio 為距離之辨識結果(視 intra-class 為不同分類)

Class 1 2 3 4 5 6 7 8 平均

表 4-7. 以 Log-Likelihood Ratio 為距離之辨識結果(視 intra-class 為相同分類)

Class 1+2 3+4 5 6 7 8 平均

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

為同一個分類。而分類 8(火災警報聲)則因為其機械發聲構造與分類 3(電話鈴聲-1)相同,

故產生此辨識結果。而分類 5(嬰兒哭聲)、分類 6(汽車警報聲)、分類 7(水壺汽笛聲)之高 辨識正確率則是起因於其時間-頻率頻譜圖所呈現的樣式與其他分類有著非常大的差異,

擁有相當高的辨識度。

4.2.2 情境環境聲

我們企圖將此研究應用於智慧家庭環境,將家庭常見之情境環境聲加入實驗,用以 模擬我們的系統實際應用於測試環境時,是否對環境聲有其抗噪力並且仍能有效的對音 訊事件加以分類。如表 4-8 所示,為本研究中所定義常見於家庭之情境環境聲,以下結 果呈現當情境環境聲與音訊事件同時發生之分類結果。測試資料同為上個實驗中之 8 個 分類各 7 個測試樣本,於 6 種情境環境聲中的抗噪實驗。

表 4-8. 常見於家庭之情境環境聲及其時間-頻率頻譜圖 情境環境聲分類

冷氣空調聲 人群聲

高斯雜訊 雨聲

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

由以上實驗結果可得,當音訊事件發生於情境環境聲中,系統對於事件的辨識能力 仍能維持在一定的程度。未加入環境聲與加入環境聲後約為 5~10%之差異,但整體仍維 持在 70%以上。其中圖 4-11 可以觀察到一個有趣的現象,因為環境聲的影響,產生音 訊事件結構上的變化,使得未合併之辨識結果會隨著 K 值的遞增,系統卻將結構變化過 後的音訊事件辨識為另一個事件,造成 K 為 1 時,可以得到一個較佳的辨識結果,而其 他情況仍維持 K 為 3 時有較穩定之辨識正確率。

4.2.3 音訊事件同時發生

由於音訊事件可能與其他音訊事件同時發生,我們改寫系統測試對於此情境的辨識 能力,系統針對音訊事件其頻帶分布的不同,圈選其主要音訊事件結構用以辨識,並設 計此實驗以測試系統對於同時發生之音訊事件的正確率。測試資料為 15 組兩個音訊事 件同時發生之組合,每一組各 5 個樣本。如表 4-9 所列其中幾個樣本之時間-頻率頻譜圖。

表 4-9. 同時發生之音訊事件樣本

門鈴聲-1 + 電話鈴聲-1 門鈴聲-1 + 嬰兒哭聲

門鈴聲-2 + 火災警報聲 門鈴聲-2 + 水壺汽笛聲

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

訊事件與副音訊事件,於上表可得,兩個疊加所得之整體頻譜圖仍能有效的得到正確的 分類,雖然副音訊事件則因音量的遞減而難以辨識,但主音訊事件亦隨著主副音訊事件 之音量差異而大幅增加,更能有效的辨識出來。由於當音訊事件分布於相同頻帶上時,

因為其結構難以區分,造成辨識結果不佳,故我們於此設計一實驗,當兩音訊事件頻帶 分布有明顯差異時,系統是否能有效的將兩個音訊事件區分開來。測試資料集為 10 種 組合,各 3 個測試樣本。表 4-10 為其中測試資料集之範例。

表 4-10. 頻帶分布差異明顯的音訊組合樣本

電話鈴聲-2 + 火災警報聲 電話鈴聲-2 + 水壺汽笛聲

嬰兒哭聲 + 汽車警報聲 嬰兒哭聲 + 水壺汽笛聲

表 4-11. 頻帶分布差異明顯音訊事件組合之辨識正確率 整體音訊事件 音訊事件 1 音訊事件 2 平均 1NN 100.00 80.00 60.00 80.00 3NN 100.00 73.33 66.67 80.00 5NN 100.00 66.67 80.00 82.22 平均 100.00 73.33 68.89 80.74

單位:百分比

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4-14. 音訊事件發生於收音裝置不同方位

圖 4-15. 音訊事件發生於收音裝置不同方位的辨識結果比較

40 50 60 70 80 90 100

0 45 90 135 180

正確率

夾角

CHI 合併 HI 合併 LLR 合併 CHI HI LLR

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4-13. 即時性驗證之實驗結果 (汽車警報聲)

音訊事件 事件偵測數量 反應時間 雙向濾波器耗時

0 719 ms 672 ms

1 842 ms 656 ms

2 922 ms 656 ms

3 1031 ms 656 ms 4 1140 ms 656 ms 5 1250 ms 656 ms

於實驗結果可以發現,雙向濾波器為反應時間之瓶頸,如果為了時間考量是否可以 考慮放棄雙向濾波器,針對這個問題設計以下實驗,實驗結果如下表所示,是否使用雙 向濾波器對於起始點偵測所造成之結果比較。

表 4-14. 即時性驗證

實驗樣本 反應時間 雙向濾波器耗時

638 1176 ms 656 ms

表 4-15. 有無雙向濾波器之起始點偵測結果比較

音訊事件 起始點偵測 雙向濾波器 起始點偵測

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

當測試環境中僅有音訊事件時,系統不需經過雙向濾波器亦能有效的進行起始點偵 測,而當測試環境中有環境聲時,如上表所示,對音訊訊框直接進行起始點偵測將會造 成過度切割(over segmentation),尤其於電視情境聲中新聞播報與談話性節目特別明顯,

對測試結果造成影響,由此可見雙向濾波器仍有其必要性。

將 intra-class 視為不同 class 的分類正確率可達 80%,而將 intra-class 視為相同 class 的分 類正確率更可提高至 90%以上。設計環境聲與多個音訊事件同時發生之實驗,以模擬真 實家庭環境可能發生之情境,系統仍能相當程度的辨識出各種聲音並正確地加以分類,

在不同情境環境聲下,辨識正確率仍能有 85%的表現。當兩個音訊事件同時發生時,對 個別事件之辨識正確率亦可有 70%以上之辨識正確率。應用於擁有較高容忍程度之家庭

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

情境中,系統有效的對各種音訊事件分類。針對即時性的驗證,系統反應時間亦有相當 不錯的表現,音訊訊框之處理時間約為 1 秒鐘,因最差情況僅發生於系統初始之時,故 系統對於音訊事件發生之平均反應時間約為 1 秒至 5.5 秒之間,應用於智慧家庭的各種 情境中,均能有效於合理之時間限制內有所回應。

然而為因應測試環境的變化,更為有效的音源區分是未來最為重要的努力目標之一,

透過多個指向性麥克風或麥克風陣列,企圖將多個同時發生之音源加以定位,可有效的 以空間位置為音源區分之依據,將發生於相同時間甚至發生於相同頻帶上之音訊事件加 以區分。另一方面,透過收集更多的音訊訓練資料建立更為完整之資料庫,或以背景建 模之方式針對環境聲加以排除,均可將本研究之系統推展至更大的測試環境,以實現更 為完善之電腦聽覺技術。

[1] A. S. Bregman. ―Auditory Scene Analysis‖. The Perceptual Organization of Sound.

Cambridge, MA: MIT Press, 1990.

[2] D. Rosenthal and H. Okuno, Eds.. ―Computational Auditory Scene Analysis‖.

Lawrence Erlbaum Associates, 1998.

[3] D. Ellis. ―Prediction-Driven Computational Auditory Scene Analysis‖. Ph.D. thesis,

MIT, 1996.

[4] 王小川,「語音訊號處理」,全華股份有限公司,2007年4月。

[5] 張智星,「音訊處理與辨識」,

http://neural.cs.nthu.edu.tw/jang/books/audioSignalProcessing/ [retrieved July 2009]

[6] Wen-Hung Liao and Yi-Syuan Su. ―Analysis and classification of human sounds‖.

Master’s thesis, Department of Computer Science National Chengchi University, July

2006.

[7] Yan Ke, Derek Hoiem and Rahul Sukthankar. ―Computer Vision For Music

Identification‖. IEEE Conference on Computer Vision and Pattern Recognition, 2005.

[8] J. Haitsma and T. Kalker. ―A Highly Robust Audio Fingerprinting System‖. in

Proceedings of International Conference on Music Information Retrieval, 2002.

[9] G. Hu and D.L. Wang. ―Auditory Segmentation Based on Event Detection‖. In ISCA

Tutorial and Research Workshop on Stat. and Percept. Audio Process., 2004.

[10] S.H. Srinivasan. ―Auditory blobs‖. in IEEE ICASSP '04, vol. 4, pp. iv–313 – iv–316, 2004.

[11] Valerie Pierson and Nadine Martin. ―Comparison of Shape Descriptors For Feature Extraction of A Time- Frequency Image‖. CEPHAG-ENSJEG - BP 46 - 38402

ST-MARTIN-D’HERES C&Ex FRANCE.

[12] Ruohua Zhou, Marco Mattavelli, and Giorgio Zoia. ―Music Onset Detection Based On Resonator Time Frequency Image‖. IEEE Transactions On Audio, Speech, And

Language Processing, Vol. 16, No. 8, 2008.

[13] 王駿發,「多媒體影音檢索系統」,

http://web1.nsc.gov.tw/ct.aspx?xItem=8460&ctNode=40&mp=1[retrieved July 2009]

[14] D. Li, I. Sethi, N. Dimitrova, and T. McGee. ―Classification Of General Audio Data For Content-Based Retrieval‖. Pattern Recognition Letters, vol. 22(5), pp. 533–544, 2001.

[15] Zhu Liu, Yao Wang and Tsuhan Chen. ―Audio Feature Extraction And Analysis For Scene Segmentation And Classification‖. Polytechnic University, Brooklyn, NY 11201, Carnegie Mellon University, Pittsburgh, PA 15213.

[16] Silvia Allegro, Michael Büchler and Stefan Launer. ―Automatic Sound Classification Inspired By Auditory Scene Analysis‖. Signal Processing Department, Phonak AG, Switzerland Department of Otorhinolaryngology, University Hospital Zurich, Switzerland.

[17] T. Ojala, M. Pietikainen, and T. Maenpaa, ―Multiresolution Gray-Scale And Rotation Invariant Texture Classification With Local Binary Patterns‖. IEEE Trans. On Pattern

Analysis and Machine Intelligence, vol. 24, pp. 971-987, 2002.

[18] L. Cohen. ―Time-Frequency Analysis‖. Prentice Hall PTR, Englewood Cliffs 1995.

[19]

J. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies and M. Sandler. ―A Tutorial On Onset Detection In Music Signals‖. IEEE Transactions on Speech and Audio Processing, 2005.

[20] S. Paris. ―A Gentle Introduction To Bilateral Filtering And Its Applications‖. In ACM

SIGGRAPH 2007 courses, Course 13.

[21] V. Aurich and J.Weule. ―Non-Linear Gaussian Filters Performing Edge Preserving Diffusion‖. in Proceedings of the DAGM Symposium, pp. 538–545, 1995.

[22] C. Tomasi and R. Manduchi. ―Bilateral Filtering For Gray And Color Images‖. in

Proceedings of the IEEE International Conference on Computer Vision, pp. 839–846,

1998.

[23] F. Durand and J. Dorsey. ―Fast Bilateral Filtering For The Display Of

Highdynamic-Range Images‖. in Proceedings of the ACM SIGGRAPH conference, 2002.

[24] Paul Masri and Andrew Bateman. ―Improved Modeling Of Attack Transients In Music Analysis-Resynthesis‖. in Proceeding of International Computer Music Conference, 1996.

[25] M. Goto and Y. Muraoka. ―Beat Tracking Based On Multiple-Agent Architecture — A Real-Time Beat Tracking System For Audio Signals —‖ in ICMAS-96, pp. 103–110, 1996.

[26] H. Freeman, ―Techniques For The Digital Computer Analysis Of Chain-Encoded Arbitrary Plane Curves‖. in: Proc. Nat. Electronics Conf., 1961, pp. 421-432.

[27] E. Bruce Goldstein. Sensation and Perception. Wadsworth Publishing Co., Belmont, California, 1980.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

[28] Y. He and A. Kundu. ―2-D Shape Classification Using Hidden Markov Model‖. IEEE

Trans. Pat-tern Analysis and Machine Intelligence, 13(1991) 1172-1184.

[29] Xu Qing, Yang Jie and Ding Siyi. ―Texture Segmentation Using LBP Embedded Region Competition‖. Inst. of Image Processing & Pattern Recognition.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

附錄

A. 音訊起始點偵測-音訊事件發生於環境聲中

音訊起始點偵測-獨立音訊事件

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

音訊起始點偵測-連續音訊事件

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

音訊起始點偵測-冷氣環境音與人群環境音

Air Condition Crowd

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

音訊起始點偵測-高斯雜訊與雨聲環境音

Gaussian Noise Rain

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

音訊起始點偵測-電視情境新聞環境音與談話性節目環境音

TV-News TV-Talk Show

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

B. 基本全域閾值設定之實驗結果

Class1 門鈴聲-1 之基本全域閾值設定實驗結果

音訊事件影像 音訊事件影像強度分布直方圖

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

ΔT = 5 ΔT = 1

Class2 門鈴聲-2 之基本全域閾值設定實驗結果

音訊事件影像 音訊事件影像強度分布直方圖

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

ΔT = 5 ΔT = 1

Class3 電話鈴聲-1 之基本全域閾值設定實驗結果

音訊事件影像 音訊事件影像強度分布直方圖

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

ΔT = 5 ΔT = 1

Class4 電話鈴聲-2 之基本全域閾值設定實驗結果

音訊事件影像 音訊事件影像強度分布直方圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

ΔT = 5 ΔT = 1

Class5 嬰兒哭聲之基本全域閾值設定實驗結果

音訊事件影像 音訊事件影像強度分布直方圖

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

ΔT = 5 ΔT = 1

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Class6 汽車警報聲之基本全域閾值設定實驗結果

音訊事件影像 音訊事件影像強度分布直方圖

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

ΔT = 5 ΔT = 1

Class7 水壺汽笛聲之基本全域閾值設定實驗結果

音訊事件影像 音訊事件影像強度分布直方圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

ΔT = 5 ΔT = 1

Class8 火災警報聲之基本全域閾值設定實驗結果

音訊事件影像 音訊事件影像強度分布直方圖

音訊事件影像 音訊事件影像強度分布直方圖

相關文件