距離定義 - 相似度搜尋 - 研究方法 - 串流式音訊分類於智慧家庭之應用

第三章研究方法

3.3 相似度搜尋

3.3.2 距離定義

1. Chi-Square Distance



bB

+M b

2. Histogram Intersection





3. Log Likelihood Ratio





‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章實作與實驗結果

本章將說明實作之架構與辨識結果。辨識實驗將依三種距離定義透過 K 個最近鄰點演算法做為分類方式，計算本實驗之準確率。此外，為符合真實應用情境，我們將原本音訊加入家庭常見之環境音與雜訊，以驗證其分類能力。而由於本研究強調智慧家庭之應用，

因此本章的最後也將討論本系統的計算複雜度與即時性。

4.1 系統實作

本系統以電腦視覺函式庫 EmguCV 進行實作，系統介面如圖 4-1 所示：

圖 4-1. 系統介面

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

設計不同測試資料。

4.2.1 分類結果

測試集為 8 個分類各 7 個測試用資料，以三種不同距離定義加以比較。以下分別列出將 intra-class 視為不同 class 與相同 class 之辨識正確率(accuracy)。

表 4-2. 以 Chi-Square Distance 為距離之辨識結果(視 intra-class 為不同分類)

Class 1 2 3 4 5 6 7 8 平均

1-NN 57.14 100.00 71.43 85.71 100.00 100.00 100.00 42.86 82.14 3-NN 42.86 85.71 85.71 85.71 100.00 100.00 100.00 57.14 82.14 5-NN 57.14 85.71 71.43 85.71 100.00 100.00 100.00 42.86 80.36 平均 52.38 90.48 76.19 85.71 100.00 100.00 100.00 47.62 81.55 單位：百分比

表 4-3. 以 Chi-Square Distance 為距離之辨識結果(視 intra-class 為相同分類)

Class 1+2 3+4 5 6 7 8 平均

1-NN 100.00 100.00 100.00 100.00 100.00 42.86 90.48 3-NN 100.00 92.86 100.00 100.00 100.00 57.14 91.67 5-NN 100.00 100.00 100.00 100.00 100.00 42.86 90.48 平均 100.00 97.62 100.00 100.00 100.00 47.62 90.87 單位：百分比

‧

表 4-4. 以 Histogram Intersection 為距離之辨識結果(視 intra-class 為不同分類)

Class 1 2 3 4 5 6 7 8 平均

表 4-5. 以 Histogram Intersection 為距離之辨識結果(視 intra-class 為相同分類)

Class 1+2 3+4 5 6 7 8 平均

表 4-6. 以 Log-Likelihood Ratio 為距離之辨識結果(視 intra-class 為不同分類)

Class 1 2 3 4 5 6 7 8 平均

‧

表 4-7. 以 Log-Likelihood Ratio 為距離之辨識結果(視 intra-class 為相同分類)

Class 1+2 3+4 5 6 7 8 平均

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

為同一個分類。而分類 8(火災警報聲)則因為其機械發聲構造與分類 3(電話鈴聲-1)相同，

故產生此辨識結果。而分類 5(嬰兒哭聲)、分類 6(汽車警報聲)、分類 7(水壺汽笛聲)之高辨識正確率則是起因於其時間-頻率頻譜圖所呈現的樣式與其他分類有著非常大的差異，

擁有相當高的辨識度。

4.2.2 情境環境聲

我們企圖將此研究應用於智慧家庭環境，將家庭常見之情境環境聲加入實驗，用以模擬我們的系統實際應用於測試環境時，是否對環境聲有其抗噪力並且仍能有效的對音訊事件加以分類。如表 4-8 所示，為本研究中所定義常見於家庭之情境環境聲，以下結果呈現當情境環境聲與音訊事件同時發生之分類結果。測試資料同為上個實驗中之 8 個分類各 7 個測試樣本，於 6 種情境環境聲中的抗噪實驗。

表 4-8. 常見於家庭之情境環境聲及其時間-頻率頻譜圖情境環境聲分類

冷氣空調聲人群聲

高斯雜訊雨聲

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

由以上實驗結果可得，當音訊事件發生於情境環境聲中，系統對於事件的辨識能力仍能維持在一定的程度。未加入環境聲與加入環境聲後約為 5~10%之差異，但整體仍維持在 70%以上。其中圖 4-11 可以觀察到一個有趣的現象，因為環境聲的影響，產生音訊事件結構上的變化，使得未合併之辨識結果會隨著 K 值的遞增，系統卻將結構變化過後的音訊事件辨識為另一個事件，造成 K 為 1 時，可以得到一個較佳的辨識結果，而其他情況仍維持 K 為 3 時有較穩定之辨識正確率。

4.2.3 音訊事件同時發生

由於音訊事件可能與其他音訊事件同時發生，我們改寫系統測試對於此情境的辨識能力，系統針對音訊事件其頻帶分布的不同，圈選其主要音訊事件結構用以辨識，並設計此實驗以測試系統對於同時發生之音訊事件的正確率。測試資料為 15 組兩個音訊事件同時發生之組合，每一組各 5 個樣本。如表 4-9 所列其中幾個樣本之時間-頻率頻譜圖。

表 4-9. 同時發生之音訊事件樣本

門鈴聲-1 + 電話鈴聲-1 門鈴聲-1 + 嬰兒哭聲

門鈴聲-2 + 火災警報聲門鈴聲-2 + 水壺汽笛聲

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

訊事件與副音訊事件，於上表可得，兩個疊加所得之整體頻譜圖仍能有效的得到正確的分類，雖然副音訊事件則因音量的遞減而難以辨識，但主音訊事件亦隨著主副音訊事件之音量差異而大幅增加，更能有效的辨識出來。由於當音訊事件分布於相同頻帶上時，

因為其結構難以區分，造成辨識結果不佳，故我們於此設計一實驗，當兩音訊事件頻帶分布有明顯差異時，系統是否能有效的將兩個音訊事件區分開來。測試資料集為 10 種組合，各 3 個測試樣本。表 4-10 為其中測試資料集之範例。

表 4-10. 頻帶分布差異明顯的音訊組合樣本

電話鈴聲-2 + 火災警報聲電話鈴聲-2 + 水壺汽笛聲

嬰兒哭聲 + 汽車警報聲嬰兒哭聲 + 水壺汽笛聲

表 4-11. 頻帶分布差異明顯音訊事件組合之辨識正確率整體音訊事件音訊事件 1 音訊事件 2 平均 1NN 100.00 80.00 60.00 80.00 3NN 100.00 73.33 66.67 80.00 5NN 100.00 66.67 80.00 82.22 平均 100.00 73.33 68.89 80.74

單位：百分比

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4-14. 音訊事件發生於收音裝置不同方位

圖 4-15. 音訊事件發生於收音裝置不同方位的辨識結果比較

40 50 60 70 80 90 100

0 45 90 135 180

正確率

夾角

CHI 合併 HI 合併 LLR 合併 CHI HI LLR

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 4-13. 即時性驗證之實驗結果 (汽車警報聲)

音訊事件事件偵測數量反應時間雙向濾波器耗時

0 719 ms 672 ms

1 842 ms 656 ms

2 922 ms 656 ms

3 1031 ms 656 ms 4 1140 ms 656 ms 5 1250 ms 656 ms

於實驗結果可以發現，雙向濾波器為反應時間之瓶頸，如果為了時間考量是否可以考慮放棄雙向濾波器，針對這個問題設計以下實驗，實驗結果如下表所示，是否使用雙向濾波器對於起始點偵測所造成之結果比較。

表 4-14. 即時性驗證

實驗樣本反應時間雙向濾波器耗時

638 1176 ms 656 ms

表 4-15. 有無雙向濾波器之起始點偵測結果比較

音訊事件起始點偵測雙向濾波器起始點偵測

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

當測試環境中僅有音訊事件時，系統不需經過雙向濾波器亦能有效的進行起始點偵測，而當測試環境中有環境聲時，如上表所示，對音訊訊框直接進行起始點偵測將會造成過度切割(over segmentation)，尤其於電視情境聲中新聞播報與談話性節目特別明顯，

對測試結果造成影響，由此可見雙向濾波器仍有其必要性。

‧

將 intra-class 視為不同 class 的分類正確率可達 80%，而將 intra-class 視為相同 class 的分類正確率更可提高至 90%以上。設計環境聲與多個音訊事件同時發生之實驗，以模擬真實家庭環境可能發生之情境，系統仍能相當程度的辨識出各種聲音並正確地加以分類，

在不同情境環境聲下，辨識正確率仍能有 85%的表現。當兩個音訊事件同時發生時，對個別事件之辨識正確率亦可有 70%以上之辨識正確率。應用於擁有較高容忍程度之家庭

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

情境中，系統有效的對各種音訊事件分類。針對即時性的驗證，系統反應時間亦有相當不錯的表現，音訊訊框之處理時間約為 1 秒鐘，因最差情況僅發生於系統初始之時，故系統對於音訊事件發生之平均反應時間約為 1 秒至 5.5 秒之間，應用於智慧家庭的各種情境中，均能有效於合理之時間限制內有所回應。

然而為因應測試環境的變化，更為有效的音源區分是未來最為重要的努力目標之一，

透過多個指向性麥克風或麥克風陣列，企圖將多個同時發生之音源加以定位，可有效的以空間位置為音源區分之依據，將發生於相同時間甚至發生於相同頻帶上之音訊事件加以區分。另一方面，透過收集更多的音訊訓練資料建立更為完整之資料庫，或以背景建模之方式針對環境聲加以排除，均可將本研究之系統推展至更大的測試環境，以實現更為完善之電腦聽覺技術。

‧

[1] A. S. Bregman. ―Auditory Scene Analysis‖. The Perceptual Organization of Sound.

Cambridge, MA: MIT Press, 1990.

[2] D. Rosenthal and H. Okuno, Eds.. ―Computational Auditory Scene Analysis‖.

Lawrence Erlbaum Associates, 1998.

[3] D. Ellis. ―Prediction-Driven Computational Auditory Scene Analysis‖. Ph.D. thesis,

MIT, 1996.

[4] 王小川，「語音訊號處理」，全華股份有限公司，2007年4月。

[5] 張智星，「音訊處理與辨識」，

http://neural.cs.nthu.edu.tw/jang/books/audioSignalProcessing/ [retrieved July 2009]

[6] Wen-Hung Liao and Yi-Syuan Su. ―Analysis and classification of human sounds‖.

Master’s thesis, Department of Computer Science National Chengchi University, July

2006.

[7] Yan Ke, Derek Hoiem and Rahul Sukthankar. ―Computer Vision For Music

Identification‖. IEEE Conference on Computer Vision and Pattern Recognition, 2005.

[8] J. Haitsma and T. Kalker. ―A Highly Robust Audio Fingerprinting System‖. in

Proceedings of International Conference on Music Information Retrieval, 2002.

[9] G. Hu and D.L. Wang. ―Auditory Segmentation Based on Event Detection‖. In ISCA

Tutorial and Research Workshop on Stat. and Percept. Audio Process., 2004.

[10] S.H. Srinivasan. ―Auditory blobs‖. in IEEE ICASSP '04, vol. 4, pp. iv–313 – iv–316, 2004.

[11] Valerie Pierson and Nadine Martin. ―Comparison of Shape Descriptors For Feature Extraction of A Time- Frequency Image‖. CEPHAG-ENSJEG - BP 46 - 38402

ST-MARTIN-D’HERES C&Ex FRANCE.

[12] Ruohua Zhou, Marco Mattavelli, and Giorgio Zoia. ―Music Onset Detection Based On Resonator Time Frequency Image‖. IEEE Transactions On Audio, Speech, And

Language Processing, Vol. 16, No. 8, 2008.

[13] 王駿發，｢多媒體影音檢索系統｣，

http://web1.nsc.gov.tw/ct.aspx?xItem=8460&ctNode=40&mp=1[retrieved July 2009]

‧

[14] D. Li, I. Sethi, N. Dimitrova, and T. McGee. ―Classification Of General Audio Data For Content-Based Retrieval‖. Pattern Recognition Letters, vol. 22(5), pp. 533–544, 2001.

[15] Zhu Liu, Yao Wang and Tsuhan Chen. ―Audio Feature Extraction And Analysis For Scene Segmentation And Classification‖. Polytechnic University, Brooklyn, NY 11201, Carnegie Mellon University, Pittsburgh, PA 15213.

[16] Silvia Allegro, Michael Büchler and Stefan Launer. ―Automatic Sound Classification Inspired By Auditory Scene Analysis‖. Signal Processing Department, Phonak AG, Switzerland Department of Otorhinolaryngology, University Hospital Zurich, Switzerland.

[17] T. Ojala, M. Pietikainen, and T. Maenpaa, ―Multiresolution Gray-Scale And Rotation Invariant Texture Classification With Local Binary Patterns‖. IEEE Trans. On Pattern

Analysis and Machine Intelligence, vol. 24, pp. 971-987, 2002.

[18] L. Cohen. ―Time-Frequency Analysis‖. Prentice Hall PTR, Englewood Cliffs 1995.

[19]

J. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies and M. Sandler. ―A Tutorial On Onset Detection In Music Signals‖. IEEE Transactions on Speech and Audio Processing, 2005.

[20] S. Paris. ―A Gentle Introduction To Bilateral Filtering And Its Applications‖. In ACM

SIGGRAPH 2007 courses, Course 13.

[21] V. Aurich and J.Weule. ―Non-Linear Gaussian Filters Performing Edge Preserving Diffusion‖. in Proceedings of the DAGM Symposium, pp. 538–545, 1995.

[22] C. Tomasi and R. Manduchi. ―Bilateral Filtering For Gray And Color Images‖. in

Proceedings of the IEEE International Conference on Computer Vision, pp. 839–846,

1998.

[23] F. Durand and J. Dorsey. ―Fast Bilateral Filtering For The Display Of

Highdynamic-Range Images‖. in Proceedings of the ACM SIGGRAPH conference, 2002.

[24] Paul Masri and Andrew Bateman. ―Improved Modeling Of Attack Transients In Music Analysis-Resynthesis‖. in Proceeding of International Computer Music Conference, 1996.

[25] M. Goto and Y. Muraoka. ―Beat Tracking Based On Multiple-Agent Architecture — A Real-Time Beat Tracking System For Audio Signals —‖ in ICMAS-96, pp. 103–110, 1996.

[26] H. Freeman, ―Techniques For The Digital Computer Analysis Of Chain-Encoded Arbitrary Plane Curves‖. in: Proc. Nat. Electronics Conf., 1961, pp. 421-432.

[27] E. Bruce Goldstein. Sensation and Perception. Wadsworth Publishing Co., Belmont, California, 1980.

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

[28] Y. He and A. Kundu. ―2-D Shape Classification Using Hidden Markov Model‖. IEEE

Trans. Pat-tern Analysis and Machine Intelligence, 13(1991) 1172-1184.

[29] Xu Qing, Yang Jie and Ding Siyi. ―Texture Segmentation Using LBP Embedded Region Competition‖. Inst. of Image Processing & Pattern Recognition.

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

附錄

A. 音訊起始點偵測-音訊事件發生於環境聲中

音訊起始點偵測-獨立音訊事件

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

音訊起始點偵測-連續音訊事件

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

音訊起始點偵測-冷氣環境音與人群環境音

Air Condition Crowd

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

音訊起始點偵測-高斯雜訊與雨聲環境音

Gaussian Noise Rain

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

音訊起始點偵測-電視情境新聞環境音與談話性節目環境音

TV-News TV-Talk Show

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

B. 基本全域閾值設定之實驗結果

Class1 門鈴聲-1 之基本全域閾值設定實驗結果

音訊事件影像音訊事件影像強度分布直方圖

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

ΔT = 5 ΔT = 1

Class2 門鈴聲-2 之基本全域閾值設定實驗結果

音訊事件影像音訊事件影像強度分布直方圖

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

ΔT = 5 ΔT = 1

Class3 電話鈴聲-1 之基本全域閾值設定實驗結果

音訊事件影像音訊事件影像強度分布直方圖

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

ΔT = 5 ΔT = 1

Class4 電話鈴聲-2 之基本全域閾值設定實驗結果

音訊事件影像音訊事件影像強度分布直方圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

ΔT = 5 ΔT = 1

Class5 嬰兒哭聲之基本全域閾值設定實驗結果

音訊事件影像音訊事件影像強度分布直方圖

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

ΔT = 5 ΔT = 1

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Class6 汽車警報聲之基本全域閾值設定實驗結果

音訊事件影像音訊事件影像強度分布直方圖

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

ΔT = 5 ΔT = 1

Class7 水壺汽笛聲之基本全域閾值設定實驗結果

音訊事件影像音訊事件影像強度分布直方圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

ΔT = 50 ΔT = 30

ΔT = 20 ΔT = 10

ΔT = 5 ΔT = 1

Class8 火災警報聲之基本全域閾值設定實驗結果

音訊事件影像音訊事件影像強度分布直方圖

在文檔中串流式音訊分類於智慧家庭之應用 - 政大學術集成 (頁 56-0)

距離定義

第三章 研究方法

3.3 相似度搜尋

3.3.2 距離定義



+M b





‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章 實作與實驗結果

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

Lawrence Erlbaum Associates, 1998.

MIT, 1996.

http://neural.cs.nthu.edu.tw/jang/books/audioSignalProcessing/ [retrieved July 2009]

Master’s thesis, Department of Computer Science National Chengchi University, July

Proceedings of International Conference on Music Information Retrieval, 2002.

Tutorial and Research Workshop on Stat. and Percept. Audio Process., 2004.

ST-MARTIN-D’HERES C&Ex FRANCE.

Language Processing, Vol. 16, No. 8, 2008.

http://web1.nsc.gov.tw/ct.aspx?xItem=8460&ctNode=40&mp=1[retrieved July 2009]

‧

Analysis and Machine Intelligence, vol. 24, pp. 971-987, 2002.

J. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies and M. Sandler. ―A Tutorial On Onset Detection In Music Signals‖. IEEE Transactions on Speech and Audio Processing, 2005.

第三章研究方法

立政治大學

第四章實作與實驗結果

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學