• 沒有找到結果。

圖目錄

N/A
N/A
Protected

Academic year: 2022

Share "圖目錄 "

Copied!
53
0
0

加載中.... (立即查看全文)

全文

(1)

致謝

經過了三年多的努力,本篇論文總算是順利誕生,在這段時間內,有許許多多幫助 過我的人,在此一一感謝。首先感謝我的指導教授周智勳老師,從大學開始就一路給予 細心的指導,引領我進入人工智慧的領域,同時也在生活及為人處事方面給予相當多的 幫助,在此致上十二萬分的謝意。

而實驗室的學長學姐,仲箎、俊麟、盈全、俊宏、偉政、蟬銘,同學建材,明如、

慧雯、凱賢、建佑、喬祥,還有學弟妹耀鋒、訓忠、靖宜、冠智、巧紋、垂傑、惠裕,

謝謝你們在這段時間給予的幫助,讓我留下了美好的回憶。而朋友佩倫,謝謝妳常常聽 我訴苦,幫我加油打氣,而怡竹、馨鎂、韻茹,謝謝妳們給的磨練,讓我對於之後的風 風雨雨也能去面對,還有感謝在網路上的朋友們,感謝再感謝。再來謝謝我的女朋友,

感謝妳 26 年來沒有出現過,讓我得以專心於學業。

最後,感謝我的家人,在後面支持我完成學業,謝謝你們的付出,辛苦了,尤其是 最支持我的父母,在此致上深深的謝意。

劉邦信 謹誌 于中華大學資訊工程研究所 民國 94 年 10 月

(2)

摘要

本論文的目的是發展一個鳥聲辨識系統(birdsong recognition system),在本篇論文 中,我們結合了 R-S 端點偵測法(Rabiner & Sambur method)及頻譜能量的資訊來做音節 (syllable)切割,再依照各個鳥種的完整叫聲合併音節,建立出各個鳥種完整叫聲的段落。

再將此段落切割成不同音框(frame)並計算各個音框的梅爾倒頻譜係數(Mel-frequency cepsral coefficients,MFCC)並將每一階 MFCC 序列做小波轉換,然後將小波轉換後的 MFCC 值計算其平均值,做為該鳥種的特徵。辨識的部份本論文利用上面所提的特徵值 來辨識鳥類的聲音,並使用決策類神經網路(Decision based neural network,DBNN)加以 分類,以提升整個系統的辨識正確率。

根據我們的實驗結果,使用本論文的方法來辨識 420 種鳥聲,辨識率約可達 80%,

若是將鳥種的警戒音視為另一種辨識樣本,則鳥聲種類成為 561 種,辨識率則可以接近 到 87%。

(3)

Abstract

In this paper we develop a automatic birdsong recognition system based on DBNN (decision based neural network). First, we combine R-S endpoint detection (Rabiner &

Sambur method) and spectrum information to segment syllable, and then according the bird complete sound to combine syllables. Second, we segment the sound by frame and calculate each frame’s MFCC. Third we use wavelet transform to get wavelet series form MFCC series.

Finally, we calculate each wavelet series’ mean, and use the value to recognize birds. Use this new feature to recognize birds the average classification accuracy is about 87% for 420 birdsongs.

(4)

目錄

中文摘要 ... II 英文摘要 ... II 目錄 ... IV 圖目錄 ... V 表目錄 ... VIII

第壹章 緒論 ... ... ... ... 1

第一節 研究動機... ... ... ... 1

第二節 背景 ... ... ... 2

第貳章 相關研究與問題描述 ... ... ... 6

第一節 相關研究... ... ... ... 6

第二節 問題描述... ... ... ... 8

第參章 研究方法 ... 10

第一節 前處理 ... 10

3.1.1 端點偵測(endpoint detection)... ... ....11

3.1.2 正規化(normalization)... ... ... 18

3.1.3 預強調(preemphasis)... ... ... 19

3.1.4 分段(segment) ... ... ... 20

3.1.5 框分析(windowing)... ... ... 22

第二節 特徵擷取... ... ... ... 24

3.2.1 梅爾倒頻譜係數(MFCC) ... ... ... 25

(5)

3.2.2 改良的 MFCC(Improve MFCC)... ... 27

第三節 決策類神經網路 ... ... ... 30

第肆章 實驗結果 ... 35

第一節 使用 LPCC 與 MFCC 特徵之比較 ... 35

第二節 警戒音分離與否之比較 ... 36

第三節 BP 與 DBNN 分類器的比較... ... ... 37

第四節 結合新的端點偵測法之鳥聲辨識系統 ... 37

第五節 使用 MFCC 與改良 MFCC 特徵之比較 ... 38

第伍章 結論與展望 ... 40

參考資料... ... 42

(6)

圖目錄

圖 2.1 北雀的 15 階 MFCC... 9

圖 3.1 鳥聲辨識系統的系統方塊圖 ... 10

圖 3.2 前處理方塊圖 ... 11

圖 3.3 本論文的前處理方塊圖 ... ... ... 11

圖 3.4 利用能量當評估參數對北雀做端點偵測後的結果... 12

圖 3.5 用越零率當評估參數對北雀做端點偵測後的結果... 13

圖 3.6 使用 R-S 端點偵測法對北雀做端點偵測後的結果... 14

圖 3.7 北雀原始波形的頻譜圖 ... ... ... 15

圖 3.8 使用音節做端點偵測後北雀波形的頻譜圖 ... 15

圖 3.9 用音節做端點偵測後北雀的波形圖... 16

圖 3.10 白腹鰹鳥波形的部份頻譜圖 ... 16

圖 3.11 使用音節做端點偵測後的白腹鰹鳥波形的部份頻譜圖 ... .... 17

圖 3.12 用音節做端點偵測後白腹鰹鳥的波形圖 ... ... 17

圖 3.13 使用本論文的方法做端點偵測後白腹鰹鳥波形的頻譜圖 ... 18

圖 3.14 做完正規化後北雀聲音的波形... ... ... 19

圖 3.15 為做完預強調後北雀聲音的波形... ... ... 19

圖 3.16 分段的例子之一... .. 20

圖 3.17 分段的例子之二... .. 21

圖 3.18 北雀的聲音做完分段後的頻譜圖... 21

圖 3.19 白頭翁的聲音做完分段後的頻譜圖... 21

圖 3.20 矩形框的特性圖... .. 23

(7)

圖 3.21 漢明窗的特性圖... .. 23

圖 3.22 矩形窗與漢明窗的頻率響應比較... 23

圖 3.23 梅爾倒頻譜係數的求取流程 ... 25

圖 3.24 梅爾刻度的曲線... .. 25

圖 3.25 求取梅爾倒頻譜係數所使用的三角帶通濾波器組... 26

圖 3.26 本論文所使用小波轉換的分解方式... 28

圖 3.27 本實驗所使用的特徵的求取流程圖... 28

圖 3.28 小波轉換的基本架構 ... ... 29

圖 3.29 北雀聲音段落的第一階梅爾倒頻譜係數的序列... 30

圖 3.30 北雀聲音段落的第一階梅爾倒頻譜係數的序列按本論文的方式做完小波轉換 後的序列 ... ... ... ... 30

圖 3.31 簡單的決策類神經網路架構 ... 34

(8)

表目錄

表 4.1 LPCC 與 MFCC 分別搭配 BP 分類器的辮識結果... ... 36 表 4.2 警戒音分離與否的辮識結果 ... 36 表 4.3 LPCC 與 MFCC 分別搭配 DBNN 分類器的辮識結果... 37 表 4.4 系統使用新的端點偵測法(NED)與 LPCC 分別搭配 BP 及 DBNN 分類器的

辨識正確率 ... 38 表 4.5 系統使用新的端點偵測法與 MFCC 分別搭配 BP 及 DBNN 分類器的

辨識正確率 ... 38 表 4.6 使用 MFCC 為特徵與使用改良後的 MFCC 為特徵分別搭配 BP 與 DBNN

分類器的比較 ... 39 表 4.7 使用新的端點偵測法並使用 MFCC 為特徵與使用改良後的 MFCC 為特徵

分別搭配 BP 與 DBNN 分類器的比較... ... 39

(9)

第壹章 緒論

第一節 研究動機

為什麼在眾多的聲音中,我們獨挑了鳥音來做辨識呢?其原因就要由「賞鳥」這個 新興活動來開始談起。近年來,國人的休閒活動因為經濟的蓬勃發展、生活及知識水準 的提高而呈現了多樣化的風貌,而賞鳥,便是其中的一項。

賞鳥,顧名思義,便是去欣賞、觀察鳥類的活動,但是並不是在家觀察那些被飼養 的籠鳥,而是要走出戶外,去尋找在野外自由自在的鳥兒。因此,賞鳥的裝備是越輕便 越好,目前的賞鳥方法,大都為先由望遠鏡觀察再比對圖鑑,但是這樣往往過於緩慢,

並且有時由於鳥類行動過於快速,而無法仔細鑑別,再加上有的鳥種外觀相像,若非長 久觀察,很難辨別其差異性。

在國家地理雜誌頻道中曾介紹過,由於不同的鳥種有不同的聲音特質,大部份的鳥 種皆以重複的固定曲調鳴叫,較複雜的鳴叫聲僅出現於求偶、警戒、地域宣示等情況,

因此,若我們能單純的由聲音來做鳥種的辨識,在賞鳥的裝備上,就可以簡化成望遠鏡 及錄音裝備。在某些無法清楚的觀測的鳥類的情形下,也有依據可以辨識出是何種鳥類。

(10)

而科學家指出,目前已知的物種中,只有人類有辦法發出複雜的聲音,其餘的各物 種,大都僅能發出簡單的音調。因此,若是使用語者辨識系統來處理鳥種辨識的問題,

應是足以應付。而目前市面上尚未見到任何的相關產品 , 而相關的研究論文數目也不 多,因此筆者便以此題做研究,希能完成鳥音的辨識系統,使得賞鳥活動有更加便利之 工具,更甚者,可以依此工具鑑別出新物種或是之前認為已滅絕之物種。

但是鳥音辨識系統與語者辨識系統尚有些許之差異,其一為,由於鳥音的取得多為 野外觀測時所錄製,無可避免的,在錄音時會將周圍的環境音:如風聲、海浪聲、蟲鳴 聲等,因此,鳥音辨識系統的抗雜訊能力,必需要較優於一般的語者辨識系統。其二為,

鳥音畢竟不同於人音,因此一般拿來做語音辨識的特徵,應該需要做一些改變,讓這些 特徵更適用於鳥音之辨識,以期得到更佳之辨識率。

第二節 背景

鳥聲辨識在目前的研究上,大都是以語者辨識為基礎,再加以變化以適應鳥聲的資 料庫,如[1]即是以 LFCC ( Linear-Frequency Cepstral Coefficients )為特徵,再以數位訊號 處理的方法做修正,再以類神經網路做為辨識器來做辨識。後期[2]再融入統計的方法來 輔助分析。而最近的研究則多半以音節(syllable)為基礎找尋出特徵,再以此特徵值來做 辨識,如[3][4],因此,在鳥聲辨識系統上,有許多的語者辨識技術可以加以參考。在 此先簡介目前語者辨識系統的做法。目前語者辨識系統的研究約可分成兩大類,一是對 於特徵的研究,另一則是對辨識器(recognizer)方面著手。在特徵方面,較常使用的有:

l 線性預測編碼(Linear predictive coding, LPC) l 倒頻譜系數(Cepstrum coefficient)

線性預測編碼[5][6]是語音辨識技術中, 使用很普遍的特徵之一。其主要的概念為

(11)

語音訊號的預估值,可以使用之前 p 個的語音樣本的線性組合來預估。而實際的作法是 將實際與預估的值兩者的誤差減至最小,如此,便可以找出最佳的預估係數,即為線性 預測編碼之係數。

一個實際的鳥聲樣本 x(n)為其前 p 個訊號的線性組合加上其發聲器官的增益,在此 可以利用一個時變數位濾波器來模擬其發聲器官效應的頻域特性,因此,可以將一個實 際的鳥聲訊號寫成

( ) ∑ ( ) ( )

=

⋅ +

=

p

i

k

x n k G U n

a n

x

1

(1-1)

其中U

( )

n 為濾波器的輸入,G 為濾波器之增益,p 為 LPC 的階數,a 為濾波器的係數。 k 為了求出濾波器的係數,我們定義a 為我們所預測之係數,因此,我們可以把我們k 所預測的鳥聲訊號寫成(1-2)式,則預測的誤差即為(1-3)式。

[ ] ∑ [ ]

=

=

p

k

k

x n k a

n x

1

~

(1-2)

[ ] [ ] [ ] [ ] ∑ [ ]

=

=

=

p

k

k

x n k

a n

x n x n x n e

1

~

(1-3)

所以,若我們要求得鳥聲的最佳預測,只需將均方誤差值降至最小,即為所求。

而近年來,在國內外的聲音研究上,為眾人所公認的較佳特徵為倒頻譜係數[7][8],

倒頻譜係數的計算方法為對短時距對數頻譜做反傅立業轉換,其計算方法為

( ) {

log

( ) }

1 1log

( )

, 0 1

0

2

1 = ≤ ≤ −

=

=

X k e n N

k N X F

C

N

k

N j πkn

τ (1-4)

其中F1為反傅立業轉換,X

( )

k 為傅立業轉換後的鳥聲。

(12)

此可以避免一些複雜的計算,其計算方法如

( ) ( ) ∑

( ) ( )

=

− +

= 1

1

1 , /

*

n

k

n n

k n k C k n n

C α α (1-5)

其中C

( )

n 為欲求的倒頻譜參數,而α 為已求得的 LPC 參數。

而在辨識器方面則有:

l 類神經網路(Artificial neural network,ANN)

l 隱藏式馬可夫模型(Hidden Markov model,HMM)

此外,於辨識的部份中,傳統的辨識方法是將計算欲辨識訊號的特徵值與資料庫所 存的特徵值的相異性,在資料庫中找出一組差異量最小的,做為辨識結果。然而由於每 次所錄製的聲音長短不一,若按照傳統的方法來計算差異量,會因檔案的長短不同而造 成辨識錯誤,因此,有學者利用了動態規劃的方法(Dynamic programming)來解決檔案長 度不匹配的問題,以減少因時間長短不同所產生的誤差[4],此方法稱為動態時間校準法 (Dynamic time warping,DTW)。

對於聲音、圖形的辨識,由於具有高度的複雜性,因此,很難使用單純的數學式來 表示辨識器,但是人類卻能辨識的很完善,因此,許多文獻嘗試著使用人工智慧的方法,

來設計此類問題的辨識器[7][8][9][10]。而在人工智慧的領域中,最常被使用到的,為類 神經網路。使用類神經網路的好處是,不需要瞭解輸入與輸出中間複雜的關聯性,只需 要知道在何種輸入下會有什麼樣的輸出,依輸入與輸出的對應反覆訓練後,便可以擁有 不錯的辨識效果。

近年來對聲音辨識的研究,最常使用的是隱藏式馬可夫模型(HMM)。其使用統計上 的原理來描述鳥聲,較能容忍鳥聲的變異性,因此能得到較佳的辨識結果。HMM 是將 鳥聲分割成數個狀態,而鳥聲的變動視為這幾個狀態間的轉換,在給定輸入及輸出狀態

(13)

後,就可以求出各種可能的轉換序列,再按照觀測機率求出最可能的序列,將此求出的 序列做為特徵值[7][8]。

本論文的目的是發展出一個鳥聲辨識系統。此系統應用各鳥種聲音的獨特 MFCC 變化性,並由此變化性加入了分段及小波轉換的觀念,得到了每一鳥種獨特的特徵係 數,再將此特徵係數利用類神經網路的辨識器訓練過後,便可透過辨識器辨識。論文在 章節上面分為五章,第一章說明研究的動機、背景及論文架構。第二章則介紹相關研究 文獻並描述本論文之研究課題。第三章詳細說明本論文的研究方法,第四章是實驗結 果,最後一章則是結論及展望。

(14)

第貳章

相關研究與問題描述

目前一般語者辨識系統無法當做鳥聲辨識系統最主要的原因,在於大部份的鳥聲皆 為野外錄製,因此所含的雜訊成分相當多。因此要使一般語音辨識系統適用於鳥聲主要 有兩種方向可以進行,一為前處理的部份,此部份是利用各種方法將環境的雜訊儘量的 去除,使欲辨識的訊號更貼近原本的鳥聲。另一則是改進特徵值之擷取,使得語音辨識 在雜訊干擾的環境下,還能辨識出相當的結果,同時也要更能貼近鳥類聲音的特性。

第一節 相關研究

前處理的部份,主要是利用端點偵測的方法偵測出在一個聲音檔案中我們欲辨識之 聲音的端點,將其餘訊號視為雜訊加以去除,語音中端點偵測的方法可以分成在時域及 在頻域進行,在時域中,主要用來判別的特性有能量值(energy)[11]及越零率(zero crossing rate)[12][13]等,這些特性的使用方式是先訂定一個標準值,當計算出的值之曲線越過我 們所設的標準值,就把該時間點視為是我們真正欲辨識訊號的起點,在起點之後,若計 算出的值之曲線再一次越過我們所定的標準值,則該時間點被視為是我們真正欲辨識訊 號的終點,如此反覆直至檔案結束,而在判定範圍外的訊號則視為雜訊。其中[14]結合 了能量值與越零率,對中文的連續語句訂定了適合的端點偵測標準值,而[15]則是利用 了類神經網路來決定能量值的判定標準,[16]是利用決策的方法,依據各種環境的不同,

(15)

使用不同的能量值做為判定標準。另一方面,也有人使用頻譜或倒頻譜的特徵來做端點 判定[17],如[18]就是使用了倒頻譜之亂度來做為判定的依據,[19]則是使用了子頻帶能 量來做判定,[20]針對了北京語系的數字發音訂定了其獨特頻譜能量的標準,[21]針對 中文的連續語句,使用了多個子頻帶能量來判定其端點。而近年來,也有人嘗試結合著 時域及頻域的特性來做端點偵測。 如[22]就是以頻譜中 250 ~ 3500 Hz 的能量,與時域 中的能量值,計算此二者的和並以此值做為依據來做端點偵測。

在特徵擷取方面,最常使用的特徵值為梅爾倒頻譜係數(MFCC)[23],因此,一般特 徵值的研究多針對梅爾倒頻譜係數做改進。雖然計算梅爾倒頻譜係數時所使用的濾波器 是針對人耳的特性而設計,但也只是接近人耳的敏感度,因此,改進的方法多半針對其 濾波器的特性做改變。如[24]使用了數學上求最佳解的方法,求出了各個濾波器的頻寬 (bandwidth)及中心頻率(center frequency)的最佳值,[25]則是利用了主成份分析(PCA)的 方法來對各個濾波器做最佳化,[26][27]使用了相等方形頻寬(equivalent rectangular bandwidth,ERB)的值來對濾波器的頻寬做改變,ERB 的計算方式為

, 52 . 28 39 . 93 23

.

6 02+ 0 +

= f f

ERB (2-1)

其中 f 為濾波器的中心頻率。 0

而[28]則是將求取 MFCC 過程中所使用的離散餘弦轉換(Discrete Cosine Transform,DCT) 改成小波轉換(Wavelet Transform)。[29]則是以(2-2)式的方法取代梅爾刻度來計算各個濾 波器的中心頻率,並以此決定頻寬,其中 f 為實際頻率。





 <

 

 +

×

 ≤

 

×

=

HZ f f

Hz f

Expo

f

4000 2000

700 ,

1 log 2595

2000 0

, 10 700 log

39881

(2-2)

(16)

[30]則是給每一個濾波器不同的權重值,以達到改進梅爾倒頻譜係數的效果。

由上述幾篇論文中,我們可以知道,端點偵測及改進特徵都有助於提升聲音辨識系 統之辨識率,因此,在本篇論文中,我們將會對此兩個方向提出自己的作法,以期能使 得我們的鳥聲辨識系統之辨識率達到可以接受之程度。

第二節 問題描述

我們將使用上面提到的特徵中的倒頻譜,結合類神經網路的辨識器來辨識國內的鳥 種。為什麼使用倒頻譜以及類神經網路呢?這是由於線性預測編碼係數對於振幅的變異 量較為敏感,而鳥聲多半是在野外所錄製,對於錄音的音量很難掌控,且若是以線性預 測編碼來做為特徵值的話,會導致資料量過大且計算煩雜,而在前人的研究中也發現辨 識率較倒頻譜低,故我們使用倒頻譜來做特徵值。

而在辨識器的選擇方面,動態時間校準需要與資料庫內的所有資料做匹配,方能選 出一個最相近的結果,因此在資料庫龐大的時候,比對的時間將會相對的變得很長,且 要計算的時間亦有較高的需求,故此不使用。

在 目 前 的 倒 頻 譜 研 究 中 , 最 常 使 用 的 為 LFCC ( Linear-Frequency Cepstral Coefficients )及 MFCC ( Mel-Frequency Cepstral Coefficients )而 MFCC 在使用上已經被證 實是較優於 LFCC 的特徵。所以我們現在將使用 MFCC 來當做特徵值的基礎並搭配著類 神經網路的辨識器來做鳥類鳴叫聲的辨識系統。

然則 MFCC 雖然適用於語音辨識系統,但是針對鳥聲的部份,從前人的研究來看,效果 並不完善,由此可知,僅使用 MFCC 當特徵來做辨識是不足夠的,勢必要做另外的改變 或是增加資訊於 MFCC 內。因此,先觀察 MFCC 的變動情形,圖 2.1 為北雀的 MFCC 波形圖,由此圖中發現,MFCC 在第五階以後的系數幾乎皆為重疊的,故可以捨棄不用。

(17)

但是 MFCC 仍然是目前常用的特徵中較好的,因此本論文針對 MFCC 做了進一步的改 良,MFCC 用於辨識鳥聲不佳的原因,是在於其求取的過程是由頻率能量經過計算而 得,但是同一科的鳥類通常叫聲的頻率分佈範圍也相似,因此從頻率中求取出的 MFCC 也會得到相似的結果,但是我們觀察的結果發現,雖然同一科的鳥種其 MFCC 的值相 似,但是其順序卻有明顯的不同,因此,本論文使用小波轉換去計算 MFCC 曲線的特性。

至此,鳥聲辨識系統的架構大致確定,而翻閱國內外前人的論文,並無人使用相似的方 法,在詢問過老師的意見後,定下了整個研究架構跟方向。

圖 2.1 北雀的 15 階 MFCC

(18)

第參章 研究方法

由於鳥聲辨識系統是從語音辨識系統變化而來,因此,有著與語音辨識系統相似的 基本架構,所以我們可以把鳥聲辨識系統如同語音辨識系統一樣分成幾個區塊。而其方 塊圖就如圖 3.1 所示,以下將詳細說明各個步驟。

圖 3.1 鳥聲辨識系統的系統方塊圖

第一節 前處理

所謂前處理就是在錄製好的鳥聲做特徵擷取前必須做的一些處理,其的目的在於使 後面做特徵擷取的動作時能更好處理,擷取出的特徵更具代表性。一般的前處理過程可 以分成四個步驟,如圖 3.2 所示,而本論文的前處理過程如圖 3.3,以下說明之。

(19)

圖 3.2 前處理方塊圖

圖 3.3 本論文的前處理方塊圖

3.1.1 端點偵測(endpoint detection)

由於在錄製聲音的時候,除了在極其安靜的環境之下,錄製的聲音或多或少都會掺 雜一些錄製目標外的聲音,而這些預期外的聲音稱之為雜訊,但是辨識過程中無法得知 哪一段為錄製目標的聲音,哪一段為雜訊,因此我們需要在辨識前先將我們所錄製的聲 音中之雜訊儘量的去除,如此,也可以提高系統的辨識率。

傳統上,端點偵測有兩種較常用的評估參數,能量及越零率(zero crossing)。能量的 計算方法為

( )

=

i+=N

[ ] [ ]

i n

n x n

e 2 (3-1)

其中x

[ ]

n 為聲音訊號,N 為一固定長度,通常與音框的長度相同。訊號起點的的判定方 法則是去計算聲音檔案中每一個時間點的能量參數,如果大於預設的標準值,則認定為 訊號起點,由訊號起點開始,若是檔案後面的時間點計算出來的能量參數小於預設的標 準值,則認定為訊號終點。圖 3.4 為使用能量當評估參數做端點偵測的例子。圖 3.4 中 的能量值的標準是使用 300000,因此,當該時間點計算出的能量值超過 300000 時,訊 號就會被保留,若未超過標準值,訊號的值則被設成 0。標準值的設定通常為前幾個音 框的平均,或是整段聲音的平均乘上一個係數。

(20)

圖 3.4 利用能量當評估參數對北雀做端點偵測後的結果,上圖為聲音波形,中圖為計 算出的能量值,下圖為做完端點偵測後的波形

而利用越零率做為評估參數做端點偵測也是類似用能量做評估參數做端點偵測之 方法,訊號起點的的判定方法則是去計算聲音檔案中每一個時間點的越零參數,如果小 於預設的標準值,則認定為訊號起點,由訊號起點開始,若是檔案後面的時間點計算出 來的越零率量參數大於預設的標準值,則認定為訊號終點。越零率的使用主要是用來判 定某一些較高的頻率及較小的振幅之訊號,如語音信號的磨擦音及氣音部份,此類訊號 若是僅使用能量值做為評估參數來做端點偵測會被視為雜訊,故使用了越零率來做判 定。其計算方法為

( ) ∑

+

[ ( ( ) (

1

) ) ]

,

=

+

×

=i N

i n

n x n x Sgn u n

z (3-2)

其中u

( )

x 為步階函數,Sgn

( )

x 為符號函數,x

( )

n 為聲音訊號,N 為一固定長度,通常會

(21)

使用與音框的長度相同。而u

( )

x Sgn

( )

x 的定義則如下:

( )



<

= ≥

0 , 0

0 , 1

x x x

u (3-3)

( )



<

= ≥

0 , 1

0 , 1

x x x

Sgn (3-4)

圖 3.5 為使用越零率做為評估參數來做端點偵測的例子。圖 3.5 中的越零率值的標準是 使用 70,因此,當該時間點計算出的越零率小過 70 時,訊號就會被保留,若大過標準 值,訊號的值則被設成 0。

圖 3.5 用越零率當評估參數對北雀做端點偵測後的結果,上圖為原始聲波形,中為計算 出的越零率值,下為做完端點偵測後的波形

但是由於通常存在的雜訊多半都是高頻,所以越零率對錄製聲音時的環境較為敏 感,若錄製環境有雜訊,很容易判定錯誤,故後來有學者將能量與越零率結合來判定聲

(22)

音訊號的端點,即為 R-S 端點偵測法(Rabiner & Sambur method)[12]。其方法為,先以能 量值當做評估參數來判定大約的開始點及終止點,再從已判定出的開始點往前以越零率 當做評估參數所判定的開始點為最終的開始點,而終止點是以初判的終止點則往後尋 找。

為了降低誤判率,R-S 端點偵測法還有一些限制條件:

1) 有聲段長度需大於 20ms 2) 兩有聲段間隔需大於 5ms

3) 在以越零率做為評估參數時所判定的端點時,與初判定的端點時間距離不可長於 150ms,若超過,則還是以能量值做為評估參數所判定的端點為端點。

上述三項的限制是由聲音的特性所定出來的,第一項是由於生物沒辦法發出如此短促的 聲音,第二項是生物發聲的間隔無法如此短促,第三項是生物發出高頻且能量低的聲音 無法持續過久。圖 3.6 為使用 R-S 端點偵測法來做端點偵測的例子。在圖 3.6 中,能量 值的標準是使用 300000 而越零率使用 70。

圖 3.6 使用 R-S 端點偵測法對北雀做端點偵測後的結果,上圖為原來的波形,下圖 為做完端點偵測後的波形

(23)

以上的端點偵測法皆是於時域作判定,這是由於時域較容易觀測訊號,但訊號的特 性不僅存在於時域,也同時存在於頻域。在鳥類的鳴叫聲中,也有類似人類的音節 (syllable)單位,所以,有學者應用了這些音節來做端點偵測,其主要的方法是先將訊號 利用快速傅立業轉換(FFT)轉換至頻域,接著,計算各個時間中頻率分支(frequency bin) 的強度(magnitude),再找出整個檔案中頻率強度最強的值存在於哪一個時間點,然後,

自此存在頻率最強之時間點往前後時間找尋,直至該時間內頻率分支強度最強的強度小 於檔案中頻率強度最強的強度的 20 分貝(db),此段時間便稱為一個音節,然後反覆找尋 音節,直到聲音段找不出其他的音節為止。圖 3.7 為北雀原始波形的頻譜圖,圖 3.8 為 使用音節做端點偵測後的北雀波形的頻譜圖,而圖 3.9 為用音節做端點偵測後北雀的波 形圖的比較。

圖 3.7 北雀原始波形的頻譜圖

圖 3.8 使用音節做端點偵測後北雀波形的頻譜圖

(24)

圖 3.9 使用音節對北雀做端點偵測的結果,上圖為原來的波形,下圖為做完端點偵 測後的波形

由圖 3.7 與 3.8 的比較,可以看出一些雜訊已經被去除,但是由頻譜圖不容易看出明顯 的差別,因此我們將訊號轉換成時域來觀察,便可以清楚的比較出雜訊的部份被去除的 情形,如圖 3.9。

但是,用音節的方法做端點偵測在背景環境存在一個頻率強度較強的雜訊時就容易 偵測錯誤,這是由於此方法未考慮到聲音在頻率上的唯一性及連續性,圖 3.10 為白腹鰹 鳥波形的部份頻譜圖,圖 3.11 則為使用音節做端點偵測後的白腹鰹鳥波形的頻譜圖,圖 3.12 為用音節做端點偵測後白腹鰹鳥的波形圖的比較。由於白腹鰹鳥的聲音是在海邊所 錄製,因此聲音檔本身含有海浪的聲音,所以以音節做端點偵測的效果不佳。

圖 3.10 白腹鰹鳥波形的部份頻譜圖

(25)

圖 3.11 使用音節做端點偵測後的白腹鰹鳥波形的部份頻譜圖

圖 3.12 用音節做端點偵測後白腹鰹鳥的波形圖的比較

本論文以 R-S 端點偵測法為基礎,再融入頻域的特性,來改進判斷效果。大部份的生物 受到其本身的發聲構造限制,因此在同一個時間無法發出兩個不同頻率的聲音,而同一 段聲音其頻譜上又會是連續的,因此,本論文利用此兩種特性來改進使用音節做端點偵 測得方法,其做法為

第一步:先用 R-S 端點偵測法決定聲音大致的段落。

第二步:於此段落的頻譜中,找出強度最強的頻率及時間點,再計算其上下頻率分支 (frequency bin )的範圍,判定方式是依序計算頻率分支的強度,一旦出現強 度比最強強度小 20 分貝的頻率分支,則判定為上/下範圍。

第三步:往前/後的時間點找尋,在前面所得到的頻率範圍的上下各多一的頻率分支範

(26)

圍內,是否存在強度比頻率強度最強的值小 20 分貝的頻率分支,若無,則判 定為端點,若有,繼續找尋時間點,但上下頻率分支的範圍需重新判定。

第四步:將判定出的範圍內的值保留,其餘的頻率分支也做連續性的計算,並將此步驟 所計算出的範圍的值都設定為零。

圖 3.13 為使用本論文所用的方法做端點偵測後白腹鰹鳥波形的頻譜圖,由圖 3.13 與圖 3.10

的比較可以發現,存在於 3.10 的聲音主體周圍的雜訊已經被去除了。

圖 3.13 使用本論文的方法做端點偵測後白腹鰹鳥波形的頻譜圖

3.1.2 正規化(normalization)

隨著鳥聲錄製時的時間、地點及距離等的不同,每次所取得的鳥聲,即使屬於同一 種鳥種,聲音的振幅也不盡相同。因此,為了避滿這種情形對特徵擷取時的影響,需要 做正規化的動作,以確保振幅落於固定的區間範圍內。一般的作法是取出最大及最小 值,將最大值設定為 1,最小值設定為-1,而中間的值就按比例調整,圖 3.14 為將北雀 的聲音做完正規化後的結果。

(27)

圖 3.14 做完正規化後北雀聲音的波形

3.1.3 預強調(preemphasis)

一般而言,聲音高頻部份的振幅比起低頻時相對小得多,所以一般在處理聲音信號 時,都會對高頻部份做補強的動作。強化的動作通常透過一個 FIR 濾波器來完成,此濾 波器數學式為

( )

z =1 a z1,

H (3-5) 而訊號通過此濾波器後關係式為

( ) ( )

n =xnax

(

n1

)

,

x (3-6)

其中x

( )

n 為通過濾波器後的訊號,而x

( )

n 為原本的訊號。 a 值為一介於 0 到 1 的常數,

在實際的應用上通常取 0.9 ~ 1 之間,本實驗採用 0.95,圖 3.15 為做完預強調後北雀聲 音的波形。

圖 3.15 為做完預強調後北雀聲音的波形

(28)

3.1.4 分段(segment)

一般的聲音訊號可以將切割出的音節做特徵擷取,取出特徵值用以辨識,但由於鳥 類的鳴叫聲常包含多個音節,若是要以單個音節的資訊來分辨是屬於何種鳥類,是相當 困難的,因此,若是取出的聲音段落可以以一個完整的聲音做特徵擷取的動作,所得到 的特徵將可以更貼近鳥類鳴叫聲的特性。分段的過程本實驗利用音節的重覆性確認一段 完整的鳥類叫聲包含幾個音節,其做法為

第一步:將檔案所有音節轉換成頻譜圖 第二步:將第一個音節設定成鳥聲段落

第三步:比較鳥聲段落的頻譜與之後音節的頻譜是否相似,若檔案中存在不相似的音 節,則新的鳥聲段落為第一個音節至第一個不相似的音節

第四步:得到新段落後反覆第三步直至檔案中無存在不相似的音節

圖 3.16 與圖 3.17 為分段過程的例子,在圖 3.16 中,第一次的段落為 1 號音節,再比對 1 號音節與 2 號音節的相似度,因為不相似,所以新段落為 12,在比對 12 與 12 段落的 相似度,發現相似,且檔案結束,故段落確定為 12。而在圖 3.17 的例子中,段落則是 一開始是 1,再變成 112,皆下來是 1123,最後確定段落為 11234。圖 3.18 與 3.19 則為 對北雀及白頭翁做分段後的結果。

圖 3.16 分段的例子之一

(29)

圖 3.17 分段的例子之二

圖 3.18 北雀的聲音做完分段後的頻譜圖

圖 3.19 白頭翁的聲音做完分段後的頻譜圖

而比較兩個頻譜是否相似,則是比較段落中頻譜有值的地方,在比較目標的頻譜相同位 置中是否也有值,但是考慮到長度可能不一,因此若是頻譜中有水平的部份,則直至水

(30)

平部份結束才繼續比較,即是只比較其頻譜中有值的頻率分支的順序,而出現的時間長 短就不計。但是,在判定段落時,根據我們對鳥類所做的觀察,鳥類聲音所包含的音節 數多在一個到六個之間,因此,一但段落超過六個音節,就認定這段落內有雜訊,再利 用排列組合的順序,將音節輪流去除,再重新做分段的動作,直到判斷出的段落少於六 個音節。

3.1.5 框分析(windowing)

鳥聲信號會隨著時間快速變化,但若是由頻域來觀察可發現,鳥聲的頻譜是隨著時 間緩慢變動的,這是由於鳥類發聲器官的位置和形狀在短時間內(約 20ms)是不會改變 的,因此,在分析鳥聲的訊號特性時,可將聲音訊號分段處理,而這一段時間內的訊號 即可視為非時變(time invariant)訊號。處理聲音訊號時會將聲音切割成一個個音框(frame) 來處理,一般音框的長度定在 20ms ~ 30ms 之間並重疊 1/2 個音框。

分析框處理是將這些從原本訊號切割出的音框分別乘上一個長度一樣的視窗權重。 實 作上以矩形窗(rectangular window)及漢明窗(Hamming window)較為常見。矩形框的式子 為(3-7)式,而其特性圖如圖 3.20 所示,

( )

 ≤ ≤ −

= otherwise N n n

w 0,

1 0

,

1 (3-7)

而一般在做框分析時最常用到就是漢明窗,其數學式為(3-8)式,而其特性圖如圖 3.21 所示

( )

, 0

1 0

1 , cos 2 46 . 0 54 . 0





  ≤ ≤ −

 

− −

=

otherwise N N n

n n

w

π

(3-8)

(31)

圖 3.20 矩形框的特性圖

圖 3.21 漢明窗的特性圖

圖 3.22 矩形窗與漢明窗的頻率響應比較

窗函數的選定通常考量下列兩個評斷方法:

1) 主葉(Main Lobe)的頻帶需是窄頻(narrow bandwidth)。

(32)

2) 旁葉(sidelobes)的衰減需快速。

這是由於主葉的頻寬小的話,可以增強加窗後信號的解析度,而旁葉的衰減則可以減少 加窗後的失真,而由圖 3.22 的頻率響應圖來看,雖然矩形窗的主葉頻寬較窄但是旁葉衰 減較慢,容易造成失真,故我們使用了漢明窗來做窗函數,矩形框與漢明框的頻率響應 則如圖 3.22。

第二節 特徵擷取

鳥類隨著其種類的不同,鳴叫聲也各有差異,另外受限於錄製鳥聲的環境與器材,

有時甚至同一隻鳥的鳴叫聲,也會有些許的不同,因此,要完全使用比對的方法來做鳥 種的辨識,就相當困難。因此,做特徵擷取,對聲音信號的辨識來說,就成了不可缺少 的動作。

一 般 常 用 做 聲 音 辨 識 的 特 徵 可 分 為 頻 譜 特 徵 (spectral feature)與 倒 頻 譜 特 徵 (cepstral feature)兩大類。目前的研究中,已經公認應用倒頻譜特徵在辨識的效果上,

是優於頻譜特徵的[23][24][25][26],因此,倒頻譜也是目前最常被使用來做聲音辨識的 特徵。應用倒頻譜特徵中,有兩種主要的做法,一為線性倒頻譜係數(Linear-Frequency Cepstral Coefficient , LFCC) , 另 一 則 為 梅 爾 倒 頻 譜 係 數 (Mel-Frequency Cepstral Coefficient,MFCC)。而由於 MFCC 的求取過程較接近人類的聽覺感知,所以使用 MFCC 的辨識系統,通常擁有較高的辨識率,因此,近年來的研究,多半以 MFCC 當做特徵值。

3.2.1 梅爾倒頻譜係數(MFCC)

梅爾倒頻譜係數與線性倒頻譜係數主要的差異是在係數求取過程中所使用的濾波器設

(33)

定方法不同,梅爾倒頻譜係數的求法流程如圖 3.23 所示,線性倒頻譜係數是將求取係數 的過程中所使用的濾波器頻寬(bandwidth)都設計成一樣的寬度,但是從生物學家的研究 中,可以知道,人類對於各種頻率的聲音,其敏感度並非一致的,而是依照人類聽覺的 臨界頻帶(critical band)的曲線,因此,梅爾倒頻譜係數的濾波器即是針對此曲線而設計。

圖 3.24 為梅爾刻度(mel scale)的曲線。圖 3.25 為梅爾倒頻譜係數的濾波器模型。

圖 3.23 梅爾倒頻譜係數的求取流程

圖 3.24 梅爾刻度的曲線,橫軸為實際頻率,縱軸為心理頻率

(34)

圖 3.25 求取梅爾倒頻譜係數所使用的三角帶通濾波器組

求取梅爾倒頻譜係數的第一個動作是計算頻譜能量,要計算頻譜能量必先將訊號轉到頻 域,其轉換方式為

( ) [ ] [ ]

, 0 ,

~ 1

0

/ 2

w N

n

N nk

j k N

e n W n x k

x

w

w ≤ <

=

=

π (3-9)

其中N 為音框的長度,w W

[ ]

n 為漢明窗的函數,x

[ ]

n 則為原本的訊號。求得~x

[ ]

k 後即可

按照(3-10)式求得頻譜能量。

[ ]

, 0 ,

~xk 2 k K

Xk = ≤ < (3-10)

其中K = Nw/2這是因為在訊號轉成頻譜時所做的傅立業轉換,只有一半的頻譜是於實 際上存在的。

有了頻譜能量後,接下來要計算各個濾波器的能量值,其計算方法如為

( )

, 0 ,

1

0

J j X

k E

K

k

k j

j =

= φ ≤ < (3-11) 其中 J 為濾波器總個數,j 為欲計算的濾波器編號,φ 的值則是按照頻率分支(frequency j

(35)

bin)分別對應到各個濾波器的權重(weight)值。

有了各個濾波器的能量值後,接下來利用餘弦轉換來計算出我們所欲求得的梅爾倒 頻譜係數,其計算方式為

(

0.5

)

log

( )

,

cos

1

0

10

=

 

 +

= J

j

j

m j E

mJ

c π

(3-12)

其中 m 為欲求得的梅爾倒頻譜係數的階數。

3.2.2 改良的 MFCC(Improve MFCC)

雖然梅爾倒頻譜係數應用於語音上有不錯的辨識效果,但是應用於鳥聲時,其效果 並不如應用於語音般理想,因此,我們針對了梅爾倒頻譜係數做了一些變化。首先,我 們觀察每一階梅爾倒頻譜係數的曲線,發現其變化的程度大致是按照其音節(syllable)的 不同而變化,但是有許多鳥類的聲音中並非僅有一種音節,因此,要僅依靠一種音節來 辨識這些鳥類,是有困難的,所以本實驗將鳥聲依照其完整的叫聲分段。接下來,將分 段出的聲音段落求取 MFCC 特徵,如此可得到每一階 MFCC 的序列,將前五階的 MFCC 序列做小波轉換,小波轉換是按照圖 3.26 分解,並將每一個分解出的區塊所計算出的小 波序列對其計算平均值做為我們的特徵,而做如此分解的原因,是因為本實驗統計我們 所用的資料庫內所有鳥種的前五階 MFCC 序列的頻率,計算各頻率出現的頻譜能量佔該 鳥類總頻譜能量的比率,再加總所有鳥種在各頻率的比率,發現其值雖然按階數之不同 變化,但各階的比率都較集中於高頻與低頻,中頻所佔的比率較少,故設計了如此的分 解架構其數據如表 3.1。求取的流程圖如圖 3.27,詳細的說明於後面解釋。

(36)

圖 3.26 本論文所使用小波轉換的分解方式

圖 3.27 本實驗所使用的特徵的求取流程圖

新特徵的第一個步驟為求取 MFCC, 此步驟的詳細過程已於之前的章節說明,在此不 重覆。下一步則是將各個音框所得的 MFCC 係數按階數分開,並按照音框的順序排列,

如此可得段落內各階 MFCC 係數的序列。得到各階 MFCC 係數的序列後,將每個序列 做離散小波轉換,離散小波轉換的架構主要是由一個低通濾波器與一個高通濾波器所組 成,如圖 3.26 所示,而此組濾波器係數本論文採用 Daubechies 的係數,低通濾波器係 數 為

[

0.3327,0.8086,0.4599,0.1350,0.0854,0.0352

]

而 高 通 濾 波 器 的 係 數 則 是 使 用 了

(37)

[

0.0352,0.0854,0.1350,0.4599,0.8086,0.3327

]

詳細 的計算 濾波 器係 數 的方 法過於 複 雜,在此不敘述。而序列做離散小波轉換的式子則為

(3-13)

其中a

[ ]

t 為離散小波轉換後低頻的序列,而d

[ ]

t 則是代表高頻的序列,h0

[ ]

k 代表低通濾 波器的第 k 個係數,h1

[ ]

k 代表高通濾波器的第 k 個係數,s

[ ]

t 代表了原來的訊號序列,

而離散小波轉換也可以使用多層解析的方法,其計算方式亦同,而本論文所使用的小波 轉換的分解方式如圖 3.26,如此,每一階的 MFCC 序列就被小波轉換轉成六個小波序 列,再計算每個小波序列的平均值,故每一階的 MFCC 序列可得六個值,本論文使用了 五階的 MFCC 係數,故每一個段落可得 30 個值,而以此 30 個值做為特徵值來做辨識。

圖 3.29 為北雀聲音段落的第一階梅爾倒頻譜係數的序列,而圖 3.30 則為北雀聲音段落 的第一階梅爾倒頻譜係數的序列按本論文的方式做完小波轉換後的序列。

圖 3.28 小波轉換的基本架構

[ ] [ ] [ ]

[ ] ∑ [ ] [ ]

−∞

=

−∞

=

=

=

k k

k t s k h t

d

k t s k h t

a

2 2

2 2

1 0

(38)

圖 3.29 北雀聲音段落的第一階梅爾倒頻譜係數的序列

圖 3.30 北雀聲音段落的第一階梅爾倒頻譜係數的序列按本論文的方式做完小波轉換後 的序列

第三節 決策類神經網路

類神經網路依照其學習方式的不同,可以分為以下幾類:

(1) 監督式學習網路(Supervised Learning Network):

這類型的類神經網路必需於訓練範例中取得輸入與輸出值,然後依照類神經網路實 際輸出的值與於訓練範例預期輸出的值之差值,來調整類神經網路的權重值。主要

(39)

應用於樣本識別、雜訊過濾、分類問題、函數合成及專家系統。

(2) 非監督式學習網路(Unsupervised Learning Network):

這類形的類神經網路的訓練資料僅有輸入值而無預期的輸出值,其學習方式是依照 輸入資料,學習範例間的內部分類原則,使網路可自行分類至一致或接近的輸出向 量。其主要應用於聚類問題、樣本識別及拓蹼映射。

(3) 聯想式學習網路(Associated Learning Network):

聯想式學習是從問題領域中取得訓練範例,並從中學習範例的內在記憶規則,以應 用於新的案例。通常應用於資料擷取與雜訊過濾。

(4) 最佳化應用網路(Optimization Application Network):

最佳化應用是指對一問題決定其設計變數值,使其在滿足設計限制的情形下,使得 設計目標達到最佳化的應用。主要應用於組合最適化問題。

目前類神經網路在使用上的主流是監督式學習(supervised learning)網路,在監督式 學習網路中訓練樣本必須要提供預設的輸出資訊,因此,我們可以把訓練樣本表示成

(

X,T

) (

=

{

x1,t1

) (

, x2,t2

) (

,...xM,tM

) }

其中 M 為訓練樣本的總數,x 為輸入i t 為對應的目標i 輸出,系統會按照真實輸出與目標輸出的差異來做修正,以達到更好的效果。依照訓練 樣 本 所 提 供 的 資 訊 , 監 督 式 學 習 網 路 可 分 為 兩 個 種 類 , 逼 近 式 的 方 法 (Approximation-Based Formulation)及決策式的方法(Decision-Based Formulation)[31],其 說明如下:

(1) 逼近式的方法:

此種方法使用的時機是在訓練樣本能同時提供系統分類正確與否的資訊以及系統 的輸出與目標輸出之差異值。此方法的目的在找出能讓系統輸出與目標輸出的差異 最小的權重值,而差異量通常以均方差(Mean Square Error)來做評估。

(40)

(2) 決策式的方法:

這類型的方法針對訓練樣本只提供分類正確與否的資訊。其目的是找出一組權重 值,使得每個訓練樣本都被正確的分類到正確的類別裡。在分類的應用上,使用決 策式的方法會有比較好的效果[32]。

決策類神經網路(decision based neural network)是應用決策式的方法的類神經網路,此種 類神經網路使用一組輸入值分別通過各個類別的類神經網路,並且得到各自的輸出,最 後再由各類中找出最近似的,做為真正的輸出,決策類神經網路的基本架構如圖 3.27。

而類神經網路有一個非常重要的部份,即是學習,而決策類神經網路的學習與一般的類 神經網路略有不同。當一個辨識錯誤發生的時後,決策類神經網路會分成兩個部份來學 習,增強(reinforce)及反增強(antireinforce),增強的部份是針對預設輸出類別的類神經網 路中的權重值做修正,而反增強的部份則是針對實際輸出類別的類神經網路中的權重值 做修正。決策類神經網路修正的值可以寫成(3-14)式

( )

x w

wη∇φ ,

∆ (3-14)

其中η 為學習速率,x 為輸入值,w 則為欲修正之權重,而區別函數(discriminant function) 的傾斜(gradient)∇φ

( )

x,w 則可以寫成

( ) ( )

T

wN

w w w

w w x

x

 

= ∂

= ∂

φ φ , φ , φ •••, φ

,

2 1

(3-15)

而依照其為增強學習或反增強學習可以將決策類神經網路的修正寫成

(41)

( )

( )

( )

(

,

)

,

, ,

1 1

j m

j m

j

i m

i m

i

w x w

w

w η x

w w

φ η

φ

=

∇ +

=

+ +

: 反增強學習

增強學習 (3-16)

其中 m 為訓練的次數。

由(3-14)式可以看出決策類神經網路的修正量,主要是依據其區別函數(discriminant function) φ

( )

x,w 的傾斜做修正,而此區別函數依照其類神經網路的類別有許多的計算方 式,在本實驗中我們採用了 Kohonen 的架構,而其區別函數則使用了

( )

, 2

2 l l

w w x

x

=

φ (3-17)

其中 l 為類別而w 為 l 類權重的質心,x 為輸入值的質心。也就是去計算輸入值的質心與l 各類別權重值的質心距離作為該類別之類神經網路的輸出,而距離最接近的,就成為整 個系統的輸出。而把(3-17)式導入(3-15)式後,(3-16)式就可以改寫成(3-18)式。

( )

(

( )

)

( )

(

( )jm

)

m j m

j

m i m

i m

i

w x w

w

w η x w w

=

− +

=

+ +

η

1 1

反增強學習:

增強學習 (3-18)

如此反覆修正直至所有的訓練樣本都正確的分類,或者是次數達到設定的次數。

(42)

圖 3.27 簡單的決策類神經網路架構

預 設 輸 出 類 別

分 類 A 的 類 神 經 網 路 分 類 B 的

類 神 經 網 路

Inpu t node 判 斷 是 否 需 要 修 正 , 及 需 修

正 的 類 別

將 所 有 類 別 中 差 異 量 最 小 的 當 做 輸 出 的 類 別

. . . . .

預 設 輸 出 -實 際 輸 出 預 設 輸 出 -實 際 輸 出

(43)

第肆章 實驗結果

本章將介紹我們的實驗結果,在實驗中使用 420 種鳥類的叫聲,但由於有 141 種鳥 種的叫聲含有警戒音,與平時的叫聲並不相同,因此,有警戒音的部份,被區分出來,

視為獨立的一種鳥叫聲,因此,本實驗所使用的資料庫,就擁有了 561 類鳥叫聲的模型。

鳥聲的取樣頻率為 44100Hz,每一個取樣用 16bits 的值做記錄,而每一個音框大小為 512 個 samples,每一個聲音檔案按照音節做切割,而切割出的音節一半做為系統的訓練樣 本,另一半則是做為系統辨識使用。

實驗分別使用 LPCC、MFCC 以及改進後的 MFCC 為特徵,各自搭配 BP 類神經網 路分類器以及 DBNN 分類器,DBNN 分類器中的子類神經網路採用 Kohonen,另外,

各個特徵分別搭配了本論文所提出的端點偵測法做進一步的改進。

第一節 使用 LPCC 與 MFCC 特徵之比較

在一般的鳥聲辨識系統中,較常使用的特徵為 LPCC 與 MFCC,因此,在此部份中,

實驗分別對鳥聲切割出音節並將切割出的音節分割成一個個的音框,接著對音框取 15 階的 LPCC 特徵與 15 階的 MFCC 特徵,再將音節內所有的音框計算出的特徵值按照階 數取平均,如此得到每個音節的 15 個特徵值,並依照這些特徵做訓練及辨識,而分類

(44)

器則搭配 BP,以比較哪一種特徵較適合使用於鳥聲辨識系統。表 4.1 為 LPCC 與 MFCC 搭配 BP 分類器的辨識正確率,由實驗結果可知,使用 MFCC 的特徵做鳥聲辨識,優於 使用 LPCC 的特徵做鳥聲辨識。

表 4.1 LPCC 與 MFCC 分別搭配 BP 分類器的辮識結果

LPCC + BP MFCC + BP 未 將 警 戒 音

分離的鳥聲 28.92% 54.27%

第二節 警戒音分離與否之比較

在自然界中有某些鳥種擁有領域性,因此,當有外物進入其領域時,這些鳥種會發 出警戒音,借以警告同伴或是威嚇外敵。由於警戒音是為了應付特殊情況,因此,警戒 音與平常的叫聲會有顯著的差異,所以,要將警戒音與平常的叫聲歸類成同一種鳥種做 辨識,所得到的效果並不佳,若將警戒音與平時的叫聲當成兩種類別,則辨識正確率會 較高。表 4.2 是鳥聲辨識系統所使用的鳥聲資料庫是否有將警戒音分離的系統辨識正確 率的比較,由表 4.2 可以看出將警戒音與平時的叫聲分成兩個類別時辨識正確率有所提 升。

表 4.2 警戒音分離與否的辮識結果

LPCC + BP MFCC + BP 未 將 警 戒 音

分離的鳥聲 28.92% 54.27%

將 警 戒 音 分

離後的鳥聲 33.61% 58.72%

(45)

第三節 BP 與 DBNN 分類器的比較

一般使用類神經網路所完成的辨識系統多半使用倒傳遞網路(BP),但是倒傳遞網路 對於某些樣本受限於本身的設計原理而無法達到良好的辨識效果,而類神經網路的研究 中,發現決策類神經網路(DBNN)對於分類擁有不錯的效果,因此本論文採用 DBNN 分 類器。表 4.3 為 LPCC 特徵與 MFCC 特徵搭配 DBNN 分類器的辨識結果。由表 4.3 與表 4.2 的比較可以發現,使用決策類神經網路的分類器所得到的效果優於使用倒傳遞分類 器所得到的效果。

表 4.3 LPCC 與 MFCC 分別搭配 DBNN 分類器的辮識結果

LPCC + DBNN MFCC + DBNN 未 將 警 戒 音

分離的鳥聲 36.57% 61.63%

將 警 戒 音 分

離後的鳥聲 40.19% 68.39%

第四節 結合新的端點偵測法之鳥聲辨識系統

一般的鳥聲辨識系統在做端點偵測時通常使用 R-S 端點偵測法,R-S 端點偵測法中 所訂定的能量及越零率的標準值多半依據前幾個音框而設定,但是錄製鳥聲時的環境較 為複雜,因此,用 R-S 端點偵測法的效果不佳,故本論文提出新的端點偵測法,詳細的 做法己經在前面的章節介紹。表 4.4 為使用新的端點偵測法後使用 LPCC 特徵分別搭配 BP 及 DBNN 分類器的系統辨識正確率,表 4.5 則為使用新的端點偵測法後使用 MFCC 分別搭配 BP 及 DBNN 分類器的系統辨識正確率。由表 4.4 與 4.5 與之前的結果比較,

(46)

可以看出本實驗所採用的端點偵測法的確可以提升辨識的正確率。

表 4.4 系統使用新的端點偵測法(NED)與 LPCC 分別搭配 BP 及 DBNN 分類器的辨識正 確率

NED+LPCC+BP NED+LPCC +DBNN 未 將 警 戒 音

分離的鳥聲 32.27% 39.83%

將 警 戒 音 分

離後的鳥聲 35.43% 43.22%

表 4.5 系統使用新的端點偵測法與 MFCC 分別搭配 BP 及 DBNN 分類器的辨識正確率

NED+MFCC+BP NED+MFCC +DBNN 未 將 警 戒 音

分離的鳥聲 59.76% 64.93%

將 警 戒 音 分

離後的鳥聲 65.17% 72.35%

第五節 使用 MFCC 與改良 MFCC 特徵之比較

雖然本實驗使用了新的端點偵測法以及 DBNN 分類器,但是如此的辨識效果仍然 不是很高,原因是鳥類的鳴叫聲音通常包含了數種音節,僅以一個音節做訓練及辨識是 很困難的。由於鳥類的鳴叫聲通常包含了數種音節,所以在取特徵的時候若能以一段完 整的叫聲為單位取特徵,取出的特徵將會更具代表性,因此,本論文針對較能代表鳥聲 特性的特徵 MFCC 做進一步的改良,詳細的改良方法已於之前的章節說明,MFCC 在 此不同於之前按音節求平均,而是求取整個段落的平均。表 4.6 為使用 MFCC 為特徵與

(47)

使用改良後的 MFCC 為特徵分別搭配 BP 與 DBNN 分類器的系統辨識正確率,表 4.7 為 使用新的端點偵測法並使用 MFCC 為特徵與使用改良後的 MFCC 為特徵搭配 BP 與 DBNN 分類器的系統辨識正確率。由這些表的結果與之前的結果比較,可知本實驗所使 用的特徵更能代表鳥類叫聲的特性。

表 4.6 使用 MFCC 為特徵與使用改良後的 MFCC 為特徵分別搭配 BP 與 DBNN 分類器 的比較

MFCC + BP 改良的 MFCC

+ BP MFCC + DBNN 改良的 MFCC + DBNN 未將警戒音分

離的鳥聲 54.69% 73.41% 65.37% 77.89%

將警戒音分離

後的鳥聲 59.16% 76.97% 69.24% 83.11%

表 4.7 使用新的端點偵測法並使用 MFCC 為特徵與使用改良後的 MFCC 為特徵分別搭 配 BP 與 DBNN 分類器的比較

NED+MFCC +BP

NED+改良的 MFCC +BP

NED+MFCC+

DBNN

NED+改良的 MFCC+

DBNN 未將警戒音分

離的鳥聲

58.33% 75.71% 65.68% 80.43%

將警戒音分離 後的鳥聲

64.42% 80.93% 73.19% 86.59%

(48)

第伍章 結論與展望

我們之所以會製作鳥聲辨識系統,是因為,鳥類,在我們的生活中,是很容易見到 的,但是由於鳥類移動快速,要好好的觀察,甚至是拍張照片,都不是一件容易的事,

因此,從鳥類的鳴叫聲來做識別,便成了另一個可行的方法。但是鳥聲辨識系統的完成 有其困難度,其困難點一是系統的抗雜訊能力要有相當的程度,另一個困難點則是取出 的聲音特徵要真正具有代表性,而我們參考前人對於語音信號的研究,從各種的端點偵 測法中,決定了結合 R-S 端點偵測法及頻譜的連續性來做端點偵測,而從結果來看,也 證明了這種方法,可以提升鳥聲辨識系統的正確率。另一方面,我們對於特徵值的改進,

則是使用了小波轉換,來描述 MFCC 曲線之特性,並以此做為特徵值,來做鳥聲的辨識,

事實也證明了,以這種特徵來辨識,其辨識結果之正確率,是較優於原本之 MFCC。另 一方面,我們在辨識器的選擇上,使用了決策類神經網路來替代傳統的倒傳遞網路,也 發現了其在鳥聲辨識的應用上,確實是優於倒傳遞網路。

雖然我們使用了上面的方法,也得到了可以接受的辨識率,然而畢竟還是有許多可 以提升辯識率之方向,如辨識器的討論,端點偵測的標準值之訂定也應該可以使用人工 智慧的方法來決定,而特徵值更是可以不要以 MFCC 為基礎而研究出新的特徵值。再 者,我們所使用的資料庫,雖然是足夠,但是還是有許多鳥種未列於其中,本身鳥種的

(49)

資料數量也未盡完善。鳥類的警戒音部份,目前更是只能視為獨立的部份來做,這些部 份,皆可以做為將來研究之方向。

(50)

參考資料

[1] Alex L. Mcllraith and Card C. Howard, “Birdsong Recognition with DSP and Neural Networks,” IEEE WESCANEX 95. Communications, Power, and Computing.

Conference Proceedings, Vol. 2, pp. 409-414, May 1995.

[2] Alex L. Mcllraith and Card C. Howard, “Birdsong identification using artificial neural network and statistical analysis,”IEEE Electrical and Computer Engineering Conference Proceeding, Vol. 1, pp. 63-66, May 1997.

[3] P. Somervuo and A. Harma , “Bird song recognition based on syllable pair histograms,”

IEEE International Conference, Acoustics, Speech, and Signal Processing, Vol. 5, pp.

17-21 , May 2004.

[4] A. Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” IEEE International Conference, Acoustics, Speech, and Signal Processing, Vol. 5, pp. 545-548, 2003.

[5] D. O’Shaughnessy, ”Speech Communication Human and Machine,” Addison-Wesley.

Pub. Co., 1987.

[6] 陽鎮光, ”Visual Basic 與語音辯識 讓電腦聽話,” 松崗出版, 2002.

[7] T.F. Quatieri, ”Discrete-Time Speech Signal Processing,” Prentice Hall, 2002.

[8] X.D. Huang, A. Acero, and H.W. Hon, ”Spoken Language Processing: A Guide to Theory, Algorithm and System Development,” Prentice Hall Ptr, 2001

[9] 劉振源, ”類神經網路模型與語音識別,” 全華出版, 1995

[10] 陳松琳, ”以類神經網路為架構之語音辨識系統,” 國立中山大學電機工程學系碩士 論文, 2001.

(51)

[11] J.G. Wilpon, L.R. Rabiner, and T. Martin, “An improved word-detection algorithm for telephone-quality speech incorporating both syntactic and semantic constraints,” AT&T Bell labs. Tech. J., Vol, 63, pp. 479-498, Mar. 1984.

[12] L.R. Rabiner and M.R. Sambur, “An algorithm for determining the endpoints of isolated utterances”, Bell Syst. Tech. J., Vol.54, pp. 297-315, Feb. 1975.

[13] J.C. Junqua, B. Reaves, and B. Mark, “A study of endpoint detection algorithms in adverse conditions: Incidence on a DTW and HMM recognize,” in Proc. Eurospeech, pp. 1371-1374, 1991.

[14] S.N He, and J.B Yu, “A novel Chinese continuous speech endpoint detection method based on time domain features of the word structure,” IEEE International Conference, Communications, Circuits and Systems and West Sino Expositions, Vol. 2, pp. 992-996,

July 2002.

[15] A. Hussain, S.A. Samad, and L.B. Fah, “Endpoint detection of speech signal using neural network,” TENCON 2000. Vol. 1, pp. 271-274 Sept. 2000.

[16] Q. Li, J.S. Zheng; A. Tsai, and Q. Zhou, “Robust endpoint detection and energy normalization for real-time speech and speaker recognition,” IEEE Transactions, Speech and Audio Processing, pp.146-157, March 2002.

[17] J.A. Haigh, and J.S. Mason , “Robust voice activity detection using cepstral features,”

in Proc. IEEE TENCON , pp. 321-324, 1993.

[18] B.F. Wu, and K.C. Wang, “Robust Endpoint Detection Algorithm Based on the Adaptive Band-Partitioning Spectral Entropy in Adverse Environments,” IEEE Transactions, Speech and Audio Processing, pp. 762-775, Sept. 2005.

[19] W.J. Zhang, and J.Y. Xie, “Endpoint detection based on MDL using subband speech

參考文獻

相關文件

Mehrotra, “Content-based image retrieval with relevance feedback in MARS,” In Proceedings of IEEE International Conference on Image Processing ’97. Chakrabarti, “Query

C., “Robust and Efficient Algorithm for Optical Flow Computation,” Proceeding of IEEE International Conference on Computer Vision, pp. “Determining Optical Flow.” Artificial

Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference

D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,

[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference

Jones, &#34;Rapid Object Detection Using a Boosted Cascade of Simple Features,&#34; IEEE Computer Society Conference on Computer Vision and Pattern Recognition,

Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,

Kalker, “Speed-Change Resistant Audio Fingerprinting Using Auto-Correlation,” in IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. Kalker,