• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
66
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

題目:結合動態及時間變化之二維梅爾倒頻譜係數於 連續鳥類鳴聲之辨識

Continuous Birdsong Recognition Using Dynamic and Temporal Two-Dimensional Mel-Frequency Cepstral

Coefficients

系 所 別:資訊工程學系碩士班 學號姓名:M09602002 徐勝斌 指導教授:石昭玲 博士

中華民國 九 十 八 年 八 月

(2)

摘要

本論文將提出在連續鳥鳴聲錄音取出固定長度音段的鳥種類分類。首先對每個鳥 鳴聲音段切割出數個重疊的紋理視窗,這些紋理視窗將會個別的分類再做整合來決定 輸入的音段是屬於哪一種鳥類的鳴叫聲。對紋理視窗取出的特徵有靜態及變化的二維 倒頻譜係數(Two-dimensional Mel-frequency Cepstral Coefficients, TDMFCC),TDMFCC 是用來描述鳥類叫聲每個倒頻譜係數隨時間變化情況及相鄰音框之間的關聯性;

Dynamic TDMFCC (DTDMFCC)是用來表示鳥類鳴叫聲的頻譜上瞬間的變化;Global DTDMFCC (GDTDMFCC)則是用來表示鳥類鳴叫聲在頻譜上每個頻帶長時間的變化 特性。此外,我們使用主軸分析演算法(Principal Component Analysis, PCA)來降低特 徵向量之維度,接著以高斯混合模型(Gaussian Mixture Models, GMM)針對同一鳥類分 成數個群組,每個鳥種類將會有各自數個群組來代表,之後使用線性區別分析演算法 (Linear Discriminant Analysis, LDA)來降低分群後特徵向量之維度且增大不同類別特 徵向量間之距離,最後以歐基里德距離(Euclidean Distance)來計算測試紋理視窗和每 一種類鳥類鳴叫聲的代表特徵向量之間的距離,我們取最小距離為分類結果。將輸入 音段的每個紋理視窗分類完成後,最後再做整合來決定音段的辨識結果,經由對 28 種鳥類進行辨識之實驗發現,包含 DTDMFCC 及 GDTDMFCC 特性之 GLDTDMFCC 特徵有最好的辨識結果,其辨識率達 94.62%。

(3)

Abstract

In this paper, we will propose an approach for the classification of bird species using fixed-duration sound segments extracted from continuous birdsong recordings. First, each sound segment is divided into a number of overlapped texture windows. Each texture window will be individually classified and then a fusion approach is employed to determine the classification result of the input segment. The features derived from static, transitional, and temporal information of two-dimensional Mel-frequency cepstral coefficients (TDMFCC) will be extracted for the classification of each texture window. TDMFCC can describe both static and dynamic characteristics of a texture window, and dynamic TDMFCC (DTDMFCC) is used to describe sharp transitions within a texture window, and global dynamic TDMFCC (GDTDMFCC) is developed to describe long-time temporal variations in a texture window, and the concepts of DTDMFCC, which computes local regression coefficients, and GDTDMFCC, which evaluates global contrast information, can be integrated to form a new feature vector, called global and local DTDMFCC (GLDTDMFCC). Furthermore, we use principal component analysis (PCA) to reduce the feature dimension, Gaussian mixture models (GMM) to model the sound of different bird species, and linear discriminant analysis (LDA) to improve the classification accuracy at a lower dimensional feature vector space. In our experiment, the highest average classification accuracy is 94.62% for the classification of 28 kinds of bird species.

(4)

誌謝

在研究所的求學生涯中,原本對聲音辨識領域是一無所知的,但在我的指導老師 石昭玲博士與李建興博士的細心指導之下,慢慢的去探討聲音辨識領域中的各種知 識,使我到現在略窺其門道,從中獲益非淺。而在論文寫作期間,真的要感謝老師多 次詳細的閱讀及修正,使我的論文進而順利完成,在此獻上最深的感謝。另外,也要 感謝連振昌博士、韓欽銓博士、黃雅軒博士和周智勳博士在研究所課業上和報告上的 指導和幫助,在此也深深感謝。此外,也感謝韓欽銓教授、李建誠教授、秦群立教授、

石昭玲教授與李建興教授,在我的碩士論文口試中,能夠給予許多寶貴的意見。

其次,我要感謝實驗室中許許多多朝夕相處夥伴們,尤其感謝清乾、明傑、懷 三、庭彥、宥霖、宇晨、雅麟及祐維學長在論文研究上給予的莫大指導和幫助,育誠、

昭宏、偉欣、正倫和明修同學間相互的支持與照顧,以及學弟妹們的協助和陪伴,使 得我這兩年的研究生生活得以過的多彩多姿。

最後以此論文獻給我辛苦的母親古鳳娥女士,以及我的家人們,謝謝你們的支 持與鼓勵與無時無刻對我的叮嚀與照顧,使得我能如期完成我的碩士論文。

(5)

目錄

第一章、緒論... 1

1-1、動機 ... 1

1-2、參考文獻 ... 2

第二章、鳥類鳴聲辨識系統... 20

2-1、紋理視窗 ... 21

2-2、特徵擷取 ... 22

2-2.1、梅爾倒頻譜係數 ... 23

2-2.2、二維梅爾倒頻譜係數 ... 27

2-2.3、動態二維梅爾倒頻譜係數 ... 30

2-2.4、全域動態二維梅爾倒頻譜係數 ... 34

2-2.5、全域區域動態二維梅爾倒頻譜係數 ... 38

2-2.6、正規劃 ... 43

2-3、主軸分析法 (Principle Component Analysis, PCA)... 43

2-4、分群 ... 44

2-5、高斯混合模型 (Gaussian Mixture Model, GMM)... 44

2-6、線性區別分析演算法 (Linear Discriminant Analysis, LDA) ... 46

2-7、辨識 ... 47

2-7.1、個別紋理視窗辨識 ... 47

2-7.2、鳥叫聲音段辨識 ... 48

第三章、實驗結果... 50

第四章、結論... 55

(6)

圖目錄

圖 1.1 四種不同泛音結構類別之鳥類聲音...5

圖 1.2 235 個鳥類歌聲的相關係數...8

圖 1.3 水蒲葦鶯(Sedge Warbler)鳴聲中所切割出來的音節 ...10

圖 1.4 針對 14 種鳥類使用動態時間校正辨識之正確率... 11

圖 1.5 Ortolan Bunting 之 20 種鳴聲種類之頻譜 ...12

圖 1.6 鳴聲類型數目與辨識正確率之關係圖...13

圖 1.7 對稱性之小波分解樹。...15

圖 1.8 自 WPD 後之頻帶係數特徵...15

圖 1.9 兩種不同之鳥類鳴聲在時間域上之音框能量...16

圖 2.1 連續鳥類鳴叫聲辨識系統流程圖...20

圖 2.2 鵂鶹鳴唱聲波型圖及紋理視窗切割...21

圖 2.3 以最大能量音框為中心來取得特徵...22

圖 2.4 特徵擷取之流程圖...22

圖 2.5 實際頻率和梅爾頻率之間的關係圖...23

圖 2.6 一組三角臨界頻帶濾波器...24

圖 2.7 聲音訊號取得梅爾頻帶係數...24

圖 2.8 二維梅爾倒頻譜係數流程圖...28

圖 2.9 求取二維梅爾倒頻譜係數之示意圖...29

圖 2.10 計算動態二維梅爾倒頻譜係數之流程圖...31

圖 2.11 動態二維梅爾倒頻譜係數之示意圖...31

圖 2.12 計算全域動態二維梅爾倒頻譜係數之流程圖...35

圖 2.13 全域動態二維梅爾倒頻譜係數之示意圖...35

圖 2.14 計算全域動態二維梅爾倒頻譜係數之流程圖...39

圖 2.15 全域區域動態二維梅爾倒頻譜係數之示意圖...39

圖 2.16 應用高斯混合模型於鳥類聲音辨識之系統架構圖...48

圖 2.17 融合紋理視窗辨識結果對聲音訊號辨識...49

圖 4.1 白腹秧雞訓練及測試資料頻譜圖...55

圖 4.2 青背山雀訓練及測試資料頻譜圖...55

(7)

表目錄

表 1.1 圖三之鳥類聲音所計算出的 HC值 ...6

表 1.2 辨識非泛音結構之鳥類聲音之實驗鳥類...9

表 1.3 針對 14 種鳥類聲音在三種不同的 MFCC 係數使用 GMM 與 HMM 辨識種 類,隨著高斯函數的數量(K)的改變其辨識結果 ... 11

表 1.4 對 10 種不同之鳥類鳴聲(編號 a~j)作辨識,顯示每一種類鳥鳴聲所建立之 SRNFN 模型規則數與使用自動切割對訓練與測試資料之辨識率。...17

表 1.5 比較 SRNFN、TRFN 和 BPNN 之辨識結果,同時針對音節切割使用自動 切割與手動切割之辨識結果作比較。...17

表 1.6 RS 及 IRS 切割方法用於不同的類神經網路辨識結果 ...18

表 1.7 左表為鳥類鳴唱中音節之變化種類只有兩種之辨識結果;右表則為鳥類鳴 唱中音節之變化種類有四種之辨識結果...19

表 2.1 每個臨界頻帶濾波器的頻帶範圍...25

表 3.1 台灣 28 種鳥類訓練及測試資料個數...51

表 3.2 台灣 28 種鳥類紋理視窗(Texture Windows)之辨識率...52

表 3.3 台灣 28 種鳥類音段(Segments)之辨識率 ...52

表 3.4 切 128 個音框,台灣 28 種鳥類紋理視窗(Texture Windows)之辨識率...53

表 3.5 切 128 個音框,台灣 28 種鳥類音段(Segments)之辨識率 ...53

表 3.6 切 256 個音框,台灣 28 種鳥類紋理視窗(Texture Windows)之辨識率...54

表 3.7 切 256 個音框,台灣 28 種鳥類音段(Segments)之辨識率 ...54

表 4.1 GLDTDMFCC 特徵在 5 秒音段及 GMM 分群數為 30 各鳥類正確率...56

(8)

第一章 第一章 第一章

第一章 緒論 緒論 緒論 緒論

1-1、 、 、 、 動機 動機 動機 動機

在動物叫聲之辨識中,研究最多的是鳥類鳴叫聲音(bird song/call)之辨 識。目前全世界的鳥類約有 9,200 多種,臺灣己列入正式記錄的鳥類約有 456 種(台灣生物多樣性國家資訊網)。由於鳥類種類相當多,不同物種間的棲息環 境及生活方式也都有所差異,因此研究人員投入研究鳥類叫聲的差異性,希望 依此發現新的物種,然而目前所使用生物聲音的辨識方法,多採用人工至野外 錄音,再回實驗室做人工的區別。因此若能利用生物的鳴叫聲來自動辨識生物 種類,可以節省相當多的人力與時間。通常我們在野外比較容易聽到生物的叫 聲(animal vocalizations)而不易見其形體,此外生物的叫聲早已進化成與特定之 物種相關(species-specific),也就是不同之物種之聲音會有所不同,因此利用生 物的鳴叫聲來辨識生物種類是相當自然且有效可行的方法,可以幫助生態調查 者確認生物之種類及其分佈定位。幾乎對所有使用聲音溝通的生物而言,發出 聲音是一種本能行為,而這些生物會為了不同的目的而發出不同的聲音,像是 為了求偶、警戒和溝通等。除此之外,生物的發聲系統已發展成與特定物種相 關,換句話說,這代表了每種生物有各自特有的發聲,所以生物和生物之問所 發出的聲音是不會一樣的,因此,很自然的,我們可以利用生物的聲音來辨識 生物的種類。利用生物所發出的聲音來辨識生物種類是非常方便的,因為,當 我們和生物做接觸時,因為生物多數具有警覺性,當察覺到人類接近時,常常 會躲藏起來,所以,我們往往會先聽到生物所發出的聲音,而不會見到生物本 身,再加上生物的發聲已發展和生物物種相關,所以,應用聲音辨識生物物種 是最方便,最直接的方式。所以我們將使用生物聲音之辨識方法,來辨識鳥類 之種類。在前人的研究方法中,很常見的一種做法是對鳥類鳴叫聲音先切取出 鳥類音節,然後再針對鳥類音節做辨識,鳥類音節的切取有分為自動切取與手

(9)

動切取,因此音節的切割往往會影響辨識效果的好壞,為了避免音節切割的影 響及使用者不需手動切割音節,在本篇論文中,嘗試改以紋理視窗(Texture Window)取得特徵來達到好的辨識效果。

1-2、 、 、 、 參考文獻 參考文獻 參考文獻 參考文獻

Kogan 和 Margoliash [1]比較動態時間校正(Dynamic Time Warpping, DTW) 和隱藏馬可夫模型(hidden Markov model, HMM)在辨識鳥類聲音上的效能,在 使用 DTW 分類時,所採用的特徵是對快速傳立葉轉換(FFT)後的振幅取對數 值,而頻率範圍為 0.5~10KHz,在使用 HMM 做分類時,取六類不同的特徵 及參數來當做 HMM 的輸入,這六個特徵分別為 linear predictive coding (LPC)、

LPC cepstral coefficients (LPCC) 、 LPC reflection 、 mel-frequency cepstral coefficients (MFCC) 、 log mel-filter bank channel 和 linear mel-filter bank channel,其中以 MFCC 效能最好,而其選用之 MFCC 參數包括其能量值(energy) 以及一次和二次導函數值(first and second derivatives)。實驗結果顯示 DTW 之 辨識效能還算不錯,但是對於雜訊干擾較嚴重的輸入聲音訊號或易混淆之短叫 聲,使用 DTW 時還需要一些專業的背景知識來選擇恰當且具代表性之聲音訊 號樣本(template)以輔助 DTW 之運作。對 HMM 而言,若想逹到更好的辨識結 果,就需要對聲音訊號做更好的切割(segmentation)和歸類(labeling)的動作,但 HMM 卻有一個缺點,就是對於發聲時間較短和結構複雜之鳥鳴聲常會有判斷 錯誤的情形發生。

McIlraith 和 Card [2-5] 提出利用類神經網路和統計方法來分辨六種鳥鳴 聲(song sparrow、fox sparrow、marsh wren、sedge wren、yellow warbler 和 red-winged blackbird),其擷取之特徵包括時域及頻譜上之資訊,與時域相關之 資訊包含 song element 之個數,song element 長度之平均值及標準差,靜音

(10)

(silence)時段之長度平均值及標準差等;而頻譜資訊包含 LPC 倒頻譜係數[6],

或 將 訊號 分成 九 個頻帶 (subband)後,每個頻帶之頻譜能量(power spectral density)之平均值與標準差[3-5],再利用倒傳遞類神經網路(backpropagation neural networks)來做分類,最後的準確率為 82%,而利用二次區別分析演算法 (quadratic discriminant analysis),可以將準確率提升到 93%。

東華大學張勇富在其碩士論文中提出以語料分析為主的鳥音辨識系統 [6],其以能量資訊(energy information)來切割出鳥鳴聲中的音節(syllable),而 一個音節中會包含好幾個音框(frame)。其取每個音框的頻譜中發生振幅最大值 的頻率當做基本頻率,最後以所有音框的基本頻率之中間值(median frequency) 來辨識鳥類種類。

Anderson 等人[7]利用 DTW 來分析連續錄音中鳥類歌聲中的每一音節,

他們直接比較這些聲音訊號的聲譜圖(spectrogram),找出聲譜圖上的詞組單元 (constituent)和其邊界(constituent boundaries),對聲譜圖上的振幅取對數當做特 徵向量,而頻率範圍是 0.5~10KHz,他們試著用這套方法來辨識靛青鵐(indigo bunting)和錦花雀(zebra finch)這兩種鳥類。採用的測識聲音檔是在一個低噪音 的環境下收集而來的,而且用人工的方式來切出所每一鳥種具代表性之音節為 其聲音訊號樣本(template),由實驗結果顯示,當音節變化不大時辨識結果的準 確率可以逹到 97%,但是,當音節結構變化大時,準確率會下降到 84%。

Harma[8]提出了一個演算法來把鳥類鳴叫聲音切割成一組音節的集合,所 產生的每個音節以正弦波模型來表示,音節的正弦波之變化可分成振幅變化 (amplitude-varying)和頻率變化(frequency-varying)兩種情形,因此可以此正弦波 之頻率和振幅會隨著時間變化之而軌跡來辨識不同品種的鳥類聲音,作者計算 頻率軌跡和振幅軌跡(frequency and amplitude trajectories)之平均誤差的權重和 (weighted sum)來辨識不同鳥類鳴叫聲音。其實驗對象為燕雀目(Passeriformers) 的鳥類,由其實驗結果顯示,在有限的鳥類集合中所表現出來的辨識結果是不

(11)

錯的,但對某些鳥種之辨識率相當低,主要原因是以頻率軌跡來表示鳥類鳴叫 聲只能呈現曲調(melody)之變化而缺乏音色(timbre)特徵之描述,另外對於有些 鳥類所發出之喀嗒聲(clicks)或嘎嘎聲(rattles),這類聲音就無法以正弦波模型來 表示。因此 Harma 等人提出一個方法把鳥類鳴叫聲音依其泛音結構(harmonic structure)分成四類[9],第一類為不具泛音特性之鳥類聲音,第二類為聲音的基 頻是主要部份,並有完整的泛音結構,第三類鳥類聲音在基頻部份較為微弱,

反而在泛音序列裡的第一個泛音擁有最大的強度值,第四類鳥類聲音在泛音序 列裡的第二個泛音擁有最大的強度值。將鳥類聲音依其泛音結構分類,主要是 依照以下的函式:

[ m

n,

φ

n,

s

ˆn

] =

absola

( x

ˆn,

ω

n

)

(1.1) 其中 n 為音框編號,

xˆ 代表第 n 個音框的聲音訊號,

n

ω

n為第 n 個音框內有最 大強度值的頻率,mn

φ

n分別為最佳正弦波(optimal sinusoidal pulse)

sˆ 的強度

n 值(magnitude)和相位角(phase)。此外假設 s1為以

sˆ 來合成之正弦波,然後計算

n

s

1和原始訊號 x 的誤差 e1

e

1 = x –s1 (1.2) 而其用以判斷鳥類聲音為何種泛音結構之方法如下:

步驟 步驟步驟

步驟 1: 針對一個音節,對所有音框找出參數

ω

n,

φ

n, mn, n = 0, 1, …, N–1 與合成訊號 s1及誤差訊號 e1

步驟 步驟步驟

步驟 2: 接下來找出第 k 個泛音,計算公式如下:

[ m

nk,

φ

nk,

s

ˆnk

] =

absola

( e

ˆn,

k ω

n

)

(1.3) 在計算第二種泛音結構時,取 k = k2 = 1, 2, 3,而在計算第三種泛音 結構時,取 k = k3 = 1/2, 1, 3/2, …,在計算第四種泛音結構時,取

k

= k4 = 1/3, 2/3, 1, 4/3, …。在此步驟中,依照泛音結構類別之不同,

可以得到不同的誤差訊號 eC = x – sC。另外定義了一個新的泛音結 構類別 A 代表所有類別之聯集,並設 kA = k2 ∪ k3 ∪ k4

步驟 步驟步驟

步驟 3: 計算 eC的 gain 值:

(12)

 

 

= 

] [

] log [

20

2

2

10 C

C

E e

x G E

另外定義 R = GA – G1。 步驟

步驟步驟

步驟 4: 計算 HC以決定一音節之泛音結構類別:

 

=

=

− +

= +

4 , 3 , 2 C

1 C ,

R / ) G G (

, 2))) - exp(-0.2G 3))(1

- exp(0.6R ((1

I C

-1 1

H

C (1.4)

圖 1.1 顯示四種不同泛音結構類別之鳥類聲音(Willow Warbler、Blackbird、

Icterine Warbler、Marsh Warbler)的聲譜圖、正弦波模型的頻率軌跡和振幅軌 跡、合成訊號及誤差訊號。表 1.1 為此四種鳥類聲音所計算出的 HC值。

(a) (b)

(c) (d)

圖 1.1 四種不同泛音結構類別之鳥類聲音(a) Willow Warbler (b) Blackbird (c) Icterine Warbler (d) Marsh Warbler)的聲譜圖(左上角)、正弦波模型的頻率軌跡和 振幅軌跡(右上角)、合成訊號(左下角)及誤差訊號(右下角)。其中圖的 y 軸代表

頻率,單位為 khz,x 軸代表時間,單位為毫秒(millisecond)。

(13)

表 1.1 圖三之鳥類聲音所計算出的 HC

H1 H2 H3 H4 R

圖 1.1(a) 0.933 0.140 0.324 0.43 0.53 圖 1.1(b) 0.226 0.472 0.042 0.27 7.02 圖 1.1(c) 0.000 0.005 0.736 0.024 22.66 圖 1.1(d) 0.002 0.001 0.006 0.951 18.10

實驗部份,作者對 150 種鳥類聲音從 2000 次的錄音檔案中切割出超過 30000 個音節來做實驗,發現大概有 60%的音節歸類為第一類,其次為第四類,

大概有 14%,另外有 7%歸類為雜訊。當加入泛音結構類別來輔助辨識不同鳥 類鳴叫聲音,約可提高 5-20%之正確率,但對某些鳥種其正確率之提升卻極微 小,因此其認為以單一音節為辨識單元並不足夠,還必需考慮歌聲之結構(song structure)。所以他們又提出以一段鳥聲中相鄰的每對音節所建立之直方圖 (syllable pair histogram)為特徵,以此來辨識鳥類的種類[10]。建立直方圖前,

先用 k-mean 演算法將訓練資料裡的所有音節分成 k 群,每一音節以其振幅軌 跡為特徵且以 DTW 來計算兩個音節的差異性。此演算法之流程如下:

步驟 步驟步驟

步驟 1: 先隨機選取 k 個音節當作 k 群的各個代表。

步驟步驟步驟

步驟 2: 將所有訓練音節和此 k 個群代表以 DTW 計算其距離,有最小距離 的便歸類為同一類。

步驟步驟步驟

步驟 3: 選取每一群的中心點並更新為其群代表,群中心之定義為和同一群 內其它音節之 DTW 距離和為最小值的音節。

步驟步驟步驟

步驟 4: 重覆步驟 2 和步驟 3 直到收斂。

每一群則以高斯分佈模型來表示,因此任一音節 x 和第 i 群的事後機率(posterior probability)之計算公式如下:

=

=

k

j

j jx j

i ix i

d x d

i p

1

2 2

2 2

) 2 / exp(

) 2 /(

1

) 2 / exp(

) 2 /(

) 1

| (

σ σ

π

σ σ

π

(1.5)

其中 dix為音節 x 和第幾 i 個群中心的 DTW 距離,而

σ

i2為第 i 群之變異數,其 值由計算第 i 群內所有音節與其群中心的 DTW 距離平方之平均值得到。接下 來對聲音中的所有成對相鄰的音節建立直方圖,假設 xt-1和 xt為連續兩個音節

(14)

而 Pt-1和 Pt分別為其高斯模型之事後機率向量,對此兩個連續音節之二元成對 機率值(bigram value)計算公式如下:

=

' ',

, , 1

, , 1 , ( )

j i

j t i t

j t i t j

i

P P

P t P

h

(1.6)

對所有的 i 和 j 而言,hi,j(t)可以表示為 Pt-1P 之乘積(product),所以對於一tT

段聲音的直方圖可用下列式子來表示:

=

=

L

t

t t t t 2

T 1 T

1P /|P P | P

H (1.7)

其中Pt-1PtT 為矩陣內所有元素的和。而計算兩個直方圖 H1和 H2之相似度則求

其相關係數值,今 h1和 h2分別表示將 H1和 H2之每一行串接成起來之向量,

如果將所有音節分為 k 群,則 h1和 h2的維度為 k2,計算 h1和 h2之相關係數 之公式如下:

2 1

2

h h h h

h h h

h T

2 T 1

T 1 2

1, )

(

=

c

(1.8)

所以 c(h1, h2)愈小表示 h1和 h2之間的差異性愈大,圖 1.2 為 235 個鳥聲之相關 係數。

(15)

圖 1.2 235 個鳥類歌聲的相關係數,顏色愈深,表示相關係數愈高,其中有四 種不同之鳥類(FRICOE、PHYLUS、PHYCOL 和 PARMAJ)以粗的斷線將其從

左到右,從上到下分隔開來。

作者從 257 個鳥類歌聲檔案中切割音節,如果只有一個音節的話就將之移 除,最後剩下 235 個檔案,並從這 235 個檔案中將所有音節分為 10 群、30 群 和 50 群為實驗,正確率分別為 76%、79%和 80%。

此外,Fagerlund 和 Harma 提出兩種特徵參數來描述非泛音(inharmonic) 結構之鳥類聲音[11],第一種特徵參數為 10 種低階之描述參數(Low-level descriptive parameters),其中分為頻譜特徵、時域特徵兩大類,其中頻譜特徵 有頻譜質心(spectral centroid)、頻寬(signal bandwidth)、頻譜滑動頻率(spectral roll-off frequency)、頻譜變遷度(spectral flux)、頻譜平滑度(spectral flatness)、

頻譜範圍(frequency range),時域特徵有越零率(zero crossing rate)、短時距能量 (short time energy) 、 音 節 長 度 (syllable duration) 和 調 變 頻 譜 值 (modulation spectrum)。其中頻譜質心、頻寬、頻譜滑動頻率、頻譜變遷度、頻譜平滑度、

越零率和短時距能量這 7 種是以音框為基礎的,所以真正用來辨識時,取所有 音框之平均值和變異數為其真正的特徵。調變頻譜值則是對訊號先做 Hilbert 轉 換 , 然 後 對 訊 號 強 度 封 套 (amplitude envelope) 做 調 變 , 取 調 變 索 引 值

(16)

(modulation index)及主要頻率(dominating frequency)為特徵值。第二種特徵參 數為梅爾倒頻譜係數(MFCC),在辨識系統還利用了 LDA 使每群之內更緊密,

群之間更分散。實驗部份則利用表 1.2 中的鳥類種類來辨識,此外比較了用尤 拉距離公式和墨氏(Mahalanobis)距離公式求最小距離之辨識率。

表 1.2 辨識非泛音結構之鳥類聲音之實驗鳥類

拉丁名 拉丁名 拉丁名

拉丁名 一般英文名一般英文名一般英文名一般英文名 錄音數目錄音數目錄音數目錄音數目 非泛音比率非泛音比率非泛音比率非泛音比率 音節個數音節個數 音節個數音節個數

CORRAX Common Raven 7 96% 91

CORNIX Hooded Crow 8 98% 160

PICPIC Magpie 7 99% 312

GARGLA Eurasian Jay 9 99% 99

ACRSCH Sedge Warbler 6 65% 331

ACRRIS Marsh Warbler 8 34% 277

當利用第一種低階之描述參數為特徵向量辨識時,利用尤拉距離公式計算 最小距離之辨識率為 49%,利用墨氏距離公式的話,則辨識率升為 79%;利 用第二種梅爾倒頻譜係數為特徵向量時,利用尤拉距離公式之辨識率為 73%,

利用墨氏距離公式的辨識率則為 74%。

Somervuo 等人[12]更進一步針對 14 種北歐常見之燕雀目鳥種做辨識,並 且提出一個新的切割音節之演算法,此一演算法是使用短時距訊號能量來把鳥 類鳴叫聲切成一組音節的集合,首先是將聲音樣本取音框,每個音框大小設定 為 128 個聲音樣本約 3 ms,而相鄰的音框取 50%的重疊,使用漢尼視窗(Hanning window)計算每一個音框的對數能量總和:

=

=

1

0

2

10( [ ] [ ])

log 20 )

(

N

m

m n X m W n

E

(1.9) 其中 X[m]代表聲音樣本,W[m]代表漢尼視窗,N 為分析視窗的大小,之後將 對數能量總和的最大值正規化為 0,即每個音框所得到的對數能量總和的範圍 介於[ 0 , – ∞ ]分貝(decibel),接下來取全部音框的對數能量總和最小值作為背

(17)

景環境噪音(noise, NdB)的初始值,並設定一個切割音節的臨界值:TdB = NdB/2,

將大於此臨界值的音框視為存在鳥類鳴叫聲之音框,先大略切割出初步的音節 (圖 1.3),再使用以下的演算法把真正的鳥類音節切割出來:

步驟 步驟步驟

步驟 1: 在初步所切割出來的音節中(圖 1.3),在第一個音框和第一個音節的 開始音框之間,尋找音框的對數能量總和最小值作為新的背景環境 噪音 NdB,取臨界值 TdB = NdB/2,然後自第一個音節的開始音框往 右收斂,直到找到真正的音節開始音框,則將目標移到下一個音節。

步驟步驟步驟

步驟 2: 自目前目標音節的開始音框與前一個音節的結束音框之間尋找最 小的音框對數能量總和。

步驟步驟步驟

步驟 3: 利用步驟二中所找到的最小的音框對數能量總和並將其設定為目 前背景環境噪音 NdB,重新設定臨界值 TdB = NdB/2。

步驟 步驟步驟

步驟 4: 使用步驟 3 更新的臨界值 TdB分別對上一個音節的結束音框往左重 新切割至收斂以及目前音節的開始音框往右重新切割至收斂。

步驟 步驟步驟

步驟 5: 將目標移到下一個音節並重複步驟 2~步驟 4,直到結束。

步驟 步驟步驟

步驟 6: 針對重新切割完成的每個音節,檢查每個音節的持續時間長度是否 小於 15 ms,若小於則將其與鄰近的音節做合併的動作。

圖 1.3 水蒲葦鶯(Sedge Warbler)鳴聲中所切割出來的音節,其中綠色箭頭為音 節的開始音框位置,而紅色箭頭則為表示音節的結束音框位置。

音節切割出來後,每一個音節以三種不同特徵參數模型來表示,分別為正

(18)

弦波模型參數、梅爾倒頻譜係數、和一般常見的 12 種描述參數 (頻率特徵參 數有頻譜質心、頻寬、頻譜滑動頻率、頻譜變遷度、頻譜平滑度、最大頻率 (maximum frequency)和最小頻率(minimum frequency);在時間域上的特徵:過 零率、短時距能量、音節長度、調變頻譜強度(modulation spectrum magnitude)、

調變頻譜頻率(modulation spectrum frequency)。首先利用動態時間校正比較此 三種特徵的辨識率,如圖 1.4,就前三種特徵可觀察出 MFCC 在 12 種鳥類中 有六種鳥類聲音的辨識率為最高,但就平均表現來看正弦波模型的表現為最 好;之後並實驗梅爾倒頻譜係數在高斯混合模型(Gaussian Mixture Model)與隱 藏式馬可夫模型在不同數目的高斯函數下其辨識率的變化,如表 1.3。

圖 1.4 針對 14 種鳥類使用動態時間校正辨識之正確率,其直方圖由左至右分 別代表(1) 19 個維度的描述參數 (2) 正弦波模型所取出 8 個維度的特徵(3) 針 對每一個音節取出 24 個維度的 MFCC 平均值(4) 正弦波模型 2 個維度的軌跡

特徵(5) 24 個維度的 MFCC 軌跡特徵。

表 1.3 針對 14 種鳥類聲音在三種不同的 MFCC 係數使用 GMM 與 HMM 辨識 種類,隨著高斯函數的數量(K)的改變其辨識結果

MFCC MFCC, ∆MFCC MFCC,∆MFCC, ∆∆MFCC

K GMM HMM GMM HMM GMM HMM

10 59.8 61.2 66.3 65.9 69.2 68.9

20 59.9 58.3 68.7 69.6 70.0 70.3

30 58.8 57.1 69.3 69.5 70.9 70.3

40 56.3 56.7 67.5 66.0 71.0 67.7

50 55.5 54.4 65.7 65.6 71.3 69.5

(19)

Trawicki 等 人 則 以 梅 爾 倒 頻 譜 係 數 和 HMM 判 別 Norwegian Ortolan Bunting 的鳴聲類型(song-type)[13],其鳴聲種類可依英文字母順序分為 20 類,

如圖 1.5,圖中第一列由左至右為 a,b,c,d,e,f 和 g,第二列由左至右為 h,i,j,k,l,m 和 n。第三列由左至右為 o,p,r,s,t 和 u。而這 20 種鳴 聲還會相互組合成不同的鳴聲類型,比如 ab,cb,huf 等等,當然也有比較特 別的鳥類鳴聲類型,比如 aaaabb,ccccbbb,hhhuff,經過統計發現,ab,cb,

cd,eb,f,gb,guf,h,huf 和 jufb 為 Ortolan Bunting 最常見的 10 種鳴聲類 型。在其實驗部份,每種鳥類鳴聲類型各有 100 個測試檔案,只取前五種常見 鳴聲類型辨識時,正確率為 92.4%,當十種常見之鳴聲類型全取時,其正確率 則降為 63.6%,如圖 1.6。

圖 1.5 Ortolan Bunting 之 20 種鳴聲種類之頻譜[13]。

(20)

圖 1.6 鳴聲類型數目與辨識正確率之關係圖,橫軸為鳴聲類型數目,縱軸為辨 識正確率[13]。

由於在鳥類的鳴叫聲中其泛音有可能出現在非基頻整數倍的地方,即非和 諧音(inharmonic)的現象,所以 Selin 等人[14]使用小波分析對 8 種不同種類之 鳥類鳴聲做辨識,其中有 5 種鳥類之鳴聲有非和諧音,其他 3 種鳥類之鳴聲為 和諧音的鳴聲。首先針對鳥類鳴聲做前處理以去除雜訊(noise)並切割出音節,

之後針對每個音節使用 Daubechies wavelet 執行六次的小波封包分解(Wavelet Packet Decomposition, WPD),如圖 1.7,然後自分解後第 2-32 個頻帶之係數中 擷取特徵,包括最大能量(maximum energy)、位置(position)、開展度 (spread) 與寬度(width) (圖 1.8),並針對此四個特徵做正規化,其特徵之描述如下:

1. 最大能量最大能量最大能量最大能量(maximum energy, Em)

針對鳥類聲音做完 WPD 轉換後的每一個頻帶(bin)方向計算其能量平方總 和值,找出最大的值來代表此種鳥類的最大能量特徵,特徵擷取步驟如下所示:

步驟 步驟步驟

步驟 1: 計算相同頻帶的樣本之能量總和,EB(r):

32 ,..., 3 , 2 , ) , ( )

(

1

2

=

= ∑

=

r r n c r

E

nc

n

B (1.10) 其中 c(n, r)表示第 r 個頻帶中之第 n 個樣本,nc則表示沿著橫軸相 同頻帶樣本的總數。

步驟 步驟步驟

步驟 2: 計算相同頻帶位置能量的平均值 ~ ( )

r

E

(21)

c B

B

n

r r E

E

( )

)

~ (

=

(1.11) 步驟步驟步驟

步驟 3: 尋找最大的 ~ ( )

r

E

B 值作為最大能量 Em特徵

))

~ ( (

max E r

E

B

m

=

r (1.12) 然後再對其作正規化,公式如下:

B m

m

n

E

~

= E

(1.13) 其中 nB為計算最大能量特徵 Em所在的頻帶中能量大於~ ( )/6

r

E

B

數目。

2. 位置位置位置位置(position, P)

即最大能量特徵 Em所出現的那個頻帶的位置 r 作為位置特徵,且將其正 規化:

16

~

P

P =

(1.14) 3. 開展度開展度開展度開展度 (spread, S)

開展度是計算大於~ ( )/6

r

E

B 能量值總和,其計算公式如下:

=

J r q

r q J c

S

) , (

2( , )

#

1 (1.15)

其中 nB為計算最大能量特徵 Em所在的頻帶中能量大於~ ( )/6

r

E

B 的數目。q 為聲音樣本數,r 為第 2~32 個頻帶索引值,J 為符合 ~ ( )/6

) ,

2(

r E r q

c >

B

件的集合,#J 為集合 J 內所有元素的數目,然後將 S 正規化如下:

100

~

S

S =

(1.16) 4. 寬度寬度寬度寬度(width, W)

計算頻帶能量 EB(r)大於 1.3 的一個範圍,且將其正規化:

20

~

W

W =

(1.17)

(22)

圖 1.7 對稱性之小波分解樹。其中灰色的部分將被使用來擷取特徵

圖 1.8 自 WPD 後之頻帶係數特徵:最大能量(maximum energy)、位置(position)、

開展度 (spread)與寬度(width)。

最後使用兩種類神經網路做辨識:(1)監督式之多層認知網路(Supervised Multilayer Perceptron, MLP)以 及 (2)非 監督式 之 自我 組織 網路 (Unsupervised Self-organizing Map, SOM)去做訓練與測試,其使用 SOM 辨識率可達 78%,而 MLP 其辨識率則高達 96%。

Selouani 等人提出以自動回歸之時間延遲類神經網路(Autoregressive time delay neural networks, AR-TDNN)來辨識 16 種位於加拿大新布倫茲維克省(New Brunswick)之鳥類鳴叫聲[15]。在切割音節的部分是採用 Harma[8]所提出的切 割音節方法,將 16 種鳥類聲音切割成 482 個音節,其中 290 個音節用來訓練,

292 個音節用來測試,其擷取的特徵是使用線性預測編碼(Linear Predictive Coding, LPC)分析,針對每一個音節使用 LPC 分析取得 20 個係數作為特徵,

(23)

然後再以 AR-TDNN 來訓練測試,其辨識率可達 83%,和傳統的類神經網路比 較,其辨識錯誤率降低了 16%。

Juang and Chen[16]提出一種基於預測誤差之單值型態遞迴類神經模糊網 路(Singleton-type Recurrent Neural Fuzzy Networks, SRNFN)來自動辨識鳥類鳴 叫聲音。其系統辨識之工作包括兩部分:1)鳥鳴聲音節之切割;2)利用 SRNFN 辨識鳥類鳴聲。在切割音節部分是採用較簡單之方法,首先在時間域上計算每 一個音框能量,其音框大小為 512 個樣本,然後尋找具有最大能量之音框,以 其音框位於中間之樣本位置作為起始點往左右各取 25600 個樣本作為此一切 割出來音節之範圍,使每一個切割出來之音節長度為 51201 個樣本(如圖 1.9 所示);其擷取之特徵是使用線性預測編碼(Linear Predictive Coding, LPC)分 析,使用 SRNFN 對 10 種不同種類之鳥類鳴聲作辨識,其辨識率可達 94.67%(如 表 1.4 所示),並與 TSK-型遞迴模糊網路(TSK-type Recurrent Fuzzy Network, TRFN)和倒傳遞類神經網路(Back Propagation Neural Network, BPNN)等傳統類 神經模糊網路做比較(如表 1-5 所示)亦有較佳之辨識結果。

圖 1.9 兩種不同之鳥類鳴聲在時間域上之音框能量 (其中虛線部份為切割出來音節之部份)

(24)

表 1.4 對 10 種不同之鳥類鳴聲(編號 a~j)作辨識,顯示每一種類鳥鳴聲所建立 之 SRNFN 模型規則數與使用自動切割對訓練與測試資料之辨識率。

Birds index a b c d e f g h i j Averages

Rule number 3 3 3 3 2 3 2 2 2 3 2.6 reles

Training rate(%) 100 100 100 93.33 100 100 100 100 93.33 100 98.67 Test rate(%) 93.33 100 100 86.67 93.33 100 100 73.33 100 100 94.67

表 1.5 比較 SRNFN、TRFN 和 BPNN 之辨識結果,同時針對音節切割使用自 動切割與手動切割之辨識結果作比較。

recognizer SRNFN TRFN BPNN

Input frame number 1 1 7 7 5 3 1

Rule/node number 26 26 16 8 10 15 30

Parameter number 720 4776 1536 768 720 720 720

Training epochs 130 130 1500 1500 1500 1500 1500

Training data (%) 98.67 99.33 93.00 80.04 89.19 81.75 70.19 Test data (manual) (%) 96.00 96.00 92.56 79.00 87.84 80.41 67.56 Test data (automatic) (%) 94.67 95.33 91.89 78.00 86.48 75.67 65.00

一個普遍的時間域切割音節的方法,RS (Rabiner and Sambur)[17]是使用訊 號能量去大略的尋找音節開始及結束位置;C. H. Chou 等人[18]提出 Improved RS (IRS)方法結合頻率資訊於 R-S 端點偵測方法,用來改進在時間域資訊對於 受環境雜訊影響的缺點,使切割音節更準確,其方如下所示:

步驟步驟步驟

步驟 1: 對輸入聲音訊號 x(t)使用 R-S 端點偵測方法並標示。

步驟 步驟步驟

步驟 2: 對 x(t)做快速傅立葉轉換(FFT)建立鳴聲的聲譜圖,音框大小設為 512。

步驟 步驟步驟

步驟 3: 對每個音框找出頻譜強度最大的位置 binm。 步驟

步驟步驟

步驟 4: 設定音節編號 j,j = 1。

步驟 步驟步驟

步驟 5: 找出最大頻譜強度 音框位置 t,計算公式如下:

[ ]

(

m

)

M

m

X bim

t =

1

max

arg

(1.18) 並計算音節 j 最大振幅 Aj

(25)

) dB ( ] [ log

20

10 t

j

X bin

A = ⋅

(1.19) 其中,M 是音框個數,X[⋅]為 x(t)的頻譜。

步驟步驟步驟

步驟 6: 以音框 t 為出發點往前及往後找到 hj及 tj音框可以使得 ]

[ log 20 10

hj

bin

X

及20 log10 [ ]

tj

bin

X

分別小於(Aj – 20)(dB)。

步驟步驟步驟

步驟 7: 從 hj及 tj音框開始找音框 hj

α

及音框 tj +

β

(

α

β > 0) 可以使得

]

[ log

20

10 α1

hj

bin

X

及20

log10 [ +β+1]

tj

bin

X

大於(Aj – 20)(dB),則音

框 hj

α

及音框 tj +

β

分別為音節 j 的起始位置及結束位置。

步驟步驟步驟

步驟 8: 設定|X[binm]| = 0,m = hj

α

, hj

α

+ 1, …, tj +

β – 1, t

j +

β

步驟

步驟步驟

步驟 9: 設定 j = j + 1。

步驟步驟步驟

步驟 10: 重複步驟 5 至 9 找尋其他音節,直到 Aj < A1 – 20(dB)。

最後再針對每個音節計算梅爾倒頻譜係數(MFCC),並且使用 Decision based Neural Network (DBNN)類神經網路來做辨識,其結果如表 1.6 顯示可以有效改 善傳統 R-S 端點偵測方法辨識結果。

表 1.6 RS 及 IRS 切割方法用於不同的類神經網路辨識結果

RS segmentation IRS segmentation

MFCC+BP MFCC+DBNN MFCC+BP MFCC+DBNN

54.27% 61.63% 59.76% 64.93%

Vallejo 等 人 [19] 以 階 層 式 自 我 組 織 映 射 圖 (Hierarchical Self-organizing Maps, HSOM)在無監督機制下來對鳥類鳴聲分類,對 Barred antshrike(BAS)、

Dusky antbird(DAB)、Great antshrike(GAS)和 Mexican antthrush(MAT)等四種分 佈於美洲之鳥類鳴聲作辨識,對鳥類音節所擷取聽覺的特徵有音節低頻之邊界 頻率、高頻之邊界頻率、音節持續之時間、音節最大邊界振幅和音節對大邊界 能量等五種特徵,再對其鳥類鳴聲之結構去切出鳥類鳴唱(songs)聲音依每種鳥 類其鳴唱之音節種類數目分為兩大類,其分別辨識之結果顯示其平均辨識率為

(26)

98%與 93.78%(如表 1.7 所示)。

表 1.7 左表為鳥類鳴唱中音節之變化種類只有兩種之辨識結果;右表則為鳥類 鳴唱中音節之變化種類有四種之辨識結果

Species Classification BAS

DAB GAS MAT

100%

100%

100%

92%

Species classification BAS

DAB GAS MAT

100%

92%

100%

83%

(27)

第二章 第二章 第二章

第二章 鳥類鳴聲辨識系統 鳥類鳴聲辨識系統 鳥類鳴聲辨識系統 鳥類鳴聲辨識系統

在我們所提出之鳥類鳴聲辨識系統中,我們是將許多鳥類聲音訊號切成許多紋理 視窗來擷取出特徵資料,其紋理視窗切割是以固定時間長度方式,並且每個紋理視窗 重疊 4 分之 3。在訓練部分聲音訊號切出許多紋理視窗後分別做特徵擷取,再利用主 軸分析演算法(Principal Component Analysis, PCA)對所有資料庫的特徵降維度並取得 PCA 的轉換矩陣,接著利用高斯混合模型分群(Gaussian Mixture Model, GMM)對每個 鳥種類進行分群,最後再用線性區別分析(Linear Discriminant Analysis, LDA)轉換使辨 識效果提升並儲存轉換矩陣,最後再將分群及特徵資料儲存。而測試部份分別做特徵 擷取,再利用訓練資料轉換矩陣做主軸分析轉換與線性區別分析轉換,接著辨識每個 紋理視窗,最後針對紋理視窗做辨識結果的融合來對聲音訊號辨識,圖 2.1 為連續鳥 類鳴聲辨識系統流程圖。

圖 2.1 連續鳥類鳴叫聲辨識系統流程圖

(28)

2-1、 、 、 、 紋理視窗 紋理視窗 紋理視窗 紋理視窗(Texture Window)

系統輸入一段鳥類聲音訊號後需要對聲音訊號切出許多固定時間紋理視窗,由於 多數鳥種擁有一個以上的不同變化,因此將聲音訊號切出許多較少時間紋理視窗,可 以取得不同變化特性的特徵,在本研究中使用紋理視窗長度為 2 秒鐘,重疊 1.5 秒(如 圖 2.2 所示)。切出數個紋理視窗後,再針對每個視窗取一個個固定長度的音框,然後 再針對每個視窗的音框去取得各種特徵。

圖 2.2 鵂鶹鳴唱聲波型圖及紋理視窗切割

考慮相似聲音資訊卻因為時間位置的不同,造成取得的特徵係數不相似,因此在 本論文每個紋理視窗以大能量音框為中心位置對前後共保留 128 (或 256)個音框來取 特徵,與原始做法來比較。首先,先計算視窗內各個音框中的能量和,取得最大能量 音框時間點位置,再以最大能量音框為中心位置往時間點前取 63(或 127)個音框,往 中心時間點後取 64(或 128)個音框(如圖 2.3),保留下來的音框將代表整個視窗來取得 特徵。使用這個方式,可以確保最大能量位置在中心位置。

(29)

圖 2.3 以最大能量音框為中心來取得特徵

2-2、 、 、 、 特徵擷取 特徵擷取 特徵擷取 特徵擷取

在本節中,我們將介紹在鳥類鳴聲辨識中所使用之特徵,包括二維梅爾倒頻譜係 數(DTDMFCC)、動態二維梅爾倒頻譜係數(DTDMFCC)、全域動態維梅爾倒頻譜係數 (GDTDMFCC)及合併動態二維梅爾倒頻譜係數與全域動態維梅爾倒頻譜係所產生的 特稱(GLDTDMFCC)(特徵擷取流程圖如圖 2.4)。當輸入一段鳥類聲音訊號時,首先要 對聲音檔案切出一個個的等長度的紋理視窗,每一個紋理視窗為基本特徵擷取單元,

以下將仔細介紹每個特徵。

圖 2.4 特徵擷取之流程圖

(30)

2-2.1、 、 、 、梅爾倒頻譜係數 梅爾倒頻譜係數 梅爾倒頻譜係數 梅爾倒頻譜係數 (Mel-scale Frequency Cepstral Coefficients,

MFCC)

梅爾倒頻譜係數已被廣泛應用在語音辨識上,並且得到不錯的成果。梅爾倒頻譜 係數是以一組頻帶來描述一段聲音訊號。梅爾(mel)是表示聽覺上對一個音調(tone)感 覺上的音高(pitch)或頻率的計算單位,在人類聽覺系統中,對於一個音調的實際頻率 (physical frequency)之反應並不是呈現線性變化,而實際頻率和梅爾頻率之間的對應 關係在頻率低於 1 KHz 時呈現線性變化,但在高頻的部份是呈現對數變化的。而實 際頻率和梅爾頻率之間的關係圖顯示於圖 2.5,其數學式如下:

700) 1 ( log

2595 10

f

mel = +

(2.1)

) 1 10 (

700 2595

=

mel

f

(2.2) 其中 f 代表實際的頻率值。人類之聽覺系統可將聲音之頻率分為一個個臨界頻帶 (critical band),在同一臨界頻帶內之頻率聲音對人耳聽起來是相似的,因此我們可以 用一組濾波器來過濾每一臨界頻帶之聲音訊號,另外每一個臨界頻帶的頻寬會隨著頻 率值而改變,圖 2.6 顯示一組三角臨界頻帶濾波器之形狀及頻寬,表 2.1 是每個臨界 頻帶濾波器的頻帶範圍。

圖 2.5 實際頻率和梅爾頻率之間的關係圖

(31)

圖 2.6 一組三角臨界頻帶濾波器

在本篇論文做法中,會將輸入的聲音訊號(Texture Window)切成許多固定大小的 音框並且重疊一半,接下來針對第 t 個音框利用梅爾頻帶的範圍去計算每個頻帶的能 量 Et(0), Et(1), …, Et(B-1),其中 B 為梅爾頻帶個數,計算完頻帶能量後再 10 的對數 得到每個頻帶的能量係數(如圖 2.7)。計算完聲音訊號每個音框的梅爾頻帶係數後再 計算本篇論文使用的靜態及動態的二維梅爾倒頻譜係數等特徵。

圖 2.7 聲音訊號取得梅爾頻帶係數

(32)

表 2.1 每個臨界頻帶濾波器的頻帶範圍

Index Low Freg.(Hz) Center Freg. (Hz) High Freg. (Hz)

Filter 1 0 100 200

Filter 2 100 200 300

Filter 3 200 300 400

Filter 4 300 400 500

Filter 5 400 500 600

Filter 6 500 600 700

Filter 7 600 700 800

Filter 8 700 800 900

Filter 9 800 900 1000

Filter 10 900 1000 1149

Filter 11 1000 1149 1320

Filter 12 1149 1320 1516

Filter 13 1320 1516 1741

Filter 14 1516 1741 2000

Filter 15 1741 2000 2297

Filter 16 2000 2297 2639

Filter 17 2297 2639 3031

Filter 18 2639 3031 3482

Filter 19 3031 3482 4000

Filter 20 3482 4000 4595

Filter 21 4000 4595 5278

Filter 22 4595 5278 6063

Filter 23 5278 6063 6964

Filter 24 6063 6964 8000

Filter 25 6964 8000 9190

計算 MFCC 之詳細步驟如下:

步驟 步驟步驟

步驟 1: 取音框(Framing)

將每一個紋理視窗切割成一個一個的音框,大小為 512,而且為了讓每個 音框的差異性不大,我們又讓每個音框重疊一半。

步驟 步驟步驟

步驟 2: 預強調(Pre-emphasis)

將經取樣後的原始數位聲音訊號 s[n]通過一個高通濾波器(high pass filter): H(z) = 1 - a × z-1 , 0.9 ≤ a ≤ 1.0 (在本論文中,a 取 0.95)。經過預強

(33)

調後的訊號為:

] 1 [ ]

[ ]

~

s

[

n = s na × s n

, 0 ≤ n < N (2.3) 步驟

步驟步驟

步驟 3: 乘上漢明視窗(Hamming Windowing)

為了來消除每個音框與開始與結束的不連續性,每個音框都乘上一個漢明 視窗,漢明視窗式子如下。

1) cos( 2 46 . 0 54 . 0 ]

[

= − −

N m n

w π

, 0 ≤ n < N (2.4) 步驟

步驟步驟

步驟 4: 快速傅立葉轉換(FFT)

將音訊訊號從時域轉換成頻率域

N k e

n s k

X

N

n

Nn j k

<

= ∑

=

, 0 ]

~ [ ]

[

1

0

2π

(2.5)

其中 N 為音框大小,~ n

s

[ ]為離散訊號。

步驟 步驟步驟

步驟 5: 三角帶通濾波器(Triangular band-pass filter)

由於人耳對聲音的頻率的解析度不是呈線性關係,而是呈現對數

(logarithm)變化,利用三角帶通濾波器將聲音訊號分成一個個頻帶,並算 出每個頻帶的能量:

=

=

1

0

) ( )

(

K

k

k b

t

b k A

E φ

, 0 ≤ b < B, 0 ≤ t < L (2.6) 其中 B 為三角帶通濾波器之個數,Ak為 X[k]的振幅:

2 / 0

,

| ] [

|

X k

2

k N

A

k

= ≤ <

(2.7) 而

φ

b為第 b 個濾波器:

 

 

=

b h b

c j c b h b

h

b c b

l b l b c b l

b h b

l

b

I k I I I k I

I k I I I I k

I k I k k

if ) /(

) (

if

) /(

) (

or if

0 ]

φ [

(2.8)

在這裡,

I 、

lb

I 和

cb

I 分別代表第 b 個濾波器之低頻索引值,中間頻率索

hb 引值,和高頻索引值:

) (

f N I f

s b b l

l

=

(2.9)

(34)

) (

f N I f

s b b c

c

=

(2.10)

) (

f N I f

s b b h

h

=

(2.11) 其中 fs為取樣頻率,

f 、

lb

f 及

cb

f 為第 b 個濾波器的低頻、中頻和高頻值,

hb 而每個濾波器的低頻、中頻和高頻值可參考表 2.1。

步驟步驟步驟

步驟 6: 離散餘弦轉換(Discrete Cosine Transform)

最後將這些不同頻帶的能量乘上不同的餘弦(cosine)值,求出梅爾倒頻譜 係數 Ct(q):

=



 

+ +

=

1

0

10 2

) 1 2 cos ( )) ( 1 ( log )

(

B

b

t

t

B

q b b

E q

C π

, 0 ≤ q < B, 0 ≤ t < L (2.12)

其中,Ct(q)表示第 t 個音框中第 q 個梅爾倒頻譜係數,B 代表的是梅爾倒

頻譜係數的個數,L 為視窗中音框總數。本論文中共用了 25 個三角濾波 器,所以 B = 25,而梅爾倒頻譜係數的長度為 25。

2-2.2、 、 、 、二維梅爾倒頻譜係數 二維梅爾倒頻譜係數 二維梅爾倒頻譜係數 二維梅爾倒頻譜係數 (Two-dimensional MFCC, TDMFCC)

Arike 等人提出以二維倒頻譜係數來辨識單字和單音節詞[20],由於二維倒頻譜 係數能夠表示一段聲音中每一倒頻譜係數隨時間之變化情況,因此可以表示相鄰音框 間之關聯性,像是整體的頻率變化和細微的頻率變化,一般而言,只要利用較低頻之 二維倒頻譜係數來辨識就能得到不錯的辨識率並且也會有較佳的辨識速度。另外作者 提到利用二維倒頻譜係數在去除雜訊(noise reduction)和語音加強(speech enhancement) 上也都有不錯的效果。

Pai 和 Wang 提出利用二維倒頻譜係數來做語音辨識[21],其中只有低頻的倒頻譜 係數較常被應用在語音辨識上,另外二維倒頻譜係數能把相鄰音框間的變化特性給考 慮進來並且能夠充分地把聲音的頻譜資訊表現出來。

Lin 等人提出利用二維倒頻譜係數來做語音辨識[22],二維倒頻譜係數能夠同時 的表現一個紋理視窗的多種資訊,包含了靜態(static)和動態(dynamic)這兩種特性,也

(35)

就是說可以同時表現出一個紋理視窗整體的頻率變化和細部的頻率變化,另外,二維 倒頻譜係數能夠同時解決紋理視窗長度不同的問題,因為在二維倒頻譜係數中真正有 意義的資訊是低頻的係數,所以在二維倒頻譜係數係數中真正對語音辨識有幫助的是 分佈在低頻的係數,而分佈在高頻的係數對語音辨識上是比較沒有意義的。

對一個鳥聲紋理視窗而言,可能包含了許多音框,所以我們希望能夠把梅爾倒頻 譜係數隨著時間的變化性和相鄰音框之間的相關性考慮進來,以便提高辨識率,因 此,我們採用了二維梅爾倒頻譜係數為一紋理視窗之特徵值。

求取二維梅爾倒頻譜係數的做法是先將一個鳥類紋理視窗切出數個音框後,針對 每個音框各計算一組梅爾倒頻譜係數,並將這些梅爾倒頻譜係數依時間順序排列後,

針對同一索引值之梅爾倒頻譜係數做離散餘弦轉換(DCT),便取得到此一鳥類紋理視 窗之二維梅爾倒頻譜係數,但我們只取低頻部份為特徵值,圖 2.8 為求取二維梅爾倒 頻譜係數之流程圖,圖 2.9 為求取二維梅爾倒頻譜係數之示意圖。

切音框

乘上 漢明視窗

快速 傅立葉轉換

三角帶通 濾波器

對頻帶能量 取對數

二維離散餘 弦轉換 紋理視窗

二維 梅爾頻譜係數 圖 2.8 二維梅爾倒頻譜係數流程圖

(36)

圖 2.9 求取二維梅爾倒頻譜係數之示意圖

計算二維梅爾倒頻譜係數之詳細步驟如下:

步驟步驟步驟

步驟 1: 取音框 (Framing)

將每一個聲音檔案切割成一個一個的音框,大小為 512,而且為了讓每個 音框的差異性不大,我們又讓每個音框重疊一半。

步驟步驟步驟

步驟 2: 求出梅爾倒頻譜係數

求出梅爾倒頻譜係數 Ct(q),0 ≤ q < B,其中 Ct(q)表第 t 個音框之第 q 個梅 爾倒頻譜係數,B 表梅爾倒頻譜係數的個數,在這裡 B = 25。

步驟步驟步驟

步驟 3: 離散餘弦轉換(DCT)

令 CT(q, n)為對所有 Ct(q)沿著時間軸做離散餘弦轉換(DCT)得到的二維梅

爾倒頻譜係數:

=

=

1

+

0

2 ) 1) )cos((2

( )

, (

L

t t T

L n q t

C n

q

C π

, 0 ≤ q < B, 0 ≤ n < L (2.13) 其中 B 表梅爾倒頻譜係數個數(B = 25),L 為紋理視窗音框總數。另外,

在選取 CT(q, n)參數當作特徵時,本論文只要取梅爾倒頻譜係數前 15 個係

DCT

(37)

數及時間軸的前五個索引值,也就是二維梅爾倒頻譜係數區塊大小為

15×5,並且為了避免音量大小的影響去除 DC 值的部份 CT(0, 0)。最後保

留 TDMFCC 特徵向量維度共 74:

FTDMFCC = [CT(0, 1),…, CT(0, 4), CT(1, 0),…,

C

T(1, 4),…, CT(14, 0),…, CT(14, 4)]T (2.14)

2-2.3、 、 、 、動態二維梅爾倒頻譜係數 動態二維梅爾倒頻譜係數 動態二維梅爾倒頻譜係數 動態二維梅爾倒頻譜係數 (Dynamic Two-dimensional MFCC,

DTDMFCC)

Furui 提 出 以 動 態 特 徵 來 辨 識 語 音 之 方 法 [23] , 其 動 態 特 徵 是 以 迴 歸 係 數 (Regression Coefficient)來表現頻譜上的瞬間變化,應用在語者辨識中有著不錯的效 果。對一段聲音切出數個音框,並對每個音框求出線性預估編碼(LPC),之後將每個 音框所求出線性預估編碼依時間排列後,求出迴歸係數當做特徵並使用動態規畫比對 演算法( matching algorithm)來辨識單詞語音,並且有不錯的效果。其中,Rt(b)表示在 第 t 個音框之第 b 個迴歸係數,計算方程式如下:

=

= +

=

0

0 0

2 1

) ) ( )

( ( )

( n

n n n

n

n t n

t

t

n

b E b E n b

R

, 0 ≤ b < B, 1 ≤ t < L-1 (2.15)

其中 Rt(b)表示在第 t 個音框之第 b 個線性預估編碼。

在動態二維梅爾倒頻譜係數中,我們利用迴歸係數求出在頻譜上的瞬間變化,而 頻譜上的瞬間變化就像是在一張圖片中的邊線(edge)部份,也就是說如果把每一種類 之鳥類鳴聲當成是一張特定的圖片,而這些圖片各自擁有獨特的邊線部份,這樣我們 便能利用邊線部份進行辨識,所以我們便能利用迴歸係數來表示梅爾倒頻譜係數隨著 時間變化之特性。

動態二維梅爾倒頻譜係數的做法是利用迴歸係數來當做一個高通濾波器求出頻 譜中變化較大的部份,也就是說,對三角帶通濾波器之輸出值計算其迴歸係數,再去 做二維離散餘弦轉換後便求得動態二維梅爾倒頻譜係數,圖 2.10 表示計算動態二維

參考文獻

相關文件

Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference

Shih and W.-C.Wang “A 3D Model Retrieval Approach based on The Principal Plane Descriptor” , Proceedings of The 10 Second International Conference on Innovative

D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,

[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference

Kalker, “Speed-Change Resistant Audio Fingerprinting Using Auto-Correlation,” in IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. Kalker,

Li, The application of Bayesian optimization and classifier systems in nurse scheduling, in: Proceedings of the 8th International Conference on Parallel Problem Solving

Plumbley, “Beat Tracking with a Two State Model,” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2005), vol. Honing, “Computational

Card, ”Bird song identification using artificial neural networks and statistical analysis”, in Proceedings of Canadian Conference on Electrical and Computer