• 沒有找到結果。

第一章 緒論

1.2 研究目的

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 1-2. 時間-頻率頻譜圖(縱軸為時間、橫軸為頻率)

1.2 研究目的

本研究主要包含三個階段:一是偵測平日居家環境中常見之聲音,例如電話鈴聲、

門鈴聲、水壺汽笛、鬧鐘等;二是將所偵測到之音訊事件轉換成時間-頻率頻譜圖 (time-frequency spectrogram),利用影像處理(image processing)技術對音訊事件(auditory event)擷取其特徵(feature)用以描述;三則透過相似度搜尋(similarity search)方式對音訊事 件特徵加以分析並完成其分類(classification),透過以上方式實現串流式音訊分類於智慧 家庭。

我們將於第二章介紹關於計算式聽覺場景分析、時間-頻率頻譜圖分析的相關研究文 獻,第三章提出本論文的研究方法,第四章說明實驗結果,並於第五章闡述本研究之結 論與未來的研究規劃。

點,透過不同程度的訊號平滑化(smoothing),降低音量波動(intensity fluctuation)並強化 音訊事件的起始點(onset),最後以迭代(iterative)方式整合 Multiscale 的事件起始點以偵 測音訊事件。S. H. Srinivasan 提出將音訊事件以區塊(blob)加以描述的概念,基於聽覺場 景分析的原則,無關的音訊事件其起始點同時發生的機率低、同一音訊事件其變化程度 為趨緩以及音訊事件因其和諧性所呈現樣式(pattern),將頻率波峰(spectral peak)的連續 延展定義為岸線(strand),而區塊便是擁有同起始點的岸線其集合,以音訊事件中的頻率

Valerie Pierson 等人提出對於時間-頻率頻譜圖邊界偵測(boundary detection)的技術 [10],於研究中,在直角座標系(cartesian coordinates)上以區域正切角度(local tangent angle) 與半徑(radius)偵測邊界,並對四個主要的邊界偵測技術加以比較其校能與速度。

於[12]中 Ruohua Zhou 等人提出基於共振器時間-頻率頻譜圖的音樂事件起始點偵測,

於研究中將音強變化劇烈的起始點定義為硬性起始點(hard onset),而變化緩和者則定義 為軟性起始點(soft onset),首先將聲音訊號轉換成時間-頻率頻譜圖,利用基於能量變化 演算法(energy-based algorithm)可有效的處理硬性起始點偵測,而未能有效偵測的軟性起 始點則輔以基於音調變化演算法(pitch-based algorithm)改善其偵測,利用不同轉換方式 增強不 同時間 - 頻率 頻譜圖 上所 呈現訊 號強 度,例 如以和 諧性 音源法 則 (harmonic grouping principle)強化音調、利用低通濾波器(low-pass filter)降噪,再以聽覺場景分析原 則加以整合不同頻譜圖上偵測所得事件。

音訊分類大致可分為以下兩個部分[13][14]。第一部分是透過樣本訓練來分類。選 擇一些表達某類特性的聲音樣本來訓練系統,建立這類聲音的模型。系統對每一個樣本 找出其特徵向量,並計算這些訓練樣本的平均向量和共變異矩陣用以建構出表達這類聲

特徵(prior)。於[16]中 Silvia Allegro 等人提出將基礎聲學特徵更細分為三類,振幅變化、

頻率特性及和諧性(harmonicity)。 做短時傅利葉轉換(Short-Time Fourier Transform, STFT),取得其二維時間-頻率頻譜圖。

利用雙向濾波器(bilateral filter)對此時間-頻率頻譜圖增強其音訊事件之結構,以助益於 音訊起始點偵測(audio onset detection),實現時間-頻率頻譜圖之影像分割(segmentation),

取得音訊事件影像(auditory event image)。利用閾值計算與設定(thresholding)的方法取得 二值化影像(binary Image)做為輸入,經由區塊偵測(blob detection)演算法將音訊事件影 像中所偵測之區塊視為音訊區塊(auditory blob),擷取其區域二元化圖型(local binary patterns)[17]特徵用以描述此音訊區塊中所呈現紋理與輪廓,利用此編碼分布直方圖作為 特徵向量,透過預先定義的距離(distance metric)計算以實現音訊分類。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2-1. 系統架構圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第三章 研究方法

本章節將介紹我們於本次研究中所提出基於影像處理之音訊分類流程,包含音訊的輸入、

轉換、影像處理、事件偵測、特徵描述以及分類的方法。

3.1 音訊處理 (Audio Processing)

聲音訊號(Audio Signals)簡稱音訊,泛指由人耳聽到的各種聲音的訊號。當發音體 產生震動對空氣產生壓縮與伸張的效果,形成聲波,當此聲波傳遞到人耳,耳膜會感覺 到一伸一壓的壓力訊號,內耳神經再將此訊號傳遞到大腦,並由大腦解析與判讀,來分 辨此訊號的意義。當聲波經過量化與轉換,變成電腦可讀之格式,對此數位訊號加以處 理與分析

於本研究中,我們將居家環境中的音訊透過收音裝置,取得其數位訊號,基於聽覺 心理學的原則,如聲音對於心理與物理之影響、音訊感知等訊息對此訊號加以定義,並 以短時傅利葉轉換將其呈現於時間-頻率頻譜圖之上,以供下一階段處理之使用。

3.1.1 聽覺心理學 (Psychoacoustic)

因為人類耳朵中的聲音受器,讓我們對於聲音的感受產生某些特性。基底膜不同位 置含有聽神經受器,不同頻率聲波又會使基底膜不同位置達到最大振幅,因此形成基底

成時間-頻率的訊息處理。兩者都各有頻率敏感細胞(frequency tuning cells)或管道 (channels)。這使得傅利葉轉換可以同時用在視覺與聽覺,並獲得類似的結果。

2. 選擇性的偏好反應(response selectivity)

兩種感受器官各有對於不同改變之反應的細胞,讓我們對於不同的變化產生選擇性

3.1.3 短時傅利葉轉換 (Short-Time Fourier Transform)

於實驗中量測所得訊號大多是以時間作為基礎的時域(time-domain)訊號,觀察時域 訊號可以了解訊號隨時間變化的程度,但如欲得知此訊號在頻率域(frequency-domain) 中之訊息,便可經由離散傅利葉轉換(discrete Fourier transform)後得知,算式如下:

為了修正這個缺點,於 1946 年提出了視窗(window)的概念[18],也就是將訊號切割成多 個訊窗,先將訊號跟時間軸上不斷平移的窗型函數(window function)相乘,藉由窗型函 數的平移,取出特定時間的訊號再做傅利葉轉換以找出其頻率分布,算式如下與圖 3-1:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

x(t):為待分析訊號 :

) (t

w 為窗型函數 圖 3-1. 短時傅利葉轉換示意圖

由上述可知,窗型函數

w

(t)的視窗長度(window length)選取決定了頻譜圖的解析度,

較長的視窗長度可以得到較高的頻率域解析度,但時域的解析度就變差;反之選擇較短 的視窗長度,雖有較高的時域解析度,卻犧牲了頻率域上的解析度,而解析度的高低並 不會隨著時間或是頻率上的改變而有所變化。於解析度較低之頻譜圖上,系統容易忽略 較小的音訊事件,或是造成數個小事件之合併;反之,於解析度較高之頻譜圖上,系統 對於事件偵測過於敏感,造成將大事件過度切割為數個小事件。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3.1.4 時間-頻率頻譜圖分析

頻率為時間訊號的重要特徵,傳統用傅利葉分析來了解一段時間內頻譜的分布 , 但在某些情況下,我們更有興趣的是頻率隨時間變化的情形,分析各種不同頻率隨時間 變化的情形稱為時頻分析。時頻分析相較於頻譜分析多了頻率對時間的解析。傅利葉轉 換提供了從時域到頻率域的轉換,能進一步提供二維或三維的時頻分布圖形,進而在時 間-頻率平面上表現的信號中,了解各種分量的時間變化與頻譜間關聯的特性。

於本研究中採用

 取樣頻率:22.05 KHz

 取樣解析度:16 bits

 STFT Window Size:1024 samples

 聲道:單聲道(左聲道)

基於取樣理論(sampling theory)中,為避免訊號疊假(aliasing)所造成頻率域上頻譜的 重疊,取樣頻率需大於訊號最大頻寬的 2 倍,並因人耳特性與實驗器材限制,故將取樣 頻率設定為 22050 Hz。故本實驗所設定之時間-頻率頻譜圖解析度為 320*128,呈現 0~

11025 Hz、為時約 6 秒之頻率分布影像。以門鈴聲-2 為例,如圖 3-2 所示,縱軸為時間,

橫軸為頻率,灰階像素值為音訊強度,像素值越大表強度越大;反之。表 3-1 為本研究 中所用常見於家庭之音訊分類。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 3-2. 門鈴聲-2 (時間-頻率頻譜圖)

表 3-1. 常見於家庭之音訊分類

Class 1. 門鈴聲-1 Class 2. 門鈴聲-2

Class 3. 電話鈴聲-1 Class 4. 電話鈴聲-2

Class 5. 嬰兒哭聲 Class 6. 汽車警報聲

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Class 7. 水壺汽笛聲 Class 8. 火災警報聲

相關研究中可見許多基於計算聽覺場景分析原則所提出的音訊描述模型,本研究主 要利用其中的音訊起始點與音訊區塊輔助影像偵測音訊事件。

3.1.5 音訊起始點 (Auditory Onset)

Bello 等學者於[19]中指出,當一個音訊事件發生時,通常會產生一個較為突然的能 量變化,造成能量曲線的突增(attack),而後隨著能量的消減而造成曲線遞減(decay),在 這段時間可稱為瞬態(transient)。而瞬態發生的起始點,將之定義為音訊起始點(audio onset),其概念如圖 3-3 所示:

圖 3-3. 音訊起始點 (Audio Onset)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

透過音訊起始點偵測,可以找出目前環境中是否有音訊事件發生,並針對此音訊事 件以音訊區塊概念加以描述。

3.1.6 音訊區塊 (Auditory Blobs)

於文獻中提出將音訊事件以音訊區塊的概念建立其模型。首先定義頻譜圖上波峰的 連續延展為岸線,在此實驗中限制一個訊框中僅含一個岸線。基於聽覺場景分析原則將 擁有相同起始點之岸線集合定義為區塊,而此區塊視為一個音訊事件,如下圖所示。

圖 3-4. 音訊區塊(Auditory Blobs)範例

文獻中提出利用以下四種特徵對此音訊區塊加以描述:

1. Frequency Content: 紀錄每個訊框的索引(index)與頻率分布之直方圖。

2. Harmonicity: 於不同頻率上呈現某種程度上相同的樣式。

3. Energy Dynamic: 此區塊中所含所有岸線之能量總和。

4. Frequency Dynamic: 此區塊中所含所有岸線之權重能量總合。

透過以上特徵加以定義之音訊事件,於本研究中則以影像特徵嘗試對此音訊事件於 時 間 - 頻率頻譜圖所呈現之紋理加以描述, 我們利用影像偵測中的區塊偵測 (blob detection),對時間-頻率頻譜圖上的所呈現之能量變化偵測音訊區塊,並於多個頻率上

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

找尋具有相同起始點之影像區塊,將其視為一完整音訊事件,並以下述之影像特徵加以 描述。

3.2 影像分析 (Image Analysis)

人們對於數位影像處理方法的興趣來自於兩個主要的應用領域:改善影像資訊供人 理解之用,以及處理影像資料供機器自動感知所需的儲存、傳輸與表示。定義我們所稱 影像處理之領域範圍,利用數位影像處理方法對此影像加以處理,藉以取得所需資訊。

在本研究中,我們將透過數位影像處理技術對時間-頻率頻譜圖加以處理,以取得 其中蘊含訊息。透過生理與物理之聽覺感知原理定義濾波器(filter),針對音訊事件於時 間-頻率頻譜圖上所呈現之特徵,強化所需部分並捨去不必要之區塊,如此有助於音訊 之起始點偵測,並針對此音訊區段中的事件,透過區塊偵測演算法偵測所需區塊並加以 標記,再以影像描述子(descriptor) 描述此影像,讓電腦理解此區塊所呈現訊息。

在本研究中,我們將透過數位影像處理技術對時間-頻率頻譜圖加以處理,以取得 其中蘊含訊息。透過生理與物理之聽覺感知原理定義濾波器(filter),針對音訊事件於時 間-頻率頻譜圖上所呈現之特徵,強化所需部分並捨去不必要之區塊,如此有助於音訊 之起始點偵測,並針對此音訊區段中的事件,透過區塊偵測演算法偵測所需區塊並加以 標記,再以影像描述子(descriptor) 描述此影像,讓電腦理解此區塊所呈現訊息。

相關文件