• 沒有找到結果。

第一章 簡介

1.3 論文架構

在第一章中,我們描述本論文的研究動機、過去相關的研究成果和我們 的方法簡介。接下在第二章,我們將定義四種危急聲音(求救、呻吟、咳嗽、

喘息)的特徵向量以及他們的擷取方法。而在第三章中,我們將詳細介紹如 何利用這些特徵來進行聲音的分類。最後在第四章和第五章則是我們的實 驗結果與結論。

第二章

特徵的擷取及選擇

2.1 前言

如前所言我們定義四種危急聲音為音訊關鍵字,分別為:求救聲、呻吟 聲、劇烈咳嗽聲和喘息聲。為了尋找具有區別率的特徵,我們預先錄製這 四種危急聲音作為樣本資料庫,其中每種類別皆錄製 23 個樣本,共 92 個。

每個樣本長度皆為 5 秒,取樣頻率為 16 kHz,解析度為 16 bits 的單聲道數 位音訊訊號。完成樣本資料後,我們接著從音訊的聲波圖上分割出人聲之 波形區段並尋找可能之特徵再加以分析統計,最後選擇出適當特徵。在我 們所錄製危急聲音樣本資料中,各種危急聲音的聲波圖依次列於圖一至圖 四。

藉由觀察圖一至圖四的四種聲波圖,我們初步選擇五種可能可以做為特 徵之資訊,分別為:分割段數、平均音量、波形持續時間、相關性以及正 規化零越率,並對樣本資料庫內所有樣本進行以上五種可能特徵的數據統 計,並作為之後選擇特徵之依據。

為方便接下來的描述,我們先定義聲波圖上的橫座標即時間方向用 x 代 表,而縱座標為對應到 x 軸的音量大小用 f(x)表示。

聲波圖上每個分割出來的連續波形部分,稱為一個區段,有聲音的區段 稱為有聲區段,無聲音的區段則為無聲區段。每個有聲區段的起點和終點

分別用 S(n)和 E(n)表示(請參考圖一),其中 n 表第 n 個分割出來的區段。

圖一:求救聲聲波圖及分割區段

圖二:呻吟聲聲波圖 E(2)

S(2) E(1)

S(1) S(3) E(3)

無聲區段三 無聲區段二

有聲區段一

無聲區段一 無聲區段二

圖三:咳嗽聲聲波圖

圖四:喘息聲聲波圖

圖五:人對話聲聲波圖

圖六:電視聲聲波圖

2.2 分割

圖一至圖四的聲波圖明顯顯示出,被看護者發出之危急聲音除劇烈咳嗽 聲外,通常具有週期性,這和一般在被看護者週遭常接收到的聲音如:人 的對話聲(如圖五)、電視聲音(如圖六)等有明顯的區別,而通常人的對話聲 與電視聲音是沒有週期性。所以為了能有效偵測聲音的週期性,我們首先 進行前處理 ( Preprocessing ) 以及分割 ( Segmentation ) ,藉此分離出各個 連續音訊區間,即有聲區段,並對單一有聲區段進行分析。音訊的前處理 包含平滑化 ( Smoothing ) 與去雜訊 ( Noise Removing ) 兩個動作,主要目 的是為了方便接下來的分割動作。

首先對聲波圖做平滑化。詳細做法如下:對聲波圖上的每一個取樣點 ( Sample ) x,往其左右各 16 個點張開一個視窗 ( window ) 。然後將視窗內

的所有音量值( f(x) ),取絕對值並計算其平均,將之作為平滑化後 f(x)值之

圖八:平滑化及去雜訊後之呻吟聲聲波圖

圖九:平滑化及去雜訊後之咳嗽聲聲波圖

圖十:平滑化及去雜訊後之喘息聲聲波圖

有聲區段 無聲區段

如圖七至圖十顯示,在平滑化及去雜訊後,原本的雜訊部分已被去除,

在五秒音訊訊號中之有聲區段(參考圖十)和無聲區段(參考圖十)也清楚的分 開。因為無聲區段為一段音量大小皆為零之值,所以我們利用此一特性將 無聲區段給擷取出來,剩下的則為有聲區段部分,即為我們欲分割出之有 聲波形區段。而這個有聲區段即是我們要分析的區段。

由於在一般情況下偶爾會接收到突發的短暫噪音,為消除突發噪音。我 們假設有聲波形區段至少會持續 1/16 秒,少於這個長度且聲音很大的區域 將被視為突發噪音,而被刪除不處理,詳細做法如下:系統設定一個臨界值 ( threshold ) 為 1000 個取樣點,檢查每一個分割出來有聲區段的時間長度。

若此時間長度小於該臨界值,則判定為噪音並予以去除。

圖十一至圖十四為分割後之音訊資料,每一個有聲區段之起始點及終點 以白線標示。

圖十一:求救聲及其分割區段

圖十二:呻吟聲及其分割區段

圖十三:咳嗽聲及其分割區段

圖十四:喘息聲及其分割區段

起點和終點,單位為取樣點,f(x)為音量大小。 ZCR ZCRN

1

表一 特徵分析統計表 分割段數 N

(個) 平均音量 M 持續時間Dn (取樣點)

正規化零越率 ZCR

求救聲 3~4 1000~1250 11800~14900 0.08~0.12

呻吟聲 1~2 800~2200 17800~29200 0.11~0.115

咳嗽聲 3~11 5500~7500 1200~18400 0.14~0.19

喘息聲 5~6 400~1000 3500~6500 0.21~0.24

由表一的統計資料,我們可以觀察到咳嗽聲在其平均音量和正規化零越 率明顯的與其他類別不同,因此我們利用這兩個資訊當作其代表特徵。對 於求救聲、呻吟聲和喘息聲這三類音訊,其分割段數相較穩定,且聲音較 具規律性而具區別率,所以我們取分割段數和持續時間作為其代表特徵。

至 於 對 各 類 別 代 表 特 徵 如 何 訂 定 其 臨 界 值 ( Threshold ) 和 臨 界 範 圍 ( Threshold Range ) ,及如何決策各類別的特徵,詳細說明如表二至表六所 示:

表二 咳嗽聲的平均音量之平均、變異數和特徵臨界值 平均音量

平均

MeanM

變異數

VarianceM

咳嗽聲 ThreshldM

M M Variance Mean

表二為針對咳嗽聲類別計算其平均音量之平均值和變異數,且制定其臨 界值。表中 f 為資料庫中咳嗽聲的檔案索引,Mf 為第 f 個檔案的平均音量。

ThreshldM為咳嗽聲的平均音量之臨界值。日後當系統接收到的五秒音訊訊號

之平均音量大於此臨界值,就判定為咳嗽的特徵之一。

表三 咳嗽聲的正規化零越率之平均、變異數和特徵臨界範圍 正規化零越率

平均 MeanZCR

變異數 VarianceZCR

咳嗽聲

表四 求救聲的持續時間之平均、變異數和特徵臨界範圍 持續時間

平均

MeanHD

變異數

VarianceHD

求救聲

表五 呻吟聲的持續時間之平均、變異數和特徵臨界範圍 持續時間

平均 MeanGD

變異數 VarianceGD

呻吟聲

表六 喘息聲的持續時間之平均、變異數和特徵臨界範圍 持續時間

平均 MeanWD

變異數 VarianceWD

喘息聲

表七為從表二至表六的式子計算其臨界值範圍的實際數據:

表七 特徵臨界範圍統計表 分割段數 N

(個) 平均音量 M 持續時間Dn

(取樣點) 正規化零越率 ZCR

求救聲 3~4 12256~14892

呻吟聲 1~2 18863~28903

咳嗽聲 5498 0.152~0.189

喘息聲 5~6 3755~6292

表七為從表一針對各類別的特徵計算其臨界值的結果。在分割段數方 面和表一相同:求救聲範圍為 3~4 個,呻吟聲範圍為 1~2 個,喘息聲範圍 為 5~6 個,平均音量部分:咳嗽聲之臨界值為 5498 單位量,有聲區段持續 時間範圍部分:求救聲為 12256~14892 個取樣點,呻吟聲為 18863~28903 個取樣點,喘息聲為 3755~6292 個取樣點,正規化零越率範圍部分:咳嗽 聲為 0.152~0.189。下一章我們將根據表七所得的數據進行對被看護者的聲 音檢測。

第三章 異常聲音偵測法

3.1 波形相關性 ( Waveform Correlation )

因為求救、呻吟和喘息三種波形有聲區段之樣式較固定,因此波形的相 關性成為判定求救、呻吟和喘息三種危急訊號之重要依據。我們預先經由 訓練 ( Training ) 的過程取出求救、呻吟和喘息三種標準有聲波形區段樣 式,置於系統當中當作系統在執行時跟分割出來之有聲波形區段比對的標 準。而訓練標準有聲波形區段樣式的方法如下,從我們資料庫中的每種類 別分別去做,根據資料庫之統計,求救、呻吟和喘息三種聲波之有聲波形 區段其平均持續時間分別為 13574 取樣點、23881 取樣點、5024 取樣點。

由於在計算波形相關性時,每個有聲波形區段必須有相同的點數,且為了 加速運算速度,我們將對每個有聲波形區段重新取樣,使得求救聲用 13 個 取樣點、呻吟聲用 23 個取樣點、喘息聲用 5 個取樣點來表示。接下來設RSN(i) 為類別之取樣點數,而Dn(i)為類別中聲波圖上第n個有聲區段之持續時 間,令 ( )

) ) (

( RSN i

i i D

R = n ,其中i=1,2,3為類別(1 為求救,2 為呻吟,3 為喘息)則 取樣方法為將聲波圖上每R(i)個點合併成一點,且將此R(i)個點之絕對值平 均設定為合併點之值,如圖十五所示。

圖十五:重新取樣聲波圖

根據我們的觀察,發現在求救聲當中所分割出來的有聲區段波形,依其 相似程度又可分為三個子類別,如圖十六至圖十八的第一個有聲波形區段 所示。呻吟聲亦有相同的狀況,所以同樣分成三個子類別,如圖十九至圖 二十一的第一個有聲波形區段,而喘息聲因為有聲波形區段最為穩定,所 以不再分類,自己為一個子類別即可。針對每一個子類別,我們將取其平 均有聲波形區段,作為系統執行時的比對標準有聲區段。平均有聲波形區 段之詳細計算方法如下:

重取樣後 聲波圖

讓此區間絕對值之平均 為此區間的合併點之值 Window size=R(i)=Dn(i)/RSN(i)

每個子類別中所有有聲波形區段:X1X2"Xi"Xn

圖十七:求救聲子類別二聲波圖

圖十八:求救聲子類別三聲波圖

圖十九:呻吟聲子類別一聲波圖

圖二十:呻吟聲子類別二聲波圖

圖二十一:呻吟聲子類別三聲波圖

3.2 各種聲音之判定條件及系統流程

針對各種類別所選定之特徵,作為系統執行時對各種危急聲音之偵測依 據,如果條件皆不符合表示並無危急情況視為正常。綜合前面聲波分析的 結果(請參考表七)以及我們計算出的平均有聲波形區段跟資料庫裡面的各 個類別做相關性計算後所得到之結果。我們可以為各種危急聲音類別決定

其代表的特徵和最佳的臨界值。整個系統的主要判斷流程將如下:

„ 靜音偵測:N=0,即當一段五秒音訊訊號在處理過後,其分割段數為零, 就是無聲靜音狀態。

„ 咳嗽聲偵測:( M>5500 ) and ( 0.15<ZCR<0.2 ) ,即當一段五秒音訊訊號 Others

五秒資料流

Yes 正常

No

Yes 咳嗽

No

No 正常

Yes

呻吟

求救 喘息 正常

咳嗽偵測 靜音偵測

相關性計算

求救、呻吟和 喘息的偵測 計算 M/ZCR/N/Dn

在處理過後,其平均音量跟正規化零越率在其臨界範圍內,則判定為咳 嗽聲。

„ 相關性計算:當一段五秒音訊訊號,所分割出來的有聲波形區段和系統 內求救、呻吟、喘息之標準平均有聲波形區段計算相關性。當其中一個

„ 相關性計算:當一段五秒音訊訊號,所分割出來的有聲波形區段和系統 內求救、呻吟、喘息之標準平均有聲波形區段計算相關性。當其中一個

相關文件