• 沒有找到結果。

第一章 簡介

1.2 文獻探討

目前有關於居家看護系統的研究,大多是利用視訊或電子相關儀器來偵 測被看護者的狀態。Huang and Huang [1] 是利用視訊來偵測被看護者所做 出之特別動作,如手掌握拳或伸出食指比出一等手勢,以顯示被看護者正 在主動發出警訊,傳達自己健康狀況有疑慮之訊息,需要看護人員關注。

然而此方法是不太可行的,因為當一個人生理有狀況需要援助時,自己是 否真的能夠發出求救之手勢是值得關注的,且在視訊的偵測當中,更無個 人隱私可言。Huang et. al[2]則在被看護者的身上裝設簡單電子儀器,主要 用來偵測被看護者的心電圖,利用心電圖呈現出來的資訊來判斷被看護者 健康狀況是否有疑慮,同時將判斷結果傳回醫護中心,但如此一來被看護 者完全楚於被動情況,無法自己發出危急訊號。

我們提出的方法是利用音訊分類 ( Audio Classification ) 的技巧,來研 判被看護者是否需要被進一步的照顧。而音訊分類為目前針對音訊方面研 究最為常見的類型之ㄧ,其在資訊安全和資料檢索等方面都有很好的應用 [3-4] 。 音 訊 分 類 的 方 法 大 致 可 分 為 兩 類 : 兩 類 分 類 法 ( Two-Way Classification ) [5-13]和多類分類法 ( Multi-Way Classification ) [14-16]。兩 類分類法即是將一般的音訊訊號分為兩大類,通常為語音 ( speech ) 和非語 音 ( non-speech ) ,而多類分類法則是分更多更細的類別。E. Zwicker and H.

Fastl[10]指出一般人類的聲音頻率集中在低頻,所以當一段音訊訊號之頻率

偏低時,則為語音,反之則為非語音。而 Saunders[11]則利用正規化零越率 ( Zero Crossing Rate ) 當 作 特 徵 即 可 初 略 地 將 語 音 和 非 語 音 分 出 。 Abu-El-Quran and Goubran [13]另外提出利用音調 ( Pitch ) 計算音調率 ( Pitch Ratio ) 的方法,將音訊分為語音與非語音。其中音調是在聲波圖上 波形震動的頻率。而他們提出的方法描述大致如下:首先將一段音訊重疊 ( Overlap ) 分割成 N 個框 ( Frame ) ,並計算每個框之音調,如果計算出來 的音調是在七十赫 ( Hz ) 到兩百八十赫 ( Hz ) 的範圍內,則屬於有標記的 框,反之則為無標記的框。而音調率的計算方法為:音調率=NP/NF ,其 中 NP 為有標記的框數,而 NF 為所有的框數。當一段音訊訊號之音調率大 於等於零點三時則判定為語音類別,反之則為非語音類別。由於兩類分類 法在實際應用中是不足夠的,所以最近越來越多關於多類分類法的研究。

L. Wyse and S. Smoliar [14]則是將一般的音訊訊號分類為音樂、語音和其他 類別。有別於之前的兩類分類法,將音樂從音訊中分類出。D. Kimber and L.

D. Wilcox [15]更進一步將音訊訊號分類為語音、靜音、笑聲和非語音,可 說是將兩類分類法中的語音部份分類的更細。最後在 Lin and Chen[16]提出 的方法中,則是將音訊分類為五大類,分別為:純語音、音樂、人清唱之歌 聲、背景聲音為音樂的語音和背景為週遭環境噪音的語音。其所利用的方 法為利用各類別在頻譜圖 ( spectrogram ) 上能量分布的方向及頻率高低的 不同來直接擷取各類別的代表特徵。此方法雖然可以有效將音訊分類為純

語音、音樂、人清唱之歌聲、背景聲音為音樂的語音和背景為週遭環境噪 音的語音五大類,但是卻無法將純語音的部分在予以細分。

因為藉由人所發出的聲音,可以直接或間接的傳達此人想表示之訊息,

所以我們將利用此特性來發展一套基於語音偵測的看護系統,即系統會藉 由被看護者發出的聲音來判斷此被看護者的健康狀況是否有疑慮,同時也 確保個人之隱私。

在本論文中,我們提出的方法則屬於多類分類法,主要是將語音部分再 細分為咳嗽聲、呻吟聲、喘息聲、求救聲和其它不屬於前四類之聲音,以 應用於看護系統。在我們的方法中將危急聲音定義為劇烈咳嗽聲、呻吟聲、

喘息聲和求救聲四類,而不屬於這四類的聲音則判定為正常聲音。為偵測 上述的四種危急聲音,我們從聲波圖上擷取區域內聲音區段的數目,簡稱 分割區段,還有波形持續時間、平均音量、正規化零越率和聲音區段彼此 之間的相關性這五種具區別率的特徵來當作我們要偵測之依據。其中分割 段數即為在五秒音訊檔中被分割出之有聲區段數,波形持續時間則為所分 割出有聲區段之時間長短,平均音量大小為五秒音訊檔中,所有被分割出 有聲區段之平均音量大小,正規化零越率則為所有有聲區段在聲波圖上單 位時間波型震盪通過零點之次數,而相關性則是比對分割出來有聲區段之 波型和我們定義的關鍵字波形區段之相似程度。在實驗結果顯示,我們的 方法對這四種危急聲音的偵測率分別可以高達 94%~97%,在假警報方面只

有 0.08%的錯誤率。

相關文件