• 沒有找到結果。

情緒辨識技術之發展

第二章 文獻探討

第二節 情緒辨識技術之發展

圖 2.2 V-A emotion plane 表示圖[Tha89]。

確了解嬰兒目前的情緒及生理需求,所以將使用上述所提到的六類情緒,加以改 良整合成適合本系統的嬰兒情緒辨識的類別。

第二節 情緒辨識技術之發展

近年來,成人情緒辨識技術已經被廣泛應用在日常生活中,而不同的領域也 利用不同領域技術來辨識成人情緒,像是影像領域透過臉部影像,語音領域透過 聲音,醫學領域透過腦電波等其他領域技術來辨識受測者的情緒。由於本研究使 用臉部表情及聲音來辨識嬰兒目前的情緒及生理需求,所以本節將著重探討影像 領域相關技術及語音相關領域技術。本節依照領域技術的不同,分為:(A)影像領 域、(B)語音領域兩種類型來說明。

(A)影像領域

大部分成人情緒辨識研究應用於影像領域的流程如圖 2.3 所示,其流程主要 分 為 臉 部 偵 測 (face detection) 、 臉 部 表 情 特 徵 擷 取 (facial expression feature extraction)及情緒分類(emotion classification)三個階段。從許多成人情緒辨識的相 關研究中可以發現,要辨識成人情緒之前,首先要從畫面中偵測出臉部區域。而 臉 部 偵 測 分 為 兩 個 方 向 , 分 別 為 template-based approaches 及 feature-based approaches。

8

圖 2.3 一般影像領域情緒辨識流程圖。

(1) template-based approaches

使用事先建立的標準臉部模板,將輸入的影像與模板進行比對,若比對結果 相似度高,即為臉部區域。此類型的方法需將輸入影像與模板調整成一致大小,

使得輸入影像與模板在相同的條件下進行比對。

Cootes 等人[Coo95]使用主動形狀模型(active shape model;ASM)作為模板,

該模板使用若干個特徵點(眉毛、眼睛、鼻子、嘴巴及臉部輪廓線)來表示其幾何形 狀,將其特徵點座標連成一個形狀向量,以表示整個物體。將此模板與輸入影像 進行比對,最後使用主成份分析(principal componet analysis;PCA)演算法來偵測 臉部區域。其優點為利用模板與輸入影像進行比對,可以快速找出臉部五官的相

(2) feature-based approaches

部分研究在進行臉部偵測前需要先擷取臉部特徵,而此類的臉部特徵,包括

9

臉部輪廓、皮膚紋理及膚色等,利用此特徵資訊擷取臉部區域,再使用經驗法則 或機器學習,經過學習之後產生出臉部及非臉部區域的規則。

Geetha 等人[Gee09]利用連續影像的移動資訊,將前後兩張影像相減得到移動 物的輪廓。但由於得到的輪廓不一定是臉部區域,所以該研究結合色彩資訊找出 屬於臉部區域的輪廓。但若是臉部區域被部分遮蔽時,其輪廓尋找的結果並不良 好,因此會影響到臉部偵測的結果。

陳秋利[陳 10]已開發出「自動膚色範圍界定之嬰兒臉部偵測表情辨識系統」。 該研究分析三個色彩空間,RGB、HSI、YCrCb 色彩空間,選擇對膚色較集中的三 個 bands──H、Cr、Cb 當作顏色特徵空間。用 k-means clustering 將影像中的顏色 區塊作分割,並從影像中選擇在 H、Cr、Cb 空間中最接近膚色的區塊當作臉部。

其優點為使用接近膚色的區塊當作臉部,所以不會受到嬰兒頭部的轉動或是嬰兒 臉部被部分遮蔽而影響臉部偵測的結果,但其缺點為 k-means clustering 中 k 值難 以選定。

黃律嘉[黃 11]已開發出「以主成份分析為基礎之嬰兒表情辨識系統」。該研究 首先把 RGB 色彩空間轉成 NCC (normalized color coordinates)色彩空間,然後根據 Soriano 等人[Sor02]所提出的 Locus model 作為臉部偵測的主要依據。但由於 Locus model 並不能完全去除近似膚色的背景,所以黃律嘉[黃 11]修正 Locus model 中 T 值的設定,使得嬰兒臉部偵測的結果更加完整。其優點為該方法計算量少,適用 於即時偵測,且藉由修正 Locus model 中 T 值的設定可以使得該方法適用於複雜 背景。但其缺點為每張影像中的 T 值均需調整,會增加系統處理的時間。

綜合上述針對臉部偵測技術的探討,本研究使用顏色作為特徵去進行嬰兒臉 部偵測。雖然嬰兒膚色根據不同人種或處於不同環境下有所差異,但其主要差異 在於亮度的強弱而非色度。只要找出適合的色彩空間,便可以解決上述之問題,

增加膚色資訊的穩定性。且該方法不易受到臉部轉動及臉部區域部分遮蔽,而影 響臉部偵測的準確率。

在偵測出影像中的臉部區域後,情緒辨識系統下個重要步驟,即為特徵擷取。

Li 等人[Li13]使用主動形狀模型偵測臉部區域,將輸入影像對應至該模板後,擷 取對應特徵點所聯成的形狀向量當作特徵使用。然後使用貝氏分類器分類,將情 緒分類為六類──開心、傷心、生氣、害怕、驚訝及厭惡。其缺點為模板僅使用正

10

臉建立,所以當受測者是正臉時辨識效果較為良好。

Siritanawany 等人[Sir14]使用運動歷史影像(motion history image;MHI)當作 情緒辨識的特徵使用。該方法對多張影像進行分析,利用時間模板來記錄不同時 間的臉部輪廓,進而計算臉部區域的運動軌跡。然後使用最近鄰居法(k-nearest neighbor algorithm)進行分類,將情緒分類為七類──開心、傷心、生氣、害怕、驚 訝、厭惡及無表情。其缺點為需限制受測者必須是正臉且受測者臉部不能大幅移 動。

Cruz 等人[Cru14]使用區域二元化圖形(local binary patterns;LBP)當作情緒辨 識的特徵。該方法是一種用來描述圖形的局部紋理特徵,具有計算簡單且其 LBP 等人[Cru14]使用支持向量機(support vector machine;SVM)進行分類,將情緒分類 為六類──開心、傷心、生氣、害怕、驚訝及厭惡。該方法的處理效率及描

11

圖 2.5 區域二元化圖形運算方式示意圖。

述力皆有不錯的表現,但其缺點為影像容易受到雜訊干擾,當影像受到雜訊干擾 時,取得的 LBP 值誤差可能會非常大。

綜合上述針對特徵擷取的探討,本研究使用區域三元化圖形作為特徵去進行 嬰兒臉部特徵擷取。區域三元化圖形改良自區域二元化圖形,其主要想法為改變 區域二元化圖形編碼時周圍像素(P1至 P8)灰階值與中心點(Pc)灰階值之間的關係,

是為了解決區域二元化圖形易受到雜訊干擾所提出的方法,其優點為增加抗雜訊 能力且不易受到光線干擾。

(B)語音領域

一般來說語音領域情緒辨識流程如圖 2.6 所示,主要分為語音訊號前處理 (speech signal preprocessing)、語音訊號特徵擷取(speech signal feature extraction)以 及情緒分類(emotion classification)三個主要階段。語音訊號前處理主要目的是將聲 音的類比訊號轉換成可供電腦處理的數位訊號,且過濾掉錄音環境中的背景雜訊 及錄音設備的噪音。進行完語音訊號前處理後,語音領域情緒辨識的下個重要階 段為語音訊號特徵擷取,而其中影響語音領域情緒辨識準確率的因素,首重於語 音特徵之擷取。

Pal 等人[Pal06]使用嬰兒聲音的基頻及第一、二、三共振峰當作特徵使用,將 嬰 兒 情 緒 分 成 生 氣 (anger) 、 疼 痛 (pain) 、 傷 心 (sadness) 、 飢 餓 (hunger) 及 害 怕

圖 2.6 語音領域情緒辨識流程圖。

Speech Signal Preprocessing

Speech Signal Feature Extraction

Emotion

Classification Result Output

12 26 4 0 1 0

86 25 51 1 1

9 8 17 0 0 0

01010001

LBP value: 81

12

(fear)。該方法的缺點為使用基頻等特徵參數,與辨識者相關性太高,若單獨使用 於一位嬰兒,情緒辨識效果較佳,若使用於多個嬰兒易造成辨識率太低的結果。

Sato 等人[Sat96] 在辨識成人情緒時,使用線性預估參數(linear prediction coding coefficients;LPC)當作特徵,利用類神經網路辨識其結果,其情緒類別使 用一個情緒空間來呈現,以求不同情緒位於該空間內的相對位置及方向。該方法 的主要概念為對某個取樣點而言,其振幅與相近取樣點的振幅具有相關性,所以 可以由前面幾個訊號樣本值去進行線性預估。其優點為可以使用較少的參數,表 示出此段聲音的訊號特徵,使計算量降低。其缺點為預估出的模型屬於線性模型,

然而人類發出的聲音並非是個完全的線性模型。

游祿勳[游 07]已於 2007 年開發一套嬰兒情緒哭聲辨識系統,該研究利用倒 頻譜(cepstrum)、梅爾頻率倒頻譜係數(mel frequency cepstral coefficients;MFCCs) 及線性預估參數三種不同的語音特徵參數,並使用類神經網路及最近鄰居法辨識 其結果,將嬰兒哭聲分成五種,即秤重(scale)、洗澡(bath)、飢餓(hunger)、打針 (injection)及酒精(alcohol)。該研究探討不同的語音特徵參數針對嬰兒哭聲的辨識 情形,其中選擇 MFCCs 作為語音特徵的分類結果,其平均辨識率約為 81.5%。

Singh 等人[Sin13]使用 epoch interval contour(EIC)及梅爾頻率倒頻譜係數(mel frequency cepstral coefficients;MFCCs)作為嬰兒哭聲的特徵,接著利用高斯混合 模型(Gaussian mixture model;GMM)建立各分類的模型並辨識其結果,將嬰兒哭 聲分成三種,即飢餓(hunger)、疼痛(pain)及尿布濕(wet-diaper)。該研究結合兩種 語音特徵使得嬰兒哭聲辨識率略為上升,但其缺點為建立高斯混合模型時需要使 用大量訓練資料才能建立出良好的模型。

綜合上述針對聲音特徵擷取的探討,本研究使用 MFCCs 作為語音特徵來描 述嬰兒聲音。因為人類聽覺系統的特性,對低頻部分攫取較多特徵,而高頻部分 攫取較少特徵,而 MFCCs 為配合人類聽覺特性,在頻域中以梅爾刻度劃分頻帶,

其辨識效果會比線性劃分頻帶的效果好,所以選擇 MFCCs 作為語音特徵。

綜合上述針對表情及聲音情緒辨識的探討,可知由表情將情緒分類的結果較 為粗略,像開心、哭泣、生氣、害怕、驚訝及厭惡等情緒。而聲音表達較為細緻,

可將情緒分類成較細微的情緒,像哭泣可細分為因飢餓而哭泣或因疼痛而哭泣等 較細緻的情緒。由於本研究希望輔助父母判別嬰兒目前情緒及生理需求,將結合

13

嬰兒臉部表情及聲音進行情緒辨識,使用嬰兒臉部表情將嬰兒情緒分成較為粗略 的情緒,再結合嬰兒所發出的聲音將嬰兒情緒分為較細緻的情緒,結合兩者分類 結果以判別嬰兒目前的情緒及生理需求。

14