• 沒有找到結果。

嬰兒情緒辨識系統

第一節 系統目的

本研究所提出之嬰兒情緒辨識系統,針對 0 歲至 1 歲的嬰兒所設計,將攝影 機架設於嬰兒床前或嬰兒椅前,利用攝影機所拍攝的影像自動進行嬰兒臉部偵 測,擷取出該嬰兒臉部特徵進行情緒辨識,同時利用攝影機內建收音麥克風所錄 製的嬰兒聲音,分析其情緒並進行分類。結合嬰兒臉部表情及聲音,希望藉由跨 領域的結合提高情緒辨識的正確率,並藉此得知嬰兒目前情緒狀況及統計嬰兒的 長期情緒分佈,幫助父母了解嬰兒的情緒變化及生理需求,並更有效率的安撫及 滿足嬰兒的需求。

第二節 研究環境與設備

嬰兒在 0 歲至 1 歲時,四肢尚未發育健全且需要受到他人保護,所以主要的 活動範圍以家裡為主。由於四肢尚未發育健全,所以嬰兒不會有太大的肢體動作,

故將攝影機架設於嬰兒所處地點,即嬰兒床或嬰兒車的前方,拍攝嬰兒臉部影像。

圖 3.1 為嬰兒情緒辨識系統設備架設圖,而實際拍攝影像如圖 3.2 所示。

圖 3.1 嬰兒情緒辨識系統架設示意圖。

圖 3.2 嬰兒情緒辨識系統實際拍攝影像圖。

15

第三節 系統流程

Local Ternary Pattern (LTP)

LTP Image Difference Accumulation

Zernike Moments Calculation Gray Color Space

Transformation

Color Space Transformation

Infant Face Localization Skin Color Pixel Detection

Connected Component Labeling Is object

size suitable?

Skin Color Parameter Adaptation

Face Region Normalization Y

Audio Visual

Fast Fourier Transform

Triangular Bandpass Filters

Discrete Cosine Transform

Delta Cepstrum 藍色區塊(infant face detection)、綠色區塊(face feature extraction)及紫色區塊(speech feature extraction)。每一個步驟又可細分為若干子步驟,如圖中粉紅色區塊所示。

系統啟動後會分別進入流程圖中的藍色區塊(針對影像部分作處理)及紫色區塊 (針對聲音部分作處理)。

16

Infant face detection 中第一個步驟是 color space transformation,本步驟的主要 目的是將系統所讀取的影像進行色彩空間轉換,即將影像從 RGB 色彩空間轉換 至 NCC(normalized color coordinates)色彩空間。然後系統進入下個步驟 skin color pixel detection,利用 Soriano 等人[Sor02]所提出 Locus model 擷取出影像中可能是 嬰兒膚色的區域。然後判斷膚色區域範圍大小是否適當(Is object size suitable?),

若系統所判斷的膚色區域範圍未介於整體影像的 30%至 40%,則會進入 skin color parameter adaptation,該步驟利用黃律嘉[黃 11]修正 Locus model 中 T 值的設定方 法,調整 T 值使得膚色區域範圍介於整體影像的 30%至 40%。若符合上述標準,

則會進行 connected component labeling,系統使用外輪廓線來描述影像中膚色區 域的各個區塊,計算每個區塊的大小,並同時填補各個區塊的破損處。然後經由 區塊分析找到嬰兒臉部區域(infant face localization),以去除嬰兒非臉部的膚色區 塊。嬰兒臉部區域找到後系統即可擷取出嬰兒臉部區域的影像,為了降低之後處 理的計算量及加快系統處理的速度,本系統將嬰兒臉部影像降維至 150

150 像 素大小,即進行 face region normalization。

Infant face detection 之後,系統針對其影像部分會進入 face feature extraction 步驟,以擷取出嬰兒臉部區域的特徵。首先將 face region normalization 後的影像 做 gray color space transformation。然後轉換成 local ternary pattern(LTP),轉換的 主要目的是標示影像中嬰兒臉部輪廓。然後系統會將每張影像與前一張影像相減 所得到的差分影像累積起來(LTP image difference accumulation),但考慮到時間的 關係,所以將累積過後的差分影像,設計了一個衰退(decay)的機制,以淘汰時間 較久之前的差分影像。之後系統計算累積過後的差分影像 0 階至 3 階的 Zernike moments 值(Zernike moments calculation),當作嬰兒臉部特徵使用。

Speech feature extraction 中第一個步驟為 pre-emphasis,該步驟是為了補償語 音訊號中受到發音系統所壓抑的高頻部分。由於語音訊號的分析必須建立在穩定 且有限的時間上,所以系統將語音訊號切割成多段音框(frame blocking)。然後系 統進行 hamming window,其主要是為了增加切割過後的音框左端及右端的連續 性。由於語音訊號在時域上的變化較難觀察出該訊號的特性,所以系統將語音訊 號透過快速傅立葉轉換從時域轉至頻域(fast Fourier transform)。然後系統進行下個 步驟 triangular bandpass filters,該步驟模擬人耳的聽覺特性,對低頻部分擷取較

17

多特徵,對高頻部分擷取較少特徵,以此條件去計算頻帶能量強度。之後系統將 頻帶能量強度轉換至倒頻譜(discrete cosine transform),其倒頻譜參數即為 MFCCs,

除了上述的倒頻譜參數,為了顯示倒頻譜係數對時間的變化,系統計算差量倒頻 譜係數(delta cepstrum)。本系統將倒頻譜係數及差量倒頻譜係數當作嬰兒聲音特 徵使用。

得到嬰兒臉部特徵及嬰兒聲音特徵就可以進入 emotion classification,該步驟 使用計算出的嬰兒臉部表情特徵及嬰兒聲音特徵進行分類,最後系統將表情分類 結果及聲音分類結果整合成嬰兒情緒類別並輸出該分類結果。

18