• 沒有找到結果。

結合臉部表情及聲音之嬰兒情緒辨識系統

N/A
N/A
Protected

Academic year: 2021

Share "結合臉部表情及聲音之嬰兒情緒辨識系統"

Copied!
80
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:方瓊瑤 博士. 結合臉部表情及聲音之嬰兒情緒辨識系統 An Infant Emotion Recognition System Using both Facial Expressions and Vocalization. 研究生:馬仲文 撰 中華民國 一百零四年 六月.

(2) 摘要 嬰兒的情緒發展會影響未來的學習力、注意力甚至於成長後的個性及人際關 係,而在人一生的情緒發展中以嬰兒時期的情緒發展最為重要。所以若是能得知 嬰兒目前情緒及生理需求並予以滿足,對未來發展影響甚大,然而嬰兒在 1 歲之 前只能使用臉部表情及不帶詞意的聲音來向父母表達自己目前的情緒及生理需 求。所以本論文開發一套結合嬰兒臉部表情及聲音的監控系統,適時協助轉達嬰 兒情緒,以減輕父母照顧嬰兒的負擔,更幫助父母妥善的照顧嬰兒。 本系統一開始分成兩部分執行,一部分為影像部分,另一部分為聲音部分。 影像部分主要分為嬰兒臉部偵測及臉部特徵擷取,當系統讀入連續的嬰兒影像 後,會從影像中擷取膚色區域並從這些膚色區域中找出嬰兒的臉部區域。接著採 用 local ternary pattern 標示影像中嬰兒臉部輪廓,並進行差分影像累積,最後計 算累積差分影像中 0 階至 3 階的 Zernike moments 值,當作嬰兒臉部特徵使用。 而聲音方面利用常見的 mel frequency cepstral coefficients 與其差量倒頻譜係數當 作嬰兒聲音特徵使用。最後利用 support vector machine 將影像及聲音特徵分別進 行分類,並將兩者分類結果整合成嬰兒情緒類別。 實驗影片共有 100 段,其中每段影片僅包含單一情緒類別,合計影片長度為 100 分鐘,拍攝嬰兒之月齡為 1 個月至 7 個月,而嬰兒情緒辨識之平均正確率約 為 85.3%,由此可知,本系統的辨識結果具有一定的可信度。 關鍵字:嬰兒監控系統、臉部偵測、嬰兒情緒辨識、區域三元化圖形(LTP)、Zernike moments、梅爾頻率倒頻譜係數(MFCCs)。. I.

(3) Abstract The emotional development of infants will affect their learning ability, attention, personality and interpersonal in the future, thus it is very important in the life of person. However infants are difficult to use words to express their emotions or physiological needs, others can understand their emotion or physiological needs by their facial expressions, vocalization, and body movements. Therefore, the study presents an infant emotion recognition system using both facial expressions and vocalization to reduce the burden of parents to take care of the infants. The system can be divided into two parts: image processing part and speech processing part. Image processing part consists of two main stages: infant face detection and facial expression feature extraction. In the infant face detection stage, the system detects the skin color pixels from the input images and uses the connect component technology to find the biggest skin color region which is regarded as the face of infants. In the facial expression feature extraction stage, the system uses the local ternary pattern technology to label the face contour of the infants and calculates the values of 0 to 3 order Zernike moments in the cumulative difference image. In speech processing part, the system uses common mel frequency cepstral coefficients and its delta cepstrum coefficients as speech features. Finally the system uses support vector machine to classify the facial expression features and vocalization respectively. By combining two types of classification results, the system gets the emotion of the infants. The number of experimental sequence is 100 with total length 100 minutes and the infants in these sequences are 1-7 months old. Each sequence only contains one emotion, while the average rate of infant emotions is 85.3%. As a result, the proposed system is robust and efficient. Index terms- infant monitory system, face detection, infant emotion recognition, local ternary pattern(LTP), Zernike moments, mel frequency cepstral coefficients(MFCCs).. II.

(4) 誌謝 一本論文的完成,需要花費許多心血及時間,而本論文可以完成,首先要感 謝我的指導教授方瓊瑤老師,在研究生的日子裡,老師總是不厭其煩的教導我並 在研究上給予許多建議,指出研究上不足之處並細心修改,使得本論文能更加完 整。老師除了教導我做研究的方法更教導我做人處事的道理,讓我學習到一些課 本學習不到的觀念,使我獲益良多。接著感謝侯文娟老師及黃于飛老師抽空審查 我的論文並在口試時給予許多建議,讓我了解我的研究成果有何缺失並加以改 進。 另外也非常感謝我的學姊巧珊,感謝她在忙碌的碩二生活中,仍花時間給予 我許多學業上的建議及教導,讓我能安安穩穩的走過徬徨的碩一生活。感謝我的 研究室夥伴良謙、亦鈞及雯婷,謝謝你們與我一起辛苦奮鬥並與我相互討論,解 決我許多生活上及研究上的問題。感謝研究室的學弟妹璩瑄、士賢及思漢,謝謝 你們協助我的研究並在我心情不好時,放鬆我的心情,並時常添購食物,讓我在 壓力大時能抒發我的情緒。另外感謝同屆夥伴士傑、冠宇、玉婷、昱翰、孟霖、 昆賢、淳雅、聖池等人,謝謝你們陪我一起吃喝玩樂並在研究上給予許多寶貴的 建議。 最後,感謝我的家人,忍受我的早出晚歸並在我煩悶時給我關心及鼓勵,讓 我在研究過程中能無憂無慮並堅持下去。特別感謝紹峻在研究期間的陪伴,忍受 我的無理取鬧,不斷的給予支持及鼓勵,讓我能堅持下去,更在研究上給予我許 多建議,讓我的論文得以完成。謹以此論文獻給每位給予我幫助及鼓勵的人。 馬仲文謹致 國立臺灣師範大學資訊工程研究所 中華民國 104 年 7 月. III.

(5) 目錄. 摘要.................................................................................................................................. I Abstract .......................................................................................................................... II 誌謝............................................................................................................................... III 目錄............................................................................................................................... IV 圖目錄........................................................................................................................... VI 表目錄........................................................................................................................... IX 第一章. 緒論......................................................................................................... 1. 第一節. 研究動機......................................................................................... 1. 第二節. 研究困難......................................................................................... 3. 第三節. 論文架構......................................................................................... 4. 第二章. 文獻探討................................................................................................. 5. 第一節. 情緒分類方法分析......................................................................... 5. 第二節. 情緒辨識技術之發展..................................................................... 7. 第三章. 嬰兒情緒辨識系統............................................................................... 14. 第一節. 系統目的....................................................................................... 14. 第二節. 研究環境與設備........................................................................... 14. 第三節. 系統流程....................................................................................... 15. 第四章. 嬰兒臉部偵測及表情分類................................................................... 18. 第一節. 嬰兒臉部偵測............................................................................... 18. 第二節. 臉部特徵擷取............................................................................... 24. 第三節. 表情分類....................................................................................... 31. 第五章. 嬰兒聲音分類及情緒分類................................................................... 33. 第一節. 聲音特徵擷取............................................................................... 33. 第二節. 聲音分類....................................................................................... 37. 第三節. 情緒分類....................................................................................... 40. 第六章. 實驗結果............................................................................................... 41 IV.

(6) 第一節. 嬰兒臉部偵測準確度之分析....................................................... 43. 第二節. 嬰兒臉部表情的分類結果與分析............................................... 50. 第三節. 嬰兒聲音的分類結果與分析....................................................... 54. 第四節. 結合嬰兒臉部表情及聲音所分類的情緒結果與分析............... 59. 第七章. 結論與未來工作................................................................................... 66. 第一節. 結論............................................................................................... 66. 第二節. 未來工作....................................................................................... 66. 參考文獻....................................................................................................................... 68. V.

(7) 圖目錄. 圖 1.1. 不同光線環境下所拍攝嬰兒之範例。........................................................... 4. 圖 1.2. 不同背景複雜度下所拍攝嬰兒之範例。....................................................... 4. 圖 2.1. 動作單元表示圖。........................................................................................... 6. 圖 2.2. V-A emotion plane 表示圖。 ........................................................................... 7. 圖 2.3. 一般影像領域情緒辨識流程圖。................................................................... 8. 圖 2.4. 區域二元化圖形區塊。................................................................................. 10. 圖 2.5. 區域二元化圖形運算方式示意圖。............................................................. 11. 圖 2.6. 語音領域情緒辨識流程圖。......................................................................... 11. 圖 3.1. 嬰兒情緒辨識系統架設示意圖。................................................................. 14. 圖 3.2. 嬰兒情緒辨識系統實際拍攝影像圖。......................................................... 14. 圖 3.3. 嬰兒情緒辨識系統總流程圖。..................................................................... 15. 圖 4.1. 不同 T 值的嬰兒臉部偵測範例。 ................................................................ 19. 圖 4.2. 不同輸入影像調整 T 值之 Locus model 最終膚色偵測結果。.................. 20. 圖 4.3. 連通物件標記及區塊分析之範例。............................................................. 21. 圖 4.4. 填補破損處前後比較圖。............................................................................. 21. 圖 4.5. 臉部區域縮減前後比較圖。......................................................................... 22. 圖 4.6. 臉部區域縮減示意圖。................................................................................. 23. 圖 4.7. 嬰兒臉部區域正規化。................................................................................. 24. 圖 4.8. 區域三元化圖形之 3  3 區塊。 ................................................................... 25. 圖 4.9. 區域三元化圖形運算方式示意圖(  =5)。 .................................................. 25. 圖 4.10. 原始影像與區域三元化圖形後的結果圖。............................................... 26. 圖 4.11. LTP 連續差分影像步驟圖。 ....................................................................... 27. 圖 4.12. 嬰兒臉部區域劃分圖。............................................................................... 27. 圖 4.13 SVM 原理示意圖。 ..................................................................................... 32 圖 4.14. 表情為哭的累積差分影像及上述影像 Zernike moments 值之範例。 .... 32. 圖 4.15. 表情為笑的累積差分影像及上述影像 Zernike moments 值之範例。 .... 32 VI.

(8) 圖 4.16. 表情為無表情的累積差分影像及上述影像 Zernike moments 值之範例。. ............................................................................................................................... 32 圖 5.1. 預強調之範例。............................................................................................. 34. 圖 5.2. 音框化及視窗化之範例。............................................................................. 35. 圖 5.3. 快速傅立葉轉換之結果圖。......................................................................... 36. 圖 5.4. 三角頻帶濾波器分佈圖。............................................................................. 36. 圖 5.5. 聲音為飢餓時的聲音波形圖之範例。......................................................... 38. 圖 5.6. 聲音為疼痛時的聲音波形圖之範例。......................................................... 38. 圖 5.7. 聲音為生氣時的聲音波形圖之範例。......................................................... 38. 圖 5.8. 聲音為想睡覺時的聲音波形圖之範例。..................................................... 39. 圖 5.9. 聲音為撒嬌時的聲音波形圖之範例。......................................................... 39. 圖 5.10. 聲音為笑時的聲音波形圖之範例。........................................................... 39. 圖 5.11. 聲音為無聲音時的聲音波形圖之範例。 ................................................... 39. 圖 6.1. 嬰兒影片擷取影像。..................................................................................... 43. 圖 6.2. 表情為哭時的連續影像與其臉部偵測的結果圖。..................................... 44. 圖 6.3. 表情為笑時的連續影像與其臉部偵測的結果圖。..................................... 45. 圖 6.4. 表情為無表情時的連續影像與其臉部偵測的結果圖。............................. 46. 圖 6.5. 嬰兒臉部為側臉時的連續影像與其臉部偵測的結果圖。......................... 47. 圖 6.6. 嬰兒頭部快速搖擺的連續影像與其臉部偵測的結果圖。......................... 48. 圖 6.7. 嬰兒臉部與手部一同入鏡的連續影像與其臉部偵測的結果圖。............. 49. 圖 6.8. 嬰兒表情為哭時之部分範例。..................................................................... 51. 圖 6.9. 嬰兒表情為哭被辨識為無表情時之範例。................................................. 51. 圖 6.10. 嬰兒表情為笑時之部分範例。................................................................... 52. 圖 6.11. 嬰兒表情為笑被辨識為無表情時之範例。 ............................................... 52. 圖 6.12. 嬰兒表情為無表情時之部分範例。........................................................... 53. 圖 6.13. 嬰兒表情為無表情被辨識為笑時之範例。............................................... 53. 圖 6.14. 聲音為飢餓時的聲音波形圖之範例。....................................................... 54. 圖 6.15. 聲音為飢餓時被辨識為疼痛時之範例。................................................... 54. 圖 6.16. 聲音為疼痛時的聲音波形圖之範例。....................................................... 55 VII.

(9) 圖 6.17. 聲音為疼痛時被辨識為飢餓時之範例。................................................... 55. 圖 6.18. 聲音為生氣時的聲音波形圖之範例。....................................................... 55. 圖 6.19. 聲音為生氣時被辨識為想睡覺時之範例。............................................... 55. 圖 6.20. 聲音為想睡覺時的聲音波形圖之範例。................................................... 56. 圖 6.21. 聲音為想睡覺時被辨識為撒嬌時之範例。............................................... 56. 圖 6.22. 聲音為撒嬌時的聲音波形圖之範例。....................................................... 56. 圖 6.23. 聲音為撒嬌時被辨識為飢餓時之範例。................................................... 56. 圖 6.24. 聲音為笑時的聲音波形圖之範例。........................................................... 57. 圖 6.25. 聲音為笑時被辨識為撒嬌時之範例。....................................................... 57. 圖 6.26. 嬰兒聲音為無聲音時的聲音波形圖之範例。........................................... 57. 圖 6.27. 嬰兒聲音受到雜訊干擾時的聲音波形圖之範例。................................... 59. 圖 6.28. 多情緒影片的部分連續影像。................................................................... 60. 圖 6.29. 連續結果圖之範例。................................................................................... 61. 圖 6.29(續) 連續結果圖之範例。 ............................................................................ 62 圖 6.29(續) 連續結果圖之範例。 ............................................................................ 63 圖 6.29(續) 連續結果圖之範例。 ............................................................................ 64. VIII.

(10) 表目錄. 表 1.1. 學前兒童語言發展檢核表............................................................................... 2. 表 4.1. 符號及座標對照表......................................................................................... 23. 表 4.2. 表情為哭時不同階數之 Zernike moments 的相關係數 .............................. 29. 表 4.3. 表情為笑時不同階數之 Zernike moments 的相關係數 .............................. 30. 表 4.4. 為無表情時不同階數之 Zernike moments 的相關係數 .............................. 30. 表 4.5. 表情為哭及笑時相同階數之 Zernike moments 的相關係數 ...................... 30. 表 4.6. 表情為哭及無表情時相同階數之 Zernike moments 的相關係數 .............. 30. 表 4.7. 表情為笑及無表情時相同階數之 Zernike moments 的相關係數 .............. 31. 表 5.1. 情緒類別與表情分類及聲音分類對照表..................................................... 40. 表 6.1. 電腦之硬體配備規格..................................................................................... 41. 表 6.2. 實驗資料表..................................................................................................... 42. 表 6.3. 嬰兒臉部偵測之正確率................................................................................. 50. 表 6.4. 嬰兒表情為哭時之辨識結果......................................................................... 51. 表 6.5. 嬰兒表情為笑時之辨識結果......................................................................... 52. 表 6.6. 嬰兒表情為無表情時之辨識結果................................................................. 53. 表 6.7. 嬰兒聲音之辨識結果..................................................................................... 58. 表 6.8. 嬰兒情緒的辨識結果..................................................................................... 60. IX.

(11) 第一章. 緒論. 第一節 研究動機 嬰兒(本研究定義嬰兒為 1 歲以下幼兒)的情緒發展會影響未來的學習力、注 意力甚至於成長後的個性及人際關係。研究指出嬰兒一出生情緒便開始發展[盧 93],而在人一生的情緒發展中尤以嬰兒時期的情緒發展最為重要。著名心理學家 Erikson,將情緒發展劃分為八個階段[1]。該研究指出其中階段一(即 0 歲至 1 歲 之嬰兒)情緒發展順利時,未來會容易對人類產生信任及安全感。反之若情緒發展 產生障礙時,在面對新環境時會容易產生焦慮,不容易信任他人。所以若是能得 知嬰兒目前情緒及生理需求並予以滿足,使嬰兒情緒發展順利,對其將來進入學 校甚至於進入社會有些許幫助。 嬰兒的情緒發展是人格發展的奠基期,對未來發展影響甚大。由於嬰兒的情 緒發展一生只有一次,錯過就無法重來,若出現嬰兒負面情緒頻率過高而父母不 了解原因導致無法予以滿足甚至於不加以理會,就可能造成嬰兒成長後的個性扭 曲變形,人際關係發展不順利。所以如何得知嬰兒目前情緒及生理需求並予以滿 足,就成為父母及現今社會關注的議題。 雖然嬰兒情緒相關議題相當值得關注,但由於現今社會結構已經從原本三代 同堂大家庭漸漸轉變為小家庭。若想要養育下一代,通常只能由父母獨力撫養, 或者是交由親友及托兒所照料。因此父母與嬰兒親子相處時間大幅縮減,導致父 母在無法十分了解嬰兒所表達的情緒及生理需求的情況下,不易將嬰兒情緒發展 引導到正確道路上。 而嬰兒表達情緒及生理需求的方式大致分為兩種,分別為身體動作及聲音。 嬰兒時常藉由身體動作及聲音吸引父母注意力並且以此與父母溝通,告知父母他 所表達的情緒及生理需求。 其中身體動作又細分為臉部表情及肢體動作。臉部表情為嬰兒表達情緒及生 理需求最原始的反應,是不需經過學習就與生俱來的天賦,所以父母容易直接觀 察而得知。當嬰兒情緒發生改變或產生需求時,最直接的反應就是顯現在臉上, 1.

(12) 像是快樂、悲傷、不舒服、疲倦、害怕及生氣等情緒反應。反之,因為嬰兒大腦 內部的感覺神經系統及骨骼肌肉尚未發展成熟,所以無法做出能夠吸引父母注意 力的明顯肢體動作,並利用此肢體動作來與父母溝通。 而聲音也細分為學習前聲音及學習後聲音。學習前聲音即為嬰兒的哭聲、笑 聲等不帶詞意的聲音,而學習後聲音即為語言,是經過學習後所發出具有詞意的 聲音。根據學前兒童語言發展檢核表,如表 1.1,可知嬰兒在出生後 6 個月內,只 能用哭聲或笑聲等不帶詞意的聲音來表達需求。隨著嬰兒的成長,發聲器官逐漸 成熟,在 6 個月至 1 歲時,嬰兒開始牙牙學語,發出一些模糊不清的話語。1 歲 之後嬰兒透過學習,就能使用簡略的話語向父母進行有意義的口語溝通。所以嬰 兒在出生 1 歲之內,由於發聲器官及心智尚未發展成熟,無法發出具有詞意的聲 音(即語言),與外界溝通,只能使用哭聲或笑聲等不帶詞意的聲音,表達自己目前 的情緒及生理需求。 由上述說明可知嬰兒在 1 歲之前只能使用臉部表情及不帶詞意的聲音來向父 母表達自己目前的情緒及生理需求。所以本研究針對 1 歲以內的嬰兒,使用嬰兒 臉部表情及聲音辨識嬰兒目前的情緒及生理需求。利用攝影機監控嬰兒的行為, 輔助父母判別嬰兒目前情緒及生理需求,以減輕父母照顧嬰兒的負擔,更能幫助 父母妥善的照顧嬰兒。 年紀. 表 1.1 所發聲音. 6 個月前. •. 6 個月~1 歲 •. 學前兒童語言發展檢核表[李 11]. 用哭聲或笑聲表達需求。 開始牙牙學語,發出「吧吧」或「嗎嗎」的聲音。. • •. 開始模仿大人說的語詞。 可累積到 50 個詞彙,但發音還不標準。. • •. 詞彙量突飛猛進,一天可增加 6~10 個詞彙,並開始組合 成片語甚至短句,如「媽媽抱抱」。 可理解大人的簡單問句,且開始使用問句「這是什麼?」。. 3 歲~4 歲. • • •. 句子長度與複雜度增加,發音清楚。 喜歡聽故事,會說簡單故事。 喜歡唱童謠。. 4 歲~5 歲. • •. 會描述一件事情或故事。 能說出合乎語法的句子。. 1 歲~2 歲. 2 歲~3 歲. 2.

(13) 第二節 研究困難 本研究對象設定為 0 歲至 1 歲的嬰兒,由於嬰兒在 1 歲之前只能使用臉部表 情及不帶詞意的聲音來向父母表達自己目前情緒及生理需求。而嬰兒原始的情緒 反應與其本身的生理需求直接相關,像飢餓、受到驚嚇、尿布潮濕等,會引起哭 鬧等一些不愉快的情緒。而滿足該嬰兒需求後,像飢餓感消失、安撫、更換乾淨 的尿布後,不舒適的感覺消失,情緒也會變得愉快,所以嬰兒情緒會在極短時間 內轉換。由於嬰兒情緒時常轉換,十分不穩定,導致系統要在短時間內辨識出嬰 兒情緒時,辨識困難度將會提升。 由於 0 歲至 1 歲的嬰兒,其身體活動性不大,若沒有父母在身旁協助移動, 嬰兒不容易移動身體離開監視系統拍攝的範圍,所以本研究能使用固定攝影機來 觀測嬰兒的情況。在大多數臉部表情辨識方面的研究,通常要求實驗資料是以正 面臉部為主。但是實際上嬰兒頭部轉動的情況是無法限制,像嬰兒哭泣時臉部轉 動方向是朝左邊或朝右邊,一般的表情辨識系統無法將此類型的狀況辨識成相同 的「哭泣」 ,容易導致辨識效果不佳,所以本研究必須解決嬰兒臉部轉動的問題。 本研究擬利用膚色做為嬰兒臉部特徵,來偵測出嬰兒的臉部區域,其優點是 計算較為簡易,且不容易受到嬰兒臉部轉動、部分遮蔽而影響系統偵測嬰兒臉部 區域的效率及其正確率。但是利用膚色做為嬰兒臉部特徵具有以下缺點。 (1)光線的差異:無論是在室內或室外,位於強光處或陰影處,所在區域是白光或 黃光,均會造成膚色區域其範圍值的差異。圖 1.1 所示為位於不同光線環境下所 拍攝的嬰兒。其中圖 1.1(a)為位於日光燈下,圖 1.1(b)則為位於黃燈下。由上述兩 圖可知,嬰兒位於日光燈下拍攝時較適合偵測膚色區域,因為位於黃燈下拍攝時, 其影像色彩偏向黃色系,易使得其膚色區域與背景顏色相似,導致系統難以正確 偵測出嬰兒的膚色區域。另外,圖 1.1(c)為嬰兒被陰影覆蓋時所拍攝,圖 1.1(d)則 為在正常狀況下所拍攝,由上述兩圖可知,當嬰兒被陰影覆蓋時,其影像色彩偏 暗色,易造成膚色色彩失真,增加系統辨識的困難性。 (2)嬰兒人種的差異:不同人種其膚色區域範圍均不相同,像亞洲人種膚色偏黃, 非洲人種膚色偏黑,歐美人種膚色偏白,使得系統難以設定膚色區域範圍。 (3)其他原因:攝影機拍攝所在地的背景顏色及其複雜度,均會增加膚色偵測的困 難性。圖 1.2 為攝影機架設於不同背景複雜度下所拍攝嬰兒之範例。圖 1.2(a)之拍 3.

(14) (a). (b) (c) 圖 1.1 不同光線環境下所拍攝嬰兒之範例。 (a)日光燈,(b)黃光,(c)有陰影,(d)沒有陰影。. (d). (a) (b) (c) 圖 1.2 不同背景複雜度下所拍攝嬰兒之範例。 (a)單一背景,(b)兩色背景,(c)複雜背景。 攝背景為單一色彩,圖 1.2(b)之拍攝背景為雙色色彩,圖 1.2(c)之拍攝背景為複雜 色彩。由此三圖可知,當拍攝背景的色彩越單調時,越容易區分膚色區域及背景。 反之,若拍攝背景的色彩越豐富,近似於膚色區域的色彩越多,越不易正確的區 分膚色區域及背景。 另外本系統使用攝影機內建的收音麥克風所錄製的聲音當作嬰兒產生的聲 音,所以會將嬰兒聲音及背景雜音均錄製至系統,像父母交談聲、電視聲音等背 景雜音,而該如何突顯嬰兒發出的聲音,也是困難處之一。此困難若不克服則會 導致聲音辨識結果不佳。. 第三節 論文架構 本論文共分為七章,第一章說明本研究的動機及其研究困難。第二章為文獻 探討,此章將進行情緒分類方法的分析,並比較其優劣處,及介紹目前影像領域、 語音領域辨識情緒的相關技術。第三章說明本研究的目的、研究環境、設備架設 方式及系統流程之概述。第四章將詳細解說本研究如何偵測出嬰兒臉部區域並擷 取特徵以進行表情分類。第五章將詳細解說本研究如何擷取嬰兒聲音特徵並進行 聲音分類及利用表情、聲音分類結果進行情緒分類。第六章為實驗結果展示。最 後,第七章為結論和未來工作。 4.

(15) 第二章. 文獻探討. 在進行嬰兒情緒辨識系統前,一方面需要先探討現今情緒辨識系統如何分類 情緒反應。另一方面,也需探討現今情緒辨識相關技術在影像、語音等領域之發 展,並分析相關技術之優缺點。但因目前情緒辨識系統相關研究著重於偵測成人 情緒,而偵測嬰兒方面的研究較少,因此本研究的文獻探討部分會先提到目前成 人所使用的情緒分類方法分析及情緒辨識技術之發展,再擇優並加以改良套用至 嬰兒情緒辨識系統中。本章共分兩節進行討論(1)情緒分類方法分析及(2)情緒辨識 技術之發展。. 第一節 情緒分類方法分析 大部分的情緒辨識研究[Li13][Laj12][Taw13][Val11]將成人情緒分成六類,分 別是開心(happiness)、傷心(sadness)、生氣(anger)、害怕(fear)、驚訝(surprise)及厭 惡(disgust)。其分類標準是依據 1978 年 Ekman 等人所提出的面部動作編碼系統 (Facial action coding system)[Ekm78]加以定義。 面部動作編碼系統描述人體臉部肌肉所有可能發生動作的單位集合,Ekman 根據人體臉部肌肉分佈一共定義 42 個動作單元(action units)。其中有 11 個動作單 元定義在上半臉,17 個動作單元定義在下半臉,8 個動作單元定義頭部動作,6 個 動作單元定義眼部動作。圖 2.1 為動作單元表示圖之其中 28 個範例。一個動作單 元可以用來描述臉部特定區域移動狀況,不同的動作單元也可以相互結合。這種 定義方式可以明確定義出臉部肌肉群的變化,藉由 42 個動作單元可以組合出 1 萬 多種表情,其中約有 3000 種被認為具有情感意義,但大部分的研究只使用了少部 分的動作單元組合來進行分類。 使用該六類情緒作為成人情緒辨識的類別,可以明確知道受測者目前的情緒 類別。但因為情緒類別定義明確,僅將情緒分成六類,所以捕捉到細微的情緒變 化時容易造成分類困難,因此難以應用在日常生活中。為了改進分類成六類情緒 的缺點,近來年越來越多研究[Wu13][Lin12]在表示情緒時,使用維度表示法取 5.

(16) AU1. AU2. AU4. AU5. Inner Brow Raiser AU9. Outer Brow Raiser AU41. Brow Lowerer AU42. Upper Lid Raiser AU43. Nose Wrinkler AU11. Lid droop. Slit. Eyes Closed. Squint. AU12. AU13. AU14. AU15. Upper Lip Raiser AU16. Nasolabial Deepener AU17. Lip Corner Puller AU18. Cheek Puffer. Dimpler. AU20. AU22. Lip Corner Depressor AU23. Lower Lip Depressor AU24. Chin Raiser AU25. Lip Puckerer AU26. Lip stretcher AU27. Lip Funneler AU28. Lip Tightener. Lip Pressor. Lips Part. Jaw Drop. Mouth Stretch. Lip Suck. 圖 2.1. AU6. AU7. Cheek Raiser. Lid Tightener. AU44. AU10. 動作單元表示圖[Kan00]。. 代分類成六類情緒。 維度表示法將成人情緒使用兩維連續性的空間來呈現,是依據 1989 年 Thayer 所提出的 Valence-Arousal emotion plane(V-A emotion plane)[Tha89]加以定義,如圖 2.2 所示。其中橫軸為 Valence,表示情緒愉悅程度,即受測者接受刺激之後的感 覺是正面的(positive)或負面的(negative),而縱軸為 Arousal,表示情緒起伏程度, 即受測者接受刺激之後情緒起伏高低。數值越高表示受刺激之後情緒起伏越高, 即興奮(active),反之越低,即冷靜(passive)。 由圖 2.2 中可知,V-A emotion plane 將成人情緒分為四個象限,表示受測者 接受刺激之後的狀態。第一象限為 positive-active,通常可表示為興奮、高興及舒 適等情緒。第二象限為 negative-active,通常可表示為討厭、憤怒及緊張等情緒。 第三象限為 negative-passive,通常可表示為傷心、無聊及昏昏欲睡等情緒。第四 象限為 positive- passive,通常可表示為放鬆、從容及平靜等情緒。 使用連續性空間的維度表示法呈現成人情緒辨識的結果,可以描述受測者細 微的情緒變化,且情緒類別的分佈具全面性,較符合日常生活中人類的情緒反應。 但因為其結果用維度的數值來表示,所以較不易明確將受測者目前情緒分類。 雖然維度表示法可以捕捉到受測者細微的情緒變化並符合日常生活中人類 的情緒反應,但卻犧牲六類情緒可直接分類的優點。由於本研究需要讓使用者明 6.

(17) 圖 2.2 V-A emotion plane 表示圖[Tha89]。 確了解嬰兒目前的情緒及生理需求,所以將使用上述所提到的六類情緒,加以改 良整合成適合本系統的嬰兒情緒辨識的類別。. 第二節 情緒辨識技術之發展 近年來,成人情緒辨識技術已經被廣泛應用在日常生活中,而不同的領域也 利用不同領域技術來辨識成人情緒,像是影像領域透過臉部影像,語音領域透過 聲音,醫學領域透過腦電波等其他領域技術來辨識受測者的情緒。由於本研究使 用臉部表情及聲音來辨識嬰兒目前的情緒及生理需求,所以本節將著重探討影像 領域相關技術及語音相關領域技術。本節依照領域技術的不同,分為:(A)影像領 域、(B)語音領域兩種類型來說明。 (A)影像領域 大部分成人情緒辨識研究應用於影像領域的流程如圖 2.3 所示,其流程主要 分 為 臉 部 偵 測 (face detection) 、 臉 部 表 情 特 徵 擷 取 (facial expression feature extraction)及情緒分類(emotion classification)三個階段。從許多成人情緒辨識的相 關研究中可以發現,要辨識成人情緒之前,首先要從畫面中偵測出臉部區域。而 臉 部 偵 測 分 為 兩 個 方 向 , 分 別 為 template-based approaches 及 feature-based approaches。. 7.

(18) Video Input. Face Detection. 圖 2.3. Facial Expression Feature Extraction. Emotion Classification. Result Output. 一般影像領域情緒辨識流程圖。. (1)template-based approaches 使用事先建立的標準臉部模板,將輸入的影像與模板進行比對,若比對結果 相似度高,即為臉部區域。此類型的方法需將輸入影像與模板調整成一致大小, 使得輸入影像與模板在相同的條件下進行比對。 Cootes 等人[Coo95]使用主動形狀模型(active shape model;ASM)作為模板, 該模板使用若干個特徵點(眉毛、眼睛、鼻子、嘴巴及臉部輪廓線)來表示其幾何形 狀,將其特徵點座標連成一個形狀向量,以表示整個物體。將此模板與輸入影像 進行比對,最後使用主成份分析(principal componet analysis;PCA)演算法來偵測 臉部區域。其優點為利用模板與輸入影像進行比對,可以快速找出臉部五官的相 對位置。但由於主動形狀模型僅使用正臉的影像來建立模板,所以使用在正臉上 其臉部偵測效果較佳,容易受到臉部轉動而影響臉部偵測的正確率。 為了改善主動形狀模型容易受到臉部轉動影響偵測效果的缺點,因此 Wang 等人[Wan09]預先拍攝多種光線、角度、姿勢及表情的臉部影像來建立一系列的臉 部模板,使得該模板能容忍光線、角度、姿勢及表情變化。雖然該模板適用於多 種狀況下,但其缺點為需要預先蒐集多種狀況的影像來建立模板,前置處理十分 耗時。 Chen 等人[Che09]使用半邊臉的模板來進行臉部偵測,該方法是為了辨識臉 部左右轉動的情況,且由於該模板僅使用半邊臉,所以可以降低建立模板所花費 的時間。因建立模板時僅使用半邊的正臉,所以當受測者抬頭或低頭時其辨識率 並不良好。 (2)feature-based approaches 部分研究在進行臉部偵測前需要先擷取臉部特徵,而此類的臉部特徵,包括 8.

(19) 臉部輪廓、皮膚紋理及膚色等,利用此特徵資訊擷取臉部區域,再使用經驗法則 或機器學習,經過學習之後產生出臉部及非臉部區域的規則。 Geetha 等人[Gee09]利用連續影像的移動資訊,將前後兩張影像相減得到移動 物的輪廓。但由於得到的輪廓不一定是臉部區域,所以該研究結合色彩資訊找出 屬於臉部區域的輪廓。但若是臉部區域被部分遮蔽時,其輪廓尋找的結果並不良 好,因此會影響到臉部偵測的結果。 陳秋利[陳 10]已開發出「自動膚色範圍界定之嬰兒臉部偵測表情辨識系統」 。 該研究分析三個色彩空間,RGB、HSI、YCrCb 色彩空間,選擇對膚色較集中的三 個 bands──H、Cr、Cb 當作顏色特徵空間。用 k-means clustering 將影像中的顏色 區塊作分割,並從影像中選擇在 H、Cr、Cb 空間中最接近膚色的區塊當作臉部。 其優點為使用接近膚色的區塊當作臉部,所以不會受到嬰兒頭部的轉動或是嬰兒 臉部被部分遮蔽而影響臉部偵測的結果,但其缺點為 k-means clustering 中 k 值難 以選定。 黃律嘉[黃 11]已開發出「以主成份分析為基礎之嬰兒表情辨識系統」 。該研究 首先把 RGB 色彩空間轉成 NCC (normalized color coordinates)色彩空間,然後根據 Soriano 等人[Sor02]所提出的 Locus model 作為臉部偵測的主要依據。但由於 Locus model 並不能完全去除近似膚色的背景,所以黃律嘉[黃 11]修正 Locus model 中 T 值的設定,使得嬰兒臉部偵測的結果更加完整。其優點為該方法計算量少,適用 於即時偵測,且藉由修正 Locus model 中 T 值的設定可以使得該方法適用於複雜 背景。但其缺點為每張影像中的 T 值均需調整,會增加系統處理的時間。 綜合上述針對臉部偵測技術的探討,本研究使用顏色作為特徵去進行嬰兒臉 部偵測。雖然嬰兒膚色根據不同人種或處於不同環境下有所差異,但其主要差異 在於亮度的強弱而非色度。只要找出適合的色彩空間,便可以解決上述之問題, 增加膚色資訊的穩定性。且該方法不易受到臉部轉動及臉部區域部分遮蔽,而影 響臉部偵測的準確率。 在偵測出影像中的臉部區域後,情緒辨識系統下個重要步驟,即為特徵擷取。 Li 等人[Li13]使用主動形狀模型偵測臉部區域,將輸入影像對應至該模板後,擷 取對應特徵點所聯成的形狀向量當作特徵使用。然後使用貝氏分類器分類,將情 緒分類為六類──開心、傷心、生氣、害怕、驚訝及厭惡。其缺點為模板僅使用正 9.

(20) 臉建立,所以當受測者是正臉時辨識效果較為良好。 Siritanawany 等人[Sir14]使用運動歷史影像(motion history image;MHI)當作 情緒辨識的特徵使用。該方法對多張影像進行分析,利用時間模板來記錄不同時 間的臉部輪廓,進而計算臉部區域的運動軌跡。然後使用最近鄰居法(k-nearest neighbor algorithm)進行分類,將情緒分類為七類──開心、傷心、生氣、害怕、驚 訝、厭惡及無表情。其缺點為需限制受測者必須是正臉且受測者臉部不能大幅移 動。 Cruz 等人[Cru14]使用區域二元化圖形(local binary patterns;LBP)當作情緒辨 識的特徵。該方法是一種用來描述圖形的局部紋理特徵,具有計算簡單且其 LBP 值不易受到光線影響而改變的優點。原始的區域二元化圖形將一張影像的每個像 素依序作為中心點,以此中心點與其周圍 8 個像素形成一個 3  3 的區塊,定義此 區塊中心為 Pc,周圍 8 個像素從左上角開始依照順時針的順序定義為 P1 至 P8, 其區塊如圖 2.4 所示。然後將中心點(Pc)的灰階值當作門檻值,並分別與周圍的 8 個像素(P1 至 P8)的灰階值進行比較,若周圍像素的灰階值大於中心點的灰階值, 則該像素點的位置被標記為 1,否則為 0,即公式(2-1)。 1 Pc  Pi LBP ( Pc , Pi )   0 Pc  Pi. where. i  1,2, ,8. (2-1). 利用公式(2-1)可將區塊內周圍的 8 個像素依序從 P1 至 P8 排列成一組二元化 的編碼,將此二元化的編碼轉成十進制後,所得到的數值即為該中心點的 LBP 值, 其運算方式之示意圖如圖 2.5 所示。依照上述運算方式,依序取得影像中所有像 素點的 LBP 值,即可以用來代表此影像的特徵。計算完該影像的特徵之後,Cruz 等人[Cru14]使用支持向量機(support vector machine;SVM)進行分類,將情緒分類 為六類──開心、傷心、生氣、害怕、驚訝及厭惡。該方法的處理效率及描. 圖 2.4. P1. P2. P3. P8. Pc. P4. P7. P6. P5. 區域二元化圖形區塊。 10.

(21) 12. 26. 4. 0. 86. 25. 51. 1. 1. 0 01010001. 1. LBP value: 81 9. 8. 17. 0. 圖 2.5. 0. 0. 區域二元化圖形運算方式示意圖。. 述力皆有不錯的表現,但其缺點為影像容易受到雜訊干擾,當影像受到雜訊干擾 時,取得的 LBP 值誤差可能會非常大。 綜合上述針對特徵擷取的探討,本研究使用區域三元化圖形作為特徵去進行 嬰兒臉部特徵擷取。區域三元化圖形改良自區域二元化圖形,其主要想法為改變 區域二元化圖形編碼時周圍像素(P1 至 P8)灰階值與中心點(Pc)灰階值之間的關係, 是為了解決區域二元化圖形易受到雜訊干擾所提出的方法,其優點為增加抗雜訊 能力且不易受到光線干擾。 (B)語音領域 一般來說語音領域情緒辨識流程如圖 2.6 所示,主要分為語音訊號前處理 (speech signal preprocessing)、語音訊號特徵擷取(speech signal feature extraction)以 及情緒分類(emotion classification)三個主要階段。語音訊號前處理主要目的是將聲 音的類比訊號轉換成可供電腦處理的數位訊號,且過濾掉錄音環境中的背景雜訊 及錄音設備的噪音。進行完語音訊號前處理後,語音領域情緒辨識的下個重要階 段為語音訊號特徵擷取,而其中影響語音領域情緒辨識準確率的因素,首重於語 音特徵之擷取。 Pal 等人[Pal06]使用嬰兒聲音的基頻及第一、二、三共振峰當作特徵使用,將 嬰 兒 情 緒 分 成 生 氣 (anger) 、 疼 痛 (pain) 、 傷 心 (sadness) 、 飢 餓 (hunger) 及 害 怕. Speech Signal Preprocessing. Speech Signal Feature Extraction. 圖 2.6. Emotion Classification. 語音領域情緒辨識流程圖。 11. Result Output.

(22) (fear)。該方法的缺點為使用基頻等特徵參數,與辨識者相關性太高,若單獨使用 於一位嬰兒,情緒辨識效果較佳,若使用於多個嬰兒易造成辨識率太低的結果。 Sato 等人[Sat96]在辨識成人情緒時,使用線性預估參數(linear prediction coding coefficients;LPC)當作特徵,利用類神經網路辨識其結果,其情緒類別使 用一個情緒空間來呈現,以求不同情緒位於該空間內的相對位置及方向。該方法 的主要概念為對某個取樣點而言,其振幅與相近取樣點的振幅具有相關性,所以 可以由前面幾個訊號樣本值去進行線性預估。其優點為可以使用較少的參數,表 示出此段聲音的訊號特徵,使計算量降低。其缺點為預估出的模型屬於線性模型, 然而人類發出的聲音並非是個完全的線性模型。 游祿勳[游 07]已於 2007 年開發一套嬰兒情緒哭聲辨識系統,該研究利用倒 頻譜(cepstrum)、梅爾頻率倒頻譜係數(mel frequency cepstral coefficients;MFCCs) 及線性預估參數三種不同的語音特徵參數,並使用類神經網路及最近鄰居法辨識 其結果,將嬰兒哭聲分成五種,即秤重(scale)、洗澡(bath)、飢餓(hunger)、打針 (injection)及酒精(alcohol)。該研究探討不同的語音特徵參數針對嬰兒哭聲的辨識 情形,其中選擇 MFCCs 作為語音特徵的分類結果,其平均辨識率約為 81.5%。 Singh 等人[Sin13]使用 epoch interval contour(EIC)及梅爾頻率倒頻譜係數(mel frequency cepstral coefficients;MFCCs)作為嬰兒哭聲的特徵,接著利用高斯混合 模型(Gaussian mixture model;GMM)建立各分類的模型並辨識其結果,將嬰兒哭 聲分成三種,即飢餓(hunger)、疼痛(pain)及尿布濕(wet-diaper)。該研究結合兩種 語音特徵使得嬰兒哭聲辨識率略為上升,但其缺點為建立高斯混合模型時需要使 用大量訓練資料才能建立出良好的模型。 綜合上述針對聲音特徵擷取的探討,本研究使用 MFCCs 作為語音特徵來描 述嬰兒聲音。因為人類聽覺系統的特性,對低頻部分攫取較多特徵,而高頻部分 攫取較少特徵,而 MFCCs 為配合人類聽覺特性,在頻域中以梅爾刻度劃分頻帶, 其辨識效果會比線性劃分頻帶的效果好,所以選擇 MFCCs 作為語音特徵。 綜合上述針對表情及聲音情緒辨識的探討,可知由表情將情緒分類的結果較 為粗略,像開心、哭泣、生氣、害怕、驚訝及厭惡等情緒。而聲音表達較為細緻, 可將情緒分類成較細微的情緒,像哭泣可細分為因飢餓而哭泣或因疼痛而哭泣等 較細緻的情緒。由於本研究希望輔助父母判別嬰兒目前情緒及生理需求,將結合 12.

(23) 嬰兒臉部表情及聲音進行情緒辨識,使用嬰兒臉部表情將嬰兒情緒分成較為粗略 的情緒,再結合嬰兒所發出的聲音將嬰兒情緒分為較細緻的情緒,結合兩者分類 結果以判別嬰兒目前的情緒及生理需求。. 13.

(24) 第三章. 嬰兒情緒辨識系統. 第一節 系統目的 本研究所提出之嬰兒情緒辨識系統,針對 0 歲至 1 歲的嬰兒所設計,將攝影 機架設於嬰兒床前或嬰兒椅前,利用攝影機所拍攝的影像自動進行嬰兒臉部偵 測,擷取出該嬰兒臉部特徵進行情緒辨識,同時利用攝影機內建收音麥克風所錄 製的嬰兒聲音,分析其情緒並進行分類。結合嬰兒臉部表情及聲音,希望藉由跨 領域的結合提高情緒辨識的正確率,並藉此得知嬰兒目前情緒狀況及統計嬰兒的 長期情緒分佈,幫助父母了解嬰兒的情緒變化及生理需求,並更有效率的安撫及 滿足嬰兒的需求。. 第二節 研究環境與設備 嬰兒在 0 歲至 1 歲時,四肢尚未發育健全且需要受到他人保護,所以主要的 活動範圍以家裡為主。由於四肢尚未發育健全,所以嬰兒不會有太大的肢體動作, 故將攝影機架設於嬰兒所處地點,即嬰兒床或嬰兒車的前方,拍攝嬰兒臉部影像。 圖 3.1 為嬰兒情緒辨識系統設備架設圖,而實際拍攝影像如圖 3.2 所示。. 圖 3.1. 圖 3.2. 嬰兒情緒辨識系統架設示意圖。. 嬰兒情緒辨識系統實際拍攝影像圖。 14.

(25) 第三節 系統流程 System Start Audio. Visual. Sequence Input. Speech Feature Extraction. Pre-emphasis. Color Space Transformation. Frame Blocking. Infant Face Detection. Skin Color Pixel Detection. Hamming Window. Is object size suitable?. N. Skin Color Parameter Adaptation. Y. Fast Fourier Transform. Connected Component Labeling. Triangular Bandpass Filters Infant Face Localization Discrete Cosine Transform. Face Region Normalization Delta Cepstrum. Gray Color Space Transformation Emotion Classification. Face Feature Extraction. Local Ternary Pattern (LTP) LTP Image Difference Accumulation Zernike Moments Calculation. Output. 圖 3.3. 嬰兒情緒辨識系統總流程圖。. 嬰兒情緒辨識系統之流程如圖 3.3 所示,主要分為三個重要的步驟,分別為 藍色區塊(infant face detection)、綠色區塊(face feature extraction)及紫色區塊(speech feature extraction)。每一個步驟又可細分為若干子步驟,如圖中粉紅色區塊所示。 系統啟動後會分別進入流程圖中的藍色區塊(針對影像部分作處理)及紫色區塊 (針對聲音部分作處理)。 15.

(26) Infant face detection 中第一個步驟是 color space transformation,本步驟的主要 目的是將系統所讀取的影像進行色彩空間轉換,即將影像從 RGB 色彩空間轉換 至 NCC(normalized color coordinates)色彩空間。然後系統進入下個步驟 skin color pixel detection,利用 Soriano 等人[Sor02]所提出 Locus model 擷取出影像中可能是 嬰兒膚色的區域。然後判斷膚色區域範圍大小是否適當(Is object size suitable?), 若系統所判斷的膚色區域範圍未介於整體影像的 30%至 40%,則會進入 skin color parameter adaptation,該步驟利用黃律嘉[黃 11]修正 Locus model 中 T 值的設定方 法,調整 T 值使得膚色區域範圍介於整體影像的 30%至 40%。若符合上述標準, 則會進行 connected component labeling,系統使用外輪廓線來描述影像中膚色區 域的各個區塊,計算每個區塊的大小,並同時填補各個區塊的破損處。然後經由 區塊分析找到嬰兒臉部區域(infant face localization),以去除嬰兒非臉部的膚色區 塊。嬰兒臉部區域找到後系統即可擷取出嬰兒臉部區域的影像,為了降低之後處 理的計算量及加快系統處理的速度,本系統將嬰兒臉部影像降維至 150  150 像 素大小,即進行 face region normalization。 Infant face detection 之後,系統針對其影像部分會進入 face feature extraction 步驟,以擷取出嬰兒臉部區域的特徵。首先將 face region normalization 後的影像 做 gray color space transformation。然後轉換成 local ternary pattern(LTP),轉換的 主要目的是標示影像中嬰兒臉部輪廓。然後系統會將每張影像與前一張影像相減 所得到的差分影像累積起來(LTP image difference accumulation),但考慮到時間的 關係,所以將累積過後的差分影像,設計了一個衰退(decay)的機制,以淘汰時間 較久之前的差分影像。之後系統計算累積過後的差分影像 0 階至 3 階的 Zernike moments 值(Zernike moments calculation),當作嬰兒臉部特徵使用。 Speech feature extraction 中第一個步驟為 pre-emphasis,該步驟是為了補償語 音訊號中受到發音系統所壓抑的高頻部分。由於語音訊號的分析必須建立在穩定 且有限的時間上,所以系統將語音訊號切割成多段音框(frame blocking)。然後系 統進行 hamming window,其主要是為了增加切割過後的音框左端及右端的連續 性。由於語音訊號在時域上的變化較難觀察出該訊號的特性,所以系統將語音訊 號透過快速傅立葉轉換從時域轉至頻域(fast Fourier transform)。然後系統進行下個 步驟 triangular bandpass filters,該步驟模擬人耳的聽覺特性,對低頻部分擷取較 16.

(27) 多特徵,對高頻部分擷取較少特徵,以此條件去計算頻帶能量強度。之後系統將 頻帶能量強度轉換至倒頻譜(discrete cosine transform),其倒頻譜參數即為 MFCCs, 除了上述的倒頻譜參數,為了顯示倒頻譜係數對時間的變化,系統計算差量倒頻 譜係數(delta cepstrum)。本系統將倒頻譜係數及差量倒頻譜係數當作嬰兒聲音特 徵使用。 得到嬰兒臉部特徵及嬰兒聲音特徵就可以進入 emotion classification,該步驟 使用計算出的嬰兒臉部表情特徵及嬰兒聲音特徵進行分類,最後系統將表情分類 結果及聲音分類結果整合成嬰兒情緒類別並輸出該分類結果。. 17.

(28) 第四章. 嬰兒臉部偵測及表情分類. 本章介紹嬰兒臉部偵測及表情分類的方法,分為三個步驟,分別為嬰兒臉部 偵測(infant face detection)、臉部特徵擷取(face feature extraction)及表情分類(facial expression classification),各步驟的詳細過程將在本章討論。本章將在第一節介紹 嬰兒臉部區域偵測(infant face detection)細部流程,第二節介紹臉部特徵擷取(face feature extraction)細部流程,第三節介紹表情分類(facial expression classification)細 部流程。. 第一節 嬰兒臉部偵測 嬰兒臉部偵測主要步驟為(1)色彩空間轉換(color space transformation)、(2)膚 色區域偵測(skin color pixel detection)、(3)連通物件標記(connected component labeling)、(4)區塊分析(infant face localization)及(5)臉部區域正規化(face region normalization)。本節依照執行步驟的順序,分為:(A)色彩空間轉換及膚色區域偵 測、(B)連通物件標記及區塊分析及(C)臉部區域正規化來說明。 (A)色彩空間轉換及膚色區域偵測 RGB 色彩空間,其色彩是使用紅、綠、藍當作主要頻譜成份表示,但缺點為 該色彩空間對光線變化十分敏感,所以 Soriano 等人[Sor02]提出了 normalized RGB 的色彩空間。該研究對 RGB 色彩空間作正規化,將 RGB 色彩空間轉換成 normalized color coordinates(NCC)色彩空間,以減少顏色對於亮度的依賴。本系統 根據 Soriano 等人所提出的膚色區域判斷標準作為臉部偵測的主要依據,將 RGB 色彩空間轉換至 NCC 色彩空間,其轉換公式為: r. R RG B. (4-1). g. G RG B. (4-2). b  1 r  g. (4-3). 公式(4-1)、公式(4-2)及公式(4-3)分別為正規化後的紅色、綠色及藍色成份, 18.

(29) 其目的是減少色彩對亮度的依賴。完成色彩空間轉換後,即可進行膚色區域偵測。 Soriano 等人使用兩個二次方程式分別定義膚色區域的上界和下界並將此封閉區 域取名為 Locus model。其上界和下界的二次方程式定義為:. F1 (r )  1.376r 2  1.0743r  0.1452. (4-4). F2 (r )  0.776r 2  0.5601r  0.1766. (4-5). 但其 Locus model 將白色(r = 0.33 及 g = 0.33)包含於其中,為了去除接近白 色的像素,所以以白色(r = 0.33 及 g = 0.33)為圓心設定一個半徑為 T 的圓,將 r、 g 值位於圓內的像素視為雜訊。其圓之方程式定義如下。 F3 (r , g )  (r  0.33) 2  ( g  0.33) 2. (4-6). 結合公式(4-4)、公式(4-5)及公式(4-6)即可定出膚色區域範圍的判定公式,即 公式(4-7)。如果像素在 rg 色彩空間的分佈符合公式(4-7)的第一個條件,就將其標 定為膚色區域(S = 1),反之,標定為背景(S = 0)。. (a). (b). (c). (d). (e). (f) (g) 圖 4.1 不同 T 值的嬰兒臉部偵測範例。 (a)輸入影像;(b)T = 0.001;(c)T = 0.002;(d)T = 0.003;(e)T = 0.004;(f)T = 0.005;(g)T = 0.006 膚色偵測的結果。 1 S  0. if (( F2 (r )  g  F1 (r )) & ( F3 (r , g )  T )) otherwise 19. (4-7).

(30) 然而當背景色彩接近膚色時,公式(4-7)不一定能濾除背景色彩接近膚色的像 素點,所以黃律嘉修正 Locus model 中 T 值的設定,藉由調整以 r = 0.33 及 g = 0.33 為圓心的圓形半徑 T,以濾除更多接近膚色的背景點。該方法使得 Locus model 得以適用於每張影像,但其缺點為每張影像中的 T 值均需動態調整。本系統修改 黃律嘉[黃 11]設定 T 值的方法,使用 binary search 來調整 T 值,以加快 T 值的調 整時間。又因為在影片連續的情況下,其 T 值調整幅度並不大,所以將每張影像 均需調整 T 值更改為每 30 秒調整一次 T 值,以加快系統執行的時間。圖 4.1 為不 同 T 值的嬰兒臉部偵測範例,由觀察可知當 T 值越小時其膚色面積越大,當 T 值 越大時其膚色面積越小,T 值的大小與其膚色面積呈現反比。其中圖 4.1(g)為調整 T 值之 Locus model 最終膚色偵測結果。 本系統初始化時,給定 T = 0.001,T 值最大值設定為 0.05,使用 Locus model 找到嬰兒膚色範圍後,若膚色區域占整體影像的比例超過 40%時,將會使 binary search 調整 T 值,直到膚色區域占整體影像的比例小於 40%為止。圖 4.2 為各種 不同輸入影像使用調整 T 值之 Locus model 最終膚色偵測結果。. 圖 4.2. 不同輸入影像調整 T 值之 Locus model 最終膚色偵測結果。 20.

(31) (a). (b). (c) (d) 圖 4.3 連通物件標記及區塊分析之範例。 (a)輸入影像;(b)連通物件標記之結果圖;(c)做完連通物件標記且取最大區塊之 結果圖;(d)區塊分析之結果圖。. (a). (b). (c) (d) 圖 4.4 填補破損處前後比較圖。 (a)填補破損處前之影像;(b)影像(a)之 LTP 結果圖;(c)填補破損處後之影像;(d) 影像(c)之 LTP 結果圖。 (B)連通物件標記及區塊分析 由於系統將攝影機架設在嬰兒床或嬰兒椅上拍攝嬰兒的臉部區域,沒有限制 其雙手的活動範圍,所以影像中膚色區域,可能包含嬰兒臉部及手部區塊,為了 分開嬰兒臉部及手部區塊,系統進行連通物件標記及區塊分析。 本系統使用外輪廓線來描述影像中膚色區域的各個區塊,如圖 4.3(b)所示。 21.

(32) (a). (b). (c) (d) 圖 4.5 臉部區域縮減前後比較圖。 (a)臉部區域縮減前之嬰兒臉部區域擷取圖;(b) (a)中兩張影像之 LTP 差分影像; (c)臉部區域縮減後之嬰兒臉部區域擷取圖;(d) (c)中兩張影像之 LTP 差分影像。 計算每個區塊的面積大小,並從中選出面積最大的區塊當作嬰兒臉部區域,如圖 4.3(c)所示。由於本系統使用外輪廓線來描述影像中膚色區域的各個區塊,所以不 需填補各個區塊的破損處,就可以保持嬰兒臉部區域的完整性,如圖 4.3(d)所示。 由於臉部區塊的破損處與相鄰膚色區域的色彩差異明顯,在後續進行區域三 元化圖形時破損處容易被突顯,如圖 4.4(b)。因此,使用外輪廓線來描述膚色區 域的方法可在系統進行區域三元化圖形時僅突顯臉部輪廓線與五官,後續進行差 分影像處理時不會受到破損處的干擾,如圖 4.4(d)。 (C)臉部區域正規化 由於每張影像中經過膚色區域偵測出的嬰兒臉部區域其長與寬均不相同,若 單純僅將嬰兒臉部區域擷取(如圖 4.5(a)),後續進行 LTP 差分影像會造成嬰兒臉 部輪廓線無法準確重疊,導致特徵擷取時產生極大誤差,如圖 4.5(b)。 為了解決嬰兒臉部輪廓線無法準確重疊的問題,本系統會先給定一常數 s, 並將影像中屬於嬰兒臉部區域的最大 x 及 y 值分別設為 max_x 及 max_y,最小 x 及 y 值分別設為 min_x 及 min_y,其中臉部區域縮減示意圖如圖 4.6 所示,符號及 座標對照表如表 4.1 所示,並依序照以下步驟去縮減嬰兒臉部區域的長與寬。. 22.

(33) 圖 4.6 表 4.1. 臉部區域縮減示意圖。. 符號 P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12. 符號及座標對照表 座標 (min_x, min_y) (min_x, max_y) (max_x, min_y) (max_x, max_y) (min_x  s , min_y) (min_x  s, max_y) (max_x  s, min_y) (max_x  s, max_y) (min_x, min_y  s) (min_x, max_y  s) (max_x, min_y  s) (max_x, max_y  s). (1)計算 P1、P2、P5 及 P6 四點所圍起的面積中屬於嬰兒臉部區域的比例,若比例 小於 50%,則將 min_x 更改成 min_x  s,一直反覆處理至其面積屬於嬰兒臉部 區域的比例大於 50%。 (2)計算 P3、P4、P7 及 P8 四點所圍起的面積中屬於嬰兒臉部區域的比例,若比例 小於 50%,則將 max_x 更改成 max_x  s,一直反覆處理至其面積屬於嬰兒臉 部區域的比例大於 50%。 (3)計算 P2、P4、P10 及 P12 四點所圍起的面積中屬於嬰兒臉部區域的比例,若比例 小於 50%,則將 max_y 更改成 max_y  s,一直反覆處理至其面積屬於嬰兒臉 部區域的比例大於 50%。 23.

(34) (4)計算 P1、P3、P9 及 P11 四點所圍起的面積中屬於嬰兒臉部區域的比例,若比例 小於 50%,則將 min_y 更改成 min_y  s,一直反覆處理至其面積屬於嬰兒臉部 區域的比例大於 50%。 進行完上述步驟,即可縮減所擷取嬰兒臉部區域的長與寬,如圖 4.5(c)。進行 LTP 差分影像時,嬰兒臉部輪廓線與五官輪廓皆準確重合,如圖 4.5(d),使得後續 進行 LTP 累積差分影像時,其累積影像中僅存表情變化的資訊。 當系統擷取完嬰兒臉部區域,可將此臉部區域做正規化,以便後續步驟處理。 本系統將所有嬰兒臉部區域統一正規化至 150  150 大小的影像。圖 4.7(a)為系統 輸入的連續影像,其影像大小為 720  480 像素。圖 4.7(b)為系統擷取的嬰兒臉部 區域,其影像大小為 394  374 像素。本系統利用插值法將影像降到 150  150 像 素,如圖 4.7(c)所示,當作後續步驟的輸入資料。. (a). (b) (c) 圖 4.7 嬰兒臉部區域正規化。 (a)輸入影像;(b)嬰兒臉部區域擷取結果圖;(c)臉部區域正規化結果圖。. 第二節 臉部特徵擷取 臉部特徵主要步驟為(1)灰階轉換(gray color space transformation)、(2)區域三 元化圖形(local ternary pattern)建立、(3)LTP 差分影像累積(LTP image difference accumulation)及(4)Zernike moments 計算(Zernike moments calculation)。本節依照 執行步驟的順序,分為:(A)灰階轉換及區域三元化圖形建立、(B)LTP 差分影像 累積及(C)Zernike moments 計算來說明。 (A)灰階轉換及區域三元化圖形建立 由於色彩變化與情緒變化較無關聯,為了降低系統進行後續處理的計算量, 所以將經過正規化後的嬰兒臉部區域進行灰階轉換。區域三元化圖形[Tan10]是. 24.

(35) 圖 4.8. P1. P2. P3. P8. Pc. P4. P7. P6. P5. 區域三元化圖形之 3  3 區塊。. 研究學者為了解決區域二元化圖形容易受到雜訊干擾的問題所提出。其方法與區 域二元化圖形建立法相似,不同之處在於建立區域三元化圖形時會選定一個門檻 值  。區域三元化圖形將一張影像的每個像素依序作為中心點,以此中心點與其 周圍 8 個像素形成一個 3  3 的區塊,定義此區塊中心為 Pc,周圍像素定義為 Pi, 其 3  3 區塊如圖 4.8 所示。若 Pi  Pc   ,則該像素點的位置被標記為 1,若. Pi  Pc   ,則該像素點的位置被標記為 0,若 Pi  Pc   ,則該像素點的位置 被標記為  1 ,即公式(4-8)。. Pi  Pc   Pi  Pc   Pi  Pc  . 1  LTP(i )  0  1. where. i  1,2, ,8. (4-8). 1 A(i )   0. LTP(i )  1 otherwise. where. i  1,2 , ,8. (4-9). 1 B(i )   0. LTP(i )  1 where otherwise. i  1,2, ,8. (4-10). 利用公式(4-8)可將某一像素周圍的 8 個像素以三元化的編碼表示,再利用公 式(4-9)及公式(4-10)將此三元化的編碼拆成兩組從 P1 至 P8 排列成的二元化編碼 12. 26. 4. 1. 86. 25. 51. 1. 9. 8. 17. 1. 0. 1. 1 1 1. 0. 0. 0. 1. 1. 0. 0. 1. 0. 1. A: 00010001 LTP value: 17. B:10101110 1 0. 圖 4.9. 0. 0 1. LTP value: 174. 1. 區域三元化圖形運算方式示意圖(  =5)。 25.

(36) (a) (b) (c) 圖 4.10 原始影像與區域三元化圖形後的結果圖。 (a)原始影像圖;(b)LTP(A)之結果圖;(c)LTP(B)之結果圖。 (A 及 B),將此兩組二元化的編碼分別轉成十進制後,所得到的數值即為該中心點 的兩組 LTP 值,其運算方式之示意圖如圖 4.9 所示。依照上述運算方式,依序取 得影像中所有像素點的兩組 LTP 值,即可以用來代表此影像的兩組特徵。區域三 元化圖形的優點為解決區域二元化圖形抗雜訊能力不足的問題,但其缺點為該如 何選取適合的門檻值。圖 4.10 為原始影像及區域三元化圖形處理後的結果圖。 (B)LTP 差分影像累積 進行完區域三元化圖形得到兩張 LTP(A)及 LTP(B)影像後,即可計算 LTP 的 差分影像(difference image)。差分影像的計算方法為先將輸入影像把時間 t 的影像. I t (i, j ) 與時間 t  1的影像 I t 1 (i, j ) 相減後取絕對值。時間 t 的差分影像以 D(i, j , t ) 表示,如公式(4-11)所示。. D(i, j, t )  | I t (i, j )  I t 1 (i, j ) |. (4-11). 因為區域三元化圖形包含兩張結果圖 LTP(A)及 LTP(B),所以進行差分影像 時,需要分別將兩張影像輸入進行處理。得到兩張差分影像後,系統會分別計算 兩張差分影像的累積差分影像(accumulated difference image),以 D ' (i, j , t ) 表示如 公式(4-12)所示。. D' (i, j, t )  max{ D' (i, j, t  1), D(i, j, t )}. (4-12). 其中 D' (i, j , 0)  D(i, j , 1) 。但考量到時間間隔越遠,影響情緒變化的因素越 微弱,所以修改公式(4-12),加入衰退(decay)的概念,將時間間隔越遠的差分影像 的灰階值減去一常數 c,如公式(4-13)所示。. D' (i, j, t )  max{ ( D' (i, j, t  1)  c), D(i, j, t )}. (4-13). 其中 D' (i, j , 0)  D(i, j , 1) 。圖 4.11 為 LTP 連續差分影像步驟圖(連續影像順 26.

(37) decay max. decay max. decay max. (a). (b) (c) (d) 圖 4.11 LTP 連續差分影像步驟圖。 (a)輸入影像(LTP(A));(b)差分影像結果圖;(c)時間 t  1的累積差分影像加入 decay 的結果圖;(d)累積差分影像。 序為由上至下)。圖 4.11(a)輸入影像,此時的輸入影像為 LTP(A),圖 4.11(b)是依 照圖中紅色線段,將二張灰階影像相減的結果,圖 4.11(c)時間 t  1的累積差分影 像加入 decay 的結果圖,圖 4.11(d)為圖 4.11(b)中之影像及其對應的圖 4.11(c)中之 影像取最大值後的結果,即最終的累積差分影像。. 圖 4.12. 嬰兒臉部區域劃分圖。 27.

(38) (C)Zernike moments 計算 得到最終的累積差分影像後,由於嬰兒臉部輪廓線對其情緒變化較無關聯, 所以選擇對情緒變化較明顯的區域,即圖 4.12 紅圈區域,做為後續 Zernike moments 的計算區域。Zernike moments 是由 Zernike 等人於 1934 年所提出的一組 多項式 Vnm ( x, y),該多項式在單位圓 x 2  y 2  1 內是屬於正交,是一種用來描述形 狀特徵的方法。 計算 Zernike moments 大致分為三個步驟,首先計算影像之徑向函數(radial polynomials),接著計算 Zernike moments 的基底函數,最後將影像投影至 Zernike moments 的基底函數。徑向函數公式定義如公式(4-14)所示。 Rnm (  ) . ( n m ) / 2. . (1) s. s 0. (n  s)!  n  2 s n  m  n  m  s!  !  !  2s   2s . (4-14). 在公式(4-14)中,n 及 m 分別表示 order 及 repetition,n 為一非負整數,而 m 必須滿足兩項條件:(1) n  m 需為偶數及(2) m  n 。  表示原點到像素(x, y)的長 度。求出徑向函數之後,利用公式(4-14)計算出定義在單位圓中的 Zernike moments 基底函數,其基底函數表示式如公式(4-15)。 Vnm ( x, y)  Vnm (  , )  Rnm (  ) exp( jm ),.  1. (4-15). 在公式(4-15)中,j 表示  1 , 表示  和 x 軸的夾角。Zernike moments 基底 函數使得求出之特徵向量皆為正交,讓各個用來代表影像特徵之貢獻程度皆為獨 立且不重複。最後將影像投影至 Zernike moments 的基底函數,計算影像之特徵 向量,其表示式如公式(4-16)。 Anm . n 1. . . x 2  y 2 1.  f ( x, y)V. * nm. . (  ,  )dxdy. (4-16). * 在公式(4-16)中, f ( x, y ) 為影像中像素(x, y)所對應的灰階值。 Vnm 表示其共. 軛複數。由上述公式可知 Zernike moments 為複數形式,因此一張影像經過計算 後會產生實部及虛部的值,分別將其記為 C nm 及 S nm 。最後將實部及虛部平方相加 開根號以得到 Zernike moments 計算之最後結果,其定義如公式(4-17)。. Z nm  Cnm  S nm 2. 2. (4-17). 28.

(39) 由上述可知,影像中低頻部分(即亮度變化小的區域),可藉由 n 值較小的 Zernike moments 來取得,而高頻部分(即亮度變化劇烈的區域),可藉由 n 值較大 的 Zernike moments 來取得。Zernike moments 可以任意構造高階動差,雖然高階 動差可能包含更多的影像資訊,但其計算時間相當久,本系統為了達到即時運算, 選擇 0 至 7 階的 Zernike moments( Z 00 、 Z11 、 Z 22 、 Z 20 、 Z 33 、 Z 31 、 Z 44 、 Z 42 、. Z 40 、 Z 55 、 Z 53 、 Z 51 、 Z 66 、 Z 64 、 Z 62 及 Z 60 )進行測試。 由於不同階數的 Zernike moments 針對臉部表情辨識的特徵而言可能有些相 關性很高,具相同的代表性,因此在特徵選擇只需選擇其一,如此可節省運算時 間。本系統計算 Zernike moments 間的相關性,採用皮爾遜積矩相關係數(Pearson product-moment correlation coefficients;PCCs),其定義如公式(4-18)。.  ( X n. r. i 1. n. i.  X )(Yi  Y ).  ( X i  X )2 i 1.  (4-18). n.  (Yi  Y ) 2 i 1. 其中 X i 及 Yi 為第 i 張影像所計算的 Zernike moments 值, X 及 Y 為 X i 及 Yi 的平均數。表 4.2 為表情為哭時不同階數之 Zernike moments 的相關係數,表 4.3 為表情為笑時不同階數之 Zernike moments 的相關係數,表 4.4 為表情為無表情 表 4.2. 表情為哭時不同階數之 Zernike moments 的相關係數. Z00 Z11 Z22 Z20 Z33 Z31 Z44 Z42 Z40 Z55 Z53 Z51 Z66 Z64 Z62 Z60 Z00 1.00 0.57 0.39 0.74 0.08 0.67 0.18 0.33 0.44 0.47 0.60 0.43 0.09 0.25 0.35 0.42 Z11 1.00 0.35 0.79 0.09 0.32 0.11 0.14 0.04 0.34 0.34 0.33 0.19 0.23 0.18 0.48 Z22 1.00 0.37 0.12 0.32 0.11 0.29 0.30 0.30 0.34 0.02 0.12 0.30 0.34 0.01 Z20 1.00 0.11 0.41 0.23 0.27 0.23 0.42 0.41 0.26 0.26 0.41 0.16 0.35 Z33 1.00 0.11 0.15 0.18 0.08 0.23 -0.07 0.11 0.04 0.02 0.09 -0.11 Z31 1.00 0.27 0.15 0.59 0.42 0.35 0.20 0.06 0.26 0.32 0.01 Z44 1.00 0.27 0.01 0.34 0.14 0.11 -0.02 0.13 0.25 -0.07 Z42 1.00 0.05 0.23 0.17 0.27 -0.10 0.09 0.23 0.02 Z40 1.00 0.44 0.40 -0.23 0.14 0.49 0.36 -0.34 Z55 1.00 0.40 0.18 0.09 0.25 0.36 -0.05 Z53 1.00 0.04 0.20 0.19 0.22 0.01 Z51 1.00 0.01 -0.17 0.20 0.46 Z66 1.00 0.33 -0.03 -0.06 Z64 1.00 0.31 -0.15 Z62 1.00 0.07 Z60 1.00 29.

(40) 表 4.3 Z00 Z11 Z22 Z20 Z33 Z31 Z44 Z42 Z40 Z55 Z53 Z51 Z66 Z64 Z62 Z60. Z00 Z11 Z22 1.00 0.46 0.49 1.00 0.79 1.00. 表 4.4 Z00 Z11 Z22 Z20 Z33 Z31 Z44 Z42 Z40 Z55 Z53 Z51 Z66 Z64 Z62 Z60. 表情為笑時不同階數之 Zernike moments 的相關係數. 為無表情時不同階數之 Zernike moments 的相關係數. Z00 Z11 Z22 1.00 0.58 0.61 1.00 0.34 1.00. 表 4.5. Z20 Z33 Z31 Z44 Z42 Z40 Z55 Z53 Z51 Z66 Z64 Z62 Z60 0.12 0.69 0.88 0.67 0.87 0.72 0.07 -0.85 0.23 0.24 0.63 0.78 0.64 0.63 0.17 0.59 0.29 0.26 0.51 0.12 -0.48 0.33 0.45 0.30 0.42 0.05 0.58 0.50 0.62 0.25 0.44 0.48 -0.08 -0.43 0.11 0.51 0.20 0.45 0.11 1.00 -0.04 0.36 -0.09 -0.14 0.32 -0.03 -0.07 0.33 0.27 0.05 0.25 -0.50 1.00 0.55 0.36 0.68 0.55 -0.31 -0.46 -0.07 0.18 0.44 0.39 0.60 1.00 0.75 0.71 0.66 0.28 -0.70 0.36 0.10 0.43 0.78 0.38 1.00 0.59 0.52 0.58 -0.61 -0.05 -0.06 0.40 0.59 0.34 1.00 0.46 0.10 -0.75 0.12 0.22 0.44 0.62 0.69 1.00 -0.20 -0.71 -0.01 0.16 0.77 0.55 0.33 1.00 0.02 0.22 -0.20 -0.10 0.06 -0.09 1.00 0.04 -0.34 -0.56 -0.82 -0.48 1.00 -0.09 0.02 0.08 0.11 1.00 0.09 0.31 0.02 1.00 0.21 0.52 1.00 0.23 1.00. Z20 0.39 0.03 0.34 1.00. Z33 0.30 0.06 0.23 0.17 1.00. Z31 Z44 Z42 0.83 0.38 0.65 0.44 -0.02 0.27 0.41 0.44 0.50 0.20 0.30 0.38 0.36 -0.06 0.34 1.00 0.07 0.71 1.00 0.10 1.00. Z40 Z55 Z53 0.74 0.48 0.60 0.30 0.29 0.29 0.66 0.12 0.43 0.46 0.10 0.43 0.46 0.42 0.17 0.64 0.68 0.25 0.46 -0.34 0.42 0.60 0.49 0.27 1.00 0.28 0.54 1.00 0.17 1.00. Z51 Z66 Z64 Z62 Z60 0.68 0.34 0.46 0.73 0.29 0.42 0.19 0.68 0.51 0.15 0.49 0.11 0.41 0.64 0.20 0.08 0.36 -0.06 0.30 -0.13 0.11 0.28 -0.02 0.23 0.42 0.44 0.24 0.29 0.37 0.23 0.34 -0.08 0.18 0.36 0.20 0.27 0.17 0.07 0.28 0.19 0.46 0.29 0.26 0.55 0.38 0.13 0.26 0.16 0.20 0.09 0.39 0.35 0.38 0.64 0.20 1.00 0.12 0.36 0.59 0.27 1.00 0.01 0.35 0.01 1.00 0.41 0.16 1.00 0.23 1.00. 表情為哭及笑時相同階數之 Zernike moments 的相關係數. Z00 Z11 Z22 Z20 Z33 Z31 Z44 Z42 Z40 Z55 Z53 Z51 Z66 Z64 Z62 Z60 -0.20 -0.34 -0.02 0.22 -0.09 -0.07 0.16 -0.18 -0.40 0.38 0.43 -0.09 0.08 -0.29 -0.43 -0.05. 表 4.6. 表情為哭及無表情時相同階數之 Zernike moments 的相關係數. Z00 Z11 Z22 Z20 Z33 Z31 Z44 Z42 Z40 Z55 Z53 Z51 Z66 Z64 Z62 Z60 0.41 0.58 -0.21 0.42 -0.21 0.29 -0.14 0.22 0.01 0.21 0.46 0.21 0.76 -0.08 0.39 0.22 30.

(41) 表 4.7. 表情為笑及無表情時相同階數之 Zernike moments 的相關係數. Z00 Z11 Z22 Z20 Z33 Z31 Z44 Z42 Z40 Z55 Z53 Z51 Z66 Z64 Z62 Z60 0.63 0.53 0.32 0.40 0.40 0.49 0.56 0.59 0.53 0.53 -0.49 0.01 0.51 -0.05 0.57 0.16. 時不同階數之 Zernike moments 的相關係數。同時本系統也測試了不同表情的條 件下相同階數之 Zernike moments 的相關係數。表 4.5 為表情為哭及笑時相同階數 之 Zernike moments 的相關係數,表 4.6 為表情為哭及無表情時相同階數之 Zernike moments 的相關係數,表 4.7 為表情為笑及無表情時相同階數之 Zernike moments 的相關係數。 由表 4.2 至 4.4 可知,在各種表情的情況下,不同階數之 Zernike moments 的 相關係數雖然有些許 Zernike moments 呈現高度相關(相關係數介於 0.7 及 0.99 間),但藉由此項評估可找出不同階數之 Zernike moments 彼此的關係,淘汰相似 的特徵以選擇具代表性的特徵。而由表 4.5 至 4.7 可知,在不同表情的條件下,相 同階數之 Zernike moments 的相關係數中大部分的 Zernike moments 並未呈現高度 相關,所以使用上述所提之 Zernike moments 均能有效的將表情分成三類。考慮 特徵的代表性及系統執行時間,本研究最後選擇 0 至 3 階總共 6 個 Zernike moments( Z 00 、 Z11 、 Z 22 、 Z 20 、 Z 33 及 Z 31 )作為嬰兒臉部特徵使用。. 第三節 表情分類 本系統使用支持向量機(support vector machines;SVM)作為表情分類的分類 器。SVM 是一種分類演算法,該演算法是根據統計學習理論為基礎所提出,目前 已被廣泛應用於表情辨識、人臉辨識及手寫字辨識等。 SVM 的 概 念 為 在 多 維 空 間 中 有 一 群 資 料 點 , 藉 由 找 出 一 個 超 平 面 (hyperplane),將屬於兩個類別的資料點分開。超平面與其最接近的資料點間的距 離稱為邊界(margin),SVM 的目的在於找出一個具有最大邊界的超平面,使得訓 練資料點可以明確的分開,如圖 4.13 的 optimal hyperplane[Chi13]。當有新進且未 分類的資料點時,利用此超平面可正確判定資料點所屬的類別。 而本系統運用於表情分類所使用的 SVM 分類器為 Lin 等人所開發的 libsvm[2],該分類器將訓練資料轉換成特徵向量以產生訓練模型,並將此訓練模 型進行交叉驗證以找出分類的最佳參數,最後使用該訓練模型預測,將測試資料 進行分類。本系統所輸入的特徵資料為各表情所對應的 Z 00 、 Z11、 Z 22 、 Z 20 、 Z 33 31.

參考文獻

相關文件

18   狐狸說:「假如你馴服我,我的生活將如充滿了陽光般。我

隨著科技的進步,展覽場的導覽系統已從過去導遊、磁帶機或 CD 播放 器講解的時代轉換成行動導覽的時代。目前行動導覽方式大都以 RFID 或 QR

甄選安排 詳情將於11月下旬透過網上校 管系統的聯遞系統及本組網頁

運用想像力、形式/技巧表現一個 的夢境 回憶 的一刻,以形式/技巧,表達 的情 景/情緒。. 從評賞

Segmented Bushy Path 分為兩個步驟,第一個步驟是文件結構的切割 (Text Segmentation),也就是分析文件內容並將文件內容切割成幾個具有代 表的結構。Text Segmentation

 提高業主、物業管理人及 用戶對妥善保養內部水管 系統的重要性,以及在內 部水管系統中使用合規格

第一級 從相片辨識情緒 簡單視角角度 感官肌能性 第二級 從圖像辨識情緒 複雜視角角度 功能性初期 第三級 辨認處境有關感受 所看構成所知 功能性定期

倒傳遞神經網路的演算法使 SPOT 假色影像轉換到 SPOT 自然色影 像。影像的結果。(3)以不同天的 SPOT 假色影像進行網路回想,產 生