以表情辨識為基礎之嬰兒意外監控系統

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：方瓊瑤博士. 以表情辨識為基礎之嬰兒意外監控系統 An Infant Safety Surveillance System Based on Facial Expression Recognition. 研究生：林漢威撰中華民國九十八年六月.

(2) 摘要本篇論文主要探討以嬰兒表情為基礎的監控系統。由於嬰兒無法保護自己，若照顧者有疏忽可能讓嬰兒處於危險中。本系統可協助照顧者監控嬰兒，即使照顧者離開嬰兒身邊，也可防止意外的發生。本研究將攝影機架設在嬰兒床上方以擷取嬰兒影像。此系統首先針對影像去除雜訊及減少受到光源的影響。藉由膚色的資訊來做嬰兒臉部區塊的擷取。接著利用 Hu 動差、R 動差和 Z 動差去計算臉部區塊。由於每種動差包含許多不同動差，例如 Hu 動差有七個動差，因此給十五張影像去計算相同類別下臉部表情的特徵，並且藉此了解動差間的關係。本研究將嬰兒表情分成十五個類別，分別是哭、笑、發呆…等，接著再利用決策樹做分類。利用動差所計算出的相關係數所建構的三個決策樹來進行分類分別是用來。實驗的結果顯示本研究所提出的方法可行，而且也針對不同種類的動差進行分析及討論。最後本研究目前僅針對部份的嬰兒表情進行分類，希望未來能收集到更多嬰兒不同年紀的資料，以建構更完整資料庫。.

(3) Abstract This paper presents a vision-based infant surveillance system based on infant facial expression recognition. Since infants are too little to protect themselves, they are easy hurt in accidents by the negligence of the baby-sitters. An infant surveillance system can assist the baby-sitters to monitor the infants to avoid the occurrence of the infant injuries even the infants are left alone in a short period. In this study the video camera is set above the crib to capture the infant sequences. The system first preprocesses the input image to remove the noises and reduce the influence of lights and shadows. The region of infant face is then segmented based on the skin color information. Three moment types, including Hu moment, R moment, and Zernike moment, are calculated based on the infant face region. Since each moment type contains several different moments (e.g. seven in Hu moment), given one 15-frame sequence the correlations between each two moments in the same class can be calculated as the features of facial expressions. Fifteen classes of infant facial expressions, including different poses of crying, smiling, dazing, and so on, are defined in this study and classified by the decision tree technique. Three decision trees are constructed to classify their corresponding types of the moments respectively. The experimental results show that the proposed method is robust and efficient, and the properties of different types of the moments are also analyzed and discussed. Finaly, the study mainly classify parts of facial expressions of infants. in the future year, i hope that more information of infants at different stages will be discovered in order to make the research more complete..

(4) 致. 謝. 首先感謝指導教授方瓊瑤老師，在研究所這段期間，認真指導我影像處理與機器學習的知識，並教導我正確的研究態度與方法，也因為老師的細心與耐心指導，這篇論文才能夠完成。另外，感謝陳世旺老師在百忙中撥冗批改我的論文，給予我忠實的建議與指導。感謝李忠謀老師在繁忙的職務中，依然仔細且認真地批閱本論文。感謝貝利勃老師以其認真負責的教學態度，不辭辛勞地翻閱中英字典，修改我口試的投影片，並批閱我的論文。感謝台科大資工研究所鐘國亮老師，特地跑來師大參加口試，給予許多寶貴的意見，讓我獲益良多。感謝系上的師長，在研究所兩年來的學習路上所給予的指引及教誨。感謝實驗室裡共同奮鬥的夥伴們—允中學長、宗翰、少柏、士祺、士翔、亭凱、宗儒和羿甫，大家一起修課，一起做研究，遇到困難的時候，一起互相幫忙，讓我在師大研究生涯中充滿美好的回憶。感謝實驗室的學弟妹—秋利、宛甄及明翰，平常跟你們的相處充滿了許多歡樂，讓我的研究生活過的多采多姿，也很感謝口試時你們的幫忙。最後，我要感謝我的家人，雖然媽媽生病但是卻給我許多的支持與鼓勵，在我研究過程遇到不順遂時，他們總是給予我最大的關心與支持，讓我能將重心全力放在研究上，完成這篇論文。在此以誠摯的心，希望大家未來都身體健康、心想事成。.

(5) 目錄第一章緒論 ................................................................................................ 1-1 1.1 研究背景與目的 .................................................................................. 1-1 1.2 文獻探討 ............................................................................................. 1-3 1.3 論文架構 ............................................................................................. 1-5 第二章嬰兒危險監控系統架構 ................................................................. 2-1 2.1 系統架設環境...................................................................................... 2-1 2.2 系統架構 ............................................................................................. 2-2 第三章嬰兒臉部偵測 ................................................................................. 3-1 3.1 光線補償 ............................................................................................. 3-1 3.2 嬰兒臉部偵測...................................................................................... 3-2 3.3 去除雜訊 ............................................................................................. 3-5 3.4 臉部擷取 ............................................................................................. 3-6 第四章特徵擷取 ..................................................................................... 4-1 4.1 動差(moment) ...................................................................................... 4-1 4.2Hu 動差 ................................................................................................ 4-2 4.3R 動差 .................................................................................................. 4-3 4.4Zernike 動差 ......................................................................................... 4-4 4.5 特徵間的相關係數 .............................................................................. 4-6 第五章決策樹............................................................................................. 5-1 5.1 衡量方式(entropy) ............................................................................... 5-2 5.2 切割方法 ............................................................................................. 5-3 5.3 終止條件 ............................................................................................. 5-5 第六章實驗 ................................................................................................ 6-1 6.1 決策樹分類實驗結果 .......................................................................... 6-1.

(6) 第七章結論與未來工作 .......................................................................... 7-1 7.1 結論 ..................................................................................................... 7-1 7.2 未來工作 ............................................................................................. 7-2 参考文獻 ..................................................................................................... A-1.

(7) 圖片/表格目錄圖 1.1 嬰兒出現的各種情緒反應。 ............................................................. 1-1 圖 2.1 嬰兒監控系統攝影機架設示意圖。 ................................................ 2-1 圖 2.2 嬰兒監控系統之輸入影像。 ............................................................ 2-1 圖 2.3 嬰兒監控系統流程圖。 ................................................................... 2-2 圖 2.4 嬰兒臉部偵測範例。 ....................................................................... 2-3 圖 2.5 多個臉部的候選區塊偵測範例。 ..................................................... 2-3 圖 2.6 嬰兒打哈欠的連續 15 張輸入影像。 .............................................. 2-4 圖 2.7 以圖 2.6 為例之七種 Hu 動差 15 個特徵值之折線圖。 ................. 2-5 圖 2.8 嬰兒哭時 Hu 動差中的七種動差之相關係數表。 .......................... 2-5 圖 3.1 嬰兒臉部的偵測流程。 .................................................................... 3-1 圖 3.2 光線補償的範例。 ............................................................................ 3-2 圖 3.3 膚色偵測的範例。 ............................................................................ 3-5 圖 3.4 利用中值濾波器去除雜訊的範例。 ................................................. 3-6 圖 3.5 嬰兒臉部區塊擷取的範例。 ............................................................. 3-7 圖 3.6 利用中值濾波器產生出兩個臉部候選區塊的範例。 ...................... 3-7 圖 3.7 利用中值濾波器產生較小的臉部區塊的範例。 .............................. 3-7 圖 3.8 多個臉部候選區塊判斷的範例。 ..................................................... 3-8 圖 3.9 單一臉部區塊判斷的範例。 ............................................................. 3-9 圖 4.1 嬰兒哭的連續 15 張影像。............................................................... 4-6 圖 4.2 以圖 4.1Hu 動差、R 動差及 Zernike 動差的特徵值之折線圖。 ..... 4-7 圖 4.3 嬰兒哭時 Hu 動差中的七種動差之相關係數表。 ........................... 4-9 圖 5.1 決策樹示意圖。 ................................................................................ 5-1 圖 5.2 決策樹的分類及 Hu value 圖表。 .................................................... 5-3 圖 5.3 決策樹分割方法示意圖。................................................................. 5-4 圖 5.4 利用 Hu 特徵值做決策樹的分割範例。 ......................................... 5-5.

(8) 圖 5. 5 取最小特徵值示意圖。 .................................................................. 5-6 圖 5. 6 葉節點示意圖。 .............................................................................. 5-7 圖 6.1 嬰兒哭的三種類別。 ........................................................................ 6-1 圖 6.2 決策樹根據相關係數值H 4 H 5 >0 分成左右兩個子樹。 .................... 6-2 圖 6.3 根據相關係數值H 4 H 5 >0 分成的左子樹。 ....................................... 6-2 圖 6.4 根據相關係數值H 4 H 5 >0 分成的右子樹。 ....................................... 6-3 圖 6.5 嬰兒哭且正面的測試資料分類結果。 ............................................. 6-4 圖 6.6 嬰兒發呆且左臉的測試資料分類結果。 ......................................... 6-5 圖 6.7 從root到R 1 R 10 的節點所建構的決策樹。 ......................................... 6-6 圖 6.8 根據相關係數值R 1 R 10 >0 分成左右兩個子樹。 .............................. 6-6 圖 6.9 根據相關係數值H 5 H 10 >0 分成的左子樹。 ...................................... 6-7 圖 6.10 根據相關係數值H 5 H 10 >0 分成的右子樹。 .................................... 6-7 圖 6.11 嬰兒打哈欠的測試資料所分類出來結果(一)。 ............................. 6-8 圖 6. 12 嬰兒打哈欠的測試資料所分類出來結果(二)。 ............................ 6-9 圖 6. 13 根據相關係數值Z 2 Z 6 >0 分成左右兩個子樹。 ........................... 6-10 圖 6. 14 根據相關係數值Z 2 Z 6 >0 分成的左子樹。 ................................... 6-10 圖 6. 15 根據相關係數值Z 2 Z 6 >0 分成的右子樹。 ................................... 6-11 圖 6. 16 嬰兒吐奶的測試資料所分類出來結果。 .................................... 6-12 圖 6. 17 嬰兒哭的測試資料所分類出來結果。 ........................................ 6-13.

(9) 第一章. 緒論. 1.1 研究背景根據近十二年內各國統計年報及月報、聯合國統計年鑑、歐洲聯盟統計局(ECE)網頁及發展組織(OECD)的整理資料顯示[1]，主要國家未滿 1 歲的嬰兒死亡率以新加坡的千分之二最低，而最高的則是在印度的 72.0 人，其中以菲律賓、中國大陸、墨西哥、阿根廷及巴西，約在 14.5 至 33.4 人之間。我國 2006 年的嬰兒死亡率則為千分之 4.6，還高於新加坡，日本，芬蘭，挪威，瑞典，西班牙，法國及德國等很多國家，因此嬰兒危險的防範在我國是嚴重且必要解決的問題。接著根據國內台北市衛生局統計[2]，台北市嬰兒前三名死亡原因分別為周產期病態、先天性畸形及事故傷害，三者合計占嬰兒死亡人數的八成三。周產期病態是指孕婦生產前的病態，由於身體的不良狀況所導致嬰兒死亡；先天性畸形是指出生前在母體內已形成的外形或體內有可識別的結構和功能缺陷；事故傷害是指受到異物的侵入或是環境的不安全而導致危險的事故發生。在這三種死亡原因當中，其中以事故傷害最需要去注意，由 2006 年的統計發現嬰兒最主要的事故傷害是吸入異物致窒息死亡[3]，因此在事故傷害當中嬰兒窒息死亡是首要的研究目標。嬰兒的事故傷害常發生在照顧者沒有注意到嬰兒的情況下，由於照顧者無法二十四小時陪著嬰兒，所以當照顧者要離開嬰兒時，通常會將嬰兒放在嬰兒床上，各種嬰兒床上的監控系統因此被開發出來防止意外事故。例如嬰兒電子看護墊[4]是一種可以自動監控嬰兒睡眠時的呼吸及身體活動情況之智慧型看護墊，當嬰兒呼吸時間停止超過 20 秒或呼吸頻率低於每分鐘 8 下時，感應器會立即透過蜂鳴器產生警示聲響，但是偵測呼吸的感應器，容易因為嬰兒身體的扭動導致偵測錯誤，而發出警告。另外還有一種 Angelcare 嬰兒監視器[5]，這種設備是螢幕式的嬰兒監控器，在房門 1-1.

(10) 外可以透過螢幕來監控嬰兒的活動，但卻無法自動的判別嬰兒的危險狀況。除了市面上已開發的嬰兒監控系統外，還有許多相關嬰兒危險偵測研究亦在進行。偵測嬰兒的危險的方法可以分三大類:(1)使用感應器的方式偵測嬰兒的聲音[Pa06]及生理狀況[Rey08]，(2)使用影像處理技術來偵測嬰兒的肢體[Bha03]，(3)使用影像處理技術來偵測嬰兒臉部[Mut09]。第一類方法中，主要偵測嬰兒體溫的高低、呼吸次數、哭泣的頻率、翻動次數等。上述這些參數雖然可以反應嬰兒的危險狀況，但是偵測過程中很容易受環境變化的影響。舉例來說，嬰兒體溫會受到風扇的干擾，同時影響到計算嬰兒呼吸次數的感應器，或是嬰兒的肢體擺動，都會降低其準確性。第二類方法中，主要是藉由影像的方式來分析嬰兒肢體的動作，比如嬰兒肢體的動作像是手腳擺動、翻身動作、手持異物等等。接著利用肢體動作來決定嬰兒的危險發生，像是爬到床的邊緣或是抓取異物，但是本研究是針對 0 到 5 個月的嬰兒做偵測，此階段的嬰兒尚無法利用四肢做爬行的動作，而且手指無法緊握著異物，因此利用嬰兒肢體的動作無法正確判別目前的嬰兒狀況的。第三類方法中，主要是藉由影像的方式來分析嬰兒臉部的各種情況比如異物的遮蔽、吐奶等等，或是表情的反應，難過、哭泣、生氣等等 [Mes08]。由分析出來的結果可以更準確的知道是否有危險的發生，較符合. 本研究的目的，因此本論文朝此方向研究。在本研究中，我們使用攝影器材拍攝嬰兒，然後利用影像處理的技術針對臉部做分析，以了解嬰兒目前的狀態。系統一開始採用膚色資訊擷取臉部區域，接著利用影像處理的技術擷取出臉部的特徵，最後根據這些特徵判斷臉部的表情及反應。 1-2.

(11) 1.2 文獻探討嬰兒的情緒表達代表著一種對外的溝通方式，所謂的情緒是一種意識的表現，受到對外在知覺的判斷所影響，繼而影響其行為。在 Johnson 等人 1982 年的心理學研究中發現，超過半數擁有一個月大嬰兒的母親表示，她們的嬰兒能表現出五種不同的情緒：如興趣、驚訝、歡愉、憤怒、恐懼[Dav94]。同樣的 Izard 等人亦發現嬰兒在出生時或出生後不久，就會表達感興趣、悲傷、(對苦味或鹹味)嫌惡、以及滿足等的情緒反應。Izard 以錄影的方式研究嬰兒的情緒反應，觀察嬰兒面部的表情，發現嬰兒對於抓握冰塊、玩具被奪走、看到離開的父母回來時等事件，都有固定的情緒反應或面部表情[Dav94]。. (a). (b). (c). (d). (e). (f). 圖1.1嬰兒出現的各種情緒反應。(a)好奇：眉毛上揚，嘴巴可能成圓形，唇可能緊縮著；(b)恐懼：嘴巴縮回，眉毛平坦且上下動，眼皮往上舉； (c)厭惡：舌頭伸出，上唇上揚，鼻子皺著；(d)喜悅：眼睛明亮，雙頰上舉，嘴巴微笑著；(e)哀傷：嘴角垂下，眉頭上揚；(f)哀傷：嘴角垂下，眉頭上揚。在本論文中我們希望能夠記錄嬰兒整個臉部的資訊，藉由擷取臉部的 1-3.

(12) 變化達到辨識的效果，以便有狀況發生時能夠立即警告及判斷。因此接下來從相關的文獻中探討臉部的偵測和取得特徵的方法。人臉偵測有相當多的研究成果，依Hjelmas等人[Hje01]的研究，人臉偵測的演算法主要可以分為: 一、特徵式演算法(feature based approaches) (一)、活動式型態模型(active shape models)，依據人臉在影像中例如亮度、邊緣等差異性擷取活動式範圍，通常利用可變型的樣板 (deformable template[Ngu04])或曲線(snake)方式實作，找出人臉的邊界。 (二)、特徵分析(feature analysis) 特徵分析是運用臉部各種器官特徵，找出可能的人臉範圍[Gil07]，先找出眼睛所在的範圍，再依據人臉的比例搜尋鼻子、嘴巴、眉毛的位置，找出可能為臉部的範圍。 (三)、低階分析(low-level analysis) (1)膚色偵測：可利用RGB，HSV，YCrCb等彩色模型，定義膚色的資訊，在影像中偵測人臉。其優點是不用建造資料庫，不用複雜的數學式，可以在複雜背景的影像中，快速的偵測出皮膚部位。 (2)動態資訊：動態偵測在人臉偵測上也是經常運用的一種方式。以膚色為基礎的影像，透過前後的影格(frame)比對，在動態影像中快速偵測出膚色範圍。二、影像式演算法(image based approaches) (一)、線性子空間法(linear subspace methods) 在線性空間v中，一個非空的子集合w在向量加法與乘法中表現密閉性，即稱為v的線性子空間。常用在人臉辨識領域上的線性子空間法為主成份分析 (principal component analysis, PCA) 、線性鑑別式分析 (linear discriminant analysis, LDA)。 1-4.

(13) (二)、類神經網路(neural networks) 此方法是用許多人臉及非人臉的影像去訓練neural network[Mit03]，使其可以學到什麼是人臉及非人臉。在偵測時就直接把可能擷取出的區塊丟到neural network中，如果此區塊為人臉則輸出為1，否則輸出為 0。 (三)、統計學習理論(statistical learning theory ) 此方法是研究有限樣本下機器學習規律的理論。支持向量機(support vector machines)是基於統計學習理論下的一種通用學習方法。. 1.3 論文架構本論文的架構如下，首先在第二章對系統的架構做一個描述。本系統可分為三大階段，分別為：(1)利用膚色區域擷取嬰兒臉部區塊。(2)利用動差對嬰兒臉部區塊做特徵擷取。(3)將特徵資訊做分類。此三大步驟將在第二章至第四章介紹；第五章則為決策樹；第六章為實驗結果及討論；第七章則為總結以及未來發展。. 1-5.

(14) 第二章. 嬰兒危監控系統架構. 本章將介紹嬰兒監控系統的整體架構，包括系統架設環境和系統運作的說明，而系統中各個步驟的細節將於第三到第五章討論。. 2.1 系統架設環境本監控系統偵測的對象是 0 到 5 個月大的嬰兒，此階段的嬰兒以嬰兒床為主要活動的範圍，特別是睡眠的時候。因此本研究將攝影機架設在嬰兒床的護欄上，由上往下正面拍攝嬰兒的情況而且取景範圍僅包含嬰兒的上半身。攝影機的架設示意圖如圖 2.1 所示，拍攝到的影像如圖 2.2 所示。. 圖 2.1 嬰兒監控系統攝影機架設示意圖。. 圖 2.2 嬰兒監控系統輸入影像範例。 2-1.

(15) 2.2 系統架構本監控系統的運作流程如圖 2.3 所示，包括四個主要步驟：(1)嬰兒臉部偵測(infant face detection)、(2)特徵擷取(feature extraction)、(3)特徵間相關係數計算(correlation calculation)和(4)分類(classification)。以下針對各部份介紹其主要工作。 Infant Face Detection. Feature Extraction. Classification. Feature Correlation Calculation. Image Sequences. 圖 2.3 嬰兒監控系統流程圖。. 在嬰兒臉部偵測方面，由於室內的明暗會受到日光燈亮度的影響，日光燈的開或關使得室內的明暗變化很大，此時影像中嬰兒臉部的膚色區域容易因為光線明暗的影響而變化，使得擷取出的膚色區塊不夠完整。因此本研究首先對影像做光線補償(lighting compensation)，藉由調整亮度的方法來補償影像的明暗偏差，如圖 2.4.(b)所示。進行光線補償後，系統對於膚色區域就有更準確的範圍，本研究結合 HSI、YCrCb 及 LUX 色彩模型中膚色值的可能範圍，擷取出影像中嬰兒臉部的可能區塊，並進行二元化。在影像中非臉部區塊的部分也會因為滿足膚色擷取的條件而被擷取出來 (如圖 2.4.(c))，所以必須將二元化後的影像經由去雜訊以得到更乾淨的結果。因此利用中值濾波(median filter)除雜訊後，可得到較佳的臉部候選區塊，並將臉部區塊的質心位置記錄下來，如圖(2.4(e))。然而，影像上的雜訊經過中值濾波(median filter)的處理後，可能得到多個臉部候選區塊(如圖 2.5.(b))，因此必須選出一個正確的臉部區塊。首先利用前一張輸入影像(t frame)正確臉部區塊的質心位置和現在的輸入影 2-2.

(16) 像(t+1 frame)的質心位置做判斷(如圖 2.5)，以決定正確的臉部區塊。上述有關嬰兒臉部偵測的細節將於第三章說明。. (a). (c). (b). (d). (e). 圖 2.4 嬰兒臉部偵測範例。(a)原始的輸入影像；(b)進行光源補償後的影像；(c)影像中膚色值的可能範圍；(d)二元化後去除雜訊的影像；(e) 利用 connected component 所框出的嬰兒臉部區塊。. (a). (b). (c). 圖 2.5 多個臉部的候選區塊偵測範例。(a)前一張正確的臉部位置的影像； (b) 二元化後去除雜訊的影像；(c)多個臉部的候選區塊。. 在特徵擷取方面，當系統偵測到正確的臉部區塊後，即可將影像中嬰兒臉部擷取出來，並將此一擷取出的彩色區域(region)轉成灰階，之後計算 2-3.

(17) 出該臉部區域的 Hu 動差(moment)、R 動差、與 Zernike 動差做為嬰兒臉部的特徵(Aha08, Fae06, Liu08, Nor06, Zhi08)。我們認為嬰兒臉部表情是由整個臉部呈現出來的結果，包括臉部整體肌肉的運動，皮膚的顏色改變與陰影變化，而不僅是眉毛、眼睛、鼻子、嘴巴的個別移動而已，因此本研究嘗試採用統計上的動差作為特徵，試驗利用動差來描述嬰兒臉部表情的可行性。在特徵的相關係數計算方面，以 Hu 動差中的七種動差特徵為例，每張影像將可以分別計算出七種動差特徵一個特徵值，而連續的 15 張影像 (每秒 3 張)(如圖 2.6)對於同一種動差則可以計算出 15 個特徵值。將此七種動差的 15 個特徵值用折線圖的方式表現(如圖 2.7)，可以發現每種動差皆呈現一種曲線，由於本研究期望能找出某些嬰兒表情出現時其各種動差之間的相關性，因此利用特徵相關係數來分析並比較兩兩曲線的相關程度。. 圖 2.6 嬰兒打哈欠的連續 15 張輸入影像，次序為由左到右。. 2-4.

(18) 圖 2.7 以圖 2.6 為例之七種 Hu 動差 15 個特徵值之折線圖。. 在分類方面，以 Hu 動差中的七種動差為例，可以任選兩個一組共計算出 21 個相關係數值(圖 2.8)，這 21 個相關係數值將被當成一組分類向量，進行分類，同樣的 R 動差、與 Z 動差也可以算出 45 個相關係數值，分別也當成一組分類向量。本研究將嬰兒表情分為 5 種類別，分別是吐奶、發呆、打哈欠、笑和哭，但考慮嬰兒的臉部轉動(左轉、右轉、正面)後，合計的可能類別有 15 種。我們使用了決策樹(decision tree)自動進行這 15 種類別的分類，其中並利用 entropy 來評估分類好壞。上述有關相關係數及分類方面的細節將於第五章說明。 H1 H1 H2 H3. 1. H2. H3. H4. H5. H6. H7. 0.1222 0.2588 0.8795 -0.4564 -0.4431 -0.9140 1. -0.8272 -0.1537 0.6927 -0.1960 0.0573 1. 0.4458 -0.9237. H4. 1. H5. -0.3432. -0.6798 -0.2366 -0.9800 1. H6. 0.207. -0.196. 0.5663. 1. 0.3218. H7. 1 圖 2.8 嬰兒哭時 Hu 動差中的七種動差之相關係數表。 2-5.

(19) 第三章嬰兒臉部偵測本章介紹嬰兒臉部偵測的方法，嬰兒臉部偵測的流程如圖 3.1 所示。流程中包括光線補償、膚色部位擷取、雜訊去除及正確臉部區塊的選擇。在第 3.1 節中說明如何利用光線補償以減少受到環境的影響，3.2 及 3.3 節則說明如何擷取嬰兒膚色的部位並去除影像中的雜訊，3.4 說明如何選出一個適合的區域做為臉部的候選區域。. Video sequences. Lighting compensation Infant face extraction Skin color detection. Noise reduction. Infant face identification. Face region output. 圖 3.1 嬰兒臉部的偵測流程。. 3.1 光線補償在嬰兒的膚色偵測方面，經常會因為室內光線的強弱變化而影響到偵測的準確度。本研究利用膚色來偵測嬰兒臉部，經常會受到室內光線的明暗影響而造成偵測的錯誤，因此在偵測前先對影像進行光線補償，以提高偵測的正確性。 3-1.

(20) 假設 x 為每個像素的(r, g, b)值，f(x)為像素值經轉換後所得到的值，因此光線補償公式如下：. T T −x T (T − x ) − T (T − x) = T−x Tx − Tx = T −x. f ( x) = T − (T − x). 其中 x 分別代表影像中 R，G，B 三種 band 的平均值。將影像中每個像素的(r, g, b)值分別帶入 f(x)後可以得到補償後的(f(r), f(g), f(b))值，即可以得到做光線補償後影像，如圖 3.2 所示。. (a). (b). 圖 3.2 光線補償的範例。(a)三張影像原圖；(b)光線補償後的影像。. 3.2 嬰兒臉部偵測嬰兒臉部區域偵測，最容易的作法就是利用影像的色彩直方圖(color histogram)分離出膚色候選區域，然後根據膚色候選區域的分佈範圍進行過濾，將影像中可能為嬰兒膚色的區域留下。本研究利用 HSI，YCrCb，LUX 等彩色模型(color model)擷取膚色區域，以下介紹三種不同的色彩模型。 3-2.

(21) 第一種色彩模型 HSI(hue、saturation、以及 intensity)。HSI 可以由 RGB 彩色模型經過線性轉換而成，其數學式如下所示。 θ H = 2π −θ. 其中. θ = cos −1. S =1−. if G > B if G ≤ B (( R − G ) + ( R − B)) / 2 ( R − G )( R − G ) + ( R − B)(G − B). 3 min ( R,G, B ) ( R + G + B). I = ( R + G + B) / 3. 其中 H 代表色相，S 代表飽和度，I 代表亮度，R 代表紅色，G 代表綠色， B 代表藍色。HSI 的優點是可以分離影像中亮度和色彩的部分，對於顏色分割有很不錯的效果，因此對於膚色的偵測是一個不錯的選擇，但由上面的公式可以發現，其運算較為複雜，因此速度相對也較慢。第二種色彩模型 YCrCb。YCrCb 彩色模型亦可以由 RGB 彩色模型經過線性轉換而成，其數學式如下所示。 0.587 0.114   R  Y   0.299      − 0.4187 − 0.0813 G  Cr  =  0.500 Cb  − 0.1687 − 0.3313 0.500   B . 其中 Y 代表亮度值，Cr、Cb 皆表示色度值，R 代表代表紅色，G 代表綠色， B 代表藍色。色度值與亮度值分離的好處，是在擷取膚色過程中不易受光線的變化而干擾結果。[Cha99]的研究指出由色度值 Cr 與 Cb 共同定義出膚色值，其範圍分別為 Cr = [133, 173]與 Cb = [77, 127]，可擷取影像中人的膚色。第三種色彩模型是 LUX。Lievin 認為若光線強烈地變化，由 YCrCb 彩色模型擷取膚色的結果還是會受影響，因此 Lievin 在 2004 年提出 LUX 3-3.

(22) 彩色模型[Lie04]，可以從 YCrCb 經過非線性的數學轉換而得，利用此彩色模型將使色度從亮度中分離更完整，其數學式如下： L = ( R +1) 0.3 (G +1) 0.6 ( B +1) 0.1 −1. M 2  U = M .  R + 1    L +1 M  L +1 −   2  R + 1. M  B +1  2  L +1    X = M − M  L + 1   2  B +1. if R < L, otherwise.. if B < L, otherwise.. 其中 L 代表亮度值，U、X 代表色度值，R 代表紅色，G 代表綠色，B 代表藍色。其中 Lievin 等人另外發現人類膚色的紅色值 R 會大於亮度值 L，可用於膚色判斷的輔助。同時亦發現自然界中亮度值 L 與綠色值 G 的差異很小，所以將 G 替換掉計算複雜的 L，再將 U 定義成新的 color band U’：   256× G U'=  R   255. if R > G otherwise.. 其中 R 代表代表紅色，G 代表綠色。偵測膚色的方法為當影像中任一像點的 R 大於 G 時，則將 256 乘上 G/R 作為 U’值，其膚色值的範圍則為 U’=[0,254]，亦可偵測出嘴唇的顏色。Lievin 等人比較了 Cr，H，U 和 U’ 等四種 color bands 偵測膚色的準確性實驗，發現 U’可以較準確地偵測出影像中的膚色區域。上述的 color bands 經過偵測膚色的準確性比較後發現在光線較暗的情況下使用 S 和 Cb 偵測出來的膚色區域會有嚴重破碎的情況，使用 U’偵測膚色則會將許多非膚色區域誤判成膚色。因此，[姚 08]經過觀察 color band U’可以發現，將判斷條件加上當 R 大於 G 時，R/G 亦須小於 1.5 的情況才是膚色值。故形成新的 color band U’， . 令為 U ，其表示式如下： 3-4.

(23)  256× G U = R  255. if. R < 1.5 and R > G > 0 , G otherwise.. . . 其中膚色值的範圍 U =[0,252]和 Cb=[110,133]，而由 U 與 Cb 偵測影像的膚色中，發現加入飽和度 S 對於膚色有更準確的判斷，而 S 的膚色範圍 . S=[5,35]，因此要取得更準確的膚色區域可以利用 U 、Cb 及 S，如圖 3.3。. (a). (b) . 圖 3.3 膚色偵測的範例。(a)經過光線補償後的影像；(b)利用 U 、Cb 及 S 三個 color bands 進行膚色擷取的結果。. 3.3 去除雜訊影像輸入系統後，先對影像作光線補償的動作，接著擷取影像中的膚色區域以得到嬰兒臉部的可能區塊。觀察膚色偵測的結果發現影像中有相當多非臉部區塊的雜訊，因此必須進行雜訊去除以得到正確的臉部區塊。本論文利用中值濾波器(median filter)去除影像中的雜訊。若 x1 , x2 ,⋅⋅⋅, xn 為一序列像素值，按照大小排列為 x1 ≤ x 2 ⋅⋅⋅≤ x n ，若序列的中值為 y：. 3-5.

(24) if n is odd  x n +1 / 2  y = Med{x1 , x2 ,⋅ ⋅ ⋅ x n } =  1 ( x n / 2 + x n +1 / 2 ) if n is even  2. 接著將中值y取代序列中間個數的值，在二維的影像中，遮罩(mask)的大小決定序列的長度，遮罩會對影像中每個像素點進行偵測並取得中間值，接著將中間值取代原來像素點。本系統是取10x10大小的遮罩來進行濾波並去除雜訊，因為要減少更多的雜訊，所以重複進行去除雜訊，以得到一個適當的結果，如圖3.4。. (a). (b) . 圖 3.4 利用中值濾波器去除雜訊的範例。(a)利用 U 、Cb 及 S 三個 color bands 針對膚色所擷取出來的影像；(b)(a)中影像進行二元化後，接著去除雜訊所得到的結果。. 3.4 臉部擷取本系統偵測出膚色的區域後，假設影像中最大的 connected component 是臉部的區域，利用 connected component 將區塊選取出來，而得到臉部候選的臉部區塊，如圖 3.5。. 3-6.

(25) (a). (b). 圖 3.5 嬰兒臉部區塊擷取的範例。(a)去除雜訊後所得到的影像(b)在(a)影像中找 connected component，並對應回原彩色影像，進行臉部擷取。. (a). (b) . 圖 3.6 利用中值濾波器產生出兩個臉部候選區塊的範例。(a)利用 U 、Cb 及 S 三個 color bands 針對膚色所擷取出來的影像；(b)對(a)的影像進行濾波所產生的兩個臉部候選區塊。. (a). (b) . 圖 3.7 利用中值濾波器產生較小的臉部區塊的範例。(a)利用 U 、Cb 及 S 三個 color bands 針對膚色所擷取出來的影像；(b)對(a)的影像進行濾波所產生的較小臉部候選區塊。. 但是在偵測的過程中有時候會因為非臉部區域的雜訊太多，所以在進行濾波後會產生兩個臉部候選區塊(如圖 3.6)，系統在判斷上會造成錯誤， 3-7.

(26) 因此必須對多個臉部候選區塊進行判斷。在判斷上會造成錯誤，除了多個臉部候選區塊外，有時候因為單一的臉部候選區塊太小，也會導致錯誤，如圖 3.7。. (a). (b). (c). (d). (e) 圖 3.8 多個臉部候選區塊判斷的範例。(a)臉部候選區塊的二極值影像(t-1 frame)；(b)多個臉部候選區塊的二極值影像(t frame)；(c)由(a)所對應到的彩色影像(t-1 frame)；(d)由(b)所對應到的彩色影像(t frame)；(e) 根據(c)的質心對(d)做判斷所得到的結果。因此本系統利用紀錄前一張的影像(t-1 frame)臉部候選區塊的質心，對錯誤的地方做修正。當影像有多個臉部候選區塊的時候，系統會根據前一張影像(t-1 frame)臉部候選區塊的質心位置給予判斷，也就是目前影像(t frame)會參考前一張影像(t-1 frame)臉部候選區塊的質心位置，判斷哪一個區塊的質心位置離參考的質心位置最近，而決定一個適合的臉部候選區 3-8.

(27) 塊，如圖 3.8。. (a). (b). (c). (d). (e) 圖 3.9 單一臉部區塊判斷的範例。(a)臉部候選區塊的二極值影像(t-1 frame)；(b)多個臉部候選區塊的二極值影像(t frame)；(c)由(a)所對應到的彩色影像(t frame)；(d)(b)中的臉部候選區塊太小系統會去忽略，因此所對應的彩色影像不會有臉部候選區塊；(e) 根據(c)的質心對(d) 做判斷所得到的結果。在單一臉部候選區塊太小的情況，系統會忽略不去偵測而造成錯誤，系統會根據前一張影像(t-1 frame)臉部候選區塊的質心給予位置，也就目前影像(t frame)會使用前一張影像(t-1 frame)適當臉部候選區塊的質心位置，因此可以得到適合的臉部候選區塊，如圖 3.9。. 3-9.

(28) 第四章特徵擷取 4.1 動差(moment) 動差是利用影像中物體的統計數值來描述該物體的特徵，可用於文字辨識、以及人臉辨識等。若給定一張影像 I，(x, y)分別表示影像中 x 軸與 y 軸上的座標，f(x, y)為該座標位置上像素點所對應的灰階值，此時整張影像的動差可定義為: ∞ ∞. m pq =. ∫ ∫x. p. y q f ( x, y )dxdy. −∞−∞. 其中 p、q 表動差的階數，兩者皆為非負整數。此時若以物體的質心為原點計算影像的動差，則可以確保影像上物體具平移不變性，依此方式計算動差稱為中心動差(center moment)：. µ pq =. ∞ ∞. ∫ ∫ [( x − x ). p. 0. ] [( y − y 0 ) q ] f ( x, y )dxdy. − ∞− ∞. 其中p、q表動差的階數，兩者皆為非負整數。且影像上的質心(x 0 , y 0 )可分別由零階動差m 00 和一階動差m 01 ，m 10 算出。. x0 =. m10 ， m00. y0 =. m01 ， m00. 此時中心動差μ pq 僅具有影像中物體平移、旋轉的不變性，但卻不具縮放之不變性。若將上述的連續函數離散化，則中心動差可表示如下：. µ pq =. ∑∑ ( x − x x. 0. ) p ( y − y 0 ) q f ( x, y ). y. 其中 p、q 表動差的階數，兩者皆為非負整數。. 4-1.

(29) 將離散化後的中心動差正規化: η pq =. 其中 γ =. µ pq γ µ00. ，. p+q + 1 ，且 p + q 需為大於二以上的正整數。經過正規化的中心 2. 動差，兼具有平移、旋轉和縮放的不變性。由上述正規化的後中心動差，可推演出 Hu、Zernike 等提出的具不變性的動差組合公式。. 4.2 Hu 動差 Hu 於 1962 年發表了第一篇利用動差做為特徵對影像中的物體進行辨識的研究論文，首先提出了某些特定的動差可做為影像中物體的特徵並具有平移、旋轉和縮放的三種不變性，而這些動差就被稱為 Hu 動差。 Hu認為若部份影像中像素點的值f(x,y)為非零值，則其各階的動差都存在，並且可以確定唯一的動差序列，反過來說給定一動差序列{m pq }也可以對應唯一的一張影像，即某一張影像和特定動差序列{m pq }存在著一對一的對應關係。所以動差可以用來描述一張影像的特徵，因此只要知道影像中各點像素值f(x, y)，即可利用對應的動差序列來描述影像。在 Hu 提出來的動差中，一階的動差與物體的形狀有關係，二階的動差則可以描述物體的曲線及輪廓，三階的動差則是關於物體的對稱性。因此 Hu 利用二階和三階的中心動差組成了七種具不變性的動差，其定義如下: H1 = η 20 + η 02 H 2 = (η 20 − η 02 ) 2 + 4η112 H 3 = (η30 − 3η12 ) 2 + (3η 21 − η 03 ) 2 H 4 = (η 30 + η12 ) 2 + (η 21 + η 03 ) 2. 4-2.

(30) H 5 = (η 30 − 3η12 )(η 30 + η12 )[(η 30 + η12 ) 2 − 3(η 21 + η 03 ) 2 ] + (3η 21 − η 03 )(η 21 + η 03 )[3(η 30 + η12 ) 2 − (η 21 + η 03 ) 2 ] 2 H 6 = (η 20 − η 02 )[(η 30 + η12 ) 2 − (η 21 + η 03 ) 2 ] + 4η11 (η 30 + η12 )(η 21 + η 03 ) 2 H 7 = (3η 21 − η 03 )(η 30 + η12 )[(η 30 + η12 ) 2 − 3(η 21 + η 03 ) 2 ] + (3η12 − η 30 )(η 21 + η 03 )[3(η 30 + η12 ) 2 − (η 21 + η 03 ) 2 ] 2. 在Hu的七種不變動差中，只有兩種不變動差H 1 H 2 是由二階正規化後的動差組成，剩下的H 3 到H 7 則由三階正規化後的動差組成。一般而言，利用二階動差及三階動差對於影像中物體的外型及輪廓描述已有不錯的效果。通常越高階的動差對於影像中細小的部份可以描述的越精細，相對來說也越容易受到影像中雜訊的影響，所以並不是越高階的動差對於物體的描述有更好的效果。. 4.3 R 動差前面所介紹的 Hu 動差具有三種不變性，但是 Hu 動差的公式做離散化後，發現七個動差在縮放不變性會受到影響。因此 Jing 等提出利用七個 Hu 動差作組合，因而得到十個 R 動差，其公式如下：. R1 =. R3 =. R5 = R7 =. H2 ， H1. H3 H4. R2 =. R4 =. ，. H4 | H5 |. ，. | H6 | H1 ⋅ | H 5 |. H1 + H 2 H1 − H 2. H3 | H5 |. ,. R6 =. | H6 | , H1 ⋅ H 3. R8 =. | H6 |. ，. 4-3. ,. H3 ⋅ H2. ,.

(31) R9 =. | H6 | H2⋅ | H5 |. R10 =. ，. | H5 | H3 ⋅ H4. 這十個不變動差也具有大小、旋轉和平移的不變性，同時也改善了 Hu 動差的缺點，在這我們將這十個動差定義為 R 動差。. 4.4 Zernike 動差 2 2 Zernike提出了一組多項式Vnm (x, y)，這組多項式在單位圓 {x + y ≤ 1}. 內是正交的，具有如下行式： V pq ( x, y ) = V pq (r ,θ ) = R pq (r ) exp( jqθ ). 其中 j = − 1 ，p 正整數或零，q 為正整數或負整數，且必須滿足 p – q 為偶數， | q |≤ p ，半徑 r 為原點到像素點(x, y)長度的距離，θ 為半徑 r 和軸 x 的夾角， R pq (r ) 為半徑多項式，定義為： ( p −| q |) / 2. R pq (r ) =. ∑. (−1). s =0. ( p − s)! r p − 2s  p − 2s + | q |   p − 2s − | q |  s!  ! !  2 2   . 若給定一張影像 I，(x, y)分別表示影像中 x 軸與 y 軸上的座標，f(x ,y) 為該座標位置上像素點所對應的灰階值，因此 p 階 Zernike 動差定義為： Apq = =. p +1. π p +1. π. ∫∫. * ( r ,θ ) f ( x, y ) dxdy V pq. x + y ≤1 2. 2π. 2. 1. ∫ ∫V 0. 0. * pq ( r ,θ ) f ( x, y ) dxdy. *. 其中， V pq 表示共軛複數。由上述可以知道Zernike動差為複數的形式，因此一張影像I經過計算後會產生實部及虛部的值將其分別記為C pq 和S pq 表示如下：. 4-4.

(32) C pq =. 2p + 2. S pq = −. π. 1 2π. ∫∫. 0 0. 2p + 2. π. R pq (r ) cos(qθ ) f (r ,θ )drdθ. 1 2π. ∫∫. 0 0. R pq (r ) sin( qθ ) f (r ,θ )drdθ. 在影像通常表示為離散函數，因此需要將公式離散化，由於 Zernike 多項式在單位圓內正交，因此 Mukundan 和 Ramakrishnan 提出了如下的變形式[Ｍuk95]：對於 NxN 大小的影像，令座標原點位於影像的中心，則 − N / 2 ≤ x ， y ≤ − N / 2 ，對於像素 f(x, y)，引入兩個参數 (r ,v) ，其定義為： r = max(| x |, | y |). 如果 | x |≠ r ，則 v =. 2(r − x) y xy + 。 | y| r. 如果 | x |= r ，則 v = 2 y −. xy 。 r. 由上式中可觀察得知 r 取值從 1 到 N/2，v 取值從 1 到 8r，由参數 (r ,v) 可定義相對應的極座標： v = 2r / N. θ = πv / 4r. 經過以上變換，可以寫成如下離散形式： C pq. 8r πqv 2p + 2 N /2 = R pq (2r / N )∑ cos f (r , v) ∑ 2 4r N r =1 v =1. S pq =. 8r 2p + 2 N /2 πqv R r N f (r , v) ( 2 / ) sin ∑ ∑ pq 2 4r N r =1 v =1. 最後將實部及虛部平方相加開根號以得到最後結果如下所示： Z pq = (C pq + S pq )1 / 2 2. 2. 由上述可知，要擷取影像的特徵，低頻的部分可由p 值小的來計算，而高頻的部分可由p 值大的來計算。Zernike moment可以任意構造高階動 4-5.

(33) 差，而高階動差包含更多的影像資訊，可以使Zernike moment識別效果更好。而在本論文中，取p值為第八及第九做為擷取影像擷取特徵，我們定義Z 1 =Z 80 ，Z 2 =Z 82 …，Z 10 =Z 99 。. 4.5 特徵間的相關係數本系統輸入連續 15 張影像(圖 4.1)可分別計算出 Hu 動差的七種動差、R 動差的十種動差及 Zrenike 動差的十種動差，使得這三類動差的每種動差都可以得到 15 個特徵值。以 Hu 動差的七種動差為例，將七種動差的 15 個特徵值以折線圖表的方式表現(如圖 4.2(a))，同樣的 R 動差及 Zernike 動差也以折線圖的方式表現，如圖 4.2(b)與(c)。觀察折線圖可以發現每種動差都會呈現一種曲線，由於本研究期望能找出某些嬰兒表情出現時其各種動差之間的相關性，因此利用動差間的相關係數來探討兩兩曲線的相關程度。. 圖 4.1 嬰兒哭的連續 15 張影像。相關係數公式如下:  X − µX ρ XY = E   σX = =.  Y − µY   σ Y E ( X − µ X )(Y − µY ). σ XσY. σ XY σ XσY 4-6.   .

(34) (a). (b). (c) 圖 4.2 以圖 4.1Hu 動差、R 動差及 Zernike 動差的特徵值之折線圖。(a)七種 Hu 動差 15 個特徵值之折線圖；(b) 十種 R 動差 15 個特徵值之折線圖；(c) 十種 Zernike 動差 15 個特徵值之折線圖。 4-7.

(35) 其中為ρ XY 為X，Y 隨機變數的相關係數，μ X、σ X 為X的平均數與標準差， μ Y 、σ X為Y的平均數與標準差，σ XY為X與Y的共變數。若X，Y為N個成對的資料則公式可改為： 1 ∑( X − µ X )(Y − µ Y ) N 1 1 ∑( X − µ X ) 2 ∑(Y − µ Y ) 2 N N. ρ XY =. 因此當ρ XY = 0 時，表示X，Y無相關性，而當 ρ XY之值在(-1,+1)之間，當ρ XY >0 時，X，Y間具有正相關性，反之當ρ XY <0 時，X，Y間具有負相關性。由於母群ρ XY 通常是無法得知的，因此必須利用樣本資料來估計它，所以我們要求的是ρ XY 的估計式r XY ： ∑( X − X )(Y − Y ). rXY = =. ∑( X − X ) 2 ∑(Y − Y ) 2 S XY S X SY. 其中，S XY 為樣本共變數，S X 為X的樣本標準差，S Y為Y的樣本標準差。在計算方面，以 Hu 動差的七種動差為例，任選兩種動差為一組做相關係數的計算，因此帶入上述的公式： rH i H j =. S Hi H j S Hi S H j. , i = 1,2,⋅ ⋅ ⋅,7, j = 2,⋅ ⋅ ⋅,7 and i < j. H i 和H j 代表Hu動差中任兩種動差。上述計算可以得到 21 個相關係數值，接著將這 21 個相關係數值當成一組分類向量，如圖 4.3 所示。同樣的R 動差的十種動差與Zernike動差的十種動差，利用相關係數的計算各可以得到 45 個相關係數值並分別當成一組分類向量。本研究對嬰兒表情分為 15 種類別，我們使用了決策樹(decision tree)自動將分類向量作類別的分類，詳細內容於第五章做介紹。. 4-8.

(36) H1 H1 H2 H3. 1. H2. H3. H4. H5. H6. H7. 0.1222 0.2588 0.8795 -0.4564 -0.4431 -0.9140 1. -0.8272 -0.1537 0.6927 -0.1960 0.0573 1. H4. 0.4458 -0.9237 1. H5. -0.3432. -0.6798 -0.2366 -0.9800 1. H6. 0.207. -0.196. 0.5663. 1. 0.3218. H7. 1 圖 4.3 嬰兒哭時 Hu 動差中的七種動差之相關係數表。. 4-9.

(37) 第五章決策樹決策樹(decision tree )是一種使用樹狀架構的方法來做分類，中間結點 (internode)存放著類別，分支(branch)為特徵值的判斷，而葉節點(leaf)則最後的結果存放著某一個的類別，如圖5.1所示。決策樹的運作模式是先找一個最佳的分類特徵作為根節點，接著所有類別以此根節點為判斷根據進行分類，分類在每一個分支的類別再選出最佳的特徵作為根節點，再進行分類，形成一棵子樹，如此的過程一直重複，直到在一個分支內的所有資料都屬於同一個類別，推導過程才算結束，這個最終的分支就會形式葉節點，裡面記載著葉節點內所屬的類別，這樣就會形成一棵決策樹。 wk. wk. 特徵值>0. Yes. 特徵值>0. Yes. No wk 特徵值>0. No. Yes. 圖 5.1 決策樹示意圖。. 5-1. No.

(38) 決策樹是一種貪婪(greedy)的演算法，使用top-down的方式，遞迴的使用divide-and conquer的技術建構決策樹，著名的演算法如ID3、C4.5等都是建立決策樹的方法，其基本的步驟如下： 1. 首先所有的訓練資料用一個樹的root節點代表。 2. 如果所有的資料屬於相同的分類，則節點即成為葉節點，且標記為該分類。 3. 否則，依據演算法中所定義的衡量方式，決定應該用何種特徵值做為切割訓練資料的依據會讓資料分隔的情況最接近獨立分開 4. 資料依據該特徵值切割的條件分配到所屬的子節點。接下來對每個子節點重覆2-4的步驟，直到符合終止條件2才停止。從以上的步驟可以發現，決策樹基本的方法，必須要決定三個部份：衡量方法、切割方法、及終止條件。. 5.1衡量方式(entropy) 假設節點S內，有Y筆資料，且節點S內有k個類別，假設這Y筆資料可分為兩個類別分別為. ，。接著選取一個特徵值作為分類的依據，根據. 特徵值的正負資料可分為兩個子結點，正的分到左邊子結點，負的分到右邊子結點，因此這兩個子結點可能會存在類別. 及類別. 的資料，如圖. 5.2所示。接著計算子結點內所有的資料數 N S ，以及所包含不同類別的個數記作 N Si ，因此利用類別的資料數可以去計算entropy，其公式如下: k. Entropy ( s ) = −. N Si. ∑N i =1. log 2. S. N Si NS. 這兩個子結點經過 entropy 的計算後，可以個別得到兩個值，這些值分別代表著兩個子結點的混亂程度，當結點內的類別越複雜算出來的 entropy 5-2.

(39) 值也會越高。這裏我們希望將分類越集中越好，相對的 entropy 值也必須要能夠越小越好。最後將兩個子結點的 entropy 值相加可以得到一個最後結果，而這結果代表著利用特徵值做分類所得到的值。. •••. No. Yes. (a). (b). 圖 5.2 決策樹的分類及 Hu value 圖表。(a)依據特徵值分成兩個子結點； (b)每筆資料的 21 個特徵值。. 5.2 切割方法經由上面的敘述可以知道，利用每筆資料相對應的特徵值做正負的分類，而產生兩個子節點，第一個子節點(node1)包含S節點裡對所有為正的資料x，而第二個子節點(node2)包含S節點裡所有為負的資料y，接著分別對第一個子結點及第二個子結點 entropy 的計算，可得到 Entropy(1) 及 Entropy(2)的值並將兩個值相加而得到一個最後的值(Entropy(S))，如圖5.3。. 5-3.

(40) 圖5.3 決策樹分割方法示意圖。A為特徵值，entropy(s)為結點S算出來的 entropy值。. 利用上述的方式，以Hu動差做為例子說明，將資料經過相關係數的計算可以得到21個關係數值，因此對10筆資料做計算後可以得這些資料的相關係數值，將其以正負的方式表現，如圖5.4(a)所示，接著以第一個特徵值 H 1 H 2 大於零作為分類的依據，將其分成兩個子結點，這裡我們希望能藉由 entropy值來看出分類結果的好壞，所以對兩個子結點作entropy的運算並將兩個entropy值相加以得到最後的數值，而這數值代表著到以第一個特徵值做為分類依據的結果。接著將20個特徵值依序重複上述的動作，因此可以得到21個不同的數值，再將這些值依據大小排列，這些數值分別代表著利用每個特徵值分類的好壞，數值越大代表分類類別越混亂，數值越小代表類別分類越集中，因此取最小數值做為最後分類的特徵值，如圖5.5所示。. 5-4.

(41) •••. (a) •••. 圖5.4 利用Hu 特徵值做決策樹的分割範例。(a)每個類別利用Hu moment 經過相關係數所產生的21個特徵值每個特徵值都可以分成兩個子結點；(b)每個特徵值算出的最後entropy值. 5-5.

(42) 圖 5.5 取最小特徵值示意圖。將圖 4.4 表中的值由小到大排列，取出最小的值最為最後選擇的特徵值。. 5.3 終止條件終止條件用於決定一個節點是否成為葉節點。包含：一個節點內的資料密度已夠好到構成一個群，而不需要繼續做分群；一個節點的資料量過少或密度太低都不足以分群。當所有節點都成為葉節點時，也就會終止。依據這些原則，終止條件可分為下面兩類如圖5.6所示： 1. 當S結點算出的entropy值為零時，表示相同類別集中在一個S節點，將其標記成葉節點。 2. 當S結點內的類別超過兩個以上，但是類別的資料形態卻相同，將其標記成葉節點。. 5-6.

(43) (a). (b) 圖 5.6 葉節點示意圖。(a)當結點內存在相同的類別；(b)節點內不同類別但是相同形態。. 5-7.

(44) 第六章實驗結果本系統使用Borland C++ Builder編譯器，在IntelRCore™21.86GHz的PC 上處理連續的輸入影像。輸入的影像為利用架在車上的數位攝影機SONY TRV-900 所拍得的彩色影像，影像大小為 640*480(像素)，不過為了系統處理方便及節省時間，本系統先將影像轉為 320*240(像素)再輸入系統內。本研究將嬰兒表情分為 5 種類別，分別是吐奶、發呆、打哈欠、笑、和哭，但考慮嬰兒的臉部轉動(左轉、右轉、正面)後(如圖 6.1)，合計的可能類別則有 15 種，我們使用了決策樹(decision tree)自動進行這 15 種類別的分類。. 右轉哭. 正面哭. 左轉哭. 圖 6.1 嬰兒哭的三種類型。實驗中使用 59 筆訓練資料，利用三種動差做兩兩間動差相關係數的計算後可以得到 59 組相關係數值，因此利用這些相關係數值做為分類向量可以長出三種不同的決策樹。接著使用 30 筆測試資料輸入三種不同的決策樹做分類，測試其正確率。. 6.1 決策樹分類實驗結果所以本實驗可以分為三大部分：第一個實驗對 Hu 動差做相關係數後所建構的決策樹進行分類，第二個實驗是對 R 動差做相關係數所建構的決. 6-1.

(45) 策樹進行分類，第三個實驗是對 Zernike 動差做相關係數所建構的決策樹進行分類。. 實驗一: 59 筆訓練資料經由 Hu 動差做相關係數的計算所建構的決策樹。 H4H5>0 Yes. No. H6H7>0. H3H5>0. 圖 6.2 決策樹根據相關係數值H 4 H 5 >0 分成左右兩個子樹。 H3H5>0. No. Yes. H1H6. H6H7>0. Yes. vomiting milk. H3H6>0. Yes. No. Yes. No. vomiting milk. laugh. H1H5>0. cry. H1H3>0. Yes. cry. yawn. No. Yes. vomiting milk. H2H5>0. No. Yes. No. No. laugh. 圖 6.3 根據相關係數值H 4 H 5 >0 分成的左子樹。 6-2.

(46) H6H7>0. No. Yes. cry. H1H4>0. No. Yes. yawn. H2H6>0. No. Yes. cry. H1H6>0. No. Yes. H5H7>0. Yawn. Yes. No. H3H4>0. Yes. H1H3>0. Yes. daze. H1H2>0. No. Yes. daze. daze. No. laugh. No. cry. 圖 6.4 根據相關係數值H 4 H 5 >0 分成的右子樹。利用Hu動差做特徵間相關係數所建構的決策樹。根據計算出來的相關. 係數值H 4 H 5 分成左子樹及右子樹，如圖 6.2 所示，以H 3 H 5 為結點的左子樹，如圖 6.3 所示，以H 6 H 7 為結點的右子樹，如圖 6.4 所示。 6-3.

(47) 由 Hu 動差做特徵間相關係數所建構的決策樹可以發現兩個重點: 一、在 root 的右子樹所有葉節點中，有兩個葉節點包含相同類別的不同組訓練資料，這兩個葉節點分別為哭及打哈欠的類別。二、在這棵樹中，可以發現左子樹的部分大都是呈現右臉，而右子樹的葉節點大都是呈現左臉。. (a). (b) 圖 6.5 嬰兒哭且正面的測試資料分類結果。(a)測試資料；(b)分類結果。. 6-4.

(48) 由圖 6.5 在說明當測試資料輸入 Hu 動差經相關系數計算所建構的決策樹，發現其結果被歸為類別為哭且正臉的節點上，因此其為正確的分類。. (a). (b) 圖 6.6 嬰兒發呆且左臉的測試資料分類結果。(a)測試資料；(b)分類結果。由圖 6.6 所示，嬰兒表情為發呆且左臉的測試資料輸入決策樹，發現測試的結果被歸為類別發呆且左臉的節點上，因此其為正確的分類。. 6-5.

(49) 實驗二: 59 筆訓練資料經由 R 動差做相關係數的計算所建構的決策樹。 R5R7>0 No. Yes. vomiting milk. R1R2>0 Yes. No. R4R7>0. yawn. No. Yes. R5R10>0. R4R6>0. No. Yes. cry. Yes. daze. No. R4R1>0. laugh. No. Yes vomiting milk. R1R10>0. 圖 6.7 從root到R 1 R 10 的節點所建構的決策樹。 R1R10>0 No. Yes. R1R5>0. R5R10>0. 圖 6.8 根據相關係數值R 1 R 10 >0 分成左右兩個子樹。 6-6.

(50) R5R10>0 No. Yes R1R3>0 Yes. cry No. daze. laugh. 圖 6.9 根據相關係數值H 5 H 10 >0 分成的左子樹。 R1R5>0 No. Yes. R9R10>0 R1R4>0 Yes. No. daze. R1R8>0. No. Yes. R1R6>0. R1R7>0. Yes. No. cry. cry. Yes. No vomiting milk. R1R3>0. Yes. cry. No. laugh. No. Yes. laugh. daze. 圖 6.10 根據相關係數值H 5 H 10 >0 分成的右子樹。利用R動差做特徵間相關係數所建構的決策樹。圖 6.7 表示從root到. R 1 R 10 的節點所建構的決策樹，接著根據計算出來的相關係數值H 4 H 5 >0 分. 6-7.

(51) 成左子樹及右子樹，如圖 6.8 所示，以R 5 R 10 為結點的左子樹，如圖 6.9 所示，以R 1 R 5 為結點的右子樹，如圖 6.10 所示。由圖 6.7 可以發現，有兩個葉節點包含相同類別的不同組訓練資料，這兩個葉節點分別為哭及打哈欠的類別，而且比較實驗一的決策樹，這兩個葉節點包含更多組的訓練資料。同時發現吐奶的類別在 R 動差做相關係數所建構的決策樹中相當分散。. (a). (b) 圖 6.11 嬰兒打哈欠的測試資料所分類出來結果(一)。(a)測試資料；(b)分類. 結果。 6-8.

(52) (a). (b) 圖 6.12 嬰兒打哈欠的測試資料所分類出來結果(二)。(a)測試資料；(b)分類. 結果。由圖 6.11 及圖 6.12 說明，嬰兒表情為打哈欠的測試資料輸入 R 動差經相關係數計算所建構的決策樹，發現測試的結果被歸為類別打哈欠的節點上，因此其為正確的分類。. 6-9.

(53) 實驗三: 59 筆訓練資料經由 R 動差做相關係數的計算所建構的決策樹。 Z2Z6>0. Yes. No. Z9Z10>0. Z4Z8>0. 圖 6.13 根據相關係數值Z 2 Z 6 >0 分成左右兩個子樹。 Z4Z8>0. No. Yes. Z5Z7>0. Z3Z6>0. Yes. Z6Z7>0. Yes. No. Yes. No. Z1Z5>0. cry. cry. laugh. No. Yes. No. Yes. No. Yes. cry. Z1Z4>0. cay. Yes. daze. vomiting milk. Z1Z7>0. Z1Z7>0. No. yawn. 圖 6.14 根據相關係數值Z 2 Z 6 >0 分成的左子樹。 6-10. No. laugh.

(54) Z9Z10>0. Yes. No. Z7Z10>0. Z6Z7>0. Yes. vomiting milk. No. cry. Z1Z4>0. Yes. daze. Z1Z9>0. Z1Z2>0. Z1Z3>0. Yes. No. Yes. No. Yes. daze. No. Yes. No. yawn. laugh. Z1Z8>0. No. No. Yes. yawn. daze. Z2Z3>0 Yes. No. vomiting milk. Z1Z2>0. Yes. No. laugh. daze. 圖 6.15 根據相關係數值Z 2 Z 6 >0 分成的右子樹。. 利用Zernike動差做特徵間相關係數所建構的決策樹。根據計算出來的. 相關係數值Z 2 Z 6 分成左子樹及右子樹，如圖 6.13 所示，以Z 4 Z 8 >0 為節點的左子樹，如圖 6.14 所示，以Z 9 Z 10 >0 為結點的右子樹，如圖 6.15 所示。. 6-11.

(55) 由圖 6.14 及圖 6.15 可以發現類別大都平均分布於各節點上，而類別哭由相關係數值Z 5 Z 7 的節點所分出來的葉節點對哭的類別相當集中，而其他類別在葉節點上的分布較為分散。. (a). (b) 圖 6.16 嬰兒吐奶的測試資料所分類出來結果。(a)測試資料；(b)分類結果。. 由圖 6.16 所示，嬰兒吐奶的測試資料輸入 Zernike 動差經相關係數計算所建構的決策樹，發現測試的結果被歸為類別吐奶的節點上，因此其為正確的分類。. 6-12.

(56) (a). (b) 圖 6.17 嬰兒哭的測試資料所分類出來結果。(a)測試資料；(b)分類結果。圖 6.17 所示，嬰兒哭的測試資料輸入 Zernike 動差經相關係數計算所得. 到的決策樹，發現測試的結果被歸為類別哭的節點上，因此其為正確的分類。取 30 筆測試資料進行測試，利用 Hu 動差的測試結果發現會有 3 筆資料錯誤，所以其準確率為 90%，R 動差的測試結果發現會有 6 筆資料錯誤，. 6-13.

(57) 所以其準確率為 80%，而 Zernike 動差的測試結果發現會有 4 筆資料錯誤，所以其準確率為 87%。由實驗一、二和三可以發現利用不同的動差算的特徵值所建構的決策樹，對於某些類別有較好的分類效果。在實驗一的測試中發現對於左右臉的有較高的辨識率，在實驗二的測試中發現對於打哈欠表情的有較高的辨識率，在實驗三的測試中發現對於哭有較高的辨識率。所以不同的動差對於物體描述的也有不同的效果，但是整體而言 Hu 動差的效果最好。. 6-14.

(58) 第七章. 結論與未來工作. 7.1 結論本研究主要偵測是嬰兒表情並分析其相關的意外事件，當嬰兒處於危險狀態時，系統會發出警告以提醒照顧者，避免意外事故的發生。本系統主要分為特徵擷取(feature extraction)、特徵間相關係數計算(correlation calculation)與分類(classification)三個步驟。進行特徵擷取時，系統會先利用膚色範圍對影像中嬰兒的臉部的區域進行擷取，並將擷取出的彩色區域轉成灰階，接著計算其 Hu 動差，R 動差及 Zernike 動差做為臉部區域的特徵。接著系統計算兩兩特徵間的相關係數，依此找出某些嬰兒表情出現時其各種動差之間的相關性，因此特徵間的相關係數來觀察並比較兩兩動差間的相關程度。這些特徵間的相關係數可以用來對嬰兒的表情進行分類，本研究將嬰兒表情分成 15 個類別，並使用決策樹進行分類，其間利用 entropy 來評估使用某一判斷法則進行分類的好壞。本研究以 Hu 動差，R 動差及 Zernike 動差做為特徵進行表情辦識的正確率分別為 90%、87%、80%。不論嬰兒的臉左轉，右轉或正面，在表情的辨識方面皆有不錯的辨識率。實驗的過程顯示本研究所提出的方法穩定、可行、且有效率。. 7.2 未來工作本研究目前僅針對部份的嬰兒表情進行分類，希望未來能收集更多嬰兒的影像序列，建立各年紀(或月份)嬰兒臉部表情之完整資料庫，提供系統分類學習使用。若系統未來能對嬰兒表情進行更精確及多元的分類，包含微笑、害羞、撒嬌…等，不僅可以建立完整的嬰兒表情類別，也越能夠根據嬰兒細微的表情變化，提醒照顧者給予嬰兒適當的照顧。 7-1.

(59) 在利用決策樹進行分類時，樹中的每一個節點會先依據特徵間的相關值之正及負相關分成兩個子節點。但在這樣的判斷法則下，對於零相關或因誤差產生的低相關部分很容易進行錯誤的分類。因此如果能夠將特徵間的相關值在-1 至 1 之間多分幾個區間，建立多元決策樹，應有益於提升誤差的容忍度，使得判斷的法則更為精確，增加表情的辨識率。本研究結果顯示抽象特徵或統計特徵是可以用來進行嬰兒的表情辨識，未來也許可以更深入的探討這些特徵在不同年紀的嬰兒的表情中所扮演的角色，並探討更多元的抽象特徵是否亦能在嬰兒的表情辨識中成為適當的輔助工具。. 7-2.

(60) 參考文獻 [Ada00] Y. Adachi, A. Imai, M. Ozaki, and N. Ishii, “Extraction of Face Region by Using Characteristics of Color Space and Detection of Face Direction through an Eigenspace,” Proceeding of 4th Int’l Conference on Knowledge-Based Intelligent Engineering Systems and Allied Technologies, Brighton, UK, Volume 1, pp. 393-396, 2000. [Aha08] M. A. R. Ahad, T. Ogata, J. K. Tan, H. S. Kim, and S. Ishikawa, “Template-based human motion recognition for complex activities,” SMC 2008. IEEE International Conference on Systems, Man and Cybernetics, pp.673 – 678, 2008. [Cha99] D. Chai and K. N. Ngan, “Face Segmentation Using Skin-Color Map in Videophone Applications,”IEEE Trans on Circuits and Systems for Video Technology, volume 9, no. 4, pp. 551-564, 1999. [Dav94] David R. Shaffer (1994) “Social and Personality Development,” Brooks/Cole, pp.185-188. [Fan03] J. Fang and G. Qiu, “Human Face Detection Using Angular Radial Transform and Support Vector Machines,” Processing. 2003 International Conference on Image Processing, Nottingham Univ, UK, Volume 1, pp. I - 669-72, 2003. [Gil07] L. Goldmann, U. J. Monich, and T. Sikora, “Components and Their Topology for Robust Face Detection in the Presence of Partial Occlusions,” IEEE Transactions on Information Forensics and Security, Volume 2, pp. 559-569, 2007. [Hje01] E. Hjelmas and B. K. Low, “Face Detection: A Survey,” Computer Vision and Image Understanding, Volume 83, pp. 236-274, 2001. [Kik05] K. Kikuchi and K. Arakawa, “Estimation of babies' emotion by frequency analyses of their cries,” IEEE-Eurasip Nonlinear Signal and Image Processing, pp. 18-22, 2005. [Lie04] M. Lievin and F. Luthon, “Nonlinear Color Space and Spatiotemporal MRF for Hierarchical Segmentation of Face Features in Video,” IEEE Trans. on A-1.

(61) Image Processing, Volume 13, no. 1, pp. 63 -71, 2004. [Liu08] J. Liu, and C. Yan, ”Feature Extraction Technique Based on the Perceptive Invariability,” FSKD '08. Fifth International Conference on Fuzzy Systems and Knowledge Discovery, Volume 3, pp. 551-554, 2008. [Mar03] B. Martinkauppi, M. Soriano, and M. Pietikainen, “Detection of Skin Color under Changing Illumination: A Comparative Study,” Proceeding of 12th Int’l Conference on Image Analysis and Processing, Finland, pp. 652-657, 2003. [Mes08] D. S. Messinger, M. H. Mahoor, S. Cadavid, Chow Sy-Miin, and J. F. Cohn, “Early interactive emotional development” IEEE International Conference on Development and Learning, pp. 232-237, 2008. [Mit03] Y. Mitsukura, H. Takimoto, M. Fukumi, and N. Akamatsu, “Face Detection and Emotional Extraction System Using Double Structure Neural Network,” Proc. of the International Joint Conference on Neural Networks, Volume 2, pp. 1253 -1257, 2003. [Ｍuk95] R. Mukundan, and K. R. Ramakrishnan, “Fast computation of Legendre and Zernike moments”, Control Systems Group, ISRO Satellite Centre, Volume 28, pp. 1433-1442,1995. [Mut09] E. M. Mutsvangwa, J. Smit, E. Hoyme, W. Kalberg, L. Viljoen, M. Meintjes, and S. Douglas, “Design, Construction and Testing of a StereoPhotogrammetric Tool for the Diagnosis of Fetal Alcohol Syndrome in Infants,” appear to IEEE Transactions on Medical Imaging : Accepted for future publication, Volume. PP, pp. 1-1, 2009. [Ngu04] H. T. Nguyen and A. W. M. Smeulders, “Fast Occluded Object Tracking by A Robust Appearance Filter,” IEEE Trans. on Pattern Analysis and Machine Intelligence, Volume 26, pp. 1099 -1104, 2004. [Nor06] A. J. Nor'aini, P. Raveendran, and N. Selvanathan, ”Human Face Recognition using Zernike moments and Nearest Neighbor classifier,” SCOReD 2006. 4th Student Conference on Research and Development, pp.120-123, 2006. [Fae06]K. Faez, and N. Farajzadeh, ”A Performance Comparison of the ZM, PZM A-2.

(62) and LM in the Face Recognition System in Presence of Salt-pepper Noise,” SMC '06. IEEE International Conference on Systems, Man and Cybernetics,Volume 5, pp.4197 - 4201, 2006. [Pa06] P. Pa, A. N. Iyer, and R. E. Yantorno, ” Emotion Detection From Infant Facial Expressions And Cries,” IEEE International Conference on Acoustics, Speech and Signal Processing, Volume 2, pp. 14-19, 2006. [Rey08] O. F. Reyes-Galaviz, S. D. Cano-Ortiz, and C. A. Reyes-Garcia, “Evolutionary-Neural System to Classify Infant Cry Units for Pathologies Identification in Recently Born Babies,” Seventh Mexican International Conference on Artificial Intelligence, pp. 330-335, 2008. [Zhi08] R. Zhi, and Q. Ruan, “A Comparative Study on Region-Based Moments for Facial Expression Recognition,” CISP '08. Congress on Image and Signal Processing,Volume 2, pp. 600 – 604, 2008. [姚 08] 姚國鵬, “車載型視覺式駕駛者疲倦昏睡偵測系統,” 碩士論文, 國立臺灣師範大學資訊工程研究所, 2008.. [1] 內政統計資訊服務網，http://sowf.moi.gov.tw/stat/national/j025.xls，各國嬰兒死亡率.xls，2006年。 [2] 行政院衛生署，http://www.health.gov.tw/Default.aspx?tabid=419/96，臺北市生命統計.pdf，2007年。 [3] 行政院衛生署， http://www.health.gov.tw/Default.aspx?tabid=306&mid=101 2&itemid=7409，嬰兒死亡主要原因.xls，2007 年。 [4] http://www.books.com.tw/exep/prod/newprod_file.php?item=N010005725，守護天使嬰兒看護墊。 [5]. Angelcare, http://www.angelcare-monitor.com, Diaperdisposal system, 2001.. A-3. Baby. monintors. and.

(63)