特徵選擇與擷取對辨識娃娃臉之研究
全文
(2) 摘 要. 在社交場合中,娃娃臉這種臉部特徵在外表上會具有吸引力而且給人友善的感 覺。人們可以很簡單的去判斷一個人是否有娃娃臉,然而,構成娃娃臉的特質 十分模糊。在我們的論文中,將去分析人臉上的特徵,並挑選出哪些特徵對於 判斷一個人是否具有娃娃臉是有幫助的。我們使用特徵選擇(Feature selection)方 法去挑選出最佳的特徵組合以及使用卷積神經網路(Convolutional Neural Network)去自動的學習出特徵來判斷是否為娃娃臉。在實驗當中,我們比較使用 心理學的特徵、特徵選擇以及卷積神經網路三種方法的差別,在使用卷積神經 網路方法的結果會比其他兩種方法來得更好。. 關鍵詞: 特徵選擇、特徵擷取、卷積神經網路. i.
(3) ABSTRACT. Babyface is a type of face that is usually attractive and friendly in appearance. People can recognize this special face easily. However, the components that compose a babyface remain unclear. In this paper, we analyze the features in a human face and determine which features are useful for determining a babyface. In particular, we use feature selection methods to choose the best combination in discriminative capability and the convolutional neural networks to automatically learn the features. We compare our result with the psychological studies and showed that the features obtained by using the convolutional neural networks technique outperform the other methods under testing. Keywords: Feature selection; feature extraction; convolutional neural networks. ii.
(4) 誌. 謝. 論文研究報告的準備終於也到了尾聲,兩年的時間或許不算太長,但過程 中卻有非常多值得回憶的事物。前後花費了不少時間在論文上,雖是斷斷續 續,但其中包含了我對於多媒體的用心及興趣,才得以完成了它。但我知道, 這份成就不是屬於我自己一人的,我之所以能夠在充滿混亂與挫折的研究過程 中,堅定方向,努力完成論文,其背後有著很深的羈絆與感謝。 首先,我要感謝我的指導教授葉梅珍老師,她教授我專業領域上的知識, 指引我論文研究的方向,給予我許多意見及指正,減少我在寫作上的錯誤,讓 我提升自身的專業能力;同時我還要感謝本篇論文的口試委員陳祝嵩博士及王 鈺強博士,兩位對於我的論文細心審閱指導,使這份論文更臻完善。 感謝臺師大資訊工程研究所的其他老師,以及系辦的行政人員們,雖然我 們之間沒有太多的互動,但這兩年內,你們的教導,你們的協助,讓我收獲匪 淺。感謝所上的學長姐們:浩禎、媖詞以及淳卉,承蒙你們的包容照顧,以及 傳承下來的經驗,讓我能夠在這裡成長茁壯,吸收學識的養分,也體會人生的 道理;感謝實驗室中的好夥伴們--晏瑋、曉薇和少廷,在最艱難的時候彼此 激勵,同甘共苦,研究遇到瓶頸的時候大家集思廣益,因為有你們的陪伴,我 們的實驗室才充滿了歡笑;因為有你們的打氣,我在做研究的過程中才不顯得 孤單。感謝學弟妹,在我埋頭撰寫論文的時候,展現了體貼與關懷的一面。 最後,感謝我的摯愛的父母與妹妹,在背後默默地支持我、鼓勵我,讓我 能夠毫無後顧之憂地順利完成學業,走過人生中重要的里程碑。誠摯地感謝所 有人帶給我的一切,僅以本文獻上我最真誠的心意,祝福你們平安快樂。 尹廷 2014/08/11. iii.
(5) 目錄 附表目錄......................................................................................................................... v 附圖目錄........................................................................................................................ vi 第一章 簡介............................................................................................................. 1 1.1 研究背景..................................................................................................... 1 1.2 研究目的..................................................................................................... 2 1.3 文章架構..................................................................................................... 3 第二章 文獻探討..................................................................................................... 4 第三章 方法............................................................................................................. 6 心理學臉部特徵......................................................................................... 6 特徵選擇..................................................................................................... 8 局部二值模式............................................................................................. 9 特徵擷取................................................................................................... 10 3.4.1. 神經網路....................................................................................... 10 3.4.2. 卷積神經網路............................................................................... 12 3.5. 建立娃娃臉訓練模型............................................................................... 14 第四章 實驗結果與分析....................................................................................... 15 4.1. 資料庫收集............................................................................................... 15 4.2. 實驗方式................................................................................................... 16 3.1. 3.2. 3.3. 3.4.. 4.3. 實驗結果分析........................................................................................... 17 第五章 結論與未來工作....................................................................................... 20 5.1. 結論........................................................................................................... 20 參考著作....................................................................................................................... 21. iv.
(6) 附表目錄 表 1. 特徵選擇 filter 方法 ............................................................................. 9. v.
(7) 附圖目錄 圖 1. 年齡預測架構圖................................................................................... 5 圖 2. 人臉特徵表示圖................................................................................... 6 圖 3. 臉部 68 個 landmarks 以及其對應的位置(不包含額頭及眉心) ....... 7 圖 4. 神經網路架構圖................................................................................. 11 圖 5. 卷積神經網路架構圖......................................................................... 12 圖 6. 資料庫裡的部份樣本......................................................................... 15 圖 7. 各種方法對於娃娃臉辨識的準確率................................................. 19. vi.
(8) 第一章. 簡介. 1.1 研究背景 日常生活中我們總是免不了需要與形形色色的人互動,不管是在家中、學 校、公司甚至在路上。而隨著時代的進步,科技發展日新月異,網路的發達使 得人們之間的互動更為緊密。透過網路社交平台,人們可以將自己的照片上傳 分享,或是表達自己的心情與意見,即使身處環境截然不同,依然能夠結交更 多的朋友。 在這人與人的互動之中,有些人總是能吸引眾多人們的注意成為偶像或是 網路上的名人,有些人可能是被其才能所吸引,亦或是認同其觀點而聚集在一 起。然而除去這些要素,作為一個人類能夠吸引我們,最為重要且最為原始的 特徵,那便是我們所與生俱來的「臉孔」。 過去的文獻研究顯示出,影響著我們對於他人印象的是由於其非行為的表 現,尤其是外觀被發現會對人的看法產生著很大的影響[1][17]。與他人互動時, 大部分的時間我們都將目光注視於對方的臉孔,透過對方臉上的表情變化以及 言語來獲得傳達給我們的資訊。 這個世界上存在著各式各樣的臉孔,但是卻有一種人臉的構成我們卻創造 了一個名詞用來表現,那便是「娃娃臉」。娃娃臉,顧名思義指的是一個人有著 一張與自己的年齡不相符的年輕感,這類型的人容易受到大家的喜愛,有一種 容易親近與相處的感覺,例如李奧納多狄卡皮歐或是吉瑪沃德便是這類型的代 表人物。對於娃娃臉對人們所造成的影響力,不禁令人想去了解他們受歡迎的. 1.
(9) 原因是什麼,這樣一個獨特的臉是由怎樣的臉部排列組合而成等等,這些是我 們想要知道的,而在他們本身的娃娃臉中應當有線索可以讓我們去發掘出特徵 所在,進而揭開娃娃臉充滿魅力的神秘面紗。. 1.2 研究目的 在這世界上存在著各式各樣的臉孔,我們卻可分類出一種臉稱做娃娃臉,而 雖透過人眼我們可以很快的辨別出一個人是否擁有娃娃臉,但是對於這個人的 臉為什麼是娃娃臉我們卻無法清楚的表達出來。娃娃臉的特徵是什麼?娃娃臉的 本質是什麼?我們是否可以透過電腦辨識出娃娃臉? 其中由電腦自動去辨識出一個人的臉是不是娃娃臉是一個很有趣的研究方 向。在科技發展快速的世界,我們想要利用電腦來代替人類做許多事,由電腦 自動辨識的結果是否能夠符合我們人類所想要的,是現在科技的潮流。公司業 者經常為了提升產品的銷售量或者是公司的形象而尋找代言人,或者是星探想 要在茫茫人海之中發掘出尚未琢磨的原石,不管何者都是想要找到能吸引眾人 的目光以及令人感到親近,可以受到眾人的信賴。而這些條件正好是娃娃臉所 擁有的人格特質,若是能透過電腦自動判別出娃娃臉,就能夠從眾多的履歷中 以及路上大量的行人當中都能快速的找出符合資格的人才,節省篩選所需的時 間。 在這篇論文裡,我們使用特徵選擇方法以及深度學習(deep learning)的方法來 獲取特徵,之後透過機器學習的方法學習出辨識娃娃臉的分類器。. 2.
(10) 1.3 文章架構. 本論文在第二章,將針對心理學對娃娃臉的研究以及人臉辨識的相關研究以 及應用作探討。在第三章中,我們將說明如何獲取我們所需要的特徵,包括 心理學的特徵,特徵選擇以及特徵擷取的方法。在第四張及第五章則分別說 明實驗結果與結論。. 3.
(11) 第二章. 文獻探討. 在娃娃臉研究議題中,目前尚未在電腦科學領域上有提出過相關的探討。僅 有在心理學領域中發現相關的探討。在該領域中有對於娃娃臉應該擁有怎麼樣 的特徵作出研究,例如擁有娃娃臉的人與自己的聲音的關連[9],而在臉部特徵 方面有頭部顯得比一般人還要大[10]、或是擁有比較大的眼睛[11]、較大的瞳孔 [13]、眼睛在整個臉中所處的位置[12]、較大且突出的顱骨、五官嬌小[13]、圓 潤的臉頰[10]等等,對於臉部的特徵做了相當多的分析。而[1]綜合所述,透過人 工的方式將這些人臉特徵進行測量,之後請人對這些人臉進行評估,評估方式 是看這些人臉,並對一些人格特質進行評分,人格特質包括誠實的程度、友善 的程度、負責任的程度、對於他人的吸引力、娃娃臉的程度以及年齡的猜測等 等多項要素。雖然在心理學領域上已經有許多的研究,但是仍然擺脫不了採用 人工的方式進行特徵的測量以及分析。 在人臉辨識方面,這個議題已經被研究多年,主要的方法便是利用主動外觀 模型(Active appearance model, AAM) [20]來獲得人臉的位置,主動外觀模型利用 大量標記了人臉五官及輪廓的點(Landmark)的人臉訓練樣本來訓練出能偵測人臉 位置的模型,當我們輸入一張沒有任何標記的圖,主動外觀模型便會用訓練出 來的人臉模型去吻合圖片上的臉,經過不斷的迭代,帶有標記點的人臉模型便 逐漸移動到人臉的正確位置,我們也就能從標記點的位置獲知輸入的圖片的人 臉位置在哪裡。. 4.
(12) 有了這項基礎,人臉辨識便發展出了許多應用。例如 Face.com [19]這個網站 提供了一個平台讓使用者可以透過電腦或是手機上傳自己的照片,而網站會幫 使用者辨識出人臉以及一些相關的資訊,如人臉頭部擺動的角度、實際年齡的 預測、性別以及心情等等。而該網站也提供了應用程式介面(Application programming interface, API)服務讓研究者可以使用網站所提供的功能利用在自己 開發的專題或是研究上。 另一方面,人臉辨識也被應用在人臉認證(face verification)上[18],利用找到 的臉去分析各式各樣的臉部屬性(face attribute),例如人種、髮型、有無戴眼鏡、 有無鬍子等等許多的屬性,之後比較兩張人臉之間的臉部屬性是否相似,如果 相似便可猜測兩張臉是代表同一個人。 而在年齡偵測上大多是採取迴歸(regression)的方式來預測年齡,在[23]中有 別於一般抽取出特徵後直接放入迴歸模型訓練,他們首先抽取出低等級的特徵 透過多輸出迴歸來學習出累計屬性特徵(Cumulative attributes),之後再透過傳統 迴歸方法來學習出結果,接著又把結果轉換成累計屬性特徵再次進行迴歸學 習,經過幾次迭代後得到最後的年齡預測結果,其架構如圖 1 所示。。. 圖 1. 年齡預測架構圖 5.
(13) 第三章. 方法. 本論文所提出的方法希望可以透過特徵選擇以及特徵擷取的方法,讓電腦分 析人臉來辨識出該臉孔是否為娃娃臉,透過機器學習的方法來建立出娃娃臉的 辨識模型,並希望電腦求得的人臉辨識結果,能夠達到不錯的效果。. 3.1. 心理學臉部特徵. 為了使電腦在娃娃臉的辨識準確率上有一個可以比較的數值,本篇論文首 先使用心理學研究娃娃臉時使用的人臉特徵[1]來做為人眼辨識娃娃臉的根據。 藉由測量這些特徵在人臉中所佔的比例之後透過 SVM 訓練出一個娃娃臉模型。 圖 2 列出心理學研究所使用的特徵 。 (A) 眼睛大小 (B) 眉毛高度 (C) 兩眼間距 (D) 鼻子寬度 (E) 鼻子高度 (F) 下巴寬度 (G) 下巴長度 (H) 額頭高度 (I). 額頭寬度. 圖 2. 人臉特徵表示圖. 6.
(14) 圖 3. 臉部 68 個 landmarks 以及其對應的位置(不包含額頭及眉心). 首先透過 OpenCV [24]人臉辨識技術將人臉的位置框出來,並且獲得人臉的 68 個標記點,即五官或是輪廓等臉型的位置。而為了計算心理學提出的臉部特 徵,我們又額外新增了兩個標記點,即額頭以及眉心的位置,所以總共有 70 個 標記點。由於每個標記點皆以其 x 座標以及 y 座標記錄,所以我們可以計算出 上述所列的心理學人臉特徵,計算出來的值是以像素為單位,標記點的位置如 圖 3 所示。但是由於從網路上所收集的人臉圖片,其人臉大小都不盡相同,所 以必須對已經計算出來的數值進行正規化,而正規化的方式是用已經知道的人 臉框來進行。框的大小即表示了這張圖裡面臉的整體大小,我們將框的對角線 長度作為正規化的依據,每張人臉圖所計算出來的人臉距離都除以自己的框對 角線距離,如此一來所有的人臉特徵便被正規化,不同張人臉圖片即可互相比 較。用數學式表達如下:. 𝐹=. 𝑓 𝐵𝑑. 其中𝑓代表未正規化前的特徵,𝐵𝑑 代表框的對角線長度,𝐹代表正規化後的特 徵。. 7. (1).
(15) 3.2. 特徵選擇 在先前,我們將心理學的研究中使用的特徵實現在電腦上,不過心理學的特 徵也只是臉部標記點中的其中 10 個可能性。因此我們更進一步計算了 70 個標 記點彼此之間的所有距離,計算之後每張人臉圖片都可以得到總共 2415 個距離 特徵。在這 2415 個特徵中,我們希望能夠挑出最好的 10 個特徵。 2415 在這 2415 個特徵中挑出 10 個最好的特徵不是一件簡單的事,𝐶10 約有超. 過1027 種可能性,使用暴力法從每一種可能性中挑出最好的是不切實際的,計 算時間會非常的龐大。所以必須採用適合且計算快速的特徵選擇演算法來幫助 挑選出好的特徵。 在特徵選擇方面通常分成兩種類型: filter 方法以及 wrapper 方法。 Filter 方法 Filter 方法透過統計的方法去測量特徵資料的特性或分布找出特徵對於分類 的有用程度而不是用計算分類時的錯誤率來對該特徵評分。所以 filter 方法計算 上非常快速而且能夠特徵集合中找出重要的特徵。 Wrapper 方法 Wrapper 方法通過訓練分類模型的方式來對選擇的特徵子集合來評分,每次 新選擇的特徵子集合都會訓練一個新的分類模型,透過實際模型分類的準確率 來找出最好的特徵子集合。Wrapper 方法的準確率會比 filter 方法的準確率來的 好,但是計算上會花費很多時間。. 8.
(16) 表 1. 特徵選擇 filter 方法 Criterion. Full name. Author. FDR. Fisher’s Discriminant Ratio. Fisher (1936). MIFS. Mutual Information Feature Selection. Battiti(1994). mRMR. Max-Relevance Min-Redundancy. Peng et al (2005). CMIM. Conditional Mutual Info Maximization. Fleuret (2004). JMI. Joint Mutual Information. Yang & Moody (1999). DISR. Double Input Symmetrical Relevance. Meyer (2006). CIFE. Conditional Infomax Feature Extraction. Lin & Tang (2006). ICAP. Interaction Capping. Jakulin (2005). ConRed. Conditional Redundancy. Gavin et al. (2012). 在本論文中,我們採用 filter 方法來選擇我們所需的 10 個特徵,並使用 9 種 不同的 filter 方法來挑選特徵,使用的 filter 方法如表 1 所示。. 3.3. 局部二值模式. 局部二值模式(Local binary pattern, LBP)是一種電腦視覺領域中經常使用的 紋理特徵,在人臉圖片上常應用在年齡偵測。考慮到擁有娃娃臉的可能性與年 齡亦或是臉部皺紋的多寡有相關性,在本論文中也使用了局部二值模式特徵來 做為判斷是否為娃娃臉的一種方法。局部二值模式計算上簡單,首先將一張圖 片切割成若干個小區塊,之後將各個區塊的各個像素與其鄰近的八個像素(即上 下左右,左上,左下,右上,右下)進行比較,中心像素比鄰近像素大則設為 1,中心像素比鄰近像素小則設為 0,八個鄰近像素皆比較完後便會得到一串八 位元的二進位數值,之後將二進位數值轉換成十進位數值並將該區塊中所得到 的數值統計成直方圖然後進行正規化,最後將每個區塊所得到的直方圖串連在 一起便能得到最終我們需要的特徵。這些步驟在計算上相當快速,所以可以達 9.
(17) 到即時。. 3.4. 特徵擷取. 在之前的方法,我們都是透過已知的特徵來挑選出最好的組合或者是以人 類的角度來看是好的特徵便拿來使用,所以以另一個角度來看,我們希望電腦 能夠自己發現對於電腦來說是能夠幫助辨識娃娃臉的特徵,即電腦能夠從人臉 圖片中自己擷取出有用的特徵。在本論文中我們使用深度學習(Deep learning)的 方法讓電腦自動學習出有用的特徵。. 3.4.1. 神經網路. 深度學習的概念源於人工神經網路的研究,深度學習期望建立一個可 以模擬人類大腦進行分析學習的神經網路。人類大腦在視覺判斷上是層層 迭代的,一開始眼睛先接收到眼前的畫面的訊號之後傳送到大腦裡,大腦 皮層細胞開始對傳送的訊號做初步的分析找出物體的邊緣,之後更進一步 的將邊緣逐漸組合成物體的形狀,最後大腦判斷出眼前的物體。這代表我 們的大腦會先取得低等級的特徵,然後將低等級的特徵組合成上一級的特 徵,而新組合成的特徵又再更進一步組合成更高級的特徵,而在這過程中 新產生的特徵也越來越有足夠的能力去表達所看到的物體。因此深度學習 便仿效這種方式建立出人工神經網路。. 10.
(18) 圖 4. 神經網路架構圖. 如圖 4 所示,我們將圖片的像素當作起始的特徵輸入到輸入層中,之 後透過多層的隱藏層讓電腦自動學習特徵,前一層的輸出會成為下一層的 輸入直到輸出層得到我們最終擷取出來的特徵。. 11.
(19) 圖 5. 卷積神經網路架構圖. 3.4.2. 卷積神經網路. 在本篇論文中,我們使用卷積神經網路來擷取特徵。傳統神經網路如 同圖 4 所示,任意相鄰的兩層形成一個完全二分圖,即前一層的每個節點 (神經元)與下一層的每個節點(神經元)皆相連,但同一層之間不會相連。而 神經網路的這種性質代表當前一層輸入到下一層的節點數越多(圖越大),神 經網路所要學習的權重越多,學習所花費的時間相對的也增加。為了解決 這個問題,卷積神經網路採用局部連接,即下一層的節點並不是連接了前 一層的所有節點,而是只連接了部分的節點,如同人類大腦皮層中視覺皮 層不同位置的神經元只對局部區域有反應。所以卷積神經網路在進入傳統 神經網路之前新增了兩種層,即卷積層(convolutional layer)以及子採樣層 (sub-sampling layer)。. 12.
(20) 在圖 5 中顯示了卷積神經網路的架構,卷積神經網路與傳統神經網路 的輸入不同,卷積神經網路可以接受二維的圖片當作輸入,經過卷積層以 及子採樣層處理之後我們便能得到比原圖小但仍保留原圖資訊的圖,接著 再把圖片光柵化成一維的向量之後輸入到傳統神經網路得到最後需要的特 徵。 卷積神經網路的理論基礎在於對自然圖片而言,圖片具有穩定性 (stationary),即圖片中局部區塊的統計結果與其他局部區塊相似。因此,我 們在該區塊中學習到的特徵也可以適用到其他區塊。 由於有上述的特性,在卷積層中,定義了一個小型的濾波器(如 5x5, 8x8),其中濾波器的值是從輸入的圖片中隨機取樣而成的,接著使用獲得的 濾波器對輸入的圖片的每個位置進行卷積之後我們便可得到一張特徵圖 (feature map),而利用不同的過濾器對圖片進行卷積我們可以得到原來圖片 的多種特徵圖,每一個特徵圖都是原來圖片的另一種表達方式,最後這些 特徵圖便成為了下一層的輸入。 在結束卷積層之後,我們所得到的特徵依然相當龐大,所以在卷積層 後面又接續著子採樣層,在子採樣層我們將特徵圖的尺寸縮小,縮小的方 式採用 pooling 的方法,使用方式是將圖片固定大小的區塊(2x2)裡的值相加 取平均值或是取最大值(本論文使用 max pooling),計算完畢後我們便能獲得 只有約原圖四分之一的新圖片,由於先前所述的圖片的穩定性,我們對圖. 13.
(21) 片進行統計計算時,得到的結果也會與原本的相似,所以我們便能用較小 的圖來代表原先大張的圖片從而減少計算的時間量。 綜合所述,卷積神經網路利用卷積降低計算上的複雜度,之後利用 pooling 的方法減少需要訓練的參數,在經過反覆這種計算之後,輸入圖也 就變的小,如此便可如同傳統神經網路抽取出我們要的特徵。 在本論文裡我們使用 caffe [22]這項工具來幫我們達成抽取特徵的工 作,在 caffe 裡包含了事先利用 Imagenet 資料庫[25]訓練好的卷積神經網路 模型,並且在一個文件裡記載了卷積神經網路模型每一層的架構,我們只 需要指定取出哪一層的結果便能得到我們所需要的特徵,而最終我們取出 了卷積神經網路輸出層的前一層的輸出作為我們的特徵,特徵的維度有 1000 維。. 3.5. 建立娃娃臉訓練模型. 在前幾個小節裡,我們介紹了獲取所需特徵的方法,在這個小節裡我們介紹 如何建立辨識娃娃臉所使用的模型。我們使用支持向量機器(Support Vector Machine, SVM)來訓練我們的模型,positive 樣本為娃娃臉,分類標籤設為 1; negative 樣本為非娃娃臉,分類標籤設為-1。在訓練模型時採用的是徑向基函數 核(Radial basis function kernel, RBF kernel)並且使用支持向量機器裡所附帶的 工具來學習最佳化參數,訓練完成後即可得到我們所需的娃娃臉模型。. 14.
(22) 第四章. 實驗結果與分析. 4.1.資料庫收集 由於現今並沒有現成的娃娃臉資料庫存在,我們透過 Google 圖片搜尋引擎 尋找所需的人臉來作為我們資料庫,挑選的人臉樣本都以正臉為主以便分析人 臉特徵,並且將人臉分為娃娃臉的人臉以及非娃娃臉的人臉兩類。 屬於娃娃臉的圖一共有 88 張,為了不使訓練結果產生種族上的差異存在, 東方、西方、白人、黑人皆存在於訓練樣本之中,而擁有娃娃臉的人臉是透過 收集大家公認為娃娃臉的名人或是明星才將其放入正樣本集,即娃娃臉樣本之 中。不屬於娃娃臉的圖一共有 188 張,收集的樣本如同娃娃臉一樣是正臉的人 臉圖並當作負樣本,所以資料庫中總共有 276 張的人臉圖,資料庫部分樣本可 見圖 6。. 圖 6. 資料庫裡的部份樣本 紅線左側的樣本屬於娃娃臉,紅線右側的樣本不屬於娃娃臉. 15.
(23) 4.2.實驗方式 在實驗中,我們使用 SVM 來訓練模型,我們使用 63 張娃娃臉的樣本以及 163 張非娃娃臉的樣本來當作訓練集,其餘的 25 張娃娃臉的樣本以及 25 張非娃 娃臉則當作測試集,並且樣本的選取是經過隨機抽樣後分到訓練集或是測試 集。對於每一種方法,準確度的測量都是重複十次的樣本重新選擇後進行訓練 及測試。 特徵選擇的特徵挑選出跟心理學一樣 10 個特徵,局部二值模式則是擷取出 59 維的特徵,而卷積神經網路中抽取出來的特徵則有 1000 維,之後放入 SVM 進行訓練。在第一個實驗中我們將每種特徵都各別訓練一個 SVM 分類模型,藉 此比較每種方法的準確率。在二個實驗中我們將不同的方法得到的特徵串聯在 一起,分析是否彼此之間能夠互補並提高準確率。. 16.
(24) 4.3.實驗結果分析 如圖 7 所示,我們發現心理學所提出的特徵對於辨識娃娃臉的準確度為 61%,而在紅框中顯示的為各個特徵選擇方法的準確度,可以發現利用 CondRed 特徵選擇方法我們可以把準確率提升到 64%,這代表使用特徵選擇的方法確實 能夠幫助我們尋找出比心理學提出的 10 個特徵組合更好的的特徵組合 而局部二元模式特徵的辨識結果表現並不如我們預期所想,準確率不好的 原因可能是因為擁有娃娃臉的人與非娃娃臉的人,他們的臉部紋理都是有可能 出現臉部光滑的狀況,即臉部皺紋的多寡並沒有辦法做為判斷是否為娃娃臉的 依據,一個臉部平滑皺紋較少的人並不一定擁有娃娃臉。 最後,藉由卷積神經網路所擷取出的特徵從實驗結果發現準確率好於其他 的方法,雖然無法對卷積神經網路所選出的特徵作出明確的解釋,但是可以推 測可能因為卷積神經網路是模擬人類大腦思考的方式來擷取出特徵,因此擷取 出的特徵比起心理學或是特徵選擇方法以及局部二元模式特徵來的更加接近我 們認為娃娃臉實際上應該擁有的特徵,卷積神經網路擷取出的特徵更加接近娃 娃臉的本質,所以準確率才會比其他的方法優異。. 17.
(25) 接著我們針對卷積神經網路另外收集了新的資料庫,由於先前受限於 AAM 得抓取得到人臉才能計算距離特徵,所以資料庫規模不大,而卷積神經網路最 初的輸入便是圖片的像素值,所以對於臉的角度沒有限制,資料庫較容易收 集。 我們總共收集了 1000 張人臉圖,其中娃娃臉的圖片以及非娃娃臉的圖片各 有 500 張,而娃娃臉為 20 個人,東西方男女各 5 人,每個人的臉各有 25 張, 之後使用卷積神經網路擷取出特徵並將特徵放到 SVM 裡訓練出模型,我們使用 750 張人臉圖來當作訓練樣本,娃娃臉以及非娃娃臉各有 375 張,剩下的 250 張 人臉圖則當作測試樣本。與先前的實驗方法相同進行 10 次的訓練與測試,每次 都將資料庫圖片隨機分成訓練以及測試樣本,在平均了這 10 次的結果最後我們 得到了 81.04%的準確度。顯示出樣本的增加能夠幫助卷積神將網路來學習特 徵,而準確度也不會因為人頭擺動角度的變化而降低,也顯示出卷積神經網路 的確是個優異的特徵擷取方法。. 18.
(26) Accuracy 100% 90%. Feature selection method. 80% 70% 60% 50% 40% 30% 20% 10%. 61% 59% 59% 62% 63% 57% 63% 54% 64% 57% 77%. 0% Psychology. MIFS. mRMR. CMIM. JMI. DISR. CIFE. ICAP. 圖 7. 各種方法對於娃娃臉辨識的準確率. 19. CondRed. LBP. CNN.
(27) 第五章. 結論與未來工作. 5.1. 結論. 在本論文中,我們使用了特徵選擇方法、局部二值模式特徵以及深度學習 的方法擷取出的特徵與心理學研究所提出的特徵來相比較。在我們的實驗結果 中發現,心理學的特徵其實並不能有用的幫助我們辨識娃娃臉,此外,特徵選 擇的方法與局部二值模式特徵所能提供的效果也相當有限,反之深度學習透過 自我學習擷取出特徵並且呈現了優於其他方法的效能。. 20.
(28) 參考著作 [1] Berry, Diane S., McArthur, Leslie Z, “Some components and consequences of a babyface.” Journal of Personality and Social Psychology, vol. 48(2), 1985. [2] Huizhong Chen, Gallagher, A.C., Girod, B., “What’s in a name? First names as facial attributes.” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013. [3] J. Wang, J. Yang, K. Yu, F. Lv, T. Huang, and Y. Gong, “Localityconstrained linear coding for image classification.” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010. [4] W. Deng, J. Hu, J. Guo, “Extended SRC: Undersampled face recognition via intraclass variant dictionary.”. IEEE Transactions on. Pattern Analysis and Machine Intelligence, vol. 34(9), 2012. [5] Chandrasekaran, V., Sanghavi, S., Parrilo, P.A., Willsky, A.S., “Sparse and low-rank matrix decompositions.” In Proceedings of the Annual Allerton Conference on Communication, Control, and Computing, 2009. 21.
(29) [6] Emmanuel J. Candès, X. Li, Y. Ma, John Wright, “Robust principal component analysis?” Journal of the ACM (JACM), vol. 58(3), May, 2011. [7] Z. Lin, Arvind Ganesh, J. Wright, L. Wu, M. Chen, Y. Ma, “Fast convex optimization algorithms for exact recovery of a corrupted lowrank matrix.” International Workshop on Computational Advances in Multi-Sensor Adaptive Processing, December, 2009. [8] C. Chang and C. Lin. “Libsvm: a library for support vector machines.” ACM Transactions on Intelligent Systems and Technology (TIST), 2(3):27, 2011. [9] Leslie Zebrowitz-McArthur, Joann M. Montepare, “Contributions of a babyface and a childlink voice to impressions of Moving and Talking Faces.” Journal of Nonverbal Behavior, vol. 13(3), pp 189-203, 1989. [10] Lorenz, K., “Die angeborenen formen moglicher erfahrung [The inate forms of potential experience].” Zietschrift fur Tierpsychologie, 1943. [11] Sterngianz, S. H., Gray, J. L., and Murakami, M., “Adult preferences for infantile facial features: An ethological approach.” Animal Behavior, 25, 108-115., 1977.. 22.
(30) [12] Brooks, V., Hochberg, J., “A psychophysical study of cuteness.” Perception and Psychophysics, 1960. [13] Hildebrant, K. A., Fitzgerald, H. E., “Facial feature determinants of perceived infant attractiveness.” Infant Behavior and Development, 2, 329-339, 1979. [14] X. Xiong and F. De la Torre, “Supervised descent method and its application to face alignment.” In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013. [15] Yuan X.M. and Yang J. F., “Sparse and low-rank matrix decomposition via alternating direction methods”, Pacific Journal of Optimization, 9(1), 167–180, 2013. [16] Michael McCoy, Joel A. Tropp, “Two proposals for robust PCA using semidefinite programming”, Electron. J. Statist., vol. 5, 2011. [17] McArthur, L. Z., “Judging a book by its cover. A cognitive analysis of the relationship between physical appearance and stereotyping.” Cognitive Social Psychology, pp. 149-211, 1982. [18] N. Kumar, A. C. Berg, P. N. Belhumeur, and S. K. Nayar, “Attribute and Simile Classifiers for Face Verification.” In Proceedings of IEEE International Conference on Computer Vision (ICCV), Oct, 2009.. 23.
(31) [19] Face.com http://face.com/ [20] Cootes, T. F., Edwards, G. J., Taylor, C. J. “Active appearance models”. ECCV, 1998. [21] Unsupervised Feature Learning and Deep Learning(UFLDL) http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial [22] Caffe http://caffe.berkeleyvision.org/. [23] Chen, Ke, et al. “Cumulative attribute space for age and crowd density estimation.” In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013. [24] OpenCV http://opencv.org/ [25] Imagenet http://www.image-net.org/ [26] Brown, Gavin, et al. "Conditional likelihood maximisation: a unifying framework for information theoretic feature selection." The Journal of Machine Learning Research 13.1 pp.27-66 , 2012.. 24.
(32) [27] Donahue, Jeff, et al. "Decaf: A deep convolutional activation feature for generic visual recognition." arXiv preprint arXiv:1310.1531, 2013.. 25.
(33)
相關文件
Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp... Annealed
C., “Robust and Efficient Algorithm for Optical Flow Computation,” Proceeding of IEEE International Conference on Computer Vision, pp. “Determining Optical Flow.” Artificial
Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference
D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,
[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference
Jones, "Rapid Object Detection Using a Boosted Cascade of Simple Features," IEEE Computer Society Conference on Computer Vision and Pattern Recognition,
programming, logic/reasoning, signal processing, computer vision, pattern recognition, mechanical structure, psychology, and cognitive science, to well control or to represent
Zhang, “ Face recognition using Laplacianfaces,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. Zhang, “Orthogonal Laplacianfaces for face