可應用於一般課堂環境中之人眼開闔狀狀態研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：李忠謀. 博士. 可應用於一般課堂環境中之人眼開闔狀態研究 Eye State Recognition with Application in the Classroom. 研究生：. 盧姿卉. 中華民國一百零二. i. 撰年七月.

(2) 摘要眼睛開闔辨識是電腦視覺的一個重要技術，能夠在生活中發展成多種應用，大部分的眼睛狀態偵測，環境皆屬於背景較為單純、近距離以及頭部晃動不大的情形，像是汽車駕駛疲勞偵測系統，然而本研究希望能將眼睛開闔辨識應用於一般課堂環境中，因此需要解決在有光線干擾及遠距離低解析度下的環境中，仍能快速且有效辨識眼睛的開闔狀態。本研究之方法共分成三個部分，分別是人臉偵測、眼睛區域決策，最後則是眼睛狀態辨識。首先對影像做人臉偵測，接著將做完前處理的臉部影像利用局部取像的方法得到眼睛的大致位置，再利用水平投影及垂直投影找出眼睛精確的範圍及位置，最後本研究利用開闔眼睛影像輪廓複雜度之差異設計一套新的特徵擷取方式，並搭配已事前訓練過的 SVM 模型來判斷眼睛的開闔狀態。無論是近距離或是遠距離實驗，由實驗結果可證明出在相同的辨識率下，本研究所設計之特徵擷取方式比複雜度函數的方法能判斷出的開閉眼資料比例多，因此整體的執行時間可以降低，也證明了本篇方法的可用性，除了開閉眼整體辨識率皆可達到 84.9%以上，且隨著門檻值的調整，執行時間也可比單純用 SVM 快了 1.5 至 3 倍，時間上的減少能帶給本系統很大的效益。關鍵字：人臉偵測、眼睛偵測、眼睛開闔辨識、眼睛狀態偵測、熵(Entropy)、複雜度函數(Complexity Function). ii.

(3) Abstract Eye state recognition is an important technology in the computer vision. It can be developed to variety applications. Most eye state recognition is pure background, short distance, and the head does not shack. Due to the application in the general classroom that is light interference and long distance, the purpose of our research is to recognize the eye state quickly and effectively. Our method is divided into three parts, face detection, eye region decision, and eye state recognition. First is to find out the face image and do the pre-processing, then make use of the area of interest (AOI) to get the roughly eye position, the last step is utilizing the horizontal projection and vertical projection to get the precise eye position. Eye state recognition is using our proposed method that is a new way to extract feature from binary image and work with SVM model to determine the eye state. The experiment shows that our proposed method that is a new way to extract feature from binary image is better than complexity function method. And our method is not only performs well in the recognition rate but also in the execution time that is 1.5~3 times faster than SVM method. Keyword: face detection, eye detection, eye state recognition, Entropy, Complexity Function. iii.

(4) 誌謝研究所的這兩年，過得非常充實也非常開心! 這一路上走來獲得了很多人的指導與幫忙，沒有你們，就沒有今天的我。首先要先感謝我的指導教授李忠謀老師，謝謝您當初願意接納一個非本科系出身的學生，讓我有機會能夠在 VIP 這個大家庭學習，也謝謝您於研究上給予豐富的指導及建議，每次都使我獲益良多。也非常謝謝政杰學長及德清學長在我的研究過程中對我的耐心指導及糾正，讓我在論文最後衝刺的階段，能夠找對方向並投入於研究中。也非常謝謝瓊瑤老師在口試時給予的肯定及建議，使我的論文更加完整。我也要感謝研究所裡一起打拼的好夥伴，謝謝阿正及獅子在我一進 lab 時就教會我很多程式上的基礎及技巧，讓我可以不會因為不同科系出身而銜接不上，謝謝美琪、祐生、鈺新及軒宇幫忙準備口試的相關事務外還給予加油與打氣，謝謝小狼、至巽、雅淳、小巴及郁珊平日對我的照顧，也很謝謝怡涵及映如，在最艱難的時候大家一起努力不孤單，最後特別謝謝屁恩、怡涵、國輔、綠茶、世堯、明男學長、小澤、懷文、老頭，欣紘讓我的研究生活多采多姿而不枯燥乏味。最後要謝謝我的家人，你們全心全意地照顧這個家，使我無後顧之憂地投入在研究上，有你們的肯定，我才能夠繼續在這條路上堅持下去，每當在我遇到挫折與瓶頸時，幫我加油打氣，讓我覺得我不是一個人在研究之路上孤軍奮戰，你們是我最強大的精神支柱與後盾。謝謝你們，我愛你們!. iv.

(5) 目錄摘要.................................................................................................................................. i Abstract .......................................................................................................................... iii 目錄............................................................................................................................... v 附表目錄........................................................................................................................ vi 附圖目錄....................................................................................................................... vii 第一章緒論................................................................................................................. 1. 第二章. 第三章. 1.1 研究動機與目的................................................................................. 1 1.2 研究範圍及限制................................................................................. 2 1.3 論文架構............................................................................................. 3 文獻探討......................................................................................................... 4 2.1 人臉偵測............................................................................................. 4 2.2 眼睛偵測............................................................................................. 6 2.3 眼睛開闔辨識..................................................................................... 8 研究方法....................................................................................................... 10 3.1 研究架構與流程............................................................................... 10 3.2 3.3 3.3.1 3.3.2 3.4 3.4.1 3.4.2 3.4.3 3.5. 第四章. 人臉偵測（Face Detection） .......................................................... 12 影像前處理（Image Pre-Processing）............................................ 15 灰階化........................................................................................... 15 二值化........................................................................................... 15 眼睛區域決策 (Eye Region Decision) ............................................ 16 局部取像(Area of Interest, AOI) .................................................. 16 水平投影....................................................................................... 18 垂直投影....................................................................................... 19 眼睛狀態決策（Eye State Decision） ............................................ 20. 3.5.1 Canny 邊緣偵測 (Canny Edge Detection) .................................. 23 3.5.2 特徵擷取....................................................................................... 24 3.5.3 支援向量機(Support Vector Machine, SVM) .............................. 28 實驗結果與討論........................................................................................... 29 4.1 實驗影像資料庫............................................................................... 29 4.2 實驗結果與討論............................................................................... 31 實驗一 : ....................................................................................................... 31 實驗二 : ....................................................................................................... 39 實驗三 : ....................................................................................................... 42. 第五章結論............................................................................................................... 46 參考文獻....................................................................................................................... 47 v.

(6) 附表目錄表 1 、近距離影像之蒐集樣本數........................................................................... 30 表 2 、遠距離影像之蒐集樣本數........................................................................... 30 表 3 、近距離之複雜度函數方法與本篇方法之比較........................................... 34 表 4 、遠距離無配戴眼鏡之複雜度函數方法與本篇方法之比較....................... 36 表 5 、遠距離有配戴眼鏡之複雜度函數方法與本篇方法之比較....................... 36 表 6 、近距離實驗之結果與比較........................................................................... 39 表 7 、遠距離無配戴眼鏡之結果與比較............................................................... 40 表 8 、遠距離有配戴眼鏡之結果與比較............................................................... 40 表 9 、近距離之實驗結果....................................................................................... 42 表 10 、遠距離無配戴眼鏡之實驗結果................................................................. 43 表 11 、遠距離有配戴眼鏡之實驗結果................................................................. 44 表 12 、不同眼睛影像張數之 SVM 方法與本篇方法的執行時間比較 .............. 45. vi.

(7) 附圖目錄圖圖圖圖圖圖. 1、遠距離環境下之學生開閉眼示意圖............................................................. 2 2、(a) 近距離環境示意圖 (b) 遠距離環境示意圖 ....................................... 3 3、Viola 與 Jones 提出的方法之結果[12] ......................................................... 5 4、利用水平與垂直投影來判斷眼睛位置[14] .................................................. 6 5、利用瞳孔的形狀來找出眼睛位置[15] .......................................................... 7 6、Haar-like feature[18] ....................................................................................... 7. 圖圖圖圖圖圖圖圖圖. 7、LBP (a) 3 x 3 區塊範例 (b)經 LBP 運算後結果 (c) 3 x 3 區塊之權重 .... 9 8、眼睛開闔辨識之流程圖............................................................................... 11 9、Haar-like feature[12] ..................................................................................... 12 10、點的積分影像 ................................................................................... 13 11、Cascade 分類器 .......................................................................................... 14 12、影像前處理結果......................................................................................... 15 13、臉部局部取像............................................................................................. 17 14、二值化臉部局部取像................................................................................. 17 15、水平投影方法找眼睛水平中心位置......................................................... 18. 圖圖圖圖圖. 16、垂直投影方法找眼睛垂直中心位置......................................................... 19 17、本研究所提出之特徵擷取值的分布情形................................................. 20 18、眼睛狀態決策流程圖................................................................................. 22 19、複雜度函數權重值示意圖......................................................................... 25 20、SVM 概念示意圖 (a)三條線皆能將兩類分離 (b)應選擇離此兩類越遠越好的線........................................................................................................... 28 圖 21、利用本研究所提出之特徵值計算所得之分佈情形................................. 31 圖 22、利用本研究所提出之特徵值計算所得之折線圖..................................... 32 圖 23、利用複雜度函數計算所得之折線圖......................................................... 33 圖圖圖圖圖圖圖圖. 24、給定相同門檻值下兩種方法開眼比例之比較圖(近距離) ...................... 34 25、給定相同門檻值下兩種方法閉眼比例之比較圖(近距離) ...................... 35 26、給定相同門檻值下兩種方法開眼比例之比較圖(遠距離無配戴眼鏡) .. 37 27、給定相同門檻值下兩種方法閉眼比例之比較圖(遠距離無配戴眼鏡) .. 37 28、給定相同門檻值下兩種方法開眼比例之比較圖(遠距離有配戴眼鏡) .. 38 29、給定相同門檻值下兩種方法閉眼比例之比較圖(遠距離有配戴眼鏡) .. 38 30、近距離往下看之區域二元特徵無法判斷正確之影像............................. 40 31、遠距離無配戴眼鏡下之區域二元特徵判斷正確之影像......................... 41. 圖 32、遠距離無配戴眼鏡下之區域二元特徵無法判斷正確之影像................. 41 圖 33、遠距離有配戴眼鏡下之區域二元特徵判斷正確之影像......................... 41 圖 34、遠距離有配戴眼鏡下之區域二元特徵無法判斷正確之影像................. 41 vii.

(8) 第一章. 緒論. 1.1 研究動機與目的在這個科技日新月異的時代，人們對於科技的需求也越來越多，良好的科技能提升人們的生活品質也能代替人力做更有效率的處理，像是近幾年流行的人臉辨識、姿勢辨識、以及眼睛開闔辨識等電腦視覺技術，皆是利用電腦取代人力肉眼上的直接辨識，不但方便也能節省人力資源，也能結合各項資訊科技技術，進一步應用於社會各個層面上。眼睛的開闔辨識是電腦視覺的一個重要技術，能夠在生活中發展成多種應用，例如汽車駕駛的疲勞偵測系統[1, 2]，利用眼睛狀態偵測來判斷汽車駕駛者的精神狀態，若偵測出一段期間處於閉眼狀態，則會發出警告以示提醒，對於疲勞的駕駛者有很大的警示作用。醫療輔助系統，例如當昏迷的病人醒來時，可以藉由系統判斷出病人的眼睛由閉的狀態轉為開的狀態，不但可以在第一時間內通知醫生也可以減少醫護人員長時間監督的負擔。智慧型手機的眨眼偵測，拍照時，往往會不小心閉起眼睛，若是能在按下快門前偵測到有人的眼睛是閉著的而發出及時提醒，即可大大減少重拍的機會。本研究希望能將眼睛的開闔辨識技術應用於一般課堂教室中，藉由網路攝影機在室內環境下快速偵測人臉位置、眼睛位置，並能及時分辨眼睛的開闔狀態。藉由眼睛資訊來判斷是否有學生處於瞌睡狀態，老師便可即時掌握學生們的上課 1.

(9) 情形。一般環境下的眼睛狀態偵測皆為近距離、背景較為單純以及頭部晃動不大的情形，像是汽車駕駛疲勞偵測系統，但真實教室環境中會出現的狀況則較多，環境通常較為複雜，像是在遠距離下偵測到的眼睛影像解析度較低，影像較為模糊且受到光線的干擾也較多，多人同時偵測時，整個系統的執行時間也是關鍵，因此真實教室環境中的眼睛狀態偵測困難度相對的高，例如圖 1 內包含同一個人在教室內的不同狀態。因此本研究目的為解決在有光線干擾及遠距離低解析度下的環境中，仍能快速且有效辨識眼睛的開闔狀態。眨眼偵測、眼睛開闔辨識以及眼睛狀態偵測於本研究中皆為相同意思，會不斷出現並交替使用。. 圖 1、遠距離環境下之學生開閉眼示意圖 1.2 研究範圍及限制本研究皆以室內環境為實驗範圍，分成近距離與遠距離實驗。近距離環境為距離網路攝影機 100cm~120cm、光線均勻下進行實驗，如圖 2(a)，此實驗為模擬一般眼睛開闔偵測的應用，以顯示本研究所設計的方法可適用於汽車駕駛等一般性的應用；遠距離環境為距離網路攝影機 450cm~1500cm，於真實課堂環境中取得眼睛資訊，攝影機架設於教室天花板，因此拍攝的人臉畫面較小較為模糊，如圖 2(b)顯示教室拍攝的實景畫面。研究限制為人臉偵測時的臉部影像至少要 2.

(10) 像素，因為過小的臉部影像無法提供足夠的眼睛資訊於辨識眼睛的開闔狀態。. (a). (b). 圖 2、(a) 近距離環境示意圖. (b) 遠距離環境示意圖. 1.3 論文架構本論文共分成五個章節，第二章為研究之相關文獻，歸納出常用的幾個人臉偵測、眼睛偵測與眼睛開闔辨識之方法。第三章深入探討整體架構流程與主要研究理論與方法。第四章為實驗結果與討論。第五章為結論及未來研究。. 3.

(11) 第二章. 文獻探討. 由於眼睛位於人臉內部，若能事先找出人臉的範圍再進行眼睛偵測，不但較有效率準確率也較高，完成眼睛開闔偵測前，首先要確定人臉與眼睛的位置，因此文獻探討會包含人臉偵測、眼睛偵測以及眼睛狀態辨識三部分。本章共分成三個小節，2.1 節為人臉偵測，2.2 節為眼睛偵測，2.3 節為眼睛開闔辨識。 2.1 人臉偵測人臉偵測的方法大致可分為三類，分別為基於特徵的方法(Feature-based) 、樣板比對的方法(Template-based) 以及基於表像的方法(Appearance-based)。 (1). 基於特徵的方法(Feature-based) 在人臉中尋找明顯的特徵來找出人臉的位置，像是可以利用臉的輪廓、膚色以及五官當作特徵來判斷是否為人臉。以膚色特徵為例，根據色彩模型可以快速地將非膚色部分濾除，減少影像中需要處理的範圍，並保留膚色部分進行後續分析。HSV 色彩空間與 YCbCr 色彩空間相較於 RGB 色彩空間較不易受到光線的影響，因此常被使用來做人臉偵測，Wang 與 Yuan[3]以及 Garcia 與 Tziritas[4]使用 HSV 色彩空間來擷取人臉，Hsu 等人[5]以及 Lin [6]則是利用 YCbCr 色彩空間來做人臉偵測，也有研究使用 YUV 色彩空間來做膚色偵測[7]。此種方法較不易受到姿勢、視角以及外在環境光線變化的影響，通常都會結合多種以上特徵來做人臉偵測，因為若單獨使用某一特. 4.

(12) 徵，可能會略顯不足，因為每一種特徵都極易受到外在環境的干擾而影響判斷的正確率。 (2). 樣板比對的方法(Template-based) 利用多張人臉的輪廓以及五官形狀的特徵定義出一個或多個標準樣本，再與測試影像逐一進行比對，計算兩者之間的相似程度。由於人的頭部邊緣會有類似橢圓形的邊緣線，因此 Lam 與 Yan[8]對每張影像作邊緣化處理，並以橢圓形的樣板來做比對。此方法的優點為簡單容易實行，但只適用於與樣本相對位置差異不大的影像，無法處理當人臉有旋轉或是縮放的情形。. (3). 基於表像的方法(Appearance-based) 透過學習的方式來做人臉偵測，將人臉與非人臉的影像作分群，利用人臉的外觀變化透過大量的影像訓練來學習外觀變化[9-11]。Viola 與 Jones [12] 提出利用積分影像特徵計算 Haar-like feature，再配合 AdaBoost 演算法與 Cascade 分類器來建立人臉偵測模型，其結果如圖 3 所示。此方法目前廣為學者所用，其優點為快速且辨識率高，但需耗費大量記憶體空間。. 圖 3、Viola 與 Jones 提出的方法之結果[12]. 5.

(13) 2.2 眼睛偵測眼睛偵測的方法有很多種，以下將類歸並介紹幾種常用的方法： (1) 基於特徵的方法(Feature-based) 利用眼睛本身的一些特性當作特徵去做偵測，常用的特徵有眼睛的位置、顏色以及形狀。不論是東方人或是西方人，眼睛的位置皆位於人臉的上半部，簡郁菱[13]利用座標關係將眼睛部分切割出來，便可減少搜尋眼睛的範圍。缺點為當人臉有歪斜的狀況時，就不能利用相對位置來找出眼睛。眼睛的顏色相對於周圍的膚色是偏暗的，有很強烈的對比，因此常見的作法為先將影像作二值化或灰階，找出眼睛可能位置後，再分別計算水平投影與垂直投影的像素值加總，由圖 4 可以看出不論是水平方向或是垂直方向，眼睛附近的像素值加總皆比其他地方低，都位於波谷的地方，簡郁菱[13]以及 Zhou 與 Geng[14]皆是利用此種特性來找到眼睛可能的區域位置。眼睛的形狀也是一個明顯的特徵，當眼睛睜開時，瞳孔的輪廓呈現圓形狀，利用圓形的邊緣像素值與邊緣的方向，找出圓形的中心位置[15, 16]，如圖 5 所示。. 圖 4、利用水平與垂直投影來判斷眼睛位置[14]. 6.

(14) 圖 5、利用瞳孔的形狀來找出眼睛位置[15] (2) 樣板比對的方法(Template-based) 利用多張眼睛的影像，得出一個或多個樣板，與要測試的影像逐一進行比對，計算兩者之間的相似程度。Wu 等人[17]對眼睛做邊緣化偵測，以眼睛的橢圓形邊緣線當作樣板來做比對。此方法雖然簡單容易實行，但受限於測試之影像與樣板的相對位置差異不能太大，若要偵測旋轉或是縮放的眼睛，需重新製作新的樣板，因此較耗費時間且效率低。 (3) 基於表像的方法(Appearance-based) 眼睛在臉部內有固定的明暗變化，利用此種特性透過學習的方式來做眼睛偵測。使用大量的 Haar-like feature，如圖 6，配合 AdaBoost 演算法與 Cascade 分類器來建立眼睛偵測模型為[18]所提出之方法。優點為快速，但無法處理當影像有旋轉或是縮放的情形，且事前需提供大量的樣本以供學習。. 圖 6、Haar-like feature[18]. 7.

(15) 2.3 眼睛開闔辨識眼睛開闔辨識的方法很多，大多會根據眼睛開闔的特徵去做辨識。Tan 與 Zhang[19]利用是否找到眼睛的虹膜來做眼睛狀態偵測，若有找到則為開眼狀態，反之則為閉眼狀態，主要的方法是利用半圓形虹膜遮罩，對影像中偵測到的邊緣與灰階資訊來判斷是否有虹膜的存在，方法的缺點為事先須知道虹膜的半徑為何。 Dehnavi 等人[20]利用眼睛瞳孔與周圍明暗的強烈對比特性，將二值化影像進行垂直投影，利用最大值及最小值等門檻值(threshold)設定來判斷眼睛的開闔狀態。簡郁菱[13]是利用眼睛的紋理特徵來做眼睛開闔辨識，首先對眼睛影像進行二值化再做垂直投影並計算其平均值、變異數以及分群個數，經由二元樹的判斷來判定眼睛的開闔狀態。林國暐與陳良驊[21]對二值化眼睛影像的特徵進行搜尋與切割，最後將切割出來的部份進行二維主成份分析 (Two-Dimensional Principal Component Analysis, 2DPCA)的運算，求出切割影像的影像特徵矩陣 (Image Feature Matrix)，再與人眼部位影像資料庫內影像特徵矩陣進行比對，依最小距離法判別該人眼屬於何種狀態。 Xu 等人[22]以及利用區域二元特徵(Local Binary Pattern, LBP)結合 AdaBoost 演算法做分類。[1]則是利用區域二元特徵結合 SVM 的方法來做分類。區域二元特徵是一種用來描述區域紋理變化的特徵計算方式，於 2002 年由 Ojala 等人提出[23]，其計算方式為假設圖 7(a)為某區塊的 9 個灰階像素值，以區塊中間為門檻值，周圍八個點若大於或等於門檻值，則將此點設為 1，反之，設為 0，得到 8.

(16) 圖 7(b)。依照 2 的次方排列相關位置的權重，由左而右，由上而下，會形成如圖 7(c)的權重方塊。將圖 7(b)與圖 7(c)相對位置相乘後再相加即可算出此 3 x 3 的區域二元特徵值，算法為:. ，對整張影像做迭代. 統計出影像的區域二元特徵值方圖(LBP histogram)，由於開閉眼的紋理不太相同，因此可藉由此特徵來做辨識。. (a) (b) (c) 圖 7、LBP (a) 3 x 3 區塊範例 (b)經 LBP 運算後結果 (c) 3 x 3 區塊之權重. 9.

(17) 第三章. 研究方法. 本章共分成五個小節，3.1 節為本研究的系統流程，3.2 節為人臉偵測 (Face Detection)，3.3 節為影像前處理 (Image Pre-Processing)，3.4 節為眼睛區域決策 (Eyes Region Decision)，3.5 節為眼睛狀態決策 (Eyes State Decision)。. 3.1 研究架構與流程. 本研究設計的眼睛狀態偵測之處理流程如圖 8，自攝影機擷取影像後，整個工作分成人臉偵測、眼睛偵測與眼睛開闔辨識三部分。首先對影像進行人臉偵測，將得到的人臉影像做前處理，包含灰階化及二值化，接著對二值化影像做局部取像，利用縮小範圍的概念來取得眼睛大概的位置，再利用水平投影及垂直投影的方法更精確地取得眼睛的水平位置與垂直位置。眼睛狀態偵測首先利用 Canny 邊緣偵測找出邊線，再利用本論文所提出之特徵擷取的方式進行特徵值的計算並配合 SVM 的方法判斷眼睛的開闔狀態。. 10.

(18) 圖 8、眼睛開闔辨識之流程圖. 11.

(19) 3.2 人臉偵測（Face Detection）本研究利用 Viola 與 Jones[12]所提出的方法來做人臉偵測，利用積分影像快速算出大量 Haar-like feature 的值，AdaBoost 演算法在每一回合的訓練中選取最重要的 Haar-like feature，多個 Haar-like feature 組合起來成一個強分類器，配合 Cascade 分類器的概念，便可快速過濾掉非人臉的圖片，最後留下的即為人臉影像。圖 9 為 Viola 與 Jones[12]所使用的 Haar-like feature，這些特徵(feature)的大小都不相同，但是白色面積和灰色面積都會一樣大，這些特徵會像濾波器(filter) 一樣，在每一張影像中移動並且計算白色面積像素值的加總減去灰色面積像素值的加總，由於 Haar-like feature 的數量相當龐大，因此 Viola 與 Jones[12]提出利用積分影像演算法來加快計算每個特徵的值。. 圖 9、Haar-like feature[12]. ∑. (1). 12.

(20) 對於一張輸入影像 I，. 表示點. 的灰階像素值，如圖 10 綠色面積為點. 的積分影像，. 為點. 的積分影像。. 圖 10、點. 的積分影像. 根據遞迴的方式:. (2). (3). 表示該行到的總和，. 和. ，積分影像就可從原始. 影像中得到。要訓練的影像分為人臉與非人臉，分別有多張影像，在初步時的權重值皆相同，會隨著每回合的訓練而有所不同。假使要挑選 T 個特徵，AdaBoost 演算法首先將所有權重值做正規化使得所有的值加起來為 1，接著會在每回合挑選一個能使得錯誤最小的特徵並記錄其參數，最後則會更新權重值，共做 T 個回合。每個特徵可視為一個弱分類器，將這 T 個弱分類器組合起來便可成為一個強分類器，藉由每個特徵對影像進行投票，決定此張影像是否為人臉，由於每個特徵的權重值皆不相同，因此只有當權重值的加總過半時，才認可為一張人臉。. 13.

(21) Cascade 分類器的概念可以讓 AdaBoost 演算法更有效的進行。將所有特徵分成好幾層分類器，每一層的分類器皆會濾掉非人臉的影像，再將剩下的影像交給下一層分類器處理，如此一來最後留下來的則為人臉的影像，圖 11。Cascade 分類器最主要的概念為愈前面的分類器其辨識度愈低，可以快速過濾掉一大半非人臉的影像，越後面的分類器辨識度越高，雖然影像較難處理，但要判斷的影像數量已不如前面的多了，因此可以加快辨識速度以提高其效能。. 圖 11、Cascade 分類器. 14.

(22) 3.3 影像前處理（Image Pre-Processing）影像前處理包含兩個部分，分別為灰階化以及二值化。 3.3.1 灰階化運用眼睛區域與周圍膚色的強大對比是找出眼睛的一大特性。將彩色影像轉成灰階及二元影像不但讓影像的呈現更為簡單也可加快運算速度，而且不失眼睛本身的特性。將臉部影像的色彩資訊由 RGB 三維色彩空間轉換成一維的灰階色彩空間轉換公式定義如下:. (4). 3.3.2 二值化利用 Otsu[24]將影像轉成二值化，其過程如圖 12 所示。Otsu 的方法為計算影像部分區域的像素值，再利用統計方法得到門檻值，經由門檻值過濾後，即可得出二值化後的黑白影像。. 圖 12、影像前處理結果. 15.

(23) 3.4 眼睛區域決策 (Eye Region Decision) 眼睛區域決策可分為三步驟，分別是局部取像、水平投影及垂直投影。局部取像主要是先找出眼睛的大致範圍，再藉由水平投影及垂直投影的方法精確地找出眼睛的位置，並去掉眉毛的區塊，將找出的眼睛影像重新調整成固定大小，本論文之眼睛大小皆為. 像素。由於雙眼通常呈現一致的狀態，當有打有瞌. 睡的情形發生時，無論是左眼或是右眼皆是閉眼的情形，因此本研究預設右眼為判斷眼睛開闔狀態之單眼影像。 3.4.1 局部取像(Area of Interest, AOI) 眼睛的位置位於人臉的上半臉中，眼睛的大小也與人臉有相對關係的比例。根據此一特性，事先定義出眼睛的大致位置，對臉部進行局部取像，縮小找出眼睛的範圍，可以大幅的減少計算量提高整體效率。將眼睛的寬度範圍定義介於與，長度範圍介於與，右眼的寬度範圍則是介於與，左眼的寬度範圍是介於與，如圖 13 所示。許多研究所定義的範圍皆不盡相同，有些定義的範圍較小較為嚴謹，適用於當偵測到的人臉是正臉沒有歪斜的情況之下，而本篇 3 研究所定義的寬度範圍為人臉寬度的，也就是 5. 、. 、. 、. ，此寬度為一個廣域的眼睛範圍。當人臉偵測的結果有歪斜的情形發生時，眼睛的長度範圍也會隨之受到影響，會往左下斜或往右下斜，因此眼睛的長度範圍會保留較多的空間，確保當人臉偵測於非正臉時仍能偵測得到眼睛，本篇研究的長度定義為. 、. 。 16.

(24) 圖 13、臉部局部取像經由影像前處理所得的人臉影像，利用局部取像的概念可得到二值化後的單眼黑白影像，圖 14。影像中除了有眼睛的部分，也有可能會包含眉毛的部分，為了能排除掉眉毛的部分，本研究利用將利用水平投影的方式並運用分群的原理去除眉毛的部分並得到精確的眼睛水平中心位置，最後再用垂直投影的方法得到精確的眼睛垂直中心位置。. 圖 14、二值化臉部局部取像. 17.

(25) 3.4.2 水平投影水平投影的作法為對二值化影像裡的每一列(Row)，以水平方向累加其黑色像素點的數量。假設、為影像大小的長和寬，利用式(5)即可求得水平投影之影像。. ∑. ，where y=1,…,n. (5). 原始影像圖 15(a)經前處理過後可得到二值化單眼眼睛影像圖 15(b)，利用式 (5)計算完可得到圖 15(c)之水平投影影像，其中白色面積為投影完之結果。從圖中可以發現，不論是開眼影像還是閉眼影像，投影量最大的地方恰為眼睛水平方向的位置，且有明顯的群聚出現。影像中若有包含眉毛的部分，由圖中可觀察出會有兩個較明顯的群聚產生，因此將眼睛軸中心的位置定在下面較大群聚的地方，便可排除掉眉毛的部分，得到如圖 15(d)之結果，可精確地找出眼睛的水平中心位置。. 圖 15、水平投影方法找眼睛水平中心位置. 18.

(26) 3.4.3 垂直投影垂直投影的作法為對二值化影像裡的每一行(Column)，以垂直方向累加其黑色像素點的數量。假設、為影像大小的長和寬，利用式(6)即可求得垂直投影之影像。. ∑. ，where. (6). 確定了水平方向的位置，接著便是垂直方向位置的確定。利用式(6)可算出垂直方向的垂直投影圖，得到如圖 16(c)之垂直投影影像，其中白色面積為投影完之結果。從圖中可以發現，不論是開眼影像還是閉眼影像，投影量最大的地方恰為眼睛垂直方向的位置，且具有一個明顯的群聚出現。因此將眼睛軸中心的位置定在投影量最大的地方，即可將眼睛垂直中心位置找出，得到如圖 16(d)之結果，可精確地找出眼睛的垂直中心位置。. 圖 16、垂直投影方法找眼睛垂直中心位置. 19.

(27) 3.5 眼睛狀態決策（Eye State Decision）將眼睛的區域萃取出後，接著便是判斷眼睛的開闔狀態。本研究提出了一個新的特徵擷取方式並配合 SVM 的方法來判斷眼睛的開闔狀態。此新的特徵擷取方式主要是在開閉眼影像輪廓複雜度的差異為基礎上計算得出此影像的特徵值，此特徵值的意義上同為複雜度的概念，若計算出的值愈高，表示影像複雜度愈高，開眼的可能性則愈高，反之，閉眼的可能性則愈高。 900 800 700 600 特 500 徵值 400. open close. 300 200 100 0 0. 100. 200. 300. 400. 500. 600. 700. 800. 資料編號. 圖 17、本研究所提出之特徵擷取值的分布情形圖 17 為本實驗中真實開閉眼影像所得之特徵值分布情形，綠色點為開眼影像，桃紅色點為閉眼影像，由圖中可觀察開閉眼有明顯的區隔。但若直接訂立一個門檻值當作判斷開閉眼的界線，則特徵值落於中間地帶的影像則容易誤判。因此，本研究提出一個判斷開閉眼影像的決策方法來解決中間地帶模糊不清的問題，首先訂定兩個門檻值，一個是上限門檻值 20. ，另一個為下限門檻值. ，.

(28) 若特徵值落於. 之上，則判斷為開眼影像，若特徵值落於. 之下，則判. 斷為閉眼狀態，如此一來可以快速過濾出開眼及閉眼的眼睛影像，若特徵值介於中間，則利用事先訓練好的 SVM 模型來進行判斷。由於本論文所提出之特徵值的特點為計算速度快，利用兩個門檻值可以快速過濾出是開眼狀態或是閉眼狀態，且可維持在一定的辨識率之上，若將兩條門檻值定的愈嚴謹(將. 往上移，將. 往下移)，其辨識率可以越高，但能經由. 此特徵值判斷的數量則較少一些，若將門檻值定的較寬鬆(將. 往上移，將. 往下移)，其辨識率會稍低一些，但能經由此特徵值判斷的數量則越多;而 SVM 的特點為經過大量訓練完的模型，其分類結果通常都很優異，缺點為判斷速度較慢，因此本研究希望能結合兩者方法，利用特徵值快速過濾出開閉眼影像，落於中間地帶的則交由 SVM 做分類，在有良好辨識率的同時也考量了執行速度的快慢。圖 18 為眼睛狀態決策之流程圖，首先將眼睛影像利用 Canny 邊緣偵測得到留下邊線的二元影像，接著利用本研究提出之特徵擷取方式計算出此特徵值快速過濾出開閉眼影像，若值大於. 或值小於. ，則可直接判斷為開眼或閉. 眼狀態，若特徵值介於兩者中間，則利用已經訓練好的 SVM 模型來進行眼睛狀態的判別。. 21.

(29) 圖 18、眼睛狀態決策流程圖. 22.

(30) 3.5.1 Canny 邊緣偵測 (Canny Edge Detection) 計算影像複雜度之前首先要先對影像做邊緣偵測找出明顯的輪廓，本研究採用 Canny 邊緣偵測。Canny 邊緣偵測會先對影像進行雜訊的去除，接著再把影像中的邊線找出來。式(7)為高斯濾波器(Gaussian filter)的定義，為高斯濾波器，為標準差。Canny 的基本原理為使用高斯濾波器的一階導函數來減少雜訊造成的誤差，利用式(8)可得到在梯度. 方向的微分. 由式(9)求得。為輸入影像，邊緣的位置就在. 。而邊緣的法向量可. 沿著方向的最大值，利用式. (10)可求得邊線的位置。. (7). (8). (9). (10). 比較梯度方向上的相鄰點，將非最大值都刪除（non-maximal suppression），保留最大值來尋找可能的邊緣位置。針對每個有非零的像素相鄰的點，若皆不大於. ，則. 列為候選(candidate)，透過. ，檢查兩個計算. 邊緣的強度，最後再透過門檻值去掉不需要的部分，即可得到所需的邊緣。因此 Canny 可在雜訊的去除與邊緣的偵測兩者衝突中取得一個平衡。 23.

(31) 3.5.2 特徵擷取由於開眼影像與閉眼影像在外觀上有明顯的差異，開眼影像的輪廓較為複雜，而閉眼影像通常呈現一條微彎的曲線輪廓較為簡單，因此可以考慮利用兩者的輪廓複雜度當作特徵，輪廓複雜度計算的方法眾多，但其公式及用法皆不盡相同，複雜度函數(Complexity Function)及熵(Entropy)皆可用來描述影像的複雜度，本研究將以上述兩種方法為基礎，提出了一個新的特徵擷取方法，算出的特徵值意義上同為複雜度的概念，此值愈大代表影像複雜度較高，為開眼的可能性也愈高，反之，則為閉眼的可能性高。 (1) 複雜度函數(Complexity Function): 根據開閉眼外觀上的明顯差異，Tian 與 Qin[25]於 2005 年提出了利用複雜度函數 (Complexity Function) 計算眼睛影像輪廓的複雜度並訂定一個門檻值 (threshold)來及時判斷眼睛的開闔狀態。Hong 等人[26]則在 2007 年加入考慮垂直方向的複雜度，進而判斷眼睛的開闔狀態。複雜度函數的定義如下：. ∑∑. 假設影像大小為. (11). ，. 影像第列、第行的像素值，點. 表示二元影像的複雜度值，. 是二元. 則表示第列、第行的權重係數。每一個像素. 會和右邊像素點相減並取絕對值後乘上一個權重值. 到一張影像的複雜度值。 24. ，最後累加得.

(32) 開眼狀態時眼睛有黑白明顯變化的位置通常位於中間，而周圍呈現較為均勻的灰階像素值，因此權重值會隨著離眼睛中心距離愈近而越大，愈靠近邊緣而愈小，如圖 19，高峰的地方即為權重值最高的影像中心位置，因此權重值的加入更可以描述眼睛複雜度的大小。權重值的定義如下:. (12). 假設 M、N 為影像的長和寬，. 則表示第列、第行的權重值。. 圖 19、複雜度函數權重值示意圖. 25.

(33) (2) 熵(Entropy): 熵一詞最早於 1864 年出現並應用於熱力學中，由 Rodolf Julius Emanuel Clausius 提出，可以用來表達能量混亂的程度。接著於 1948 年由 Claude Elwood Shannon 提出可以將此概念用於資訊理論上，可以用來描述某載體中蘊含資訊量的多寡。熵在物理意義上表示亂度，Chen 等人[27]於影像的應用為根據影像像素值出現的機率來評估影像中的資訊量及複雜度，熵值越高表示影像中不同訊號出現的機率較高，影像上意義則表示資訊愈豐富愈複雜，因此可以根據熵值來表達影像的複雜程度。. (13). ∑. (14). 上面兩式(13)、(14)為熵值的定義，代表訊號源的範圍，代表訊號源出現的機率大小，M、N 為影像的長和寬，ㄧ般來說，的定義可以視情況而定，假設要計算的是灰階值的熵時，表示灰階值為的像素點數目;若要計算水平投影量之熵時，表示第個列上灰階值為 0 或 255 的像素點數目，若要計算垂直投影量之熵時，表示第個行上灰階值為 0 或 255 的像素點數目，當影像內容有變化時，這些熵值也會跟著變化。. 26.

(34) (3) 特徵擷取方式: 由於灰階值的熵值及水平、垂直投影的熵值無法充分描述開閉眼的情形，因此本研究將思考利用其他影像特徵計算熵值，由於複雜度函數方法中所計算出的複雜度值恰能描述影像黑白相間的情形，因此將考慮以每一列所計算出的複雜度值當作熵值的訊號來源，若直接套用會有機率不符的問題產生，因此本研究將利用式(15)類熵的計算來得出整體影像的特徵值。假設影像 I 的大小為. ，本研究將定義此特徵值. 的算法如下:. ∑. (15). 上式中的為根據複雜度函數所算出來的每一列複雜度值，其定義如下:. ∑. (16). 其中. (17). 是二元影像第列、第行的像素值，經由式(15)所運算出來的特徵值. 為第列、第行的權重係數。. 意義上仍為複雜度的概念，由於複雜度. 函數一列中的值愈大表示黑白相間的情形愈多，利用式(15)可以拉開開閉眼影像的特徵值差距而更具鑑別度。. 27.

(35) 3.5.3 支援向量機(Support Vector Machine, SVM) SVM 是一套較為新穎的統計學習方法，適用於模式識別領域，普遍用於分類(Classification)問題的資料分析，具有解決小樣本，非線性及高纖模式辨別問題的優勢。給予一群已分類好的資料，經由訓練(Training)可得到一組模型(Model)，之後再給予未分類的資料時，可用之前訓練出來的模型去預測這筆資料所屬的分類，此方法經常被運用在人臉辨識、手寫體辨別等問題上[28, 29]。 SVM 最主要的基本概念為找到一個超平面(Hyper-Plane)，希望該平面能正確地將兩類的資料分開，且兩類的資料離此超平面越遠越好，如圖 20(a)，藍色、紫色及紅色三條線皆可將此兩類分開，圖 20(b)應選擇盡量離此兩類越遠越好的線。本論文使用林智仁教授所開發之 LIBSVM[30]來進行眼睛開闔的二元分類。. (a) (b) 圖 20、SVM 概念示意圖 (a)三條線皆能將兩類分離 (b)應選擇離此兩類越遠越好的線由於 SVM 模型訓練前的特徵擷取往往決定了模型的好壞，因此本研究將比較兩種特徵擷取的方式，目的為看出哪一個當作 SVM 模型訓練前的影像特徵效果較好，一個為灰階眼睛影像的像素值當作特徵，另一個為區域二元特徵(Local Binary Pattern, LBP)。 28.

(36) 第四章. 實驗結果與討論. 此章節首先會先介紹本研究所用到的兩個實驗影像資料庫，第二小節為實驗的結果與討論，裡面共包含三個不同的實驗來驗證本篇方法的可用性。實驗中使用之電腦配備為處理器：Intel(R) Core(TM) i7-3770 CPU @ 3.4GHz，記憶體(RAM)：8.0GB，系統：Windows 7. 64 位元作業系統。使用 Panasonic. wv-sc385 1080x960 畫素攝影機。 4.1 實驗影像資料庫本論文使用的影像資料庫包含兩種不同資料，分別為近距離拍攝之影片及使用[13]遠距離下真實學生上課環境之資料庫。 (1) 近距離影像: 實驗環境為室內，受試者在距離攝影機 100~120 公分進行實驗，共 17 位受試者皆無配戴眼鏡，開眼時除了會往前看，也會有往上看、往下看、往左看或往右看的情形發生，因此實驗過程中會請受試者做六種動作，分別為往前看、往上看、往下看、往左看、往右看以及閉起眼睛，每位受試者會有 30~80 份資料，取決於人臉偵測時的數量。開眼資料共 3198 筆，閉眼資料共 761 筆。. 29.

(37) 表1 、近距離影像之蒐集樣本數開眼. 蒐集樣本數. 往前看. 往上看. 往下看. 往左看. 往右看. 681. 625. 678. 617. 597. 閉眼. 761. (2) 遠距離影像: 使用[13]之資料庫，真實學生於課堂環境中，遠距離偵測學生在上課中之眼睛開闔情形。受試者 39 位中 11 位無配戴眼鏡，28 位有戴眼鏡，攝影機距離受試者約 450cm~1500cm，每秒擷取 5 張影像，再從影像中擷取個別的學生資訊。實驗目的主要為看出在遠距離低解析度下的環境，受試者的眼睛狀態在本篇方法中是否也能有效辨識出來。由於資料庫眼睛影像的數量過於龐大，因此本研究於[13]有配戴眼鏡之資料庫中隨機抽樣各 1000 筆開閉眼資料，無配戴眼鏡之資料庫由於閉眼資料量較少，因此開眼資料隨機抽出 1000 筆，閉眼資料抽出 750 筆當作遠距離影像之蒐集樣本數，如表 2。表2 、遠距離影像之蒐集樣本數沒有配戴眼鏡. 蒐集樣本數. 有配戴眼鏡. 開眼. 閉眼. 開眼. 閉眼. 1000. 750. 1000. 1000. 30.

(38) 4.2 實驗結果與討論實驗一 : 實驗目的為複雜度函數(Complexity Function)與本研究所提出之特徵擷取方法的比較。首先進行本研究所提出之特徵值計算，並將之繪製於一座標平面上看出其分布情形，接著計算在給定不同的門檻值時，開閉眼個別的辨識率及資料比例為何，最後與複雜度函數方法做比較。 (1) 近距離影像資料庫: 針對近距離開眼影像中的往前看影像 681 筆資料與閉眼影像中的 761 筆資料分別計算其特徵值並將結果繪製於一座標平面上，得圖 21。 900. 800 700 600 特 500 徵 400 值 300. open close. 200 100. 0 0. 200. 400. 600. 800. 資料編號. 圖 21、利用本研究所提出之特徵值計算所得之分佈情形橫軸代表資料編號，縱軸代表特徵值，綠色標記代表開眼影像，桃紅色標記代表閉眼影像，由圖中可以觀察出開閉眼的影像分佈有明顯區隔，若分別給定不. 31.

(39) 同的門檻值，可個別算出開閉眼的辨識率及判斷個數，將結果利用折線圖表示得到圖 22。 100% 90% 辨識 80% 率、 70% 資料 60% 比例 50%. 開眼辨識率開眼資料比例閉眼辨識率閉眼資料比例. 40% 200. 300. 400. 500. 門檻值. 圖 22、利用本研究所提出之特徵值計算所得之折線圖圖中橫軸代表門檻值，縱軸代表辨識率或是資料比例，綠色標記代表開眼影像，桃紅色標記代表閉眼影像，不同的門檻值，得到的開閉眼影像辨識率不同，資料佔的比例也不同。由圖 22 中可觀察出當門檻值愈高時，開眼的辨識率有往上升的趨勢，當門檻值愈低時，則是閉眼的辨識率有往上升的趨勢，且無論是開眼或閉眼，當辨識率愈高時，能經由特徵值判斷出的資料比例愈低。由於本研究是利用兩個門檻值來快速過濾出開眼影像與閉眼影像，因此需要訂定一個門檻值上限與門檻值下限，訂定的規則當然是在擁有較高辨識率的同時，能夠辨識的資料數量也多，因此如何在兩者之間取得一個平衡，可以視應用的需求而定。假設將門檻值的下限訂在 280，上限訂在 360，在門檻值為 280 時閉眼. 32.

(40) 辨識率可以達到 98.26，此時的閉眼資料比例為 79.5%，而當門檻值為 360 時開眼辨識率可以達到 98.7%，開眼資料比例為 79.74%。 100.00% 90.00% 辨識 80.00% 率、 70.00% 資料 60.00% 比例 50.00%. 開眼辨識率開眼資料比例閉眼辨識率閉眼資料比例. 40.00% 80. 90. 100 110 120 130 140 150 160 門檻值. 圖 23、利用複雜度函數計算所得之折線圖圖 23 為利用複雜度函數所計算出來所得之折線圖，比較圖 22 與圖 23，兩張圖的結構相似，若單純只用一個門檻值判斷，兩種方法之開閉眼辨識率相差不大，由於本研究是利用兩個門檻值來快速過濾出開眼影像與閉眼影像，因此本實驗將比較在擁有相同的辨識率下，哪一種方法所佔的資料筆數較多。本研究將整理出在辨識率 90%~100%時，兩種方法的開閉眼的資料比例為何，如表 3。為了方便比較，本研究利用折線圖來表示開閉眼資料在兩種方法下之比較，如圖 24 與圖 25。兩張圖中橫軸皆代表辨識率，縱軸代表資料比例，由圖中可觀察無論是開眼或是閉眼資料，給定一定的辨識率，本篇方法所能辨識出的資料比例皆較多，當開閉眼辨識率皆達 100%時，本篇方法開眼資料比例比複雜度. 33.

(41) 函數多出 8.81%，閉眼資料比例多出 15.77%，共可多出 24.58%之資料數，約多出四分之一之資料筆數。能經由特徵值判斷的筆數愈多，整體的執行時間愈短。表3 、近距離之複雜度函數方法與本篇方法之比較辨識率. 開眼比例. 閉眼比例. 複雜度函數. 本篇方法. 複雜度函數. 本篇方法. 90%. 93.39%. 95.15%. 94.88%. 96.32%. 91%. 92.80%. 94.27%. 94.48%. 95.66%. 92%. 91.78%. 94.27%. 93.30%. 94.74%. 93%. 90.75%. 92.95%. 92.25%. 94.35%. 94%. 86.78%. 90.75%. 91.00%. 93.30%. 95%. 86.49%. 88.84%. 90.01%. 91.06%. 96%. 85.17%. 86.93%. 88.96%. 90.41%. 97%. 78.41%. 81.35%. 79.63%. 82.52%. 98%. 77.39%. 80.91%. 74.11%. 80.03%. 99%. 59.91%. 65.93%. 71.62%. 76.74%. 100%. 38.62%. 47.43%. 47.04%. 62.81%. 95.00% 85.00% 開眼 75.00% 影像 65.00% 比例 55.00%. 複雜度函數開眼比例本篇方法開眼比例. 45.00% 35.00% 90%. 92%. 94%. 96%. 98%. 100%. 開眼辨識率. 圖 24、給定相同門檻值下兩種方法開眼比例之比較圖(近距離). 34.

(42) 100.00% 90.00% 閉 80.00% 眼影 70.00% 像比 60.00% 例. 複雜度函數閉眼比例本篇方法閉眼比例. 50.00% 40.00% 90%. 92%. 94%. 96%. 98%. 100%. 閉眼辨識率. 圖 25、給定相同門檻值下兩種方法閉眼比例之比較圖(近距離) (2) 遠距離影像資料庫: 遠距離資料庫分成無配戴眼鏡與有配戴眼鏡兩類，由近距離影像資料庫的實驗中已可得知本篇方法之特徵值擷取的性質，因此在此不再贅述一遍。直接比較在辨識率 90%~98%時，兩種方法在遠距離下的開閉眼資料比例為何。表 4 與表 5 分別為無配戴眼鏡與有配戴眼鏡所得到之兩種方法下的比較結果，表格中的無代表無此辨識率，因此資料比例為空。為了方便比較，本研究將利用折線圖表示開閉眼資料在兩種方法下之比較，圖 26 與圖 27 為無配戴眼鏡之開眼比較與閉眼比較，圖 28 與圖 29 為有配戴眼鏡之開眼比較與閉眼比較。. 35.

(43) 表4 、遠距離無配戴眼鏡之複雜度函數方法與本篇方法之比較辨識率. 開眼比例. 閉眼比例. 複雜度函數. 本篇方法. 複雜度函數. 本篇方法. 90%. 75.60%. 76.60%. 59.47%. 62.53%. 91%. 71.10%. 72.50%. 58.53%. 60.27%. 92%. 67.50%. 68.90%. 54.80%. 58.40%. 93%. 61.40%. 64.10%. 52.53%. 56.93%. 94%. 56.10%. 58.50%. 48.27%. 54.27%. 95%. 42.40%. 47.30%. 43.47%. 51.07%. 96%. 37.20%. 38.80%. 40.13%. 42.27%. 97%. 32.80%. 37.10%. 27.47%. 38.80%. 98%. 25.40%. 26.10%. 無. 13.73%. 表5 、遠距離有配戴眼鏡之複雜度函數方法與本篇方法之比較辨識率. 開眼比例. 閉眼比例. 複雜度函數. 本篇方法. 複雜度函數. 本篇方法. 90%. 71.30%. 74.90%. 69.50%. 73.20%. 91%. 69.40%. 70.60%. 66.50%. 68.80%. 92%. 63.90%. 66.00%. 65.60%. 66.30%. 93%. 62.30%. 62.60%. 63.00%. 64.10%. 94%. 57.50%. 59.80%. 60.00%. 61.20%. 95%. 56.80%. 55.90%. 57.50%. 57.80%. 96%. 52.70%. 53.20%. 53.40%. 55.20%. 97%. 43.40%. 46.80%. 42.70%. 42.30%. 98%. 32.00%. 39.50%. 35.00%. 39.20%. 圖 26~圖 29 中橫軸皆代表辨識率，縱軸代表資料比例，藍色點代表複雜度函數的方法，桃紅色點代表本篇方法，由圖中可觀察出當給定一定的辨識率時，大部分的情況皆是本篇方法所能辨識出的開眼資料比例較多，當無配戴眼鏡的開閉眼辨識率達到 95%時，開眼資料能多出 4.9%，閉眼資料多出 7.6%。共可多出 12.5%之資料比例;當有配戴眼鏡的開閉眼辨識率達到 98%時，開眼資料能多出 36.

(44) 7.5%，閉眼資料能多出 4.2%，共可多出 11.7%之資料比例。經由特徵值判斷的筆數愈多，整體的執行時間愈短，因此在之後的實驗中，皆利用本篇研究所提出之特徵擷取方式來做計算。 80.00% 70.00% 開眼影像比例. 60.00% 50.00% 本篇方法開眼比例. 40.00%. 複雜度函數開眼比例. 30.00% 20.00% 10.00% 90%. 92%. 94%. 96%. 98%. 開眼辨識率. 圖 26、給定相同門檻值下兩種方法開眼比例之比較圖(遠距離無配戴眼鏡). 70.00%. 60.00% 閉 50.00% 眼影 40.00% 像比 30.00% 例. 本篇方法閉眼比例複雜度函數閉眼比例. 20.00% 10.00% 90%. 92%. 94%. 96%. 98%. 閉眼辨識率. 圖 27、給定相同門檻值下兩種方法閉眼比例之比較圖(遠距離無配戴眼鏡). 37.

(45) 80.00% 70.00% 開 60.00% 眼影 50.00% 像比 40.00% 例. 本篇方法開眼比例複雜度函數開眼比例. 30.00% 20.00% 90%. 92%. 94%. 96%. 98%. 開眼辨識率. 圖 28、給定相同門檻值下兩種方法開眼比例之比較圖(遠距離有配戴眼鏡). 80.00% 70.00% 閉 60.00% 眼影 50.00% 像比 40.00% 例. 本篇方法閉眼比例複雜度函數閉眼比例. 30.00% 20.00% 90%. 92%. 94%. 96%. 98%. 閉眼辨識率. 圖 29、給定相同門檻值下兩種方法閉眼比例之比較圖(遠距離有配戴眼鏡). 38.

(46) 實驗二 : 實驗目的為比較訓練 SVM 模型之影像特徵的選取何者較合適，一個是區域二元特徵(LBP)，另一個為灰階像素影像特徵，分別比較其辨識率及執行速度。本篇研究所用的區域二元特徵參數為(8,1)。由於 SVM 在訓練的過程中，兩類的數目要達到一致的結果較佳，因此本實驗的開眼影像與閉眼影像的訓練樣本數來源皆相同。 (1) 近距離影像資料庫: 本實驗從近距離開眼影像中的五個狀態各隨機抽取 100 張影像當作訓練樣本影像，200 張當作測試樣本影像，接著隨機抽取閉眼影像中的 500 筆資料當作訓練樣本影像，剩下的 260 筆資料為閉眼影像，實驗結果如表 6。表6 、近距離實驗之結果與比較開眼往前看往上看往下看往左看往右看閉眼蒐集樣本數. 681. 625. 678. 617. 597. 761. 訓練樣本數. 100. 100. 100. 100. 100. 500. 測試樣本數. 200. 200. 200. 200. 200. 260. 100%. 100%. 99%. 100%. 100%. 100%. 99%. 100%. 灰階像素特徵+SVM. 區域二元特徵+SVM. 辨識率平均執行時間辨識率. 0.0610(sec/frame) 99.5%. 99%. 82%. 93%. 平均執行 0.0401(sec/frame). 時間. 由表 6 可看出灰階像素特徵結合 SVM 的辨識率皆比區域二元特徵結合 SVM 的辨識率好，但區域二元特徵結合 SVM 的執行速度比較快。其中可以明顯發現 39.

(47) 區域二元特徵的往下看辨識率結果較差，原因是因為往下看的區域紋理容易被誤判成閉眼的狀態，如圖 30 為區域二元特徵無法正確判斷為往下看之影像。. 圖 30、近距離往下看之區域二元特徵無法判斷正確之影像 (2) 遠距離影像資料庫: 本實驗從遠距離資料庫中無配戴眼鏡與有配戴眼鏡兩類資料中，開閉眼資料各隨機抽取 250 筆資料當作訓練樣本資料，剩下的則為測試樣本資料，其實驗結果如表 7 及表 8。表7 、遠距離無配戴眼鏡之結果與比較開眼. 閉眼. 蒐集資料數. 1000. 750. 訓練樣本數. 250. 250. 測試樣本數. 750. 500. 96.6%. 95.4%. 灰階像素特徵. 辨識率. +SVM. 平均執行時間. 區域二元特徵. 辨識率. +SVM. 平均執行時間. 0.0542(sec/frame) 84.4%. 88.8%. 0.0404(sec/frame). 表8 、遠距離有配戴眼鏡之結果與比較開眼. 閉眼. 蒐集資料數. 1000. 1000. 訓練樣本數. 250. 250. 測試樣本數. 750. 750. 94.53%. 88.26%. 灰階像素特徵. 辨識率. +SVM. 平均執行時間. 區域二元特徵. 辨識率. +SVM. 平均執行時間. 0.0636(sec/frame) 82.6%. 86.9%. 0.0404(sec/frame) 40.

(48) 由表 7 及表 8 可看出灰階像素特徵結合 SVM 的辨識率皆比區域二元特徵結合 SVM 的辨識率好，但區域二元特徵結合 SVM 的執行速度比較快。遠距離的情況下，開閉眼影像的變異程度更大，因此區域二元特徵的紋理特徵並無明確樣貌，因此容易有誤判的情形發生。圖 31 及圖 32 為遠距離無配戴眼鏡下，區域二元特徵能夠判斷正確與無法判斷正確的開閉眼影像。圖 33 及圖 34 為遠距離有配戴眼鏡下，區域二元特徵能夠判斷正確與無法判斷正確的開閉眼影像。. (a) 開眼影像. (b)閉眼影像. 圖 31、遠距離無配戴眼鏡下之區域二元特徵判斷正確之影像. (a) 開眼影像 (b)閉眼影像圖 32、遠距離無配戴眼鏡下之區域二元特徵無法判斷正確之影像. (a) 開眼影像 (b)閉眼影像圖 33、遠距離有配戴眼鏡下之區域二元特徵判斷正確之影像. (a) 開眼影像 (b)閉眼影像圖 34、遠距離有配戴眼鏡下之區域二元特徵無法判斷正確之影像. 41.

(49) 實驗三 : 對於近距離資料庫及遠距離資料庫，將利用本研究之方法個別計算出其開閉眼辨識率及執行速度，給定不同的門檻值看出其辨識率及執行速度變化為何，並分別列出特徵值及 SVM 判斷過程中的總個數及正確判斷個數為何。表 9 為近距離影像資料庫之實驗結果，表 10 及表 11 為遠距離下無配戴眼鏡與有配戴眼鏡影像之實驗結果，取 175 及 200 當作門檻值的下限，取 375 及 400 當作門檻值的上限，共有四種組合。表中橘色部分(位於辨識率的左下方)的分母代表經由特徵值判斷的總數量，分子代表正確判斷的數量，綠色部分(位於辨識率的右下方)的分母代表經由 SVM 判斷的總數量，分子代表正確判斷的數量。 (1) 近距離影像資料庫: 表9 、近距離之實驗結果門檻值 (下限,上限). 開眼辨識率. 閉眼. 往前看. 往上看. 往下看. 往左看. 往右看. 辨識率. 99.5%. 99.5%. 99%. 100%. 100%. 96.15%. (175,375). 平均執行時間 (sec/frame). 0.0231. 99.5%. 99.5%. 99%. 100%. 100%. 99.61%. (175,400). 0.0277. 99.5%. 99.5%. 98.5%. 100%. 100%. 96.15%. (200,375). 0.0210. 99.5%. 99.5%. 98.5%. 100%. (200,400). 100%. 99.61% 0.0256. 42.

(50) ●:經由特徵值判斷(位於辨識率左下方) ●:經由 SVM 判斷(位於辨識率右下方) 分母代表總數量，分子代表正確判斷的數量 (2) 遠距離影像資料庫: 表10、遠距離無配戴眼鏡之實驗結果平均. 門檻值 (下限,上限). 開眼辨識率. (175,375). 96.8%. 閉眼正確率. 執行時間 (sec/frame). 94.2% 0.0306. (175,400). 96.6%. 95.8% 0.0332. (200,375). 95.8%. 95.8% 0.0277. (200,400). 95.7%. 95.8% 0.0304. ●:經由特徵值判斷(位於辨識率左下方) ●:經由 SVM 判斷(位於辨識率右下方) 分母代表總數量，分子代表正確判斷的數量. 43.

(51) 表11、遠距離有配戴眼鏡之實驗結果平均. 門檻值(下限,上限). 開眼辨識率. 閉眼辨識率. 執行時間 (sec/frame). (175,375). 96.2%. 84.9% 0.0291. (175,400). 96.1%. 87.7% 0.0315. (200,375). 94.2%. 89.4% 0.0250. (200,400). 94.1%. 90.0% 0.0274. ●:經由特徵值判斷(位於辨識率左下方) ●:經由 SVM 判斷(位於辨識率右下方) 分母代表總數量，分子代表正確判斷的數量比較門檻值(175,400)與(200,375)，(175,400)的門檻值較嚴格，(200,375)的門檻值較寬鬆。表 9 中，(175,400)經由特徵值辨識出的開眼數量為 643 筆，閉眼數量為 62 筆，加起來約佔總數量的 60%，和 SVM 方法相比，每張影格(frame)的平均執行時間上可降低 2.2 倍;而(200,375)經由特徵值辨識出的開眼數量為 735 筆，閉眼數量為 109 筆，加起來約 70%，平均執行時間可降低約 3 倍。表 10 中(175,400)的開眼辨識率為 96.6%，閉眼辨識率為 95.8%，經由特徵值判斷出的數量約 35%，與 SVM 方法相比，平均執行時間可降低 1.6 倍，而(200,375) 的開閉眼辨識率皆為 95.8%，經由特徵值判斷出的數量約 47%，平均執行時間可降低 1.9 倍。表 11 中(175,400)的開眼辨識率為 96.1%，閉眼辨識率為 87.7%，經 44.

(52) 由特徵值判斷出的數量約 50%，平均執行時間可降低 2 倍，而(200,375)的開眼辨識率為 94.2%，閉眼辨識率為 89.4%，經由特徵值判斷出的數量約 60%，平均執行時間可降低 2.5 倍。由結果可知，當門檻值定的愈寬鬆，經由特徵值判斷的數量較多，平均執行時間較短，且當 SVM 的訓練結果不錯時，通常門檻值愈嚴格的辨識率也愈高。給定不同的門檻值，其辨識率與速度也不同，可根據應用面之需求訂定之，若講求的是速度，則可以將門檻值定的較寬鬆，反之，則將門檻值定的較嚴謹。在使用本系統時，從人臉偵測、眼睛區域決策、眼睛狀態辨識等過程，需要符合 real-time，每個階段的執行時間都不容小覷，尤其當在多人的情況下，時間上的考量更加重要，因此在眼睛狀態辨識時，執行時間上的減半能帶給本系統很大的效益，本研究做了兩種方法在不同眼睛影像張數時辨識眼睛狀態所需之時間比較，當有大量的眼睛影像需要判斷時，由表 12 中可看出本篇方法的執行時間皆能快出 SVM 方法兩倍多，隨著影像張數的增加，更能突顯時間的重要性。. 表12、不同眼睛影像張數之 SVM 方法與本篇方法的執行時間比較 1500 張. 3000 張. 6000 張. SVM 方法 1 分 31 秒. 3分7秒. 6 分 16 秒. 本篇方法. 1 分 15 秒. 2 分 34 秒. 37 秒. 45.

(53) 第五章. 結論. 本研究提出了一個有效且快速的方法來判斷眼睛的開闔狀態，經由人臉偵測得到臉部影像，對影像做完前處理後，利用眼睛區域決策的方法得到眼睛的精確位置，最後利用本研究所提出之特徵擷取方法計算此特徵值並搭配已事前訓練過的 SVM 模型來即時判斷眼睛的開闔狀態。無論是近距離實驗或是遠距離實驗，本研究所設計之特徵擷取方式比複雜度函數的方法能判斷出的開閉眼資料比例多，因此整體的執行時間可以降低，也證明了本篇方法的可用性，除了開閉眼整體辨識率皆可達到 84.9%以上，且隨著門檻值的調整，執行時間也可比單純用 SVM 快了 1.5 至 3 倍，時間上的減少能帶給本系統很大的效益，更可以根據應用面的需求調整門檻值的大小來做辨識。由於配戴粗框眼鏡的受試者在做眼睛偵測時比較容易定位錯誤，除了會有反光問題也容易受到黑色邊框的影響而誤判成眼睛，因此可利用去除眼鏡的方法來加以改善;人臉在大幅度的歪斜下或是有手擋住的情形下，人臉偵測時較容易抓不到臉，因此若能改善人臉偵測的方法，適用的狀況一定可以更多;若可以根據眼睛的其他特性當作特徵一起加入眼睛狀態的決策，也許可以增加整體的辨識率及降低執行的速度。. 46.

(54) 參考文獻 [1]. Y.-S. Wu, T.-W. Lee, Q.-Z. Wu, and H.-S. Liu, "An eye state recognition method for drowsiness detection," Vehicular Technology Conference, pp. 1-5, 2010.. [2]. H. Wang, L. Zhou, and Y. Ying, "A novel approach for real time eye state detection in fatigue awareness system," Robotics Automation and Mechatronics, pp. 528-532, 2010.. [3]. Y. Wang and B. Yuan, "A novel approach for human face detection from color images under complex background," Pattern Recognition, vol. 34, pp. 1983-1992, 2001.. [4]. C. Garcia and G. Tziritas, "Face detection using quantized skin color regions merging and wavelet packet analysis," Multimedia, vol. 1, pp. 264-277, 1999.. [5]. R.-L. Hsu, M. Abdel-Mottaleb, and A. K. Jain, "Face detection in color images," Pattern Analysis and Machine Intelligence, vol. 24, pp. 696-706, 2002.. [6]. C. Lin, "Face detection in complicated backgrounds and different illumination conditions by using YCbCr color space and neural network," Pattern Recognition Letters, vol. 28, pp. 2190-2200, 2007.. [7]. F. Marqués and V. Vilaplana, "A morphological approach for segmentation and tracking of human faces," Pattern Recognition, pp. 1064-1067, 2000.. [8]. K.-M. Lam and H. Yan, "Locating and extracting the eye in human face images," Pattern recognition, vol. 29, pp. 771-779, 1996.. [9]. M. Turk and A. Pentland, "Eigenfaces for recognition," Journal of cognitive neuroscience, vol. 3, pp. 71-86, 1991.. [10]. H. A. Rowley, S. Baluja, and T. Kanade, "Neural network-based face detection," Pattern Analysis and Machine Intelligence, vol. 20, pp. 23-38, 1998. 47.

(55) [11]. A. N. Rajagopalan, K. S. Kumar, J. Karlekar, R. Manivasakan, M. M. Patil, U. B. Desai, et al., "Finding faces in photographs," Computer Vision, pp. 640-645, 1998.. [12]. P. Viola and M. J. Jones, "Robust real-time face detection," International journal of computer vision, vol. 57, pp. 137-154, 2004.. [13]. 簡郁菱, "可應用於學生專注度之人眼開闔偵測研究," 國立臺灣師範大學， 2012.. [14]. Z.-H. Zhou and X. Geng, "Projection functions for eye detection," Pattern recognition, vol. 37, pp. 1049-1056, 2004.. [15]. R. Valenti and T. Gevers, "Accurate eye center location and tracking using isophote curvature," Computer Vision and Pattern Recognition, pp. 1-8, 2008.. [16]. J. Ren and X. Jiang, "Fast eye localization based on pixel differences," Image Processing, pp. 2733-2736, 2009.. [17]. Y. Wu, H. Liu, and H. Zha, "A new method of detecting human eyelids based on deformable templates," Systems, Man and Cybernetics, pp. 604-609, 2004.. [18]. I. Fasel, B. Fortenberry, and J. Movellan, "A generative framework for real time object detection and classification," Computer Vision and Image Understanding, vol. 98, pp. 182-210, 2005.. [19]. H. Tan and Y.-J. Zhang, "Detecting eye blink states by tracking iris and eyelids," Pattern Recognition Letters, vol. 27, pp. 667-675, 2006.. [20]. M. Dehnavi, N. Attarzadeh, and M. Eshghi, "Real time eye state recognition," Electrical Engineering, pp. 1-4, 2011.. [21]. 林國暐 and 陳良驊, "智慧型人眼狀態偵測系統," 龍華科技大學，2010.. [22]. C. Xu, Y. Zheng, and Z. Wang, "Efficient eye states detection in real-time for drowsy driving monitoring system," Information and Automation, pp. 170-174, 2008.. 48.

(56) [23]. T. Ojala, M. Pietikainen, and T. Maenpaa, "Multiresolution gray-scale and rotation invariant texture classification with local binary patterns," Pattern Analysis and Machine Intelligence, vol. 24, pp. 971-987, 2002.. [24]. N. Otsu, "A threshold selection method from gray-level histograms," Automatica, vol. 11, pp. 23-27, 1975.. [25]. Z. Tian and H. Qin, "Real-time driver's eye state detection," Vehicular Electronics and Safety, pp. 285-289, 2005.. [26]. T. Hong, H. Qin, and Q. Sun, "An improved real time eye state identification system in driver drowsiness detection," Control and Automation, pp. 1449-1453, 2007.. [27]. Y.-K. Chen, T.-Y. Cheng, and S.-T. Chiu, "Motion Detection with Entropy in Dynamic Background," Control, Automation and Robotics, pp. 263-266, 2009.. [28]. T. Joachims, "Making large scale SVM learning practical," 1999.. [29]. C. J. Burges, "A tutorial on support vector machines for pattern recognition," Data mining and knowledge discovery, vol. 2, pp. 121-167, 1998.. [30]. C.-C. Chang and C.-J. Lin, "LIBSVM: a library for support vector machines," Intelligent Systems and Technology, vol. 2, p. 27, 2011.. 49.

(57)