緒論 - I-Shou University Institutional Repository:Item 987654321/11345

1-1 研究動機

在科技越來越發達的時代，電腦系統處理速度也不斷的提昇之下，不論是在休閒娛樂、車用電子和研究實驗上，電腦與日常生活已經是密不可分。雖然電腦可以有效完成複雜性高的和危險性高的工作，但是電腦卻沒有獨自思考與自我判斷的能力，只能依靠程式設計師的命令去完成工作，

如何使電腦富有人性化以及自我思考能力，是目前科學家努力積極研究的項目之ㄧ，希望能在未來不久的日子，能像電影情節裡一樣，機器人具有自我思考的能力，甚至能夠進步到，了解人類的情感。

人類是透過五官以及身體某些部位的感知功能去搜集外界的資訊，再經由大腦解析之後，進一步的去判斷與分析，來了解環境中的變化，進而判斷下一部動作，現今電腦是無法正確的模擬人類的想法與思維，對於電腦取得影像的方式，得透過一些感測元件，去搜集外界的資訊，資訊的來源可以是多方面，可以從音源、溫度、影像等等，這些資料來源都有各自的專業處理的領域。在電腦視覺（Computer Vision）領域中，取得外界資訊的工具就是攝影機和照相機等一些取像元件，透過這些元件取得色彩資訊來進行分析。其中以「人臉偵測」為熱門的題目，因為人類的情感都是臉部的變化，去表達出情感。然而五官的定位額外顯得重要，在眼睛、鼻子、

耳朵、嘴唇和眉毛裡，嘴唇的變化的資訊是最多。在非固定背景環境中，

如何正確定位出臉部資訊，對電腦來說是一件困難的事情。如何建構出一個穩定臉部特徵定位與擷取系統，做為日後臉部分析使用，透過人機介面的建立，讓操作起來更佳的容易，成為本論文研究的目的。

1-2 臉部特徵概述

電腦視覺一直以來都是人們努力積極研究的課題，人們希望透過攝影機所取得影像，傳送到電腦處理，將電腦端分析出的數據，去做其他相關的應用，例如身分認定、人臉辨識和保全監控等方面應用。這些影像的來源，可分成兩種形式，靜態影像（Static Image ）和連續影像（Sequence Images）。則在處理連續影像時，需考慮的硬體的處理速度，是否能夠及時的處理，對臉部特徵的追蹤系統是很大影響因素之ㄧ。做臉部特徵定位時，

首要的工作，就是如何在取得的影像中，正確又快速定位人臉的資訊，才可以針對臉部特徵的部分去做探討。在人臉偵測的部份，有以下幾種人臉偵測方法，主要成份分析 PCA（Principal Component Analysis）[1][2]、

膚色分析（Skin Color Analysis）[3]-[9]、模板比對（Template Matching）

[11]、矩形特徵（Rectangle Feature）[11]-[14]、類神經網路（Neural Network）[15]。

其中主要成份分析 PCA 是一種降低特徵維度的方法。一張圖片(例如:

人臉)的原始特徵維度就是這張圖片的長 X 寬，如果圖片是 1024x768 大小，就會有 786432 個特徵值，其特徵維度就是 786432。70 多萬的特徵維度是相當龐大的，會影響圖片辨識的效率，而且這 70 多萬的特徵值可能包含了大量的雜訊，會影響整個圖形辨識的準確率，對於辨識的效率(速度) 與準確率都有極大的影響。

在膚色分析上，一般容易被人們接受色彩空間，就是RGB色彩空間，是由三原色所組成，經由色彩的調配，可以產生出無數種不同的顏色。不同

原色光。再做膚色分析的不單只是RGB色彩空間而已，首先介紹HSV色彩空間，它是由色相（Hue），飽和度（Saturation），明度（Value）三個所組成的。HSV 是RGB色彩空間的一種變形，它的內容與色彩尺度與其出處RGB 色彩空間有密切聯繫。HSL(色相（Hue）, 飽和度（Saturation）, 亮度

（Lightness/Luminance）, 也稱HLS 或在 HIS色彩空間中 I指（Intensity）

與 HSV非常相似，僅用亮度（Lightness）替代了明度（Brightness）。二者區別在於，一種純色的明度等於白色的明度，而純色的亮度等於中度灰的亮度。令外一種色種空間為YCbCr，這種色彩空間最常使用數位電視，而之前提到的RGB色彩空間是最常使用在電腦螢幕顯示上。YCbCr色彩空間主要成份是Y亮度（Luminance）和Cb（Blueness）、Cr（Redness），在作膚色分析時，是不考慮Y分量的變化，只針對Cb和Cr為參考的依據。膚色可以去除掉影像中許多不雜訊，來增加電腦執行速度，但只要人種顏色差異太大的話，則會造成電腦的誤判，單一用膚色的分析是不夠，則需額外增加其他方法來輔助，進而達到更好的效果。

接下來介紹模板比對（template-matching）[11]是最簡單的一種想法。這種想法認為，外界所有的事物，祇要是我們曾經接觸過的，都會在腦子裡留下它們的「烙印」或「模板」，因此我們的腦子裡充滿這類模板。

當外界出現一個圖形呈現在我們眼前時，它的形狀與腦子裡儲存的模板一一的比對。應用再電腦上也是一樣，將所要偵測目標物，建立一個具有代表性的物件，把所有代表性物件歸類，之後在儲存在資料庫。將所擷取到的數位影像，利用之前所建立的資料庫，一一呼叫出來，再有影像有關地方進行比對的動作。由於影像不只是物件，影像中可能包含前景

（Foreground）和背景（Background）的資料，將背景的資料去除之後，

經由一些影像處理的技巧，盡可能影像中的資料簡單化，這樣子在作模版

近年來，在圖型識別(Pattern Recognition)相關研究的發展，使得在進行目標物偵測(Object Detection)的研究上，已經有許多成功的例子，

例如在人臉偵測的領域中， Viola 與 Jones[12] 提出利用矩形特徵 (Rectangular Feature)搭配自適性布斯特（Adaboost）演算法，在複雜的背景中快速且正確擷取出人臉資訊。

在介紹完之前所的人臉偵測，接下來是要說明取得人臉資訊後，如何透過幾何的關係，迅速的找到臉部特徵的位置，在進行臉部特徵的定位，

可以依照Faisal Shafait[16]所提出來人臉模型，去定義眼睛和嘴唇的位置，可提供嘴唇追蹤和眼睛追蹤使用。本論文旨在發展一套完整臉部特徵定位與擷取的系統，如何在連續的影片來源中，定位人臉的正確位置和擷取臉部出特徵資訊，主要的系統流程如圖 1-1所示。

輸入影像

前處理

膚色檢測

圖 1-1 系統流程圖 存在人臉?

切割人臉資訊

眼睛候選區域嘴唇候選區域

眼睛定位嘴唇偵測

人臉偵測

否

是

1-3 論文架構

本論文之各個章節如下，分為五部份來做詮釋：

第一章緒論

說明為何探討臉部特徵，研究動機。

在文檔中 I-Shou University Institutional Repository:Item 987654321/11345 (頁 10-15)