系統方法

說明本論文所使用方法架構，解釋研究過程中所採用的方法與原理。

第四章實驗結果和討論

提出實驗的數據，實驗結果及探討。

第五章結論與未來研究方向

討論本論文的成果及不可預期的缺失，並提出未來研究改善方向。

第二章相關文獻討論

近年來，對於臉部特徵的數位化處理和自動讀唇系統，在國外的研究有日漸增加的趨勢，尤其在英國的Surrey大學，視覺語言訊號處理中心於 2007年開始執行為期三年的研究計畫探討對語言無關的讀唇(Language Independent Lip Reading)[8]，用以建立精確和可靠的臉部和唇形追蹤系統，運用於犯罪影片中，可得知唇語所提供的語音資料，以進行犯罪事件的查証。另外Intel公司也在2003年宣布完成一套聽覺視覺語言辨識系統教導電腦以讀唇的方式，改善語言辨識的精確度。從視訊資料中執行人臉偵測 (Face Detection)、嘴唇追蹤(Lip Tracking)，特徵擷取(Feature Extraction) 與分類(Classification)，這一連串的執行下來方才能完成該系統工作。目前在國內的研究中，對於自動讀唇系統並無顯著的發展，但相關領域如人臉偵測[9、10]、臉部追蹤[11]和表情辨識[12、13]皆有顯著的發展。

2-1 人臉偵測

在人臉偵測這一塊區域，

顧

名思義是要找出圖像中的人臉位置，近幾年中關於此的研究已得到了很好的發展。在較早期的研究中，對於圖像的要求都是比較簡單的一些圖像，比方說正面的、有設限的、…等等。人臉偵測的目的為找出圖像中的人臉，並且傳回該圖像中人臉的位置。人臉偵

測所面臨的挑戰在文獻[14]中，歸因以下六項:

一、姿勢:

人臉與取像器材的相對位置的關系，例如：與器材成正面、與器材成四十五度角、…、等等。

二、結構:

人臉上的特徵如鬍鬚、眼鏡、…、等等，有可能存在也有可能不存在，

再者一些配件(如:眼鏡)的大小、顏色、…、等等。都有可能會影響到人臉的偵測。

三、表情:

一般來說

人臉上的表情直接的影響了臉部的外觀，例如憤怒、微笑、…、等等。

四、遮蔽:

圖像在偵測人臉時，可能會遇到人臉物件被其他物件遮蔽的情況，例如在一群人當中，某些人的臉被這群人的某些物件遮擋。

五、方向:

取像器材與人臉之間的方向不同，導致成像時的圖像中的人臉方向不一。

六、其他條件:

當影像形成時，其照明因素(光線分佈、光源強度、…、等等)，以及

取像器材的因素(感測器、鏡頭，…、等等)，而影響影像的人臉的呈現。

臉部影像的偵測基本上分為四大類，如表 2-1：

一、以知識為基本的方法

主要是探討典型人臉的構成法則。這些法則通常在表達臉部特徵(如眼、鼻、眉毛、…、等等)的關係(幾何位置)。此方法主要在定位影像中人臉的位置。

二、特徵不變法

該演算法經由姿勢、視點或光線條件的變化所找到的結構特徵，來定位人臉區域。此方法主要用於定位影像中人臉的位置。

三、模板比對法

使用多個儲存好的標準的人臉樣本模板，來描述人臉。這些樣本可以是整個人臉或人臉上的各個五官。偵測時是比對輸入圖像與樣本圖像的相關性。此方法可以使用在臉部定位與偵測。

四、統計模型的方法

該方法使用大量的人臉與非人臉的圖像進行訓練、建立分類器，經由判別圖像為哪類的方法進行人臉偵測。

表 2-1 人臉偵測法及其相關文件

方法

做法及相關文件

以知識為基本的方法 Multi-resolution rule-based method[14]

特徵不變法

a-紋理 Space Gray-Level Dependence matrix of face pattern[15]

b-膚色 Mixture of Gaussian[16]

c-臉部特徵 Grouping of edges[17]

d-多特徵 Integration of skin color, size and shape[18]

模板比對法

a-臉部模板 Shape template[19]

b-可變模板 Active Shape Model[20]

統計模型的方法

a-特徵臉 Eigenvector decomposition and clustering[21]

b-以分佈為基本 Gaussian distribution and multilayer perceptron[22]

分類器類神經網路 Ensemble of neural networks and arbitration schemes[23]

支援向量機 SVM with polynomial kernel[24]

貝氏分類器 Joint statistics of local appearance and position[25]

以上各種方法在應用上由於限於速度的關係，因而無法使用於即時上的偵測，一直到Viola使用Adaboost和Cascade方法[28]的結合時，才

慢慢的使得人臉偵測走向了實用的目的。本研究中所採用的人臉偵測演算法是採用Viola所提出來的方法。

2-2 膚色偵測

數位影像中找出物件的方法中，利用物件特性找出該物件，最常見的即為利用顏色。在數位影像處理對色彩的表示，可以依照不同的參考值，

而產生出各種不同的色彩空間。在人臉偵測中運用膚色模型當特徵的話，

一般來說會遇到以下二種問題:第一該選擇何種色彩空間?第二膚色數值的範圍到哪?一般影像皆採取 RGB 色彩空間，RGB 色彩空間是由紅綠藍三原色所組成的，它是一種在數位影像中使用的最為廣泛的色彩空間，由於 RGB 色彩空間對於光線比較敏感，常常受到光源強弱的影響，進而影響色彩的呈現，對於膚色偵測時，常產生偵測錯誤的情形，所以在選擇色彩空間時，都會考慮到亮度對膚色的影響。因此就有許多論文選擇對於亮度比較不敏感的色彩空間來做為研究，例如 YUV、YCbCr、HSV 等色彩空間。

膚色會因為光線的強度而有所變化，因此如何找出膚色的區域就得先定義膚色的範圍。Vladimir [29]研究指出，主要的差異在於亮度而非色度，

因而選擇亮度分離的色彩空間是最為合適的。

膚色偵測主要是藉由膚色模型找出膚色的範圍，由此判斷是否為膚色，方法則是使用一合適的門檻值，該值能過濾出屬於膚色的區域與非膚

色的區域。

說，其優點為容易理解、好上手、運算速度快。其缺點目前來說，依定義法的結果來看似乎無法很明確的定義出膚色的範圍，使得能夠找出純綷的膚色。

2-2-2 非參數化膚色模型

這種方法最主要是從大量的訓練樣本中估測膚色分佈範圍的機率值，

而不須要明確的膚色定義。這種方法有時被稱為膚色的概率圖[31,32]

(Skin Probability Map : SPM).

圖 2-2 Brand and Mason 的膚色概率圖

膚色概率分佈可以下式表示：

Norm c skin skin

c

P ( ) 

^[ ^]

其中 skin[c]為顏色 c 出現的次數，Norm 為取樣的樣本數。由此得到了膚色概率分佈值，經由這些數值可以畫出膚色概率圖。

非參數化模型常用的方法有正規化查表(Normalized Lookup Table :

NLUT)、貝氏分類器(Bayes classifier)、自組織映射圖(Self Organizing Map : SOM)。

非參數化模型法的優點有:1.能快速的訓練與使用。2 獨立於理論上的膚色分佈模型。而其缺點是須要大量的存儲空間與無法插入或擴大訓練資料。例如:我們有個八位元的 RGB 圖像，我們須利用個單位的空間去存放一個像素點的機率資料。

2 2-2-3 參數化膚色分佈模型

由於非參數化模型的膚色分佈模型通常都須要極大的存儲空間，而且其效能也受到訓練樣本的影響。因此就有了想擴大與插入訓練樣本的想法。這樣一來膚色的模型將更為實用，參數化膚色分佈模型也因此

而

發展出來。

參數化膚色模型與非參數化模型不同點在於，參數化模型訓練時使用大量的膚色樣本來建立膚色模型。而一般常用的有單高斯(Single-Gaussian Model, SGM)[33]、混合高斯(Gaussian Mixture Model, GMM)[34]、多高斯 (Multiple Gaussian clusters, MGC)[35]、橢圓邊界模型(Elliptic boundary model)[36]。

圖 2-3 Lee and Yoo 所找到的橢圓邊界模型(a)為使用 rgb 色彩空間(b)為使用 CIE-uv色彩空間。

由於

參數化膚色模型與非參數化模型成對比，故而其優點為其儲存空間較小、可以由較少的參數來建立模型。其缺點為由於參數化模型在訓練時排除了非膚色的參數，故在誤判率上會較非參數模型高。且由於訓練參數都是排除了膚色的參數，所以在建立較為精確的模型上所花的工夫會比較多，其使用到的參數必須再經過其他演算法(ex: EM)來估算，使得其花費的時間成本會比較高。

2-2-4 動態膚色分佈模型

動態膚色分佈模型通常使用於序列影像上，ex: 影片或 webcam…。對於人臉追蹤的膚色偵測法應不同於靜態影像，因為在 webcam 中通常會有機器白平衡的影嚮 or 環境光線的影嚮，而使得膚色呈現出不同的顏色，

因此模型為了能適應在不同的條件下，所以須要能夠自已更新。而且由於是要應用於動態影像中，所以模型必須要能快速的訓練並分類。

為了能夠達到快速訓練分類並且自動更新的這個條件，模型必須使用

較為簡單且儲存量較少的建模方法。此時 LUT 的方法因為其簡單性，且速度又快所以最為令人接受。

2-3 唇形分類

本論文主要探討唇形分類，因此我們根據外觀將唇形分為以下七類，

將嘴唇的形狀做分門別類的動作就做稱為唇形分類如圖 2-4:

c.微開

d.開口不露齒

e.半開露下齒 f.開口露下齒

g.嘟嘴

b.緊閉 a.正常

圖 2-4 唇形類別

針對於口型分類的部份，依目前的文獻報告中可以整理出：唇形的研究包括基本唇形、唇形的基本特徵、唇形特徵的擷取，描述與表示方法，

以及唇形類別與理解。

唇形分類之前須要進行嘴唇的位置偵測與外形特徵的擷取。嘴唇位置偵測最主要是要確定嘴唇大略位置，一般常用的方法是經由膚色與唇色的差異。至於外型特徵的提取，目前常用的方法是參數模型、拋物線逼近、

關鍵點模型。

在特徵擷取這部份，基本上可分為兩大類:

一、基於像素的方法

直接使用嘴唇的灰階圖像或使用一些處理過後得到的特徵向量的方法。這種方法的好處是所有的數據都有作用，缺點是其分類器的學習過程中，對於一些經過平移、旋轉、縮放、或者說話者的改變都有很大的影響，

另一缺點是特徵向量是高維度的, 而且有些特徵向量是多餘的。

二、基於模型的方法

對嘴唇發音時的形狀，依輪廓建立模型，而唇形的描述則利用一些參數集合來表示，這種方法的好處在於重要的特徵被表示為較少的參數，而且不因平移、旋轉、縮放的改變而對結果有所影響。缺點為一些較為獨特的模型，可能沒包括到所有相關的訊息。

表 2-2 嘴唇特徵擷取方法及其相關論文

方法優缺點

基於像素的方法

直接像素法[37][38][39] 此方法前處理過程簡單，但後期運算量大，對於光照問題的處理並不健全。

矢量量化[40][41] 對於唇部的寬與高的差值極

在文檔中 I-Shou University Institutional Repository:Item 987654321/11830 (頁 16-44)

第二章 相關文獻討論