• 沒有找到結果。

說明本論文所使用方法架構,解釋研究過程中所採用的方法與原 理。

第四章 實驗結果和討論

提出實驗的數據,實驗結果及探討。

第五章 結論與未來研究方向

討論本論文的成果及不可預期的缺失,並提出未來研究改善方 向。

第二章 相關文獻討論

近年來,對於臉部特徵的數位化處理和自動讀唇系統,在國外的研究 有日漸增加的趨勢,尤其在英國的Surrey大學,視覺語言訊號處理中心於 2007年開始執行為期三年的研究計畫探討對語言無關的讀唇(Language Independent Lip Reading)[8],用以建立精確和可靠的臉部和唇形追蹤系 統,運用於犯罪影片中,可得知唇語所提供的語音資料,以進行犯罪事件 的查証。另外Intel公司也在2003年宣布完成一套聽覺視覺語言辨識系統教導 電腦以讀唇的方式,改善語言辨識的精確度。從視訊資料中執行人臉偵測 (Face Detection)、嘴唇追蹤(Lip Tracking),特徵擷取(Feature Extraction) 與分類(Classification),這一連串的執行下來方才能完成該系統工作。目前 在國內的研究中,對於自動讀唇系統並無顯著的發展,但相關領域如人臉 偵測[9、10]、臉部追蹤[11]和表情辨識[12、13]皆有顯著的發展。

2-1 人臉偵測

在人臉偵測這一塊區域,

名思義是要找出圖像中的人臉位置,近幾 年中關於此的研究已得到了很好的發展。在較早期的研究中,對於圖像的 要求都是比較簡單的一些圖像,比方說正面的、有設限的、…等等。人臉 偵測的目的為找出圖像中的人臉,並且傳回該圖像中人臉的位置。人臉偵

測所面臨的挑戰在文獻[14]中,歸因以下六項:

一、 姿勢:

人臉與取像器材的相對位置的關系,例如:與器材成正面、與器材成 四十五度角、…、等等。

二、 結構:

人臉上的特徵如鬍鬚、眼鏡、…、等等,有可能存在也有可能不存在,

再者一些配件(如:眼鏡)的大小、顏色、…、等等。都有可能會影響到 人臉的偵測。

三、 表情:

一般來說

人臉上的表情直接的影響了臉部的外觀,例如憤怒、微 笑、…、等等。

四、 遮蔽:

圖像在偵測人臉時,可能會遇到人臉物件被其他物件遮蔽的情況,例 如在一群人當中,某些人的臉被這群人的某些物件遮擋。

五、 方向:

取像器材與人臉之間的方向不同,導致成像時的圖像中的人臉方向不 一。

六、 其他條件:

當影像形成時,其照明因素(光線分佈、光源強度、…、等等),以及

取像器材的因素(感測器、鏡頭,…、等等),而影響影像的人臉的呈 現。

臉部影像的偵測基本上分為四大類,如表 2-1:

一、 以知識為基本的方法

主要是探討典型人臉的構成法則。這些法則通常在表達臉部特徵(如 眼、鼻、眉毛、…、等等)的關係(幾何位置)。此方法主要在定位影像 中人臉的位置。

二、 特徵不變法

該演算法經由姿勢、視點或光線條件的變化所找到的結構特徵,來定 位人臉區域。此方法主要用於定位影像中人臉的位置。

三、 模板比對法

使用多個儲存好的標準的人臉樣本模板,來描述人臉。這些樣本可以 是整個人臉或人臉上的各個五官。偵測時是比對輸入圖像與樣本圖像 的相關性。此方法可以使用在臉部定位與偵測。

四、 統計模型的方法

該方法使用大量的人臉與非人臉的圖像進行訓練、建立分類器,經由 判別圖像為哪類的方法進行人臉偵測。

表 2-1 人臉偵測法及其相關文件

方法

做法及相關文件

以知識為基本的方法 Multi-resolution rule-based method[14]

特徵不變法

a-紋理 Space Gray-Level Dependence matrix of face pattern[15]

b-膚色 Mixture of Gaussian[16]

c-臉部特徵 Grouping of edges[17]

d-多特徵 Integration of skin color, size and shape[18]

模板比對法

a-臉部模板 Shape template[19]

b-可變模板 Active Shape Model[20]

統計模型的方法

a-特徵臉 Eigenvector decomposition and clustering[21]

b-以分佈為基本 Gaussian distribution and multilayer perceptron[22]

分類器 類神經網路 Ensemble of neural networks and arbitration schemes[23]

支援向量機 SVM with polynomial kernel[24]

貝氏分類器 Joint statistics of local appearance and position[25]

以上各種方法在應用上由於限於速度的關係,因而無法使用於即 時上的偵測,一直到Viola使用Adaboost和Cascade方法[28]的結合時,才

慢慢的使得人臉偵測走向了實用的目的。本研究中所採用的人臉偵測演算 法是採用Viola所提出來的方法。

2-2 膚色偵測

數位影像中找出物件的方法中,利用物件特性找出該物件,最常見的 即為利用顏色。在數位影像處理對色彩的表示,可以依照不同的參考值,

而產生出各種不同的色彩空間。在人臉偵測中運用膚色模型當特徵的話,

一般來說會遇到以下二種問題:第一該選擇何種色彩空間?第二膚色數值 的範圍到哪?一般影像皆採取 RGB 色彩空間,RGB 色彩空間是由紅綠藍三 原色所組成的,它是一種在數位影像中使用的最為廣泛的色彩空間,由於 RGB 色彩空間對於光線比較敏感,常常受到光源強弱的影響,進而影響色 彩的呈現,對於膚色偵測時,常產生偵測錯誤的情形,所以在選擇色彩空 間時,都會考慮到亮度對膚色的影響。因此就有許多論文選擇對於亮度比 較不敏感的色彩空間來做為研究,例如 YUV、YCbCr、HSV 等色彩空間。

膚色會因為光線的強度而有所變化,因此如何找出膚色的區域就得先 定義膚色的範圍。Vladimir [29]研究指出,主要的差異在於亮度而非色度,

因而選擇亮度分離的色彩空間是最為合適的。

膚色偵測主要是藉由膚色模型找出膚色的範圍,由此判斷是否為膚 色,方法則是使用一合適的門檻值,該值能過濾出屬於膚色的區域與非膚

色的區域。

說,其優點為容易理解、好上手、運算速度快。其缺點目前來說,依定義 法的結果來看似乎無法很明確的定義出膚色的範圍,使得能夠找出純綷的 膚色。

2-2-2 非參數化膚色模型

這種方法最主要是從大量的訓練樣本中估測膚色分佈範圍的機率值,

而不須要明確的膚色定義。這種方法有時被稱為膚色的概率圖[31,32]

(Skin Probability Map : SPM).

圖 2-2 Brand and Mason 的膚色概率圖

膚色概率分佈可以下式表示:

Norm c skin skin

c

P ( ) 

[ ]

其中 skin[c]為顏色 c 出現的次數,Norm 為取樣的樣本數。由此得到 了膚色概率分佈值,經由這些數值可以畫出膚色概率圖。

非參數化模型常用的方法有正規化查表(Normalized Lookup Table :

NLUT)、貝氏分類器(Bayes classifier)、自組織映射圖(Self Organizing Map : SOM)。

非參數化模型法的優點有:1.能快速的訓練與使用。2 獨立於理論上的 膚色分佈模型。而其缺點是須要大量的存儲空間與無法插入或擴大訓練資 料。例如:我們有個八位元的 RGB 圖像,我們須利用 個單位的空間去存 放一個像素點的機率資料。

2

24

2-2-3 參數化膚色分佈模型

由於非參數化模型的膚色分佈模型通常都須要極大的存儲空間,而且 其效能也受到訓練樣本的影響。因此就有了想擴大與插入訓練樣本的想 法。這樣一來膚色的模型將更為實用,參數化膚色分佈模型也因此

發展 出來。

參數化膚色模型與非參數化模型不同點在於,參數化模型訓練時使用 大量的膚色樣本來建立膚色模型。而一般常用的有單高斯(Single-Gaussian Model, SGM)[33]、混合高斯(Gaussian Mixture Model, GMM)[34]、多高斯 (Multiple Gaussian clusters, MGC)[35]、橢圓邊界模型(Elliptic boundary model)[36]。

圖 2-3 Lee and Yoo 所找到的橢圓邊界模型(a)為使用 rgb 色彩 空間(b)為使用 CIE-u*v*色彩空間。

由於

參數化膚色模型與非參數化模型成對比,故而其優點為其儲存空 間較小、可以由較少的參數來建立模型。其缺點為由於參數化模型在訓練 時排除了非膚色的參數,故在誤判率上會較非參數模型高。且由於訓練參 數都是排除了膚色的參數,所以在建立較為精確的模型上所花的工夫會比 較多,其使用到的參數必須再經過其他演算法(ex: EM)來估算,使得其花 費的時間成本會比較高。

2-2-4 動態膚色分佈模型

動態膚色分佈模型通常使用於序列影像上,ex: 影片或 webcam…。對 於人臉追蹤的膚色偵測法應不同於靜態影像,因為在 webcam 中通常會有 機器白平衡的影嚮 or 環境光線的影嚮,而使得膚色呈現出不同的顏色,

因此模型為了能適應在不同的條件下,所以須要能夠自已更新。而且由於 是要應用於動態影像中,所以模型必須要能快速的訓練並分類。

為了能夠達到快速訓練分類並且自動更新的這個條件,模型必須使用

較為簡單且儲存量較少的建模方法。此時 LUT 的方法因為其簡單性,且 速度又快所以最為令人接受。

2-3 唇形分類

本論文主要探討唇形分類,因此我們根據外觀將唇形分為以下七類,

將嘴唇的形狀做分門別類的動作就做稱為唇形分類如圖 2-4:

c.微開

d.開口不露齒

e.半開露下齒 f.開口露下齒

g.嘟嘴

b.緊閉 a.正常

圖 2-4 唇形類別

針對於口型分類的部份,依目前的文獻報告中可以整理出:唇形的研 究包括基本唇形、唇形的基本特徵、唇形特徵的擷取,描述與表示方法,

以及唇形類別與理解。

唇形分類之前須要進行嘴唇的位置偵測與外形特徵的擷取。嘴唇位置 偵測最主要是要確定嘴唇大略位置,一般常用的方法是經由膚色與唇色的 差異。至於外型特徵的提取,目前常用的方法是參數模型、拋物線逼近、

關鍵點模型。

在特徵擷取這部份,基本上可分為兩大類:

一、基於像素的方法

直接使用嘴唇的灰階圖像或使用一些處理過後得到的特徵向量的方 法。這種方法的好處是所有的數據都有作用,缺點是其分類器的學習過程 中,對於一些經過平移、旋轉、縮放、或者說話者的改變都有很大的影響,

另一缺點是特徵向量是高維度的, 而且有些特徵向量是多餘的。

二、基於模型的方法

對嘴唇發音時的形狀,依輪廓建立模型,而唇形的描述則利用一些參 數集合來表示,這種方法的好處在於重要的特徵被表示為較少的參數,而 且不因平移、旋轉、縮放的改變而對結果有所影響。缺點為一些較為獨特 的模型,可能沒包括到所有相關的訊息。

表 2-2 嘴唇特徵擷取方法及其相關論文

方法 優缺點

基於像素的方法

直接像素法[37][38][39] 此方法前處理過程簡單,但後期運 算量大,對於光照問題的處理並不 健全。

矢量量化[40][41] 對於唇部的寬與高的差值極

矢量量化[40][41] 對於唇部的寬與高的差值極

相關文件