• 沒有找到結果。

實驗結果

在文檔中 中 華 大 學 (頁 34-42)

第五章 實驗與分析

5.2 實驗結果

在本論文中,實作了區塊式(Block-Based)表情辨識方法[33],和利用 Boosting 演算法為基礎的表情辨識方法。區塊式表情辨識方法是將人臉影像,切成固定大小 的區塊,並對每個區塊進行特徵抽取後,經特徵串接來形成人臉特徵向量,最後再 利用分類器進行表情辨識。圖 5-1 為一張人臉影像切割成 57 個區塊示意圖。

圖 5-1、區塊式人臉特徵抽取方法示意圖

由於目前區塊式的表情辨識方法中,大部分做法都以人為的方式,來決定影像 切割的區塊數,因此實驗結果容易受到切割的區塊數目所影響。為了消除人為參數 所造成實驗的誤差(Experimenter Bias),及避免對訓練資料過度訓練(Over-Fitting)而 造成通用性降低,因此在本論文的實驗中,將訓練資料集切割出一個驗證資料集,

當訓練資料進行訓練完成後,會對驗證資料集進行效能評估,並找出一組最好的參

28

數,最後再對測詴資料集進行效能驗證。區塊式的表情辨識方法中,本論文分別進 行了 LBP8,1、LBP8,2、LDP 和 WLDP 四種特徵抽取方法的實驗,表 5-1 為區塊式表 情辨識使用上述四種特徵的辨識效能。

表 5-1、區塊式表情辨識方法的辨識效能 Method Recognition Rate

LBP8,1 85.91%

LBP8,2 84.70%

LDP 86.74%

WLDP 87.72%

由表 5-1 可以得知在區塊式的表情辨識方法中,原始 LDP 方法可以達到 86.74%

的辨識率,而本論文所提出的 WLDP 方法,可以將辨識率更進一步的往上提升到 87.72%,因此 WLDP 對表情辨識具有一定的辨識效果。

為了克服因區塊式表情辨識在影像上切割出固定大小區塊,而使一些如人臉邊 緣等與表情辨識較無相關的區域,也都進行特徵擷取此一缺點,本論文進一步地採 用 Booting 的區塊選擇方法,選取出對表情辨識具有鑑別度的區塊,再根據所選取 出來的區塊,進行表情辨識,表 5-2 為這四種方法的辨識結果。

29

表 5-2、Boosting 區塊選擇的辨識效能 Method Recognition Rate Boosted-LBP8,1 88.77%

Boosted-LBP8,2 87.72%

Boosted-LDP 87.34%

Boosted-WLDP 88.31%

由表 5-2,可以觀察到 Boosted-LBP8,1的效果最好,其效能比區塊式的方法上升 了近 3 個百分比,而且 Boosted-WLDP 也比原始的 Boosted-LDP 表現的出色。表 5-3 和 表 5-4 分別列出 其 Boosted-LBP8,1 和 Boosted-WLDP 的混 淆 矩陣(Confusion Matrix)。

表 5-3、Boosted-LBP8,1 的混淆矩陣,空格的部份為 0%

Output Input

AN DI FE HA NE SA SU

AN 67.6% 1.0% 25.7% 5.7%

DI 1.7% 85.0% 2.5% 10.8%

FE 1.6% 76.0% 8.5% 10.1% 3.9%

HA 0.4% 2.6% 93.7% 3.3%

NE 0.3% 0.3% 0.3% 97.9% 0.6% 0.6%

SA 0.7% 0.7% 2.0% 19.0% 75.8% 2.0%

SU 0.5% 1.8% 97.7%

30

表 5-4、Boosted-WLDP 的混淆矩陣 Output

Input

AN DI FE HA NE SA SU

AN 64.8% 3.8% 1.9% 22.9 % 6.7%

DI 92.5% 2.5% 0.8% 3.3% 0.8%

FE 2.3% 1.6% 78.3% 6.2% 8.5% 3.1%

HA 1.1% 94.1% 4.8%

NE 2.7% 0.3% 0.6% 95.2% 0.6% 0.6%

SA 6.5% 2.0% 20.9% 70.6%

SU 0.5% 1.8% 98.2%

在表 5-3 與表 5-4 中,第一行為生氣(AN)、厭惡(DI)、恐懼(FE)、高興(HA)、無 表情(NE)、悲傷(SA)和驚訝(SU)的輸入影像表情類別,而第一列則為辨識所輸出的 表情類別。從這兩個混淆矩陣來看,厭惡、恐懼、高興和驚訝這幾種表情,由於在 影像上,具有較明顯的紋理變化,雖然 LBP 能夠有效的擷取出特徵,但 WLDP 由 於強化了邊緣紋理的特徵擷取,使其能有效的對抗雜訊影響,因此在 WLDP 的方法 中,可以得到較好的效能;而生氣、無表情和悲傷表情則由於表情過於接近,造成 紋理變化較不明顯,LBP 雖然對抗雜訊的能力較弱,但相較於 WLDP 方法,LBP 的編碼方法,更能有效的表現出如端點(Line End)或是角點(Corner)等資訊,因此 對這三類較難辨識之表情, LBP 效能表現較 WLDP 優異。

為了能夠截長補短,取其兩種方法的優點,本論文也提出使用混合特徵來進行 表情辨識,在本論文中,我們選用兩種經過特徵降維後,仍然可以得到最好的效果 的特徵抽取方法,藉由串接兩種不同的表情特徵向量,來形成混合特徵。表 5-5 為 Boosted-LBP8,1和 Boosted-WLDP 所抽取出的特徵,各自經過 PCA 降維後的辨識效

31

能和本論文所提出混合特徵的辨識效能。

表 5-5、降維後的效能和本論文所提出混合特徵效能 Method Recognition Rate Boosted-LBP8,1 with PCA 88.47%

Boosted-LBP8,2 with PCA 84.93%

Boosted-LDP with PCA 87.04%

Boosted-WLDP with PCA 88.24%

Proposed method 91.11%

表 5-5 是特徵降維後,各方法所展現的效能,雖然經過 PCA 特徵降維後,特徵 維度大幅降低,也造成辨識率些微降低,但辨識率仍在可以接受的範圍(請參考表 5-4 和表 5-5)。經過特徵降維後的 Boosted-LBP8,1和 Boosted-WLDP 將其特徵串接所 形成的混合特徵,可以讓原本是 88.24% 和 88.47% 的各自辨識率上升到 91.11%,

效能約上升 2.87% 和 2.64%。下表 5-6 也列出混合特徵的混淆矩陣以進行比較。

32

表 5-6、混合特徵的混淆矩陣 Output

Input

AN DI FE HA NE SA SU

AN 72.4% 1.0% 21.0% 5.7%

DI 94.2% 0.8% 1.7% 3.3%

FE 1.6% 80.6% 8.5% 4.7% 4.7%

HA 0.4% 1.9% 94.8% 3.0%

NE 0.9% 0.3% 0.3% 97.3% 0.3%

SA 2.6% 2.0% 17.0% 78.4%

SU 0.5% 99.5%

由表 5-6 可以看出,本論文所提的混合特徵,可以有效的結合 LBP 和 WLDP 方法的優點,使原本較難分辨的生氣表情、無表情和悲傷表情,能有效的進行分類,

也使得整體的辨識效果有明顯的大幅度提升。將表 5-3、表 5-4 和表 5-6 的表格整理 成圖 5-2。在圖 5-2 中,混合特徵對各種不同表情的分類皆有明顯的改進,雖然在無 表情上,效能略輸 Boosted-LBP 方法一點,但以整體的辨識率而言,混合特徵有其 整體效能上顯著的改進。

33

圖 5-2、各方法對 7 類表情的效能比較圖

在此,本論文也對相關的方法[33]來進行比較,該論文中,主要是統整其先前 LBP 方法相關的研究,該篇主要的方法是使用 LBP 來進行特徵擷取,並辨識 7 種表 情。下表列出該篇與本論文相似方法的辨識率。

表 5-7、在[33]中,與本論文相似作法效能 Method Recognition Rate Block-Based LBP 88.9%

Boosted-LBP8,2 91.4%

其中,Block-Based LBP 雖然都是區塊式的表情辨識,但由於實驗環境設置不同,因 此沒辦法直接拿來做比較,但仍然可以供此處參考。在[33]中,該方法是採用固定 的區塊數,一開始對影像正規化完之後,接著將影像固定切割成寬和高為 76 區塊 個數的影像區域,接著採用 LBP 去擷取特徵,最後使用 SVM 來進行辨識。

60.00%

65.00%

70.00%

75.00%

80.00%

85.00%

90.00%

95.00%

100.00%

AN DI FE HA NE SA SU

辨識率

Boosted-LBP Boosted-WLDP Fusion Feature

34

圖 5-3、左邊為[33]中,所使用的固定區塊數

[33]中與本論文最大不同的地方有兩點:

第一點是實驗架構中,我們切割出驗證資料集來進行訓練樣本的參數調校, 最 後才對測詴集資料進行效能評估,此架構能夠真實的反應出演算法的效能,並且可 以模擬真實的應用情形。[33]效能經過 Boosting 演算法選則區塊以後,大約上升了 2.5%,這和本論文區塊經過 Boosting 演算法選則所得到的上升幅度差不多。

第二點是資料庫樣本數量的不同,目前各種表情辨識論文之間,其實無法有效 的直接進行比較,其中的一個主要原因是因為表情辨識是一種很主觀的認定,在這 個情形下,每個人所認為的表情將會有所差異,因此在資料庫影像的選取上,在我 們的資料庫共有 1327 張影像(包含 105 張生氣、120 張厭惡、129 張恐懼、270 張高 興、331 張無表情、153 張悲傷和 219 張驚訝影像),而在[33]中,則共有 1280 張影 像(108 張生氣、120 張厭惡、99 張恐懼、282 張高興、320 張無表情、126 張悲傷和 225 張驚訝影像),在表情辨識中,最常混淆的三類表情分別是生氣、無表情和悲傷。

由於生氣、無表情和悲傷影像,在人臉表情表現上,過於接近,因此截至目前,表 情辨識中這三類的效能將會影響整體的辨識率,而其餘類別,則因為在認知上,可 以較明確的進行區分,因此正常來講,除了生氣、自然和悲傷以外,其餘的類別辨 識率通常都可以達到蠻高的辨識效能。而在[33]中,可以明顯的看到,對於難辨識

35

的三類表情,本論文實驗所使用的張數明顯的較多,而在其餘較易辨識的類別上,

本論文實驗使用的張數也明顯的少於[33]中所使用的影像,這可能是本論文所提出 的方法,實驗效能會比[33]所提出的效能還要低的主要原因。

基於上面所提的兩點,在此沒辦法以數據直接進行方法好壞的比較,但所列出 的辨識數據仍可當作參考,以瞭解目前相關技術的研發水準。

在文檔中 中 華 大 學 (頁 34-42)

相關文件