針對貓狗正臉特徵萃取的辨識結果

第三章實證分析

二、針對貓狗正臉特徵萃取的辨識結果

在上節中，我們發現影像資料中的雜訊量大，經過特徵萃取仍然無法有效提升預測正確率，所有方法的正確率皆不超過 75%。我們觀察到資料集中貓狗的影像是非常的雜亂，貓狗的姿勢不一，有正面、有側面或背面，甚至有些貓狗在影像中僅佔非常小部分不清楚。這些是造成影像資料中雜訊量大的原因，所以導致分類效果不佳的原因。

在這一節中，為了減少資料中的雜訊，我們將對圖片做人工挑選，從各 2500 張貓與狗影像中挑出各 200 張影像，共 400 張，見圖 3-2 與圖 3-3，我們挑選的準則為動物的臉部正面大範圍的呈現在整張影像上，也就是資料中將單純提供動物臉部附近的影像。我們將採取前一節介紹的四種方法在這 400 張貓狗影像上，

此時的研究目的為當給定動物臉部影像，研究這四種特徵萃取方法所建立的分類器能否有效辨識貓狗。

四個方法的分析結果分別列於表 3-5 至表 3-8。首先，從表 3-5 的結果看來，

當直接採用原始影像的 4096 個像素時，相較於未事前處理影像的結果(表 3-1，

平均正確率為 50.72%, 56.84%)，在人工挑選的圖像上其平均正確率提高為 65.5%，71.25%。不過由於樣本影像數的減少(從 5000 張圖像減少為 400 張)，標準差因此增加。當資料純粹提供臉部影像時，的確提供了較好的辨識依據。若我們進一步採用主成份分析選取據統計意義的重要變數，如方法二 PCA，則根據表 3-6 的結果，雖然跟表 3-5 比較起來，運算時間可大幅減低，不過預測正確率卻不甚理想，比採用完整資料差相當多。且從迭代次數多數達到上限看來，此時在建造分類器過程中的最佳化求解並未得到收斂結果。

HOG 法的結果整理在表 3-7。我們發現此時此法能夠充分提供貓狗辨識的資訊。在利用 Polynomial 核函數時，分類正確率高達 89.25%，且所需的訓練時間非常短。不過當 radial basis 與 sigmoid 核函數來說，如同前一節的分析結果，其分類器的表現皆不佳。圖 3-4 在採用 Polynomial 核函數下，十次交叉驗證裡被錯誤分類錯誤的影像。我們首先觀察狗的部分，綜觀圖 3-3 中貓的影像，大部分的貓有尖耳朵，而在圖 3-4 中被分類錯誤的狗大部分的耳朵呈現下垂，我們推測狗的垂耳部分較尖，容易被誤判成貓類。在貓的部分，由圖 3-3 中可發現狗的嘴型明顯比貓長且突出，觀察圖 3-4 中被分類錯誤的貓影像，大部份的貓嘴巴與脖子有較明顯的邊緣，故容易被誤判為狗的長嘴。

第四個方法 HOG+PCA 法是將前述偵測所得的梯度方向直方圖特徵，在經過主成份分析做變數篩選後的結果，見表 3-8。我們發現原本表現不佳的 Radial basis 與 sigmoid 核函數，在此處有了明顯的改進。除了 radial basis 核函數，解釋變異比例 80%與 90%的組合以外，其他的方法的分類器之平均正確率都提升至約 85%。另外，由於此處僅有 400 張影像，所以透過主成分分析可減少的分析時間並不明顯。但當資料量大時，則預期可節省相當的時間。在此法中，我們發現當主成份分析的解釋變異比例設為 70%時，其相對應的分類正確率普遍較高。

符合正面臉標準不符合正面臉標準

○ ×

符合正面臉標準不符合正面臉標準

○ ×

圖 3-2：符合正面臉的狗影像標準示意圖；符合正面臉的貓影像標準示意圖。

圖 3-3：上方為針對正臉挑選後部分貓影像示意圖；下方為針對正臉挑選後部分

圖 3-4：上方為交叉驗證中被錯誤分類的貓影像；下方為被錯誤分類的狗影像。

表 3-5：400 張影像以 PIXEL 法之十折交互驗證的預測結果

表 3-7：400 張影像以 HOG 法之十折交互驗證的預測結果

核函數平均正確率標準差

總計算時間 (秒)

平均迭代次數 Linear 84.50% 3.69% 3.75 1081 Polynomial 89.25% 2.37% 4.54 591 Radial basis 57.75% 16.35% 5.73 488 sigmoid 53.75% 11.13% 5.79 180

表 3-8：400 張影像以 HOG+PCA 法之十折交互驗證的預測結果

在文檔中貓狗影像辨識之特徵萃取 - 政大學術集成 (頁 36-44)

第三章 實證分析

二、 針對貓狗正臉特徵萃取的辨識結果

○ ×

○ ×

第三章實證分析

二、針對貓狗正臉特徵萃取的辨識結果