• 沒有找到結果。

1.1 研究動機

在電腦視覺的領域中,物件辨識是個存在已久的問題。對於某些針對特定目

標的辨識,現今已有了不錯的成效。但對於一般性物件的辨識,仍有非常多的挑

戰要克服。物件辨識的第一步驟,通常會根據不同目的,從影像中擷取具有代表 性的特徵,例如顏色、形狀、紋理(texture)、空間資訊...等等。這些被擷取出的

特徵大都屬於低階的影像特徵,也就是說,它們僅具備影像處理階段的特性,卻

不包含能夠描述影像內涵的語意資訊。但人類在辨識影像的內容時,所依賴的往 往是更高階的,且帶有語意概念的特徵。所謂的語意隔閡(semantic gap) [28][15],

即是指低階特徵與高階特徵之間那道難以銜接的間隙。

如果能從高階的影像特徵來進行物件辨識,應該是更為合理的,且更接近人

類理解影像的做法。因此,如何跨越語意隔閡,取得包含語意資訊的高階特徵,

並藉此提升物件辨識的準確度,就成了我們的首要目標。

1.2 研究目的

為了處理語意隔閡的問題,我們設計了一個具備語意資訊的影像特徵,用以

描述一張影像的內容。而此影像特徵,我們將之命名為「以機率為基礎的語意組

成描述子」(probabilistic semantic component descriptor),以下簡稱為 pSCD。

基本上,要正確描述出一張影像內的組成,例如要明確的指出此張影像中包

含行人、汽車、建築物等,是很困難的工作,因為這牽涉到精確的物體辨識問題。

所以我們的想法是,先將多種不同類別的影像蒐集在一起,雖然不清楚這些影像

的內容是由哪些成份組成,但我們可以分析這些組成份子中,約略可以分類成哪

些群組,再利用這些群組來描述影像的內容。藉由以上的概念,我們建構出pSCD 這個新的影像表示法(image representation)。

在此篇論文中,我們將探討pSCD 的原理及特性,並將之應用在物件辨識的

實驗中,藉此達到更好的辨識率。此外我們還會在實驗中,與另外兩種常見的影

像表示法做比較,希望藉此看出pSCD 的辨別性及強健性(robustness)。

1.3 研究範圍與限制

一般物件辨識是在已知有哪幾種類別的前提下,將輸入影像分類至某個類別 中,因此有時也稱作物件分類(object categorization)。此篇論文中,我們將針對一

張影像僅包含一種類別的物件做研究,而影像中同類物件的數量則不受限制。在 此種狀況下,我們仍需面對以下問題:

1. 雜亂背景(cluttered background):在物件辨識的問題中,雜亂背景一直是

很大的干擾因素,它讓影像切割變得難以實行,因而無法過濾出物件所在的區

域。如果無法預先判斷物件的位置,從影像中擷取的特徵將包含許多物件以外的

部分。而這些非物件的特徵將造成辨識時的混淆。

2. 姿勢變化:這邊的姿勢變化主要指的是大小及平移的改變,以及因視角

不同所造成的姿勢變化。另外關於非剛性(nonrigid)物件,其自身各部位的相對移

動也包含在姿勢變化中。

3. 光線變化:由於實驗的影像大都在不同的環境下拍攝,因此光線的改變

是無法避免的。

除了影像的內容外,監督(supervision)的程度大小也是值得注意的問題。雖

說數位影像的取得不虞匱乏,但包含文字註解的影像相對來講則少了許多。因 此,如果監督的程度越小,訓練資料(training data)的取得就更加容易,在學習階

段所受的限制自然也會越少。

在我們的方法中,pSCD 的建立是非監督式的,不需要任何影像註解或標籤

(label)即可進行。而在分類器的學習階段,我們僅需知道每張影像中包含何種類

別的物件,至於物件的位置和邊緣則完全不必知道,因此我們訓練分類器的方式 屬於弱監督式的學習(weakly supervised learning)。

1.4 論文架構

本論文一共分為六個章節,其中第一章為序論,第二章為文獻探討,在第三

章中,我們將詳細說明pSCD 的原理和方法,第四章則會介紹我們使用的分類 器,第五章為實驗結果與分析,第六章則是本論文的總結以及未來研究方向。

相關文件