緒論 - 以機率為基礎的語意分析之物件辨識研究

1.1 研究動機

在電腦視覺的領域中，物件辨識是個存在已久的問題。對於某些針對特定目

標的辨識，現今已有了不錯的成效。但對於一般性物件的辨識，仍有非常多的挑

戰要克服。物件辨識的第一步驟，通常會根據不同目的，從影像中擷取具有代表性的特徵，例如顏色、形狀、紋理(texture)、空間資訊...等等。這些被擷取出的

特徵大都屬於低階的影像特徵，也就是說，它們僅具備影像處理階段的特性，卻

不包含能夠描述影像內涵的語意資訊。但人類在辨識影像的內容時，所依賴的往往是更高階的，且帶有語意概念的特徵。所謂的語意隔閡(semantic gap) [28][15]，

即是指低階特徵與高階特徵之間那道難以銜接的間隙。

如果能從高階的影像特徵來進行物件辨識，應該是更為合理的，且更接近人

類理解影像的做法。因此，如何跨越語意隔閡，取得包含語意資訊的高階特徵，

並藉此提升物件辨識的準確度，就成了我們的首要目標。

1.2 研究目的

為了處理語意隔閡的問題，我們設計了一個具備語意資訊的影像特徵，用以

描述一張影像的內容。而此影像特徵，我們將之命名為「以機率為基礎的語意組

成描述子」(probabilistic semantic component descriptor)，以下簡稱為 pSCD。

基本上，要正確描述出一張影像內的組成，例如要明確的指出此張影像中包

含行人、汽車、建築物等，是很困難的工作，因為這牽涉到精確的物體辨識問題。

所以我們的想法是，先將多種不同類別的影像蒐集在一起，雖然不清楚這些影像

的內容是由哪些成份組成，但我們可以分析這些組成份子中，約略可以分類成哪

些群組，再利用這些群組來描述影像的內容。藉由以上的概念，我們建構出pSCD 這個新的影像表示法(image representation)。

在此篇論文中，我們將探討pSCD 的原理及特性，並將之應用在物件辨識的

實驗中，藉此達到更好的辨識率。此外我們還會在實驗中，與另外兩種常見的影

像表示法做比較，希望藉此看出pSCD 的辨別性及強健性(robustness)。

1.3 研究範圍與限制

一般物件辨識是在已知有哪幾種類別的前提下，將輸入影像分類至某個類別中，因此有時也稱作物件分類(object categorization)。此篇論文中，我們將針對一

張影像僅包含一種類別的物件做研究，而影像中同類物件的數量則不受限制。在此種狀況下，我們仍需面對以下問題：

1. 雜亂背景(cluttered background)：在物件辨識的問題中，雜亂背景一直是

很大的干擾因素，它讓影像切割變得難以實行，因而無法過濾出物件所在的區

域。如果無法預先判斷物件的位置，從影像中擷取的特徵將包含許多物件以外的

部分。而這些非物件的特徵將造成辨識時的混淆。

2. 姿勢變化：這邊的姿勢變化主要指的是大小及平移的改變，以及因視角

不同所造成的姿勢變化。另外關於非剛性(nonrigid)物件，其自身各部位的相對移

動也包含在姿勢變化中。

3. 光線變化：由於實驗的影像大都在不同的環境下拍攝，因此光線的改變

是無法避免的。

除了影像的內容外，監督(supervision)的程度大小也是值得注意的問題。雖

說數位影像的取得不虞匱乏，但包含文字註解的影像相對來講則少了許多。因此，如果監督的程度越小，訓練資料(training data)的取得就更加容易，在學習階

段所受的限制自然也會越少。

在我們的方法中，pSCD 的建立是非監督式的，不需要任何影像註解或標籤

(label)即可進行。而在分類器的學習階段，我們僅需知道每張影像中包含何種類

別的物件，至於物件的位置和邊緣則完全不必知道，因此我們訓練分類器的方式屬於弱監督式的學習(weakly supervised learning)。

1.4 論文架構

本論文一共分為六個章節，其中第一章為序論，第二章為文獻探討，在第三

章中，我們將詳細說明pSCD 的原理和方法，第四章則會介紹我們使用的分類器，第五章為實驗結果與分析，第六章則是本論文的總結以及未來研究方向。

在文檔中以機率為基礎的語意分析之物件辨識研究 (頁 9-12)