研究背景與目的

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章研究背景與目的

物件辨識(object recognition)向來是電腦視覺領域中的重要課題，準確而有效率的物件辨識演算法，除可作為機器人視覺的伺服控制機制，在視覺搜尋(visual search)、

分類(visual object class，VOC)、多媒體內容分析、安全監控也都有直接的應用。然而物件辨識是一項具挑戰性的任務，除了外在環境變因的不可控制性，影響影像分析與特徵擷取的穩定度外，使用視覺資訊，還有一項最大問題，就是如何從龐大的資料中，

進行有效率的運算，找出所需追蹤或辨識的特徵，進而獲得辨識或理解週遭事物的能力。英語中有句諺語是這樣說的:「A picture is worth a thousand words」，意謂一張圖像可以勝過千言萬語的描述，然而這是基於人類的認知與理解能力所引申的觀察，從電腦的角度而言，一張未經壓縮的百萬畫數的全彩相片(1 million pixels，24-bit color)需要 3 百萬個位元組(byte)來表示，也就是:

"A picture is worth a thousand 'words'. Yet it takes millions of 'bytes' to store a picture."

而相片內容的分析與處理，通常需要耗費更多的計算資源，但卻很難達到令人滿意的效果，也就是說，從計算的角度而言，使用視覺的描述方式雖然看似直覺，但卻不一定是最有效率的。近來由於電腦硬體技術的大幅進展與實際需求面的增加，特定類別的物件辨識，如人臉偵測(face detection)[ 1]、行人偵測(pedestrian detection)[2]、

文字辨識(text recognition)[3]等，有了長足的進步，部分應用甚至已經從 PC 端轉移至智慧型行動平台，增加了便利性與實用性，例如最近 Google 推出的 Google Goggles 服務[4]，就是利用手機拍攝的照片，進行圖像搜尋，透過其強大的雲端運算後台，有效率地回傳與圖片內容相關的訊息，當然該項服務還屬於實驗階段，並非十全十美，而且僅針對特定物件類別，如著名景點、藝術品、名片、書的封面、商標 logo 等進行最

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

佳化處理，在物件辨識的準確率與通用性方面，仍有改善的空間。

在物件類別辨識的研究方面，歐盟所支援的 PASCAL (Network of Excellence on Pattern Analysis, Statistical Modeling and Computational Learning) 從 2005 年開始就舉辨 Visual Objects Classes (VOC) Challenge，累積至 2010 年已建立二十項物件資料庫 [5]，包含

•Person: person

•Animal: bird, cat, cow, dog, horse, sheep

•Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train

•Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

該競賽每年均吸引數十個來自世界各地的研究團隊參與，並於 ICCV 舉辦 workshop 發表比賽結果，以 2010 年最新資料顯示，各類物件辨識的平均準確率(average precision) 從 30-80%不等，顯示在這方面的研究也還有精進的空間。

一個強健的物件辨識核心，通常需具備幾個要素，包含可靠的特徵描述方式 (feature descriptor)，以及兼具效能與正確性的分類與辨識演算法。在物件描述方面，

近來常被使用的影像特徵有 Harr-like features[1]、Scale-Invariant Feature Transform (SIFT)[6]、Histogram of Oriented Gradients (HoG)[2]、Edge Histogram (EH)[7]、Local Binary Pattern (LBP)[8]等，這些特徵在描述力、抗噪性與計算效率上各有其優缺點，

而在辨識演算法部分，則多採用機器學習方式，如 Support Vector Machine(SVM)[9]、

AdaBoost、K-Nearest Neighbor(KNN)、Local Sensitivity Hashing (LSH)[10]等，透過上述兩項組成元件的組合搭配與參數調校，開發出各式型態的物件辨識引擎。

本研究的目標在於提出有效的物件辨識機制，而主要的作法則是尋找可靠的圖像特徵描述方式，具體而言，我們將改善近來常被選用的區域二元化圖型(local binary

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

patterns, LBP)，提出延展式的區域三元化圖型樣式(extended local ternary patterns, ELTP)，並針對其抗噪性、描述力與計算效率與 LBP 進行比較。除了描述力與抗噪性，

運算效能也是必須納入考量的重要因素，LBP 之所以被廣為採用，有相當原因是因為其計算相當簡易，如要延伸原始 LBP 的功能，定義新的特徵描述方式，也要同時評估其計算的複雜度，以免顧此失彼。

本論文於第二章敘述相關之研究及其問題，第三章定義延展式區域三元化圖型，

第四章探討延展式區域三元化圖型中的 uniform patterns，第五章為延展式區域三元化圖型之抗噪力與描述力之實驗結果，第六章則探討延展式區域三元化圖型在材質分類與人臉辨識的應用，第七章為結論與未來規劃。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中基於延展式區域三元化圖型之特徵描述子 - 政大學術集成 (頁 12-15)

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章 研究背景與目的

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

第一章研究背景與目的

立政治大學

立政治大學

立政治大學