• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第一章 研究背景與目的

物件辨識(object recognition)向來是電腦視覺領域中的重要課題,準確而有效率的 物件辨識演算法,除可作為機器人視覺的伺服控制機制,在視覺搜尋(visual search)、

分類(visual object class,VOC)、多媒體內容分析、安全監控也都有直接的應用。然而 物件辨識是一項具挑戰性的任務,除了外在環境變因的不可控制性,影響影像分析與 特徵擷取的穩定度外,使用視覺資訊,還有一項最大問題,就是如何從龐大的資料中,

進行有效率的運算,找出所需追蹤或辨識的特徵,進而獲得辨識或理解週遭事物的能 力。英語中有句諺語是這樣說的:「A picture is worth a thousand words」,意謂一張圖像 可以勝過千言萬語的描述,然而這是基於人類的認知與理解能力所引申的觀察,從電 腦的角度而言,一張未經壓縮的百萬畫數的全彩相片(1 million pixels,24-bit color)需 要 3 百萬個位元組(byte)來表示,也就是:

"A picture is worth a thousand 'words'. Yet it takes millions of 'bytes' to store a picture."

而相片內容的分析與處理,通常需要耗費更多的計算資源,但卻很難達到令人滿 意的效果,也就是說,從計算的角度而言,使用視覺的描述方式雖然看似直覺,但卻 不一定是最有效率的。近來由於電腦硬體技術的大幅進展與實際需求面的增加,特定 類別的物件辨識,如人臉偵測(face detection)[ 1]、行人偵測(pedestrian detection)[2]、

文字辨識(text recognition)[3]等,有了長足的進步,部分應用甚至已經從 PC 端轉移至 智慧型行動平台,增加了便利性與實用性,例如最近 Google 推出的 Google Goggles 服 務[4],就是利用手機拍攝的照片,進行圖像搜尋,透過其強大的雲端運算後台,有效 率地回傳與圖片內容相關的訊息,當然該項服務還屬於實驗階段,並非十全十美,而 且僅針對特定物件類別,如著名景點、藝術品、名片、書的封面、商標 logo 等進行最

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

佳化處理,在物件辨識的準確率與通用性方面,仍有改善的空間。

在物件類別辨識的研究方面,歐盟所支援的 PASCAL (Network of Excellence on Pattern Analysis, Statistical Modeling and Computational Learning) 從 2005 年開始就舉 辨 Visual Objects Classes (VOC) Challenge,累積至 2010 年已建立二十項物件資料庫 [5],包含

•Person: person

•Animal: bird, cat, cow, dog, horse, sheep

•Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train

•Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

該競賽每年均吸引數十個來自世界各地的研究團隊參與,並於 ICCV 舉辦 workshop 發 表比賽結果,以 2010 年最新資料顯示,各類物件辨識的平均準確率(average precision) 從 30-80%不等,顯示在這方面的研究也還有精進的空間。

一個強健的物件辨識核心,通常需具備幾個要素,包含可靠的特徵描述方式 (feature descriptor),以及兼具效能與正確性的分類與辨識演算法。在物件描述方面,

近來常被使用的影像特徵有 Harr-like features[1]、Scale-Invariant Feature Transform (SIFT)[6]、Histogram of Oriented Gradients (HoG)[2]、Edge Histogram (EH)[7]、Local Binary Pattern (LBP)[8]等,這些特徵在描述力、抗噪性與計算效率上各有其優缺點,

而在辨識演算法部分,則多採用機器學習方式,如 Support Vector Machine(SVM)[9]、

AdaBoost、K-Nearest Neighbor(KNN)、Local Sensitivity Hashing (LSH)[10]等,透過上 述兩項組成元件的組合搭配與參數調校,開發出各式型態的物件辨識引擎。

本研究的目標在於提出有效的物件辨識機制,而主要的作法則是尋找可靠的圖像 特徵描述方式,具體而言,我們將改善近來常被選用的區域二元化圖型(local binary

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

patterns, LBP),提出延展式的區域三元化圖型樣式(extended local ternary patterns, ELTP),並針對其抗噪性、描述力與計算效率與 LBP 進行比較。除了描述力與抗噪性,

運算效能也是必須納入考量的重要因素,LBP 之所以被廣為採用,有相當原因是因為 其計算相當簡易,如要延伸原始 LBP 的功能,定義新的特徵描述方式,也要同時評估 其計算的複雜度,以免顧此失彼。

本論文於第二章敘述相關之研究及其問題,第三章定義延展式區域三元化圖型,

第四章探討延展式區域三元化圖型中的 uniform patterns,第五章為延展式區域三元化 圖型之抗噪力與描述力之實驗結果,第六章則探討延展式區域三元化圖型在材質分類 與人臉辨識的應用,第七章為結論與未來規劃。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件