• 沒有找到結果。

基於三元化樣式的通用型區域特徵描述方法

N/A
N/A
Protected

Academic year: 2021

Share "基於三元化樣式的通用型區域特徵描述方法"

Copied!
33
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 期末報告

基於三元化樣式的通用型區域特徵描述方法

計 畫 類 別 : 個別型 計 畫 編 號 : NSC 100-2221-E-004-015- 執 行 期 間 : 100 年 08 月 01 日至 101 年 11 月 30 日 執 行 單 位 : 國立政治大學資訊科學系 計 畫 主 持 人 : 廖文宏 計畫參與人員: 碩士班研究生-兼任助理人員:陳柏銘 碩士班研究生-兼任助理人員:余浩瑋 博士班研究生-兼任助理人員:林明慶 報 告 附 件 : 出席國際會議研究心得報告及發表論文 公 開 資 訊 : 本計畫可公開查詢

中 華 民 國 102 年 02 月 27 日

(2)

中 文 摘 要 : 區域二/三元化樣式與其各種變型被廣泛應用於物件辨識中的 特徵描述,然而現有的區域特徵描述方式,普遍存在適用時 機的問題,也就是針對不同類型的圖像資料庫,必須選用符 合該圖片性質的描述法,方能達到較佳的辨識效果,舉例而 言,處理材質影像時多使用 uniform pattern,而進行人臉 偵測或表情辨識時則多採用一般型的區域二/三元化樣式。 本研究的目標是建構一個通用型的區域三元化樣式,使其一 體適用於各類圖型辨識的任務,我們以延展式區域三元化樣 式(Extended local ternary patterns, ELTP)為基礎,探討 各種降維演算法的結合機制,並提出可行的樣式定義方法, 我們針對 ETLP 中的 uniform pattern 定義重新思考,藉由 大規模實驗與統計,探討各類 uniform pattern 的從屬關係 與出現比例,並依據比例原則,在降維階段分配適當之維 度,稱之為比例式降維法。 本研究針對比例式降維後的 ELTP 之抗噪性、描述力與通用性 進行深度的分析與廣泛的實驗,已成功驗證此類圖像描述方 法之效能。 中文關鍵詞: 特徵描述、區域二元化圖形、延展式區域三元化圖形、比例 式降維法、紋理影像辨識

英 文 摘 要 : Local binary/ternary pattern and its derivatives have been widely employed to represent low-level features in many pattern recognition tasks. However, existing local descriptors fail to achieve universal

applicability in the sense that specific types of local binary patterns are better suited for certain collections of images. For example, uniform local binary patterns are preferred when dealing with

textures, while regular local binary/ternary patterns are adopted for face detection and facial expression recognition.

This research proposes to a universally applicable local descriptor based on the extended local ternary pattern (ELTP) to address the above concern. We exploit the feasibility of combining dimensionality reduction techniques to derive a novel local

descriptor that is suitable for all kinds of object recognition applications. Specifically, we

(3)

patterns under ternary encoding scheme and study their properties. This enables us to devise a dimensionality assignment algorithm in which the allocated dimension is proportional to the appearance rate of the corresponding pattern group.

The newly defined extend local ternary pattern using commensurate dimensionality reduction (ELTP-CDR) technique has been be extensively tested to validate its universality, discriminability, and noise

sensitivity.

英文關鍵詞: feature descriptor, local binary pattern, extend local ternary pattern, commensurate dimensionality reduction, texture classification

(4)

行政院國家科學委員會補助專題研究計畫

■成果報告

□期中進度報告

基於三元化樣式的通用型區域特徵描述方法

計畫類別:■個別型計畫 □整合型計畫

計畫編號:NSC 100-2221-E-004-015-

執行期間: 100 年 8 月 1 日至 101 年 11 月 30 日

執行機構及系所:國立政治大學資訊科學系

計畫主持人:廖文宏

共同主持人:

計畫參與人員:余浩瑋、林明慶、陳柏銘

成果報告類型(依經費核定清單規定繳交):■精簡報告 □完整報告

本計畫除繳交成果報告外,另須繳交以下出國心得報告:

□赴國外出差或研習心得報告

□赴大陸地區出差或研習心得報告

■出席國際學術會議心得報告

□國際合作研究計畫國外研究報告

處理方式:

除列管計畫及下列情形者外,得立即公開查詢

□涉及專利或其他智慧財產權,□一年□二年後可公開查詢

中 華 民 國 102 年 2 月 20 日

(5)

基於三元化樣式的通用型區域特徵描述方法

摘要

區域二/三元化樣式與其各種變型被廣泛應用於物件辨識中的特徵描述,然而現有的區

域特徵描述方式,普遍存在適用時機的問題,也就是針對不同類型的圖像資料庫,必

須選用符合該圖片性質的描述法,方能達到較佳的辨識效果,舉例而言,處理材質影

像時多使用

uniform pattern,而進行人臉偵測或表情辨識時則多採用一般型的區域二/

三元化樣式。

本研究的目標是建構一個通用型的區域三元化樣式,使其一體適用於各類圖型辨識的

任務,我們以延展式區域三元化樣式(Extended local ternary patterns, ELTP)為基礎,探

討各種降維演算法的結合機制,並提出可行的樣式定義方法,我們針對

ETLP 中的

uniform pattern 定義重新思考,藉由大規模實驗與統計,探討各類 uniform pattern 的從

屬關係與出現比例,並依據比例原則,在降維階段分配適當之維度,稱之為比例式降

維法。

本研究針對比例式降維後的

ELTP 之抗噪性、描述力與通用性進行深度的分析與廣泛的

實驗,已成功驗證此類圖像描述方法之效能。

關鍵字:特徵描述、區域二元化圖形、延展式區域三元化圖形、比例式降維法、紋理

影像辨識

(6)

A Universally Applicable Feature Descriptor Based on Local Ternary

Patterns

Abstract

Local binary/ternary pattern and its derivatives have been widely employed to represent

low-level features in many pattern recognition tasks. However, existing local descriptors fail

to achieve universal applicability in the sense that specific types of local binary patterns are

better suited for certain collections of images. For example, uniform local binary patterns are

preferred when dealing with textures, while regular local binary/ternary patterns are adopted

for face detection and facial expression recognition.

This research proposes to a universally applicable local descriptor based on the extended local

ternary pattern (ELTP) to address the above concern. We exploit the feasibility of combining

dimensionality reduction techniques to derive a novel local descriptor that is suitable for all

kinds of object recognition applications. Specifically, we investigate all possible definitions of

uniform patterns under ternary encoding scheme and study their properties. This enables us to

devise a dimensionality assignment algorithm in which the allocated dimension is proportional

to the appearance rate of the corresponding pattern group.

The newly defined extend local ternary pattern using commensurate dimensionality reduction

(ELTP-CDR) technique has been be extensively tested to validate its universality,

discriminability, and noise sensitivity.

Keywords:feature descriptor, local binary pattern, extend local ternary pattern, commensurate

dimensionality reduction, texture classification.

(7)

基於三元化樣式的通用型區域特徵描述方法

1. 研究背景及目的

電腦視覺為資訊科學中的一個重要領域,其中在影像處理方面,隨著網路的進步及智慧型行動平 台的普及,發展出了更多元的應用,如文字辨識、人臉辨識、表情辨識等,均涵蓋在影像處理的範圍 內,更精確地來說,這些應用都是建構在物件辨識之基礎上。 在一個物件辨識系統中,特徵描述為其中一個重要的關鍵,它對於辨識結果的準確率有很大的影 響。對於人類來說,只要透過學習,就能理解絕大多數的影像,知道其中所含人、事、地、物與隱藏 的意涵等。同樣地,電腦也要透過學習才能對影像做出辨別。然而影像對於電腦來說,就只是一串動 輒數百萬個位元組的資料,要讓電腦分析一張影像,我們需要透過特徵描述的方法,將影像資料轉化 成能夠代表某種物件的特徵,如此,才能夠利用電腦對影像做辨識。 要判別特徵描述方法之間的優劣,最直接的標準就是比較它們應用在物件辨識時的準確率。此外, 目前多數人使用的數位化攝影器材,其擷取的影像容易受到雜訊干擾,而與實際影像有些許差異,因 此,描述方法的抗噪性,也是衡量的標準之一。另外,在許多應用中,使用者希望取得結果的時間愈 短愈好,因此,計算效能也是個考慮的要素。 綜合以上所述,關於特徵描述如何提升描述力、抗噪性及效能等,一直是許多研究學者感興趣的 研究主題,截至目前為止也已經發展出許多不同的方法,其中較常見的如Local Binary Pattern (LBP)[1]、 Scale-Invariant Feature Transform (SIFT)[2]、Speeded Up Robust Features (SURF)[3]、Fast Retina Keypoint (FREAK)[4]、Binary Robust Invariant Scalable Keypoints (BRISK)[5]等。由於特徵描述在物件辨識的應 用中佔有相當的重要性,因此各種改進的方法持續地被提出。其中,延展式區域三元化圖形樣式 (Extended Local Ternary Patterns, ELTP)針對 LBP 提出了改善的方法,且從理論分析與各項實驗比較,

均驗證了其在描述力與抗噪性上較 LBP 優越[6]。然而,仔細探究,ELTP 亦有部分未臻完善之處,其

是否仍有改善的空間,則為本研究所關注之處。

相較於 LBP 的二元編碼,ELTP 使用了三元編碼。如此轉變,可以想見將會使的維度增加,進而

帶來若干影響。其中最主要的,是當樣本尺寸較小時,取樣數不足將使的直方圖過於稀疏,而無法具 有代表性。因此,ELTP 提出了降維方式,即以 uniform pattern 為基礎,配合樣式分群來降維。然而, 以 uniform pattern 為基礎的降維方式,在降維的同時也捨棄了部分有用的資訊。這樣的方法是否也會

同時減低其描述力,相當值得討論。因此,本研究將改善 ELTP 當中現有的降維方式,使其在降維的

同時,可以保留住原本方法中被捨去的資訊,期能得到更好的描述力。

本研究的主要貢獻,在於使用比例式降維法改善了 ELTP 中的降維方式,並以實驗來驗證前後的

差異。原始的方法,在降維時捨棄了非uniform pattern 這部份的資訊,而改善的方式,則利用 ELTP 定 義的四類 uniform pattern 之間重要程度的不同,給予不同比例的維度,如此可保留所有資訊,而不需 捨棄任一部分,各項實驗均顯示,保留關鍵資訊對於抗噪性、描述力與辨識效果都有正面的貢獻。

本研究報告於第二章將介紹與本文相關的特徵描述法與特徵樣式的降維方法。第三章將介紹比例 式降維法,第四章為針對比例式降維法所進行之實驗,最後,第五章則為結論以及未來展望。

(8)

2. 相關研究

本章節將探討幾個與本研究相關之特徵描述子及其優缺點;討論數個針對特徵描述子提出的降維 方式,並將指出其不合理或待改進之處,以做為後續修正時的參考基礎。

2.1. Local Binary Patterns (LBP)

LBP 是一個區域性的紋理特徵描述方法,由芬蘭 Oulu 大學的 Ojala 等學者所提出[1]。LBP(8,1)的 作法如圖 2.1 所示,對圖中每一點,以其為中心點,周圍八點做為參考點,比較參考點與中心點的像 素值,並利用中心點的像素值為門檻對參考點做編碼,編碼的值可能為二元的 0(參考點像素值小於中 心點)或者 1(參考點像素值大於或等於中心點)。完成後,可得到一個環狀編碼,之後再以固定的起點 及方向(順時針或逆時針)將環狀編碼展開,成為一個 8 位元的樣式,即為該點的特徵;若要描述一個影 像區塊,則是計算區塊內所有點的特徵,並統計每個特徵出現次數的直方圖,作為該區塊的特徵。 圖2.1: LBP 基本定義 LBP 被應用在材質分析、人臉辨識、表情識別、多媒體搜尋、背景建模、動作分析等各方面,皆 有不錯的效果,計算方面也很簡單。但若仔細觀察其定義方式,仍可發現一個缺點,即是其對於雜訊 會相當敏感。由於在現實中拍攝到的影像,多少都會帶有一些雜訊,因此對於特徵描述法來說,能容 忍雜訊的程度應越高越好。以LBP 來說,觀察圖 2.1 我們可以發現到,若影像受到雜訊干擾使的 9 點 鐘方向的像素值改變成 53,則該點的編碼將由 1 改變為 0,而該區塊的編碼轉成十進位後,將從 203 改變成75。如此,因非常細微的雜訊便取出不同特徵的情形,在較為平滑的影像中會更為明顯,因為 在這類的影像中,鄰近的像素差異不大,受雜訊影響而使的特徵值改變的機率將大為提升,也影響到 使用LBP 作為特徵描述時的準確性。

2.2. Local Ternary Patterns, LTP

針對前述LBP 容易受到雜訊影響的缺點,有學者提出以三元化的方式取代二元的做法[7],其方法 類似於LBP,但是將像素值的比較結果分成三類,若以 LTP(i)表示某參考點 i 的編碼值,則: (2.1) 其中P(i)表示 i 點的像素值、P(0)表示中心點的像素值, 為一個設定的門檻值。以圖 2.1 的例子來看, 若設定 為 5,則計算出的編碼如圖 2.2 所示。由圖中可以看出,相較於使用 LBP,在影像受到些微雜

(9)

訊影響後便產生不同編碼,以LTP 取出的前後編碼沒有改變,可以說明 LTP 在某種程度下,提高了對 於雜訊的容忍度。 圖2.2 LTP( =5)受到輕微雜訊干擾並未影響其編碼 然而,提升了抗噪性的同時,LTP 也存在一些問題,首先是關於 值選定的問題,其值是大是小該 如何決定?使用一個定值,是否會在不同類型的影像中產生不一致的效果?其次,則為特徵樣式種類 增加所帶來的影響。相較於 LBP,其編碼方式由二元增加到三元,在取樣數與上述例子相同的 8 個參 考點的情況下,LBP(8,1)可能產生的樣式總共有 28=256 個,但 LTP(8,1)卻高達 38=6561 個。在未處理 維度問題的情況下,若要以LTP 來描述一個區域影像的特徵,假設以大小為 32x32 的影像為例,則 1024 個樣本數,在統計後的直方圖中,每個特徵平均出現的次數不到一次,無法具有代表性。對此,LTP 提出了降維的方式,其藉由將LTP 拆解成兩組 LBP 的方式達到降維的目的,不過這樣的做法是否合理, 將在2.4 節做說明。

2.3 Extended Local Ternary Patterns, ELTP

對於前述的LTP 提到的 值該如何決定的問題,由於單一的 值在不同類型的影像中使用並不是很

合理。對此,ELTP 利用 local statistics 動態調整 值以解決 LTP 所遇到的問題[6]。ELTP 之編碼方式與 LTP 相似,不同之處在於 值與每個區域的像素值之標準差有關,計算方式如下: (2.2) } ( ) 類似於式(2.1),其中 是每個區域內像素值的標準差, 為介於 0、1 之間,但不為 0 的常數,而 min是 為了避免在平滑區域中,發生 為 0 的情況。 雖然 ELTP 提出了動態調整 值的方法,但由於 ELTP 與 LTP 均使用了三元化的編碼,使的其和

LTP 一樣,若不考慮維度問題,就會有維度過高的問題發生,因此,ELTP 也提出了利用 uniform pattern

與配合樣式分群的降維方法,將在2.4 節中做說明。

2.4 Local Binary/Ternary Patterns 的降維方式

到目前為止討論三個特徵描述子,LTP 與 ELTP 均提出了降維的方式;然而,即使是 LBP,其維 度也不算低,如此除了在處理時的計算量更大之外,是否具有描述力也有待商榷,若要使這些特徵描

(10)

述方式具有實用性,則必須著手處理降維的問題,這類的問題也已經有許多學者投入研究,而提出了 不少解決方法,而這些方法是否合理、是否值得改進等問題,將歸納在以下章節中。 2.4.1 合併直方圖相鄰元素 LBP 在應用時,常會把其二元樣式轉換成 10 進位數值,以便在座標軸上進行直方圖的統計。因此 有個直覺的降維方式,就是將圖中相鄰的兩個合併成一個,如圖 2.3 所示。然而如此降維的問題是, 雖然被合併的兩者在10 進位表示方式中是相鄰的,但其原始的樣式卻不一定是相似的。例如,01111111 與 10000000 兩個樣式的 10 進位表示方式為 127 與 128,雖然在直方圖中是相鄰的,然而原始樣式代 表的意義卻大不相同,若是強行合併,必然會影響到後續的處理[8]。 圖2.3 合併直方圖相鄰元素 2.4.2 減少樣本數量 LBP 或 LTP 等除了可以參考周圍緊鄰的像素來編碼外,也可以參考以中心點為圓心,半徑為 R 的 圓上的像素來做編碼,參考的樣本數也可以調整,具體表示方式為LBP(P,R),其中 P 表示參考的樣本 個數,R 則為樣本與中心點的距離,舉例來說,LBP(8,1)與 LBP(16,2)如圖 2.4 所示: 圖2.4 LBP(8,1)與 LBP(16,2) 據此,一種簡化的方式,就是加大取樣的間隔以減少取樣的個數,如圖2.5 所示,以其中的 LBP(8,2) 為例,比起圖2.4 的 LBP(16,2),在同樣的半徑下,只取了一半的樣本數,這使的直方圖的維度由原來

(11)

的 216=65536 降至 28=256[9],達到了不錯的降維效果,然而,每個點都只取了原來一半的樣本數,必 然會使其描述力受到一定程度的影響。 圖2.5 LBP(4,1)、LBP(8,2)與 LBP(12,3) 2.4.3 Center-Symmetric LBP 在此編碼方法中,周圍像素不再與中心的像素做比較,而是由位於對角的兩個像素比較大小後, 給予1 或 0 的編碼[10],如圖 2.6 所示,如此產生的樣式長度將減少至原來的一半,進而達到降維的目 的。然而其存在與LBP 相同,如影像受到雜訊干擾後的表現不佳等問題。 圖2.6 CS-LBP 的計算方式 2.4.4 拆解圖形樣式 此法為原始LTP 的降維方式,作法是將原來的三元樣式,拆解成兩個二元樣式,一個保留原始樣 式中編碼為+1 部分,另一個保留-1 的部分,如此使的維度可以從 3p降至2p+2p[8],如圖 2.7 所示。然 而,同樣地,雖然達到了降維的目的,卻也不免犧牲了描述的精準度。在其他紋理影像實驗中,使用 此方法降維的LTP,在辨識率的表現不如最原始的 LBP[11]。 圖2.7 將 LTP 拆解為兩組 LBP

(12)

2.4.5 考慮旋轉不變的特性(rotational-invariance)

此方法為將LBP 中那些經過旋轉(circular shift)之後會相同的樣式歸為一類,稱為 LBP-ROT[9],以 LBP(8,1)為例,原來的樣式共有 256 種,利用旋轉不變的特性,可將樣式的種類降至 36 種,如圖 2.8 所示。然而如此的降維方式,僅在應用於材質分析時獲得較佳的結果,若是在人臉偵測、表情辨識等 方面,則準確率大幅降低,應用的時機較為有限。 圖2.8 利用旋轉不變的特性降維 2.4.6 使用 uniform pattern 這是由Ojala 等學者提出的概念[9],其定義是,在 LBP 的環狀二元編碼中,最多只有兩次 0 到 1 或者1 到 0 的轉換,如 00000011、10000001、00100000 等都屬於 uniform pattern。圖 2.9 中再舉出一 些LBP(8,1)中 uniform pattern 的例子。 圖2.9 LBP(8,1)中的部分 uniform pattern

在LBP(8,1)中的 uniform pattern 佔 256 個樣式中的 58 個,比例為 22.65%,而在統計後,Ojala 等 學者發現到,若是在一張紋理的影像中,uniform pattern 所佔的比例最高可達 90%,因此引申出以 uniform pattern 為基礎的降維方式。也就是在計算直方圖時,58 個 uniform pattern 各自成為一個維度,而剩下

的 198 個樣式再整合成一個維度,如此使的維度降到 59 維,與原來的 256 維相比來的小多了,這是

LBP 最常採用的降維方式。

而ELTP 也採用了 uniform pattern 做為其降維的方法[6],其定義了在區域三元樣式中的 uniform pattern。ELTP 的 uniform pattern 定義如下:

定義一(UELTP1):「在環狀的三元編碼中,相鄰兩個 digit 間 Hamming distance 總和不得超過 2。」舉 例如圖2.10。此類樣式在 ELTP(8,1)中佔了 115 個。

(13)

定義二(UELTP2):「在環狀的三元編碼中,相鄰兩個 digit 間的變化次數總和不得超過 2。」舉例如圖 2.11。此類樣式在 ELTP(8,1)中佔了 171 個,其中包含了定義一中的樣式。

圖2.11 UELTP2 的部份樣式

定義三(UELTP3):「在環狀的三元編碼中,相鄰兩個 digit 間 Hamming distance 總和不得超過 4。」舉 例如圖2.12。此類樣式佔 ELTP(8,1)中的 1067 個,其中包含了定義二中的樣式。 圖2.12 UELTP3 的部份樣式 定義四(UELTP4):「在環狀的三元編碼中,相鄰兩個 digit 間的變化次數總和不得超過 4。」舉例如圖 2.13。此類樣式佔 ELTP(8,1)中的 1767 個,其中也包含了定義三中的樣式。 圖2.13 UELTP4 的部份樣式 經由實驗統計,在紋理影像中,上述定義三的uniform pattern 在圖中所佔的比例,最高可達 88%, 與LBP 定義中的 uniform pattern 出現的比例接近,由此引申出了以上述的 UELTP3 為基礎的降維方式, 即保留UELTP3 所佔的維度,而將非 UELTP3 的出現次數合併成一個維度。不過,由於 UELTP3 的樣 式數仍高達1067 個,因此又將這 1067 個樣式利用彼此 Hamming distance 的大小關係做分群,才能得 到合適的維度。 綜觀上述兩種以 uniform pattern 為基礎的降維方式,概念皆是利用較少的維度,保留圖中大部分 的資訊,然而一張影像中,uniform pattern 所佔的比例,無論使用上述的哪一種定義,皆無法到達百分 之百,換句話說,以 uniform pattern 作降維,就捨去了一定比例的資訊,這樣的處理方式實在還有改 善的空間。

另外,ELTP 以 uniform pattern 為基礎的降維方式中,還存在另一個問題,因為 uniform pattern 總

數仍有 1067 個,若比照 LBP 的作法,則降維後維度仍然很高,為了解決這個問題,在原作中,其使

用了分群的方式來達成,作法是以樣式間的 hamming distance 作為相似度的參考,再將彼此間較為相

(14)

00000000 與 22222222,其 Hamming distance 為 16,換句話說,所有樣式間的距離變化只有 16 種,是 可以改變其定義,而使得距離可以出現更多的變化?若是用 K-Means clustering 的方法做分群,是否會 發生每次分群的結果差異很大的情形,因而對其描述力及抗噪性造成影響,是否有更合理的演算法能 將這些uniform pattern 降維也相當值得探討。

3 延展式區域三元化圖型特徵描述子之比例式降維法

綜合先前所探討的區域化二元/三元特徵描述法與相關的幾種降維方式,各自均有其不適用或者可 改進之處。本研究的目的,即是針對ELTP 以 uniform pattern 為主的降維方式提出改善。進一步來說, 為了避免遺失非uniform 之樣式所提供的資訊,我們將影像中 uniform pattern 及非 uniform 之樣式出現 的比例加入考量,依據此比例在降維過程分配適當之維度,而這樣的做法在本研究中即稱為比例式降 維法(Commensurate Dimensionality Reduction, CDR)。此外,本研究也將進一步探討在樣式分群的部分, 提出其他可行的方式,並討論不同分群方式對描述力、抗噪性等造成的影響。以上問題與本研究提出 的對策將於本章各節分別說明。

3.1 統計 ELTP 中 uniform pattern 於影像中出現比例

ELTP 定義了四個等級的 uniform pattern,以 ELTP(8,1)來說,其 38=6561 個樣式中,這四類 uniform pattern 佔有的比例各有不同,整理如表 3.1。

表3.1 ELTP(8,1)各類 uniform pattern 於全部 6561 個樣式中佔有的比例

回顧 ELTP 中 uniform pattern 之定義,可以看出四類 uniform pattern 乃由嚴格至寬鬆,且存在著 ELTP1 UELTP2 UELTP3 UELTP4 的包含關係。我們將這個關係,以及表 3.1 的統計結果,以集合示 意圖來加以說明,如圖3.1 所示。其中各類 uniform pattern 所佔面積,表示其在所有樣式中佔有的比例。

類型 UELTP1 UELTP2 UELTP3 UELTP4

總數 115 171 1067 1767

(15)

接著統計的是這些uniform pattern 在影像中出現的比例,我們對 Brodatz 紋理資料庫中的所有影像 進行統計,得到各類uniform pattern 出現的平均比例,如表 3.2 所示。

類型 UELTP1 UELTP2 UELTP3 UELTP4

平均比例 31.25% 34.3% 78.58% 82.88%

表3.2 ELTP(8,1)各類 uniform pattern 在 Brodatz 紋理影像中出現的平均比例

我們將表3.2 的結果,同樣以集合示意圖的方式加以說明。如圖 3.2 所示,可以看出 uniform pattern 在紋理影像中佔有相當的比例,的確比其他樣式更具有代表性。

圖3.2 ELTP(8,1)各類 uniform pattern 在 Brodatz 紋理影像中出現的平均比例圖

此外,本研究也針對VOC2012 的測試影像共 16135 張,統計在這些影像中,各類 uniform pattern

出現的比例,結果可見於表3.3。這些影像包含了紋理以外數種不同類型的影像(參考圖 3.3),也由於影

像的種類變多了,導致 uniform pattern 在個別影像間出現比例的變動幅度也大了許多。不過,如結果

所示,平均來說,仍佔有相當的比例。因此,在這裡我們可以得到一個初步結論,即 uniform pattern

在紋理影像以外的各種不同類型的影像中,還是具有相當的代表性,值得適度地保留。

(16)

類型 UELTP1 UELTP2 UELTP3 UELTP4

平均比例 33.62% 36.03% 73.51% 79.35%

表3.3 ELTP 中各類 uniform pattern 在 VOC2012 影像中出現的平均比例

3.2 樣式間的距離定義

ELTP 在定義 uniform pattern 時,需牽涉到樣式間距離的計算,而在樣式分群的部份,也利用了樣 式間距離以定義相似度。在這兩個部分,ELTP 均採用了樣式間的 Hamming distance 做為距離的定義, 如此將存有一個潛在的問題,將在以下說明。 從分群的角度來看,ELTP(8,1)共有 6561 個樣式,而相異樣式間的距離,最近者為 1,如 11111111 與11111112;最遠者為 16,即 00000000 與 22222222,也就是說,樣式間的距離僅有 16 種變化,而既 然許多樣式間的相似度是一樣的,如此分群,將會造成這些相似的樣式,被分在不同群中的情形,如 此將很有可能影響到後續應用的準確性。 此外,從 ELTP 之定義來看,考慮影像受到些微雜訊干擾時,其特徵樣式的任一位數由 0 轉為 2 或由 2 轉到 0 的可能性是比較小的,因此,這類樣式在分群後便不應在同一群組中。舉例來說,影像 中某一點的特徵樣式為00000000,其受到雜訊影響後,特徵樣式轉為 00000011 的可能性將大於轉變為 00000002 的可能性,若要將這三個樣式分成兩群,則 00000000 與 00000002 便不應被分於同一群組, 然而在以 Hamming distance 做為樣式間距離的定義下,此三者彼此的距離均為 2,因此任兩者被分在 同一群的機率將同,無法反映出上述之差異。為此,我們採用新的樣式間距離定義,如式(3.1),此方 式我們稱之為H2 distance。 其中,N 為字串長度,ai、bi代表兩樣式的第i 位數值。在使用 H2 distance 之後,距離的變化最多將有 4*N 種,可望在分群的相似度計算中製造較多的變化,而獲得較佳的分群效果。

而為了讓樣式間距離的定義保持一致性,我們也定義以H2 distance 為基礎的 ELTP uniform pattern, 並統計 ELTP(8,1)中,重新定義後的 uniform pattern 的個數,及其在所有樣式中的比例,結果如表 3.4 所示,與表3.1 比較,僅 UELTP3 有所不同,其餘的則沒有變動。

類型 UELTP1 UELTP2 UELTP3 UELTP4

總數 115 171 731 1767

比例 1.75% 2.6% 11.14% 26.93%

表3.4 ELTP(8,1)以 H2 distance 定義之 uniform pattern 在 6561 個樣式中之比例

同時,也針對重新定義後的uniform pattern,在 Brodatz 紋理影像資料庫中出現次數的比例做出統

計,結果如表3.5 所示,同樣地,由於僅 UELTP3 的個數變少,僅有其在影像中出現的比例略為下降,

其餘則無變動。

類型 UELTP1 UELTP2 UELTP3 UELTP4

(17)

在後續的實驗中,本文將討論以Hamming distance 計算樣式間距離、以及使用上述 H2 distance 定 義,兩者在分群結果以及對於描述子辨識率等是否產生影響。

3.3 比例式降維法

回顧ELTP 的降維過程,可歸納成以下幾個步驟:

1. 選定參考點數 P、及欲取之維度 K(亦即降維之後之維度)

2. 取出 uniform pattern。而長度為 P 的三元樣式共有 3P個,依照ELTP 中定義的 uniform pattern,取 出第三種定義之uniform pattern (UELTP3),建立相似度矩陣。而樣式間的 Hamming distance 則為 定義兩兩相似度之依據。

3. 利用 spectral clustering 將 uniform pattern 分成 K-1 群。如此,同一群中的樣式在統計直方圖時即計 算至同一維度中,而非uniform 的樣式則全部合併成 1 個維度,故最終維度會是 K 維。 4. 在影像取出任一點的特徵後,即可利用第 3 步中得到的對應方式,將其原始得到的樣式對應到降 維後的維度,如此得到的影像特徵直方圖即是K 維。 接著,經由前兩節的統計資料,包含表3.1 至表 3.5,配合圖 3.1 與圖 3.2,我們可以觀察並整理出 以下特性:  UELTP1、2 的定義方式雖然不同,但是在統計資料中,兩者在影像中出現的比例十分接近,此由 圖3.2 中即可清楚地看出。再對照表 3.1 與表 3.2,可知 UELTP2 定義的樣式共 171 種,比 UELTP1 定義的115 種多了 56 種,但 UELTP2 在影像中出現的比例僅僅比 UELTP1 多出大約 3%,由此我 們便推論UELTP2 多出的 56 個樣式之貢獻度並不高。而同樣地,在 UELTP3、4 之間也存在類似 的現象,即UELTP4 比 UELTP3 多出的 700 個樣式之貢獻度也是較低的。  UELTP1 在影像中出現的比例約在 30%左右,雖然並不高,但考慮到 UELTP1 僅佔所有樣式中的 1.75%,相較於其他 98.25%的樣式來說,UELTP1 在影像中出現的比例才是所有樣式中最高的, 其在描述力上的意義亦十分重要。

 UELTP3 出現的比例約在 80%左右,與原始 LBP 定義的 uniform pattern 所佔的比例相近,而若從 Hamming distance 的觀點來看,環狀 LBP(8,1)樣式內的最大距離為 8(如 01010101),而其 uniform pattern 容許的距離為 2;對於環狀 ELTP(8,1)而言,樣式內的最大距離為 16(如 02020202),為 LBP 的兩倍,而UELTP3 容許的距離為 4,亦為 LBP 的兩倍,確實最為相容。

整合前述的初步實驗結果,我們可以發現到,ELTP 各類 uniform pattern 在不同影像中出現的比例

均落在一定的範圍內,我們將以此為根據定義一個系統化的降維方式。首先,回顧LBP 的作法,當決

定要使用uniform pattern 作為降維的方式後,因為其將非 uniform pattern 的資訊合併成為一個維度,因

此等同於捨棄了這部份將近 20%的資訊,此訊息量亦不在少數,或許在某些情況下正是關係到辨識結

果正確與否的關鍵。另一方面,若決定不使用 uniform pattern 作為降維方式時,意謂著這些在影像中 大量存在的樣式,與其他樣式被同等地看待,也就無法利用到 uniform pattern 背後代表的描述力。而 考慮了以上的情形,我們所定義出來的降維方式,將能夠兼顧到 uniform pattern 的特殊地位,同時保 留非uniform pattern 樣式中的資訊。

(18)

CDR),方法即是根據各類 uniform pattern 在影像中出現比例之統計資料,決定這些樣式所應分配的維

度。具體來說,由於在前述的觀察中,我們發現 UELTP2 比起 UELTP1 來說,在影像中出現的比例之

增幅不大,同樣地,UELTP4 比起 UELTP3 也有相同情形,因此我們將以 UELTP1 與 UELTP3 為主來

做區分並分配其維度。以下由圖 3.4 來做說明,圖中由內而外,橘色區域表示 UELTP1 之樣式、藍色 區域表示 UELTP3-UELTP1 之樣式,灰色區域表示其他樣式。為了方便稱呼,我們將這三個區域另外 命名為S1、S2、S3。而三個區域的面積,約略表示其包含的樣式在影像中出現的比例。若使用 H2 distance 做為距離的定義,則由表3.5 得知,UELTP1 及 UELTP3 在紋理影像中出現的比例為 31.25%與 67.82%, 換句話說,S1、S2、S3 的樣式出現比例分別是 31.25%、36.57%(67.82-31.25)及 32.18%(100-67.82)。接 下來便按照此比例分配維度,也就是說,降為後,S1、S2、S3 的樣式將獲得 31.25%、36.75%及 32.18% 的維度。 圖3.4 依出現比例將樣式分組的示意圖 依照上述規則,即可將 ELTP 的維度降至任意的需求上。以下表 3.6 舉例說明欲取 59、128、256 等維度時,依比例降維的維度分配方法。 表3.6 ELTP 以比例式降維法的範例

4 比例式降維法之實驗結果

第三章說明了比例式降維法,討論了使用不同降維方式可能造成的影響。本章將從實驗驗證其在各種 樣式集合 S1 S2 S3 出現比例 31.25% 36.57% 32.18% 欲取維度 59 18 22 19 128 40 47 41 256 80 94 82 分配維度

(19)

4.1 紋理影像辨識 本實驗將比較各種描述方法,在紋理影像辨識上的準確率。而測試資料,採用的是 Brodatz 紋理影 像資料庫中的影像,我們取出了其中相異度較大的36 張進行實驗,部分樣本如圖 4.1 所示。 圖4.1 紋理影像辨識實驗使用的部分樣本 這些測試影像的原始尺寸為 640x640,在實驗之前,為了增加樣本數目,我們在每張影像中,隨 機取出尺寸為96x96 的 patch 各 300 張,其中一半做為訓練樣本,一半做為測試樣本。 以下,將分成幾組進行實驗,比較各種方法的辨識準確率。而除了以測試樣本原圖實驗以外,也 將加入數種程度之雜訊,比較各種方法在影像到受雜干擾後的表現。而影像在受到雜訊干擾後的變化 如圖 4.2 所示,其中,左上角為原始影像,其餘影像中的數字為其訊噪比(SNR),圖中可看出 SNR 約 在30 以下即可明顯看出差異。此外,實驗中使用的分類器是以 RBF 為 kernel 之 SVM。 圖4.2 影像受到雜訊干擾後之變化

首先比較維度設定在59 維的 CDR-ELTP,與相同維度下之 ELTP,以及利用 uniform pattern 降維之 LBP。在以下將分別使用 CDR-ELTP-59、ELTP-58+1 以及 ULBP-58+1 表示之,結果如表 4.1 及圖 4.3 所示。

(20)

表4.1 各描述方式在影像受到不同雜訊干擾下的分類準確率 圖4.3 各描述方式在影像受到不同雜訊干擾下的分類準確率 由圖 4.2 中可以清楚的看出,在未加入雜訊的情況下,三種描述方式的分類準確率皆非常高,然 而加上了輕微的雜訊後,即可看出明顯的差異。首先,ELTP 對於雜訊,確實有高於 LBP 的容忍度。 另外,CDR-ELTP 的準確率也明顯高於其他兩者,可以說明,比例式降維法確實更精準的利用了 uniform pattern 帶來的描述力。 以下結果比較的則是CDR-ELTP 在 59 維、128 維及 256 維等不同維度之下的表現,如表 4.2 及圖 4.4 所示。 表4.2 CDR-ELTP 在不同維度下的表現

SNR ULBP-58+1 ELTP-58+1 CDR-ELTP-59

w/o noise 99.76 99.78 99.85 44.45 90.19 95.86 98.88 38.72 80.96 88.39 93.24 35.25 74.78 85.15 89.94 32.81 71.46 81.5 87.12 30.91 69.12 77.51 82.62

SNR CDR-ELTP-59 CDR-ELTP-128 CDR-ELTP-256 w/o noise 99.85 99.9 99.91 44.45 98.88 99.71 99.64 38.72 93.24 94.74 95.64 35.25 89.94 92.31 92.91 32.81 87.12 90.48 90.45 30.91 82.62 88.76 88.1

(21)

圖4.4 CDR-ELTP 在不同維度下的表現

由圖4.4 中可以看出,CDR-ELTP 的維度設定在 128 維及 256 維時,辨識率的表現均比 59 維佳。 而前兩者在不同程度的雜訊影響下互有高明,並沒有明顯差異。不過,若考慮到計算效能,CDR-ELTP 在128 維即有與 256 維差不多的表現,可以說 128 維是在此最佳的選擇。

接下來的實驗比較的是,在256 維的 CDR-ELTP 中,不同的樣式間距離定義對其造成的影響。也

就是比較以Hamming distance 及 H2 distance 做為樣式間距離的定義時,對描述力的影響。結果如表 4.3 及圖4.5 所示。 表4.3 CDR-ELTP 在不同樣式間距離下的表現 圖4.5 CDR-ELTP 在不同樣式間距離下的表現 SNR Hamming H2 w/o noise 99.91 99.96 44.30 99.89 99.98 42.11 99.91 99.93 39.63 99.43 99.74 37.34 97.17 98.11 35.06 94.43 95.48 33.49 91.89 93.83 30.74 87.96 90.59 29.16 84.89 88.56 27.85 81.48 86.50

(22)

從圖 4.5 來看,兩者在輕微雜訊下沒有明顯差異,而隨者雜訊程度加大,原始方法的辨識率下降 幅度明顯增大。此結果與之前討論的推測一致,即影像受到雜訊干擾時,特徵樣式編碼的任一位數, 由0 轉為 2 或由 2 轉到 0 的可能性應是較小的,而為了反應此情形設計的 H2 distance,確實於雜訊程 度較大時有較好的表現。 4.2 抗噪性實驗 在這個實驗中,將對紋理影像加入不同程度的雜訊後,取出其特徵,再與從原始影像中得到的特徵做 比較,計算影像加入雜訊前後,其特徵發生變化的次數,以及發生變化後,前後樣式編碼的Hamming distance 平均值。本實驗中將不會做後續的辨識,只單純比較各個描述法的抗噪性。 使用的影像為紋理影像辨識實驗中的 36 張影像。而在此對每張影像,隨機取出大小為 64x64 的

patch 各 16 張,如圖 4.6,為其中兩張所取出的 patch。而實驗將對所有的 patch,計算每張 patch 中的 特徵發生變化的平均次數,以及每個發生變化的像素,前後樣式編碼的Hamming distance 平均值。結 果如圖4.7 及圖 4.8 所示。 圖4.6 於影像中隨機取出的 patch 示意圖 在圖4.7 中,縱座標表示特徵發生變化的次數,在此可以看出,在輕微雜訊的情況下,ELTP 特徵 發生變化的次數,明顯少於 LBP。而雖然在雜訊較大的情況下,結果則呈現相反的情況,然而,此時 影像已遭到相當程度的破壞,比較也較無實際意義。

另外可以看出,使用uniform pattern 降維之 LBP 及 59 維之 ELTP,變化次數明顯小於其他描述方 法,此實為一合理的現象,這時由於其將非 uniform pattern 之樣式合併成一個維度後,即使原始的樣 式受到影響而改變了編碼,也很有可能因為降維的關係,又被分配至該維度中,而在此實驗中即表示 未受雜訊影響;而同樣的道理,也可以說明CDR-ELTP 中,維度較小者變化次數較低的原因。 0 500 1000 1500 2000 2500 3000 3500 44.25 40.88 37.68 34.78 32.19 29.89 27.82 25.98 SNR LBP ULBP-58+1 ELTP-58+1 CDR-ELTP-59 CDR-ELTP-128 CDR-ELTP-256

(23)

圖4.8 將最大距離正規化為 1 時,樣式編碼發生變化的平均距離

在圖 4.8 中,縱座標表示影像在受到雜訊干擾的情況下,前後特徵樣式編碼的 Hamming distance

平均值,為一標準化後的值。由於考慮到 ELTP 使用了三元編碼,換句話說,在樣式長度相同的條件

下,使用三元編碼的ELTP,其最大 Hamming distance 將為 LBP 的兩倍,因此我們對於計算出的距離, 令其除以其最大Hamming distance 值。也就是說 LBP 樣式的距離將被除以 8,ELTP 樣式的距離將被除 以16,如此將使 LBP、ELTP 的樣式間距離均介於 0 與 1 之間。而從結果來看,影像受到雜訊影像後, 前後 ELTP 樣式變化的平均距離,明顯地小於 LBP,而不同維度間的平均距離變化情形,則與前述的 原因相同。

4 結論及未來工作

本研究的主要目的,是改善 ELTP 的降維方式,使其在描述力或者抗噪性上有更好的表現。所提 出的方法,稱為比例式降維法。從實驗中可以證實,其在描述力與抗噪性的的表現均優於原始的降維 方式。而我們提出的H2 distance,更適合計算三元樣式間的距離,也進一步改善了 ELTP 的描述力。 目前我們正持續進行 ELTP 的改善,主要作法是納入模糊理論,由於使用模糊理論將影響計算效 能,也因此我們正積極發展GPU-based 的解決方案,希望能兼顧正確性與計算速度。

5 參考文獻

[1] T. Ojala, M. Pietikainen, and T. Maenpaa, “Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 24, no. 7, pp. 971-987, July 2002.

[2] D. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints,” Int'l J. Computer Vision, vol. 2, no. 60, pp. 91-110, 2004.

[3] H. Bay, A. Ess, T. Tuytelaars, L. V. Gool, “SURF: Speeded Up Robust Features”, Computer Vision and Image Understanding (CVIU), Vol. 110, No. 3, pp. 346--359, 2008.

[4] A. Alahi, R. Ortiz, P. Vandergheynst, “FREAK: Fast Retina Keypoint”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012.

(24)

[5] S. Leutenegger, M. Chli, R. Y. Siegwart, “BRISK: Binary Robust Invariant Scalable Keypoints”, IEEE International Conference on Computer Vision (ICCV), 2011.

[6] W. H. Liao, “Region Description Using Extended Local Ternary Patterns”, Proceedings of the 20th International Conference on Pattern Recognition, pp. 1003-1006, 2010.

[7] X. Tan and B. Triggs. “Enhanced local texture feature sets for face recognition under difficult lighting conditions”. In Analysis and Modeling of Faces and Gestures, volume 4778 of LNCS, pages 168–182. Springer, 2007.

[8] A. Shobeirinejad and Y. S. Gao, “Gender Classification Using Interlaced Derivative Patterns“, Proceedings of the 20th International Conference on Pattern Recognition, pp. 1509-1512, 2010. [9] T. Ojala, M. Pietikainen and T. Maenpaa, ”Multi-resolution Gray-scale and Rotation Invariant Texture

Classification with Local Binary Patterns”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24(7), pp.971-987. July 2002.

[10] M. Heikkilä, M. Pietikäinen and C. Schmid, “Description of Interest Regions with Center-Symmetric Local Binary Patterns”, Computer Vision, Graphics and Image Processing, Lecture Notes in Computer Science, 2006.

[11] N. P. Doshi, G. Schaefer, “A Comprehensive Benchmark of Local Binary Pattern Algorithms for Texture Retrieval”, International Conference on Pattern Recognition (ICPR), 2012.

[12] [16] Everingham, M., Van~Gool, L., Williams, C. K. I., Winn, J., Zisserman, A., “The PASCAL Visual Object Classes Challenge 2012 (VOC2012) Results”,

(25)

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價

值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)、是否適

合在學術期刊發表或申請專利、主要發現或其他有關價值等,作一綜合評估。

1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

■達成目標

□ 未達成目標(請說明,以

100 字為限)

□ 實驗失敗

□ 因故實驗中斷

□ 其他原因

本年度進行的研究是延續上一年度”延展式區域三元化樣式描述”的主題,更進

一步發展出適用於各類圖像的降維方法,並且在圖像辨識的實驗中都得到了更佳

的效果,在

2012 國際圖型識別會議(21st International Conference on Pattern

Recognition)發表時,得到不錯的迴響與熱烈的討論,而除了論文發表,本研究

提出的方法,特別適用於影像雜訊較高的情況,因此在實用面應可藉由後續的產

學合作,發展出效能佳的辨識核心。

2. 研究成果在學術期刊發表或申請專利等情形:

論文:■已發表 □未發表之文稿 □撰寫中 □無

專利:□已獲得 □申請中 □無

技轉:□已技轉 □洽談中 □無

其他:

(以

100 字為限)

共有一篇論文發表於國際會議:

1. W. Liao, "Commensurate dimensionality reduction for extended local ternary

patterns", Proceedings of the 21st International Conference on Pattern

(26)

3. 請依學術成就、技術創新、社會影響等方面,評估研究成果之學術或應用價

值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)(以

500 字為限)

本研究所提出之 CDR-ELTP,乃延續去年度的計畫(extended local ternary

pattern),提出更深入的探索與改進方案,目的是在不增加太多計算資源的

前提下,改善原有方法之抗噪性與描述力,使其適用於各類的圖像。

本年度的計畫,針對圖像特性、距離定義、分群方式與新的 uniform pattern

觀點,進行深度探討,所發展的演算法,經實驗驗證在材質分類、特徵描述

等都得到了具體的改進。

以學術貢獻而論,目前本研究之成果已發表於 International Conference on

Pattern Recognition (ICPR 2012),提出之立論獲與會者的高度贊同與回

響,後續的一些成果正在整理當中,將有更多的發表出現。

(27)

行政院國家科學委員會補助國內專家學者出席國際學術會議報告

101 年 11 月 30 日 報告人姓名 廖文宏 服務機構 及職稱 國立政治大學資訊科學系 助理教授 時間 會議 地點 11/11/2012-11/15/2012 日本 筑波市 本會核定 補助文號 100-2221-E-004-015- 會議 名稱 (中文) 第二十一屆國際圖型識別研討會

(英文)21st International Conference on Pattern Recognition 發表

論文 題目

(中文) 通用區域三元化樣式的等比例降維法

(英文) Commensurate Dimensionality Reduction for Extended Local Ternary Patterns

一、參加會議經過

兩年一度的國際圖型識別研討會,至今已堂堂邁入第二十一屆,進入第四十二個 年頭。這次的會議在距離日本首都東京約一小時車程的筑波科學城(Tsukuba Science City)舉辦,筑波位於日本茨城縣的南部,是日本科研的重鎮,除了著名 的筑波大學,另外日本有許多政府與企業的研究機構也都設在此處,值得一提的 是,由於筑波的地理位置位在東日本,因此在 Call for paper 文件與官網都一再 強調該地並無輻射汙染,以免想要投稿的學者有所疑慮。 往年的國際圖型識別研討會,有在八月舉行,也有遲到年底才辦,為了配合本次 的行程,故將執行的國科會計畫期限展延,而國科會相關的作業也相當具有彈性, 服務更人性化,值得讚賞。 會議舉辦日期是 11/11-11/15,其中 11 日主要是辦 Tutorial 與競賽,其中競賽 部分有六個分項,兩項與生物醫學相關,另外四項則與安全監控、人體動作分析

(28)

相關。

 Mitosis Detection in Breast Cancer

 People tracking in wide baseline camera networks  Human activity recognition and localization  CHALEARN Gesture Challenge

 HEp-2 Cells Classification

 Kitchen Scene Context based Gesture Recognition

由於本人的報告排定在周四上午,因此抵達日本後先於東京停留,之後於周一才 轉至筑波國際會議中心參加會議。該會議中心相當寬敞,而且 Parallel session 分數個樓層進行,因此參加人數雖眾,但會場感覺不出擁擠的狀況,同時在主會 場旁設有各公司的 demo,其中內嵌於螢幕的眼動儀與掃描校正系統的功能令我 印象深刻。 正式開幕的第一天早上安排了三場演講,分別是:

1. K.-S. Fu Prize Lecture: Dictionaries, Manifolds and Domain Adaptation

Methods: New Solutions to Old Problems in Pattern Recognition (Rama Chellappa)

2. J. K. Aggarwal Prize Lecture: Generalized Principal Component

Analysis (GPCA) and Sparse Subspace Clustering (SSC) (René Vidal)

3. Keynote Lecture: First-Person Vision (Takeo Kanade)

其中前兩位是獲獎者的演講,第三位 Keynote 主講人則是任教於 CMU 的金出 武雄博士,他所提出「第一人稱」視覺的概念,令人耳目一新,也啟發了新的演 算法、新設備與新應用的開展。 第一天下午之後,回歸到一般研討會的型態,共有五個平行場次,海報展示與報 告則另外獨立出時段,避免時間過多重疊,可惜海報報告的時間太短,經常無法 暢所欲言,建議主辦單位可以針對這個問題進行調整與改善。 由於平行場次數量不少,因此大會手冊與論文集成了很好的參考資料,選擇場次 主題的標準,不外乎與本身從事之研究議題相關,或有若干新發展趨勢而未能細 細研讀者,可藉由發表人的報告快速進入狀況,比自己研究來的省時、省力,不 過這樣一天四場下來,也會覺得有些些體力與腦力的過度負荷狀況。

參 與 及 有 興 趣 的 場 次 略 整 理 於 下 :Kernel Method (Monday afternoon) 、 Classification (Tuesday morning) 、 Image and Shape Features (Tuesday afternoon) 、 Invited Talk Session-III(Wednesday morning) 、 Computational

(29)

Photography(Wednesday morning) 、 Surveillance and Security(Wednesday afternoon) 、 Texture and Saliency(Wednesday afternoon) 、 Scene Text (Thursday morning)。報告中有來自國內中研院、清華大學等學者。 星期四(11/15)早上的報告,當然是這次與會的重頭戲,Poster Shotgun 的時間 實在太緊湊,還好後續有約兩個半小時的 poster session,容許更深入的交流, 本人的論文發表,約有 10 位研究者前來詢問與討論,其中有一位正在進行各式 區域二元化樣式的比較,對於本人提出的方法甚感興趣,花了不少時間了解細節, 我也一一說明解釋,相談甚歡。 Poster session 進行一段落後,還是利用時間參加其他的口頭報告,下午則到筑 波大學春日校區一遊,體會這間學府的學術氣息。 二、與會心得 ICPR 的歷史悠久,每兩年舉辦一次的會議參與人數十分踴躍(二千人),而討論 議題也十分多元,每次參加都有豐富的收穫,在將論文稍做整理分類後,會在每 周實驗室的 meeting 中讓研究生報告。 此次會議在亞洲地區舉行,來回機票預算不高,因此得以使用國科會經費,與博 士班研究助理林明慶同學一同參與盛會,林同學表示此行大開眼界,收穫良多, 看到其他也是博士班階段的報告人台風穩健,有條有理,甚表佩服,認為有為者 亦若是,我則多加鼓勵,請他加快研究步調,多參與相關的大型國際會議,可惜 下一屆(22 屆)的 ICPR 將在瑞典的斯德哥爾摩,即使投稿錄取,大概也只有一人 能成行了。 三、建議 因配合會議日期,展延計畫執行期限,感謝國科會頗富彈性的計劃變更政策與程 序,使得參與本次會議之經驗順利成功。 四、攜回資料名稱及內容 第二十一屆國際圖型識別研討會論文集(USB 隨身碟)

(30)

國科會補助計畫衍生研發成果推廣資料表

日期:2013/02/22

國科會補助計畫

計畫名稱: 基於三元化樣式的通用型區域特徵描述方法 計畫主持人: 廖文宏 計畫編號: 100-2221-E-004-015- 學門領域: 圖形辨識

無研發成果推廣資料

(31)

100 年度專題研究計畫研究成果彙整表

計畫主持人:廖文宏 計畫編號:100-2221-E-004-015-計畫名稱:基於三元化樣式的通用型區域特徵描述方法 量化 成果項目 實際已達成 數(被接受 或已發表) 預期總達成 數(含實際已 達成數) 本計畫實 際貢獻百 分比 單位 備 註 ( 質 化 說 明:如 數 個 計 畫 共 同 成 果、成 果 列 為 該 期 刊 之 封 面 故 事 ... 等) 期刊論文 0 0 100% 研究報告/技術報告 0 0 100% 研討會論文 0 0 100% 篇 論文著作 專書 0 0 100% 申請中件數 0 0 100% 專利 已獲得件數 0 0 100% 件 件數 0 0 100% 件 技術移轉 權利金 0 0 100% 千元 碩士生 2 1 100% 博士生 1 1 100% 博士後研究員 0 0 100% 國內 參與計畫人力 (本國籍) 專任助理 0 0 100% 人次 期刊論文 0 0 100% 研究報告/技術報告 0 0 100% 研討會論文 1 1 100% 篇 論文著作 專書 0 0 100% 章/本 申請中件數 0 0 100% 專利 已獲得件數 0 0 100% 件 件數 0 0 100% 件 技術移轉 權利金 0 0 100% 千元 碩士生 0 0 100% 博士生 0 0 100% 博士後研究員 0 0 100% 國外 參與計畫人力 (外國籍) 專任助理 0 0 100% 人次

(32)

其他成果

(

無法以量化表達之成 果如辦理學術活動、獲 得獎項、重要國際合 作、研究成果國際影響 力及其他協助產業技 術發展之具體效益事 項等,請以文字敘述填 列。) 無 成果項目 量化 名稱或內容性質簡述 測驗工具(含質性與量性) 0 課程/模組 0 電腦及網路系統或工具 0 教材 0 舉辦之活動/競賽 0 研討會/工作坊 0 電子報、網站 0 目 計畫成果推廣之參與(閱聽)人數 0

(33)

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價

值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)

、是否適

合在學術期刊發表或申請專利、主要發現或其他有關價值等,作一綜合評估。

1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

■達成目標

□未達成目標(請說明,以 100 字為限)

□實驗失敗

□因故實驗中斷

□其他原因

說明:

2. 研究成果在學術期刊發表或申請專利等情形:

論文:■已發表 □未發表之文稿 □撰寫中 □無

專利:□已獲得 □申請中 ■無

技轉:□已技轉 □洽談中 ■無

其他:(以 100 字為限)

3. 請依學術成就、技術創新、社會影響等方面,評估研究成果之學術或應用價

值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)(以

500 字為限)

本年度進行的研究是延續上一年度''''延展式區域三元化樣式描述''''的主 題,更進一步發展出適用於各類圖像的降維方法,並且在圖像辨識的實驗中都得到了更佳 的 效 果 , 在 2012 國 際 圖 型 識 別 會 議 (21st International Conference on Pattern Recognition)發表時,得到不錯的迴響與熱烈的討論,而除了論文發表,本研究提出的方 法,特別適用於影像雜訊較高的情況,因此在實用面應可藉由後續的產學合作,發展出效 能佳的辨識核心。

數據

圖 2.11 UELTP2 的部份樣式
表 3.1 ELTP(8,1)各類 uniform pattern 於全部 6561 個樣式中佔有的比例
圖 3.2 ELTP(8,1)各類 uniform pattern 在 Brodatz 紋理影像中出現的平均比例圖
表 3.3 ELTP 中各類 uniform pattern 在 VOC2012 影像中出現的平均比例
+4

參考文獻

相關文件

全國人民代表大會常務委員會在徵詢其所屬的香港特別行政區基本法委

Keywords: pattern classification, FRBCS, fuzzy GBML, fuzzy model, genetic algorithm... 第一章

regardless of the absolute hardness of the induced binary prob., optimality in binary classification =⇒ optimality in ordinal ranking reduction does not introduce additional

Tekalp, “Frontal-View Face Detection and Facial Feature Extraction Using Color, Shape and Symmetry Based Cost Functions,” Pattern Recognition Letters, vol.. Fujibayashi,

‹ Namespace 關鍵字, 它會將所定義的名稱 區域化, 只有在該區域時方能看到在該區 域中所定義的名稱, 因此其許可同樣的名

grep - print lines matching a pattern. $ grep [OPTIONS]

regardless of the absolute hardness of the induced binary prob., optimality in binary classification =⇒ optimality in ordinal ranking reduction does not introduce additional

首先遊戲廠商將 Master Server 啟動。第一台 Local Game Server 啟動後,向 Master Server 登入,Master Server 會告知這台 Local Game Server