• 沒有找到結果。

基於區域模糊樣式的特徵描述方式

N/A
N/A
Protected

Academic year: 2021

Share "基於區域模糊樣式的特徵描述方式"

Copied!
33
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 期末報告

基於區域模糊樣式的特徵描述方式

計 畫 類 別 : 個別型 計 畫 編 號 : NSC 101-2221-E-004-009- 執 行 期 間 : 101 年 08 月 01 日至 102 年 07 月 31 日 執 行 單 位 : 國立政治大學資訊科學系 計 畫 主 持 人 : 廖文宏 計畫參與人員: 碩士班研究生-兼任助理人員:劉嘉瑜 碩士班研究生-兼任助理人員:翁苡甄 博士班研究生-兼任助理人員:林明慶 報 告 附 件 : 出席國際會議研究心得報告及發表論文 公 開 資 訊 : 本計畫可公開查詢

中 華 民 國 102 年 10 月 28 日

(2)

中 文 摘 要 : 區域樣式其各種變型被廣泛應用於物件辨識中的特徵描述, 然而現有的區域特徵描述方式(無論是二元或三元樣式),因 採用門檻值決定編碼的對應,因此當參考點像素值與中心點 差異接近該門檻時,易受雜訊干擾而產生編碼的差異,先前 我們所發展與定義的延展式區域三元化樣式,也呈現同樣的 狀況。 為了克服上述問題,本研究導入模糊邏輯,建構更具抗噪力 的樣式描述方法,而導入的時機點有二,一是將模糊理論應 用於編碼的過程中,改用成員函式的方法進行樣式之編碼(稱 為 Fuzzy ELTP);二是應用於降維的階段,即用模糊化的分 群法(如 fuzzy c-means)取代原步驟中的分群法(稱為 FCM-ELTP)。 我們研究了以上兩類區域模糊特徵描述子的特性,並針對其 抗噪性、描述力與通用性進行深度的分析與廣泛的實驗,以 驗證此類圖像描述方法之效能,並與現有的各種特徵描述 法,含 LBP、ELTP、CDR-ELTP 等相互比較,結果顯示使用 Fuzzy ELTP,在各項指標上均有明顯的勝出,而使用 FCM-ELTP 則效果較為普通。 由於模糊理論帶來相當程度的優勢,本研究亦將模糊理論與 三元化及的概念,套用至區域二元化樣式的各種變型,以定 義更多樣化的區域圖像描述方法。此外,由於第一個導入模 糊樣式(即 Fuzzy ELTP)的機制,將造成運算量大幅增加,本 研究也提出了基於 NVIDIA 的 CUDA 平台平行處理相關運算的 方法,以加快整體速度。 中文關鍵詞: 特徵描述、區域二元化樣式、延展式區域三元化樣式、模糊 樣式、平行運算

英 文 摘 要 : Local binary/ternary patterns are widely employed to describe the local structure of an image. However, local patterns are very sensitive to noise due to the thresholding process. Extended local ternary patterns (ELTP) have been shown to exhibit better noise

resistance. Yet the ternarization process introduces discontinuities near the threshold values and results in abrupt changes in the generated ternary patterns. In this research, we proposed and tested two

(3)

extended local ternary patterns to enhance the robustness of this class of operator to

interferences. The first approach replaces the

ternary mapping mechanism with fuzzy member functions to arrive at a fuzzy ELTP representation. The second approach modifies the clustering operation in

formulating ELTP to a fuzzy c-means procedure to construct soft histograms in the final feature representation, denoted as FCM-ELTP.

The newly defined local fuzzy descriptors have been extensively tested to analyze their universality, discriminability, and noise sensitivity. Comparative performance analysis of the original LBP, ELTP and the newly proposed fuzzy ELTP and FCM-ELTP has been conducted. Experimental results indicated that fuzzy ELTP yielded the best outcome, while FCM-ELTP

demonstrated mediocre performance in most test cases. We utilized fuzzy theory along with the concept of ternarization to various derivatives of local binary pattern to generate more versatile local fuzzy

descriptors. Additionally, to address the

computational requirement in formulating fuzzy ELTP, we take advantage of the GPU and employ CUDA-based mechanism to speed up the processing.

英文關鍵詞: feature descriptor, local binary pattern, extend local ternary pattern, local fuzzy pattern, GPU processing

(4)

行政院國家科學委員會補助專題研究計畫

■成果報告

□期中進度報告

基於區域模糊樣式的特徵描述方式

計畫類別:■個別型計畫 □整合型計畫

計畫編號:NSC 101-2221-E-004-009-

執行期間: 101 年 8 月 1 日至 102 年 7 月 31 日

執行機構及系所:國立政治大學資訊科學系

計畫主持人:廖文宏

共同主持人:

計畫參與人員:林明慶、劉嘉瑜、翁苡甄

成果報告類型(依經費核定清單規定繳交):■精簡報告 □完整報告

本計畫除繳交成果報告外,另須繳交以下出國心得報告:

□赴國外出差或研習心得報告

□赴大陸地區出差或研習心得報告

■出席國際學術會議心得報告

□國際合作研究計畫國外研究報告

處理方式:除列管計畫及下列情形者外,得立即公開查詢

□涉及專利或其他智慧財產權,□一年□二年後可公開查詢

中 華 民 國 102 年 10 月 26 日

(5)

基於區域模糊樣式的特徵描述方式

摘要

區域樣式其各種變型被廣泛應用於物件辨識中的特徵描述,然而現有的區域特徵描

述方式(無論是二元或三元樣式),因採用門檻值決定編碼的對應,因此當參考點像

素值與中心點差異接近該門檻時,易受雜訊干擾而產生編碼的差異,先前我們所發

展與定義的延展式區域三元化樣式,也呈現同樣的狀況。

為了克服上述問題,本研究導入模糊邏輯,建構更具抗噪力的樣式描述方法,而導

入的時機點有二,一是將模糊理論應用於編碼的過程中,改用成員函式的方法進行

樣式之編碼(稱為 Fuzzy ELTP);二是應用於降維的階段,即用模糊化的分群法(如

fuzzy c-means)取代原步驟中的分群法(稱為 FCM-ELTP)。

我們研究了以上兩類區域模糊特徵描述子的特性,並針對其抗噪性、描述力與通用

性進行深度的分析與廣泛的實驗,以驗證此類圖像描述方法之效能,並與現有的各

種特徵描述法,含

LBP、ELTP、CDR-ELTP 等相互比較,結果顯示使用 Fuzzy ELTP,

在各項指標上均有明顯的勝出,而使用

FCM-ELTP 則效果較為普通。

由於模糊理論帶來相當程度的優勢,本研究亦將模糊理論與三元化及的概念,套用

至區域二元化樣式的各種變型,以定義更多樣化的區域圖像描述方法。此外,由於

第一個導入模糊樣式(即 Fuzzy ELTP)的機制,將造成運算量大幅增加,本研究也提

出了基於

NVIDIA 的 CUDA 平台平行處理相關運算的方法,以加快整體速度。

關鍵字:特徵描述、區域二元化樣式、延展式區域三元化樣式、模糊樣式、平行運算

(6)

Feature Description Using Local Fuzzy Patterns

Abstract

Local binary/ternary patterns are widely employed to describe the local structure of an image. However, local patterns are very sensitive to noise due to the thresholding process. Extended local ternary patterns (ELTP) have been shown to exhibit better noise resistance. Yet the ternarization process introduces discontinuities near the threshold values and results in abrupt changes in the generated ternary patterns.

In this research, we proposed and tested two different approaches to incorporate fuzziness in extended local ternary patterns to enhance the robustness of this class of operator to interferences. The first approach replaces the ternary mapping mechanism with fuzzy member functions to arrive at a fuzzy ELTP representation. The second approach modifies the clustering operation in formulating ELTP to a fuzzy c-means procedure to construct soft histograms in the final feature representation, denoted as FCM-ELTP.

The newly defined local fuzzy descriptors have been extensively tested to analyze their universality, discriminability, and noise sensitivity. Comparative performance analysis of the original LBP, ELTP and the newly proposed fuzzy ELTP and FCM-ELTP has been conducted. Experimental results indicated that fuzzy ELTP yielded the best outcome, while FCM-ELTP demonstrated mediocre performance in most test cases.

We utilized fuzzy theory along with the concept of ternarization to various derivatives of local binary pattern to generate more versatile local fuzzy descriptors. Additionally, to address the computational requirement in formulating fuzzy ELTP, we take advantage of the GPU and employ CUDA-based mechanism to speed up the processing.

Keywords:feature descriptor, local binary pattern, extend local ternary pattern, local fuzzy pattern, GPU processing.

(7)

基於區域模糊樣式的特徵描述方式

1. 研究背景及目的

電腦視覺是資訊科學的一個重要領域,其中在圖像處理與分析方面,隨著網路的進步及近來智慧 型行動平台的普及,發展出了更多元的應用,如圖片搜尋、文字辨識、相片標記、擴增實境或內容分 類等,而這些應用均建構在物件辨識的基礎之上。 在一個物件辨識系統中,特徵描述為其中一個重要的關鍵,對於辨識結果的正確率有很大的影響。 人類可依照過去吸收的經驗來理解眼前所見的景象,知道其中包含的事物、隱藏的意涵等;然而影像 對於電腦來說,基本上只是一串動輒數百萬個位元組的資料,要讓電腦能夠準確分析一張影像,就要 先將這些資料轉化成對其有意義的特徵,而這正是特徵描述所擔負的基本任務。 對於特徵描述方法而言,其描述力的強弱將直接反映在應用於物件辨識時的準確率;另外,目前 流行的數位攝影器材,所擷取的影像容易受到雜訊影響,而與實際影像有些許差異,因此,特徵描述 的抗噪性,也就是其受到雜訊干擾影響的程度,亦是衡量其表現的標準之一;此外,在圖像數量急遽 成長的今日,不管是個人收藏或資料庫應用,影像的資料量都較以往增加很多,因此計算效能也成為 考量的因素之一。 以上所述,關於特徵描述如何提升描述力、抗噪性及計算效能等,一直是許多學者感興趣的研究 主題。在過去兩年的國科會專題計畫提案中,我們首先提出了基於三元化圖型樣式的區域特徵描述方 法,改善近來常被選用的區域二元化樣式(local binary patterns, LBP),從理論分析與各項實驗比較,驗 證了延展式區域三元化樣式(extended local ternary patterns, ELTP)在抗噪性、描述力與計算效率方面的 優越性[1,2]。之後,我們針對 LBP/ELTP 的各種降維方式,進行全面性的分析與探討,並提出基於特 定樣式群組出現於圖像中統計值的比例式降維法則,在給定的維度限制下,適度分配予各個群組相當 的維度,避免過度強調 uniform pattern 的角色,而忽略其他樣式的貢獻,初步實驗的結果顯示這樣的 做法可再進一步提升辨識的準確度,尤其是針對一般性(非材質為主)的圖像資料庫,效果更為明顯[3]。 雖然針對延展式三元化樣式之探索,到目前已獲得相當多正面的成果,然在過程當中我們又發掘 了若干研究議題,值得後續深入探討,在我們進一步闡明這些主題前,首先讓我們檢視目前 ELTP 的 定義與相關的演算法。 ELTP 的編碼方式將中心點像素值與其鄰點像素值的關係分為三類(如圖一),兩者差值大於門檻值 設為 2,接近設為 1,差值小於 設為 0,如公式(1)。其中是根據 local statistics 動態調整,如公 式(2),是在設定區域中像素值的標準差,min 是為了避免在平滑區域(flat regions)時的狀況發生

。 (1) } ( ) (2)

(8)

圖一: 三元化的關係定義 以圖二的影像區塊為例,將 設為 0.3,則門檻值 = 25.94×0.3=7.7, 因此根據公式(1),得到的 三元樣式為:22110011。 圖二: 三元化樣式的編碼流程 由於 ELTP 使用三元編碼,其直方圖的維度比同樣長度的二元編碼高出許多,例如 LBP(P,R)的維 度為2P,而ELTP(P,R)的維度高達 3P,因此如何處理維度問題,成為ELTP 是否實用的關鍵。我們先前 所提出的解決方案,是利用ELTP 三元字串間的 Hamming distance,來決定合併哪些 ELTP 為一群,降 維演算法如圖三,但由於樣式並無幾何中心的概念,只有兩兩之間的相似度,因此我們使用 spectral clustering 來進行分群。

圖三: ELTP 的降維演算法

審視ELTP 的定義方式,我們可以發現 mapping function(圖一)在 處仍有不連續性,也就是一 旦選定門檻值(無論用經驗法則或統計方式),會使得像素值差異接近門檻值的點在編碼時,極有可能因 為雜訊的影響,而使得編碼結果有所改變。舉例而言,將圖二中的49 改為 45 時, = 27.59×0.3=8.28, 而使得新的編碼方式變成 22100011,將 45 再微幅修改為 46 時,編碼方式會再回復成 22110011,如 圖四。

S1. Choose P (sample points) and K (histogram size)

S2. Form a 3^P×3^P affinity matrix using Hamming distance based similarity measure.

S3. Perform a K-way partition of the 3^P patterns using normalized spectral clustering algorithm.

S4. Merge those patterns belonging to the same partition into a single bin in the histogram.

(9)

78

99

50

54

54

45

57

12

13

圖四: ELTP 在像素值差異接近門檻值的點造成不同的編碼結果

如何處理這樣的問題? 我們可以導入模糊邏輯(fuzzy logic)法則,將原先的對應函式(圖一)改為成 員函式(membership function),如此一來在門檻值附近的不連續性問題就不復存在,而是根據 degree of membership 比例分配給對應的樣式值,進而處理了因些微雜訊干擾而產生編碼異動的狀況。

除了上述方法可導入模糊理論,在ELTP 原始定義中的 mapping function 也可修改為模糊邏輯中的 成員函式,進而定義Fuzzy c-means ELTP (FCM-ELTP)。本計畫將分別探討 fuzzy ELTP 與 FCM-ELTP 的定義方式與其特性,並檢驗其融合了模糊理論之後,在描述力、抗噪性、效能等各方面的表現。具 體而言,本研究的主要貢獻如下:

1. 根據模糊邏輯(fuzzy logic)法則,定義模糊化的延展式三元化樣式(fuzzy extended local ternary patterns, Fuzzy ELTP),並驗證其描述力、抗噪性、效能與普遍適用性。

2. 在分群演算法中導入 fuzzy c-means 概念,定義另一種形式的特徵描述方法: FCM-ELTP,並驗證其 描述力、抗噪性、效能與普遍適用性。

3. 開發基於 CUDA 的平行運算演算法,以加速 Fuzzy LBP 與 Fuzzy ELTP 之計算效能。

4. 將模糊邏輯的概念套用至各種 LBP 變型,如不同 kernel 大小的 LBP 、具旋轉不變性的的 LBP (rotation-invariant LBP)、 多重解析度的 LBP(multi-scale LBP)、內含機率資訊的 Bayesian LBP、動態圖 像的LBP (LBP-TOP)、中心對稱型(center-symmetric LBP)等,使區域模糊樣式描述方式更為多樣化。

本研究報告於第二章將介紹與本文相關的模糊理論與模糊二元化樣式描述法。第三章將介紹模糊 化的延展式三元化樣式(fuzzy ELTP)與 FCM-ELTP,第四章為針對區域模糊樣式所進行之實驗,最後第 五章則敘明結論以及未來展望。

2

2

1

1

0

1

0

0

2

2

1

1

1

1

0

0

78

99

50

54

54

46

57

12

13

(10)

2. 相關研究

本章節將探討導入模糊理論的區域二元化樣式之具體作法,並指出可改進之處,以做為後續修正 時的參考基礎。

2.1. Fuzzy Local Binary Patterns (Fuzzy LBP)

Fuzzy LBP 的概念乃由 Ahonen 等學者所提出[4],該方法使用 soft histogram 來取代原先的直方圖 特徵。由於原始的LBP 在編碼時,利用中心點的像素值做為門檻值,對周圍的參考點進行編碼,且其 編碼值非 0 即 1,如此若參考點的像素值過於接近於門檻值,則一旦受到雜訊影響,即使是輕微的雜 訊,也很容易產生不同的編碼結果,進而影響到用來代表影像特徵的直方圖。針對這個問題,可利用 兩個模糊成員函式來定義編碼的方式,如式(3): (3) 其中,z 為參考點與中心點像素值的差,d 為一選定的值,表示模糊的程度,而其中的 f1、f0即表示該 點編碼屬於1 或 0 的程度,如圖五。 圖五 成員函式 f1(z)、f0(z) 如上所述進行編碼後,可得出該點被歸類成各個圖樣的成分大小,因此在統計直方圖時,會將其 貢獻依照比例分佈至數個值之間。如此可以保證當編碼後的樣式若受到些微變化,對直方圖造成的改 變也將很小。 以圖六為例,使用原先的 LBP 編碼方式得到的結果是 111000102=22610,但導入模糊邏輯並使用 圖五的成員函式定義,將得到兩組樣式: 111000102=22610與 111000112=22710,且分配至直方圖之權重 各為 0.5,而當像素值有些微變化時,權重調整的幅度將會隨著成員函式有所連動,不再有不連續的 狀況發生。

(11)

圖六 導入模糊理論後的 LBP 樣式與其權重

與原始的 LBP 比較,此方法在加入雜訊干擾的情況下,表現應當較好,然而付出的代價是計算複 雜度,因為原先每一個 kernel 只會對應一個樣式,但引入模糊邏輯後,每一個 kernel 最多會產生 2P 種樣式(P 是周圍的鄰點數或樣本數),且其權重每次都需代入成員函式計算,因此相當耗費時間,違反 了原先LBP 設計的理念:「簡易而快速」,而類似的區域模糊樣式(local fuzzy patterns)在辨識準確度改善 的幅度是否值得投入計算資源,抑或有快速運算的解決方案,在相關的文獻中缺乏系統化的探討[5,6], 是本研究欲補足的部分。

3.

導入模糊理論的延展式區域三元化圖型特徵描述方法

本研究的目標是建構基於模糊理論的區域模糊樣式,而導入的時機點有二,一是將模糊理論應用 於編碼的過程中,改用成員函式的方法進行樣式之編碼(稱為 Fuzzy ELTP);二是應用於降維的階段, 即用模糊化的分群法(如 fuzzy c-means)取代原步驟中的分群法(稱為 FCM-ELTP)。我們將探討 Fuzzy ELTP 與 FCM-ELTP 的具體定義方式,根據探討其特性,並進行各類實驗,檢驗此類圖像描述方法之 效能。以下先介紹定義方式與特性討論。

3.1 使用模糊化的成員函式定義之 Fuzzy ELTP

原始的ELTP 編碼中,若參考點與中心點的像素值差距在門檻值附近時,一旦受到雜訊干擾,則其 編碼很有可能受到影響而改變。針對此點,本計畫將ELTP 的編碼方式改以成員函式的表示法,根據 圖七及式(4)到式(6)所示計算 degree of membership (DOM):

1

1

1

0

0

1

0

0

78

99

70

54

54

46

60

12

13

1

1

1

1

0

1

0

0

0.5

0.5

(12)

圖七 模糊化的 ELTP 成員函式 f0f1f2 其中z 為周圍參考點與中心點的像素值差,d 為原始 ELTP 中之門檻值,而 H 則用以表示模糊化的 程度。而根據式(4)到式(6),每個參考點將被編碼成為 的形式,若假設所選的參考點 個數為P,則最後可以得到長度為 P 的 fuzzy ternary pattern。

舉例而言,圖八中的區塊若設定H=8 而 d=4,則在像數值=60(即 z=60-54=6)這個參考點的編碼為

(0, 0.5, 0.5),也就是將有 0% 的成分指定給 “0” ,50%的成分指定給 “1” 與 50%的成分指定給 “2”, 而當鄰點數增加時,可能出現的樣式排列組合也會變得更多,不過由於圖七中的 與 間並無交 集,因此 的 triplet 中必有一項為 0。1

圖八 Fuzzy ternary pattern 定義之簡易範例

1

(13)

在計算樣式對直方圖的貢獻度時,必須考慮到每一個 fuzzy pattern 都有可能不完全屬於唯一一個 ternary pattern,而是同時貢獻給許多個 ternary pattern。其計算方法如下,假設參考點的個數為 P,則 共有3P個相異ternary pattern,對一個長度為 P 的 fuzzy pattern,可以透過下列式(7)計算其對第 m 個 ternary pattern 的貢獻: (7) 其中, 、 、 表示在第i 個參考點所得到的編碼, , , ,而 表示的是第m 個 ternary pattern 當中,第 i 位數的值。而由上式 (7),可以看出: (8)

也就是說,雖然每個fuzzy pattern 可能對多個 ternary pattern 均有貢獻,但其貢獻的總值必為 1。 此外,由式(8)可以看出,理論上每一個 fuzzy pattern 都有可能貢獻給最多 3P個ternary pattern,但 由圖七關於成員函式的定義,可以保證任何時候都不可能存在一個元素同時包含 0 和 2 這兩個成員, 利用這點性質,在實做時可以篩除部分組合的可能性,而不必計算對於全部3P個ternary pattern 的貢獻 度。而在最佳的情況下,僅需計算 2P個可能的貢獻度,不過即使如此,計算量仍然較 ELTP 要多出了 許多,針對此問題,我們在將使用 Nvidia 所推出的 CUDA 平行運算架構[7],開發基於圖形處理器 (GPU) 加速的fuzzy ELTP 演算法,相關細節將於後續段落敘明。

3.2 在分群過程加入模糊化機制: Fuzzy C-means + ELTP (FCM-ELTP)

ELTP 結合模糊化的成員函式,使得計算過程複雜了許多,是否有其他方式導入模糊邏輯,使得 ELTP 在結合模糊理論優點的同時,仍然維持原來的計算複雜度?審視 ELTP 降維流程所使用的分群演 算法,基本上假設每一個樣式歸屬於單一群組,若於此應用模糊化分群法,使得資料點不再屬於某一 個特定的群組,而是以degree of membership 來表示其屬於每個群組的程度,是否也可達到模糊樣式的 效果?

準此,本研究提出在spectral clustering 分群的階段,將原先的 k-means 替換為 fuzzy c-means 演算 法,改善原來的分群方式,使得每個pattern 在分群之後,不再屬於唯一一個群集,而是分別屬於多個 群集之中。如此一來,在計算直方圖特徵時,亦可應用soft histogram 的觀念,依照權重貢獻給多個群 集,達到模糊化的目的。以下是導入模糊分群法後的降維步驟:

1. 首先選定取樣的個數 P,以及降維後希望得到的維度 K。

2. 對 3P個pattern,計算基於 Hamming distance 之相似度,建立 3Px3P之相度矩陣。

(14)

5. 利用第 4 點的結果,即可計算影像的 K 維 soft histogram,做為其特徵。

以上流程,對於選定的取樣個數 P 以及降維後的維度 K,僅需執行此步驟一次即可,日後只需利 用步驟(4)的結果,就能得到每個 pattern 對 K 個維度的貢獻,計算 soft histogram,不需像在 fuzzy ELTP 中,除了編碼時要依照成員函式計算,且在統計soft histogram 時,還要考慮每個 fuzzy pattern 是否要 分配給所有ternary pattern 的情形,如此將可大大降低計算的複雜度。 Fuzzy c-means 分群演算法所使用的目標函數為: 其中N 為資料點個數,C 為分群數,U 為權重矩陣,而 uij表示資料點i 其分配至群集 j 的比重,m 可 為任何大於1 的實數,xicj則分別代表資料點i 及第 j 個群集的中心。fuzzy C-means 演算法,乃透過 更新權重矩陣uij以及群集中心點cj的位置,利用疊代的方式使的誤差達到容忍值範圍內,本研究所採 用的步驟如下: 1. 初始化,令權重矩陣 U 為 U0。 2. 在第 k 步,根據 Uk計算出每個群集的中心Ck,計算方式如公式(11): (11) 3. 更新權重矩陣 U 為 Uk+1,計算方式如公式(12): (12) 4. 對每一樣式 i,保留前 d 大的 ,並依照式(10)重新正規化。 5. 若||Uk+1-Uk||< 則停止,否則回到步驟 2 繼續疊代。 在此要注意(4)步驟的調整,一般的 fuzzy c-means 疊代演算法並沒有此一步驟,但我們在初步的實 驗中發現,若不限制每一樣式可隸屬的群組數,經常會出現發散的情況,也就是當疊代次數越多, 就 會漸漸被平均分配到 C 個 cluster 當中,而喪失了分群的意義。細究其原因,我們推測可能與距離(或

相似度)的解析度有關,ELTP 樣式間相似度的定義目前是以 Hamming distance 為依據,若以長度為 8 的三元pattern 為例,其兩兩之間距離最近為 0、最大為 16,即 pattern 間相似度僅有 17 種可能,而 ELTP(8,1) 其實有38=6561 種組合,相較起來 pattern 間距離的變化量似嫌不足,因此必須修改原來的 fuzzy c-means 演算法,處理上述的問題。

(15)

4. 區域模糊樣式之實驗結果

本章將透過實驗評估fuzzy ELTP 與 FCM-ELTP 在描述力、抗噪性等方面的表現,實驗將包含紋理影像 辨識以及紋理影像的抗噪性分析。此外我們也針對fuzzy ELTP 開發基於 CUDA 平台的平行運算機制, 並討論實際加速的效能 4.1 紋理影像辨識 本實驗將比較各種描述方法,在紋理影像辨識上的準確率。而測試資料,採用的是 Brodatz 紋理影 像資料庫中的影像,我們取出了其中相異度較大的36 張進行實驗,部分樣本如圖九所示。 圖九 紋理影像辨識實驗使用的部分樣本 這些測試影像的原始尺寸為 640x640,在實驗之前,為了增加樣本數目,我們在每張影像中,隨 機取出尺寸為96x96 的 patch 各 300 張,其中一半做為訓練樣本,一半做為測試樣本。 以下,將分成幾組進行實驗,比較各種方法的辨識準確率。而除了以測試樣本原圖實驗以外,也 將加入數種程度之雜訊,比較各種方法在影像到受雜干擾後的表現。而影像在受到雜訊干擾後的變化 如圖十所示,其中,左上角為原始影像,其餘影像中的數字為其訊噪比(SNR),圖中可看出 SNR 約在 30 以下即可明顯看出差異。此外,實驗中使用的分類器是以 RBF 為 kernel 之 SVM。

(16)

在本節中,首先將實驗使用模糊化編碼方式的fuzzy ELTP 以及 fuzzy LBP,在紋理影像辨識的準 確率,並與CDR-ELTP 做比較,結果如表一及圖十一所示。其中,fuzzy ELTP 與 CDR-ELTP 的維度均 為256 維,fuzzy ELTP 之 H 設定為 20,降維方式使用比例式降維法,且與 CDR-ELTP 均使用 H2 distance 計算樣式間的距離,分群的方法則為原始的spectral clustering。

表一 fuzzy ELTP 在紋理影像實驗中的準確率

圖十一 fuzzy ELTP 在紋理影像實驗中的準確率比較圖

從圖十一中可以看出,相較於 CDR-ELTP,使用模糊化特徵樣式編碼的兩個方法,在影像受到較 高的雜訊干擾時,仍有相當高的辨識率,然而其代價則是在計算直方圖時的多花的 256 倍的計算量。 而在另一方面,fuzzy ELTP 的效果則不如 fuzzy LBP。討論其原因,可能由於 fuzzy ELTP 中的 H 值, 為參考 fuzzy LBP 中影響模糊化程度的 d 值得來,而該值是經由實驗所得的最佳值,但未必能完全適 用於fuzzy ELTP。此外,fuzzy ELTP 延用 ELTP 的方式決定 d 值,而在 ELTP 中,d 由計算中心點與周 圍參考點像素值的標準差而來,為一變動的門檻值,若應用在fuzzy ELTP 中,則可能因為太接近 H, 使的模糊化的程度下降,此時便與ELTP 差不多。因此,以下的實驗,將 d 值固定在 10,測試 H 值對 fuzzy ELTP 的影響。實驗結果如表二與圖十二所示。

SNR Fuzzy ELTP Fuzzy LBP CDR-ELTP w/o noise 99.98 99.96 99.96 44.30 99.96 99.96 99.98 42.11 99.96 99.96 99.93 39.63 99.98 99.96 99.74 37.34 99.93 99.96 98.11 35.06 99.81 99.96 95.48 33.49 99.76 99.94 93.83 30.74 99.20 99.93 90.59 29.16 97.85 99.81 88.56 27.85 95.65 99.46 86.50

(17)

表二 fuzzy ELTP 中針對 H 值的實驗結果

圖十二fuzzy ELTP 中不同 H 值的效能比較圖

由於在雜訊程度不高的情況下,fuzzy ELTP 均有相當高的辨識率,故僅列出雜訊程度較高的部份。 由表中可以看出H 值的選定,的確對 fuzzy ELTP 的效能有所影響,而本實驗使用的數值中,H=40 時 有最好的辨識率,H=30 時次之,且均比原始的 fuzzy ELTP 表現更好,而 H=20 時的辨識率則最差。而 若再與fuzzy LBP 比較,如圖十二,訊噪比在 24.03 以上時,H 為 40 的 fuzzy ELTP 均有最佳的辨識率, 而若雜訊程度繼續增加,則Fuzzy LBP 有更好的表現。不過此時影像已經受到相當程度的破壞,相較 而言,獲得的結果已無實用價值(辨識率已降至七成以下)。 在討論FCM-ELTP 的實驗結果前,我們先說明此方法在實作時發現的問題。雖然理論上來說,在 fuzzy C-means 的步驟中可以調整其模糊化係數,但若模糊化程度太低,則樣式容易將其貢獻度集中分 給某個維度,反之若模糊化程度太高,則樣式容易將其貢獻度分散至所有維度當中。但無論如何調整 模糊化係數,大部分的樣式均會出現以上其中一種情形,而無論是哪種情形,皆不是我們所希望的結 果,即每個樣式將其貢獻度分給某些維度。如此將使本方法難以具體實現。

而針對以上問題,我們嘗試以fuzzy K-medoids clustering 演算法取代原來的分群演算法,如此原先 的步驟將改變如下:

1. 選定取樣的個數 P,以及降維後希望得到的維度 K。

2. 針對此 3P個樣式,利用fuzzy K-medoids clustering 演算法分群,得到一個 membership function, 如此可知每個樣式對K 個群集的貢獻值。 3. 利用步驟 2 結果,即可計算影像的 K 維 soft histogram 為其特徵。 上述步驟2 中,雖可得到每個樣式對於 K 個群集的貢獻值,但為了進一步加速計算時間,我們只 取權重最大的前10 名,捨去其餘的,然後再重新分配權重至總和為 1。以上即為在分群過程中結合模 SNR H=20 H=30 H=40 25.7 91.78 96.48 97.74 24.81 82.96 89.63 93.89 24.03 74.37 79.78 87.41 23.35 69.24 73.29 81.83 22.66 64.93 67.18 74.18 21.51 56.11 56.70 67.54 20.45 48.50 48.31 55.35

(18)

接下來的表三為FKM-ELTP 於紋理影像的辨識率,而在圖十三中將結果與 CDR-ELTP 做對照。圖 中可以看出,FKM-ELTP 的表現不如 CDR-ELTP。討論其可能的原因,或許以 K-medoids clustering 為 基礎的分群方式,並不是非常適用於位元樣式的分群。如在之前的實驗中,曾以 K-medoids clustering 取代原來的Spectral clustering,而結果顯示在紋理影像的辨識率上,不如原分群方式來的佳。若要實作 模糊化的分群方式,需再做其他嘗試。

圖十三 FKM-ELTP 於紋理影像辨識準確率比較圖

表三 FKM-ELTP 於紋理影像辨識之準確率

最後的實驗則是對fuzzy LBP 與 fuzzy ELTP 進行抗噪性測試,回顧之前的抗噪性實驗,我們計算 在影像中加入雜訊時,每個點的特徵經過降維後,發生變化的次數,以及在這個情況下,其前後樣式 編碼的Hamming distance。我們想以類似的方式,評估 fuzzy LBP 與 fuzzy ELTP 的抗噪性,不過這時 每個點的特徵在計算histogram 時,會貢獻給多個維度,因此無法以之前的方式,計算其由某個維度改 變至另一維度的次數。而兩個模糊化的樣式編碼,也無法直接計算 Hamming distance,但考慮到每個 模糊化樣式,是由多個二元或是三元樣式,依各種比例組合而成,因此我們可以透過這些組成樣式之 間的Hamming distance,以及各自在模糊化樣式中佔的比例,間接計算出類似於 Hamming distance 的 距離,假設有A、B 兩個模糊化樣式,其距離計算方式定義如下: SNR FKM-ELTP w/o noise 99.98 44.30 99.94 42.11 99.87 39.63 97.15 37.34 94.78 35.06 91.48 33.49 87.00 30.74 79.61 29.16 74.81 27.85 71.59

(19)

其中 n 表示該模糊樣式由多少二元或三元樣式組成,ai、bi表示 A、B 中的第 i 個樣式,d(ai,bj)表示 ai

與bi間的Hamming distance,wai、wbi則表示ai、bi在的A、B 中佔的權重,可由式(10)算出。

以上公式同樣適用於原始的二元或三元樣式,只是其中的權重將完全屬於某個樣式,而計算出的 值,等同於兩個樣式間的 Hamming distance。因此,若要與之前的實驗結果比較,也應合理。而表四 即為fuzzy LBP 與 fuzzy ELTP 根據式(13),計算在影像受到雜訊干擾時,前後模糊樣式的平均距離。而 在將最大距離正規化為1 後,在加入先前實驗中的方法比較,結果如圖十四所示。

表四fuzzy LBP 與 fuzzy ELTP 抗噪性分析結果

圖十四 fuzzy LBP 與 fuzzy ELTP 抗噪性分析之比較圖

由圖十四中可以看出,使用模糊化樣式的fuzzy LBP 與 fuzzy ELTP,相較於之前的各種方法,在變動 的距離上均減少了許多,其中fuzzy LBP 為目前所有方法中表現最佳者,或許表示 fuzzy ELTP 仍有改 善的空間,例如在其模糊化的機制中,d 與 H 的選定是否有更合理的方式。或者其在降維的過程中,

SNR

Fuzzy LBP

fuzzy ELTP

44.25

0.0023

0.0282

40.88

0.0177

0.1162

37.68

0.0474

0.244

34.78

0.0888

0.3953

32.19

0.1431

0.5703

29.89

0.196

0.758

27.82

0.2542

0.9286

25.98

0.3077

1.1064

(20)

4.2 利用 GPU 平行運算加速計算時間

本節將透過NVIDIA 所推出的平行運算平台 CUDA(Compute Unified Device Architecture),利用 GPU 的運算能力,降低 fuzzy ELTP 在計算 histogram 花費的時間。以下將說明本研究使用的平行化方 式,及其計算時間與使用CPU 運算時間的比較。而在此使用的 CUDA 版本為 CUDA 4.2。

在CUDA 的架構中,其利用 thread hierarchy 的概念來規劃平行處理的方式,即 thread block 與 grid of thread block 兩階層的概念。在擷取影像特徵的部分,我們的實作方式如圖十五與十六所示。在圖 十五中,我們規劃每個block 含有 16x16 個 thread,分別計算影像中一個 16x16 之區塊的特徵值,而 在圖十六中,則是利用一個grid 包含 ( 、 為影像之高度與寬度)個 block 以計算整張影像 之特徵值。 圖十五 計算模糊化特徵時的一個 thread block 示意圖 圖十六 計算模糊化特徵時的一個 grid 示意圖

在計算histogram 方面,以 Fuzzy LBP(8,1)或 Fuzzy ELTP(8,1)為例,影像中每個點算出的特徵值有 可能分配給28=256 個樣式,因此如圖十七及圖十八所示,我們將一個 block 規劃成一維的 256 個 thread, 計算單一像素點的histogram,而同樣利用單一 grid 包含 HxW 個 block 計算整張影像的 histogram。

(21)

圖十七 計算 soft histogram 時的一個 thread block 示意圖

圖十八 計算 soft histogram 時的一個 grid 示意圖

而運算速度的測試,我們以一張尺寸為96x96 及一張為 256x256 的影像,分別對 Fuzzy LBP 與 Fuzzy ELTP 在擷取特徵與計算 histogram 的計算時間做比較,結果如表五、表六所示。本測試使用的電腦 CPU 為Intel Core 2 6300,顯示卡為 NVIDIA Geforce GT 240。

單位(ms) CPU 計算時間 GPU 計算時間 擷取特徵 計算直方圖 總時間 記憶體存取 總時間 Fuzzy LBP <1 424 424 184 224 Fuzzy ELTP <1 603 603 184 281 表五 CPU 與 GPU 計算 96x96 影像特徵的時間表 單位(ms) CPU 計算時間 GPU 計算時間 擷取特徵 計算直方圖 總時間 記憶體存取 總時間 Fuzzy LBP 31 3093 3124 184 293 Fuzzy ELTP 47 4347 4394 183 556 表六 CPU 與 GPU 計算 256x256 影像特徵的時間表

(22)

化運算,記憶體存取均花費不少時間,對效能的提升來說是個瓶頸。若忽略記憶體存取時間,而從計 算時間來看,對96x96 的影像,利用 GPU 計算 Fuzzy LBP 的時間加速為原來的約 10.6 倍,Fuzzy ELTP 加速為原來的約6 倍,對 128x128 的影像,則每張影像的計算時間加速為原來的約 28.6 倍及約 11.7 倍, 有明顯的提昇。

5. 結論及未來工作

本研究提出了結合模糊理論與ELTP 的特徵描述方式,以及模糊化的樣式分群法。前者稱為 fuzzy ELTP,後者則為 FCM-ELTP 與 FKM-ELTP。Fuzzy ELTP 在影像受到較高雜訊的影響下,仍保持相當 不錯的辨識率,其描述力遠超越沒有結合模糊理論的其他方法,但代價則是龐大的計算量。而針對此 點,本論文實作了在NVIDIA 的 CUDA 平台上運行的平行化運算方式,借此提昇計算速度。 目前實驗結果顯示,Fuzzy ELTP 在抗噪性,以及影像受到高度雜訊影響時的辨識率,仍有改善的 空間。首先,在模糊化的過程中使用的d 值與 H 值是否有最佳值、或者更合理的定義方式。其次,在 降維的過程中,模糊化的樣式有可能又被合併在同一維度中,如此帶來的影響如何,也是可以進一步 討論的主題。

另外,在模糊化的分群方式上,FCM-ELTP 嘗試以 fuzzy C-means clustering 取代 Spectral clustering 中的K-means clustering 步驟,但未能找出合理的分群結果。而 FKM-ELTP 以 fuzzy K-medoids clustering 對樣式分群,在實驗中並未有出色的結果。兩者均相當可惜,未來仍可繼續研究樣式的分群方式,以 即將其模糊化的可能性。

6. 參考文獻

[1] W. H. Liao, “Region Description Using Extended Local Ternary Patterns”, Proceedings of the 20th International Conference on Pattern Recognition, pp. 1003-1006, 2010.

[2] W. H. Liao and T. J. Young, “Texture Classification Using Uniform Extended Local Ternary Patterns”, Proceedings of The IEEE International Symposium on Multimedia, 2010.

[3] Wen-Hung Liao, “Commensurate Dimensionality Reduction for Extended Local Ternary Patterns”, Proceedings of the 21st International Conference on Pattern Recognition, pp. 3013-3016, 2012.

[4] Ahonen, T., Pietikäinen, M.: “Soft Histograms for Local Binary Patterns”, In: Proceedings of Finnish Signal Processing Symposium, p. 4, 2007.

[5] Iakovidis, D.K., Keramidas, E.G., Maroulis, D., "Fuzzy Local Binary Patterns for Ultrasound Texture Characterization", International Conference on Image Analysis and Recognition, LNCS Springer, Vol. 5112, pp. 750-759, Póvoa de Varzim, Portugal, 2008.

[6] Dimitris K. Iakovidis, Eystratios G. Keramidas and Dimitris Maroulis , “Fusion of Fuzzy Statistical Distributions for Classification of Thyroid Ultrasound Patterns”, Journal of Artificial Intelligence in Medicine archive Volume 50 Issue 1, September, 2010

[7] J. Sanders and E. Kandrot, CUDA by Example: An Introduction to General-Purpose GPU Programming, Addison-Wesley, 2010.

(23)

行政院國家科學委員會補助國內專家學者出席國際學術會議報告

102 年 1 月 30 日 報告人姓名 廖文宏 服務機構 及職稱 國立政治大學資訊科學系 副教授 時間 會議 地點 12/10/2012-12/12/2012 美 國 加 州 爾 灣 市 (Irvine,California) 本會核定 補助文號 101-2221-E-004-009- 會議 名稱 (中文) IEEE 2012 年國際多媒體研討會

(英文) IEEE International Symposium on Multimedia (ISM2012) 發表

論文 題目

(中文) 應用模糊理論於區域三元化樣式

( 英 文 ) Incorporating Fuzziness in Extended Local Ternary Patterns

一、參加會議經過

IEEE 國際多媒體會議(International Symposium on Multimedia, ISM)是一個以 美國加州為主要主辦地區的研討會,從 2005 年開辦,至 2012 年已屆八個年頭, 比較特別值得一提的是,2007 與 2010 兩次會議都移至台灣舉行,個人也是因 為投稿 2010 年的 ISM,才對此一會議有所認識並開始參與。

會議的 Call for Papers 揭櫫七大主題: 1. Multimedia Systems and Architectures 2. Multimedia Communications and Streaming

3. Multimedia Content Understanding, Modeling, Management, and Retrieval

4. Multimedia Coding, Processing, and Quality Measurement 5. Multimedia Interfaces

(24)

個人所投之稿件因與模糊理論相關,原以為會安排在: Multimedia Content Understanding, Modeling, Management, and Retrieval 主 題 下 的 子 題 : Computational intelligence including neural networks, fuzzy logic, and genetic algorithms,不過最後的 Program 則將本人的報告放在 Multimedia Applications 這個場次,而且是第一天 Keynote Speech 結束後就開始,因此在聆聽 Keynote 演講時免不了分心再翻翻自己的投影片。

ISM 2012 會議舉辦場地在 Hyatt Regency Irvine,開場的 Keynote 由主辦單位 Phillip Sheu 教授演講多媒體領域的展望,之後就是回歸到一般研討會的型態, 共有三個平行場次。

個人的報告排定在 10:20am,題目為: Incorporating Fuzziness in Extended Local Ternary Patterns,共有 25 分鐘時間,聽眾的問題主要集中在如何利用 GPU 增加計算效能。

在上午的報告後,12/10 下午也擔任 session chair,主持以下場次: QUALITY: Image Quality & Enhancement (TIME: 15:10‐17:00) Session Chair: Dr. Wen‐Hung Liao

此場次的四篇論文,包含一般相片的品質評估、 3D 視訊的最佳視差範圍、以 及顏色感知與色弱現象,都是我近來相當感興趣的議題,也因此主持得心應手, 講者與聽眾互動熱烈,是一次令人滿意的經驗。

第二天(12/11)早上安排了兩場演講,分別是:

 Mobile Visual Search - Linking Real and Virtual Worlds, by Bernd Girod, Stanford University, California

 The landscape of analytics: A personal view, Charles Elkan, by University of California, San Diego

(25)

兩個主題都與我最近的研究十分相關,聆聽後可說獲益良多,尤其聽聞 Stanford 的 Girod 教授指出在 2013 年底前他所帶領的研究團隊就能將超過百萬筆的影像 特徵建模與分類器置入一般的智慧型手機內,進行本機端的行動影像辨識,由於 該項技術無須網路連線,因此未來衍生的應用令人期待。

之後參與及有興趣的場次略整理於下: INDUSTRY (TIME: 11:10‐12:50, 12/11) 、 VIDEO I: Video Content Analysis I (TIME: 16:00‐17:40,12/11)、 Mobile Gaming and Multimedia Innovations(12/12) 、 UIC: User Interfaces & Collaboration (TIME: 13:20‐15:00, 12/12) 。 二、與會心得 ISM 在多媒體領域所討論議題十分深入也多元,每次參加都有豐富的收穫,在將 論文稍做整理分類後,會在每周實驗室的 meeting 中讓研究生報告。 三、建議 無。 四、攜回資料名稱及內容 IEEE ISM 2012 年國際多媒體研討會論文集(光碟片)

(26)

Incorporating Fuzziness in Extended Local Ternary Patterns

Wen-Hung Liao

Department of Computer Science, National Chengchi University,

Taipei, Taiwan whliao@cs.nccu.edu.tw

Abstract—Local binary/ternary patterns are widely employed to describe the structure of an image region. However, local patterns are very sensitive to noise due to the thresholding process. In this paper, we propose two different approaches to incorporate fuzziness in extended local ternary patterns (ELTP) to enhance the robustness of this class of operator to interferences. The first approach replaces the ternary mapping mechanism with fuzzy member functions to arrive at a fuzzy ELTP representation. The second approach modifies the clustering operation in formulating ELTP to a fuzzy C-means procedure to construct soft histograms in the final feature representation, denoted as FCM-ELTP. Both fuzzy descriptors have proven to exhibit better resistance to noise in the experiments designed to compare the performance of ELTP and the newly proposed fuzzy ELTP and FCM-ELTP.

Keywords-extended local ternary patterns; fuzzy local patterns; fuzzy C-means; texture classification

I. INTRODUCTION

Local binary pattern (LBP) is a computationally efficient operator for describing and representing image structures. It has been widely applied to pattern recognition tasks such as texture classification, background modeling and emotion discrimination. Many variants of LBP have also been developed to further enhance the performance of this class of feature descriptor [1]. However, the original LBP suffers from a major defect: sensitivity to small interferences, which is inherent in the thresholding process. To be specific, LBP is obtained by comparing the value of the central pixel in a pre-defined kernel to its neighborhood and labeling the result as 0 (less than) or 1 (greater than or equal to), followed by a binary-to-decimal conversion process. (Refer to Fig. 1 for an illustration.) The hard-limit thresholding process, as depicted in Fig. 2, will generate discontinuities around the neighborhood the threshold value, no matter how the threshold is selected. All the derivatives of LBP which follow a similar binarization operation will also be sensitive to small changes in the intensity of the nearby pixels.

In [2], we have proposed a ternarization version, namely, extended local ternary pattern (ELTP) to address this issue. Instead of dividing the result of intensity difference into two categories, we map it into three values {0,1,2}, as shown in Fig. 3. The threshold  is determined from local image statistics. This new encoding scheme can reduce the sensitivity of the descriptor to noise very effectively, although discontinuities will still occur around – and . The price paid for this

ternarization process, however, is the significant increase in feature dimension. For the same size of the neighboring samples, LBP(8,1)1 has a dimension of 28=256, while LTP(8,1) has a much larger dimension 38=6561. This problem has been successfully resolved by employing spectral clustering techniques to group similar patterns, and the resulting representation is named extended local ternary pattern to distinguish from the original LTP.

Figure 1. Procedure for generating a local binary pattern

Figure 2. Binary mapping function

Figure 3. Ternary mapping function

1

LBP(P,R) indicates that one chooses P equally-spaced members on a circle

of radius R. 71 50 80 42 25 53 49 21 30 -8 -25 3 -1 1 1 0 0 1 0 Difference Threshold 1 25  0 24  1 23  1 22  0 21  0 20  44 25 24 23 22 21 20

Calculating Local Binary Pattern 2012 IEEE International Symposium on Multimedia

2012 IEEE International Symposium on Multimedia 2012 IEEE International Symposium on Multimedia

(27)

Although the extended local ternary patterns have achieved better noise resistance as verified by many experiments in [2,3], we are still concerned about the discontinuities of the mapping function near ± (Fig. 3) and the possible adverse effect they can produce. Motivated by the work of [4] and [5], this research focuses on the incorporation of fuzziness in extended local ternary patterns. Specifically, we will follow the concept of ‘soft histograms’ in developing the fuzzy ELTP descriptor. Nonetheless, we will also exploit the unique characteristics of the ternary patterns and come up with different approaches to integrate fuzzy logic in the feature descriptor. Comparative analysis of the performance of ELTP vs. the newly devised fuzzy ELTP in texture classification will be carried out to validate the efficacy of the proposed solution.

The rest of this paper is organized as follows. In Section 2 we review related work in fuzzy local binary patterns and discuss their limitations. Section 3 describes two possible methods to incorporate fuzzy logic in the ternary descriptor. One approach is based on the fuzzification of the mapping function shown in Fig. 3. The other takes advantage of the fuzzy clustering operation in the dimensionality procedure required by ELTP. Section 4 presents experimental results and comparative analysis using the proposed scheme. Section 5 concludes this paper with a conclusion and outlook on future work.

II. RELATED WORK

There are various extensions and modifications of the original LBP. A good source of references can be found in [1]. Since this research focuses on issues regarding the fuzzy representation of LBP, we will restrict our discussion of related work to this particular subject.

Ahonen et al. [4] introduced soft histograms for the LBP texture descriptor. The basic idea is to replace the hard-limit thresholding operation with two fuzzy membership functions, as depicted in Fig. 4 and defined in Eq. (1). The parameter d controls the degree of fuzziness and is determined empirically. The histogram becomes ‘soft’ since a single pattern can contribute a fraction to many different bins in the histogram. The fuzzy representation guarantees that a small change in the input will result in a small change in the output.

() = 0.5 + 0.5 0,  < −  , −  ≤  ≤  1,  >  (1)  () = 1 − ()

The authors observed that in texture classification experiments, the performance of the fuzzy LBP is better compared to the original LBP in the presence of noise, as can be expected from the new mechanism of the mapping process. However, the classification errors exceed 45% when Gaussian noise with = 0,  = 25.5 is added to the test images. This leaves much room for improvement and motivates us to investigate encoding methodologies which can prove to be more robust to noise.

In [5], the authors proposed to use fuzzy LBP operator to characterize ultrasonic textures. Their formulation of the fuzzy operation is very similar to the approach given in [4]. The only difference lies in the application domain. The best classification accuracy for the ultrasonic images is 84% using a fuzzification parameter (d) of 5 with as polynomial kernel support vector machine. How the classification accuracy changes with the degradation introduced by additive noise is not investigated.

The local fuzzy pattern defined in [6] is basically the same as the fuzzy LBP. However, the authors’ main interest is to combine local fuzzy patterns with spatially constrained fuzzy C-means algorithm for color texture segmentation.

In summary, all the related materials that incorporate the fuzzy logic operation share a common thought: replacing the hard-limit thresholding operator with fuzzy membership functions. For our formulation of fuzzy local ternary patterns, we will follow the same principle. Additionally, we will also exploit some unique properties of the extended local ternary patterns to arrive at alternative methods to bring in the fuzziness concept.

III. FUZZIFICATION OF EXTENDED LOCAL TERNARY PATTERNS

In this section, we will describe two different approaches to bring in the fuzziness property for the extended local ternary patterns. This first approach is based on the fuzzification of the mapping function. The other takes advantage of the fuzzy clustering operation in the dimensionality reduction procedure required by ELTP.

A. Fuzzification of the Mapping Function

To recap, we briefly describe the process for converting a region into its ELTP representation,

() =  1 if |() − (0)| ≤ 2 if () − (0) > 

0 if () − (0) < − (2) where P(0) is the intensity of the center pixel, and P(i) is the intensity of the neighboring pixel. Instead of employing a fixed threshold d, however, we propose to assign its value based on the local statistics of the region. Specifically, we use Eq. (3) to compute d:

 = max { × ,  } (0 <  ≤ 1) (3)

where σ is the standard deviation of the local patch, α is a 

(28)

Eq. (2) employs a hard-limit thresholding operation to define the input/output mapping. A direct extension of the fuzzy LBP to fuzzy LTP operator is to introduce new forms of membership functions to cope with three possible classes of output :{0, 1, 2} as depicted in Fig. 5.

Figure 5. Three fuzzy membership functions f0, f1 and f2.

For the fuzzy ternary patterns, the corresponding membership functions are expressed as follows:

 () =  1,  < −  , −  ≤  ≤ − 0,  > − (4) () =    , −  ≤  ≤ − 1, −  <  <   ,  ≤  ≤  (5) () =  0,  <    ,  ≤  ≤  1,  > H (6)

where d is the threshold defined in Eq. (3) and H is the fuzzification parameter which determines the range of the membership function.

The feature dimension increases drastically when we use the ternary representation. For a neighborhood of size P, there are a total of 3P unique patterns to consider. For example, for

P=2, nine fuzzy local ternary patterns need to be evaluated:

(0,0),(0,1),(0,2),(1,0),(1,1),(1,2),(2,0),(2,1),(2,2).

Given a fuzzy ternary string of length P composed of ternary digits , the fulfillment degree of the m-th fuzzy pattern can be calculated according to:

= ! " ∈$% ! &' '∈*% ! -/ /∈3% (7) where 4= { = 1, ⋯ , |= 2} , 7= {8 = 1, ⋯ , |'= 1}, and 9= {: = 1, ⋯ , | /= 0}. It follows that ; = 1 ?@ AB (8)

In other words, one fuzzy pattern can contribute to more than one bin in the histogram, yet the sum of the contributions should always be 1.

In principle, one fuzzy ternary pattern can contribute to as many as 3P bins as indicated in Eq. (7). However, due to the way we define the membership function (Fig. 5), it is not possible for any element to be a member of both class 0 and class 2 simultaneously. This effectively reduces the number of combinations in the resulting pattern. In practice, the number of bins that a single pattern contributes to is usually much smaller than the maximum value.

In consideration of the high dimensionality issue arisen from ternary representation, we discuss at this point how to tackle this problem when a fuzzy operation is involved. One obvious strategy is to utilize a descriptor with a smaller number of samples. For example, LTP(4,1) will have 34=81

combinations compared to 6561 dimensions for LTP(8,1). To maintain the same number of neighborhood samples, however, some type of dimensionality reduction process is required. In ELTP [1], we have applied the spectral clustering technique to group the original 3P patterns into K clusters of our choice. For the fuzzy ternary operator, we can aggregate the fractional contributions of all patterns belonging to the same cluster to generate a ‘soft histogram’ that is of dimension K, which serves as the basis for subsequent classification tasks. The difference between the ‘crisp’ and the fuzzy ELTP representation is that the latter histogram can contain non-integer values.

Although the inclusion of fuzzy logic will enhance the resistance to noise, we also need to take into account the increased computational complexity. In the most general case, for each fuzzy ternary string of length P, a total of 3P calculations have to been carried out as specified in Eq. (7). For the more restricted, yet practical case of the membership functions shown in Fig. 5, a total of 2P calculations are needed for each pattern, which is still a significant increase even for a small neighborhood size P. The forgoing analysis also applies to fuzzy LBP. Therefore, one should always be cautious about the computational cost of fuzzification when using local fuzzy pattern descriptors.

B. Fuzzification of the Clustering Process

The significant increase in computational complexity for fuzzy ELTP prompts us to investigate alternative means to incorporate fuzzy logic without impacting the computing cost. We realize that the additional demand arises from the fuzzy mapping functions as defined in Eqs. (4-6). For the LBP operator, fuzzifying the mapping functions is the only plausible choice. For the ELTP descriptor, since a clustering process is involved during the dimensionality reduction step, it may become useful to replace the clustering operation with a fuzzy clustering algorithm so that a single pattern may belong to more than one cluster simultaneously without the need to perform fuzzy mapping in the encoding stage. In this manner, a single pattern may also contribute to more than one bin in the histogram. The degree of contribution is proportional to the membership function obtained from the fuzzy C-means algorithm. The revised dimensionality reduction procedure which incorporates the fuzzy C-means clustering technique is illustrated Fig. 6.

(29)

S1. Choose P (sample points) and K (histogram size) S2. Form a 3D× 3D affinity matrix using Hamming distance based similarity measure

S3. Perform a fuzzy K-way partition of the 3D patterns using fuzzy C-means clustering.

S4. Distribute the contribution of a pattern to the clusters it belongs to according to the corresponding membership function.

S5. Use the K-dimensional soft histogram for feature representation.

Figure 6. Fuzzy C-means clustering algorithm for generating FCM-ELTP The fuzzy clustering (S3) needs to be performed only once. As a result, the computation complexity is much lower using this representation, which will be denoted as FCM-ELTP to distinguish it from the fuzzy ELTP descriptor discussed previously.

IV. EXPERIMENTAL RESULTS

We present experimental results comparing the performance of ELTP and the newly proposed fuzzy ELTP and FCM-ELTP in terms of texture classification accuracy. The scaling factor α for defining ELTP is set to 0.5 in the experiment. The fuzzification parameter H is set to 20.

We use all 36 texture classes (10 of them are shown in Fig. 7) from Brodatz database to carry out the classification experiment. Each texture image is of size 640x640 and represents a texture class. In the experiments, we partition the original images into overlapping sub-images of size 96x96 and generate 10800 image patches. Half of them are used as training samples. We then add different levels of Gaussian noise to the test images and repeat experiments. Results are summarized in Table 1. We employ support vector machine with radial basis kernel for the classification task in all the experiments. Generally speaking, when the noise becomes severe, the performance degrades accordingly. For texture classification tasks, the proposed fuzzy ELTP descriptors maintain robust performance in all experiment settings. FCM-ELTP also yields satisfactory results when the noise is not too severe.

Figure 7. Sample texture images from the Brodatz database

TABLE I. TEXTURE CLASSIFICATION RESULTS USING DIFFERENT LOCAL PATTERNS

V. CONCLUSIONS

We have presented two approaches to define fuzzy ELTP operators in this paper. Both methods produce soft histograms in the final feature representation. The fuzzy ELTP obtained by incorporating fuzzy mapping functions exhibits better performance in terms of noise resistivity and texture classification. Yet it requires far more computations than the original ELTP. The additional complexity is proportional to the dimension of the feature vector. Therefore, parallel implementation on platform such as CUDA is essential to make this method practical. The FCM-ELTP created by fuzzy C-means algorithm is not as robust as the fuzzy ELTP. However, its performance in low to mediocre noise conditions is still remarkable and can become a viable choice when computation resource is limited.

REFERENCES

[1] M. Pietikäinen, A. Hadid, G. Zhao, and T. Ahonen. Computer Vision Using Local Binary Patterns, Springer, 2011.

[2] W. Liao, “Region Description Using Extended Local Ternary Patterns”, Proceedings of the 20th International Conference on Pattern Recognition, pp. 1003-1006, 2010. [3] W. Liao and T. J. Young, “Texture Classification Using Uniform Extended Local Ternary Patterns”, Proceedings of The IEEE International Symposium on Multimedia, pp.191-195, 2010.

[4] Ahonen, T., Pietikäinen, M.: “Soft Histograms for Local Binary Patterns”, In: Proceedings of Finnish Signal Processing Symposium, p. 4 ,2007.

[5] Iakovidis, D.K., Keramidas, E.G., Maroulis, D., "Fuzzy Local Binary Patterns for Ultrasound Texture Characterization", International Conference on Image Analysis and Recognition, LNCS Springer, Vol. 5112, pp. 750-759, Póvoa de Varzim, Portugal, 2008.

[6] P. Gorecki and L. Caponetti, “Color Texture Segmentation with Local Fuzzy Patterns and Spatially Constrained Fuzzy C-Means”, Proceedings of the 7th International Workshop on Fuzzy Logic and Applications: Applications of Fuzzy Sets Theory, pp.362-369, 2007.

Descriptor Clustering Dim SNR->∞ SNR=44 SNR=35

ELTP spectral 59 99.85 98.88 89.94 ELTP spectral 128 99.9 99.71 92.31 ELTP spectral 256 99.91 99.64 92.91 Fuzzy ELTP spectral 256 99.98 99.98 99.28 ELTP FCM 59 99.74 99.12 94.33

(30)

國科會補助計畫衍生研發成果推廣資料表

日期:2013/10/28

國科會補助計畫

計畫名稱: 基於區域模糊樣式的特徵描述方式 計畫主持人: 廖文宏 計畫編號: 101-2221-E-004-009- 學門領域: 圖形辨識

無研發成果推廣資料

(31)

101 年度專題研究計畫研究成果彙整表

計畫主持人:廖文宏 計畫編號: 101-2221-E-004-009-計畫名稱:基於區域模糊樣式的特徵描述方式 量化 成果項目 實際已達成 數(被接受 或已發表) 預期總達成 數(含實際已 達成數) 本計畫實 際貢獻百 分比 單位 備 註 ( 質 化 說 明:如 數 個 計 畫 共 同 成 果、成 果 列 為 該 期 刊 之 封 面 故 事 ... 等) 期刊論文 0 0 100% 研究報告/技術報告 1 1 100% 研討會論文 0 0 100% 篇 論文著作 專書 0 0 100% 申請中件數 0 0 100% 專利 已獲得件數 0 0 100% 件 件數 0 0 100% 件 技術移轉 權利金 0 0 100% 千元 碩士生 2 2 100% 博士生 1 1 100% 博士後研究員 0 0 100% 國內 參與計畫人力 (本國籍) 專任助理 0 0 100% 人次 期刊論文 0 0 100% 研究報告/技術報告 0 0 100% 研討會論文 1 1 100% 篇 發表於 2012 IEEE International Symposium on Multimedia 論文著作 專書 0 0 100% 章/本 申請中件數 0 0 100% 專利 已獲得件數 0 0 100% 件 件數 0 0 100% 件 技術移轉 權利金 0 0 100% 千元 碩士生 0 0 100% 博士生 0 0 100% 博士後研究員 0 0 100% 國外 參與計畫人力 (外國籍) 專任助理 0 0 100% 人次

(32)

其他成果

(

無法以量化表達之成 果如辦理學術活動、獲 得獎項、重要國際合 作、研究成果國際影響 力及其他協助產業技 術發展之具體效益事 項等,請以文字敘述填 列。) 無 成果項目 量化 名稱或內容性質簡述 測驗工具(含質性與量性) 0 課程/模組 0 電腦及網路系統或工具 0 教材 0 舉辦之活動/競賽 0 研討會/工作坊 0 電子報、網站 0 目 計畫成果推廣之參與(閱聽)人數 0

(33)

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價

值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)

、是否適

合在學術期刊發表或申請專利、主要發現或其他有關價值等,作一綜合評估。

1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

■達成目標

□未達成目標(請說明,以 100 字為限)

□實驗失敗

□因故實驗中斷

□其他原因

說明:

2. 研究成果在學術期刊發表或申請專利等情形:

論文:■已發表 □未發表之文稿 □撰寫中 □無

專利:□已獲得 □申請中 ■無

技轉:□已技轉 □洽談中 ■無

其他:(以 100 字為限)

發表論文:

Wen-Hung Liao, 'Incorporating Fuzziness in Extended Local Ternary Patterns', Proceedings of The IEEE International Symposium on Multimedia, pp. 149-152, 2012.

3. 請依學術成就、技術創新、社會影響等方面,評估研究成果之學術或應用價

值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)(以

500 字為限)

本年度進行的研究是延續先前有關'延展式區域三元化樣式描述'的主題,更進一步發展 出結合模糊理論的圖像描述方法,在材質辨識準確度與抗噪的實驗中都得到了更佳的效 果,在 2012 International Symposium on Multimedia 發表時,得到不錯的迴響與熱烈 的討論,而除了論文發表,本研究提出的方法,特別適用於影像雜訊較高的情況,但是由 於計算需求升高,因此必須搭配 GPU 的運算核心,才能在性能與效率部分有所改善,若要 發展具實用性的的辨識核心,仍有待後續的產學合作,針對平行處理部分再做優化。

數據

Figure 1. Procedure for generating a local binary pattern
Figure 5. Three fuzzy membership functions f 0 , f 1  and f 2 .
Figure 7.  Sample texture images from the Brodatz database

參考文獻

相關文件

Receiver operating characteristic (ROC) curves are a popular measure to assess performance of binary classification procedure and have extended to ROC surfaces for ternary or

These programmes are operated by 11 degree-awarding self-financing institutions registered under the Post Secondary Colleges Ordinance (Cap. 320) or statutory

Lemma 4.5.. Then, the proof is complete.. By Theorem 4.1 and Theorem 4.6, the conclusion is drawn. Baes, Convexity and differentiability properties of spectral functions and

The Centre for Learning Sciences and Technologies (CLST), The Chinese University of Hong Kong (CUHK) launched the!. EduVenture ® learning system, which has been well received by

– Take advantages of the global and local behavior of lighting by clustering and rendering per-slice columns in the transport matrix. – 3x – 6x performance improvement compared to

This algorithm has been incorporated into the FASTA program package, where it has decreased the amount of memory required to calculate local alignments from O(NW ) to O(N )

蔣松原,1998,應用 應用 應用 應用模糊理論 模糊理論 模糊理論

Therefore, the purpose of this study is to propose a model, named as the Interhub Heterogeneous Fleet Routing Problem (IHFRP), to deal with the route design