• 沒有找到結果。

第一章 緒論

1.4 論文架構

試結合ELTP 與模糊理論(fuzzy logic)的概念,期待能減輕雜訊帶來的影響。較具體地來 說,是將模糊理論地概念,應用在兩個階段上,其一是在特徵樣式編碼階段,其二是在 樣式分群階段。期望透過模糊理論地概念,進一步強化ELTP 各方面的表現。

1.3 主要貢獻

本研究的主要貢獻,首先是以比例式降維法改善了ELTP 中的降維方式,並以實驗來驗 證前後的差異。原始的方法,在降維時捨棄了非uniform pattern 這部份的資訊,而改善 的方式,則利用ELTP 定義的四類 uniform pattern 之間重要程度的不同,給予不同比例 的維度,如此可保留所有資訊,而不需捨棄任一部分。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二章 相關研究

本章節將探討幾個與本研究相關之特徵描述子及其優缺點;討論數個針對特徵描述子提 出的降維方式,並將指出其不合理或待改進之處;另外則是討論有關模糊理論的相關文 獻。

2.1. Local Binary Patterns (LBP)

LBP 是一個區域性的紋理特徵描述方法,由芬蘭 Oulu 大學的 Ojala 等學者所提出[1]。

LBP(8,1)的作法如圖 2.1 所示,對圖中每一點,以其為中心點,周圍八點做為參考點,

比較參考點與中心點的像素值,並利用中心點的像素值為門檻對參考點做編碼,編碼的 值可能為二元的 0(參考點像素值小於中心點)或者 1(參考點像素值大於或等於中心點)。

完成後,可得到一個環狀編碼,之後再以固定的起點及方向(順時針或逆時針)將環狀編 碼展開,成為一個8 位元的樣式,即為該點的特徵;若要描述一個影像區塊,則是計算 區塊內所有點的特徵,並統計每個特徵出現次數的直方圖,作為該區塊的特徵。

圖2.1: LBP 基本定義

2.2. Local Ternary Patterns, LTP

針對前述LBP 容易受到雜訊影響的缺點,有學者提出以三元化的方式取代二元的做法[7],

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖2.2 LTP( =5)受到輕微雜訊干擾並未影響其編碼

然而,提升了抗噪性的同時,LTP 也存在一些問題,首先是關於 值選定的問題,

其值是大是小該如何決定?使用一個定值,是否會在不同類型的影像中產生不一致的效 果?其次,則為特徵樣式種類增加所帶來的影響。相較於LBP,其編碼方式由二元增加 到三元,在取樣數與上述例子相同的8 個參考點的情況下,LBP(8,1)可能產生的樣式總 共有 28=256 個,但 LTP(8,1)卻高達 38=6561 個。在未處理維度問題的情況下,若要以 LTP 來描述一個區域影像的特徵,假設以大小為 32x32 的影像為例,則 1024 個樣本數,

在統計後的直方圖中,每個特徵平均出現的次數不到一次,無法具有代表性。對此,LTP 提出了降維的方式,其藉由將LTP 拆解成兩組 LBP 的方式達到降維的目的,不過這樣 的做法是否合理,將在2.4 節做說明。

2.3 Extended Local Ternary Patterns, ELTP

對於前述的 LTP 提到的 值該如何決定的問題,由於單一的 值在不同類型的影像中使 用並不是很合理。對此,ELTP 利用 local statistics 動態調整 值以解決 LTP 所遇到的問 題[6]。ELTP 之編碼方式與 LTP 相似,不同之處在於 值與每個區域的像素值之標準差 有關,計算方式如下:

2.4 Local Binary/Ternary Patterns 的降維方式

到目前為止討論三個特徵描述子,LTP 與 ELTP 均提出了降維的方式;然而,即使是 LBP,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

統計。因此有個直覺的降維方式,就是將圖中相鄰的兩個合併成一個,如圖2.3 所示。

然而如此降維的問題是,雖然被合併的兩者在 10 進位表示方式中是相鄰的,但其原始 的樣式卻不一定是相似的。例如,01111111 與 10000000 兩個樣式的 10 進位表示方式為 127 與 128,雖然在直方圖中是相鄰的,然而原始樣式代表的意義卻大不相同,若是強 行合併,必然會影響到後續的處理[8]。

圖2.3 合併值方圖相鄰元素

2.4.2 減少樣本數量

LBP 或 LTP 等除了可以參考周圍緊鄰的像素來編碼外,也可以參考以中心點為圓心,半 徑為R 的圓上的像素來做編碼,參考的樣本數也可以調整,具體表示方式為 LBP(P,R),

其中 P 表示參考的樣本個數,R 則為樣本與中心點的距離,舉例來說,LBP(8,1)與 LBP(16,2)如圖 2.4 所示:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖2.4 LBP(8,1)與 LBP(16,2)

據此,一種簡化的方式,就是加大取樣的間隔以減少取樣的個數,如圖2.5 所示,

以其中的LBP(8,2)為例,比起圖 2.4 的 LBP(16,2),在同樣的半徑下,只取了一半的樣本 數,這使的直方圖的維度由原來的216=65536 降至 28=256[9],達到了不錯的降維效果,

然而,每個點都只取了原來一半的樣本數,必然會使其描述力受到一定程度的影響。

圖2.5 LBP(4,1)、LBP(8,2)與 LBP(12,3)

2.4.3 Center-Symmetric LBP

在此編碼方法中,周圍像素不再與中心的像素做比較,而是由位於對角的兩個像素比較 大小後,給予1 或 0 的編碼[10],如圖 2.6 所示,如此產生的樣式長度將減少至原來的

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

一半,進而達到降維的目的。然而其存在與 LBP 相同,如影像受到雜訊干擾後的表現 不佳等問題。

圖2.6 CS-LBP 的計算方式

2.4.4 拆解圖形樣式

此法為原始LTP 的降維方式,作法是將原來的三元樣式,拆解成兩個二元樣式,一個保 留原始樣式中編碼為+1 部分,另一個保留-1 的部分,如此使的維度可以從 3p降至2p+2p[8],

如圖2.7 所示。然而,同樣地,雖然達到了降維的目的,卻也不免犧牲了描述的精準度。

在其他紋理影像實驗中,使用此方法降維的 LTP,在辨識率的表現不如最原始的

LBP[15]。

圖2.7 將 LTP 拆解為兩組 LBP

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.4.5 考慮旋轉不變的特性(rotational-invariance)

此方法為將 LBP 中那些經過旋轉(circular shift)之後會相同的樣式歸為一類,稱為 LBP-ROT[9],以 LBP(8,1)為例,原來的樣式共有 256 種,利用旋轉不變的特性,可將 樣式的種類降至36 種,如圖 2.8 所示。然而如此的降維方式,僅在應用於材質分析時獲 得較佳的結果,若是在人臉偵測、表情辨識等方面,則準確率大幅降低,能應用的時機 較為有限。

圖2.8 利用旋轉不變的特性降維

2.4.6 使用 uniform pattern

這是由Ojala 等學者提出的概念[9],其定義是,在 LBP 的環狀二元編碼中,最多只有兩 次0 到 1 或者 1 到 0 的轉換,如 00000011、10000001、00100000 等都屬於 uniform pattern。

圖2.9 中再舉出一些 LBP(8,1)中 uniform pattern 的例子。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖2.9 LBP(8,1)中的部分 uniform pattern

在LBP(8,1)中的 uniform pattern 佔 256 個樣式中的 58 個,比例為 22.65%,而在統 計後,Ojala 等學者發現到,若是在一張紋理的影像中,uniform pattern 所佔的比例最高 可達90%,因此引申出以 uniform pattern 為基礎的降維方式。也就是在計算直方圖時,

58 個 uniform pattern 各自成為一個維度,而剩下的 198 個樣式再整合成一個維度,如此 使的維度降到59 維,與原來的 256 維相比來的小多了,這是 LBP 最常採用的降維方式。

而ELTP 也採用了 uniform pattern 做為其降維的方法[6],其定義了在區域三元樣式 中的uniform pattern。ELTP 的 uniform pattern 定義如下:

定義一(UELTP1):「在環狀的三元編碼中,相鄰兩個digit 間 Hamming distance 總和不得 超過2。」舉例如圖 2.10。此類樣式在 ELTP(8,1)中佔了 115 個。

圖2.10 UELTP1 的部份樣式

定義二(UELTP2):「在環狀的三元編碼中,相鄰兩個digit 間的變化次數總和不得超過 2。」

舉例如圖2.11。此類樣式在 ELTP(8,1)中佔了 171 個,其中包含了定義一中的樣式。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖2.11 UELTP2 的部份樣式

定義三(UELTP3):「在環狀的三元編碼中,相鄰兩個 digit 間 Hamming distance 總和不 得超過 4。」舉例如圖 2.12。此類樣式佔ELTP(8,1)中的 1067 個,其中包含了定義二中 的樣式。

圖 2.12 UELTP3 的部份樣式

定義四(UELTP4):「在環狀的三元編碼中,相鄰兩個digit 間的變化次數總和不得超過 4。」

舉例如圖 2.13。此類樣式佔ELTP(8,1)中的 1767 個,其中也包含了定義三中的樣式。

圖 2.13 UELTP4 的部份樣式

而經由實驗統計,在紋理影像中,上述定義三的uniform pattern 在圖中所佔的比例,

最高可達88%,與 LBP 定義中的 uniform pattern 出現的比例接近,由此引申出了以上述 的UELTP3 為基礎的降維方式,即保留 UELTP3 所佔的維度,而將非 UELTP3 的出現次

樣式利用彼此Hamming distance 的大小關係做分群,才能得到合適的維度。

綜觀上述兩種以uniform pattern 為基礎的降維方式,概念皆是利用較少的維度,保 留圖中大部分的資訊,然而一張影像中,uniform pattern 所佔的比例,無論使用上述的 哪一種定義,皆無法到達百分之百,換句話說,以uniform pattern 作降維,就捨去了一 定比例的資訊,這樣的處理方式實在還有改善的空間。

另外,ELTP 以 uniform pattern 為基礎的降維方式中,還存在另一個問題,因為 uniform pattern 總數仍有 1067 個,若比照 LBP 的作法,則降維後維度仍然很高,為了解決這個 問題,在原作中,其使用了分群的方式來達成,作法是以樣式間的hamming distance 作 為相似度的參考,再將彼此間較為相似的樣式分成一群。這樣的做法可能的問題是,在 8 位數的三元化樣式中,距離最遠的兩個樣式為 00000000 與 22222222,其 Hamming distance 為 16,換句話說,所有樣式間的距離變化只有 16 種,若是用 K-Means clustering 的方法做分群,會發生每次分群的結果差異很大的情形,是否會對其描述力及抗噪性造 成影響有待研究,是否有更合理的演算法能將這些 uniform pattern 降維也相當值得探 討。

2.5 Soft Histogram for Local Binary Patterns

這是由Ahonen 等學者所提出的概念[11]。由於原始的 LBP 在編碼時,利用中心點做為 門檻值,對周圍的參考點進行編碼,且其編碼值非0 即 1,如此若參考點的像素值過於 接近於門檻值,則一旦受到雜訊影響,即使是輕微的雜訊,也很容易對得到的編碼產生 影響,進而影響到用來代表影像特徵的直方圖。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

為改善LBP 對雜訊過於敏感的現象,Ahonen 等學者提出了 Soft Histogram 的概念,

其利用了兩個模糊成員函式來定義編碼的方式,如下式:

(2.3)

其中,z 為參考點與中心點像素值的差,d 為一選定的值,表示模糊的程度,而其中的 f1,d、f0,d即表示該點編碼屬於1 或 0 的程度,如圖 2.14。

圖2.14 成員函式 f1,d(z)、f0,d(z)

如上所述進行編碼後,每一點得到的特徵不再是單一樣式,而是多個樣式以不同比 例所組成,因此在統計直方圖時,會將其貢獻依照比例分佈給數個值。如此可以保證當 編碼後的樣式若受到些微變化,對直方圖造成的改變也將很小。而若與原始的 LBP 做 比 較 , 此 方 法 在 加 入 雜 訊 干 擾 的 情 況 下 , 表 現 較 好 , 然 而 在 加 入 的 高 斯 雜 訊 達

如上所述進行編碼後,每一點得到的特徵不再是單一樣式,而是多個樣式以不同比 例所組成,因此在統計直方圖時,會將其貢獻依照比例分佈給數個值。如此可以保證當 編碼後的樣式若受到些微變化,對直方圖造成的改變也將很小。而若與原始的 LBP 做 比 較 , 此 方 法 在 加 入 雜 訊 干 擾 的 情 況 下 , 表 現 較 好 , 然 而 在 加 入 的 高 斯 雜 訊 達