第二章 影像相似度判別演算法
2.6 統計模型(S TATISTICAL M ODEL )
在圖形識別、影像認知等領域中,對於影像中的顏色分部及其所在位 置,以統計的數學分布來代表該影像,稱為統計模型,在這類模型中,我 們又可以將其分為有參數模型與無參數模型兩類:
(1)有參數模型(Parametric Model)
根據所收到的影像資訊,以及其估測的參數,使用「特定」的統計分佈來 近似其真正的分布,主要有:
這是最基本的統計模型,但是其自由度太低,可調變參數太少,不足 以表達影像資料的分布,所以有必要將它增加到多個高斯分佈。
●高斯混合模型(Mixture Gaussian Model-GMM)
組合多個模型,來滿足空間中資料分布的趨勢,如此一來可以大大的提 升自由度,而隨著越多群的高斯模型,也可以越來越滿足影像資料的分布,
將足夠來表達空間中的影像資訊,而且可以只需紀錄幾個參數,便可以輕鬆 的紀錄該點的位置資訊,而他的效果,如下圖 5 所示:
圖 5 不同群數去模擬資料分布的情形
(2)無參數模型(Non-Parametric Model)
不需要任何的理論假設,直接去預測它的密度函數去做近似真正分佈 的動作,就是一種無參數的資料分布估測的方法。它們利用無參數核心密 度估測(nonparametric kernel density estimation)的方法,簡稱 KDE,他們對 於影像中每個像素的位置都給予一個核心函數。而此種 KDE 的方法,其 簡單來說,就是針對每一個位置,利用同一張影像中某像素位置的顏色資 訊,以及一個具有頻寬係數 σ 的核心函數 Kσ (例:Gaussian、Uniform、
Triangle…等),來算出此像素現在影像資訊的機率值,其數學方程式為:
( ) ∑ ( )
=
−
= N
i t i
t
r
K x x
x N P
1
1
σ (2.6)
圖 6 利用 KDE 進四真實資料的統計分佈
圖 6 是在每一個資料點(紅色+)為中心,給予一個高斯的核心函數,並做 加和及取權重,所得到的機率分佈函式。核心函式(Kernel Function)的種類 有很多,下面表 1 中列出常見的種類及其數學表示式。
表 1 無參數核心密度估測 KDE 之核心 Kernel Name
K u
( )Gaussian 1 exp( 1 2)
2 2
u
π − Uniform 1 ( 1)
2
I u
≤ Triangle (1− u I u) ( ≤1) Epanechnikov 3(1 2) ( 1)4 −
u I u
≤ Quartic 15(1 2 2) ( 1)16 −
u I u
≤ Triweight 35(1 2 3) ( 1)32 −
u I u
≤ Co sinus cos( ) ( 1)4 2
u I u
π π ≤值得注意的是,在核心函數Kσ裡的頻寬係數σ,若其越小,則會造成
則會造成估測的機率曲線太過平滑,而忽略了資料分佈中較精細的部分,
所以如何選取一個適當的頻寬係數 σ,使估測的機率曲線最接近實際的情 況,是KDE 中重要的一項工作,依序如下圖 7 所示:
圖 7 頻寬係數對於 KDE 的影響
簡而言之,參數模型是利用多群高斯核心去模擬資料的分布,而無參 數模型則是在影像的每個像素點上面放上一個核心函數,不斷的累加這些 核心函數,使其分布類似影像資料的分布。當影像資料透過各種方式模型 化後,比對兩個模型間的差異性或是比對未知位置的影像資料與模型的符 合度的機制,在統計學中不勝枚舉,而我們就針對上述的兩個情形,各舉 一個我們所採用的機制來說明。
◆當我們透過之後章節會介紹的EM 演算法獲得統計分布的影像資訊 參數後,如何判別兩個影像間的差異性,對我們來說是個刻不容緩的問 題,在[22]中變介紹了最常見的 Kullback-Leibler distance,此量測方式,一 開始的定義為
1 0 1 1
1 0
( || ) { ( ) ( ( ))}
( )
L t t
t t
D p p p x log p x
= p x
≈
∑
⋅ (2.7)其中,
p x
i( )t 表示機率模型中某點x
t的機率值,而影像資訊量大小共有L
個像 素點,而累加這些機率值的交互作用,做為模型1 與模型 2 的差異;然而,可以清楚的看到這樣計算的結果,模型1 與模型 2 的差異將不會等於模型 2 與模型 1 的差異,這樣的結果比較不如我們所預期,所以,經過不斷的
改進,最後KL distance 所採取的公式如下: 法表達,而這樣的機制稱為最大期望值(Maximum likelihood),而一般我們 通常偏好正值,所以會再取絕對值,公式如下: 用這些方法,再利用盲目比對(blind search),對於影像地標,進行認知的 測試;因此,在室內環境中,當我們對於所感興趣的地點,擷取影像,利 用此影像建立影像地標來取代特定的人工地標,然後利用上述的各種方 法,將影像地標中的特徵空間挑選出來,接下來當再回到該空間附近,可 以再次透過擷取目前位置的影像資訊,透過轉換矩陣或其他轉換方式,將 目前的影像資訊轉換至特徵空間中所表示的特徵向量,比較各向量間的相