利用空間高斯混合模型進行影像地標判定及輔助定位

(1)

國立交通大學

電機與控制工程研究所

碩士論文

利用空間高斯混合模型進行影像地標判定

及輔助定位

Image Landmark Registration and

Localization

Using Spatial Gaussian Mixture Model

研究生：黃恒嘉

指導教授：胡竹生博士

(2)

利用空間高斯混合模型進行影像地標判定及輔助定位

研究生:黃恒嘉指導教授:胡竹生國立交通大學電機與控制工程研究所碩士班

摘

要

在電腦視覺的領域中，要讓機器人能夠具有對於場景的認知，往往都需要在環境空間中，標注許多人工的特徵，或是紀錄場景中，特殊的形狀或是顏色，來幫助機器人確認自己的所在位置。然而在圖形識別的領域中，有許多功能成熟且強大的演算法，對於資料分析而言，並不需要對於輸入資料有很大的限制，也可以達到很高的辨識結果。本論文中採用高斯混合模型(Gaussian Mixture Model, GMM)來描述空間中的場景，將場景概念化，這樣任意的場景皆可以用高斯混合模型來表達，而無需加入大量的

人工場景，接著將所獲取的每個希望校正點的資料採用由修改後的Cyr and

Kimia 的結合演算法（combination algorithm）來減低及統合資料，當場景接近原本的當初建立的場景，經由最大可能性(Maximum Likely)大體上會呈現單調的特色，將輔助機器人修正回原本的位置，以達到協助機器人定位的目標。

(3)

Image Landmark Registration and Localization

Using Spatial Gaussian Mixture Model

student: Heng-chia Huang Advisor：Dr. Jwu-Shen Hu

Institute of Electrical and Control Engineering National Chiao Tung University

ABSTRACT

To achieve the robot registration and localization using computer vision, artificial landmarks or specific shapes or specific colors in the image are usually used. However, there exist many robust algorithms in pattern recognition and image segmentation which do not require constraints on input data to achieve a good recognition performance. In other words, localization can be performed based on a general scene. In this thesis, we adopt Spatial Gaussian Mixture Model (GMM) in image segmentation to describe an image viewed by the robot in spatial domain without any artificial landmark. Secondly, we use a modified combination algorithm by Cyr and Kimia to combine similar data. It is found out that a monotonic relationship exists among the scene registered and its neighborhood in terms of distance. This phenomenon can be used to assist to localize the robot and this work demonstrate the feasibility by several experiments.

(4)

致謝

經過了披荊斬棘，焚膏繼晷，披星戴月終於皇天不負苦心人，終於在擠進研究所的大門後，又完成了人生另外一個重要的里程碑，理所當然，要感謝的人實在太多了，連天都被學長給謝走了，不過還是要八股的再一次感謝幫助過我的所有親朋好友。給予我這篇論文最大指導方向的，當然屬於我的指導教授，胡竹生老師，他除了在研究方面給予一針見血的見解，更在邏輯思維方面，身教重於言教的以身作則，樹立了良好的典範；帥氣又古椎的龜毛宗敏學長，是我們影像組的棟樑，常常學長代師父職的給予我們最貼切的幫助與指導；幽默又搞笑的士奇跟穩扎穩打又喜歡抓頭的群祺，在影像組開出一條康莊大道；機器人與攝影高手立委；曾經史上最強的學士价呈；健身二人組的安喬兄與劉大人；英俊的貴族興哥；可愛但是臉很大的鏗元；害我接管理員的岑思；硬體高手晏榮；以及與我一同奮戰的夥伴，中流砥柱的螞蟻；超有信心與實力的朱木；帥氣耍色的耀賢；天真皮膚又好的鳥蕙；與影像可愛的夥伴的佩靜，要衷心的感謝一起走過多個報告的前夕，一起熬夜除蟲……，之間的點點滴滴可以出一部小說；還有學弟、同學，傻傻分不清楚的永融；影像組的新血弘齡；責任感太重的完美 alphar；運動好手楷祥；除此之外還要謝謝美麗又漂亮的淑玲，對於管理員的我在行政職務上面有莫大的幫助。當然還要謝謝我所有的家人與死黨，在精神上給予我最大的協助，讓我可以更加專心的投入在研究領域上。在此至上我最大最大的感謝。

(5)

目錄

摘 要...II ABSTRACT ... III 致謝... IV 目錄...V 圖目錄...VII 表目錄... VIII 第一章 序論...1 1.1 研究動機與相關背景 ...1 1.2 相關研究回顧...2 1.2.1 場景認知 ...2 1.2.2 機器人定位導航...3 1.2.3 電腦視覺 ...4 1.3 論文的主題...6 1.4 本篇論文的貢獻...7 1.5 論文的架構 ...7 第二章 影像相似度判別演算法 ...9 2.1 影像相似的量測準則...9 2.2 影像相似的方法概述...10 2.3 低通濾波器(LOWPASS FILTER)... 11

2.4 擴展直方統計圖(EXPAND HISTOGRAM)...13

2.5 主軸分析(PRINCIPLE COMPONENT ANALYSIS)...15

2.6 統計模型(STATISTICAL MODEL) ...16

2.7 利用影像相似度來進行影像認知與定位...20

第三章 高斯混合模型建立資料庫 ...22

3.1 高斯混合模型(GAUSSIAN MIXTURE MODEL)...22

3.1.1 高斯混合模型簡介...22

3.1.2 模型的描述...23

3.1.3 模型的選擇...27

3.1.4 模型的參數初始化...28

(6)

3.2.2 最大值(Maximization Step) ...31

3.3 高斯混合模型接近高群數的問題...35

第四章 資料庫集合與結合演算法 ...39

4.1 資料庫的建立...39

4.1.1 Cyr and Kimia 提出的結合演算法 ...39

4.1.2 修改過後的結合演算法...41 4.2 辨識方法...46 第五章 實驗結果 ...48 5.1 系統架構...48 5.2 實驗平台...49 5.3 實驗結果...51 5.3.1 比較各演算法之辨識結果...51 5.3.2 高斯混合模型的容忍度測試...55 5.3.3 影像相似與影像搜尋引擎...58 5.3.4 環場影像的測試與分析...59 5.3.5 利用高斯演算法大致上單調趨勢輔助定位...61 第六章 結論與未來發展方向 ...66 參考文獻...68 [23] ...70

(7)

圖目錄

圖 1 影像量側的準則...9 圖 2 低通濾波器可選擇的不同尺寸的遮罩...12 圖 3 利用擴展直方圖計算影像間的差異...14 圖 4 透過PCA 運算所得到的模糊影像，中間為各自計算特徵向量，後側為合併計算 ...16 圖 5 不同群數去模擬資料分布的情形...17 圖 6 利用KDE 進四真實資料的統計分佈 ...18 圖 7 頻寬係數對於KDE 的影響 ...19 圖 8 擷取五維的特徵向量...23 圖 9 高斯混合模型之架構圖...24 圖 10 強度統計分布及高斯混合模型近似的分布...25 圖 11 不同共變矩陣的外觀之示意圖...25 圖 12 真實的將色塊影像透過不同的共變矩陣所得到的結果...26 圖 13 對角矩陣透過其分布將影像模糊化...27 圖 14 平均值分類法(K-MEANS CLUSTER)流程圖...29 圖 15 LIKELIHOOD FUCTION E(Λ)最大化的示意圖...33 圖 16 高斯混合模型建立的架構...34 圖 17 一般的高斯分布與某一維度變異量為0 的情況...36 圖 18 在計算機率值時，防止變異量過小之機制的流程圖...38 圖 19 在赤道面上取樣物體的2 維影像 ...40 圖 20 利用攝影機選轉模仿多角度觀察物體...42 圖 21 利用物件辨識的結合演算所建立的減低資料庫的流程圖...46 圖 22 影像地標建立與未知影像比對...48 圖 23 完整的高斯混模型的建立與測試流程...49

圖 24 SONY EVI-D30 的攝影機與 PCI-EXPRESS CAMERA LINK 影像擷取卡...50

圖 25 建立影像地標的辦公室場景圖...50 圖 26 (A)環場攝影機；(B)環場攝影機所拍攝的影像...51 圖 27 置入卡通海賊王玩偶障礙物遮蔽影像...53 圖 28 (A)空間中 11 個場景(B)高斯混合模型之分布(C)其模糊化後之影像 ...54 圖 29 簡易搜尋引擎介面，由手繪的印象影像尋找相似的資料庫影像...58 圖 30 環場影像與展延影像示意圖...59 圖 31 某區段的環場影像透過延展的結果...59 圖 32 不同群數對於同一個場景的變化關係圖...62 圖 33 單調影像、局部最小值破壞單調、極值發生點錯誤...64 圖 34 當拍攝點向後移動時，像素的變化示意圖...64

(8)

表目錄

表 1 無參數核心密度估測KDE 之核心 ...18 表 2 各模型在同一位置不同角度的辨識率...51 表 3 各演算法在不同地標的辨識率...52 表 4 加入障礙物之後的辨識結果...53 表 5 各位移量與各辨識方法搭配的結果...55 表 6 加入障礙物遮蔽影像且偏離影像地標...57 表 7 七個位置的展延影像與結合過的資料庫數量以及辨識率...60 表 8 不同的群數對於場景的穩定區間...61 表 9 單調關係存在的場景數量統計...63 表 10 旋轉與左右移動測試單調的結果...65

(9)

第一章序論

1.1 研究動機與相關背景

在目前現有的機器人定位方式中，不論國內外，一般較為常見的方式，幾乎皆是標定特定的人工圖樣，或是特殊的顏色形狀，然而隨著機器人越來越普及，也越來越民生化，面對的不再只是單調的環境或是可以容易標示出特殊顏色或形狀的地標，取而代之的則是一般的家庭環境。當面對這樣的議題，必然存在著許多解決的方式，但是隨著科技日新月異，電腦速度越來越快，電腦視覺必定成為解決此問題的核心方法之一，因此我們反觀人類的行為，當一個近視的人，即使脫掉眼鏡，霧裡看花，也不至於在房間中迷路，因此當人類看到一個場景，而這個場景中局部細微的顏色變化、區塊的漸層，對於所在位置的影響，微乎其微，因此，回到本來的問題，對於任何的自然影像，如何簡易的表達出他們重要的區塊？如何概念化所獲的影像資料？因此，重新審視這個問題，然而在機器人定位或者是電腦視覺 (computer vision)這個領域，比較少人提到這一類的問題，於是向外尋找適合的解決方式，於是在圖形識別(pattern recognition)以及影像分割(image segmentation)等領域，卻有不少概念化，標示出影像中重要區塊的演算法，而這些演算法，提供了解決問題的遐想空間。試想當機器人可以不在受限於簡易或是特殊設計過的環境，皆能夠 “認知”自己存在環境中的相對位置，未來對於無限可能的居家環境，或是甚至是醫院醫療、危險環境監控、無人區域的警衛、大型辦公室的助理…的可能性，無庸置疑的是一個很重要的議題，所有的行動必先決定自己的位置之後，才有可能接續下去完成；也就是說，我們希冀可以發展出一個較低限制的機器人視覺系統，來

(10)

模擬人類的行為，以概念化的場景為主軸，挑選適當的模型來闡述環境中的重要區塊。而導航之初的定義：我在哪裡，我該如何去那裡[1]，無疑的是本論文中得著墨點也是最重要的議題，而在實驗的過程中，也意外的發現一些演算法中，大體上本來就存在的現象，但鮮少被人提及與應用，利用這個特色，希冀建立一個低限制的架構，來達到輔助機器人視覺定位導航的可行性。

1.2 相關研究回顧

透過上一節的描述，場景認知、機器人定位導航與電腦視覺，這三個領域跟我們有密切的關係，所以，研讀整理的論文，可分成三大類，如下：

1.2.1 場景認知

視覺認知，亦是機器人定位這領域的核心問題，對於人類來說，輕而易舉的事情，但是在電腦視覺領域，卻是一大難事，因此很多論文在這方面也提出許多解決方法；以外在環境為考量。第一、空間中幾何位置的描述是透過完整的電腦繪圖模型，再利用機器人多視角之間的整合其關聯性，利用這些資訊做地標偵測或者與地圖模型相對應尋求吻合[2][3]，以達場景認知的效果；然而這類的認知，能否清楚正確的挑出地標，成為認知成敗與否的關鍵，所以，一個非人工刻意標示的地標物則比較難達到這樣的要求，第二、利用拓樸關係描述每個區域之間的關係[4][5]，取代了之前全域的地圖集以描述機器人周遭場景的影像，而不需去在意全域的幾何關聯性，其精確度稍微低一

(11)

兩大類。感知，是指可以辨識出影像中的內容物，藉由內容物的相對位置，來推算自己所在的區域；而非感知，相對而言，不對影像內容做分析，而是將整張影像的資料做分析，再透過資料分析比對，來達到影像認知的效果。

1.2.2 機器人定位導航

機器人導航，已經由來已久，相關的論文也不勝枚舉，對過去相關統合整理的論文也相當完善[2]，如同之前概述的論文提到，順著歷史潮流，回溯到西元 1979 年，在對戶外外在環境有極高限制之控制下，第一台自走車誕生[6]，同年，也有另一隻適用於室內環境的自走機器人問世[7]，而隨著時代的變遷，科技的演進，電腦視覺以及影像處理的技術，越來越趨於成熟，到了 1984 年，幾乎已奠定了影像處理在機器人定位導航上面，不可忽視的一環[8]，而到了 1996 年，美國首台無須動手控制的自走車自匹茲坦堡到聖地雅哥，橫渡整個美國[9]。而視覺基底的機器人定位系統同上一段所介紹，同樣可以分為感知以及非感知兩大類，只是將影像認知實現在機器人定位導航系統中。感知，是指機器人在環境中可以相對的甚至是絕對的知道自己處於環境中的位置；而非感知，相對而言，就是在設計上，不特別考慮中間過程，有簡單的行徑指標，來達到自走車或是自走機器人的概念。而對於機器人視覺的感知能力要能夠實現，無庸置疑的，就是需要建立環境的地圖模型，而依照建立地圖模型的方式，又可再分類成為，一、預先建立地圖拓撲模型(Map Based)：在欲導航環境中建立空間中的相對或絕對位置(CAD model)，爾後，再利用機器人視覺，對所拍攝到的場景，進行辨識審核，來決定目前所在位置，進而推論[10]或是事先規劃好行進路徑。要達到定位導航，可分為四大步驟，依序是擷取待測場景影像，偵

(12)

做比對，最後，估算其目前所在的位置。而這方面的研究，也有許多論文在強調定位的重要性[11][12][13]，畢竟，定位為導航不能不解決的問題，要能導航，必先面臨定位問題，本篇論文也會以這方面為探討主題。二、則是在行進間，建立地圖模型，並利用該圖來做為導航的依據(Map Building)，當然，在單純視覺基底的智慧型演算，要做到邊移動邊建立環境拓撲關係，在運算上，勢必比較緩慢，但是其更加近似人類的行為，卻是其優勢[14][15]。而沒有環境資訊的導航系統(Mapless Navigation)，要能夠導航，勢必讓機器人沿著特定物體或是特定建築物的邊緣移動，才有可能達到自走車或是智慧型機器人的可能性[16]。

1.2.3 電腦視覺

提到電腦視覺，影像認知等等問題，就要從影像定址(Image Registration)談起[17]，而其處理主要可分別為對抗三大類的問題，所做的改良；其一、在一連串序列的影像，如果沒有加入空間中幾何關係和出現的順序，對於影像定址比對，勢必多了許多困難處，因此，找出空間關係或是空間轉移函數，勢必成為解決該問題重要的里程碑。其二、當影像中存在著光影或是霧氣……的影響，在影像比對時，將會面臨極大的挑戰，於是乎，自然而然的加入光影強度(intensity)的考量，然後轉換色彩空間到，可以清楚分離該特徵的空間域，方便對於光影變化有所處理。其三、則是當影像畫面中的物體有所改變，又為了方便影像追蹤於是各式各樣的特徵抽取，成了這類論文探討的主軸，其中包括了，背景濾除，影像追蹤，等等的議題。

(13)

一、多感測元件的整合，需要影像定址技術，將各個不同感測元件在同一個拍攝角度所擷取的影像，做整合分析，以便標示出影像中有哪個地方可疑。譬如，醫學影像，可結合核磁共振、電腦斷層、X 光影像……的影像，來辨識出人體是否有病變，當然，類似的用法也可以用在，大樓探勘、地層分析、蔬果分類的超音波、電磁頻帶的偵測。第二、為了找到待測影像，與資料庫影像，局部或是全部圖形區塊相似，也是利用定址技術，找出關聯性。其方式大約有：模型基底近似、事先分析擷取合宜特徵、熟習感興趣物件的特色，或是階層式比對。譬如，自動停車系統、航空定位、飛彈導航，又或者是人形、圖案、數字等特徵比對，以及訊號分析處理的自動化，也常常使用此技術。第三、利用視覺定址技術，將不同視角的影像，做影像序列的分析。而電腦視覺，也常常是這類問題的常客，甚至物體追蹤，或是影像序列分析，些微差異影像的偵測都屬於這個範疇。第四、與之前的差異在於空間的不同，替換成時間的差異，主要是在偵測，一段時間前後的差異，以醫學影像為例，觀察身體異常腫瘤的成長，就是這一類的核心問題，同理可知，天然資源的監控，核災之後的植物觀察，也可以算是這類型的題目主軸。然而，以上就應用層面分成四類，但是，一旦遇到問題，並沒有刻意定義成某個類型，完全隨實際遇到的問題來分析，所以，面對以上兩個甚至三個種類的合併的問題，也不在少數[14]。以本篇論文為例，以應用層面應該屬於第三類的電腦視覺，但是核心部分卻是利用影像相似度的偵測，比對連續影像序列的差異性。至於量測影像相似度，則會受到特徵選取不同，而跟著有不同的效果與方式，主要可以區分成，是否對於影像內容做分析與判讀：對於影像內容做特徵抽取，譬如說，判讀影像內容中的物件、特定形狀、特定顏色……作為比對特徵，再利用這些影像內容的資訊，接著使用類神經網路，模糊控制[18] 等理論進行定位，或者在利用，空間中幾何關係，來進行路徑規劃，進而

(14)

取決於對於影像內容，能否完整抽取物件、形狀、顏色等特徵。而相對的，則是對於擷取到的影像，並不特別對影像內容做分析，而直接對於整張影像，做資料分析[13]，利用資料分析的結果，來判定目前的位置；而這類型的定位系統，通常都會是把原本的資料(raw data)經過各式各樣的運算，擷取出部份甚至全部當作影像的特徵，在比對彼此之間的差異性，來達到定位的要求，換句話說，也就是常用各式各樣的模型，來描述闡述原本的影像，而本篇論文，也將採用這樣的方式來描述所擷取的影像。

1.3 論文的主題

本論文主要分為兩個主題，影像地標的認知，與利用演算法中偏離影像地標越遠，其相似度越低的單調特色，來輔助機器人定位。其一、在實驗環境中，我們可以先對於我們所感興趣的位置建立影像地標，然而，因為我們並不預期機器人一定會朝向特定方向，所以，我們對於同一個感興趣的空間位置，我們將在該位置建立多角度的影像集合，做為該點影像地標的資訊，利用多個角度的影像地標，來更加準確的輔助機器人，使機器人對於影像地標集合的認知更加正確；我們並藉由此實驗來分析不同的影像量測演算法，再進行盲目搜尋(blind search)有較好的結果，並挑選其中高斯渾合模型，來進行資料整合與資料統整的步驟，做一個更有系統的影像認知系統。其二、當我們可以透過上述的方式對於影像地標的認知比對，使機器人約略知道自己楚於環境中的特定區域範圍內，那在假使影像地標並沒有改變的情況下，是否演算法本身有一定程度的輔助機器人，可以使機器人更加接近影像地標建立的位置，而達到輔助定位，爾後將透過一維空間中

(15)

回到當初建立影像地標位置。

1.4 本篇論文的貢獻

本論文利用影像分割中，具參數模型(Parametric Model)的概念化區塊化空間中的自然場景，首先可以幫助機器人對於環境中的影像地標，有比較高的辨識率，可以讓機器人認知道自己落在環境中的某個區域中。爾後，把機器人定位這個動作，仰賴概念化後的影像相似程度，把機器人修正回本來的位置，而不在採用環境中的點對點，或是物體對物體的映射對應的方式，希望可以使機器人定位能減少更多限制而更加的有彈性。而要能夠達到這個目的，必須在局部區域存在演算法的數值變化具有單調函數的特色。本文首先透過適當的選擇合宜的參數模型，並針對多群數回歸問題提出一個偏差較少的解決方式；並利用實驗方式驗證，概念化影像在一個自由度中幾乎存在單調函數的特色。

1.5 論文的架構

本論文將以影像地標的認知為基本問題，並希望透過演算法本身來達到輔助定位的效果，而組織架構如下：第二章：先行給予影像判別的準則，再接著簡介一些常用的演算法來擷取影像特徵空間，並描述這些演算法的特色，與各演算法在特徵空間中比較變異量的方法。第三章：以高斯演算法為主軸，介紹其獲得參數的演算法，並分析當高斯以較高群數在描繪影像資訊時，會遇到的問題，並提出解決方法。第四章：當在建立影像地標，以提供之後所需的認知與定位資料庫時，我

(16)

們往往希望能夠減少資料庫的數量，所以透過修改過的結合演算法來達到減少資料量的目的。

第五章：主要有影像認知，與輔助定位在一維自由度中兩部分，將透過影像認知中所選取的演算法做為之後的輔助定位的演算法。

(17)

第二章影像相似度判別演算法

2.1 影像相似的量測準則

兩張影像彼此的相似度，如何量測？又或者是兩張影像的差異性有多大？如何公平且適度的定義這個量值，就牽涉到量測的準則。然而，影像相似的判別方式，完全依賴選取的影像特徵為何，而有不同的比對方式。但是，無論採用哪種比對方法，都必需遵照一個準則，那也就是，不論採用何種特徵空間中以及其相對應的比對方式，差異越大的影像，差異的程度或是差異的值，也要越大，如圖 1 所示，前面兩張差異小，影像差異值就低。越能夠滿足這個準則，其資料分析等過程中，誤判的可能性就越低。圖 1 影像量側的準則

(18)

2.2 影像相似的方法概述

然而，根據上一章所提到的，在選擇影像資料的特徵空間時候，有提過可以分為對影像內容有所認知的特徵空間，以及不對影像內容做分析，而對整張影像資料做統計的特徵空間；而第一種方法，就必須對影像做較多的前處理，以便有效的擷取影像內容來達到較優良的比對方式，爾後，當順利擷取出影像中所有重要特徵，將會需要臆度空間中的幾何關係，利用空間中的幾何關係，來判別影像的相似度，然而，如果採用這類的比對模式，將面臨兩個問題，第一，在極大部分的情況下，對影像進行前處理，必須對於外在環境很熟稔，對於可能的問題，利用影像處理技巧，來各個解決，譬如在光源不足的地方拍攝，容易產生高斯雜訊，於是在光源不足的地方，可以加入專門移除高斯雜訊的濾波器，來得到較清晰的影像。第二，當需要利用空間中的幾何關係時，也往往需要其他的感測器，或是比較特殊的感測元件，來對於外在環境的幾何關係，進行推論，方能進行影像比對。因此，基於以上的概念，如果對於感測元件沒有特殊要求，又希望能夠在較低限制的環境下，簡單的達到輔助定位的目的，一個盲目的搜尋方式(blind search)，理論上比較能夠滿足這樣的需求。而所謂的盲目的搜尋，根據之前的描述，也就是對於影像，不做分析抽離影像內容物，而透過統計或是資料分析等方式，來選擇描述該影像適當的特徵空間，把影像資料，透過映射函數，統計模型……方式，轉換到所選定的特徵空間。而這樣特徵空間的抽取，當需要面對前處理這個問題時後，對於外在環境認知要求比較低，通常都是比較一般的處理方式，如：通過低通濾波器，來移除些許隨機雜訊；或是轉換彩色空間，從一般的紅、綠、藍彩色空間(RGB Color space)轉換到色調、飽和度、亮度彩色空間(HIS

(19)

的比對方式，為本論文所探討的主題。盲目的搜尋比對方式，在尋找影像相似的過程中，可以視為兩大類，轉換至特徵空間的，則在特徵空間中，尋找足夠表達影像的特徵向量，利用彼此特徵向量的差異性，來量測影像的相似度；而另外一類，則是選取統計模型等模型型態作為特徵空間，來表達影像資訊。而比較模型的差異，則透過資料統計的比較方式，譬如：Kullback-Leibler distance，最大可能性(Maximum likelihood) ……的方式來判別影像彼此間的差異、或是相似度。此後數各章節，將會介紹一些常見的特徵空間或是統計模型，並探討這些特徵空間，比較影像相似度的方式，而且討論其優缺點，並且對於該類特徵空間，探討未來可以衍生的附加優勢，來選取一個適度的特徵空間，作為本篇論文核心探討的特徵空間。

2.3 低通濾波器(Lowpass filter)

不論數位訊號處理，或是自二十世紀開始受人注意的影像處理[20]，低通濾波器(low pass filter)，一直以來都是最基本也最常見的濾波器，而此濾波器最初是用來減低資料量，與減低影像中的雜訊。然而，他可以公平的減少影像內每個區域的資料量，透過低通濾波器的轉換，我們可以將所得到影像，視為一個新的特徵空間，而這個特徵空間，和原本影像的特徵空間基底相同，所以是映射在同一個基底的轉換函式。而要實現低通濾波器這個轉換函式，可以分兩個角度來探討，時域及頻域： ◎時域：即空間濾波的一類，一個線性系統的轉移函數和沖激響應做螺旋積分。先選擇一個適當的空間遮罩，此遮罩內所有的係數為正數，常見的如圖 2 所示，接著，將此遮罩對影像做螺旋積分，所得到的影像，即

(20)

是通過低通濾波器的影像，簡而言之，在時域做低通濾波器，就是對影像像素平均，而平均後的每一個像素值，可以視為一種特徵空間的特徵向量，來表示此影像的資訊。 ◎頻域：相對於時域技巧，根據數位訊號處理的基礎，在線性系統的環境下，即是對轉移函數和影像函數分別做二維傅立葉轉換(Fourier Transform)，並將此轉換後的兩個函式相乘，其結果再透過反傅立葉轉換，即為平滑影像。當然，不論透過何種方式，皆可以轉換投影影像資料到所設計的特徵空間，而在獲得表示影像的特徵向量之後，要比對兩張影像的相似度，最直接的方式，就是透過影像相減，而獲得的差異量，即可以表示兩張影像的差異。接著，當低通濾波器的頻寬越來越寬，也就表示可以通過保留的資訊越多，當頻寬大到全部的影像資料可以保留的時候，即是做螺旋積分的遮罩為1，即不失真的完全保留整張影像資訊(包括雜訊)，此時，所需紀錄的地標影像參數(影像本身)會很大，但是對於資料卻是最完整的保留，而這本身是一個取捨的問題。 ... ... ... ... 圖 2 低通濾波器可選擇的不同尺寸的遮罩

(21)

2.4 擴展直方統計圖(Expand Histogram)

影像直方圖，一直都是表達影像資訊分布的主要方法之一，而利用直方圖的值域大小做為影像資訊分布的特徵向量，亦可表達影像中的重要訊息，其表示方式如下所示： 1 2 1 2 2 1 3 # # # # # # # ( , ,..., ,_{b b} _{b b}i i+ ,... ,_{b b}i i+,...,_b i)_(2.1) 其中_b_#i_表示第_i_{個顏色範圍的所有各數，而以彩色影像而言，就分別有}_RGB 三元色。但是，試想一下影像內容中，要是有一個球，自左而右，依序出現在一連串的影像序列中，若是不考慮攝影機白平衡的漂動、測光受到影響、光線受到移動物體的反射、折射、攝影機像素漂動等等問題，在一個極度理想的狀態下，可以輕易的認知到，在這一連串的影像序列中，影像直方圖是一模一樣的，為了解決此類的問題，在[21]中提到，加入直方圖的每個統計範圍的中心座標，將表達的特徵向量修改如下： _{( , , , ,...,}1 1 2 2 3i_, 3i₎ x y x y x y b b b b b b (2.2) 其中( , )i i x y b b 是經過傳統的_b_#i_{改良，表示第}_i_{個顏色範圍的所有各數位置的平} 均，稱為擴展直方圖(Histogram Expand)，便可以輕鬆解決前述的問題，因此，此方法，在連續影像的相似度判別上，也可見到這類方法的蹤跡，因此，如(2.2)所示，即可以求得該特徵空間的特徵向量，用此特徵向量描述該影像資訊。當取得影像的特徵向量之後，就可以藉由高維度空間中，兩向量的相似度，作為影像的相似度；而兩相量的相似度判別有：最小平方法(least square)、歐基理德距離(two norm)、向量元素的差值合 (one norm)、最大值差異(infinite norm)，向量長度和向量角度……方法不勝枚舉，而以歐基里德以距離為例，如下圖 3：影像差異越大，特徵向量距離越遠。

(22)

影像地標紅色的直方統計圖綠色的直方統計圖藍色的直方統計圖 (484,134,140,……,449,219,……,2054,482,……,5556) 以直方圖做為該影像的特徵向量 (164.6,116.66,……,155.3,37.5,……,203.7,25.138,……) 以擴展直方圖做為特徵向量 (以顏色的平均座標代替直方圖的數量) 同理,收集特徵向量同理,收集特徵向量測試影像 _{比較兩個向量的歐幾米德距離} 606.329 2251.957 影像差異的距離圖 3 利用擴展直方圖計算影像間的差異

(23)

2.5 主軸分析(Principle Component Analysis)

若將影像視為一份高維度的資料，那對於高維度的資料直接做處理，除了運算比較繁瑣以外，還有可能對雜訊的部份做分析，反而得到負面的影響，因此，降低資料維度，是解決此問題的最直覺的方式，而投影到的低維度空間必須滿足：1.資料各個群數的平均值要夠遠；2.資料各個群數的變異量要夠小。

主要分量分析(Principle Component Analysis)就是在尋求一個最佳的低維度空間，讓降低維度的資料，能夠保留最多重要的訊息，他的概念就是先將影像資料，透過線性代數的概念，投影到特徵空間中，接著利用特徵向量，與特徵值所表示該特徵向量上的分量，來選取適當的特徵向量，做為低維度的投影空間。有一組N 張影像資料，而每一張影像有d個像素值，可以將每張影像拉成一維的列向量，並將N 張影像資料排列成： 1 1 1 1 2 2 2 2 1 2 1 2 d d N N N d x x x x x x A x x x ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ =_⎢ _⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ L L M M O M L (2.3) 其中 i j x 表示第i張影像的第j的像素值。由於影像的張數，常常不等於每張影像的像素值的個數，所以矩陣A也往往不是方陣，所以，要抽取矩陣A的

特徵向量，就利用奇異值分解法(singular value decomposition)：

T N d N N N d d d A _× =U _× D V_× _× (2.4) 簡單來說就是求_{A A}T _{的特徵值與特徵向量，然後將特徵向量依照所對應的} 特徵值由大到小排列，然後選取，要保留的維度，將其特徵向量依序排列，即為轉換函數，由(2.4)式可整理成：

(24)

Z_{N q}_× =A V_{N d d q}_× _× =U_{N N}_× D_{N q}_× (2.5) 而其中q是降低維度後剩下的維度大小，所以，q d≤ ，而Z即為降低維度後的資料。而此後的每張測試影像都先轉換成a_{1 d}_× 的向量，再透過映射矩陣V_{d q}_× ，轉換成特徵空間中的一個向量，再利用前一節介紹的比對向量差異的種種方式來比較影像向量的差異，而圖 4 則是為單獨與合併運算 PCA 後的模糊影響。圖 4 透過 PCA 運算所得到的模糊影像，中間為各自計算特徵向量，後側為合併計算

2.6 統計模型(Statistical Model)

在圖形識別、影像認知等領域中，對於影像中的顏色分部及其所在位置，以統計的數學分布來代表該影像，稱為統計模型，在這類模型中，我們又可以將其分為有參數模型與無參數模型兩類： (1)有參數模型(Parametric Model) 根據所收到的影像資訊，以及其估測的參數，使用「特定」的統計分佈來近似其真正的分布，主要有:

(25)

這是最基本的統計模型，但是其自由度太低，可調變參數太少，不足以表達影像資料的分布，所以有必要將它增加到多個高斯分佈。

●高斯混合模型(Mixture Gaussian Model-GMM)

組合多個模型，來滿足空間中資料分布的趨勢，如此一來可以大大的提升自由度，而隨著越多群的高斯模型，也可以越來越滿足影像資料的分布，將足夠來表達空間中的影像資訊，而且可以只需紀錄幾個參數，便可以輕鬆的紀錄該點的位置資訊，而他的效果，如下圖 5 所示：圖 5 不同群數去模擬資料分布的情形 (2)無參數模型(Non-Parametric Model) 不需要任何的理論假設，直接去預測它的密度函數去做近似真正分佈的動作，就是一種無參數的資料分布估測的方法。它們利用無參數核心密度估測(nonparametric kernel density estimation)的方法，簡稱 KDE，他們對

於影像中每個像素的位置都給予一個核心函數。而此種 KDE 的方法，其簡單來說，就是針對每一個位置，利用同一張影像中某像素位置的顏色資訊，以及一個具有頻寬係數 σ 的核心函數 Kσ (例：Gaussian、Uniform、 Triangle…等)，來算出此像素現在影像資訊的機率值，其數學方程式為:

( )

∑

(

)

= − = N i t i t r K x x N x P 1 1 σ (2.6)

(26)

圖 6 利用 KDE 進四真實資料的統計分佈圖 6 是在每一個資料點(紅色+)為中心，給予一個高斯的核心函數，並做加和及取權重，所得到的機率分佈函式。核心函式(Kernel Function)的種類有很多，下面表 1 中列出常見的種類及其數學表示式。表 1 無參數核心密度估測 KDE 之核心 Kernel Name K u( ) Gaussian 1 _exp( 1 2₎ 2 2π − u Uniform 1 ₍ ₁₎ 2I u ≤ Triangle ₍₁₋ _{u I u}_{) (} _≤₁₎ Epanechnikov 3₍₁ 2_{) (} ₁₎ 4 −u I u ≤ Quartic 15₍₁ 2 2_{) (} ₁₎ 16 −u I u ≤ Triweight 35₍₁ 2 3_{) (} ₁₎ 32 −u I u ≤ Co sinus _cos( _{) (} ₁₎ 4 2u I u π π _≤ 值得注意的是，在核心函數Kσ裡的頻寬係數σ，若其越小，則會造成

(27)

則會造成估測的機率曲線太過平滑，而忽略了資料分佈中較精細的部分，所以如何選取一個適當的頻寬係數 σ，使估測的機率曲線最接近實際的情況，是KDE 中重要的一項工作，依序如下圖 7 所示：圖 7 頻寬係數對於 KDE 的影響簡而言之，參數模型是利用多群高斯核心去模擬資料的分布，而無參數模型則是在影像的每個像素點上面放上一個核心函數，不斷的累加這些核心函數，使其分布類似影像資料的分布。當影像資料透過各種方式模型化後，比對兩個模型間的差異性或是比對未知位置的影像資料與模型的符合度的機制，在統計學中不勝枚舉，而我們就針對上述的兩個情形，各舉一個我們所採用的機制來說明。 ◆當我們透過之後章節會介紹的EM 演算法獲得統計分布的影像資訊參數後，如何判別兩個影像間的差異性，對我們來說是個刻不容緩的問題，在[22]中變介紹了最常見的 Kullback-Leibler distance，此量測方式，一開始的定義為 1 1 0 1 1 0 ( ) ( || ) { ( ) ( )} ( ) L t t t t p x D p p p x log p x = ≈

∑

⋅ (2.7)其中，p x_i( )_t 表示機率模型中某點x_t的機率值，而影像資訊量大小共有L個像素點，而累加這些機率值的交互作用，做為模型1 與模型 2 的差異；然而，可以清楚的看到這樣計算的結果，模型1 與模型 2 的差異將不會等於模型 2 與模型 1 的差異，這樣的結果比較不如我們所預期，所以，經過不斷的

(28)

改進，最後KL distance 所採取的公式如下： 1 0 1 0 1 0 1 ( ) ( ) ( || ) ( ) log ( ) log ( ) ( ) L t t t t t t t p x p x D p p p x p x m x m x = ⎛ ⎛ ⎞ ⎛ ⎞⎞ ≈ _⎜_⎜ ⋅ _⎜ _⎟+ ⋅ _⎜ _⎟_⎟_⎟ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠

∑

(2.8) 透過上式的計算，便可以修正之前較不合理的地方，也可以透過此公式，將計算出兩個模型間的差異。而其中 _{( )} 1( ) 0( ) 2 t t t p x p x m x = + 為兩個模型同一個位置的機率值的平均。 ◆另外一個問題就是當影像地標已經建立好統計模型之後，當測試影像需要去測試與統計模型的相似度，如果採用再建立測試影像的統計模型再去利用 kl 距離比對，往往需要大量的運算時間，所以，我們採用將測試影像的資訊套入影像地標的統計模型中，如果符合模型分布，將會得到一個較高的機率值，如果與模型分布有些微的偏差，則會得到較低的機率值，並把這些機率值透過log函數調整，在累加起來，避免值域太小，無法表達，而這樣的機制稱為最大期望值(Maximum likelihood)，而一般我們通常偏好正值，所以會再取絕對值，公式如下： 1 ( ( )) L t t ML log p x = =

∑

(2.9)

2.7 利用影像相似度來進行影像認知與定位

第一、透過之前所介紹的影像相似的準則與量測方式，我們便可以利用這些方法，再利用盲目比對(blind search)，對於影像地標，進行認知的測試；因此，在室內環境中，當我們對於所感興趣的地點，擷取影像，利用此影像建立影像地標來取代特定的人工地標，然後利用上述的各種方法，將影像地標中的特徵空間挑選出來，接下來當再回到該空間附近，可以再次透過擷取目前位置的影像資訊，透過轉換矩陣或其他轉換方式，將目前的影像資訊轉換至特徵空間中所表示的特徵向量，比較各向量間的相

(29)

進資料與模型的適當度(如：ML value)，來判別未知位置的影像與各個影像地標的相似度，依此相似度來歸類未知影像應該屬於某個影像地標所涵蓋的區域內。第二、當一個未知的影像透過之前的比對，可以將其歸屬於某個影像地標附近的區域，但是，我們希冀可以更加的精準的回到當初建立影像地標的位置。因此，我們將觀察當空間中偏離影像地標拍攝點越遠，其特徵空間中，待測影像與地標影像的差異幾乎越大，這樣單調(monotonic)的大體趨勢，將被我們使用來輔佐於影像定位，我們接下來會在之後的實驗，分析討論這單調的趨勢，我們將透過實驗嘗試解釋與分析單調趨勢的特色。

(30)

第三章高斯混合模型建立資料庫

3.1 高斯混合模型(Gaussian Mixture Model)

高斯混合模型(GMM)，通常被使用與語音辨識系統與圖形識別之中，亦是影像分割(image segmentation)中主要方法之一，經過高斯混合模型處理的影像，會有兩個特色：1.影像中，太過細微的影像資訊會被移除；2. 影像中，重要的輪廓，會更加的清楚。而這兩個效果，可以將場景概念化；所謂的概念化即是，對於影像內容中大區塊的漸層效果，以及太過細節變化的小區塊，忽略不紀錄，然而，反觀當人類忽略這些變化，並不會因此在空間中迷路，因此，利用高斯混合模型，來當影像資料的統計模型，可以預期利用該資訊來輔助定位，有著一定效果，此外，高斯混合模型所附帶的效果，會降低所需要紀錄的量值非常少，可以減少儲存空間。

3.1.1 高斯混合模型簡介

高斯混合模型具備參數型機率密度函數之特性，但是並沒有被限制於機率分佈的種類，換句話說，它具備參數定義機率密度函數且無論任何機率密度函數都可適用；另一方面，高斯混合模型也擁有非參數型機率密度函數之特點，可以自由符合資料型態之任意機率密度[23]。然而，當擷取到一張影像資訊時，首先面臨是該影像的訊息如何表示，先不論其他彩色空間，單以 RGB 彩色空間而言，若以對角協方差矩陣的高斯混合模型去描述三維的影像資訊，這樣等同於是把影像直方圖透過高斯混合模型去表達，當面臨同一個色塊，卻出現在不同位置這問題時，這樣的做法，不足以表達其影像的差異程度，所以色塊的位置資訊也

(31)

描述單一影像的資訊，如圖 8。

Red Level

Green Level

Blue Level

Color Image Plane (3D)

．

Pixel(x,y) Feature Plane (5D) Position x Position y Combine Spatial Information Red Level Green Level Blue Level

Color Image Plane (3D)

．

Pixel(x,y) Feature Plane (5D) Position x Position y Feature Plane (5D) Position x Position y Combine Spatial Information 圖 8 擷取五維的特徵向量再以數學的觀點來看，對任一具有多類別的樣本(Pattern)而言，高斯混合模型具有極佳的近似能力，與傳統的單一高斯分佈(Single Gaussian Mixture)及向量量化(Vector Quantization)兩種模型比較，單一高斯分佈模型，僅能用一個平均值向量來代表一堆樣本在向量空間的中心位置，用共變異矩陣來近似這些樣本在向量空間中所分佈的形狀，其效果當然不好。而向量量化的模型，是用幾個重要的位置來代表整個向量空間，但模型本身並沒有把這些樣本在空間中的分佈大小、形狀描述出來，因此此種方法也不理想。而高斯混合模型使用多個高斯來代表特徵向量的分佈，以數學的觀點來看，它不但精準地紀錄樣本的各種類別、在向量空間中的位置，也能描述出這些類別在空間中的大小及形狀，因此，高斯混合模型適合描述特徵向量在顏色空間的分佈。

3.1.2 模型的描述

高斯混合模型，顧名思義，則是由一組權重大小不同的高斯曲線，來描繪、近似資料分布，而高斯的公式如下[24]： ₁ 2 ₂ 1 1( ) ( ) 2 1 ( ) (2 ) i D i T i i i x x g x

e

μ μ π − − − Σ − = Σ (3.1) 其中，g x_i( )是資料點x輸入至第i群所得到的機率值，D為所輸入x的資料 μ 和

(32)

方差矩陣(Covariance Matrix)；其中，x和μ 的維度為_i D，而Σ_i的維度為

D D× 。

而一個高斯混合模型還需要另外一個權重的參數，因此具有三個參數，分別是混合加權值(mixture weights)、平均值向量(mean vector)以及共變異矩陣(covariance matrix)，將這些參數集合起來並賦予新的符號，如下所示： λ ={ , , },w_i μ_i Σ_i i=1, 2,...,M (3.2) 其中

w

i表示混合加權值，

μ

i表示平均向量，

∑

_i 表示共變異矩陣，而M 則是高斯分佈的個數，對每一個影像像素而言，都可以用λ來表示像素的模型。若我們的資料X_N ={X₁,X₂,...,X_n}在D 維空間中分佈，其高斯混合模型的相似度表示如下： 1 ( _N | ) M _{i i}( )_N i p x λ w g x = =

∑

(3.3) 而g x_i( )_N 如上式(3.2)所示，且混合加權值也必須w_i滿足 1 1 M i iΣ= w = 的條件，而其架構圖如下圖 9 所示：圖 9 高斯混合模型之架構圖

(33)

圖。圖 10 強度統計分布及高斯混合模型近似的分布然而高斯混合模型，除了群數可以選擇以外，對於共變異矩陣Σ，我們亦有選擇的空間，主要分成三種，實矩陣(Full Matrix)、對角矩陣(Diagonal Matrix)、單位矩陣(Identity Matrix)，外觀如下圖 11，分別對其行為討論如下：圖 11 不同共變矩陣的外觀之示意圖

◎實矩陣(Full Matrix)：所產生出來的共變異實矩陣(Full covariance)，因為是變異矩陣，所以必為對秤矩陣，在空間中，會呈現成斜橢圓球，除了主軸的變異量分布外，主軸亦可以傾斜，有極高的自由度；它也是這三類共變異矩陣中最可以充分描述資料分布的詳細情況，尤其是高維度空間中，資料分布比較廣，比較散亂，變動亦比較劇烈，一個自由度較大的共變異矩陣，自然而然的可以呈現的比較好。然而，由於自由度大，所以相對的會面臨到大量的運算，極花時間。

(34)

◎對角矩陣(Diagonal Matrix)：所產生的共變異對角矩陣(Diagonal covariance)，因為本身就只剩下對角元素，所以本來就是對稱矩陣，而在空間中呈現正橢圓球，僅剩下主軸上有變異量，主軸本身不會傾斜，各個元素彼此沒有關聯性；他運算量介於實矩陣與單位矩陣，他保留了每個元素自己的伸展空間，但是卻彼此不會影響對方，以運算量的角度而言，當計算到共變異矩陣的逆矩陣_Σ−1_{時候，所需要的運算量，是遠比實矩陣來的} 簡易很多，速度也提升很多。 ◎單位矩陣(Identity Matrix)：所對應的共變異單位矩陣，亦可稱為共變異球矩陣(Spherical covariance)，跟對角矩陣道理相通，必為對稱矩陣；且觀其名而知其意，在空間中分布，的共變異球矩陣，分布為球狀，不只僅剩下主軸上面允許有變異，且各主軸間的變異量亦限制相同；他的運算量是最簡易的，但是和對角矩陣而言相比較，每次計算高斯值只減少D−1 個除法，增快不多，而要能夠表達出資料分布，在相同條件下，要達到相同的描繪能力，需要更高的群數，甚至，有時候再高的群數都很難去適度的描述資料分布。而其不同共變異矩陣所得到的參數分布如下圖 12

(35)

3.1.3 模型的選擇

如果希望辨識率或是之後的輔助定位能夠更加精確，理論上應該是要選取實對稱矩陣，但是基於下面兩個考量，所以並不選擇實矩陣：第一、實對稱矩陣除了轉置矩陣與原本矩陣相同，並沒有其他的特色，而且由於它可以任意變形，所以可以去滿足影像地標的任何一個區塊，有時候如果群數不夠多，反而費力去描述細節的變化，反而忽略主要色塊。第二、實對稱矩陣在計算反矩陣時，其計算量遠大於只有對角元素有值的矩陣，運算量太大。第三、當實矩陣在計算反矩陣時，如果遇到絕對值(determine)接近或是等於0 則整個運算就會發散，而對角矩陣如果遇到類似的問題，我們將在 3.3 節討論，而實矩陣如果要仿效對角矩陣，則必須還要將整個資訊投影到共變異矩陣的特徵空間，其繁瑣程度，不言而喻，所以採用對角矩陣。而不選取單位矩陣做為共變異矩陣，則是因為選擇五維空間的影像資訊做為考量，所以共變異矩陣在影響這個兩個維度的變化的數量級幾乎可以是差不多，但是其像素值則會有很大的差異，而如果強迫其變異量必須一致，則模型的準確度則大打折扣，但是在簡單比對的條件下，可以考慮單位矩陣，而如果需要更精細的比對，或是資料分布描繪需要很清楚的情況下，將採用對角矩陣。而下圖 13 為一場景透過對角矩陣模糊化。

(36)

3.1.4 模型的參數初始化

我們如果希望快速地、精確地找出高斯混合模型的最佳參數，使得系統有最佳的表現，則在尋找最佳參數之前我們必須對參數做初使化的動作；在[25]中也提到，要加速提高 EM 演算法的效率，適當的初始化是非常重要的。向量量化(VQ)是一項運用非常廣泛的技術，它能將一堆特徵向量的資料，濃縮成幾個具代表性的類別(class)或群集(cluster)，所以這裡我們先採用VQ 的技術，將我們得到的影像像素值，做初步的分群，得到高斯混合模型參數的初始化值(包括群的個數、群的中心)，以利於後面做參數的最佳化。VQ 的方法有很多種，我們採用 K 平均值分類法(K-means Cluster)，其流程如圖 14 所示，詳細的步驟說明如下： 0、收集資料：經過一段時間的收集，獲得N 個欲做訓練的特徵向量。 1、初始化：假設希望的高斯群數是K，並隨機地取 K 個向量當成每群的中心點。 2、以新的群中心來分群：其他(N-K)個向量對這 K 個群中心做距離測量，以距離做為分群的依據，每個向量被分類到距離最短的中心。 3、更新群中心：接著對每一群算出新的向量平均值，以此做為新的群中心。 4、判斷分群是否收斂：將新的群中心與舊的群中心作比較，如果不再有變動，表示已收斂，則做步驟5；反之，則重複步驟 2、3。 5、得到初始化參數：

(37)

作高斯混合模型的初始參數(M、 μ 、∑、w)。

圖 14 平均值分類法(K-means Cluster)流程圖

3.2 最佳相似性估測演算法

(Expectation Maximization)

我們在做資料模型訓練時，最終的目的是估測最佳的高斯混合模型參

(38)

型參數λ估測出來的分佈有最大的相似度，估測最佳參數的方法有很多，但最受歡迎、最適合的方法是『最佳相似性估測法』(Maximum Likelihood Estimation ,MLE)。在3.1.2 節高斯密度函數的假設下，當x=xi時，其機率密度為P(xiλ)，如果x_i,i=1~n 之間是互相獨立的事件，則發生X ={x₁,x₂,...,x_n}的機率密度之相似函數(likelihood function)可以表示成： ( ) ( ) 1 λ λ n _i i x P X P

∏

= = (3.4) 由於 X 是確定的，因此 MLE 主要就是找出使得高斯混合模型的相似函數值為最大時的參數_{λ ，也就是}' _λ' _arg_max ₍ _λ₎ λ P X = ，但是(2.4)式對λ而言是一個非線性的方程式，無法直接最大化相似函數，所以我們採用期望值最大演算法(Expectation Maximization Algorithm)，利用疊代的方式找出 MLE 的估測參數_{λ 。}'

EM 演算法的基本做法是先由之前 K 平均值分類法找出的初始化參數λ，

再利用EM 估計出新的參數 λ ，使得滿足P(Xλ)≥P(Xλ)，令λ =λ重新疊

代估計新的λ ，直到P(Xλ)收斂或是達到某個門檻值才停止。EM 演算法

主要分成2 個部分，與 likelihood 函數有關的 Expectation Step (E-Step)，以及更新參數方程式的Maximization Step (M-Step)。

3.2.1 期望值(Expectation Step)

目的是測試我們所求的likelihood 函數值，是否達到我們的要求，若符

合要求，EM 演算法就停止，反之就繼續執行 EM 演算法。這裡為了數學推導的方便，假設我們的模型是由三個高斯分佈函數所構成，則其密度函

(39)

) , ; ( ) , ; ( ) , ; ( ) (x =w₁g x μ₁ ∑₁ +w₂g x μ₂ ∑₂ +w₃g x μ₃ ∑₃ P (3.5) 其中共變異矩陣部分∑_j，為了推導方便而且如果以運算量效能比來考量，選擇對角矩陣比較有利，因此推導就由對角矩陣來考量，所以只剩對角有值， P(x) 的參數 λ =[ w₁,w₂,w₃,μ₁,μ₂,μ₃,∑₁,∑₂,∑₃ ] ，參數個數為 (1+1+1+d+d+d+d+d+d)=3+6d 個，依前述 MLE 原則，求出 likelihood 的最大值：

∑

∏

= = = ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = n i i i n i x P x P E 1 1 ) ( ln ) ( ln ) (λ

∑

= ∑ + ∑ + ∑ = n i i i i w g x w g x x g w 1 3 3 3 2 2 2 1 1 1 ( ; , ) ( ; , ) ( ; , )] ln[ μ μ μ (3.6) 爲簡化討論，再引進另一個數學符號稱事後機率(post probability): ) ( ) ( ) ( ) ( ) ( ) ( ) ( x p j x p j p x p x j p x j p x j = ∩ = = β ) 3 ( ) 3 ( ) 2 ( ) 2 ( ) 1 ( ) 1 ( ) ( ) ( x p p x p p x p p j x p j p + + = ) , ; ( ) , ; ( ) , ; ( ) , ; ( 3 3 3 2 2 2 1 1 1 ∑ + ∑ + ∑ ∑ = μ μ μ μ x g w x g w x g w x g w_j _i _i (3.7)

3.2.2 最大值(Maximization Step)

主要目的是為了要找到使 likelihood 函數最大化的參數，因此我們分別對w_i、μ 、_i ∑_i做偏微分，再做後續的運算，於是我們便可以得到所求的參數，接著返回E-Step 繼續做。假設初始參數是λ ，我們希望找出新的_old λ值，滿足E(λ)>E(λ_old)，因為根據ln( ) ln(a) ln(b) b a − = ，E(λ)−E(λ_old)可以延伸成下式：

(40)

∑

= ⎥⎦ ⎤ ⎢ ⎣ ⎡ ∑ + ∑ + ∑ ∑ + ∑ + ∑ = − n

i old i old old old i old old old i old old i i i old x g w x g w x g w x g w x g w x g w E E 1 1, 1, 1, 2, 2, 2, 3, 3, 3, 3 3 3 2 2 2 1 1 1 ) , ; ( ) , ; ( ) , ; ( ) , ; ( ) , ; ( ) , ; ( ln ) ( ) ( μ μ μ μ μ μ λ λ _⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ∑ ₊ ∑ ₊ ∑ =

∑

= ( ) ) ( ) ( ) , , ( ) ( ) ( ) ( ) , , ( ) ( ) ( ) ( ) , , ( ln 3 3 3 3 3 2 2 2 2 2 1 1 1 1 1 1 i i old i i i old i i i old i n i x x D x g w x x D x g w x x D x g w β β λ μ β β λ μ β β λ μ

∑

= ⎥⎦ ⎤ ⎢ ⎣ ⎡ ∑ ₊ ∑ ₊ ∑ ≥ n i old i i i i old i i i old i i x D x g w x x D x g w x x D x g w x 1 3 3 3 3 3 2 2 2 2 2 1 1 1 1 1 ) ( ) ( ) , ; ( ln ) ( ) ( ) ( ) , ; ( ln ) ( ) ( ) ( ) , ; ( ln ) ( β λ μ β β λ μ β β λ μ β =Q(λ) (3.8) 上式中，因為ln(x)是一個凸函數( Convex Function)，滿足下列不等式： ) ln( ) 1 ( ) ln( ] ) 1 ( ln[αx₁+ −α x₂ ≥α x₁ + −α x₂ (3.9) 推廣上式到「傑森不等式」(Jensen Inequality)：

∑

= = = = ≥ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ n i i i n i i n i i i x x 1 1 1 1 ), ln( ln α α α (3.10) 因為

∑

= = 3 1 1 ) ( j i j x β ，所以可以將傑森不等式套用在3.8 式，最後得到下式： ) ( ) ( ) (λ E λ Q λ E ≥ _old + (3.11) 只要Q(λ)>0，必滿足E(λ)>E(λ_old)，但我們通常希望E(λ)越大越好，最直接的方式就是找出使得Q(λ)最大的λ值，那E(λ)也會跟著變大，見下圖 15。 ) (λ Q 是λ的函數，將一些與λ不相關的部分併入常數項，並重新整理 ) (λ Q 成下式：

∑∑

= = + ∑ + = n i j j j i j i j x w g x c Q 1 3 1 1 )] , ; ( ln )[ln ( ) (

λ

β

μ

∑∑

= = − + ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − ∑ − − ∑ + = n i j T j i j j i j d j i j c x x w x 1 3 1 1 2 1 2 2 1 ) ( ) ( exp ] [det ) 2 ( 1 ln ln ) ( μ μ π β 對μ 偏微分，_j

∑

= = ⇒ = ∂ _n n i i i j j x x Q j 1 ) ( 0 β μ μ (3.12)

(41)

對∑_j偏微分，

∑

= = ∑ − − = ∑ ⇒ = ∂ _n i i j n i T j i j i i j j x x x x Q j 1 1 ) ( ) )( )( ( 0 β μ μ β (3.13) 欲得到最佳之w_j值，須將w_j的總合為 1 的條件加入，引進 Lagrange Multiplier，並定義新的目標函數(object function)為： ) 1 ( ) ( ) ( =E + w₁+w₂+w₃− E_new λ λ α (3.14) 將E_new對3 個 weighting 做偏微分，可得到下面 3 個方程式： 3 , 2 , 1 , 0 ) ( 1 1 = = + − = ∂ ∂

∑

= j x w w E n i j i j j new β α _(3.15) 最後將3.15 的 3 個式子相加，可得到：

[

]

∑

= + + − = + + n i i i i x x x w w w 1 1 2 3 3 2 1 ) ( ) ( ) ( ) ( α β β β n n i − = − = ⇒

∑

=1 1 α

∑

= = = ⇒ n i j i j _n x j w 1 3 , 2 , 1 ), ( 1 _β (3.16)

圖 15 Likelihood fuction E(λ)最大化的示意圖

綜合前面各步驟的說明，GMM 建立的整個流程如圖 16 所示，先將 N

個準備拿來訓練模型的資料點，經過 K-means Clustering 後得到初始的參

(42)

∑

= = = _n i j i n i j i i j x x x 1 1 ) ( ) ( β β μ

∑

= = − − = ∑ _n i j i n i T j i j i i j j x x x x 1 1 ) ( ) )( )( ( β μ μ β

∑

= = n i j i j _n x w 1 ) ( 1 _β (3.17) 進行參數的更新，並計算新的相似函數的值，如此不斷的疊代，不斷地更新模型的參數，直到相似函數的值已經沒什麼變動，或是疊代的次數超過某個門檻值，才停止疊代。而上述(3.17)式中，Σ_j是通式的寫法，也就是實矩陣的表達模式，但是如果是對角矩陣或單位矩陣，其運算可以簡化成為下式： 2 2 1 1 2 2 1 1 ( )( ) , 1, 2, , (diagonal covariance) ( ) ( ) (spherical covariance) ( ) n j i ki kj i kj n j i i n j i i j i k n j i i x x k D x x x x β μ σ β β μ σ β = = = = − = = − =

∑

L (3.18) 而平均和權重的計算方式，不會受到所選取的共變異矩陣不同而有所不同，所以公式不變。

(43)

3.3 高斯混合模型接近高群數的問題

一般的資料分布，幾乎很難真的是跟高斯分布一模一樣，即使是混合高斯模型，亦難百分百去滿足任何的資料模型分布。然而，先不考慮資料分布中有雜訊以及過度緊貼資料(over-fitting)分布；理論上，我們可以很直覺的意識到越多群數，可以越清楚的描述資料分布的情形，但是，影像資料中，出現色塊的情形，並不算是罕見，也就是當五維資訊中，隨著K means 的方法所得到的初始值不同，當高斯混合模型中的某一群高斯模型恰巧完全落在該色塊區域上，如此一來，該五維空間中，色彩的部分，變異量極小，甚至是 0 變異量，有些時候，即使顏色是一漸層分布，但是以 RGB 的分布來看，也是可能有一個彩色維度的顏色值域都維持不變，亦有可能受到編譯器(compiler)的影響，當某些值，過小的時候，編譯器已經無法分辯他的值，使得輸出結果為 0；但是不論是哪一種編譯器，都不可能去處理無限小的情形，所以變異量為0 似乎是不可避免的問題，當遇到這樣的問題，當某次 EM 疊帶的結果(3.18)式中的σ 為 0 時，下次進入到 E-stepkj 的時候會需要計算高斯的值，需要帶入(3.1)式，其中_Σ−1_{項會因為其} determine 為 0 而使得高斯值發散，進而破壞了整個 EM 的演算法。

(44)

圖 17 一般的高斯分布與某一維度變異量為 0 的情況而這問題的解決方式，透過多方搜尋的結果，我們有發現部分的解決方法是設立門檻值(threshold)，當判別變異量σ 小於一個門檻值時，則強_kj 制定義該變異量為門檻值，但是一旦設立門檻值，可能面臨兩個問題：第一、門檻值設立太高，無法收斂；第二、即使收斂了，因為每次遇到變異量太小就會強制將變異量改成門檻值，其模型精確度大幅下降，這不是我們所樂見的，所以，回到最基本的定義來探討變異量很小甚至為零的情況：當變異量很小而趨近於 0，表示該維度的分量沒有什麼變化，所以以高斯分布來看，在該維度的貢獻非零即一；我們再假設各維度間是線性獨立的關係(以對角矩陣為例)，可以看出，以圖 17 為例：再搭配條件機率： ( ) ( | ) ( ) p A B P A B P B ∩ =

(45)

( ) ( ) ( | ) ( | ) ( | 1 ) P A B C∩ ∩ _L∩N =P A P B A P C B∩A _LP N N− ∩_LC∩ ∩B A (3.19) 且因為是對角矩陣，為獨立矩陣，P A B( | )=P A( )且 P B A( | )=P B( )為線性獨立，所以上式可以整理成： P A B C( ∩ ∩ _L∩N)=P A P B P C( ) ( ) ( )_LP N( ) (3.20) 所以透過條件機率的概念，只要線性獨立，可以透過單獨計算每個元素(維度)的貢獻，來求取最後的機率值。因此，為了要得到可以個別運算各為度的機率值，我們勢必對高斯的公式(3.1)稍做整理： 2 1 2 2 2 3 0 0 0 0 0 0 0 1 2 2 1 2 2 2 2 3 1 1( ) ( ) 2 1 ( ) 0 0 0 0 (2 ) 0 0 0 j j j j j D j j T j j j x x g x

e

σ σ σ μ μ σ σ π σ ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ − − − − = ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ L M M M O L L M M M O L 1 1 2 2 1 1 2 2 2 2 2 1 2 ( ) ( ) ( ) 1 , , , ( ),( ), ( ) 2 1 2 2 2 2 2 1 2 1 (2 ) ( ) T j j N Nj j j N Nj j j Nj x x x x x x j D j j Nj g e μ μ μ μ μ μ σ σ σ π σ σ σ ⎡ − − − ⎤ ⎡ ⎤ ⎢ ⎥ − _⎣ − − − _⎦ ⎢ ⎥ ⎣ ⎦ ⇒ = L L L 2 2 2 1 1 2 2 2 2 2 1 2 ( ) ( ) ( ) 1 2 1 2 2 2 2 2 1 2 1 (2 ) ( ) j j N Nj j j Nj x x x j D j j Nj g e μ μ μ σ σ σ π σ σ σ ⎡ − − − ⎤ ⎢ ⎥ − + + + ⎢ ⎥ ⎣ ⎦ ⇒ = L L 2 2 2 1 1 2 2 2 2 2 1 2 ( ) ( ) ( ) 1 1 1 2 2 2 1 1 1 2 2 2 1 2 1 1 1 (2 ) (2 ) (2 ) j j N Nj j j Nj x x x j j j Nj g e e e μ μ μ σ σ σ π σ π σ π σ − − − − − − ⇒ = _L (3.21) 透過上式的整理，便可以將各維度對於整個機率值的貢獻拆開來，再搭配條件機率的概念，分別計算每個元素的值再累乘即答案，那當遇到變異量的值為0 時，就可以獨立處理；而變異量為 0 的高斯函數，從定義著手，其機率值為1，因此一旦在收斂的過程中，任一變異量σ 過小(可能導致編kj

(46)

譯器無法辨識)，我們就認為該維度其實已經為 0 變異量，這時候就需要拆開各維度的貢獻，變異量大的維度維持採用高斯的公式計算，而變異量小的維度，就跟著判斷，該影像資訊中被縮減維度的值，與該維度中心的差異是否落在殘存的變異量九倍之內(variance)，若是三倍偏移量之內，則認定該維度貢獻維1，以外則為 0，如此就可以順利求出整個高斯分布的值，那整個EM 的演算法就可以繼續疊代，只到我們希望停止的門檻值，而如此所得到個EM 的混合高斯分布，其效果將比一般的設立變異量的門檻值的方法，更加能夠描述影像資訊的分布。而其計算最大期望值的部份流程圖如下圖 18：更新Means 更新Variances 更新Weights 判別Variance是否有太小的情形直接計算 likelihood fuction值降低維度,拆開計算判別被降維度的資料點與被降維度的 Mean是否落在剩下的三倍deviation之內 Variance太小的維度 Variance夠大的維度分別計算 likelihood fuction值貢獻0 貢獻1 得到 likelihood fuction值全部機率值累乘起來圖 18 在計算機率值時，防止變異量過小之機制的流程圖

(47)

第四章資料庫集合與結合演算法

4.1 資料庫的建立

當我們希冀結合場景中多角度之影像，來提高辨識率，所以我們勢必在同一個場景拍攝多個角度的影像資訊，當將來再回到該場景附近時，不會因為過度缺乏資訊而造成誤判，但是拍攝過多的影像資訊，反而會照成誤判，或是運算量大增，於是乎，如何選擇適當且適量的不同角度的影像，是建立影像地標資料庫的主要目標。而我們透過物件辨識的概念，來縮減我們的資料量。

4.1.1 Cyr and Kimia 提出的結合演算法

接下來我們就來說明Cyr and Kimia [26]提出的外觀結合演算法，首先

我們說明一些代表符號，以便後面的說明。 n m V 指的是第n個物體的第m個面， n p A 則是第n個物體的第p個外觀，其就是一個範圍內面的集合，可用下式來表示它

{

n

}

k m n m n m n m n k m n p V V V V V A = ₋ −,L, ₋₁, , ₊₁,L, ₊ + （4-1）其中 n m V 是此外觀的特徵面（characteristic view），

(

k−,k+

)

是此外觀的邊界。

Cyr and Kimia 提出的外觀結合演算法是一種基於相似度的區域成長的方法，在這裡它所應用的對象，是對在觀測物體的外側球面上的赤道線

利用空間高斯混合模型進行影像地標判定及輔助定位

國 立 交 通 大 學

電機與控制工程研究所

碩 士 論 文

利用空間高斯混合模型進行影像地標判定

及輔助定位

Image Landmark Registration and

Localization

Using Spatial Gaussian Mixture Model

研 究 生： 黃 恒 嘉

指導教授： 胡 竹 生 博士

利用空間高斯混合模型進行影像地標判定及輔助定位

摘

要

Image Landmark Registration and Localization

Using Spatial Gaussian Mixture Model

ABSTRACT

致謝

目錄

圖目錄

表目錄

第一章 序論

1.1 研究動機與相關背景

1.2 相關研究回顧

1.2.1 場景認知

1.2.2 機器人定位導航

1.2.3 電腦視覺

1.3 論文的主題

1.4 本篇論文的貢獻

1.5 論文的架構

第二章 影像相似度判別演算法

2.1 影像相似的量測準則

2.2 影像相似的方法概述

2.3 低通濾波器(Lowpass filter)

2.4 擴展直方統計圖(Expand Histogram)

2.5 主軸分析(Principle Component Analysis)

2.6 統計模型(Statistical Model)

( )

∑

(

)

∑

∑

∑

2.7 利用影像相似度來進行影像認知與定位

第三章 高斯混合模型建立資料庫

3.1 高斯混合模型(Gaussian Mixture Model)

3.1.1 高斯混合模型簡介

．

．

3.1.2 模型的描述

e

w

μ

∑

∑

3.1.3 模型的選擇

3.1.4 模型的參數初始化

3.2

最佳相似性估測演算法

(Expectation Maximization)

∏

3.2.1 期望值(Expectation Step)

∑

∏

∑

3.2.2 最大值(Maximization Step)

∑

∑

∑

∑

∑

∑

∑

∑∑

λ

β

μ

∑∑

∑

國立交通大學

碩士論文

研究生：黃恒嘉

指導教授：胡竹生博士

第一章序論

第二章影像相似度判別演算法

第三章高斯混合模型建立資料庫

第四章資料庫集合與結合演算法