I-Shou University Institutional Repository:Item 987654321/21421

(1)

義守大學

資訊工程研究所

碩士論文

基於 RGB-D 之影像分割方法

Image Segmentation from RGB-D Data

研究生

郭弘裕

指導教授

杜維昌博士

(2)

(3)

I

目錄... I

圖目錄... III

表目錄... IV

誌謝 ... V

摘要 ... VI

Abstract ... VII

Chapter 1 簡介 ... 1

1.1 研究背景 ... 1

1.2 研究動機與目的 ... 3

Chapter 2 文獻探討 ... 4

2.1 Kinect 感測原理 ... 4

2.2 RGB 影像分割方法 ... 6

2.2.1 分水嶺分割法 ... 6

2.2.2 區域生長法 ... 8

2.2.3 分離與合併區域分割法 ... 9

2.2.4 顏色重心和彩色圖像聚類分割法 ... 10

(4)

II

2.2.5 K-means 和人工魚群算法應用於圖像分割法 ... 11

2.2.6 超像素分割方法 ... 11

2.3 RGB-D 影像分割方法 ... 14

2.3.1 圖像標記分水嶺分割法 ... 14

2.3.2 多層聚類圖像分割法 ... 15

Chapter 3 研究方法與步驟 ... 16

3.1 色彩空間轉換 ... 17

3.2 K-means 分群... 18

3.3 區塊合併 ... 20

Chapter 4 實驗結果 ... 22

Chapter 5 結論與未來展望 ... 29

參考文獻 ... 30

(5)

III

圖目錄

圖 1、第二代 Kinect 體感裝置 ... 4

圖 2、分水嶺示意圖 ... 6

圖 3、局部最小值求法 ... 7

圖 4、分離與合併分割 ... 9

圖 5、合併結果 ... 10

圖 6、CBH 模型 ... 11

圖 7、SLIC 分群方法 ... 13

圖 8、系統架構 ... 16

圖 9、K-means 方法示意圖 ... 18

圖 10、實驗結果一 ... 23

圖 11、實驗結果二 ... 24

圖 12、實驗結果三 ... 25

圖 13、實驗結果四 ... 26

圖 14、實驗結果五 ... 27

(6)

IV

表目錄

(7)

V

誌謝

在兩年的研究所生涯裡有許多貴人幫助我完成這個學業，首先最感謝我的指導老師杜維昌老師，在研究當中遇到的各種難題都是經由老師的教導與指點才能順利度過難關，老師也教導我不管是撰寫論文、製作投影片、處理事情都應該要嚴謹對待，改變了我過去輕率的態度。接著還要感謝兩位貴人林義隆老師以及黃健興老師，因為有他們兩位的督促與指點才能讓這篇論文變得更加完善。感謝學長姐介民、承恩、羽馨、承志、柏仲、永在、士瑞在研究所生活和研究上遇到的問題感謝學長姐們的指教，有你們的幫助才能讓研究所階段順利度過。感謝家霖、峯碩、育淵、建明有你們這些好同學陪著我讓我在研究的過程中不會感到寂寞，大家一起說說笑笑一起排憂解悶，一起解決問題在這些日子裡都是難忘的經歷。感謝學弟妹姵萱、明遠、慶勳有你們幫忙處理實驗室中事務，讓我可以更專注於研究與撰寫論文。感謝系助卓有材先生、李瑩貞小姐在我研究心情感到鬱悶的時候陪我聊天抒發情緒。還有許多人在此無法一一感謝，但我真心感謝所有幫助過我的人。最後將我這份文獻獻給我摯愛的家人。

(8)

VI

有關 RGB-D 之影像分割方法

指導教授 : 杜維昌博士

Advisor :

Dr. Wei-Chang Du

研究生 : 郭弘裕

Student :

Hung-Yu Kuo

義守大學資訊工程學系

摘要

影像分割技術是電腦視覺最重要的基礎之一，舉凡圖像檢索、圖形辨識、機器視覺等領域，要先有好的分割技術才能有效進行後續的檢索與辨識工作。傳統的影像分割方法主要根據影像中的彩色資訊為基礎，但隨著平價 RGB-D 攝影機日益普及，讓我們有了新的影像分割方式。本文採用 Kinect 攝影機所得到的彩色與深度資訊搭配來進行影像分割，首先對彩色影像進行初步分割，接著使用彩色搭配深度資訊來作鄰近區塊的合併以得到最終的分割成果。藉由深度資訊來彌補以往只單靠顏色作分割的不足，並得到效果合宜的成果。關鍵字：影像分割、深度攝影機、RGB-D 影像、超像素

(9)

VII

Image Segmentation from RGB-D Data

指導教授 : 杜維昌博士

Advisor : Dr. Wei-Chang Du

研究生 : 郭弘裕

Student : Hung-Yu Kuo

Department of Information Engineering

I-Shou University

Abstract

Image segmentation is one of the most important foundations of computer vision. In many applications such as image retrieval, pattern recognition, machine vision and related fields, it is necessary to have a good segmentation technology to facilitate the follow-up retrieval and recognition work. Traditional image segmentation methods are mainly based on the color information in images. With the growing popularity of cheap RGB-D cameras, let us have a new method to do image segmentation. This study uses Kinect camera to get color and depth information for image segmentation. First, image is initially segmented according to color information, followed by the use of color and depth information for the merge of adjacent blocks to get the final segmented results. Use the depth information to make up for the past only color for the lack of segmentation to get the effect of appropriate results.

(10)

1

Chapter 1 簡介

1.1 研究背景

視覺是人類擁有的一項重要能力，我們透過視覺可以感受到這世界的美，可以分辨顏色、亮度、物體間距離等。因為有這項的能力，人類才能探索這世界，避開危險並生存下來，進而發展出人類的文明。隨著科技不斷的發展，電腦已成為生活中不可或缺的工具。正如同工業革命機械取代勞力型工作，人們也希望電腦能夠取代腦力型工作，這時就必須讓電腦擁有像人類一樣能夠充分感知這個世界。但單單讓電腦擁有視覺這項能力並不如想像中簡單，過去眾多研究人員開發許多方法讓電腦能夠分辨顏色、紋理、距離，甚至高階的語意識別。這其中重要的基礎即是影像分割，也是決定電腦理解環境成敗的關鍵所在，要先有這項能力才能夠進行後續的處理與解析工作。一般而言，理想的影像分割需兼具「高準確」與「高效率」之特性，舉凡物件辨識、醫學影像、機器視覺、人臉辨識等領域都是以影像分割為基礎所衍生出來的應用，這些議題最根本的部分就是如何使用一個有效的方法從影像中取得所需要的部分，唯有取得有用的部分才能進行接下來的步驟。正因為這個步驟是如此重要，所以過 去有相當多的研究提出不同方法，像是利用 K-means 分群作分割、分水嶺區域分 割、超像素等，以及衍生的後續方法與應用[1][2][3]。平心而論，截至目前為止仍然缺乏通用性靜態影像分割方法可以解決各式各樣的場景，因而控制背景內容、限縮應用範疇、增加調整參數或參考時間前後畫面內容等皆是經常採用的策略，也是不得不採取的一些妥協。近年來隨著深度攝影機的日益普及，影像分割問題又出現新的解決契機[4][5]，深度資訊提供了一

(11)

2

個相較於以往的平面座標資訊更好的三維座標資訊，透過三維座標資訊能夠更確實的分辨出畫面中物體間實際的位置差距，這項特性能夠改善過去二維影像無法明確判別距離而造成誤判的情形，幫助提升影像分割的精確程度。

(12)

3

1.2 研究動機與目的

以往的影像分割是利用顏色來進行分類，過去有相當多文獻對此作探討。在 2010 年微軟推出平價的 Kinect 產品[6]，除提供畫面色彩資訊之外，尚提供畫面深度資訊，可彌補單靠色彩無法穩定分割的問題。在實際場景中不同物體距離遠近各不相同，再搭配顏色分割方法，理應能得到更準確的結果，相信這樣的結果有助於提升後續應用的實際成效。在此研究中，主要探討色彩結合深度資訊的影像分割方法，以期待達到較為精確的影像分割效果。本研究針對 Kinect 所提供的 RGB-D 影像作分割，首先對 Kinect 所擷取到的 RGB 圖像進行色彩空間轉換，使得色彩上的距離度量更符合人類視覺。本文對彩色影像作初步的分割，在初步分割的部份只使用彩色的資訊，這是因為深度圖上常存在空洞與過多雜訊，若將它納入初步分割的參考會影響到分割後的準確程度，所以在分割的階段不會使用到深度資料。接著分割出來的影像被分成許多小區塊，為了避免發生過度分割的情況，所以要進行合併的動作。這時依據相鄰區塊之間的相似程度來進行合併，決定合併與否的參考依據來自深度資料與彩色資料。一般來說，同一物體的深度值應該相當接近，利用此一特性作為區塊合併的主要依據，這樣可以更加準確分割出物體所在的部分。但是單靠深度可能會有一些不足之處，如果有其它物體與目標物體深度值相近，那麼就容易造成錯誤的合併。為了解決這方面的問題，我們也把彩色資訊加進來一起做判斷，這樣便能夠區分出深度值相似的不同物體，讓分割成效更加準確。

(13)

4

Chapter 2 文獻探討

本章主要介紹 Kinect 體感裝置，以及目前常見影像分割方法。體感裝置部分將介紹兩個不同版本裝置的感測原理。影像分割部分將分成兩個部分來討論：一個是傳統的 RGB 影像分割方法，另一個是 RGB-D 影像分割方法。

2.1 Kinect 感測原理

第一代 Kinect 體感裝置是美國微軟公司與以色列 Prime Sense 公司合作的產物，採用的是 Light Coding 技術，主要利用連續光對空間進行編碼，乃由感應器讀取光線再由晶片解碼產生一張具有深度的圖像。這項技術的關鍵是雷射光散斑 (Laser Speckle)，當光線照到粗糙物體或穿過毛玻璃，會形成隨機的反射點。這些點有高度隨機性，會因距離不同而改變圖案，空間裡不同兩點的圖案都是不一樣，進而對整個空間進行標記就能記錄物體的位置。第二代 Kinect 體感裝置外型如圖 1 所示，由彩色照相機、深度感測器和麥克風陣列所組成。深度感測主要是依據時差測距(Time of Flight)原理，Kinect 會發射出紅外光線，當紅外光碰觸到物體反射回機器，此時透過內部晶片計算時間差以求得深度影像。圖 1、第二代 Kinect 體感裝置

(14)

5 表 1、兩代 Kinect 規格比較規格項目第一代第二代 RGB 解析度 640480 19201080 RGB 畫面更新率 30 30 深度解析度 320240 512424 深度畫面更新率 30 30 深度感測範圍 0.8~4.0m 0.5~8.0m 人數 6 人 6 人人物姿勢 2 人 6 人關節點 20 25 水平角度 57 度 70 度垂直角度 43 度 60 度兩代 Kinect 之規格比較如表 1[7]，第二代在 RGB 與深度影像的解析度都勝過第一代，深度感測距離更長，所能擷取到的水平與垂直角度也更大更廣。在人物姿勢的追蹤方面從 2 人增加到 6 人，關節點個數也從原本的 20 點增加到 25 點。從表中的資料看來第二代的感測器在各個方面幾乎都比第一代來的優異，由此可知如果同樣要拿來作為研究工具，第二代感測器絕對勝過第一代的感測器。為了得到更準確的實驗結果，本研究選擇使用第二代體感裝置作為測試平台，但使用條件必須要在 Windows 8 以上的作業系統版本而且第二代感測器所得到的影像較為清晰，檔案大小也較大因而需要快速的傳輸速率，需要配合 USB 3.0 才能使用。

(15)

6

2.2 RGB 影像分割方法

影像分割是電腦視覺中一個基本的重要議題，本節將介紹幾種典型的 RGB 影像分割方法，RGB-D 影像分割則在下一節中作討論。 2.2.1 分水嶺分割法 分水嶺分割法[8]是由 Vincent 和 Soille 兩人所提出，此方法便是在模擬自然界水流由高處往低處流的現象，可以找出每一區塊中的局部最小值，如圖 2 所示。灰階值位置局部最小值局部最小值局部最小值 第1區 第2區 第3區 第4區 第5區 分水嶺分水嶺分水嶺 _分水嶺圖 2、分水嶺示意圖在圖中垂直軸表示灰階值、水平軸表示點所在的位置，四條垂直虛線代表各個分水嶺，兩個分水嶺之間則形成一個區塊，我們以第三區為例曲線最下方的點即為該區塊的局部最小值。

(16)

7 局部最小值之取得方式，以圖 3 為例，這裡我們舉一個 5×5 大小的方格作解釋，首先左邊圖形中有許多的像素點，每一個像素點都與周圍的八個像素點來做比較，之後讓水流往最小值的方向流過去就像右圖所示，每一像素點都以同樣的方式來作處理，直到某一點與它周圍八個像素相比皆為最小值，此時該點則為局部最小值如圖中的深色部分。圖中的粗線部分即是分水嶺，兩個分水嶺之間所夾的部分我們可視為分割的區塊，所以分水嶺方法可以達到影像分割的效果。 35 50 60 72 90 60 20 40 50 51 25 35 45 30 60 55 40 55 10 65 70 50 30 20 15 圖 3、局部最小值求法

(17)

8 2.2.2 區域生長法 區域生長的影像分割法[9]是由 Levine 等人所提出，此種方法是根據物體內像素點的相似性來做區域的合併，像素點內的特性可以是紋理、顏色、灰階值等。首先在切割的區域中灑下種子點(起始點)，種子點的選擇十分重要，會直接影響到後續合併的區塊。接著從種子點開始比對周圍像素點內的性質相似度，此時會設定一個閥值，當小於或等於閥值時就將此一像素作合併，直到沒有其他符合條件的像素存在即停止，就可以得到一個分割出來的區塊。種子點不一定是一個像素也可以是一個區塊，區域生長法可以分為兩種： (1) 從分割的物體內訂定種子點，接著往周圍開始比對相似程度再結合成一個區域。 (2) 先將影像初步分割成許多的區塊，再來判斷區塊間是否需要合併，如必要將其合併成一個大區塊。這兩種做法最重要的步驟就是閥值的決定，閥值會影響最後的合併結果。不過這個方法的缺點是常會造成過度分割的情形，以及影像如果太大它的執行時間就會較長。

(18)

9 2.2.3 分離與合併區域分割法 分離與合併(Split-and-Merge)[8]的區域分割法會因分割所採用的方法不同而影響到合併時的方式，這裡舉一個例子如圖 4 來說明：首先，使用四分樹的分類法將原本的區塊分割成多個區塊如(a)，接下來我們要從樹葉的部分開始由下往上搜尋到根部，每搜尋到一片葉子就與它旁邊的區塊做比較，比較當中的顏色、 灰階值、變異數等的平均值相似的部分就合併。假如 R3、R43和 R443中的數值相似就把它們合併如圖 5，就得到一張分割好的影像。若採用不一樣的分割方式與合併條件，就可以得到不同的分割結果。由此可知，分割方法的準確度如果愈高，之後合併出來的成果正確率也就愈高。 R₁ R2 R3 R41 R3 R1 R2 R4 R42 R43 R441 R442 R443 R444 R41 R42 R43 R44 R₄₄₁ R₄₄₂ R₄₄₃ R₄₄₄ (a) (b) 圖 4、分離與合併分割：(a)分割區塊圖，(b)四元樹分類圖

(19)

10 R₁ R₂ R41 R42 R441 R442 R444 圖 5、合併結果 2.2.4 顏色重心和彩色圖像聚類分割法 結合顏色重心和 K-means 的彩色圖像分割法[1]主要是將 RGB 圖像轉換成顏 色重心模型(Color Barycenter Hexagon, CBH)，重心旋轉後會得到一個六邊形裡面分成 7 種顏色，每一角度會代表一種顏色如圖，其中紅色：0 ~ 30 度及 330~360 度、黃色：30~90 度、綠色：90~150 度、藍綠色：150~210 度、藍色：210~270 度、洋紅色：270~330 度，這樣的轉換能將 RGB 空間轉換到二維空間以方便處理。轉換後的 RGB 訊息會變成二維空間中的一個重心，只要處理一維的顏色重 心角度，根據色彩角度值加入 K-means 做分類疊代的運算直到收斂為止。根據保 存下來的資訊就可以知道一個像素點在二維圖像上的位置，再用不同顏色進行標記就可得到分割的結果。此方法提供一種簡易快速的作法，不過難以得到精確的分割結果。

(20)

11

圖 6、CBH 模型

2.2.5 K-means 和人工魚群算法應用於圖像分割法

文獻[2]主要以人工魚群算法(Artificial Fish Swarm Algorithm, AFSA)搭配

K-means 來做影像分割的方法，人工魚群算法是模擬魚群覓食群聚和追尾行為而 衍伸出來的方法，這個方法的收斂速度快可以用來處理即時的問題，特別適用在處理精度要求不高的問題上。文中提到人工魚群算法的強健性(Robustness)較強， 不易發生局部最佳化的特點，適合用來解決 K-means 在初始點選擇不穩定的問題， 以期達到更好的分割效果。 2.2.6 超像素分割方法 超像素(Superpixel)提供一種簡單的分割方法，可大幅降低影像處理的複雜度，其特性是固守影像邊界、計算速度快、使用簡單，在影像分割上可以加速和改善品質。

(21)

12 像做分割，先將彩色影像轉換到 CIELAB 色彩空間，將聚集中心轉換成五維度的，以距離為計算方式，不同處在於同時考慮顏色與位置來作運算： (1) (2) (3) D'代表所提出的距離計算方式，Nc是色彩距離的最大值，Ns=S= 為限制超像素的尋找範圍。公式又演變成 (4) 其中 m 是將 Nc固定之後的常數。 運作方式是先在影像上灑下 K 點，兩點間距離間隔 S 像素，然後把中心點 移到 3×3 範圍中間位置以防中心落在邊緣上，之後再進行 K-means 搜索。傳統搜 索方式是以中心點開始往外逐一搜索，這樣的搜索範圍大且耗時，所以文中設定 2S×2S 的搜索範圍，這樣一來每一中心點的搜索範圍變小，同時也加快 K-means 的搜索速度。

(22)

13

(a) (b)

(23)

14

2.3 RGB-D 影像分割方法

本節將討論近幾年相當盛行的 RGB-D 影像之分割方法，不同於傳統的 RGB 影像分割，多了一個深度 D 的維度可增加分割的準確程度。 2.3.1 圖像標記分水嶺分割法 文獻[4]乃利用 Kinect 得到 RGB-D 圖像資料，接著把 RGB 的圖像轉換成 LAB 形式，將彩色和深度圖片分別轉換成彩色梯度、深度梯度和法向量梯度等三種梯度圖。設定閥值並將三種梯度圖做疊合與標記，最後再使用分水嶺分割法來對疊合結果進行分割得到最終結果。一般來說，此方法可以得到不錯的分割結果，但進行分割時耗費時間達數分鐘之久，在實用上仍有相當大的限制。

(24)

15 2.3.2多層聚類圖像分割法 在文獻[5]中，RGB-D 分割方法主要分成兩個部分：第一層生成多個分塊、第二層是合併多個分塊。首先將 RGB 影像轉換到色域較大的 LAB 色彩空間，接著對 RGB-D 影像提取了三個資訊分別是顏色、3D 點、表面法線，再來對這些特 徵資訊分別做 K-means 分群，不同的特徵用不同的 K 值來進行分群得到多種的 分割結果。

在合併方面則使用聚合超像素(Segmentation by Aggregating Superpixels, SAS) 方法來做合併，它透過 SAS 將第一層得到的多種分割結果，以多種組合方式來得到最終的結果，它將組合分成六種(1)顏色、(2) 3D 點、(3)深度、(4)法線、(5) 彩色+3D 點、(6)彩色+3D 點+法線，從這六種種類每一種給予不同的 K 值來做處理，接著再以排列組合的方式做不同的配對，找出其中效果最好的配對組合。此方法對於不同的種類都需要給予不同的 K 值來做處理，整體來看較為繁瑣。

(25)

16

Chapter 3 研究方法與步驟

本研究主要針對 RGB-D 影像做區域分割，所使用的分割方法是使用 K-means 分類法原理搭配使其加速的 SLIC 超像素方法進行分割。首先，對感測器所擷取到的 RGB 圖像作 LAB 色彩空間轉換，對轉換後圖像作超像素初步分類。再來將深度資訊導入初步分割圖中，導入部分應先做好影像對齊[11]，再以遞迴方式將深度值與彩度值相近區塊作合併，最後輸出分割圖像。圖 8 即為擬定的系統架構圖，首先使用第二代 Kinect 體感裝置來做影像的擷取，會得到一張 RGB 彩色影像與一張深度影像。把 RGB 影像作色彩空間轉換，轉換成 LAB 色彩空間影像得到，加上座標資料，得到的類座標資料。接著使用超像素分類法把相似的部分分類為同一區塊，得到初步的分割結果。但這個影像會有許多過度分割的部分。接著，依據相鄰區塊的深度以及彩度變化相似的部分作合併，深度及彩度部分採用四分位數方法來處理，分別以不同的比例相加取平均，再給予深度及彩度不同的權重做為判斷是否合併的依據，最後輸出合併後的最終結果。 Kinect Sensor Device RGB Image RGB to LAB Transform SLIC Superpixel Segmentation Compute LAB Quartile, for each region

Depth Image

Compute Depth Quartile, for each region

Measure the similarity of all adjacent region Segmented Result If similar, merge the two

regions. Compute

LAB-D Quartile, for each region

(26)

17

3.1 色彩空間轉換

LAB 是一個三維度的色彩空間[12]，其中 L 代表亮度、a 和 b 代表顏色的對 立維度，相較於 RGB 和 CMYK 更為接近人類的真實視覺。L 分量就像是人類的 亮度感知，可藉由修改 a 和 b 的兩分量來作更準確的色彩平衡。由於 LAB 色彩 空間的色域比人類的視覺感知還要大，這就代表 LAB 相較於 RGB 和 CMYK 要獲得相同的圖像需要更多的數據資料。

LAB 色彩空間又常被用作 CIELAB 的縮寫，其座標是 L*、a*_{和 b}*_{，在 L}*

a*b* 模型中的兩顏色差異，可由色彩空間點的歐幾里得距離(Euclidean Distance)來精確估算： (5) 其中∆E* ab代表歐幾里得距離，(L1*,a1*,b1*)和(L2*,a2*,b2*)分別代表兩種顏色。

(27)

18

3.2 K-means 分群

K-means 分群法是在 1957 年由 Hugo Steinhaus 所提出，到 1967 年才被 James

MacQueen 第一次使用。它是一種基本的分群方法，在理論上算法簡單、可靠、 收斂快以及局部搜索能力強的優點[1]。K-means 方法就如圖 9 所示，首先圖上有 隨機的 10 筆資料分別代表每群的質心，接著在 K=2 的情況下假設挑選兩個分群 的質心[8]為和，接著挑選來做分群，要計算和之距離。例子中看到，因而認定屬於的那一群，之後再利用和計算出新的質心，繼續對剩下的資料做運算，直到質心不再改變即為收斂。 (a) (b) (c) (d) 圖 9、K-means 方法示意圖

(28)

19 正規而言，假設演算法觀測集(x1, x2, … , xn)，每一觀測都是一個 d 維實數向 量，要把 n 個觀測點劃分到 k 個集合裡，使得組內平方和(WCSS)最小[13]： (6) 其中是中所有點的平均值。 使用疊代最佳化是最常見的演算法，被稱為 K-means 演算法被廣為使用又稱 作 Lloyd 演算法。將觀測點分配到聚類中使得組內平方和(WCSS)達到最小，因算出來的平方和是歐幾里得距離，所以可以直接把觀測點分配到離他最近的均值點： ₍₇₎ 其中 m1, m2, … , mk是初始的 k 個均值點，xp都只到分到一個確定的聚類中。計算得到式子(7)所得到的聚類中每個觀測值的圖心作為均值點，因為算術平均是最小平方估計，所以也減小了 WCSS 的值： (8) 演算法會在觀測分配不再變化的時候收斂，進行前兩步驟會減小目標函式的 WCSS 值，所以一定會收斂於某一個最佳解。 在前面有先作過 LAB 的色彩空間轉換，所以要輸入到 K-means 分群法中的 值為(L,a,b)和座標資訊(x,y)，所以我們要用(L,a,b,x,y)這五個資訊來做 K-means 分 群。

(29)

20

3.3 區塊合併

經上述的 K-means 分群方法容易造成區域過度分割的現象，因而適時對相鄰 區塊作合併有助於分割區域的完整性。一般而言，在現實世界中同一物體的深度變化較為平緩，分析鄰近區塊深度變化的相似度作為合併與否的主要依據。舉一深度資料作例子，首先我們要判斷相鄰的兩個區塊是否需要合併，區塊中每一像素皆有其深度值。為了找出區域中具有代表性的深度值，我們提出四分位數 (Quartile)統計方法來代表區域內深度值的分佈情形。換言之，將區域內像素深度值由小到大排列並區分為四等分，位於三個分割點上的深度值即為四分位數：  第一四分位數(Q1)：該樣本中所有數值由小到大排列後第 25%的數字。  第二四分位數(Q2)：即為「中位數」，相當於該樣本中所有數值由小到大排列後第 50%的數字。  第三四分位數(Q3)：該樣本中所有數值由小到大排列後第 75%的數字。取這三個點可大致了解這區塊原本的值分佈的情況，接著計算相鄰兩區塊 S1與 S2間四分位數 Q1、Q2、Q3之間的距離，再將這些距離加權平均作為判斷區塊是否合併的依據： (9) 在本文中，預設 Q2值的權重是 Q1與 Q3的兩倍，這是因為 Kinect 在擷取深度影像時常因物件表面的材質因素，發射的紅外光無法反射回來而產生遺漏的現象；或是紅外線發射器與接收器的位置不同，容易受到前景物件之遮擋因素，導致物件邊緣常有空洞現象發生，所以在區塊中會存在一些極大或極小的深度值，若將這些少數的極值一起加入運算會造成判斷上的錯誤，所以我們把這些值視為雜訊，

(30)

21 而增加 Q2的權重就能達到去除這些雜訊的功效。最後，再判斷所得到的值是否小於或等於閥值，若是滿足那兩區塊就做合併的動作，不滿足則不合併。單靠深度來判斷是否合併會有其限制，有些區塊應該屬於不同的部分，但因深度值相近因而被合併在一起，這樣就造成了判斷上的錯誤。為了解決這個問題，我們也把彩色資訊加入一起做判斷。因為彩色影像不像深度影像是單一通道它有三個通道，所以我們要對 L、A、B 三個通道分別作處理，處理方法與深度一樣 取區塊中的 Q1、Q2、Q3來計算區塊間的距離相加取平均： (10) 其中 (11) (12) (13) 與深度資料不同的地方在於三個值的權重是一樣的，主要是因為最初分割的時候就是靠彩色來分割所以不會有雜訊的問題，處理完後再將三個通道的值相加取平均，我們就得到彩色部分的數值。最後，再將深度與彩色按照不同百分比加權平均： (14) 藉此來判斷兩相鄰區域是否相似，進而決定合併與否。

(31)

22

Chapter 4 實驗結果

本研究的實驗環境為 Windows 8.1 64 位元系統、Intel Core i3-4160 處理器、 4GB 記憶體、MATLAB 2016a 以及第二代 Kinect 感測器。本實驗透過使用彩色資訊(RGB)以及深度資訊(D)，再搭配超像素(Superpixel)方法以及所提出的區塊合併方法將影像中物體區域分割出來。以下我們拿五個影像作為範例，測試幾種合併的方式：最典型的作法就是對深度資料取平均值(Mean)，此外還包括中位數 (Median)、四分位數(Quartile)等方法。最後則加入彩色資料在不同的情況下使用深度及彩色不等的百分比作為更精確的合併依據。實驗中分割的塊數設定為 400，實驗資料來源為自行使用第二代 Kinect 拍攝與 NLPR RGBD 資料庫[14]所提供，實驗結果如圖 10~圖 14。圖中的實驗結果是以能夠分割出物件最大的範圍為基準，例如圖 14 是以能夠分割出火車所在的區域為原則進行實驗，從實驗中可以看到火車的深度值與桌面的深度值是相接近的，所以無法單純使用深度值來進行合併的動作，必須加入彩色資訊，加入彩色資訊的結果絕大多數的區塊都可得到不錯的合併結果。但因為畫面中的顏色較為豐富，造成得到的結果有許多不是我們想要的部分，所以必須降低顏色的權重，最後得到最好的深度與彩色的比重是 0.75：0.25。

(32)

23 原圖深度圖深度取平均值深度取中位數深度取四分位數深度與彩色 1 : 0 深度與彩色 0.75 : 0.25 深度與彩色 0.5 : 0.5 深度與彩色 0.25 : 0.75 深度與彩色 0 : 1 圖 10、實驗結果一

(33)

24 原圖深度圖深度取平均值深度取中位數深度取四分位數深度與彩色 1 : 0 深度與彩色 0.75 : 0.25 深度與彩色 0.5 : 0.5 深度與彩色 0.25 : 0.75 深度與彩色 0 : 1 圖 11、實驗結果二

(34)

25 原圖深度圖深度取平均值深度取中位數深度取四分位數深度與彩色 1 : 0 深度與彩色 0.75 : 0.25 深度與彩色 0.5 : 0.5 深度與彩色 0.25 : 0.75 深度與彩色 0 : 1 圖 12、實驗結果三

(35)

26 原圖深度圖深度取平均值深度取中位數深度取四分位數深度與彩色 1 : 0 深度與彩色 0.75 : 0.25 深度與彩色 0.5 : 0.5 深度與彩色 0.25 : 0.75 深度與彩色 0 : 1 圖 13、實驗結果四

(36)

27 原圖深度圖深度取平均值深度取中位數深度取四分位數深度與彩色 1 : 0 深度與彩色 0.75 : 0.25 深度與彩色 0.5 : 0.5 深度與彩色 0.25 : 0.75 深度與彩色 0 : 1 圖 14、實驗結果五

(37)

28 在圖 10 中，由於桌子與地板的深度值十分接近，如果只靠深度資訊來做判 斷，無論是取平均值、中位數、增加 Q2的比重都無法精確區分桌子與地板的部分。加入彩色資訊來輔助判斷後，確實可將最難的桌子與地板部分分離出來。但為了避免受到背景花紋的影響，也不能給予彩色資訊太大的權重，因而得出最好的深度與彩色的比重是 0.75：0.25。圖 11 的深度圖中，白色的部分即是空洞。從結果圖中可看到，如果對深度取平均值的作法會因空洞的影響而造成許多區塊沒有被合併，這時我們看到取中 位數或者提高 Q2的比重，能夠有效減少空洞對合併條件造成的影響。圖 12 則因影像色彩的對比度較大且顏色較為單調，加上深度值的差異較為明顯，我們可以看到加入顏色資訊來做判斷的結果，絕大多數比重所得出的結果都是相當不錯，這也證實了本文對於顏色的處理方式是可行的。圖 13 中，長板凳的深度值與地面差異較大，加上畫面中有許多的小石頭放置在長板凳周圍，因而產生較為複雜的顏色變化。可以看到實驗中加入彩色資訊所得到的結果都受到小石頭的影響分割出許多不必要的區塊，反而深度值的比重愈高，所分割出來的影像品質愈好，適合使用深度作為合併的標準。到目前為止，很難找到單一方法能夠針對所有情況進行完善的分割處理，本文採用調整權重的方式來處理不同場景，給予一個有效且效果合宜的解決方法，閥值的範圍落在 85±10 之間，最好的比例為 0.75：0.25。

(38)

29

Chapter 5 結論與未來展望

本文利用 K-means 擅長作分群的特性與 SLIC 超像素的加速方法作為影像的 初步分割，再搭配日亦普及的深度影像資訊來輔助，作為區塊是否合併的主要依據。由於超像素方法處理容易造成過度分割的現象，如何將這些區塊作有效的合併自然成為一個重要的環節。本文結合深度與色彩訊息，提出四分位數統計方法達到物體的外框大多都可分割出來，有利於後續的影像分析與檢索。本文方法尚有一些需要改善之處，物件的完整切割除了仍需仰賴少許的參數外，所提方法對於深度資料的使用比重相對較高，如何獲得良好的深度資料是一個重要的前提。在深度資料變化不明顯的情況下，合併方法便容易產生誤判。若深度影像的空洞區域過大，排除空洞資訊的效果容易受到影響，如何改善深度影像品質問題是未來要繼續努力的方向。其次，超像素方法會將影像分成許多的區塊，有些區塊會被切的比較細小，原本應該要與相鄰區塊合併起來，但因區域數值少容易造成統計出來的四分位數與相鄰區塊差異過大，可能造成錯誤合併的結果，此一問題值得後續進一步作探討。

(39)

30

參考文獻

[1] 郭慶銳、許建龍、孫樹森、何雲，基於顏色重心和 K-means 的彩色圖像聚類 分割演算法，浙江理工大學學報，第 27 卷，第 4 期，580-584 頁，2010 年。 [2] 楚曉麗，K-means聚類演算法和人工魚群演算法應用於圖像分割技術，計算 機系統應用，第22卷，第4期，92-94頁，2013年。

[3] M. C. Yang, X. B. Lu and Q. B. Zhou, “Image Segmentation Algorithm Based on Incomplete K-means Clustering and Category Optimization,” Journal of

Computer Applications, vol. 32, no. 1, pp. 248-251, 2012.

[4] 余燁、李冰飛、張小魏、劉宜萍、李海琴，面向 RGBD 圖像的標計分水嶺分割，中國圖像圖形學報，第 21 卷，第 2 期，145-154 頁，2016 年。 [5] Mahfuzur Rahman Khan, ABM Muhitur Rahman, G.M Atiqur Rahamany

and Md Abul Hasnat, “Unsupervised RGB-D Image Segmentation by Multi-layer Clustering,” International Conference on Informatics, Electronics

and Vision (ICIEV), pp. 719-724, 2016.

[6] L. Cruz, D. Lucio and L. Velho, “Kinect and RGBD Images: Challenges and Applications,” IEEE Conference on Graphics, Patterns and Images, pp. 36-49, 2012.

[7] Kinect, www.cnblogs.com/TracePlus/p/4136297.html, 2014.

[8] 鍾國亮，影像處理與電腦視覺，東華書局第 5 版，2010 年。

[9] Region growing,http://blog.csdn.net/bagboy_taobao_com/article/details/5666091, 2010

(40)

31

and Sabine Susstrunk, “SLIC Superpixels Compared to Stat-of-the-Art Superpixel Methods,” IEEE Transactions on Pattern Analysis and Machine

Intelligence, vol. 34, no. 11, pp. 2274-2280, 2012

[11] 彩色影像與深度影像之位置對齊,

http://kheresy.wordpress.com/2011/01/21/combine_depth_and_image_from_kin ect/, 2011.

[12] Lab color space, http://zh.wikipedia.org/wiki/Lab 色彩空間, 2016

[13] K-means clustering, http://zh.wikipedia.org/wiki/K-平均算法, 2017

[14] Liangqiong Qu, Shengfeng He, Jiawei Zhang, Jiandong Tian, Yandong Tang, and Qingxiong Yang, “RGBD Salient Object Detection via Deep Fusion,”

IEEE Transactions on Image Processing, vol. 26, no. 5, pp. 2274-2284, MAY

2017.

[15] Jingyu Yang, Ziqiao Gan, Kun Li and Chunping Hou, “Graph-based Segmentation for RGB-D Data Using 3D Geometry Enhanced Superpixels,”

IEEE Transactions on Cybernetics, vol. 45, no. 5, pp. 913-926, 2015.

[16] K. Krishna and M. N. Murty, “Genetic K-means Algorithm,” IEEE Transactions

on Systems, Man., and Cybernetics—Part B: Cybernetics, vol. 29, no. 4, pp.

433-439, 1999.

[17] Max Mignotte, “Segmentation by Fusion of Histogram-based K-means Clusters in Different Color Spaces,” IEEE Transactions on Image Processing, vol. 17, no. 5, pp. 780-787, 2008.

(41)

32

[18] 張桂梅、周明明、馬珂，基於彩色模型的重構標記分水嶺分割算法，中國圖像圖形學報，第 17 卷，第 5 期，641-647 頁，2012 年。

[19] Dirk Holz, Stefan Holzer, Radu Bogdan Rusu and Sven Behnke, “Real-Time Plane Segmentation Using RGB-D Cameras,” Robot Soccer World Cup XV,

LNCS 7416, pp. 306-317, 2012.

[20] Nathan Silberman, Derek Hoiem, Pushmeet Kohli and Rob Fergus, “Indoor Segmentation and Support Inference from RGBD Images,” Computer Vision –

ECCV, pp. 746-760, 2012.

[21] Saurabh Gupta, Pablo Arbelaez and Jitendra Malik, “Perceptual Organization and Recognition of Indoor Scenes from RGB-D Images,” IEEE Conference on

Computer Vision and Pattern Recognition (CVPR), pp. 564-571, 2013.

[22] Camille Couprie, Cl´ement Farabet, Laurent Najman and Yann LeCun, “Indoor Semantic Segmentation Using Depth Information,” First International

Conference on Learning Representations (ICLR), pp. 1-8, 2013.

[23] Zhenguo Li, Xiao-Ming Wu and Shih-Fu Chang, “Segmentation Using Superpixels: A Bipartite Graph Partitioning Approach,” Computer Vision and

I-Shou University Institutional Repository:Item 987654321/21421

義守大學

資訊工程研究所

碩士論文

基於 RGB-D 之影像分割方法

Image Segmentation from RGB-D Data

研 究 生

郭弘裕

指導教授

杜維昌 博士

目 錄

目 錄... I

圖目錄... III

表目錄... IV

誌謝 ... V

摘要 ... VI

Abstract ... VII

Chapter 1 簡介 ... 1

1.1

研究背景 ... 1

1.2

研究動機與目的 ... 3

Chapter 2 文獻探討 ... 4

2.1

Kinect 感測原理 ... 4

2.2

RGB 影像分割方法 ... 6

2.2.1 分水嶺分割法 ... 6

2.2.2 區域生長法 ... 8

2.2.3 分離與合併區域分割法 ... 9

2.2.4 顏色重心和彩色圖像聚類分割法 ... 10

2.2.5 K-means 和人工魚群算法應用於圖像分割法 ... 11

2.2.6 超像素分割方法 ... 11

2.3

RGB-D 影像分割方法 ... 14

2.3.1 圖像標記分水嶺分割法 ... 14

2.3.2 多層聚類圖像分割法 ... 15

Chapter 3 研究方法與步驟 ... 16

3.1

色彩空間轉換 ... 17

3.2

K-means 分群... 18

3.3

區塊合併 ... 20

Chapter 4 實驗結果 ... 22

Chapter 5 結論與未來展望 ... 29

參考文獻 ... 30

圖目錄

圖 1、第二代 Kinect 體感裝置 ... 4

圖 2、分水嶺示意圖 ... 6

圖 3、局部最小值求法 ... 7

圖 4、分離與合併分割 ... 9

圖 5、合併結果 ... 10

圖 6、CBH 模型 ... 11

圖 7、SLIC 分群方法 ... 13

圖 8、系統架構 ... 16

圖 9、K-means 方法示意圖 ... 18

圖 10、實驗結果一 ... 23

圖 11、實驗結果二 ... 24

圖 12、實驗結果三 ... 25

圖 13、實驗結果四 ... 26

圖 14、實驗結果五 ... 27

表目錄

誌謝

有關 RGB-D 之影像分割方法

指 導 教 授 : 杜維昌 博士

Advisor :

Dr. Wei-Chang Du

研 究 生 : 郭弘裕

Student :

Hung-Yu Kuo

義守大學資訊工程學系

摘要

Image Segmentation from RGB-D Data

指 導 教 授 : 杜維昌 博士

Advisor : Dr. Wei-Chang Du

研 究 生 : 郭弘裕

Student : Hung-Yu Kuo

Department of Information Engineering

I-Shou University

研究生

杜維昌博士

目錄

目錄... I

指導教授 : 杜維昌博士

研究生 : 郭弘裕

指導教授 : 杜維昌博士

研究生 : 郭弘裕