利用雷射光斑成像裝置建構姿勢辨識系統

(1)

國立交通大學

照明與能源光電研究所

碩士論文

利用雷射光斑成像裝置建構姿勢辨識系統

A New Gesture Recognition System Based

on Laser-Speckle Imagery

研究生：黃偉彥

指導教授：楊界雄教授

(2)

利用雷射光斑成像裝置建構姿勢辨識系統

A New Gesture Recognition System Based on Laser-Speckle

Imagery

研究生：黃偉彥 Student：Wei-Yen Huang 指導教授：楊界雄 Advisor： Kei-Hsiung Yang

國立交通大學照明與能源光電所

碩士論文

A Thesis

Submitted to Institute of Lighting and Energy Photonics College of Photonics

National Chiao Tung University in partial Fulfillment of the Requirements

for the Degree of Master

in

Lighting and Energy Photonics

July 2012

Tainan, Taiwan, Republic of China

(3)

I

利用雷射光斑成像裝置建構姿勢辨識系統

學生：黃偉彥指導教授：楊界雄教授國立交通大學照明與能源光電所碩士班

摘要

姿勢辨識是電腦智慧中最重要的一環，能夠使電腦對於人類的動作姿勢進行判讀，幫助人類與機器之間的互動，現今辨識領域有許多的辨識演算法，但大多數皆過於複雜和費時，所以本論文的研究方向是利用動態時間扭曲演算法(Dynamic Time Warping ,DTW)的實現，來建構一個高準確性的姿勢辨識系統。本論文主要研究為利用雷射光斑成像裝置 Kinect 當作偵測器，追蹤人體骨架以及紀錄人體關節座標，將輸入資訊與先前紀錄起來之關節座標的參考資訊比對，藉由 DTW 演算法的比對，能夠計算兩組資訊之間的相似度，並由高相似度的判讀達成高準確性辨識，以實現利用雷射光斑成像裝置建構姿勢辨識系統。

(4)

II

A New Gesture Recognition System Based on Laser-Speckle

Imagery

student：Wei-Yen Huang Advisors：Dr. Kei-Hsiung Yang

Institute of Lighting and Energy Photonics National Chiao Tung University

ABSTRACT

Gesture recognition is one of the most promising fields in computer science, and touch-input technology. It’s applications to sport gaming on a TV set such as Microsoft Kinect is well known. It also facilitates the interactions between computer and human beings. Most of algorithms for gesture recognition are too complicated and time-consuming. In this thesis, we use dynamic time warping algorithm to compute data that are less time-consuming and better accuracy.

We use Kinect, a tool for laser-speckle imagery, containing a light source and a detector to obtain data for tracking skeleton and joint. Comparing these data with the reference data by DTW algorithm, we can figure out the similarity and the difference between two groups of data. Hence, our

(5)

III

誌謝

本篇論文能夠順利完成，首先要感謝我的指導教授楊界雄教授。楊老師帶領我進入一個新穎的研究領域，並給予我許多幫助，讓我在學習的道路上穩定的成長，不只如此，楊老師常常分享許多的人生經驗，學術上的教導以及社會經驗都讓我受益良多。感謝口試委員鄭協昌博士和鄧敦建博士對於本論文的指教，因為你們，本論文才得以完善，在此致上感謝之意。特別感謝國立師範大學的鄧敦建博士，從頭至尾參與本論文的發展，毫無保留指導我有關光學原理的部分，程式撰寫上也提點我許多細節，可以說若是沒有鄧老師的協助，本論文是無法順利的完成，感謝您。實驗室的聖雅、菀君、皇明、冠傑、曉晴、千容以及羽眉，謝謝你們這些日子的協助，祝福你們未來一切順利。回憶當初第一次步入國立交通大學台南校區，無限感慨，光電學院創院維艱，很榮幸能成為第二屆畢業生。感謝父母親的栽培，今日的成果都是因為有你們支持我，當然還有我的女朋友薇婷，謝謝你一路上的鼓勵，很幸運我的人生中能擁有你們。最後，僅以此論文獻給你們，謝謝。

(6)

IV

表目錄

表 2-1 Kinect 深度感應器之規格 ... - 6 - 表 2-2 驗證深度之實驗數據... - 18 - 表 4-1 系統電腦主機配備... - 29 - 表 4-2 姿勢動作速度對於辨識的影響 ... - 34 - 表 4-3 系統對遠近距離的辨識成功次數統計 ... - 36 - 表 44 不同使用者辨識成功率 ... 39

(8)

-VI

圖目錄

圖 2-1 Kinect 體感裝置 ... - 5 - 圖 2-2 Kinect 產生的光斑投射至物體上 ... - 11 - 圖 2-3 光斑成像術之示意圖 ... - 12 - 圖 2-4 Correlation 的機制 ... - 13 - 圖 2-5 Correlation 運算的物理意義 ... - 14 - 圖 2-6 光斑成像術的流程圖 ... - 15 - 圖 2-7 實驗架構俯視圖 ... - 16 - 圖 2-8 幾何圖形相似運算之示意圖 ... - 16 - 圖 2-9 參考平面之光斑圖 ... - 17 - 圖 2-10 放上九公分紙箱的光斑圖 ... - 17 - 圖 2-11 放上二十二公分紙箱的光斑圖 ... - 18 - 圖 3-1 兩組相似時間序列的歐機里德距離... - 21 - 圖 3-2 在時間軸校準之下比對的兩組時間序列 ... - 21 - 圖 3-3 兩序列的扭曲路徑圖 ... - 23 - 圖 3-4 動態規劃 ... - 24 - 圖 3-5 連續限制 ... - 25 - 圖 3-6 動態時間扭曲演算法的流程圖 ... - 26 - 圖 3-7 DTW 等長序列扭曲路徑 ... - 26 -

(9)

VII 圖 3-8 等長序列 DTW 比對範例 ... - 27 - 圖 3-9 不等長序列的扭曲路徑 ... - 27 - 圖 3-10 不等長序列 DTW 比對範例 ... - 28 - 圖 4-1 深度影像串流... - 30 - 圖 4-2 改變深度影像的顏色 ... - 30 - 圖 4-3 人體骨架關節離深度感應器的距離... - 31 - 圖 4-4 骨架座標轉換為螢幕平面座標 ... - 31 - 圖 4-5 區分使用者與背景顏色 ... - 31 - 圖 4-6 預設的動作姿勢 ... - 32 - 圖 4-7 紀錄參考動作資料 ... - 33 - 圖 4-8 系統姿勢辨識成功 ... - 34 - 圖 4-9 快速動作依然辨識成功 ... - 35 - 圖 4-10 遠距離導致骨架縮小 ... - 36 - 圖 4-11 骨架歸一化... - 37 - 圖 4-12 紀錄右手往左邊揮動 ... - 38 - 圖 4-13 不同使用者成功辨識姿勢 ... - 38 - 圖 4-14 角度不對造成辨識失敗 ... - 40 - 圖 4-15 暫時關閉系統操作介面 ... - 41 - 圖 4-16 回覆系統操作介面 ... - 41 -

(10)

- 1 -

第一章緒論

1-1 研究動機與目的

近年來隨著 3C 產品的普及，消費者與產品間的互動需求上升，互動的方式也持續發展，例如:鍵盤、滑鼠、遙控器等等。在 2006 年，日本任天堂公司推出家用遊戲主機-Wii，其無線以及有別於一般傳統的控制裝置，在當時掀起了一股風潮，人們開始思考並且跳脫遙控器的束縛，美國微軟公司於 2010 年正式發布 Kinect for Xbox 360，簡稱 Kinect。它讓使用者不須使用手持或踩踏控制器，而是使用手勢即可操作 Xbox360 系統，微軟公司將其使用於遊戲主機上，帶給玩家免控制器的全新肢體互動感受，如此創新的體感互動裝置，若能應用在其他領域，定能帶來許多新穎的突破。在姿勢辨識這個領域中，通常使用一般的攝影機，雖然成本低廉，但須輔以電腦視覺和姿勢判斷為基礎，複雜度相對較高，而且對深度上面的判別沒辦法很精確。若能有一套利用深度感應器做成的姿勢辨識系統，既可以達到姿勢辨識，進一步還可以辨識遠近的分別。我們利用微軟公司推出的 Windows 系統的 Kinect 版本，自行在電腦上面架設了一套系統，能夠不須使用滑鼠控制，還能做到姿勢辨識，並利用姿勢辨識啟動預設的程式功能。

(11)

- 2 -

1-2 文獻探討

人類與機器之間的交流，有著多樣化的裝置界面，歸納人機之間的互動一般可以分為以下兩種:首先是使用者單純觀看機器提供的資訊，第二種是使用者藉由與機器連接的控制器，取得機器提供的資訊。分析近年來 CHI(Conference on Human Factors in Computing Systems) 的趨勢[1]，研究人機互動主要是入裝置技術以及互動模式，其文獻比例高達 46%，互動科技的主要五大研發主題包括觸控(Touch)，無所不在的運算(Ubiquitous Computing)、多通道設備(multi-Channel)、姿勢辨識(Gesture Recognition)、機器人(Robot)，可以看出姿勢辨識是現今科技發展重要的一環，能夠讓使用者與機器間更直覺性的互動，是未來不可忽視的重點發展趨勢。

美國微軟公司於 2010 年 11 月 4 日發布 Kinect for Xbox 360，僅 25 天就銷售 250 萬台，轟動了整個遊戲市場，甚至上市 60 天全球銷售了共 800 萬台。微軟成功的原因就在於 Kinect 創造了使用者前所未有的的人機互動體驗，不再使用以往所需的遙控器或按鍵。而其中關鍵的技術是掌握在 PrimeSense 這家公司手中，主要的核心技術是利用投射光斑成像術(Projected Speckle Profilometry)，可以偵測物體以及判斷影像深度，因此可以創造體感操控介面，使人機互動更為直覺。

(12)

- 3 - 以自然的進行體感操作。光斑(speckle)的現象普遍存在於光學成像的過程之中，而因為雷射光的高度相干性，雷射光班的現象就更為明顯。最初人們發現光斑，主要是研究如何減少光斑對於光學成像的影響，此研究至今依然是非常重要的領域[2]，例如光斑與雷達影像之間的關聯分析[3][4]，但是科學家發現光斑具有許多可用的資訊，進而產生了許多的應用，例如利用光斑的動態情況計算物體運動的速度[5]，利用光斑的對比度測量反射面的粗糙度[6]。而最新的研究發現，可以利用投射光斑成像術計算物體的遠近[7][8]，美國微軟公司則利用此技術，發展商業產品 Kinect 深度感應器，並將其投入遊戲產業中，藉由 Kinect 深度感應器，可以追蹤使用者[9][10]，甚至建立物體的立體輪廓[11]，利用此技術發展姿勢辨識系統。姿勢辨識的主要目的，能夠讓使用者與電腦之間做聯絡溝通，現今有許多的辨識演算法，包括隱藏式馬可夫模型[12][13]，類神經網路法[14][15][16]，以及動態時間扭曲演算法[17][18]，隱藏式馬可夫模型對於模擬隨機過程是一個有利的演算法，能在機率分佈上求取準確的近似值，但也有著缺點，此模型使用相當多的狀態時，才能描繪出來較逼近實際狀況的情況。而動態時間扭曲演算法是語音訊號比對很常被使用的一種比對方式，對於兩序列之間的比對，即使有著時間軸交錯的比對，都能有高度的

(13)

- 4 - 準確性，可利用此特性，搭配 Kinect 深度感應器追蹤使用者的骨架資料，進行骨架關節座標資料的比對，進而達成姿勢辨識；有鑑於上述動態時間扭曲演算法的優點，本論文將採取此演算法建構姿勢辨識系統。

1-3 論文簡述

本篇論文主要在建立一個利用動態時間扭曲演算法來達成姿勢辨識的系統，輔以微軟公司推出的 Kinect 感應器，建構一個不需觸碰的人機互動的系統。在第二章的內容裡面，會先詳細介紹 Kinect 深度感應器的規格，介紹各種深度成像技術，分析 Kinect 感應器深度感應成像的原理，並且對深度感應器的技術進行驗證。第三章簡介了動態時間扭曲演算法原理，並簡單示範了兩組的演算結果。第四章則是辨識系統架構以及成果示範與討論，最後，第五章則是本論文的結論及未來展望。

(14)

第二章 Kinect

2-1 Kinect 規格及介紹

Kinect 為 Microsoft 推出的體感裝置[19]，Kinect 一次可擷取三種資訊，分別是彩色影像、3D 深度影像、以及聲音訊號。圖 2-1 為 Kinect 深度感應器的實機圖，Kinect 機身上有 3 顆鏡頭，中間的鏡頭是一般常見的 RGB 彩色攝影機，左右兩邊鏡頭則分別為紅外線發射器和紅外線 CMOS 攝影機所構成的 3D 深度感應器[20]，最主要就是利用 3D 深度資訊達到互動體感的需求[21]。圖 2-1 Kinect 體感裝置中間的視訊鏡頭則是單純應用在視訊通話，或是擴增實境遊戲用來表達使用者身分；此外 Kinect 還具備了追焦技術，底座馬達可以跟著對焦物體移動而隨著轉動。

(15)

- 6 - Kinect 內建麥克風系統，此麥克風系統使用陣列式麥克風。陣列式麥克風可藉由多組麥克風同時收音，運算比對後消除掉雜音，提供了降噪功能，可以更清楚的接收使用者的聲音並傳遞出去表 2.1 為 Kinect 深度感應器的產品規格，包含了感應器類型，視野角度，資料串流類型，骨架追蹤系統，以及聲音系統的詳細資料。表 2-1 Kinect 深度感應器之規格感應器彩色和深度感應鏡頭陣列式麥克風輔助感應傾斜驅動馬達視野角度水平視野：57 度垂直視野：43 度實體傾斜範圍：± 27 度深度感應器範圍：1.2m – 3.5m 資料串流深度感應器： 320×240 16-bit @ 30 frames/sec

(16)

- 7 - 一般來說，以往的攝影機都只能擷取到平面的資料，因此要在畫面中擷取使用者、並分析使用者的姿勢，是相對困難，但是若有了深度的資訊，某種程度上就相當於有了空間中的 3D 資訊，可以做的事也就相對更多；基本上，由於有了深度的資訊，在畫面中的人和東西，都可以更容易地區分出來，並且可以精準的判斷空間中的相對位置，要判斷出人的姿勢，也就更為簡單了。而其擷取空間中的 3D 資訊用的是 Light Coding 技術[22]，所謂的 Light Coding 技術是利用連續光（近紅外線）對整個測量空間進行編碼，資料串流彩色攝影機： 640×480 32-bit 30 frames/sec 聲音規格： 16-bit @ 16 kHz 骨架追蹤系統同時 2 人的動作追蹤每人能追蹤 20 個點聲音系統支援遊戲語音交談具回音消除功能的聲音輸入

(17)

- 8 - 透過感應器讀取編碼的光線，而後運算進行解碼後，形成一張 3D 深度的影像。此技術用來進行編碼的關鍵在於 Laser Speckle(雷射光斑)，當雷射光照射到粗糙物體，或是穿透毛玻璃後，會形成隨機的反射斑點，稱之為光斑；光斑會隨著距離而變換圖案，同時具有高度隨機性，所以空間中任意兩處的光斑都會是不同的圖案，也就是把整個空間加上了標記，因此物體進入該空間，都可確切紀錄物體的位置。 Kinect 裝置就是利用紅外線發出人眼看不見的光，透過鏡頭前的 diffuser（光柵、擴散片）將雷射光均勻分佈投射在測量空間中，再透過紅外線攝影機記錄下空間中的光斑分佈[23]，擷取原始資料後，再透過晶片計算成具有 3D 深度的立體圖像。

2-2 立體成像技術

現今最常運用於3D立體成像運算的技術大約有三種，第一種為立體視覺法(stereoscopic)[24][25]，其原理為使用兩個平行的攝影機，就如同人類使用雙眼，將取得的影像相疊並推算深度，若已知攝影機彼此的焦距以及相互之間的距離，且擷取的影像又能順利疊合，即可推算深度資訊；其缺點為當物體遇到遮掩處，或是鏡面反射等等情況之下，會造成影像比對的難度增加，易影響其深度資料的正確度，但立體視覺法有一極大優勢，成本低廉，此技術只需兩個一般攝影機，經

(18)

- 9 -

運算即可得到深度資訊，不過在運算準確性上面還是有改善空間。第二種立體成像運算技術則是飛行時間法(Time of Flight, TOF) [26]-[29]，此技術使用光源投射至被照物體，由於被照物體屬於立體物體，當光線射至被照物體而反射回偵測器的每道光線，其反射回來的時間皆有所不同，經由運算反射光線時間差，可進一步描繪出物體的立體輪廓，利用紅外線當作光源，則不會受到環境光的影響，可運用在多形狀的立體物體上。第三種立體成像技術則是投射結構光(Structure Lighting)[30]-[34]，將已知的圖案投射到物體上，由於物體的立體表面曲面的變化，會使投射出去的圖案在被測物體上形成高低起伏的圖案，而在偵測器中形成一平移量，利用簡易的三角幾何運算，就可以計算出曲面的起伏，也就是物體的立體深度。此結構光的圖案一般是陣列線，網格等等的一系列圖案，若投射出來的圖案越簡單，需要的計算量越少，判讀速度也就越快，此技術容易受到物體的立體遮蔽處影響，造成判斷不準確。 Kinect深度感應器則是利用投射結構光技術[35]，利用光源鏡頭前的擴散片，投射出許多圓點圖案。我們稱之為投射光斑技術(Projected speckle)[36]，當雷射光照到粗糙表面產生的干涉效應，此時會產生隨機的斑點圖(speckle pattern)，即可稱為光斑；在此所謂粗糙表面的定義為物體表面起伏高度要大於照射光波長，通常一般打磨過的金屬表面

(19)

- 10 -

依然在此定義之下，由此可知其微細的程度。

根據產生光斑效應的條件可以將光斑分成兩大類：雷射光是具有高度時間性及空間相干性（Temporal and Spatial）的光源，物體表面也必須具有某種程度的粗糙度，其表面微觀的高度變化需與照射光源的波長相當或大於此波長，當這樣的物體表面被雷射光照射後，被散射的光落到空間中其他物體表面，產生隨機的亮暗分佈，這種在空間中自由傳播所產生的斑點稱為客體斑點（Objective Speckle）；此外當一粗糙表面由雷射光照射並成像在螢幕上，這影像依然有著隨機的亮暗分佈，若成像的平面位置改變，光斑圖像也會隨著改變，這種成像過程所產生的斑點稱為主體斑點（Subjective Speckle）。由於粗糙物體表面的每一點都會散射出一些雷射光至觀測點，因此我們會觀測到光斑，而大量的光斑是因為雷射光具有高度同調性，每一點所散射出來的光都會和其他點所散射過來的光互相干涉，此時在我們的接收器就會得到不規則的隨機干涉圖案，就是所謂的斑點圖；光斑不規則的原因是因為雷射光照射到物體的粗糙表面後，雷射光的相位會因為照射到物體表面高低不同，而散射到接收器的相位就會有所不同所產生的。

2-3Kinect 成像原理

Kinect裝置利用紅外線，透過鏡頭前的diffuser(光柵，擴散片)把雷射光

(20)

- 11 - 投射至測量空間中的物體表面上而產生光斑，圖 2.2 為 Kinect 深度感應器發出的紅外線雷射，經由 diffuser 產生許多小圓點的雷射光班，並將其投射在箱子以及書本之上。圖 2-2 Kinect 產生的光斑投射至物體上為什麼利用雷射光斑就能夠判斷深度呢，我們使用圖2.3說明，此為一光斑投射系統，點O_p為光源，距離參考平面l_p，點O_c為距離參考平面l_c的接收器，基本上，設定光束會射向參考平面的A點，然而在放置物體於參考平面後，光束會射向點C，光斑本應該處於A點，在放置物體之後，接收器所觀測到的光斑將位於B點，我們稱此為同平面移動的位移量(in-plan displacement)為∆y。

(21)

- 12 - 圖 2-3 光斑成像術之示意圖參考來源[7] 由圖中的幾何關係可以得知，此物體的高度 h 可以藉由下列方程式被計算出來: ∆𝑦 ℎ(𝑦) = 𝑑𝑐−𝑦 𝑙𝑐 + 𝑑𝑝+𝑦+∆𝑦 𝑙𝑝 = ( 𝑑𝑐 𝑙𝑐 + 𝑑𝑝 𝑙𝑝) + ( 1 𝑙𝑝 − 1 𝑙𝑐) 𝑦 + 1 𝑙𝑝∆𝑦 (1) 其中∆𝑦線段 AB 的長度，在此系統中，𝑙_𝑐和𝑙_𝑝被設定為大於 2 公尺且幾乎相等，所以可以合理的假設(1 𝑙𝑝− 1 𝑙𝑐) 𝑦 ≈ 0 且 ∆𝑦 𝑙𝑝 ≈ 0，所以高度和同平面位移量可以表示為下式: ℎ(𝑦) = ∆𝑦 (𝑑𝑐_𝑙𝑐+𝑑𝑝_𝑙𝑝) (2)

(22)

- 13 - 在光斑投射成像術當中，同平面的位移量 v 可以利用 2D digital image correlation 技術[38]-[42]量測出來，因此實際的物理距離∆𝑦=Mv，而 M 指的是影像系統的放大倍率，可以將算式簡化成: h(y) = kv (3) 其中的 k=M/ (𝑑𝑐 𝑙𝑐 + 𝑑𝑝 𝑙𝑝)，所以此時實際的物體物理高度 h 可以得到，進而可描繪出物體的立體結構，而其中量測 h 的準確度極度依靠參數 k 的準確性，同樣的，同平面的位移量 v 也是需要高度準確性的參數，因此事先知道測量物件的高度對於準確計算參數 k 是很重要的。所謂的 DIC 是利用以下積分算出平面位移量，如下列算式表示: ∫ 𝑓(𝛿) ∙ 𝑔(𝛿 − 𝑥) ∙ 𝑑𝛿_−∞∞ (4) 我們利用一個簡單的例子說明，假設有兩組一維矩陣，分別為 f=[0,0,0,1,0,0,0,0]以及 g=[1,2,3,2,1]，將 f 與 g 積分，兩矩陣對齊之後，缺項須補零，計算各項乘積之和，如圖 2-4 所示，最終兩個一維矩陣經由 correlation 運算得到[0,0,0,1,2,3,2,1,0,0,0,0] 。圖 2-4 Correlation 的機制

(23)

- 14 - 上述的積分運算僅止於數學上的運算，我們將利用圖 2-5 進行更詳細的介紹並說明其物理意義。如下圖所示，兩組多維矩陣 x 與 z，將其中元素中的 0 視為暗點，元素中的 1 視為亮點，可以發現矩陣 z 是矩陣 x 向右移動兩單位之後的情況，在投射光斑成像術中，我們稱 z 矩陣為扭曲影像(Distorted image)；之後在扭曲影像中找出特徵畫面，稱之為 y 矩陣，並將矩陣 x 與矩陣 y 進行 correlation 運算，得到一個 7x6 的 ans 矩陣；扣除掉之前補零的新增行列，可以得知在矩陣 ans 一列二行的元素 3 是矩陣 x 與矩陣 y 的最高相關，而特徵矩陣 y 位於原矩陣一列四行的位置，因此即可得知特徵矩陣 y 於原矩陣 x 向右移動了兩個單位，也就是投射光斑成像術所提到的平面位移量。利用 DIC 方法可以計算出平面位移量，而藉由平面位移量可以推算出物體的厚度，並進一步描繪出物體整體輪廓。圖 2-5 Correlation 運算的物理意義

(24)

- 15 - 在 Kinect 深度感應器中，必須先預先植入相隔之固定距離的光斑圖，當作參考圖像，之後與感應器捕捉到的圖像做比對，形成 3D 立體圖像，在固定時間內再度捕捉新圖像，持續與參考圖像比對，才能持續計算出 3D 立體圖像，圖 2-6 為 speckle 成像術的流程圖圖 2-6 光斑成像術的流程圖我們實際去測量 Kinect 深度感應器所發出的光斑，圖 2-7 為實驗架構俯視圖，利用文獻中的實驗架構，我們直接將 Kinect 啟動，利用紅外線攝影機觀察 Kinect 所發出的紅外線光斑圖，並且固定好參考平面，藉由本實驗架構，了解光斑成像術的原理及實作，並驗證其 Kinect 深度感應器量測物體深度的精確度，實際測量 Kinect 所發射紅外線所形

(25)

- 16 - 成的光斑。圖 2-7 實驗架構俯視圖上圖中 S 為接收器與光源的距離，Z 為光源與接收器平面跟參考平面的距離，Δz 為紙箱厚度，Δx 為同平面位移量，利用簡單的幾何圖形相似運算，如圖 2-8 所示。圖 2-8 幾何圖形相似運算之示意圖圖 2-9 是直接正對參考平面的光斑圖，圖 2-10 與圖 2-11 分別是放置一個九公分和二十二公分厚的紙箱，可以明顯看到圖二左下角長方形方塊即為紙箱，實際測量時兩次分別放上九公分以及二十二公分的紙

(26)

- 17 - 箱，驗證數據如表 2-2:

圖 2-9 參考平面之光斑圖

(27)

- 18 - 圖 2-11 放上二十二公分紙箱的光斑圖 DIC 運算過後得到的同平面位移量，經由簡單的幾何相似形運算，分別與實際物體比較得到下表格: 表 2-2 驗證深度之實驗數據由以上表格可以得知，Kinect 的深度資料運算是可以非常準確的，誤差值皆低於 5.5%以下，顯示此深度感應器穩定且精確，適合運用在姿勢辨識領域。 S(cm) Z(cm) 實際 Δz(cm) 經由 DIC ΔZ(cm) 誤差值 (%) 第一組 32 330 9 9.5 5.5 第二組 47 240 22 22.9787 4.4

(28)

- 19 -

第三章動態扭曲演算法

Dynamic Time Warping Algorithm

3-1 Dynamic time warping (DTW)

辨識的主要目的，就是希望人類與電腦機器之間能夠互動，能命令電腦執行人類所要求的工作，現今在此領域上有常見的幾種方法： (1) 動態時間扭曲演算法(Dynamic Time Warping, DTW) [43][44]

(2) 神經網路法(Neural Networks)[45]-[48]

(3) 隱藏式馬可夫模型(Hidden Markov Model)[49][50] (4) 混合式作法(Hybrid)[51] 以上的方法各有優劣，但是動態時間扭曲演算法之所以被廣泛地運用在辨識領域上的原因，就是因為此演算法能在兩序列之間進行時間扭曲的交錯比對，而且有著較高的辨識準確度。動態時間扭曲演算法已經是發展成熟的演算法，其在語音訊號處理上常常被用來進行相似度估測，主要精神是希望在時間軸上有著更大彈性的相似度比對演算法，使待測資料能藉由時間軸上的扭曲，不管是伸展或是壓縮，都能找到和參考資料誤差最小的比對。自從發表至今已經廣泛的應用在聲音、圖形、影像，只要是能夠轉換成線性表示

(29)

- 20 - 的資料，都非常適合使用動態時間扭曲演算法來運算。動態時間扭曲演算法(DTW)能夠將兩個一維序列進行比對，並能有效的解決辨識問題上時間扭曲(Time Warping)的問題，例如同一句話，第一次說快一點，第二次放慢速度，出現時間長短不一的情形，將會增加比對的困難性，動態時間扭曲演算法能夠求得參考資料與輸入資料之間的最小距離(Minimum Distance)，進行相似度的判斷。時間序列在科學與商業應用中是被廣泛採用的。測量時間序列之間的相似值非常適合使用動態時間扭曲演算法，而動態時間扭曲法在大部分的情況，處理時間序列的演算法需要去計算序列之間的相似值。這些演算法會使用歐基里德距離(Euclidean distance)，或其延伸或修改的計算方式。使用歐基里德距離來計算不是一個最好的方法，因為它對於時間序列在時間軸上的扭曲現象表達的方式不佳，些微的扭曲就會造成兩個應該是相似的時間序列比對失敗。舉例來說，現在有兩個一維向量A與B，向量A=[2,4,6,8,10]，向量 B=[2,4,6,8,10]，比對兩向量的相似度，我們利用歐基里德距離計算，A 與B之間的距離為零，因此我們認定兩向量相等；另外若兩個向量X與 Y，向量X=[2,4,6,8,10]，而向量Y=[2,2,4,4,6,6,8,8,10,10]，但若是單純使用歐基里德距離計算，會造成向量X與向量Y的差距很大，在判定上會認為兩向量不相似，不過若是利用動態時間扭曲演算法計算，我們

(30)

- 21 - 可以看出來向量Y只是向量X的兩倍延伸，也就是說X與Y的相似度極高，可以判斷兩時間序列的相似度，不會造成判斷的錯誤。在圖3-1中展示出兩個相似的時間序列，但是它們無法在時間軸上校準。在圖3-2 中展示出非線性校準可以容許較直觀的距離計算。圖 3-1 兩組相似時間序列的歐機里德距離圖 3-2 在時間軸校準之下比對的兩組時間序列計算出兩個時間序列的相似度就是動態時間扭曲演算法的主要目的，而其依據是兩序列之間求得最小距離的大小來判斷，若最小距離越小，表示兩序列越相似，反之則是不相似，圖3-3所示，我們假設兩組時間

(31)

- 22 - 序列參考資料(Reference)R 和輸入資料(Input)In，R的長度是I；而In的 長度是J： R={x1,x2,x3,···,xi,···,xI-1,xI} In={y1,y2,y3,···,yj···,yJ-1,yJ} 接下來我們建構一個扭曲路徑，路徑取名為path， Path=p1,p2,p3,···,pk,···,pk-1,pk} Max(I,J)≤K≤I+J 並假設扭曲路徑的長度為K，而扭曲路徑第K個的元素 pk= (i,j) 在上式中，i跟j分別是時間序列X跟Y的索引值。在每個時間序列 的第一個點在p1 = (1, 1)就是扭曲路徑的起始點，而在每個時間序列的 最後一個點在pK = (I, J)當作是結束點。如此一來才能確保每個索引都 會被標記在扭曲路徑中。最小距離的扭曲路徑通常就是最佳的扭曲路徑，所以扭曲路徑的距離將如下式： D(C)= ∑ − ₋₁ ( ) D(C)是扭曲路徑p 的距離，而D(pki, pkj)是序列X 和序列Y 在扭曲路徑

(32)

- 23 - k 元素的距離。圖3-3展示用動態時間演算法比對兩個時間序列(X和 Y)。 圖 3-3 兩序列的扭曲路徑圖動態時間扭曲演算法使用動態規劃(dynamic programming)的方法，動態規劃很適合用來尋找多層次運算的最佳解，若要找到一條最佳路徑，其中任意子路徑都必須是相關子路徑的最佳路徑，否則最後的路徑便不是最佳解；我們利用圖3-4簡單的解釋一下，假設每一條連結代表一條道路，道路上的p函數代表經過此道路所花費的時間，而每一個方塊代表一個城市，方塊內的q函數代表通過城市花費的時間，我們要找出一條從起點出發，最終穿越d城市所花費最短時間的路徑，這就是

(33)

- 24 - 最佳路徑，而其中花費的時間t(d)就可以表示成下列方程式: t(d)=min{[q(a)+p(a,d)] , [q(b)+p(b,d)], [q(c)+p(c,d)] }+q(d) 若將動態規劃的技巧利用在更多層的規劃計算上，更能顯示出動態規劃的優勢。圖 3-4 動態規劃利用此架構計算出最小距離的扭曲路徑。下列方程式是用在動態時 間扭曲演算法求出最小距離解，其中D(i,j)是維度為I 乘J 的矩陣。d(i,j) 稱為局部距離(Local Distance)，d(i, j)在計算D(i-1, j-1)常常會乘上一個 加權值。

D(i, j) = d(i, j)+ min[D(i −1, j),D(i, j −1),D(i −1, j −1)]

(34)

- 25 -

態規劃的方法，因此最小距離的計算有著固定的規則，圖3-5列出常見動態程式的兩種比對方式，我們稱這種比對方式為動態規劃比對方式，又稱為連續限制(Continuity Constraint)。

由圖中可知D(i, j)由D(i-1, j) (水平方向)，D(i, j-1)(垂直方向)和D(i-1,

j-1) (斜方向)加上局部距離決定。故將每一點到下一點之方向收集起來， 即可找出最佳路徑。圖 3-5 連續限制下圖為動態時間扭曲演算法的整體架構，將參考樣本的資料與輸入樣本資料進行局部距離計算，之後計算最小距離，最後我們可以得到兩者輸入資料的相似值。而圖3-6為使用動態時間扭曲演算法計算出相似度的流程圖。

(35)

- 26 - 圖 3-6 動態時間扭曲演算法的流程圖以下為範例，將兩組一維序列進行DTW演算，最後呈現出兩組序列的動態扭曲路徑。 vec1= [1 1 1 2 10 3] vec2= [1 1 1 10 2 3] 圖 3-7 DTW 等長序列扭曲路徑另外，我們用兩組等長序列直接比對的方式呈現，為了清楚的呈現，

(36)

- 27 - 把vec2與vec1分隔開來，得以看出兩組序列之間比對的順序以及整體結構。圖 3-8 等長序列 DTW 比對範例接下來我們再用兩組不等長序列進行比對，不等長序列可以視為時間軸不匹配的序列。 vec1=[0 1 2 3 3 2 1 0 0 1 2 1 0]; vec2=[0 1 2 2 3 2 1 0 0 0 1 3 2 2 0]; 圖 3-9 不等長序列的扭曲路徑

(37)

- 28 -

圖 3-10 不等長序列 DTW 比對範例

由上圖可以發現，兩組序列雖然為時間軸不匹配的情況，比對後的最小距離非常小，代表相似度很高，因此利用DTW演算法可以高度辨識時間軸不匹配的資料序列，十分適合運用在此論文中的辨識系統。

(38)

- 29 -

第四章實驗架構與結果

4-1 實驗架構

我們利用微軟公司釋出的 Kinect SDK(software development kit)，此為軟體開發套件，使軟體開發人員自由使用及創造 Kinect 量身訂做的軟體，配合實驗電腦主機，主機配備如下表 4-1。表 4-1 系統電腦主機配備開發軟體環境為Visual Studio2010，開發軟體語言為C#語言，C#是微軟於2000年發佈的一種高級程式語言，其物件導向以及基於.NET框架的基礎，搭配Visual Studio2010的直覺化操作環境，使其具有快速開發能力。首先我們設定開啟影像及深度資料串流，以方便使用者能夠自我檢視動作姿勢，如圖4-1為灰階深度影像，以灰階來表示物體深度遠近的區別，可以清楚看到人的身體輪廓。設備名稱規格

CPU Intel core i5-2400 (3.1GHz)

顯示卡 NVIDIA

GeForce GTS450

RAM DDR3(1333MHz) 8GB

(39)

- 30 - 圖 4-1 深度影像串流為了更明顯區分出物體的遠近，我們將深度影像的灰階用不同顏色來表示，可以明顯的區分深度的不同，如圖 4-2 所示，綠色為一公尺以內，紅色為一至二公尺，藍色為二公尺之外。圖 4-2 改變深度影像的顏色設定開啟骨架追蹤功能，利用Kinect能追蹤人體骨架20個點的特性，將其骨架關節離深度感應器的XYZ距離轉換為螢幕上的XY平面座標，圖4-3為人體骨架關節離Kinect的XYZ距離，單位為公尺，圖4-4則為了方便之後骨架座標資料的運算而將距離轉換為單純的XY平面座標。

(40)

- 31 - 圖 4-3 人體骨架關節離深度感應器的距離圖 4-4 骨架座標轉換為螢幕平面座標為了之後判斷使用者動作的方便性，我們將灰階深度影像改變顏色，讓使用者的顏色單獨獨立出來，如圖 4-5 所示。圖 4-5 區分使用者與背景顏色

(41)

- 32 -

4-2 實驗與討論

圖4-6為本系統的範例圖，可以看到右上角可以選取預設的姿勢名稱，我們預設了一些特定姿勢，包括右手往左邊揮動、雙手張開、左手往左邊揮動、鎖定系統姿勢、解開系統鎖定姿勢、執行特定程式以及離開系統共七種姿勢，如下圖所示。圖 4-6 預設的動作姿勢當按下Capture按鍵之後以每0.05秒一個frame的速度擷取一次資料，共擷取32個Frame，在這32個Frame之內自然地做出動作，系統便會將其關節點的座標資料記錄下來，可參考圖4-7。

(42)

- 33 - 圖 4-7 紀錄參考動作資料系統儲存座標資料後，此資料即可當作姿勢參考資料，而之後持續擷取資料，系統會將資料代入DTW演算法，使用者重複此動作時，當參考資料與輸入資料相符合時，系統會標示參考姿勢的名稱，如圖4-8 標示，即辨識成功。

(43)

- 34 - 圖 4-8 系統姿勢辨識成功針對不同速度的動作，系統是否也能正確判斷呢？我們設計了三種動作，分別為右手往左邊揮動、雙手張開、左手往左邊揮動，紀錄動作者在2秒內完成動作姿勢，而辨識者分別以辨識時的正常動作、快速動作( 1秒內)以及慢速動作(3秒)完成動作姿勢，紀錄於表4-2並分析速度對於系統辨識成功率的影響。表 4-2 姿勢動作速度對於辨識的影響辨識成功次數/辨識總次數右手往左邊揮動雙手張開左手往左邊揮動正常速度 (2秒) 19/20 20/20 20/20 快速(1秒) 20/20 20/20 20/20 慢速(3秒) 17/20 20/20 19/20

(44)

- 35 - 圖 4-9 快速動作依然辨識成功由表 4-2 及圖 4-9 得知，動作速度快慢並不會影響到系統辨識，其結果是可以預期的，因為我們使用的 DTW 演算法對於不同時間軸的序列有著很高的辨識準確度，只要動作確實即使動作快速完成系統也能夠正確判讀，值得一提的是，慢速動作的辨識常常動作還沒確實到位，系統已經判斷並且正確辨識，這是必須在程式碼調整演算法判讀允許範圍，但是對於本辨識系統已具備實用性質，故不在此進行討論。另外我們針對Kinect深度感應器的作用距離進行實驗，欲測試本系統在Kinect的作用範圍內的使用狀況，分別以右手往左邊揮動、雙手張開、左手往左邊揮動三種姿勢來進行測試，Kinect深度感應器的視野範圍為 1.2至3.5公尺，實驗測量分別取1.3公尺、1.8公尺、2.4公尺、3公尺以及

(45)

- 36 - 3.4公尺測量，實驗結果如表4-3所示。表 4-3 系統對遠近距離的辨識成功次數統計由表4-3可以知道，距離對於系統的判讀沒有影響，如同圖4-10所示，即使是較遠的距離導致骨架縮小，系統的辨識判讀依然準確。圖 4-10 遠距離導致骨架縮小辨識成功次數/辨識總次數右手往左邊揮動雙手張開左手往左邊揮動 1.3公尺 19/20 19/20 17/20 1.8公尺 18/20 20/20 20/20 2.4公尺 18/20 19/20 20/20 3公尺 16/20 20/20 20/20 3.4公尺 19/20 20/20 20/20

(46)

- 37 - 右手往左邊揮動的姿勢較多判斷失敗的例子，發現是因為動作的不確實，例如手臂的角度，或是動作進行的軌道改變，種種原因顯示系統判斷與距離是沒有關係的。圖 4-11 骨架歸一化系統的辨識判斷不會受到距離遠近的影響，這是由於我們針對骨架關節座標進行歸一化，如圖4-11程式碼所標示，我們將左肩膀關節與右肩膀關節的XY座標分別相加並除以二，此座標點設定為中心點，所有的關節座標減去中心點，這段距離再除以左右肩膀之間的距離；如此一來，我們就可以確保不管在任意遠近，任何位置，系統就可以正確判斷所有的人體骨架，並且不受距離遠近的影響而造成辨識失敗。當記錄好了參考姿勢，即使是身高體格不同的使用者依然可以辨識成功，表4-4為測試不同使用者的辨識情況，記錄三種不同姿勢，第一個姿勢為右手往左邊揮動，如圖4-12為記錄姿勢者，由圖4-13可以看出即使讓不同身高的使用者進行姿勢辨識，由於我們有使用肩膀座標歸

(47)

- 38 - 一，因此不管人體骨架的高矮胖瘦，仍然能辨識成功。圖 4-12 紀錄右手往左邊揮動圖 4-13 不同使用者成功辨識姿勢第二個姿勢為雙手張開，第三個姿勢為左手往左邊揮動，每個動作各重複十次，記錄此系統的辨識狀況，並且標示其辨識成功率，可以

(48)

- 39 - 藉此看到系統對於不同使用者的辨識狀況。表 4-4 不同使用者辨識成功率由上表可以清楚了解本系統辨識成功率十分高，即使是由不同使用者操作，但我們發現右手往左邊揮動的辨識成功率較低，其他兩個姿勢辨識成功率較高，試想造成此結果的眾多原因，很可能是由於右手揮動時擋住軀幹，影響了Kinect深度感應器對於骨架座標的判讀，造成了某些關節的座標偏差，也有可能是由於記錄者與辨識者的姿勢不盡右手往左邊揮動雙手張開左手往左邊揮動第一次 O O X 第二次 O O O 第三次 X O O 第四次 O O O 第五次 O O O 第六次 X O O 第七次 X O O 第八次 O O O 第九次 O O O 第十次 O O O 成功率 70% 100% 90%

(49)

- 40 - 相同，姿勢沒有做完全，動態時間扭曲演算法判斷為不同姿勢，若使用者的姿勢過於特別，例如舉手的角度與眾不同，或是常有四肢跨越軀幹的動作，都容易造成不同使用者的辨識成功率降低，由下圖可以得知，使用者的手臂骨架略為抬高，與紀錄者的手臂角度不同，以至於無法辨識。圖 4-14 角度不對造成辨識失敗由圖4-14可以明顯看到，使用者的手臂角度與圖4-12紀錄者的手臂角度明顯有一段差距而影響姿勢判斷，最後造成系統無法辨識姿勢。因此本系統對過於複雜的動作姿勢應該先讓使用者了解紀錄者的姿勢走向，即能提高辨識準確性。鑒於本系統的高度辨識性，若不知道紀錄者的動作，很難讓系統辨識成功，整個系統可以往個人遙控密碼鎖這個領域發展，所以我們試著在系統中加入一些功能，預期能使用動作姿勢進行一些簡易的功能，

(50)

- 41 - 例如圖4-15標示，將系統的操作介面暫時鎖住，使系統無法操作，也就相當是體感遙控鎖。圖 4-15 暫時關閉系統操作介面但是藉由之前預設好的姿勢當作解鎖的指定動作，如圖 4-16，即可以重新回復系統操作介面。另外我們也加入了開啟記事本程式的功能，能夠輕易利用預先記錄好的姿勢，利用姿勢便能操作電腦，甚至關閉此系統。圖 4-16 回覆系統操作介面

(51)

- 42 -

第五章結論與未來展望

5-1 結論

人類利用各式各樣的裝置控制機器，越來越多的輸入介面不斷發展，而利用體感遙控正是人類夢寐以求的方式，我們創造了一套姿勢系統，使用此姿勢辨識系統能夠準確地進行辨識。利用動態扭曲時間演算法，搭配 Kinect 深度感應器的骨架追蹤，將骨架關節資訊分別以 DTW 演算法運算，將參考資料與輸入資料比對，以達到姿勢辨識的目標。本論文第一次提出利用 DTW 動態扭曲時間演算法，搭配 Kinect 的動態骨架追蹤建構出一套精確的姿勢辨識系統，不受距離以及動作速度的影響，並且第一次針對辨識系統進行一連串分析，本系統姿勢辨識準確度高達 70%以上，而較單純的動作，例如左手往左邊揮動，辨識準確度甚至能達到 90%以上，若辨識者與紀錄者為同一人時，辨識的成功率幾乎為 100%。利用高辨識準確度的特性，在本系統上操作許多預設的功能，能夠輕鬆的進行體感遙控。

(52)

- 43 -

5-2 未來展望

姿勢體感遙控的趨勢已經勢不可擋，利用 3D 的體感遙控與平面顯示器進行遊戲互動開啟了輸入界面的新視野。需要高度準確的姿勢辨識，本論文系統提供一個最佳的範例，而未來體感更可突破與平面顯示器的互動，進一步利用體感控制實體物品，例如機器手臂、遙控汽車等等，都將帶給使用者全新不同的感受。有許多領域需要姿勢辨識，舉例來說:運動賽事裁判、領航員等等，本辨識系統若能建立準確姿勢資料庫，相信能提供莫大的幫助，不但能降低人員成本支出，更能減少人員判斷錯誤的風險。

(53)

- 44 -

參考文獻

[1] 劉美君等編著，3D影像互動應用趨勢與系統解決方案探索，經濟部發行，民國100年。

[2] Thomas R. Moore，Ashley E. Cannaday, "Imaging of vibrating objects using speckle subtraction," Optical Society of America, Vol. 27, No. 8， July28, 2010.

[3] Lee, J.S, "Speckle Analysis and Smoothing of Synthetic Aperture Radar Images," Computer Graphics and Image Processing, Vol. 17:24-32, 1981.

[4] M. Mansourpour, M.A. Rajabi , J.A.R. Blais , ”Effects and

performance of speckle noise reduction dilters on active radar and SAR images,” 7 January,2011.

[5] A. R. Fercher, “Velocity measurement by first order statistics of time-differentiated laser speckles,” Opt. Common,33, 129–135, 1980. [6] Hitoshi Fujii, John W.Y. Lit, ”Surface Roughness Measurement Using

Dichromatic Speckle Pattern: An Experimental Study,”APPLIED OPTICS ,Vol. 17, No. 17,1 September 1978.

[7] Bing Pan, Huimin Xie, Jianxin Gao, Anand Asundi, ”Improved speckle projection profilometry for out-of –plane shape measurement,”

APPLIED OPTICS,Vol.47, No.29, 10 October 2008.

[8] J García, Z Zalevsky, ” Projection of speckle patterns for 3D sensing,” Journal of Physics, Conference Series 139, 2008.

[9] Abhishek Kar, ”Skeletal Tracking using Microsoft Kinect,” [10] Valentino Frat, Domenico Prattichizzo, ”Using Kinect for hand

tracking and rendering in wearable haptics,” IEEE World Haptics Conference 2011, 21-24 June, 2011.

[11] Shahram Izadi, Otmar Hilliges, ” KinectFusion: Real-time 3D Reconstruction and Interaction Using a Moving Depth Camera,” Microsoft Research, 11 October 2011.

[12] Lawrence R.Rabiner , ”A tutorial on Hidden Markov Models and selected applications in speech recognition,” IEEE,Vol.77 ,No.2, 1989. [13] 吳妍潔，「使用分層隱藏式馬可夫模型作人類動作辨識」，國立交

(54)

- 45 - 通大學，碩士論文，民國九十六年。

[14] Leon O.Chua, ”Cellular neural networks:Theory,” IEEE,Vol.35, No.10, October 1988.

[15] Guoqiang Peter Zhang, ”Neural networks for classification: A Survey,” IEEE, Vol.30, No.4, November 2000.

[16] Hongjun Lu, ”Effective data mining using neural networks,” IEEE,Vol.8, No.6, December 1996.

[17] Hiroaki Sakoe, Seibi Chiba, ”Dynamic Programming Algorithm Optimization for Spoken Word Recognition,” IEEE, Vol.ASSP-26, No.1, February 1978.

[18] Eamonn Keogh, Chotirat Ann Ratanamahatana, ”Exact indexing of dynamic time warping,” Knowledge and Information Systems ,2004. [19] http://www.xbox.com/zh-TW/kinect

[20] Zeev Zalevsky, Alexander Shpunt, ”THREE-DIMENSIONAL SENSING USING SPECKLE PATTERNS,” US Patent, 2009. [21] Stephen G. Latta, et al, ” GESTURE KEYBOARDING,” US Patent,

2010.

[22] Alexander Shpunt, Zeev Zalevsky, ” DEPTH-VARYING LIGHT FIELDS FOR THREE DIMENSIONAL SENSING,” US Patent, 2008. [23] Javier Garcia, Zalevsky, ” RANGE MAPPING USING SPECKLE

DECORRELATION,” US Patent , 2008.

[24] Roberta Piroddi, ” Stereoscopic 3D Technologies,” Snell Ltd, 2010. [25] “The Business and Technology of Stereoscopic Filmmaking,”

Autodesk, 2010.

[26] MARIA TERESA BAEZA-ROMERO, et al, ” Time-of-Flight Mass Spectrometry for Time-Resolved Measurements: Some Developments and Applications,” DOI, 10.1002, 2011.

[27] Sergio Almansa-Valverde, et al, ” Mobile robot map building from time-of-flight camera,” Expert Systems with Applications , 39 8835–8843, 2012.

[28] Stefan May, et al, ”Three-Dimensional Mapping with Time-of-Flight Cameras,” Journal of Field Robotics , 26(11–12),934–965, 2009. [29] Stefan Fuchs, Gerd Hirzinger, ”Extrinsic and Depth Calibration of

ToF-cameras,” 2007.

[30] Michael Magee, et al, ”Location of features of known height in the presence of reflective and refractive noise using a stereoscopic light-striping approach,” SPIE, 10.1117/12.163139, 1994.

(55)

- 46 -

[31] Changsoo Je,et al, ” Colour-stripe permutation pattern for rapid

structured-light range imaging,” Optics Communications, 285 (2012) 2320–2331,2012.

[32] Jing Xu, et al,”Realtime 3D proﬁle measurement by using the

composite pattern based on the binary stripe pattern,”Optics & Laser Technology ,44 (2012) 587–593,2012.

[33] Song Zhang,”Recent progresses on real-time 3D shape measurement using digital fringe projection techniques,” Optics and Lasers in Engineering, 48 (2010) 149–158,2010.

[34] U. Paul Kumar, et al,”Single frame digital fringe projection

proﬁlometry for 3-D surface shape measurement,”Optik - Int. J. Light Electron Opt, doi:10.1016/j.ijleo.2011.11.030,2012.

[35] Alexander Shpunt, et al, ”Depth mapping based on pattern matching and stereoscopic information,” US Patent，2010.

[36] Feipeng Zhu,et al, ” Three-dimensional shape measurement and calibration for fringe projection by considering unequal height of the projector and the camera,” APPLIED OPTICS,10 April 2011 / Vol. 50, No. 11 ,2011.

[37] Chadi ALBITAR, ” Robust Structured Light Coding for 3D Reconstruction,” IEEE,978-1-4244-1631-8/07,2010.

[38] M.A. Sutton, et al,” The effect of out-of-plane motion on 2D and 3D digital image correlation measurements,” Optics and Lasers in

Engineering , 46 (2008) 746– 757,2008.

[39] Wei Sun,et al, ” 3D displacement measurement with a single camera based on digital image correlation technique,” Proc. of SPIE ,Vol. 6723 67230E-1,2007.

[40] http://local.wasp.uwa.edu.au/~pbourke/miscellaneous/correlate/

[41] H.Lu, P.D.Cary, ”Deformation measurements by digital image

correlation :Implementation of a second-order displacement gradient,” Experimental mechanics, 1999.

[42] C.J. Tay, et al,” Digital image correlation for whole field out-of-plane displacement measurement using a single camera,” Optics

Communications , 251 (2005) 23–36,2005.

[43] Bartosz Jablonski, ” Quaternion Dynamic Time Warping,” IEEE TRANSACTIONS ON SIGNAL PROCESSING,VOL. 60, NO. 3,2012.

(56)

- 47 -

Warping Algorithm for Discrete Word Recognition,” IEEE,VOL. ASSP-26, NO. 6,1978.

[45] Huaguang Zhang, et al, ”Data-Core-Based Fuzzy Min–Max Neural Network for Pattern Classiﬁcation,” IEEE,VOL. 22, NO. 12,2011. [46] Stelios D. Bekiros, ”Sign Prediction and Volatility Dynamics with

Hybrid Neurofuzzy Approaches,” IEEE,VOL. 22, NO. 12,2011. [47] Ya-Jun Qu,Bao-Gang Hu, ”Generalized Constraint Neural Network

Regression Model Subject to Linear Priors,” IEEE,VOL. 22, NO. 12,2011.

[48] Jan Chorowski, Jacek M. Zurada,”Extracting Rules from Neural Networks as Decision Diagrams,” IEEE,VOL. 22, NO. 12,2011. [49] Georgios Kotsalis, et al,” A Model Reduction Algorithm for Hidden

Markov Models,” IEEE,1-4244-0171-2/06,2006.

[50] Wang Junli,et al,”Laser Speckle Images Research based on Wavelet-Domain Hidden Markov Models,” IEEE,978 -1-4244-9983-0/11, 2011.

[51] Quanwei Zhang,et al, ”Splice sites detection by combining Markov and hidden Markov model,” IEEE,978-1-4244-4134-1/09,2009.

利用雷射光斑成像裝置建構姿勢辨識系統

國立交通大學

照明與能源光電研究所

碩士論文

利用雷射光斑成像裝置建構姿勢辨識系統

A New Gesture Recognition System Based

on Laser-Speckle Imagery

研 究 生：黃偉彥

指導教授：楊界雄 教授

利用雷射光斑成像裝置建構姿勢辨識系統

A New Gesture Recognition System Based on Laser-Speckle

Imagery

利用雷射光斑成像裝置建構姿勢辨識系統

摘 要

A New Gesture Recognition System Based on Laser-Speckle

Imagery

ABSTRACT

誌 謝

目 錄

表 目 錄

圖 目 錄

第一章 緒論

1-1 研究動機與目的

1-2 文獻探討

1-3 論文簡述

第二章 Kinect

2-1 Kinect 規格及介紹

2-2 立體成像技術

2-3Kinect 成像原理

第三章 動態扭曲演算法

Dynamic Time Warping Algorithm

3-1 Dynamic time warping (DTW)

第四章 實驗架構與結果

4-1 實驗架構

4-2 實驗與討論

第五章 結論與未來展望

5-1 結論

5-2 未來展望

參考文獻

H

研究生：黃偉彥

指導教授：楊界雄教授

摘要

誌謝

目錄

表目錄

圖目錄

第一章緒論

第三章動態扭曲演算法

第四章實驗架構與結果

第五章結論與未來展望