以視覺為基礎之智慧型環境的建構四年計畫(II)

(1)

計畫書編號：94-EC-17-A-02-S1-032

經濟部學界開發產業技術計畫年度執行報告

以視覺為基礎之智慧型環境的建構四年計畫

（第二年度）

全程計畫：自 93 年 5 月至 97 年 4 月止

本年度計畫：自 94 年 5 月至 95 年 4 月止

國立交通大學

中華民國九十五年五月

(2)

經濟部學界開發產業技術計畫年度執行報告摘要表

計畫名稱：以視覺為基礎之智慧型環境的建構四年計畫主管機關：經濟部技術處執行單位：國立交通大學計畫主持人：蔡文祥教授計畫聯絡人：黃翠玲聯絡電話：03-5712121-59246 全程期程：四年傳真號碼：03-5712121-59236 經費：（全程）124,800 仟元（本年度）28,800 仟元預定 A(%) 實際 B(%) 比較 B/A(%) 當年 100 100 100 執行進度：全程 100 50 50 預定 A（元）實際 B（元）支用率 B/A (%) 當年 28,800,000 28,798,150 99.99% 經費支用：全程 124,800,000 60,600,749 48.56% 主要執行成果：（約 2000 字以內）

一、計畫內容概要

本研究計畫以視覺為基礎，建構智慧型環境，並分為三個主軸，分別對(1)區域進出管制與安全巡邏，(2)空間監控與入侵者偵測，與(3)行為分析於看護服務之應用等三方面，進行研究，針對本年度之研究內容，以分項為單位分別概述如下：

分項計畫一以視覺為基礎之區域進出管制與安全巡邏系統

第一分項計畫之研發目標在於整合各種攝影機所取得的視訊資料，建構一個全方位、無死角且具主動性的安全監控網，達到區域進出管制與安全巡邏的目標。研究內容分成兩個子項。子項計畫一為「整合式區域進出管制系統」；子項計畫二為「安全巡邏自動車系統」。 子項計畫 1-1 整合式區域進出管制系統 1. 多攝影機組間的校正與 3D 定位： 為了整合多個不同種類的攝影機，以便同時兼顧監控範圍的廣度與影像解析度，進行合作式的追蹤監控，我們發展攝影機的內在及外在參數校正與 3D 定位的技術，各攝影機之間可透過追蹤物的三維環境座標來溝通交換訊息，以達到不同攝影機整合監控的目的。我們利用 Wendland 對位法來連結一般化成像模型與觀視球模型，並利用觀視球模型將環場影像反扭曲成透視投影影像，再結合 homography 技術來進行非線性最佳化，以估測精準的環場攝影機內在參數。 2. 多攝影機組監控環境之三維模型建立： 為了在互動式整合顯示中達到平順轉場的目的，我們必須事先針對監控環境建立其三維模型，以產生轉場過程中各個新視點的視訊畫面。我們透過 Essential Matrix 求得攝影機之間的相對方位，並使用具 compact support 特性的 Wendland，透過影像

(3)

對應點及攝影機間的相對方位計算出三維座標點，並將此座標點映射到一球面上以計算 Wendland 的係數，以產生場景之三維表面模型。 3. 監控環境三維模型與視訊之互動式整合顯示： 此研究的初步目標是完成 view morphing 的基本技術探討及轉場演算法的設計。在人物轉場的部份，我們實作一個包含 blending 的程式，測試了在視角比較大時的影像形變效果。如果效果良好，則採用 view morphing 作為平順轉場的主要技術；如果求取對應點效果不佳，則改以估測背景與前景 3D 模型，並事先產生背景平順轉場的影像，再將即時錄製到的前景影像經由適當的裁切與形變影像處理後，與先前建立的背景影像結合，使得虛擬影像得以更逼真。 4. 夾帶尾隨人員偵測系統： 在視訊監控環境中，夾帶尾隨人員事件的偵測是一個重要的課題，在這一部份的研究主要可分為兩個階段：在第一個階段中，有鑑於背景重建是視訊監控方法的基礎，因此我們進行快速背景重建與前景偵測技術的研發，使在單一電腦主機上可以即時進行兩台攝影機以上的前景物體偵測；第二個階段則是利用偵測出的前景物體來進一步分析是否有夾帶人員進入的事件，同時為有效避免因攝影機視角的關係，使得人員互相重疊遮蔽而造成偵測上的困難，因此我們利用兩台攝影機彼此相互輔助，以使夾帶人員偵測系統更加地穩健。 子項計畫 1-2 安全巡邏自動車系統 1. 入侵與危險情況偵測與識別之研究： 危險情況偵測與識別的執行內容分兩個部分。第一個部分為可見光影像辨識與追蹤之研究，對安全巡邏自動車監控所攝得的影像做分析，達成動態物體辨識與取得入侵者之資訊目的。第二個部分是分析室內環境下特定危險情況發生時的可見光影像，迅速地將其偵測出來並採取必要的緊急措施。 2. 基於紅外線影像之場景認知與自動導航技術： 針對所設定的監控場景，在無照明的情況下，發展即時而有效的自動車夜間輔助導航技術。此一技術研究的基礎，在於應用紅外線影像夜視的特性，測試選取特定材質的標記物，佈建在場景中，使得標記物在黑暗中，仍可透過紅外線影像辨識；一旦標記物可以正確的在紅外線影像中標記出來，便可以輔助自動車作場景中的定位與導航。 3. 自動車之路徑規劃與控制技術： 我們應用了一種智慧型的選取方式，讓使用者可以直接在虛擬場景中點選目的地，並透過路徑規劃法則，讓自走車自行追蹤路徑到達目的地。在升降平台部份，已經進行第二代升降機構的設計並開始製作，以達到攝影機觀測時穩定的需求。在移動平台部份，經過製作小型全向式移動平台原型後，已經著手設計與製作出實際大小之全向式移動平台機構，以供未來各項實驗使用。

(4)

分項計畫二以視覺為基礎之空間監控與入侵者偵測

本分項計畫將以公共空間及限制性空間兩主題為研究對象。針對監控空間中之進出人員進行行為分析追蹤，判斷其可能身份與意圖，並將其相關資訊記錄、儲存以供內涵索引系統檢索。子項計畫一為「公共開放空間安全監控系統」；子項計畫二為「限制性空間入侵偵測系統」。 子項計畫 2-1 公共開放空間安全監控系統 本子項第一年已完成建立一個雛型但完整之公共開放空間監控環境，其中將包含一雛型之監控系統及一雛型之視訊檢索系統。因此今年將進一步加強各系統之監控品質，並依架構與用途拆分為四個研究重點： 1. 監控環境之設置與改進： 針對公共開放空間之多台攝影機架設與攝影品質不高等因素，提出一些研究之改進方向。影像系統儲存壓縮技術之改進則針對重點物件規劃出畫面中之重點關心區域，並給予較高解析度之壓縮品質。 2. 影像儲存壓縮技術之改進： 我們發展了以人為主之視訊內涵索引系統、監控事件知識本體架構及視訊內涵索引之查詢介面。 3. 異常事物偵測與記錄： 將公共開放空間常見之四種異常事件進行偵測處理。 4. 視訊檢索系統之改進 根據本子項以及其他子項電腦視覺及其他偵測技術所接收之事件，建立一檢索查詢系統。 子項計畫 2-2 限制性空間入侵者偵測系統 本年度的研究繼續針對入侵物的形體及其是否是人類作進一步的研究與分析。當偵測到有入侵的情形發生時，除了能夠持續追蹤入侵物體外，我們也希望瞭解入侵物的形體分類，其中最值得注意的就是人的入侵。當偵測到有人員的移動或入侵時，我們希望瞭解人員的移動路徑，並加以追蹤與紀錄。攝影機針對監控範圍內偵測是否有人員移動的情形發生，當發現有移動人員時，系統立即驅動攝影機追蹤此移動人員，同時放大其臉部位置並加以紀錄。隨著科技的快速發展，利用人類的生物資訊來作為辨識也變得越來越可行，一般常使用的生物資訊包含有人臉、指紋、掌紋、聲紋及虹膜等資訊，而其中又以使用人臉辨識的方法最為直觀。人臉辨識系統除了從人臉影像中萃取出具代表示意義的特徵值來當作人臉辨識的基礎外，更應該考慮到人臉的 3D 模型，藉由 3D 模型的建立，我們可以從中間得到更多的有用資訊來作為人臉辨識的依據。除了影像上的特徵，人還有語音上的特徵可供辨識。以語音特徵來做為身分辨識的優點在於，使用者不用攜帶物品，不必什麼大動作，只要開口說幾句話，語音辨

(5)

識系統便能自動依據要求達成工作，這在人類提升生活便利方面是極有吸引力的。為此，本年度研究也著重於建立語者身分辨認的環境。因此本年度主要的研究工作項目有列兩項，分述如下: 1. 入侵物分類與移動路徑分析系統之研究： (1) 入侵物形體分析：建立人類形體模型以分析入侵物是否為人類的移動。 (2) 人類之偵測：藉由人類特有的特徵，進一步確認入侵物是否真為人類，特別是膚色特徵。 (3) 入侵物分類與移動路徑分析系統之研究：偵測是否有人員的移動或入侵情況，並瞭解人員的移動路徑，同時加以追蹤與紀錄。 2. 入侵者 3 D 模型與語音分析之研究： (1) 人臉 3D 模型之建構與辨識：完成一個以類神經網路為基礎的適應性整合式反射模型及其在三維立體重建之應用。 (2) 語者辨識：開發出一套快速且具有高辨識率之基於時頻域獨立成分分析之語者辨識系統。

分項計畫三以視覺為基礎之行為分析於看護服務之應用

第三分項計畫在於利用進步的電腦與視訊科技，開發新的視訊前瞻技術幫助一些年邁行動不便的老年人，讓他們能生活更獨立、自主與有尊嚴。這些前瞻技術能主動了解被照護者的需求，使他們能做一些原本無法獨立做到的事，並能積極地觀察被照護者的安全與健康狀況。在第一年執行過程中，我們順利完成平台初步建置、追蹤室內目標物的演算法、建立背景模型及抗誤傳輸初步模組等。在第二年計畫中，我們擴充平台的功能，並對單攝影機狀況下人類行為模式做分析；在抗誤傳輸方面，我們改進前一年的速度及正確率。 子項計畫 3-1 互動式看護服務系統 1. 手勢人機介面技術產品化： 我們將開發出來的手勢辨識技術，應用在家電的控制上，手勢人機界面技術藉由即時辨識使用者所發出之特定手勢，與居家或照護環境達到互動之功能。例如智慧型居家環境的介面可以手勢操控冷氣、電視及電燈開關等；而互動居家照護環境的介面則可允許行動不便的人可以操控周邊電器或病床。當指令訊息傳送至居家照顧系統時，使用者能立即監看即時影像及接收影像檔案。 2. 指示手勢之追蹤／辨識： 研發指示手勢之追蹤／辨識技術的目的在於設計互動居家照護環境的界面:允許行動不便的人可以操控周邊電器或病床。或者作為智慧型居家環境的界面，以指示手勢操控冷氣及電視開關，再利用手勢辨識做細部功能遙控。也可以發展手勢簡報

(6)

系統，應用即時指示手勢追蹤辨識技術可定位出簡報中所指的位置，同時在結合手勢辨識技術可操控簡報之各項功能，如切換上下頁、連結動作等。 3. 臉部表情辨識： 這個系統中，除了手勢的辨識，我們也做了 2D 臉部表情的辨識，有了臉部表情的識別，我們可以知道病人現在是高興、生氣、微笑、驚訝、難過或者是痛苦，加以提高整個系統辨識的正確率。臉部表情識別主要分成幾個步驟，首先就是人臉的偵測，有了人臉的影像，接著找出所需要的特徵，並加以辨識，而得到最終的結果。 4. 加護病患的人眼追蹤、判斷與偵測： 此工作項目目的在於發展即時的人眼偵測分析及應用，以 CCD 攝相機即時取得的的影片做為輸入，利用多個影像處理的技術追蹤人眼，並且將所偵測到的眼睛圖像分析，使得眼睛的信號也可做為控制信號去控制家電，或其它方面的應用。 5. 傳輸平台硬體的佈建與各分項系統整合： 本系統是一套互動式音視訊串流傳輸平台。模組化之設計以利整體串流系統各步驟的建構。系統包括影音視訊存取與管理、影音視訊串流傳送、訊息通知、影音視訊隨選瀏覽、影音視訊解壓縮等功能。處理影音視訊串流流程中，存取層級、網路傳送層級、串流層級、接收層級與解壓縮所遇到的問題。建構一套以 PC-XP 為基礎的互動式音視訊串流傳輸平台、並提供影音視訊智慧型視覺處理系統使用者的模組介面、以建構一個智慧型監控系統。 子項計畫 3-2 具行為分析能力之看護監控系統 1. 受照護者行為的分析（I）： (1) 自動姿態擷取：這部分的工作主要是利用熵(entropy)的變化來做為擷取主要關鍵姿態的標準。我們所發展的系統主要分為兩部分來達到自動主要姿態擷取的目的。第一步我們利用熵的變化來自動擷取一組有可能的關鍵姿態。我們第二步利用交互熵(cross entropy)來檢驗最後是否要收錄在碼簿中。 (2) 手腳運動的初步分析：我們利用 frame 間的運動向量來擷取連續的運動片段。在概念上是利用不連續動作在運動方向的呈現上會有斷點這個重要特徵作為動作分段的標準。到目前為止，我們已可利用這個概念切割出一些原本不易判斷的動作片段。 (3) 單部攝影機時受照護者的行為分析：為能準確且快速地分析受照護者之行為，因此對於身體姿態的表示方法必須具有強韌性與低複雜度之兩種特性。在此系統中，有別於其他計算人體姿勢星狀表示方法受人體輪廓之雜訊影響甚鉅，我們提出了具備了上述兩大特性的表示法－「類星狀」表示法。 2. 被照護者以外運動物體之濾除： 首先，我們假設在視訊攝影幾拍攝範圍內的人類行為具有足夠明顯且長時間的運動量。利用運動流向(motion flow)的概念，在壓縮影片上，我們可以將視訊影像間藉區塊比對(block matching)所產生出的運動向量(motion vector)，依其方向與

(7)

區塊色彩等特徵的一致性在時間與空間上接續起來，使其成為多條軌跡一般的分佈。在非壓縮視訊上，我們同樣可以利用預先建立之背景影像先擷取出前景，再透過 shape context 技術對前景輪廓上的取樣點在相鄰畫面上作比對追蹤，同樣可以得到所需之運動流向資料。 3. 陰影消除技術： 在分析被觀察物行為過程中，取像環境會因光線、雜訊和背景晃動，而有陰影的產生，陰影非常容易造成分析過程中之行為誤判的產生，因此必須發展對應的陰影消除法，有效地將陰影與運動物分離出來。陰影消除最重要的問題在於陰影模組要如何的建立，我們將利用 GMM(Gaussian Mixed Model)來建立被觀察者環境下的陰影特性與狀態，此模組的狀態係數，可先統計 N 張畫面後，計算全部畫面像素亮度和顏色的失真變異數，當作此陰影模組的參數，陰影模組建立之後便可將對像素點有效地分成(a) 背景（background）-像素點的亮度和顏色近似於背景模組、(b) 陰影背景（shadow background）- 像素點的顏色近似於背景模組，但是亮度偏暗、（c）反光背景（Highlight background）-像素點的顏色近似於背景模組，但是亮度偏亮、和（d）前景（Foreground）-像數點的亮度和顏色皆異於背景模組，利用此分類進而將陰影從視訊中分離出來，除了明亮度特性，本計畫也利用陰影的幾何特性來更精準地建立陰影模組，能更有效地擷取與消除物件陰影。 4. 抗誤性編碼與錯誤隱蔽：

因為壓缩之影像/視訊(如 JPEG、 JPEG-2000 影像, H.263、MPEG-4、H.264 視訊)內容使用熵編碼 (可變長度碼)，所以若有一個傳輸錯誤發生，就會造成在影像資料中目前字碼及其接續字碼的解碼錯誤，使接收影像/視訊的品質大大降低。在此一個傳輸錯誤可以是單一錯誤位元、併發錯誤或影像封包遺失。我們將研發一種使用資訊隱藏技術的抗誤性影像/視訊編碼方法及錯誤隱蔽技術以處理影像/視訊中的傳輸錯誤。一些影像/視訊的重要資訊將被隱藏於原來壓縮影像/視訊資料中。藉著這些隱藏的資訊，可以進一步強化錯誤隱蔽的效能，使重建影像/視訊品質進一步提升。 5. 內容導向的速率調適及錯誤控制技術： 當被照護者發生狀況時，照護系統會透過無線視訊傳輸的技術將發生事故的視訊片段傳給相關單位或家屬做複判。無線傳輸通常為了減少傳輸資料量，大都採用壓縮過的資料。但是，這個傳輸方式最易發生封包遺失或受突發亂碼之干擾，因此需要發展新技術將傳輸錯誤降到最低的程度。此外，由於無線區域網路為一共享之媒體，每個站台之可用網路頻寬在不同時間會隨著用戶的數目及其傳送資料之內容而改變，因此需要發展一套高效能之速率控制(rate control)機制。 6. 智慧型環境網路管理介面： 在上一年度所建構之智慧型環境視訊傳輸網路平台架構上，除了基本的資料存檔、檢索功能外，我們也將開發一些 user-friendly 的管理功能。例如影片檢索、事件偵測及記錄。使用者也能藉由網路控制攝影機 pan-tilt-zoom 來將焦點放在某一指定的區域上。當經由網路來檢視記錄影片時，使用者可以對影片自由地倒帶、快轉、快速倒轉、瀏覽摘要或隨機選取畫面以便於快速找出所欲查看之影片片段，迅速掌握並及時處理突發狀況。

(8)

二、計畫執行成果

分項計畫一

子項計畫 1-1 1. 多攝影機組間的校正與3D定位： 在計畫第一年度中我們發展了環場攝影機的內在參數校正，及攝影機組外在參數校正的理論推導與模擬實驗。我們在第二年度中持續改善校正方法已求得精確環場攝影機內在參數。改善的校正法包含了兩個步驟，在第一步中，我們將利用 Wendland 對位法來連結一般化成像模型與觀視球模型，這會使我們的方法兼顧準確性與一般性。第二步則是利用觀視球模型將環場影像反扭曲成透視投影影像，並結合 Homography 來進行非線性最佳化，以估測精準的環場攝影機內在參數。此外我們也完成模擬實驗及實體實驗，來驗證所提出環場攝影機校正法的準確性。在攝影機組外在參數校正的部份，這一年我們也完成了程式的開發並進行實體實驗來驗證校正理論。 2. 多攝影機組監控環境之三維模型建立： 在計畫第一年中，我們構思了兩種三維場景模型重建的理論。第一種想法是利用 Homography 來求得平面的各項參數，並利用平面來組合三維場景模型。第二種方法是透過 Essential Matrix 求得攝影機之間的相對方位。而在計畫第二年，我們主要在研究使用 Thin-Plate Spline，透過影像對應點及攝影機間的相對方位計算出三維座標點，並將此座標點映射到一球面上以計算 Thin-Plate Spline 的係數，以產生場景之三維表面模型。也嘗試著利用 Wendland function 的 compact support 特性來取代 Thin-Plate Spline，來更精準的重建場景之三維模型。 3. 監控環境三維模型與視訊之互動式整合顯示： 在計畫初期，我們使用找尋對應點的方式來做不同攝影機之間的影像轉換；然而攝影機之間的角度差異頗大，使得對應點的尋找結果並不如預期。為了改善這種情況，我們嘗試以粗略的 3D 模型來當作人物的粗略模型，並且將所擷取到的影像作為材質，貼在這個 3D 模型上，接著做適當的切換與影像修飾，即可達到平順轉場的效果。從實驗結果來看，我們發現：使用橢球來模擬人物之效果比使用圓柱體逼真，但效果仍然不是很理想；而如果使用一個平面的人型板做為人物的 3D 模型，比較不會造成前景人物的扭曲與變形，也使得前景與背景更容易融合在一起，達到更逼真的平順切換效果。 4. 夾帶尾隨人員偵測系統： 在第一個階段，我們已發展完成兩階層背景重建技術，此技術為首見整合區域與像素為基礎之背景偵測方法，其特色是以 coarse-to-fine 的架構進行整合，並可提供兩種解析度之前景偵測結果，相較於傳統以像素為基礎的方法，我們所開發的方法更能克服動態背景所造成的問題，如風吹草動、噴泉與海浪等，此外，由於本方法具有高效率的特性，因此可在單一主機上進行兩台攝影機以上的前景偵測。在第二個階段中，我們利用發展完成的背景重建技術來進行夾帶尾隨人員的事件偵測，在單一攝影機的環境中我們已可進行偵測，但是由於攝影機視角的關

(9)

係，使得在某些狀態下造成偵測上的困難，諸如尾隨者可能因人員相互重疊遮蔽或被背景物體遮蔽而難以偵測，因此，為有效克服攝影機視角的問題，我們將尾隨人員偵測技術由單一攝影機延伸至利用兩台攝影機間的相互輔助，這兩台攝影機分別以正面與側面的角度對拍攝環境進行取像，藉由這種兩台攝影機間相互輔助的架構，確實可使偵測的結果更加地穩健，並能有效避免單一攝影機因視角的關係所造成的遮蔽問題。 子項計畫 1-2 1. 入侵與危險情況偵測與識別系統： (1) 可應付在不同環境下的動態物體辨識技術：利用區塊(block)模糊比對的方式計算前後影像差異(Frame Difference)來偵測移動物體。抽取到動態物體的位置後，藉由形狀和大小的特徵和已內建的人形特徵做比對，根據所得的相似程度可以判斷其是否為人類。在確定為人類後擷取其服裝特徵。經由學習介面，使用者可事前建立巡邏人員的服裝顏色特徵，將其和入侵者的服裝特徵進行比對，以確認是否為入侵者或是巡邏人員。 (2) 可取得入侵者資訊的自動導航技術：在確定有入侵者的狀態下，擷取入侵者的服裝和身高資訊。記錄目前自動車的巡邏位置，預測並擷取入侵者的位置資訊，進行跟監行動。在跟監過程中，當足夠接近入侵者時，取得入侵者臉部或背影的清晰影像，取得影像後自動車回歸到原本的巡邏位置並繼續其巡邏路線。 (3) 可進行不同危險情況的偵測：事前先對火災情況作影像分析，觀察火災特有的特徵，包括顏色、亮度、飽和度等情況，與一般無特殊狀況的影像作比較，訂定並紀錄其中的差異點；另外對停電情況與一般情況的影像差異作比較，設定變化狀況作為警告，特別是停電造成的亮度瞬間改變，形成影像大幅度的變化。此方法利用持續對影像監控，分析影像是否出現事前定義好的危險情況變化樣式，藉由影像特徵的變化判斷是否出現已定義過的危險情況，再藉由各種危險狀況所造成的影像變化，區分出是何種危險情況。 2. 基於紅外線影像之場景認知與自動導航技術： (1) 紅外線攝影機測溫參數設定之技術：應用中紅外線攝影機，對所欲監控檢測的物體，開發溫度量測技術，以判定是否有異常狀況。其中包含了不同材質目標物的輻射率設定、環境溫度濕度設定、溫度與影像強度之轉換對照表，以及發展紅外線測溫程式介面等技術的開發與測試，並可基於某一溫度之環境特徵作設定，檢測特定溫度的物體是否存在於影像資料之中，以作為異常狀況判定的依據。此一研究成果，已可應用於各式人物之即時溫度檢測中。 (2) 紅外線標記物之分析與裝設：對實驗場景進行拍攝，建構與紀錄場景資訊，其中包括標記物材質．形狀的選取，標記物在場景中的座標佈設，以及建立實驗場景的特性資訊作為自動車導航之用。透過場景資訊設定原則的歸納，我們可以對不同的場景，作簡要的標記物設定，並可達到輔助導航應用的目的。 (3) 場景標記物即時搜尋與導航應用之技術：發展基於紅外線影像之自動導航技術，開發近紅外線攝影與自動車控制的整合技術，研究自動車如何可在黑暗、

(10)

無照明環境中行進．應用所建構的場景資訊，即時將所拍攝的紅外線影像，與場景的影像資訊做對應，以定出目前自動車所在位置，提供可能的自走車修正資訊與路徑，並使得自動車能夠進行夜間巡邏與物品保全的工作；此一技術的研發，目前已有具體成果，可進行實地展示。 3. 自動車之路徑規劃與控制技術： (1) 環境模型與地圖的建立，包括對已知與未知的環境：在虛擬實境的場景中，加上手臂的結構，配合使用者的鍵盤操作來移動機械手臂，藉著視角的切換，使得使用者可以從所希望的任何角度來觀察，能更清楚的偵查物件，且方便操作；未來更可搭配實體攝影機的應用，直接獲得真實影像的照片，對未知的物件能更全面的掌握。 (2) 虛擬環境中避障與最佳巡航路徑規劃：依照實際的環境改善了虛擬的場景，使操作者在使用時更有身歷其境的感覺；更應用了一種智慧型的選取方法，直接利用游標在虛擬實境裡點選目的地，透過路徑規劃法則，讓自走車產生障礙避免，以及最佳路徑，接著讓自走車自行追蹤路徑到達目的地，讓操作者的操作更加流暢。 (3) 自動車機構的設計與製作：在昇降平台部份，根據攝影機實際需求與第一代升降機構的缺點，進行第二代升降機構的設計並開始製作。對於需改變觀測方向的攝影機本身有轉角機構，所以升降機構只具有垂直升降的能力，以減少活動關節所產生的晃動，並且對於新的攝影機觀測條件的降低，設計並開始製作更堅固與穩定的第二代升降機構。在移動平台部份，根據過去製作小型平台所獲得的結果，並考慮未來巡邏車整體的大小高低，設計與製作出實際大小的全向式移動平台機構，以利未來各項測試使用。

分項計畫二

子項計畫 2-1 1. 監控環境之設置與改進： (1) 研發完成多台 PTZ 攝影機自動定位的方法，利用少量之影像資訊，即可自動建立各台 PTZ 攝影機間的相對位置和角度關係。與常用來校正定位的方法做分析比較，此研發之方法較為穩定，尤以不需特別的校正系統和校正器具為一大優勢。此外，亦進行動態定位的分析，分析攝影機姿態改變時，影像內容的變化，進而由影像反推攝影機的傾斜角和左右轉動角的變化量。 (2) 物件層級之動態分析完成運動切割技術，可從動態影像中擷取運動中之物體，並大略擷取出物體之外形，並可允許攝影機處於動態拍攝狀態，不需要背景為靜止狀態。 2. 影像儲存壓縮技術之改進： (1) 進行視訊內容分析，包含有雜訊分析，以及區塊變動偵測及內容變動判斷。 (2) 提高儲存壓縮率（採 MPEG-4 視訊壓縮標準），略過內容沒有變化的影像，

(11)

只儲存影像中內容變動的部分，背景則沿用前一張影像的背景部分，並適當調整壓縮標準中的量化參數值（QP)。 (3) 消除隔行掃瞄（De-Interlace）。影像擷取進來後，會有影像隔行掃瞄的問題，先分析一些在空間域上消除隔行掃瞄的方法特性，再加以改進。接著以 MA-IPC 的方法為基礎，配合 a.項改進的空間域消除隔行掃瞄的方法，加以時間域的考量，採取背景和運動物體使用不同的方法和資訊來消除隔行掃瞄。 (4) 內插畫面（Interpolation），依內容不同，分為平滑區和邊緣區，新的方法內插結果亦能維持平滑和邊緣的特性。 3. 異常事物偵測與紀錄： (1) 攜帶物品遺留行為之偵測追蹤：在攜帶物品遺留行為之偵測追蹤方面，主要利用了背景相減的方法判斷是否有前景物產生，當發現了有前景物產生後，並且此前景物在原地不動一段時間後，系統便可以知道此前景物可能為一遺留物，接下來利用高思混合模型(GMM)的方法判斷是此物品是否是從哪個人的身上遺留下來（例如背包或者是手提物品等等），並且紀錄此人的特徵等等（例如對此人物作最好的人臉特寫）以供事後查詢。 (2) 人形物體之步態分類：此一模組針對人形物體之運動特徵進行分析與分類，分別針對走路、跛行、跑步、跳躍與拖行物品等五種步態，此一模組利用視訊處理技術，將人形之運動特徵擷取出一連串之時空符號序列樣本，並利用隱藏馬可夫模型具有辨識可，可根據不同之公共空間場合，定義不同異常運動特徵，以提醒安全人員注意，另利用可變長度樣本的能力，進行分類，以定義與判斷異常人形物體運動之重要依據。 (3) 人形物體色彩異常偵測：由於公共空間中，人員可任意進出，且取的影像之角度不佳，取得影像之解析度低，不易藉由臉譜影像辨認出人員身份，此一模組以公共空間之超商櫃檯為實驗環境，將進出櫃檯之人員作制服色彩分析，藉由色彩之資訊，訓練一類神經網路，藉此判斷進入人員是否穿著正確之制服進入限制區域，若無，則發出訊息通知相關人員注意，此一色彩特徵，可視為異常事件判斷之重要特徵。 (4) 人形物體軌跡異常偵測：行人之軌跡特徵，為公共開放空間之異常行進路徑之重要警訊線索，擷取行人之一連串之軌跡資料，包含位置、速度與大小，但由於異常資料不易蒐集，因此，建立一個機率類神經網路(PNN)，自動產生正常軌跡之 prototype，利用物件移動軌跡對事先建立之正常行進軌跡資料作比對，如果物件之移動軌跡資訊能相符合於正常軌跡路徑，即為安全模式，反之，則需提醒相關人員並加以記錄相關資料，如果屬於異常，則能於 PNN 中，自動建立一個異常之 prototype。 4. 視訊檢索系統之改進： (1) 建立以人為主之視訊內涵索引，以貝氏分析模型與統計方式建立監控背景，以偵測移動物，並將連續有移動物發生之視訊片段編碼為連續視訊片段。 (2) 監控事件知識本體架構，採用 MPEG-7 中標準來儲存、傳送適合安全監控特性之事件。建立顏色之統計式與概念式描述方法，並建立人事時地物與監控

(12)

視訊影像之時空索引關連。 (3) 視訊內涵索引之查詢介面，以便利超商之監控視訊範例，建立 Web-based 查詢檢索系統，可透過 IE 瀏覽器連結到查詢伺服器，以選單或英文之自然語言查詢監控視訊。 子項計畫 2-2 1. 入侵物分類與移動路徑分析系統之研究 (1) 入侵物形體分析：建立人類形體模型，以分析入侵物是否為人類的移動。首先在外型輪廓上，利用兩個大小不同的橢圓形分別代表頭與軀幹，以建立簡單的人類形體模型，接著使用樣版比對的方法，比對所得到的移動物體影像是否符合該形體模型。在移動物體影像之偵測上，我們比較連續兩張影像的差異，並將該差異經過濾波器的處理以取得移動物體的輪廓。最後在比對上，我們利用誤差方程式將移動物體的輪廓與人類形體模型做比對，如果所得到的誤差值低於一個臨界值，則可判定該移動物為人類。 (2) 人類之偵測：當已知移動物體為人類之移動後，我們利用其他人類特有之特徵針對該影像做進ㄧ步的分析，特別是膚色特徵。在膚色之偵測上，我們使用三種辨別皮膚顏色的方法：（一）YCbCr （利用明亮度及色度之構成），（二） RGB（以紅色、綠色及藍色作為基礎），（三）HSI（以色調、飽和度以及亮度）作為基礎，以找出人體膚色的區域。為了找出人體膚色的區域，我們利用接壤技術，將符合人類膚色的區域聯結起來。在本子項中，我們利用 8-connectivity 之接壤技術，尋找人類移動影像中人體膚色區域。如果確實能分析出人體膚色區域則我們可以判定該影像為人類之移動，並持續進行追蹤。 (3) 入侵物分類與移動路徑分析系統之研究：結合“入侵物形體分析”與“人類之偵測”兩個工作項目的研究成果，我們可以針對監控範圍內偵測是否有人員移動的情形發生，當發現有移動人員時，立即驅動可動式攝影機追蹤此移動人員，同時根據人臉的偵測結果，使該人員的影像保持在監控畫面中央，同時放大該影像並進行紀錄，特別是人臉的影像，紀錄的結果可以通知保全人員或是家庭成員進行進一步的查閱與辨識。 2. 入侵者 3 D 模型與語音分析之研究 (1) 人臉 3D 模型之建構與辨識：完成一個以類神經網路為基礎的適應性整合式反射模型及其在三維立體重建之應用。這個類神經網路自動整合光學成像上的散射與反射成分，使得我們可以個別考慮物體表面上每一點的成像特性，並且針對表面不同反射率的問題加以處理。我們將二維影像輸入到多層級的類神經網路，透過指導性學習法，可以得到物體表面每一點的法向量。接著利用”Enforcing Integrability”方法，我們從計算得到的法向量重建出物體的形狀。研究成果可用於重建人臉的立體影像，成為人臉辨識之核心模組。 (2) 語者辨識：結合獨立成分分析與頻譜軌跡向量移動，建立新的語者特徵參數粹取技術與方法，稱為基於獨立成分分析之時頻域頻譜特徵粹取（Time-Frequency Independent Component Feature Extraction, 簡稱 TFIC，並開發出一套快速且具有高辨識率之基於時頻域獨立成分分析之語者辨識系統。本系統以國語語音資料庫 MAT2000 進行測試，語者辨識正確率可達 98.4%。

(13)

分項計畫三

子項計畫 3-1 1. 手勢人機介面技術產品化： 我們將手勢系統運用在電視遙控功能上，其中包含了電視頻道的上下移動、音量的控制，以及電視的開關，目前我們與一家建設公司談合作事宜，以作為豪宅的加值功能。為了降低系統建置的成本與減少安裝時專業人員的需求，我們將系統程式改變成一般 webcam 相容的系統。並且在不同燈光與背景下作多方面的測試，以確定最適宜的使用環境。目前先以單一家電為主要設計考量，期望日後能夠整合其他的家電系統，就如同哈利波特一般，揮揮手即可控制居家環境。目前我們在壢新醫院架立了一台整合了遠端遙控系統的主機，以及一套 PTZ 攝影機系統，藉由我們所設計的程式，系統可以由攝影機所得之畫面，追蹤並且判斷畫面中使用者的手勢信號，並依據此信號做出相對應的動作，在目前我們的測試當中，我們將以手勢取代遙控器用來遙控電視。在我們的系統之中，我們增加了 particle filter 以包含了顏色、邊緣等資訊來尋找手部位置，並以 Haar classifier 辨識臉部位置使其與手部的資訊分離，藉由整合兩者，我們可以有效的追蹤手部位置，並以所得之資訊進行手勢辨識。而在手勢辨識上，我們目前採用了 SVM 來進行建立手勢模型以及辨識的工作，主要採用的資訊包含了手勢在 X、Y 方向上的投影，以及邊緣的特徵，在手型取得良好的情況下，有著良好的辨識率。 2. 指示手勢之追蹤／辨識： 即時指示手勢追蹤辨識技術首先利用雙相機做即時指示手勢之追蹤(particle filter)，此指示手勢之追蹤是不需要背景資訊，如此可克服背景變動之影響。接著應用影像處理技術將雙相機所追蹤到之指示手勢平面指示線計算出。最後利用空間與相機影像平面的對應關係即時計算出空間平面的指示位置。這項技術的開發已涵蓋目前電腦視覺中數項先進技術，可應用於智慧型居家環境之週邊設備操控與手勢簡報系統。此項技術已於期中訪視實地展示過，並於 2006 年 2 月產學研聯盟所舉辦之技轉說明會中發表。 3. 臉部表情辨識： 在臉部表情辨識的部份，目前大致已經確定使用 Gabor filter 選取相關的特徵，利用 adaboot 來降低維度，提升整個系統的速度，期望達到 real time 的效果，而最後的臉部表情判斷則是使用 relevance vector machine(RVM)來執行。基本的系統正在持續進行中，如果順利，則可再增加不同角度下的辨識，使整個系統更加的完善。在臉部表情識別的部分，我們的目標是要開發一個即時的人臉辨識系統，並加入不同角度的人臉判斷。主要分成三個部分：第一、對一開始的影像做人臉的偵測與角度的判斷，這部分主要是利用了 multi-class Adaboost 這個演算法，在事先建立的一大群 Gabor fature 中找出主要的特徵點，利用這些特徵點去判斷所掃描到的區域為何種角度的臉或是非臉。第二為臉部追蹤，一旦我們順利的抓取到人臉的時候，隨著被觀察者的移動，我們必須不停的追蹤出臉部的位置，才能進而進行最後一個部分，也就是臉部表情的識別。因為我們一開始定義的角度有五種，分別是-90∘、-45∘、0∘、45∘、90∘，但是其實在 ±90∘的時候，已經

(14)

很難去判斷表情了，因此我們只在 -45∘~ 45∘時才考慮表情的變化。這裡我們一樣使用 Adaboot 的演算法去尋找特徵點，但是在分類的時候會使用目前發展良好的幾種分類器，像是 SVM、RVM…，去做分類，從其中挑選出最快速且準確的一種來使用。將三個部分整合在一起，即可作出我們最後所想要的系統了。 4. 加護病患的人眼追蹤、判斷與偵測： 為了偵測出人的眼睛首先我們先偵測影像人臉的部分。藉由取得膚色的分布的區域範圍，做為第一階段人臉的區域，在這邊所採用的數值是 HIS 中的 H 值以減少光度的影響。膚色判定後，我們利用 Support Vector Machine (SVM)的技術精確的偵測出人的眼睛。之後我們提出利用移動向量偵測的技術來追蹤人的眼睛。接著我們使用 dynamic programming 的方式達到眼睛眨動指令的比對，閉眼代表 (0)，開眼代表(1)。目前我們所使用的 code 分別有長度為三個、四個及五個。經由實驗發現我們可以初步達到很高的正確判斷率以及很快的運算速度。 5. 傳輸平台硬體的佈建與各分項系統整合： 依據系統之目標及功能範圍，本軟體可細分為以下數個模組： ①影音檔壓縮控制模組：提供即時存取與管理儲存在 server 之畫面資料②串流伺服器模組：提供串流服務的伺服器，並回應使用者端的串流要求③串流客戶端模組：串流使用者端提供 API 存取介面給視覺處理系統程式使用④多媒體播放：一個播放程式來提供監控功能。本工作項目的主要執行內容包括：

(1) 建構包含 IP camera 及 USB camera 之互動式音視訊傳輸平台。探討 Client 端接收 Buffer 之變動情形及處理流程、Client 端各 Thread 間的互動關係、Server 端多使用者下 Packet 傳輸之運作情形、server 端各 Thread 間的互動關係。 (2) 完成 stored video 及 real-time video 視訊傳輸時平穩控制(smoothness control)之

機制，使每次傳送的所有封包的總位元量能接近固定，並且保持最小的變化。 (3) 探討 Client 端各 Thread 間時間上的互動關係以及在加掛影像處理時如何讓 client 端各 Thread 保持優先順序 (4) 實際在有線及無線之 802 網路上測試此一視訊傳輸平台。測試封包延遲，延遲時間之變動率，多使用者下之頻寬使用率及網路壅塞程度。 (5) 完成以 MPEG4 作為解壓縮平台之同步影音傳輸。 子項計畫 3-2 1. 受照護者行為的分析（I）： (1) 自動姿態擷取：這部分的工作主要是利用熵(entropy)的變化來做為擷取主要關鍵姿態的標準。我們所發展的系統主要分為兩部分來達到自動主要姿態擷取的目的。第一步我們利用熵的變化來自動擷取一組有可能的關鍵姿態。但這一組可能關鍵姿態的數目可能過於龐大，因此我們第二步利用交互熵(cross entropy)來檢驗最後是否要收錄在碼簿中。這個想法經過不斷的實驗得到相當令人滿意的結果。 (2) 手腳運動的初步分析：本來我們在年度初提出的想法是將手腳等部位作一完整的切割之後，再藉 frame 與 frame 之間對應的連結來探討手腳運動的行為分析。但是在實際從事 implementation 時發現，影像處理中影像切割(image segmentation)的問題仍然受到雜訊嚴重的干擾而無法得到較好的結果。因此我們更改做法，利用 frame 間的運動向量來擷取連續的運動片段。在概念上是利

(15)

用不連續動作在運動方向的呈現上會有斷點這個重要特徵作為動作分段的標準。到目前為止，我們已可利用這個概念切割出一些原本不易判斷的動作片段。 (3) 單部攝影機時受照護者的行為分析：這部分我們完成的成果與原先規劃的有一

點小小的差異。我們利用 frame 與 frame 之間的差異取得 moving edge 的對應運動向量。因為 edge detection 難免會有斷裂的危險，因此我們利用 shape context 的概念去解決上述的問題。當一組同質性級高的運動向量被串成一條條軌跡時，我們設計一個演算法將這些軌跡合成單一條軌跡來為後續的描述及比對工作鋪路。這部分的成果已投到 Pattern Recognition(2005.12)。 2. 被照護者以外運動物體之濾除： 這部分我們已如原來所規劃，找出一個視訊片段中最大的運動趨勢，並將其他的小型運動濾除。因著這個成果，我們可以將後續人類行為比對的工作大大簡化，並因此得到幾近 real-time的比對結果。我們將上述運動趨勢的比對方式運用在即時事件的偵測上面，對於監控系統具有極強有力的支持作用。目前已有工研院前瞻研究中心技轉該項技術。圓剛、立治及宏碁則已有洽談的動作，後續存在許多技轉的可能性。 3. 陰影消除技術： 在行為分析時，常會因陰影的因素造成辨識的誤判，關於物件陰影的消除，過去的方法絕大多數都是利用高斯模型(Gaussian model) 來對陰影的明亮度，做適當的模擬，再根據每一個像素的明亮度特性，對陰影加以適當的偵測與去除，無論如何這方法有一個很大的缺點是，當一個人穿著黑色衣服，這種方法常會把衣服顏色也當作陰影來偵測，因此在此計畫中，提出一個嶄新的方法來更加有效偵測與去除陰影，基本上陰影是由物體遮住光線所造成的，因此陰影本身會跟一個物件相連，本方法引進陰影的幾何特性(geometrical property)，包括像素位置與陰影方向，增加這些幾何特徵更精準擷取陰影的機會，上述這些像素位置與陰影方向都可以自動擷取，而所提的方法都可即時對陰影做有效的偵測與濾除。 4. 抗誤性編碼與錯誤隱蔽：

我們探討新一代的 error resilient image coding 方法，亦即將一些影像/視訊的重要資訊隱藏於原來壓縮影像/視訊資訊中。隱藏的資訊必須是無法察覺且不能大量增加影像/視訊壓縮資訊的位元率。藉著這些隱藏的資訊，可以進一步強化錯誤檢測及錯誤隱蔽的效能，使影像/視訊的品質進一步提升。為了達到抗誤性编碼，我們必須考量幾個議題：(1) 需要 embed 那些資訊？(2)執行 embed 的地方在那裡？ (3) 如何 embed？(4) 如何利用 embed 的資訊來達成 error concealment？

在本計畫中，視訊之傳輸錯誤可以在解碼中使用一些錯誤檢驗條件來偵測。對於第一張 intra-coded I frame，我們將每個 macro block 的 DC value 或 codebook index 抽取為其重要资訊，将被 embed 在同一張 I frame 的另一個 macro block 中。對於 P frame，我們将採用 rate-distortion optimized coding mode selection approach，其考慮網路的狀况：Encoder characteristic、decoder characteristic 及 encoder 所使用的 data embedding scheme。重要资訊為每個 GOB (group of blocks) 的 coding mode 及 motion vector information。每張 P frame 的重要資訊將被 embed 到下一張 P frame。我們將採用 macro block-interleaving GOB-based data embedding scheme。在 decoder，所有受損 slice 中的受損 macro blocks 被偵測到之後，我們從 embedding data 中抽取出這些受損 macro blocks 重建所需的重要資訊，再用所

(16)

提的錯誤隱蔽方法用來恢復原來的視訊。

5. 內容導向的速率調適及錯誤控制技術：

這部分我們完成了利用內容分析進行速率調適及錯誤控制之技術。我們利用壓縮視訊之移動向量(motion vectors)以及錯誤隱蔽失真(concealment error)，可以有效地預估每一個巨集區塊遺失後所產生之遺失影響性(loss impact)。根據此遺失影響性資訊，可以決定適當的位元分配及須進行抗誤性 intra-refresh 之聚集區塊數目及位置，而達到良好的速率調適及錯誤控制效果。我們也根據封包遺失所產生之loss impact，開發了一種新穎的封包重傳機制，藉著使用所提出之可適性重傳次數上限調適技術 (adaptive retry limit adaptation) ，可大幅改善視訊傳輸品質。

6. 智慧型環境網路管理介面：

我們已完成一套視訊監控管理介面。此介面包含視訊串流播放、視訊內容檢索及快速瀏覽。其中視訊內容檢索方法已獲IEEE Trans. Circuits and Systems for Video Technology接受，即將於2006年5月發表。我們將進一步整合事件偵測功能，讓使用者能迅速掌握並及時處理突發狀況。　

三、預期產業效益

分項計畫一

子項計畫 1-1 1. 在視訊監控系統中，前景物體偵測為後續處理之重要基礎元件，利用所開發之兩階段背景重建技術，可以在室內與戶外無論動態或靜態環境中提供快速及強健之低解析度與高解析度前景物體偵測結果，因為處理速度快，此方法適合在單一主機上進行兩台以上攝影機之前景物體偵測。 2. 未來在異質型攝影機之整合與空間定位方面，對於所佈建的監控攝影機網路，可以利用開發出的攝影機網路校正技術來進行攝影機參數校正，包括環場攝影機與透視投影攝影機，以提升整合監控能力，並可利用經校正之攝影機進行前景物體在不同攝影機視角下之追蹤，以保持追蹤物體資訊的一致性，並可用來開發智慧型高附加價值的攝影機監控產品。 3. 在安全監視中控室之沈浸式視訊操控方面，可應用本計畫正在開發的多攝影機間自動轉場技術來進行不同攝影機畫面間平順影像切換效果，如此得以快速並且正確地監控每個發生的事件，且可以直覺式的掌握環境的變化，迅速下達正確的反應動作。此技術除了可用於安全視訊監控環境中，亦可運用在各種運動競賽及表演中，以提供不同視角畫面間平順切換的實況轉播。 子項計畫 1-2 1. 初步完成的危險情況偵測與識別之電腦視覺系統，用在安全巡邏自動車上，達成室內環境中的動態物體之辨識、取得入侵者資訊與危險情況識別三項目的。上述技術的研究與應用，在國內的視覺監控產業界中仍屬少見，且為自動車達到機動性巡邏所必備的關鍵性功能之一。本項計畫的技術開發成果，將對保全、

(17)

監視器及看護等產業在未來安全巡邏自動車開發上有相當幫助。 2. 透過紅外線影像之自動導航的研究與應用，使得自動車可以在黑暗、無照明之環境中行進。此一夜視影像的視覺分析技術，目前在相關文獻研究中仍屬少數，而能夠達到實際應用效果的更不多見，故夜視影像分析技術的發展，將可對於安全監控產業產生巨大的效用。本年度所開發的夜視影像分析技術，主要是應用在導航與物品的安全監控上，其研究成果不僅具有學術性，同時也可廣泛的應用在各式安全監控的實務應用上，易為產業界使用。 3. 配合虛擬實境的場景，讓操作者在操作自走車時，能更清楚的掌握自走車與周圍物件的相對位置；透過各種視角的切換，讓操作的過程更加流暢；為了減少巡邏車運作中的觀測死角與增進巡邏車的靈活移動，我們在自動車上設計升降式攝影機平台機構與全方向移動平台來改善過去傳統自走車的缺點，這對目前及未來的產業界將提供另一種有效的巡邏車設計原型。

分項計畫二

子項計畫 2-1 1. 公共空間之監控為一具有龐大商機之安全監控應用，需要投入大量研發人力來發展相關核心技術。藉由人形行為分析與監控視訊檢索等核心技術的開發，可以大幅降低國內監控廠商的研發成本。 2. 第一年監控之開放空間主要為銀行、超商及飯店大廳等目前較有安全疑慮之開放性空間。由於公共開放空間中進出人員眾多，為達到即時監控的目的，有必要先發展低階快速的分析監控技術，以簡單有效的方法先針對開放空間進行全面性的大略監控，一旦發現有異常之人物或事件時，再根據特定之對象進行較複雜的監控分析。 3. 監控視訊為固定式攝影機，因此背景固定，需先建立背景影像，並進行移動偵測，以有效降低視訊儲存量。根據壓縮之儲存視訊，分析其內之背景影像、移動視訊等之顏色、紋理、形狀分佈特性，加上時間與放置地點等固定資訊，將其儲存起來。 4. 為符合 MPEG-7 格式以加強本計畫之系統彈性與擴充性，需定義適合監控用途之文件型態定義檔(DTD)檔案以利儲存所有資訊。 子項計畫 2-2 1. 在“入侵物形體分析”上，所建立之人類形體模型可應用於一般影像監控系統，以增加其智慧功能，並協助保全人員於必要時進行適當處理。一般影像監控系統只針對所監控的環境進行錄影並儲存，並於事後調閱影帶以瞭解事件發生當時之狀況。這樣的方式並無法防範事件於未然，並且要耗費人力做必要之搜尋。在加入“入侵物形體分析”之技術後，便可大幅提升監控系統之保全功能及其效率。例如，一般社區於夜間較少有人員進出，影像監控系統之入侵物形體分析功能便可偵測人員的進出，並發出警告訊息提醒保全人員注意。如此ㄧ來，監控系統便可協助保全人員同時監控社區重要之進出口人員出入狀況，並於異狀發生時做適當之處置。

(18)

2. 在“人類之偵測”上，所建立之人體膚色偵測技術可提供人臉可鑑別率係數，並應用於 ATM 自動提款機上，以作為是否發款給提款人的一個依據，即假如提款人的人臉可鑑別率低於一定的數值，本系統就會認為此人的人臉可鑑別率過低，而不會發款給提款人。傳統的 ATM 自動提款機，其監視攝影機只有錄影的功能，並不能防止歹徒蒙蔽顏面後利用自動提款機作案；此系統較傳統的監視系統多了智慧型的判斷，以降低歹徒蒙蔽顏面作案的機率。此外，本系統也可架設於銀行或各公共場所出入口，以便在有可疑人物進出時，能在第一時間提出警告。 3. 在“入侵物移動路徑分析”上，研究的成果可實現於嵌入式系統上，可整合並裝置於可動式攝影機當中，以增強該攝影機的功能。例如一般社區大樓保全監控系統，就可裝設這樣的可動式攝影機針對某ㄧ區域範圍進行監控。攝影機可針對社區大樓內外所有人員移動的事件進行紀錄，同時也儲存於系統中方便保全人員逐一檢閱所有的人員移動事件。保全人員不需同時監看所有的監視畫面就能隨時掌握社區大樓的動態，並於必要時前往現場處理，如此便能大幅提升其執行效率。目前已與相關廠商聯繫洽談將該研究成果進行技術移轉的可行性。 4. 關於“人臉 3D 模型之建構與辨識”與“語者辨識”兩個研究成果，可以應用於人員身分確認模組上，並裝設於一般居家的大門口作為門禁系統，住戶成員於外出時可以不必攜帶笨重的鑰匙，回家時經由此確認模組確認身分就可進門。這兩項技術也可以做結合，進行身分雙重確認，例如身分確認模組可先取得使用者的人臉影像進行辨識，當辨識的結果確實為居家成員後，再以 3D 人臉辨識進行更進一步的確認，如果辨識的結果ㄧ致，就可開啟大門讓使用進入。目前子項 2-2 計畫已與新光保全洽談技術移轉合作案，將本子計畫所研發之技術應用於保全系統。

分項計畫三

子項計畫 3-1 1. 手勢人機介面技術產品化：手勢人機介面在實際的運用十分的廣泛，除了用於居家看護系統之外，在一般的家庭使用以及遊戲產業也有很大的發展空間，直覺的運用例如使用於電腦的輸入介面，如控制電腦指標的移動，可作為遠距控制電腦的輸入介面。屆時，人們將可擺脫固定於桌面前的控制方式，轉而使用較為自然的輸入方式，給予老年人或不善於學習電腦的人一個更為直覺的操作方式。 2. 指示手勢之追蹤／辨識：即時指示手勢追蹤辨識技術藉由即時計算定位空間平面位置，可與居家、照護環境達到互動之功能或發展手勢簡報系統。 (1) 智慧型居家環境的界面:以指示手勢操控冷氣及電視開關，再利用手勢辨識做細部功能遙控。 (2) 互動居家照護環境的界面:允許行動不便的人可以操控周邊電器或病床。 (3) 手勢簡報系統：應用即時指示手勢追蹤辨識技術可定位出簡報中所指的位置，同時在結合手勢辨識技術可操控簡報之各項功能，如切換上下頁、連結動作等。 (4) 預期產業應用範圍： ①智慧型人機界面系統 ②虛擬實境產業

(19)

③居家照顧產業 3. 臉部表情辨識：若臉部表情辨識的系統能夠順利的做出，用於居家看護系統上，將可以隨時的判別病人的表情，進而了解病人目前身體的狀況，當痛苦、害怕、作噁等表情出現時，可以即時的將訊息傳給醫護人員，在第一時間即時做治療，避免病情的惡化甚至死亡。以相同的方法也可以做出人臉辨識的系統，這樣的系統將能使用在居家監視系統之中，若有非家庭成員的陌生臉孔入侵時，發出警告，可以有效的阻止宵小的入侵。 4. 加護病患的人眼追蹤、判斷與偵測：藉由此方法，即使行動不方便的病患都可藉由眼睛的眨動向電腦下簡單的指令，並可增加病患表達對日常生活需求的能力以及和醫院護理人員之間的溝通。再者藉由簡單眨眼動作對電腦所下的指令，行動不便者可以達到和外界溝通的能力甚至透過網路瀏覽所需的訊息。如此可將對行動不便者生活的影響減至最低。並可滿足對自我掌握能力的渴望以及提升行動不便者的自我肯定。 5. 傳輸平台硬體的佈建與各分項系統整合：目前之監控系統幾乎都有、影音檔壓縮控制模組、串流伺服器模組、串流客戶端模組、多媒體播放等功能。市場上也有很多晶片提供影音檔壓縮控制模組、像是 TI、Analog device、Equator 等 DSP 以及 Mediatek、D2GL 等 ASIC。做成系統的也有好幾家、像是奇偶、圓剛以及 Ateme 等外國公司。配合影像辨認的智慧型系統也陸續出現、像是在 New York 的 Activeye。所以我們設計的傳輸平台跟視覺處理系統的整合提供下一代的智慧型監控系統。 子項計畫 3-2 1. 在壓縮視訊快速的搜尋方面，我們發展的系統可以快速的找到一些特定的事件，這比傳統用人工去回頭尋找快速很多，這個系統的核心技術可以技轉給許多警政單位。 2. 所發展的三角化行為分析技術，可有效地分析視訊中所出現的異常行為事件，可應用於多項領域如超商、銀行、ATM 管理、辦公室進出管理、社區進出監控、老人看護系統、互動式娛樂、機場安全維護等。 3. 在即時事件偵測方面，我們的方法可以用在即時保全監控。以往監控大多由人在 control center 為主，有了我們發展的核心技術，吾人可以幫助保全人員一次監控上百甚至上千個監控點，一有可疑人事，系統馬上會通知監控中心。 4. 目前的視訊抗誤及錯誤隱藏技術為網路視訊減少錯誤傳輸之利器，本技術可以技轉相關 Coding 公司，使視訊傳輸品質更上一層樓。計畫變更說明：（300 字以內說明） 1. 原兼任研究助理畢業離職，因此需新聘兼任研究助理替代。 2. 專任研究助理因故於 1 月方到職為使研究計畫順利進行，另聘 2 位研究助理從事傳輸平台建構。 3. 增聘兼任研究助理協助中控室系統整合以及實驗室環境建置管理。落後原因：

(20)

因應對策（檢討與建議）：

吾人從事「人類行為分析」相關研發議題最大的困難處在於許多大公司基於商業機密，只會發表產品，不會釋出核心技術。這樣的競爭態勢增加本計畫自行研發及突破障礙的決心。

(21)

目錄

一、學界科專計畫執行情形表 ... 1

二、學界科專國際技術指標分析表... 1

三、學界科專計畫變更情形表... 1

四、本年度重要成果統計表... 1

五、學界科專期刊、討論會論文一覽表... 1

六、合作計畫執行情形表... 1

七、專利權統計表 ... 1

八、衍生委託計畫一覽表 ... 1

九、可移轉產業技術一覽表 ... 1

十、本年度成果運用執行報告表 ... 1

十一、以前年度成果運用執行報告表 ... 1

十二、學界科專培育人才情形一覽表 ... 1

十三、人力運用情形表 ... 1

十四、計畫執行經費運用情形表 ... 1

十五、歲入統計表 ... 1

十六、聘用外籍人士工作情形一覽表 ... 1

十七、國外及大陸地區出差一覽表 ... 1

十八、產業與計畫一年重要大事紀要 ... 1

十九、執行現況座談會議意見回覆表 ... 1

二十、檢討分析及結論 ... 1

二十一、其他附件

(22)

學界科專計畫執行情形表

計畫名稱：以視覺為基礎之智慧型環境的建構四年計畫資料期間（9 4 年 5 月 1 日至 9 5 年 4 月 3 0 日）分項計畫計畫目標（請依計畫書內容填寫）計畫實際執行內容 (以實際達成狀況具體詳細填寫,屬計畫查核點並請以 * 表示) 是否符合原計畫內容及預定進度落後原因/ 改善措施預定趕上進度時間子項計畫 1-1：整合式區域進出管制系統 (續) 計畫目標一：多攝影機組間的校正與 3D 定位 可估測多攝影機間的相對位置，並對監控目標進行 3D 定位。 ✽計畫目標二：多攝影機組監控環境 之三維模型建立 可重建監控環境三維模型。 ✽計畫目標三：監控環境三維模型與視訊之互動式整合顯示可以自動尋找多機鏡頭畫面下同一監在計畫第一年度中我們發展了環場攝影機的內在參數校正，及攝影機組外在參數校正的理論推導與模擬實驗。為了進行多環場攝影機組間的校正與精確 3D 定位，在第二年度上半年中我們改善了環場攝影機的校正法，使其可以兼顧準確性以及一般性，並且我們也完成了攝影機組外在參數校正的程式開發及實體實驗。在下半年度中我們繼續改善環場攝影機的準確性，將原來使用的 Thin-Plate Splines 對位法替換成有 compact support 性質的 Wendland 對位法。透過 Wendland 對位法我們可以更精確地連結一般化成像模型與觀視球模型，以估測更精準的環場攝影機內在參數。此外我們也完成模擬實驗及實體實驗，來驗證所提出環場攝影機校正法的準確性。在計畫第二年度前半年中，我們主要在研究如何使用 Thin-Plate Spline 來建立影像與三維場景模型的對應關係。在透過影像對應點及攝影機間的相對方位計算出選定的三維座標點之後，將計算出來的座標點映射到一球面上以計算 Thin-Plate Spline 的係數，如此便能產生場景之三維表面模型，並進行場景之紋理貼圖。在後半年度，我們持續改善 Thin-Plate Spline，以提升三維表面模型的精確度，也嘗試著利用 Wendland 的作法來取代 Thin-Plate Spline，利用 Wendland function 的 compact support 特性，來更精準的重建場景之三維模型。在上半年度的計畫中，我們使用圓柱體及橢球等三維模型來模擬人物，並且將轉場前景影像經過動態模糊而呈現出來。但由於圓柱體或是橢球會使前景人物扭曲變形，並且加大前景影像與背景影像的邊界差異，因此使得虛擬前景的效果不如預期。為了改善這種情形，我們改用一個人型板來模擬前景人物，並且使用有前景的影像與沒有前景的影像差值，作為擷取出來的前景影像的不透明值（alpha 值）；也就是當有人物出現的時候，前景影像和 ●是 ○否 ●是 ○否 ●是 ○否表一

(23)

子項計畫 1-1：整合式區域進出管制系統控物的影像形變對應點，並且自行產生不同鏡頭畫面間的平順影像切換。 ✽計畫目標：夾帶 尾隨人員偵測系統 輔助門禁系統，判斷是否可能有夾帶或尾隨人員進入，並將偵測結果對中控室發出訊號。背景影像的差值會越大，前景影像會越不透明。從實驗結果來看，使用兩張影像的差值作為不透明值（alpha 值）的參考值，其效果比原本的圓柱體或是橢球好；若再將不透明遮罩（alpha mask）作些微的形態學處理後，可除去不必要的雜訊，使得轉場的效果更逼真。在上半年中我們發展了兩階層背景重建與前景偵測技術，利用此一技術偵測出的前景資訊，我們可於單一攝影機進行尾隨人員夾帶的偵測，但是由於攝影機視角的關係，使得在某些狀態下造成偵測上的困難，諸如尾隨者可能因人員相互重疊遮蔽或被背景物體遮蔽而難以偵測，因此，為有效克服攝影機視角的問題，我們將尾隨人員偵測技術由單一攝影機延伸至利用兩台攝影機間的相互輔助，這兩台攝影機分別以正面與側面的角度對拍攝環境進行取像，藉由這種兩台攝影機間相互輔助的架構，確實可使偵測的結果更加地穩健，並能有效避免單一攝影機因視角的關係所造成的遮蔽問題。 ●是 ○否

(24)

子項計畫 1-2: 安全巡邏自動車系統 (續) ✽計畫目標一：入侵與危險情況偵測與識別系統對動態物體、入侵者及一些特定的危險狀況能辨識與追蹤。 1. 可應付在不同環境下的動態物體辨識技術： (1) 利用前後影像差異(Frame Difference)來偵測移動物體。將影像切割成單位大小，每單位大小和前一張影像的相對位置做模糊比對，藉此得到兩張影像中物體變化的資訊。因為利用模糊比對，所以行走中的自動車所拍到的前後兩張影像，些微的差異將會被忽略，只抽取到有大幅變動的區域，將有大幅變動的區域視為動態物體。 (2) 抽取到動態物體的位置後，藉由形狀和大小的特徵和已內建的人的特徵做比對，根據所得的相似程度可以判斷其是否為人類，確定為人類後偵測並擷取其服裝資訊。 (3) 經由學習介面，使用者可事前建立巡邏人員的服裝顏色特徵，在擷取到入侵者的服裝特徵後可以和其做比對，以確認是否為入侵者或是巡邏人員。 2. 可取得入侵者資訊的自動導航技術： (1) 在確定有入侵者的狀態下，擷取入侵者的服裝資訊並利用拍攝的影像取得入侵者的身高資訊。記錄目前自動車的巡邏位置，利用服裝的顏色特徵預測入侵者的移動方向，計算入侵者在真實世界中和自動車的相對位置，進行跟監行動。 (2) 在跟監過程中，根據入侵者在影像中的大小估算入侵者的距離，當足夠接近入侵者時，取得入侵者的臉部或背影清晰影像；在取得入侵者資訊後，自動車回歸到原本的巡邏位置並繼續其巡邏路線。 3. 可進行不同危險情況的偵測： (1) 事先定義不同危險情況的特徵及狀態：火災會在影像上形成高亮度、 ●是 ○否

(25)

子項計畫 1-2: 安全巡邏自動車系統 (續) ✽計畫目標二：基於紅外線影像之場景認知與自動導航技術標記物即時搜尋與導航應用之技術。高飽和度的狀況，同時影像會充滿許多紅色、黃色飽滿的元素；停電會在連續影像上造成亮度的瞬間降低。 (2) 巡邏時會遭遇某些預料外的危險狀況，所以必須隨時觀察擷取到的影像，根據影像特徵判斷是否有出現危害到巡邏或保全的狀況，包括火災、停電。觀察影像中是否存在紅色、黃色的元素，這部分區塊同時有高亮度、高飽和度且區塊量夠多，則有火災危險。 (3) 觀察連續影像是否有前後亮度瞬間降低，同時亮度持續比原本情況低的時候，則為停電狀況。 (4) 不同的危險狀況會有不同的特徵表現，分析這些特徵並訂定適當的偵測標準，使正確率提高，誤判率下降。目前針對火災妨害與停電狀況作處理。 1. 紅外線攝影機測溫參數設定之技術： 應用中紅外線攝影機，對所欲監控檢測的物體，開發溫度量測技術，以判定是否有異常狀況。針對不同的應用環境中，我們研究紅外線攝影機之測溫原理、參數設定與攝影機控制介面的開發，以達到攝影機即時調控與準確溫度量測的目的；其中包含了不同材質目標物的輻射率設定、環境溫度濕度設定、溫度與影像強度之轉換對照表，以及發展紅外線測溫程式介面等技術的開發與測試，並可基於某一溫度之環境特徵作設定，檢測此一溫度特徵是否存在於影像資料之中，以作為異常狀況判定的依據。此一研究成果，已可應用於各式人物之即時溫度檢測中。 2. 紅外線標記物之分析與裝設： 對實驗場景進行拍攝，建構與紀錄場景資訊，其中包括標記物材質．形狀的選取，標記物在場景中的座標佈設，以及建立實驗場景的特性資訊作為自動車導航之用。我們分析了近紅外線 LED 燈、通電的電阻、電線以及不 ●是 ○否

(26)

子項計畫 1-2: 安全巡邏自動車系統 (續) ✽計畫目標三：自動車之路徑規劃與 控制技術 高效率的路徑規劃演算法與自動車硬體機構的強健控制技術。同材質物體的影像，對於輔助自動車導航的可行性，其中以近紅外線 LED 燈與電阻的裝設，符合自動車巡邏的應用；在保全標記物的分析上，我們研究夜間保全物品的打光裝設，分析將近紅外線燈架設架設於自動車上之夜視取像效果，以取得穩定可靠的保全標記物影像資訊，作為夜間物品保全的基礎。而後，透過所建立之環境資訊即時取得紅外線影像，對影像進行比對分析．和已知的場景環境資訊做比對，即可取得自動車所在位置．朝向等資訊。 3. 場景標記物即時搜尋與導航應用之技術： 發展基於紅外線影像之自動導航技術，開發近紅外線攝影與自動車控制的整合技術，研究自動車如何可在黑暗／無照明環境中行進／應用所建構的場景資訊，即時將所拍攝的紅外線影像，與場景的影像資訊做對應，以定出目前自動車所在位置，提供可能的自走車修正資訊與路徑，並使得自動車能夠進行夜間巡邏與物品保全的工作；並且探討自動車在夜間不同光源條件下，對於保全物品的搜尋辨識之效果，以發展多面向保全物品偵測技術。此一技術的研發，目前已有具體成果，可進行實地展示。 1. 環境模型與地圖的建立，包括對已知與未知的環境： 在虛擬實境的場景中，加上手臂的結構，配合使用者的鍵盤操作來移動機械手臂，藉著視角的切換，使得使用者可以從所希望的任何角度來觀察，能更清楚的偵查物件，且方便操作；未來更可搭配實體攝影機的應用，直接獲得真實影像的照片，對未知的物件能更全面的掌握。 2. 虛擬環境中避障與最佳巡航路徑規劃： 依照實際的環境改善了虛擬的場景，使操作者在使用時更有身歷其境的感覺；更應用了一種智慧型的選取方法，直接利用游標在虛擬實境裡點選目的地，透過路徑規劃法則，讓自走車產生障礙避免，以及最佳路徑，接著讓 ●是 ○否

(27)

子項計畫 1-2: 安全巡邏自動車系統自走車自行追蹤路徑到達目的地，讓操作者的操作更加流暢。 3. 自動車機構的設計與製作： 在昇降平台部份，根據攝影機實際需求與第一代升降機構的缺點，進行第二代升降機構的設計並開始製作。對於需改變觀測方向的攝影機本身有轉角機構，所以升降機構只具有垂直升降的能力，以減少活動關節所產生的晃動，並且對於新的攝影機觀測條件的降低，設計並開始製作更堅固與穩定的第二代升降機構。在移動平台部份，根據過去製作小型平台所獲得的結果，並考慮未來巡邏車整體的大小高低，設計與製作出實際大小的全向式移動平台機構，以利未來各項測試使用。

(28)

子項計畫 2-1：公共開放空間安全監控系統 (續) 計畫目標一：監控環境之設置與改進推演多台攝影機的定位和對應關係，增進追蹤和事件觸發的預測和準確性，再配合物件層級的行為分析技術，達成更有效率的監控工作。 ✽ 計畫目標二：影像儲存壓縮技術之改進發展重點物件規劃出畫面中之重點關心區域，並給予較高解析度之壓縮品質。 1. 多台攝影機動態自我校正： (1) 研發完成多台 PTZ 攝影機自動定位的方法，利用少量之影像資訊，即可自動建立各台 PTZ 攝影機間的相對位置和角度關係。 (2) 與常用來校正定位的方法做分析比較，此研發之方法較為穩定，尤以不需特別的校正系統和校正器具為一大優勢。 (3) 進行動態定位分析，分析攝影機姿態改變時，影像內容的變化，進而由影像反推攝影機的傾斜角和左右轉動角的變化量。 2. 物件層級之動態分析技術： (1) 完成運動切割技術，可從動態影像中擷取運動中之物體，並大略擷取出物體之外形。 (2) 可允許攝影機處於動態拍攝狀態，不需要背景為靜止狀態。 1. 影像內容導向之壓縮技術： (1) 進行視訊內容雜訊分析。 (2) 區塊變動偵測及內容變動判斷。 (3) 提高儲存壓縮率（採 MPGE-4 視訊壓縮標準），只儲存影像中內容變動的部分，背景則沿用前一張影像的背景部分。 (4) 並適當調整壓縮標準中的量化參數值（QP)。 ●是 ○否 ●是 ○否

以視覺為基礎之智慧型環境的建構四年計畫(II)

經濟部學界開發產業技術計畫年度執行報告

以視覺為基礎之智慧型環境的建構四年計畫

（第二年度）

全 程 計 畫：自 93 年 5 月至 97 年 4 月止

本 年 度 計 畫：自 94 年 5 月至 95 年 4 月止

國立交通大學

中 華 民 國 九十五 年 五 月

經濟部學界開發產業技術計畫年度執行報告摘要表

一、 計畫內容概要

分項計畫一 以視覺為基礎之區域進出管制與安全巡邏系統

分項計畫二 以視覺為基礎之空間監控與入侵者偵測

分項計畫三 以視覺為基礎之行為分析於看護服務之應用

二、 計畫執行成果

分項計畫一

分項計畫二

分項計畫三

三、 預期產業效益

分項計畫一

分項計畫二

分項計畫三

目 錄

一、學界科專計畫執行情形表 ... 1

二、學界科專國際技術指標分析表... 1

三、學界科專計畫變更情形表... 1

四、本年度重要成果統計表... 1

五、學界科專期刊、討論會論文一覽表... 1

六、合作計畫執行情形表... 1

七、專利權統計表 ... 1

八、衍生委託計畫一覽表 ... 1

九、可移轉產業技術一覽表 ... 1

十、本年度成果運用執行報告表 ... 1

十一、以前年度成果運用執行報告表 ... 1

十二、學界科專培育人才情形一覽表 ... 1

十三、人力運用情形表 ... 1

十四、計畫執行經費運用情形表 ... 1

十五、歲入統計表 ... 1

十六、聘用外籍人士工作情形一覽表 ... 1

十七、國外及大陸地區出差一覽表 ... 1

十八、產業與計畫一年重要大事紀要 ... 1

十九、執行現況座談會議意見回覆表 ... 1

二十、檢討分析及結論 ... 1

二十一、其他附件

學界科專計畫執行情形表

全程計畫：自 93 年 5 月至 97 年 4 月止

本年度計畫：自 94 年 5 月至 95 年 4 月止

中華民國九十五年五月

一、計畫內容概要

分項計畫一以視覺為基礎之區域進出管制與安全巡邏系統

分項計畫二以視覺為基礎之空間監控與入侵者偵測

分項計畫三以視覺為基礎之行為分析於看護服務之應用

二、計畫執行成果

三、預期產業效益

目錄