語者辨識： - 學界科專計畫執行情形表 - 以視覺為基礎之智慧型環境的建構四年計畫(II)

學界科專計畫執行情形表

2. 語者辨識：

限制性空間入侵者偵測系統

(續)

✽計畫目標二：入 侵者 3 D 模型與語 音分析之研究 建構以類神經網路為基礎的適應性整合式反射模型並應用在三維立體重建與人臉偵測系統。

結合獨立成份分析法(ICA)，建立新的語者特徵參數粹取方法，以提高語者辨識的正確率。

(3) 可動式攝影機根據人臉的偵測結果，將該人員的影像保持在監控畫面中央，同時放大該影像並進行紀錄，特別是人臉的影像。

(4) 紀錄的結果可以通知保全人員或是家庭成員進行確認與辨識，將來也可以進一步作為人臉辨識之用。

1. 人臉 3D 模型之建構與辨識：

(1) 完成一個以類神經網路為基礎的適應性整合式反射模型及其在三維立體重建之應用。

(2) 整合光學成像上的散射與反射成分，以個別考慮物體表面上每一點的成像特性，並且針對表面不同反射率的問題加以處理。

(3) 將二維影像輸入到多層級的類神經網路，重建出物體的立體形狀。

(4) 本方法具有以下優點： (a)經由類神經網路的學習能力，改進過去必須事先知道光源位置的缺點。(b)考慮物體表面上各點不同的反射特性，

而不是將每一點的特性都視為一樣。 (c)處理表面不同反射率的問題，

避免重建時造成失真。(d)可應用在較多的物件上而且可以得到較佳的重建結果。

2. 語者辨識：

(1) 本技術結合獨立成分分析（Independent Component Analysis, ICA）與頻譜軌跡向量移動（vector filtering of spectral trajectories），使成為新的語者特徵粹取（Feature Extracting）方法與技術，稱為基於獨立成分分析之時頻域頻譜特徵粹取（Time-Frequency Independent Component Feature Extraction, 簡稱 TFIC），以強調各語者間在特徵上的差異。

(2) 麥克風擷取類比式語者語音訊號並經過數位化之轉換，再由梅爾倒頻

●是 ○否

子項計畫 2-2：

限制性空間入侵者偵測系統

譜參數（Mel-Frequency Cepstrum Coefficients, MFCCs）來粹取上述語者特有的特徵資訊。

(3) 經過 TFIC 特徵轉換可得新的特徵向量序列。

(4) 本系統之語者語音模型，分為訓練階段（Training stage）與測試階段

（Test stage）二個階段。訓練階段根據 TFIC 特徵建立完成。測試階段以國語語音資料庫 MAT2000 進行測試，語者辨識正確率可達 98.4%。

子項計畫位置，並以 haar classifier 辨識臉部位置使其與手部的資訊分離，藉由整合兩者，我們可以有效的追蹤手部位置，並以所得之資訊進行手勢辨識。而在手勢辨識上，我們目前採用了 SVM 來進行建立手勢模型以及辨識的工作，主要採用的資訊包含了手勢在 X、Y 方向上的投影，以及邊緣的特徵，

在手型取得良好的情況下，有著良好的辨識率。

即時指示手勢追蹤辨識技術首先利用雙相機做即時指示手勢之追蹤 (particle filter)，此指示手勢之追蹤是不需要背景資訊，如此可克服背景變動之影響。接著應用影像處理技術將雙相機所追蹤到之指示手勢平面指示線計的特徵，利用 Adaboost 來降低維度，提升整個系統的速度，期望達到 real time 的效果，而最後的臉部表情判斷則是使用 relevance vector machine(RVM)來執行。基本的系統正在持續進行中，如果順利，則可再增加不同角度下的辨識，使整個系統更加的完善。在臉部表情識別的部分，我們的目標是要開發

●是 ○否

子項計畫 Streaming System 中，來達到最好的頻寬分配和流量平

一個即時的人臉辨識系統，並加入不同角度的人臉判斷。主要分成三個部分，第一，對一開始的影像做人臉的偵測與角度的判斷，這部分主要是利用了 multi-class Adaboost 這個演算法，在事先建立的一大群 Gabor fature 中找出主要的特徵點，利用這些特徵點去判斷所掃描到的區域為何種角度的臉或是非臉。第二，臉部追蹤，一旦我們順利的抓取到人臉的時候，隨著被觀察者的移動，我們必須不停的追蹤出臉部的位置，才能進而進行最後一個部分，也就是臉部表情的識別。因為我們一開始定義的角度有五種，分別是-90

∘、-45∘、0∘、45∘、90∘，但是其實在 ±90∘的時候，已經很難去判斷表情了，因此我們只在 -45∘~ 45∘時才考慮表情的變化。這裡我們一樣使用 Adaboost 的演算法去尋找特徵點，但是在分類的時候會使用目前發展良好的幾種分類器，像是 SVM、RVM…，去做分類，從其中挑選出最快速且準確的一種來使用。將三個部分整合在一起，即可作出我們最後所想要的系統了。

為了偵測出人的眼睛首先我們先偵測影像人臉的部分。藉由取得膚色的分布的區域範圍，做為第一階段人臉的區域，在這邊所採用的數值是 HIS 中的 H 值以減少光度的影響。膚色判定後，我們利用 Support Vector Machine (SVM)的技術精確的偵測出人的眼睛。之後我們提出利用移動向量偵測的技術來追蹤人的眼睛。接著我們使用 dynamic programming 的方式達到眼睛眨動指令的比對，閉眼代表(0)，開眼代表(1)。目前我們所使用的 code 分別有 Client 端接收 Buffer 之變動情形及處理流程、Client 端各 Thread 間的互動關係、Server 端多使用者下 Packet 傳輸之運作情形、Server 端各 Thread 間的互動關係。

●是 ○否

子項計畫 3-1：

互動式看護服務系統

順化。

(2) 完成 stored video 及 real-time video 視訊傳輸時平穩控制(smoothness control)之機制，使每次傳送的所有封包的總位元量能接近固定，並且保持最小的變化。

(3) 探討 Client 端各 Thread 間時間上的互動關係以及在加掛影像處理時如何讓 Client 端各 Thread 保持優先順序

(4) 實際在有線及無線網路上測試此一視訊傳輸平台。測試封包延遲，延遲時間之變動率，多使用者下之頻寬使用率及網路壅塞程度。

(5) 完成以 MPEG-4 作為解壓縮平台之同步影音傳輸。

子項計畫 3-2：

具行為分析能力之看護監控系統

(續)

✽ 計畫目標一：受 照護者行為的分析

（I）

自動擷取姿態並以星狀骨骼和外包矩形比例描述各種身體姿態。下半年用圓極座標對身體姿態做精細描述。

✽ 計畫目標二：被 照護者以外運動物 體之濾除（下半年

）

利用 motion flow 概念，將受照護者以外運動物體濾除。

在文檔中以視覺為基礎之智慧型環境的建構四年計畫(II) (頁 33-38)