家用機器人語音及人臉辨識系統 - 家用機器人之智慧型互動系統研發

4.1 家用機器人之智慧型互動系統研發

4.1.4 家用機器人語音及人臉辨識系統

在家用機器人與家庭成員之互動系統設計方面，我們的目標是整合家庭成員辨識系統及語音辨識系統，以提高家用機器人與人的互動性及使家用機器人能提供使用者更多的幫助。目前已有許多機器人配有語音辨識系統，本計畫需求的是一能獨立運算的語音辨識平台，因此我們採用了德州儀器公司生產之 TMSVC5402 DSKBoard 來作為整體系統的核心，並利用 RS232 串傳輸介面將語音辨識結果回傳給主控電腦。這樣的設計模式一大優點是大幅減少主控電腦的負擔，主控電腦只要負責接收運算處理完成的結果，並對於接收到的結果作出適合的判斷和發出控制命令。如此一來資源可以分配運用到更適合的地方，以正確的控制家用機器人的各個反應動作。在系統整體辨識率的表現上，中文平均辨識成功率可達 90%左右，英文則可以到達 94%左右。辨識時間在 8 組的字彙量實驗設定下，維持平均所需辨識時間 0.76 秒左右，如表二及表三所示。目前已在家用機器人本體上完成運動控制的實驗測試，可以用符合一般說話方式對家用機器人發出運動控制的命令，讓家用機器人在使用者的指導下，作特定路徑的移動。

表二運動控制命令設計

後退 Robot

前進

98%

78%

100%

右轉 88%

左轉 96%

停止 76%

加速 100%

減速 78%

平均 89.25%

控制命令辨識成功率

測試控制命令平均辨識時間

8組 0.7625秒

表三語音辨識成功率及時間分析

除了用語音之外，為了使家用機器能夠對不同的家庭成員提供適當的服務與互動，使家用機器人能更人性化，我們發展一種家庭成員的辨識方法，使家用機器人能夠辨識不同的家庭成員。人臉辨識屬於主動式辨識方法，不需高解析度的攝影機或近距離拍攝，只需要家庭成員距離攝影機某一範圍內就可進行辨識，再配合家用機器人的運動控制，家用機器人將可以主動的去進行人臉的搜尋與辨識，不需家庭成員自己走到機器人面前等待進行辨識。要完成家庭成員辨識系統，除了要能夠辨別出不同的家庭成員之外，在進行辨識之前，我們還需要能夠從影像中找出人臉在影像位置及大小。圖二十二顯示家庭成員辨識系統及互動的主要架構。其主要分為三部分：(1)人臉偵測、(2)人臉辨識、(3)人臉追蹤。本系統主要藉由家用機器人上之 Web Camera 作為影像輸入設備，將其擷取到的影像傳到機器人上的主電腦進行人臉搜尋、臉部調整及人臉辨識。使用者可藉由網路要求機器人對特定家庭成員進行搜尋，並且整合人臉追蹤系統，使其能對搜尋到的目標進行持續的追蹤，以等待使用者的下一步要求，例如，與特定家庭成員進行視訊交談。

在家用機器人進行人臉辨識之前，我們必須求得經由 Web Camera 所擷取到的影像中的人臉位置與大小，所以我們需在影像中對人臉進行搜尋。在人臉搜尋方法，一般常利用人臉的某些特徵進行人臉的判別。其中膚色是利用於識別人臉的主要特徵之一。我們經由 Web Camera 所得到的影像資料為紅、綠、藍(RGB) 三原色，RGB 三原色的色彩形成與光的照度、物體表面、攝影機的特性都有關。

RGB 三原色所構成的色彩空間(color space)很容易受到光線的影響，會隨光線的變化有很大的變動，所以 RGB 三色並不適合直接使用於膚色區域分割，必須要做色彩空間的轉換以減少 RGB 三原色對光之靈敏度。我們使用 Normalized RGB 的色彩空間作膚色區域分割，因為 Normalized RGB 的轉換只需簡單的數學運算就可達成，且能夠降低光的照度對影像影響。

K-L轉換

On-line調整 EigenSpace 特徵空間取得

維度化減 (空間轉換)

訓練RBF參數

利用RBF作辨識訓練

辨識

Face Tracking

Face Detection

Feature Detection

Face Rotate 人臉擷取及調整

使用者

圖二十二家庭成員辨識系統及機器人與人互動系統架構圖

圖二十三膚色分割及橢圓形搜尋結果

單用膚色作為人臉判別，容易受到其它與膚色相似的物體的影響而產生誤判，因此，除了膚色之外，我們亦使用另一人臉的特徵—輪廓。由於人臉的輪廓近似於橢圓形，且其橢圓形之長短軸半徑比約為 1.2:1。在輪廓判別部份，我們利用 Sobel 的方法對灰階影像作邊緣偵測，再以邊緣偵測的結果作楕圓形的輪廓搜尋。最後整合膚色分割與輪廓判別的結果，找出臉部位置。

在人臉搜尋系統中，我們整合膚色分割及橢圓搜尋方法，但在實際的實作過程中，我們發現在 320×240 大小的影像中執行橢圓形搜尋相當的浪費時間。為了加速人臉搜尋速度，以提供家用機器人一個即時人臉搜尋系統，所以在進行橢圓形搜尋之前，利用膚色分割後的資料，求其在 X 軸及 Y 軸上的投影量，以判斷出可以人臉的區塊，減少橢圓形搜尋的範圍。藉由膚色在 X 軸及 Y 軸上的投影量，我們分別設定一個門檻值，找出有可能的人臉範圍，最後在利用橢圓形搜尋得到圖二十三的結果，黑線所框出來的區域為可能人臉區塊，白線框出的為橢圓形搜尋後的結果。

橢圓形搜尋結果膚色區域搜

尋結果

(a)原影像

(b) 經照度補償後

圖二十四臉部影像照度補償

為了要達到提高辨識率的目標，除了有強健的辨識演算法之外，還需要有一適當的人臉影像的前置處理機制，以減少輸入影像資料間的差異性(諸如：不同照度下、臉部影像大小不同、臉部的旋轉角度不同及表情不同等情況)。在人臉影像的前置處理方面，我們將輸入的影像經過正規化的調整，以得到標準的影像形式。希望藉由減少輸入影像之間的差異性，提高辨識率。本計畫提出的人臉影像正規化處理過程包括：

(1) 特徵(眼睛)的擷取 (2) 臉部的調整 (3) 臉部照度補償

圖二十四為利用多張未經照度補償的臉部影像，經過為經照度補償後的結果。由 其結果可看出確實改善了光照度的問題。

人臉辨識系統主要的目的是為了應用在家用機器人上，所以系統的即時性對我們來說非常的重要。我們希望儘可能的減少辨識時所需花費的時間。在此，我們使用主要元素分析法(Principal Component Analysis，PCA)的特徵臉演算法 (Eigenfaces approach)對臉部影像作維度的化減，再利用 Radial Basis Function Neural Network 作最後的辨識。特徵臉演算法是利用主要元素分析法透過 K-L 轉換來達成影像上統計資訊的維度化減的方法，其可將輸入訊號的高維度資訊中所有的相關性消去，以化減資料的維度。在演算法的運算過程中，將二維矩陣的資訊，以一維的向量方式來表示，並且從輸入的所有影像中萃取出臉部特徵空間，臉部特徵空間的維度比原空間維度小，將輸入影像投影到臉部特徵空間，可以得到較少的維度的資訊，以達到減少維度的目的。在辨識方法，因為 Radial Basis Function 的類神網路具有快速學習的好處，相當適合於即時(Real-Time)系統。在此，我們利用 Radial Basis Function 作人臉的訓練及辨識，並且利用 Normal Equation 方法來求得 RBF 的權重值。再利用最小均方誤差(Least Mean Square Error，LMSE)作參數細部的調整，以求得最佳的 RBF 參數。

本計畫目前已完成藉由 Web Camera 抓取影像進行人臉搜尋、臉部調整及人臉辨識。採用實驗室中 4 位成員的臉部影像進行人臉辨識測試，每位成員取 10

張影像，且 4 位成員中取其中 3 位建立資料庫，另一位則用來測試非資料庫成員時的情況。表四為 3 位成員各取 8 張用以建立人臉資料庫。取出資料庫中某位成員之參數，對環境中的 4 張人臉進行比對。圖四十三所示為特定人臉識別與追蹤實驗結果。實驗中，兩位成員在機器人前進行臉部識別與追蹤實驗，而機器人識別出特定人臉後，便會進行人臉追蹤的動作。圖二十五(a)為人臉偵測結果。圖二十五(b)為人臉識別結果，其中白色框所框選出來的為特定人臉識別結果。圖二十五(c)為機器人進行特定人臉追蹤結果。圖二十五(d)為特定人臉移動時，機器人進行追蹤結果。

在人臉追蹤方面，就是控制機器人頭部之運動，而頭部運動控制主要目的在於使機器人頭部上的攝影機能移到目標物所在的位置上。本系統是基於影像 (Image-based)的伺服控制系統，由影像的特徵作為伺服控制命令，不需透過逆向運動學來推導目標物的位置與姿態，控制系統中有兩種回授迴圈：1.控制系統影像位置回授迴圈，可稱之外迴路控制。2.頭部機構伺服控制迴圈，可稱之內迴路控制。系統中的影像特徵萃取與定位功能，配合兩種回授迴圈完成以影像特徵為基礎的閉迴路控制。圖二十六為影像追蹤控制器系統架構圖。在本系統中希望目標物始終能在影像的中心點位置上，因為我們處理影像的大小為 320*240，故設定期望位置(Desired Position)(Xd,Yd)=(160,120)。

文俊正憲

忠富

表四資料庫成員臉部影像

(a) 人臉偵測 (b) 尋找特定目標(白色框為特定目標)

圖二十六影像追蹤控制器系統架構圖

圖二十七就是人臉辨視及追蹤主要的流程圖，除了開始時為等待狀態及結束時為追蹤狀態，其它系統大部分都是在執行搜尋的動作。在移動式追蹤方面，利用 2 自由度頭部控制系統及本體操控系統，對搜尋到的目標進行移動式的持續追蹤。圖二十八為家用機器人對特定人搜尋與互動之實驗結果。實驗中機器人必須在三位家庭成員中識別出特定目標成員並與其進行互動。實驗結果顯示辨識系統

在文檔中先進家用機器人系統研發(III)---總計畫 (頁 32-37)