• 沒有找到結果。

數位化居家照護系統研究-子計畫五:結合麥克風陣列與影像之居家監護系統(II)

N/A
N/A
Protected

Academic year: 2021

Share "數位化居家照護系統研究-子計畫五:結合麥克風陣列與影像之居家監護系統(II)"

Copied!
9
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 期中進度報告

子計畫五:結合麥克風陣列與影像之居家監護系統(2/3)

計畫類別: 整合型計畫 計畫編號: NSC94-2218-E-009-009- 執行期間: 94 年 10 月 01 日至 95 年 09 月 30 日 執行單位: 國立交通大學電機與控制工程學系(所) 計畫主持人: 胡竹生 報告類型: 精簡報告 處理方式: 本計畫可公開查詢

中 華 民 國 95 年 8 月 1 日

(2)

行政院國家科學委員會專題研究計畫成果報告

子計劃五: 結合麥克風陣列與影像之居家監護系統(2/3)

計畫編號:

NSC94-2218-E009-009

執行期限:94 年 8 月 1 日至 95 年 7 月 31 日 主持人: 胡竹生 國立交通大學電機與控制工程學系 計畫參與人員:蘇宗敏、鄭价呈、劉維瀚、楊佳興、林群棋、黃恆嘉、林佩靜 國立交通大學電機與控制工程學系 一、中文摘要 本子計劃將今年度繼續針對居家監護系統進 行影像與音訊監控平台之研發,影像監控平 台包含兩部份,第一部份是解決 PTZ 攝影機 與全向式攝影機之座標轉換關係,以便利用 全向式攝影機所具備之大範圍監控優點,以 彌補 PTZ 攝影機監控範圍受限的缺點;第二 部份是進行三維物件辨識的研究,以期能夠 在分離影像中之前景物體與背景影像後,進 一步針對前景物體進行後續的處理。而在三 維物件辨識之理論研究方面,本子計畫中建 構出一套利用傅立葉描述子與邊緣點對點描 述子的三維物件資料庫,該資料庫可利用本 子計畫所發展之結合演算法來有效的降低每 個物件所需要的二維投影影像數量,以及能 夠讓每個物件的資料庫隨著所收集的影像增 加而越加完善,此外,建立每個物件的資料 庫時,用來建構該資料庫的訓練影像並不需 要按照物件的拍攝角度排列,大幅的簡化建 構三維物件資料庫的流程。而在音訊監控平 台的部份,已針對屋內之吵雜實現出一適應 性空間濾波器與真人語音活動偵測系統。此 系統可與影像監控平台做結合,影像監控平 台可將使用者所在的絕對位置資訊傳遞給音 訊監控平台,音訊監控平台可對特定的位置 達到濾除環境雜音粹取人聲並之需求。傳統 的濾除雜訊方法須選取互相匹配的麥克風, 而本語音純化系統將麥克風不匹配動態效應 納入考量,以達到本系統不需考慮麥克風匹 配問題,並將低成本。本計劃亦將著名的 H 理論套用於語音純化中,H 理論對於雜訊 並不用做出任何的假設並且對於模型誤差較 為穩健。實驗結果展示,本系統能對特定聲 源位置抑制干擾源與粹取人聲,並提升語音 SNR。 關鍵詞:居家照護系統,PTZ 攝影機,全向 式攝影機,三維物件辨識,真人語 音活動偵測系統,適應性空間濾波 器,H Abstract

The goal of this project in this year keeps on developing a platform for image and audio surveillance. In the image surveillance platform, the relationship between the coordinate of the omni-directional camera and the PTZ camera is calculated first. Then the advantage of omni-directional camera about the capability of wide area surveillance can be used to compensate the disadvantage of the PTZ camera that has limited view of angle. Secondly, recognizing 3D objects is studied to further process the foreground objects. A 3D object database is established with Fourier descriptor and point-to-point length via the proposed combinational algorithm. The characteristic views of each object can be reduced efficiently. Moreover, the object representation becomes more and more accurate after gathering more new object views. Furthermore, the image database can be built using object views sampled at random intervals. In the audio surveillance system, a real-time interference suppression and voice activity detection (VAD) system has been implemented. The system can be combined with the image surveillance system which can provide the audio surveillance system with the user absolute position for suppressing environmental

(3)

interference and extract the human voice. Mutually matched microphones are needed for traditional multidimensional noise reduction methods, the proposed system adapts the mismatch dynamics to maintain the theoretical performance allowing unmatched microphones to be used in an array to make the cost down. An H theory is also applied in the speech purification system. The Hfiltering approach, which makes no assumptions about noise and disturbance, is robust to the modeling error in a channel recovery process. Consequently, the experimental results show that the proposed system can suppress interference and extract the human voice from the particular position, and enhance the SNR of speech signal.

Keywords: Home-Care System, Omni-directional Camera, Background Subtraction, VAD, microphone array, spatial filter 二、緣由與目的 人類利用視覺可以快速的察覺周圍環境的變 化狀況,因此如何引入影像的訊號來提高居 家照護系統的效能就變成相當重要課題,在 本子計劃中,利用全像式攝影機大範圍監控 的特性,來針對環境影像做前景背景分離, 並估測前景物體所在環境之位置,搭配 PTZ 攝影機以取得高解析度之前景影像;此外, 針對三維物體的辨識機制進行資料庫建立、 特徵抽取以及比對的主題研究。環境中的語 音訊號干擾源總是存在,例如冷氣機、電腦 風扇、喇叭、密閉空間反射等等。當語音訊 號遭到干擾時,若用於語音辨識中,辨識率 會大為降低,若用於通訊中,通話品質也大 受影響。因此若能設計出一語音純化系統, 降低環境中干擾源的影響,達到語音純化的 效果,則在生活中將會有很大的應用面。 三、研究方法與結果 本計畫 94 年度期中報告中完成三項結果。 1. 居家環境影像監控平台之建立;2. 居家環境 之三維物體辨識機制;3. 結合語音活動偵測 與語音純化系統之設計,其內容簡述如下: 1. 居家環境影像監控平台之建立: 架設在室內屋頂的全向式攝影機雖然可以 360 度全方向的監控室內活動,但全向式攝 影機的解析度不高,且由於取像角度的關 係,無法取得前景物體的詳細資訊以作為進 一步的判斷依據,因此,我們在屋內的角落 架設了一台 PTZ(Pan-Tilt-Zoom)攝影機,並利 用三角定位法推導 PTZ 攝影機與全向式攝影 機之座標轉換關係,以建構出一套結合 PTZ 攝影機以及全向式攝影機的居家環境影像監 控平台,並且可以在未來因應需求而加入更 多 PTZ 攝影機。 ? 1 ? 0 ? 1 ? 0 圖一. 屋內前景物體之三角定位示意圖 0 圖二. 全向式影像之成像 在圖一中,O代表架設在室內屋頂的全向式 攝影機中心點投影於地面的投影點,P代表 架設於室內角落的 PTZ 攝影機之中心點投影 於地面的投影點,F則代表經由前景物體之 中心點;其中L 代表是3 O跟P兩點之間的距 離,可以藉由量測全向式攝影機中心點投影 於地面的投影點O與 PTZ 攝影機之中心點投 影於地面的投影點P之間的距離而得知。而 0  則可以由全向式攝影機所擷取的影像(圖 二)來估測,其中R代表距離中心點O最遠之 距離,且其實際之距離RO亦可藉由事先量測 而得知。接著可由式(1)來推導出。0 ||) || || / cos( a 0  FORO FO RO (1-1) 其中, ) , (u uc v vc FO   ) , (uc uc vc vc RO  

(4)

I I o 90 圖三. 全向式攝影機與前景物體之座標關係示意圖 圖一中的L1代表全向式攝影機中心點投影於 地面的投影點O與前景物體中心點F之間的 距離,可以藉由圖三的示意圖來估測,其中 4 L 代表全向式攝影機之成像平面與前景物 體所在地面之高度,可以藉由事先量測而得 知。而可以藉由全向式攝影機之成像原理1 來估測;圖四代表全向式攝影機之成像原 理,由於全向式攝影機藉由 CCD 鏡頭擷取凸 面鏡中的影像來獲取全方位的影像,因此當 前景物體的入射角度與前景物體成像位置1 有一定關係時,則可以藉由所擷取之全向式 影像來反推,從圖四中我們可以看出線性1 關係的趨勢。接著,可以利用式(2)來估測L1 4 1 tan(90 )*L LoI (1-2) 在求得圖一中的L1L3與之後,便可以利0 用式(3)來推導得出,而 PTZ 攝影機即可利1 用所估測之來轉向前景物體。1 ) sin ) / ( asin( 1 0 0 1 L L (1-3) 0 1 3 2 3 2 1 0 L L 2*L *L *cos L    I I 圖三. 全向式攝影機之前景物體成像示意圖 圖四.前景物體位於全向式影像之位置與入射角度1 之關係圖;橫軸代表前景物體位於全向式影像中的位 置距離中心點之距離,而縱軸則代表1 2. 居家環境之三維物體辨識機制: 在三維物體辨識機制部分,本子計畫由擷取到 辨識出此物體做了一個完整的實現,首先,利 用前景偵測結合肯尼邊緣偵測法(Canny edge detection)和加速的梯度向量流動態輪廓偵測 法(GVF snake),來得到物體輪廓,接著利 用此輪廓找尋出物體的特徵,然後配合計算相 似度的方法,代入新提出的外觀結合演算法去 建資料庫,並利用待測影像與資料庫影像之間 的相似度來作為比對的依據,以找出與待測影 像最相符之資料庫影像。 2.1 擷取 2D 影像之目標物體輪廓 對於一張實際拍攝的影像,即使在背景單純 的情況下,要從中擷取出物體的精確輪廓, 還是需要先濾除影像中所包含陰影與強光, 在這部份,我們採用去年度本子計劃所發展 之背景濾除演算法[1],接著依序採用肯尼邊 緣偵測法(Canny edge detection)[2]與梯度向 量 流 動 態 輪 廓 模 型 (Gradient Vector Flow Snake)[3]來獲得目標物體之輪廓。 整個擷取影像中物體輪廓的步驟如下: 1. 利用背景濾除演算法濾除影像中所包含 之背景、陰影與強光,留下前景(目標物體)。 2. 利用肯尼邊緣偵測法搭配前景物體所在 區域,估測出目標物體之邊緣影像。 3.利用梯度向量流動態輪廓模型估測出所需 要的物體輪廓。 2.2 利用 2D 影像的輪廓辨識 3D 物體 在辨識裡,特徵擷取與辨識方法是很主要的 兩個議題,在此我們採用傅立葉描述子與輪 廓取樣點的向量長度來作為主要特徵與輔助 特徵。 以下列出實際擷取二種特徵的步驟: 1.將原始物體封閉按順時針順序的輪廓重新

(5)

均勻地取樣成N點。 2.依據N點的重心的位置,重新定義座標。 3.利用此重新均勻地取樣的N點算出的輪廓 長度L與預設的標準輪廓長度Lc,將輪廓座標 做比例放大縮小。 4.利用步驟 3 所得的輪廓中之N點座標,做複 數傅立葉轉換,並擷取其低頻的部分的強 度,即前後各N/10點的頻譜強度做為主要特 徵。 5.利用步驟 3 所得的輪廓中之N點座標,計算 點與點之間的向量長度,利用此算出的N個 長度做為輔助特徵。 若定義n為主要特徵或輔助特徵的長度,且定 義兩個物體輪廓擷取出的特徵分別如下: 0, , , , 1 u ui un U   0, , , , 1 v vi vn V   則計算相似度的方法定義如下:  

     1 0 1 , n i i i norm u v u v D (2-1) 2.3 資料庫的建立 對於現實情況而言,物體是可能複雜且多特 性的,所以這裡我們利用基於相似度的外觀 圖解法,來建立物體的資料庫。 首先,先定義一些用於下列說明的符號,Vnew 指的是新擷取用來建立某物體資料庫的二維 影像, m C 是此物體資料庫中第m個外觀的特 徵面, 1 min m C 則是此新擷取之影像與所有此物 體的特徵面中距離最近的那個特徵面的相鄰 左右兩個特徵面,mmin代表此新擷取之影像與 所有此物體的特徵面中距離最近的那個特徵 面所代表的外觀。 接著列出此新的外觀結合演算法運作的步驟 如下: 1.當新的影像要用來建立某物體資料庫時, 先判斷此物體資料庫中的外觀數目。 2. 依據外觀的數目,來做其建立此物體的資 料庫的判斷依據。 (a)外觀的數目為 0: 此新進來的面直接形成一個外觀,且此外觀 的特徵面就是此新進來的面。 (b)外觀的數目為 1 或 2: 若下式成立,則不增加新的外觀,並且將此 新進來的面直接併入此擁有最小距離的外 觀,並保有此外觀的原有的特徵面。  ,  _1 min m C dVnewCm threshold all  (2-2) 若不符合式(2-2),則此新進來的面就會形成 一個新外觀,且此新外觀的特徵面就是此新 進來的面。 (c)外觀的數目大於等於 3:  ,  _2 min m C dVnew Cm threshold all  (2-3)  

,

_2 2 _ , min 1 C min m         threshold C V d threshold C V d m new m new all (2-4) 上式中,threshold_2大於threshold_1,若式(2-3) 或式(2-4)其中一式成立且式(2-2)不成立,則 此新進來的面就會形成一個新外觀,且此新 外觀的特徵面就是此新進來的面。至於此新 外觀的位置,則依據式(2-5)來判定,若成立, 則此新外觀加在 min mmmin1兩個外觀之間, 反之,加在mmin和mmin1兩個外觀之間。

, min1

 

 , min1

m new m new C dV C V d (2-5) 若此時式(2-3)或式(2-4)皆不成立或是式(2-2) 成立,則不增加新的外觀,且將此新進來的 面直接併入此擁有最小距離的外觀,且此保 持該外觀的原來的特徵面。 總而言之,此法是以一個物體的一個面為單 位的演算法,可以藉由不斷地新增物體影像 來精確完整地表達物體,也可對不同的物體 設定適合它們的門檻值,以建立出適合物體 的資料庫。 2.4 辨識方法 採用主要特徵與輔助特徵來辨識物體的方法 如下:(假設共有N個物體)。 1. 對一個不知名的面,取其主要特徵與輔助 特徵,並利用此主要特徵結合計算相似度的 方法去計算其與資料庫(以主要特徵建出的) 中的每一個特徵面的距離,然後依照距離的 大小取其前(N/2)1個小的特徵面所屬的物 體,用輔助特徵做第二次判斷(步驟 2)。 2. 將由步驟 1 得到的可能物體,用輔助特徵 再判斷一次,且在比較距離大小時,以輔助 特徵算出的距離加上此物體的最小主要特徵 算出的距離,且依照主要與輔助特徵建資料 庫時的門檻值比例,將兩者的比重調至一 樣,來做為比較距離大小的依據,如式(2-6)

 

 

d n threshold threshold V V d V V d main main n m i j n m i j min assistant assistant , ,    (2-6)

(6)

其中 i j V 是未知的面, n m V 是第 n 個物體的特徵mdmainn min 則是用主要特徵得到的與可能物 體最小的距離, t assis

threshold tanthresholdmain分別

是指利用輔助特徵與主要特徵建立資料庫時 所設定的門檻值threshold_2。同樣地,最小距 離的特徵面所屬的物體即是此不知名的面的 辨識結果。 2.5 實驗結果 圖五中列出 12 種用來建立資料庫的三維物 體,每個物體在 viewing sphere 的赤道線上每 表1. 採用主要特徵與輔助特徵所建立的資料庫之外觀數目(統計200次不同的輸入影像次序) 資料庫(圖五)中的物體編號 外觀數目(個) 1 2 3 4 5 6 7 8 9 10 11 12 平均 34.66 3.84 27.83 24.75 6.87 9.47 2.04 25.62 17.14 16.16 16.62 28.75 主要特徵 標準差 1.82 0.56 1.62 1.07 0.82 0.96 0.49 1.28 1.79 1.24 1.00 1.04 平均 38.72 14.08 14.32 22.84 10.98 20.12 8.41 31.07 25.79 17.68 23.61 19.88 輔助特徵 標準差 2.51 1.67 1.81 1.79 1.17 1.94 1.09 2.07 2.18 1.68 1.81 1.59 表2. 利用主要特徵與輔助特徵作為相似度判斷之依據所統計得到的辨識率結果(各個物體有216張測試影像) 資料庫(圖五)中的物體編號 Top1 辨識率 (%) 1 2 3 4 5 6 7 8 9 10 11 12 平均 平均 98.25 99.97 97.71 97.39 100 99.81 99.79 99.35 99.90 97.97 98.44 96.83 98.78 標準差 0.957 0.184 1.349 0.979 0.000 0.003 0.241 0.641 0.229 0.915 0.827 0.700 0.197 隔 5 度,按照由小到大排列的視角順序取樣 72 個面做為建立資料庫的面,然後在每隔 5 度裡,等份地取樣 3 張,做為辨識的面,所 以一個物體共有 216 個面來當做測試辨識率 的測試影像。在之後的說明裡,每個物體 72 個建立資料庫的面,我們統稱其為資料庫影 像(database views),216 個測試影像統稱為未 知影像(unknown views)。 圖五. 資料庫中的 12 種三維物體,由左至右,由上至 下分別為物體 1,物體 2,…,物體 12。 表 1 中列出資料庫中各個物體的外觀數目, 分別是採用主要特徵與輔助特徵建立而成, 由於不需要按照當初拍攝物體的角度順序地 建立資料庫時,所以每次的結果都會有一些 差別,但由表 1 中可知,在統計 200 次後, 所算出的外觀數目之標準差都不大,所以由 此可以推斷這樣方法不會因輸入影像的順序 不同而有很大的差異,是一種可以任意地加 入物體的影像去建資料庫的方法。表 2 則為 利用主要特徵與輔助特徵作為相似度判斷之 依據所統計得到的辨識率結果,從表 2 中可 以得知各個物體的 Top1 辨識率(相似程度最 高的辨識結果)都有相當不錯的結果,且其標 準差也都相當小,可以驗證所提出方法在三 維物體的辨識上具有相當穩健的辨識率。 3. 結合語音活動偵測與語音純化系統之設 計: 本子計畫提出了結合語音活動偵測(Voice Activity Detection ,VAD)與適應性陣列訊號 處理架構,其架構圖如圖六所示,在圖六架 構中,VAD 只用於 Lower Beamformer 後, 因 此 麥 克 風 陣 列 訊 號 皆 會 先 經 過 Lower Beamformer,再通過 VAD 判定,若判定為語 音訊號,則語音訊號會直接輸出,若為非語 音訊號,系統會將非語音訊號的原始訊號(未 通過 Lower Beamformer),傳遞給 Upper Beamformer 做適應性訊號調整,調整完畢後 再將濾波器係數傳遞給 Lower Beamformer, 更新 Lower Beamformer 濾波係數。

(7)

Detection ,VAD) 語音活動偵測是用來判定是否有語音訊號, 近年來已廣泛用於通訊上達到節省能量耗損 的目的。若用於語音辨識方面是屬於語音辨 識的前處理,對辨識結果的影響很大,精確 的語音活動偵測可降低噪音影響並提高辨識 率。本子計畫使用的 VAD 演算法[4]是使用 長時間語音的資訊而非傳統瞬間音框訊,針 對長時間語音資訊,定義出下列定義。若 x(n) 為一段包含有雜訊的語音訊號,而 X(k,l)代表 著 x(n)中第 l 個音框第 k 個頻率的值,那麼 N 階的 LTSE(Long-Term Spectrum Envelope) 定義為:    j N N j j l k X l k, max{ ,  } LTSEN (3-1) 其LTSEN

 

k,l 代表的意義為,從第 l-N 個音 框到第 l+N 個音框,這 2N+1 個音框分別對 其取頻譜絕對值(Amplitude Spectrum)後, 在第 k 個頻率下,這 2N+1 個頻域絕對值內 的最大值。而 LTSE 則代表了長時間語音資 訊的意義,因為 LTSE 不只是對單一音框取 值,而是針對 2N+1 個音框取最大值,這樣 的好處是不容易忽略某些字頭的子音或是摩 擦音。除了 LTSE 外,為了判定是否為真人 語音,必須定義另一項定義 LTSD(Long-Term Spectral Divergence)。LTSD 的定義如下          

  1 0 2 2 10 N , 1 log 10 LTSD NFFT k N k l k LTSE NFFT l (3-2) 其 中 NFFT 代 表 了 作 FFT(Fast Fourier Transform)的點數,而N



k 代表了雜訊的頻 譜絕對值平均,定義如(3-3)式: 

        j K K j K X k l j K k N , 1 2 1 (3-3) 從(3-3)式可看出,NK



k 代表在第 k 個頻率 下,第 l 個音框及前後 K 個音框的頻譜絕對 值平均,X(k,l)和先前定義一樣,代表現階段 語音的頻譜絕對值。因此 LTSD 的意義為: 現階段長時間語音的頻譜能量佔了雜訊頻譜 能量的比例,換句話說判定是否為真人語音 是用了現階語音能量的大小來判定,而此能 量大小包含了長時間語音資訊,並非只有單 一音框資訊。當 LTSD 大於某個臨界值則判 定為真人語音,反之則非真人語音,而此臨 界值γ定義如下:                   1 1 0 0 1 0 0 1 0 1 0 0 E E E E E E E E E E E (3-4) 其中E 和0 E 代表了在最乾淨和最吵雜的情1 況下,雜訊的能量,而 E 是指現階段雜訊的 能量。和0 代表在最乾淨和最吵雜的情況1 下與 LTSD 比較的臨界值,因此E ,0 E ,1 和0 1 是先設定好的初始值。從(3-4)式可觀察 出當現階段雜訊能量介於E 和0 E 時,則1 會E-E 在0 E -1 E 所佔的比例,作出0 的線性0 調整。

3.2以 Normalize Least Mean Square 為基礎之 語音純化系統

於圖六架構中,當須調整 Upper Beamfomer 的 係 數 時 , 本 計 劃 所 使 用 的 演 算 法 為 以 NLMS(Normalize Least Mean Square)[5-6]為 基礎的適應性空間濾波器,其空間濾波器的 輸出可線性模型為(3-5)式 e(n) n n r( )x( )Tw(3-5) 其中 T M n n n) ( ) ( ) ( x1 x x T i i i(n)x (n)  x (nP1) x (3-6) T MP M P w w w w11  1  1  w (3-7) M代表麥克風個數,P為每各麥克風的濾波 階數,T 為矩陣的轉秩運算,r(n)為目標訊 號,x( n)為MP1的訓練向量,由預錄的目標 訊號與雜訊訊號所線性組合而成,e(n)為未知 的誤差,w為空間濾波器係數,大小為MP1。 而w的遞迴關係式如(3-8)所示

( 1) ( 1) ˆ( )

) 1 ( ) 1 ( ) ( ˆ ) 1 ( ˆ 2 n n n r n n n n T w x x x w w (3-8) 其中為一微小正數,使(3-8)式中分母不 為零,02使(3-8)式能收斂。 3.3 以 H為基礎之語音純化系統 本子計畫亦將著名的 H理論[7-9]應用於語 音純化系統中。在圖一的架構中,空間濾波 器的輸出可線性模型為 e(n) n n r( )xT( )w (3-9)

(8)

其中 T M n n n) ( ) ( ) ( x1 x x T i i i(n)x(n)  x(nP1) x (3-10) T MP M P w w w w11  1  1  w (3-11) M代表麥克風個數,P為每各麥克風的濾 波階數,T為矩陣的轉秩運算,r(n)為目標 訊號,x( n)為MP1的訓練向量,由預錄的 目標訊號與雜訊訊號所線性組合而成, ) (n e 為未知的誤差,w為空間濾波器 ) ( 1 n y ) ( 2 n y ) ( n yM L o w e r B e a m f o r m e r M e m o r y S p e a k e r R e f e r e n c e S in g a l

) ( 1 n s ) ( 2 n s ) ( n sM U p p e r B e a m f o r m e r T r a n s fe r N e w T ra in i n g W e i g h t A d a p t iv e A lg o ri th m s ) ( ˆn y ) ( n yb ) ( n e ) ( n r ) ( 1 n x ) ( 2 n x -) ( n xM

S i l e n t S t a g e S p e e c h S t a g e

V o ic e A c ti v i ty D e te c tio n V A D = 0 V A D = 1 圖六. 結合語音活動偵測與適應性陣列訊號處理架構圖 係數,大小為MP1。而 H的限制函式為 (3-12)

        N n n e n n e n J 0 2 2 2 2 1 0 2 )) 0 ( ˆ ), ( ( ) ( ˆ ) ( ) ( ˆ 2 1 ) 0 ( ˆ 2 1 max min w w w w w w (3-12) 0 為權重參數2代表 2-norm 的平方,根據 [10],w的遞迴關係式如(3-13)所示 I 2 1 1( 1)( ) ( ) ( )   n n n n M x xT M (3-13) )) ( ) ( ) ( 1 ( )) ( ˆ ) ( ) ( ( ) ( ) ( ) ( ˆ ) 1 ( ˆ n n n n n n d n n n n T T x x w x x w w M M      (3-14) I ) ( ) 0 ( , ) 0 ( ˆ 1 2 0 1    0 M w (3-15) 其中M(n)為 MPMP 矩陣 1 ) (為反秩運算. 為 了 使 M(n) , 為 正 定 應 選 為 0 ) ( ) ( ) ( 2 1 I n n n x xT M

3.4 Normalize Least Mean Square 與 H模 擬比較 做 NLMS 演算法時,必須先針對雜訊作出零 平均的假設,若雜訊本身並非零平均,則 NLMS 處理效果會有限,但現實生活中並非 所有接收到的雜訊皆為零平均,而 H∞並不 用針對雜訊做出零平均的假設,但其運算量 會較 NLMS 大。在基本原理上,NLMS 的原 理是將估測誤差能量最小化,而 H∞是在基 於量測誤差、模組誤差、初使誤差這三種誤 差影響估測誤差最嚴重的情況下,去調整係 數使誤差最小化。在此模擬中,本子計劃模 擬聲源訊號經過二十階的通道效應,並由六 顆麥克風接收。而每顆麥克風的有限脈衝響 應(FIR)階數皆為十階來模型目標訊號。圖 七與圖八展示了利用 NLMS 與 H∞所求得的 誤差比較圖。誤差為目標訊號與模型訊號的 差,即為模型誤差(modeling error),從圖 中可看出 H 理對於模型誤差較 NLMS 為穩 健。 圖七 以 NLMS 為基礎的模型誤差能量

(9)

圖八 以 H為基礎的模型誤差能量 3.5 語音純化系統實驗結果 本實驗環境為將本子計畫所開發出的麥克風 陣列平台放置於室內環境,而語音訊號從麥 克風陣列正前方0位置發出,白雜訊(white noise)由左方45位置發出。圖九為無雜訊之 純語音訊號,圖十為摻有雜訊之語音訊號, 圖十一為純化後的語音訊號。語音純化系統 會將 VAD 判定為非語音部分輸出為零。 圖九 無雜訊之純語音訊號 圖十 摻有雜訊之語音訊號 圖十一 純化後語音訊號 3.6 結論 本子計畫已將語音活動偵測(VAD)與空間 濾波器(Beamformer)做整合,達到自動適 應性調整空間濾波器功能,並將演算法實作 完成於八通道麥克風陣列平台上,擁有即時 的效能。本子計畫亦將著名的 H 理論套用 於語音純化中,並從模擬中得知 H 理對於 模型誤差較 NLMS 為穩健。並由實驗結果展 示,本系統能對特定聲源位置抑制干擾源與 粹取人聲,並提升語音 SNR。 四、計畫成果自評 在計畫書中所列舉之項目均已執行,並將結 果開始與其他子計畫作初步之整合。 五、參考文獻

[1] Hu, J., Cheng, Chieh-Cheng, Yang, Chia-Hsing, Su, Tzung-Min and Liu, W.H, “Removal of Background Information for Dynamic Speech and Image surveillance system,”CACS Automatic Control Conference, Nov. 18 -19, 2005.

[2] J. Canny, “A Computational Approach to Edge

Detection,”IEEE Transactions on Pattern Analysis and

Machine Intelligence, Vol. PAMI-8, No.6, 1986.

[3] C. Xu and J. L. Prince, “Gradient Vector Flow: A

New External Force for Snakes,”IEEE Conference on

Computer Vision and Pattern Recognition, 66-71, 1997.

[4]Javier Ramírez , José C. Segura ,Carmen Benítez , ÁngeldelaTorreand Antonio Rubio ,”Efficientvoice activity detection algorithms using long-term speech

information,” Speech Communication, Volume 42,

Issues 3-4, April 2004,Pages271-287

[5] Ali H. Sayed, Fundamentals of Adaptive Filtering,pp. 214-229.

[6] Dahl, M.; Claesson, I., “Acoustic noise and echo cancelling with microphone array,” Vehicular Technology, IEEE Transactions on ,Volume: 48 Issue: 5 , Sept.1999 Page(s): 1518 –1526

[7] Sayyarrodsari, B., How, J.P., Hassibi, B., and Carrier, A.,“Estimation-based synthesisofH∞-optimal adaptive FIR filters for filtered-LMS problems,”IEEE

Transactions on Signal Processing, vol. 49, pp.164-178, Jan 2001.

[8] De Soua, C.E., Palhares, R.M., and Peres, P.L.D., “RobustH∞ filterdesign foruncertain linearsystems with multiple time-varying statedelays,”IEEE Transactions on Signal Processing, vol.49, pp. 569-576, March 2001.

[9] U.Shaked and Y.Theodor,“H -optimal estimation: A tutorial,”in Proc.31stIEEE Conf.Decision Contr.,

Tucson, AZ, Dec. 1992, pp.2278–2286.

[10] X. Shen and L. Deng, “A dynamic system approach

to speech enhancement using the H∞ filtering

algorithm,”IEEE Trans. Speech and Audio Process., vol. 7, pp. 391-399, July 1999.

參考文獻

相關文件

Wang, Solving pseudomonotone variational inequalities and pseudocon- vex optimization problems using the projection neural network, IEEE Transactions on Neural Networks 17

volume suppressed mass: (TeV) 2 /M P ∼ 10 −4 eV → mm range can be experimentally tested for any number of extra dimensions - Light U(1) gauge bosons: no derivative couplings. =>

Define instead the imaginary.. potential, magnetic field, lattice…) Dirac-BdG Hamiltonian:. with small, and matrix

• Formation of massive primordial stars as origin of objects in the early universe. • Supernova explosions might be visible to the most

* School Survey 2017.. 1) Separate examination papers for the compulsory part of the two strands, with common questions set in Papers 1A & 1B for the common topics in

(Another example of close harmony is the four-bar unaccompanied vocal introduction to “Paperback Writer”, a somewhat later Beatles song.) Overall, Lennon’s and McCartney’s

專案執 行團隊

Microphone and 600 ohm line conduits shall be mechanically and electrically connected to receptacle boxes and electrically grounded to the audio system ground point.. Lines in