• 沒有找到結果。

獨立成份分析法於可觸式聲波操控介面訊號分析之研究

N/A
N/A
Protected

Academic year: 2021

Share "獨立成份分析法於可觸式聲波操控介面訊號分析之研究"

Copied!
66
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學圖文傳播學系 碩士論文. 獨立成份分析法於 可觸式聲波操控介面訊號分析之研究 An Analysis of Signal Processing by Using Independent Component Analysis for Tangible Acoustic Interfaces. 研 究 生 : 羅仁傑 指導教授: 周遵儒. 中 華 民 國 102 年 8 月.

(2) 誌謝 研究所四年完完整整過去,好不容易終於熬到寫誌謝文的這一刻。坦白說,這感覺真的 是好極了!這段期間裡,我最要感謝我家人,特別是爸媽,雖然在學業上幫不上什麼忙但仍 默默的支持著我,並忍受我竟然能念這麼久的書。我也很感謝我的姊姊與弟弟,每次當我生 活陷入了財務困境時,總是二話不說金援我度過難關,讓我省去了很多困擾。感謝極電資訊 蘋果師大校園店裡的各位朋友,不僅提供我一個躲老師的好地方,也給了我許多電腦專業知 識及快樂回憶。我也要特別謝謝我的女朋友 Trabbit 小姐,在我論文生不出來時能忍受我的 臭脾氣,在我論文插圖怎麼畫都很醜的時候能快速幫我重畫,在我分身乏術無力陪Google的 時候能把它照顧得好好的,謝謝你給了我這麼多的協助並陪我度過這些煩悶的論文日子,我 非常感激! 我很開心當初能選擇DCC研究室並成為DCC的一份子,雖然在這四年來周老師不知打了 我幾次槍,讓我在寫論文時幾度失去方向感,但卻又如摯友般無私地提供建議與分享經驗, 終於讓我完成了這艱鉅的任務。Deep、Fandy、小雞、律民、祖毅、續杯、穩容、瑋如、明 信、 雅筑、 琮傑、有為、毓謙...等DCC的各位,還有常來串門子的維烝,因為你們在DCC的 笑聲與陪伴,我的研究所生活才能過的如此有趣如此精彩。 最後,我還是要仰天怒吼一下!雖然自己打著圖文傳播學系的名號,做的研究卻是人機 互動相關領域,寫出來的論文又像是電機工程的論文,每次被人問到“你研究所是在學些什 麼東西?”都不知道該怎麼回答才好。但我不認為自己當初選擇了DCC研究室並學習如何寫 程式是在這研究所中走一條難走的路,因為當自己完成這本論文時,終於能讓我拍胸脯地告 訴大家,我可是科技學院畢業,拿的可是“徹徹底底”的工學院碩士學位啊!. 羅仁傑(Roger Lo)謹誌於 國立臺灣師範大學 圖文傳播學系碩士班 2013.Aug.

(3) 目錄 摘要 . . . . . . . . . . . 3. Abstract . . . . . . . . . . 4. 圖目錄 . . . . . . . . . . . 5. 表目錄 . . . . . . . . . . . 7. 第一章 緒論 . . . . . . . . . 8. 第一節 研究背景與動機 . . . . . . . 8. 第二節 研究目的與問題 . . . . . . . 9. 第三節 研究範圍 . . . . . . . . 10. 第二章 文獻探討 . . . . . . . . 12. 第一節 可觸式聲波操控介面技術 . . . . . 12. 第二節 獨立成份分析法原理 . . . . . . 17. 第三節 文獻探討小結 . . . . . . . 33. 第三章 研究方法 . . . . . . . 34. 第一節 實驗樣本與工具介紹 . . . . . . 34. 第二節 符合獨立成份分析法的混合聲源假設 . . . 36. 第三節 依據獨立成份分析法原則的獨立聲源分析程序 . . 42. 第四章 實驗結果與討論 . . . . . . . 48. 第一節 多音源輸入訊號與ICA處理 . . . . . 48. 第二節 單音源訊號經頻率區隔與ICA處理 . . . . 52. 第三節 單音源訊號經頻率區隔及高次混合與ICA處理 . . 56. 第五章 結論與建議 . . . . . . . . 62. 第一節 結論 . . . . . . . . . 62. 第二節 建議 . . . . . . . . . 62. 參考文獻 . . . . . . . . . 64. . .

(4) 摘要. 本研究利用獨立成份分析法( Independent Component Analysis,ICA)於可觸式聲 波操控介面上針對同時間不同觸碰事件所產生的混合訊號進行訊號分離。依據獨立成 份分析法的處理步驟,本研究提出三種分析操作程序來對可觸式聲波操控介面下麥克 風截取到的混合訊號實際進行測試,分別為 (一) 多音源輸入訊號直接進入ICA處理 (二) 單音源輸入訊號經頻率區隔分析後進行ICA處理 (三) 單音源輸入訊號經頻率區隔 及高次混合後進入ICA處理。研究結果顯示,透過頻率區隔在可觸式聲波操控介面下對 於非即時性的訊號分析是具有顯著的訊號分離效果。此結果也驗證了獨立成份分析法 可運用在可觸式聲波操控介面上作為混合訊號分離使用。. 關鍵字:獨立成份分析法、可觸式聲波操控介面、聲源訊號分離. 3.

(5) Abstract In this study, we tried to use independent component analysis (ICA) to separate the mixed signal caused by simultaneous touch events happened on a tangible acoustic interface. Being in accord with the processing steps of ICA, the procedures we proposed can be divided into (1) multiple audio inputs for ICA processing, (2) single audio input with frequency segmentation for ICA processing, (3) single audio input with frequency segmentation and higher-order mixed for ICA processing. Experimental results show that, using frequency segmentation for non-real time signal analysis on tangible acoustic interface has remarkable signal-separating effect. It also proves an idea that independent component analysis can be used on tangible acoustic interface for mixed-signal separation.. Keywords : independent component analysis, tangible acoustic interface, audio signal separation. 4.

(6) 圖目錄 圖 2-1 到達時間延遲法示意圖. 15. 圖 2-2 位置模式比對法示意圖. 15. 圖 2-3 雞尾酒派對問題示意圖. 17. 圖 2-4 中央極限定理說明圖. 21. 圖 2-5 獨立成份分析法步驟流程圖. 23. 圖 3-1 木棒敲擊與鐵棒刮擊波型圖. 35. 圖 3-2 本實驗所採用之可觸式聲波操控介面示意圖. 35. 圖 3-3 基於獨立成份分析法之混合訊號組成成份示意圖. 36. 圖 3-4 演唱會live音樂片段左右聲道波形圖. 38. 圖 3-5 演唱會live音樂片段透過ICA處理後所得之分離訊號波形圖. 38. 圖 3-6 演唱會live音樂片段聲音訊號頻率分佈圖. 39. 圖 3-7 演唱會live音樂片段透過ICA處理後所得之分離訊號頻率分佈圖. 39. 圖 3-8 木棒敲擊和與鐵棒刮擊原始訊號波形圖. 40. 圖 3-9 混合後訊號波形圖. 40. 圖 3-10 FastICA 分離後訊號波形圖. 40. 圖 3-11 木棒敲擊和與鐵棒刮擊原始訊號頻率分布圖. 41. 圖 3-12 混合訊號頻率分布圖. 41. 圖 3-13 分離後訊號頻率分布圖. 41. 圖 3-14 本研究所採用之獨立聲源分析三操作程序流程說明圖. 42. 圖 3-15 木棒敲擊與鐵棒刮擊波型圖. 43. 圖 3-16 木棒敲擊與鐵棒刮擊訊號頻率分布圖. 43. 圖 3-17 程序(一)之混合訊號組成示意圖. 44. 圖 3-18 程序(二)之混合訊號組成示意圖. 45. 圖 4-1 程序(一):五個麥克風所截取的混合訊號聲波圖. 48. 圖 4-2 程序(一):混合訊號原始波形圖. 48. 圖 4-3 程序(一): ICA後所得訊號波形圖-輸出 2 個訊號. 49. 圖 4-4 程序(一): ICA後所得訊號波形圖-輸出 3 個訊號. 49. 圖 4-5 程序(一): ICA後所得訊號波形圖-輸出 4 個訊號. 50. 圖 4-6 程序(一): ICA後所得訊號波形圖-輸出 5 個訊號. 50. 圖 4-7 程序(二): 單一麥克風所錄製的聲波訊號圖. 52. 5.

(7) 圖 4-8 程序(二): 單一麥克風所錄製的聲波頻率分佈圖. 52. 圖 4-9 程序(二): 利用頻率區隔所製作出的所有訊號波型圖. 53. 圖 4-10 程序(二): ICA所得之訊號波型圖 - 輸出 2 個訊號. 54. 圖 4-11 程序(二): ICA所得之訊號波型圖 - 輸出 3 個訊號. 54. 圖 4-12 程序(二): ICA所得之訊號波型圖 - 輸出 4 個訊號. 55. 圖 4-13 程序(二): ICA所得之訊號波型圖 - 輸出 5 個訊號. 55. 圖 4-14 程序(三):高次混合訊號組 Xhigh 之訊號波形圖之一. 56. 圖 4-15 程序(三):高次混合訊號組 Xhigh 之訊號波形圖之二. 57. 圖 4-16 程序(三):高次混合訊號組 Xhigh 之訊號波形圖之三. 57. 圖 4-17 程序(三):高次混合訊號組 Xhigh 之訊號波形圖之四. 58. 圖 4-18 程序(三):高次混合訊號組 Xhigh 之訊號波形圖之五. 58. 圖 4-19 程序(三): ICA所得之訊號波型圖 - 輸出 2 個訊號. 59. 圖 4-20 程序(三): ICA所得之訊號波型圖 - 輸出 3 個訊號. 59. 圖 4-21 程序(三): ICA所得之訊號波型圖 - 輸出 4 個訊號. 60. 圖 4-22 程序(三): ICA所得之訊號波型圖 - 輸出 5 個訊號. 60. 6.

(8) 表目錄 表 1 可觸式聲波操控介面技術優缺點比較. 15. 表 2 可觸式聲波操控介面技術相關應用研究. 16. 表 3 FastICA 演算法流. 31. 7.

(9) 第一章 緒論 科技日新月異,人與機器的互動方式也隨著科學技術的創新與成熟,不斷地在改 變著,然而要如何讓人與機器以著最自然的方式互相溝通,這不僅是所有科學家不斷 在尋找的解答,也是激發本研究動機的開端。本研究是針對2004-2006年歐洲的Tai-Chi 計畫(Tangible Acoustic Interfaces for Computer-Human Interfaces)中所提出的可觸式聲 波操控介面(Tangible Acoustic Interface)概念 (Polotti, Sampietro, Sarti, Tubaro, & Crevoisier, 2005),嘗試利用訊號分析的技術來擴展介面運用的可能性,因此在本章節 中的內容中,將分別說明本研究的研究背景與動機、研究目的、研究問題及研究範 圍。. 第一節 研究背景與動機 過去20年來,在人機互動(Human-Computer interaction)的領域上產生了許多的 改變。傳統的人機互動系統主要以單一使用者且任務導向為主,如鍵盤、滑鼠等輸入 裝置 ; 新興的人機互動系統逐漸走向嵌入式且以多重模式來呈現,經過設計後讓使用 者感覺不到裝置的存在,進而完成更自然的人機互動,如常見的webcam攝影機及微軟 的 KINECT 互動控制器。普及運算(ubiquitous computing)之父 Mark Weiser 於 1991 年提出「智慧型環境」(smart environment)這個概念,他認為生活的環境可視為機器 與人溝通的大介面,透過運算技術在背後支持著,能將日常生活中所用的物品一一轉 變可互動式,如此一來人們就能智慧地且無障礙地處理著日常生活中的各種任務 (Elena, Omar, Stéphane, Stefano, & Houda, 2009)。 可觸式聲波操控介面(Tangible Acoustic Interface,TAI)是近幾年來被提出作為 上述這種無縫式人機互動的方法之一,其作法在於將麥克風等感測元件裝設在桌子、 牆壁等日常生活常見的物體表面上,使得物體表面轉變為可觸式介面,並藉由分析擷 取來的聲波震動訊號,來提供系統完整描述出觸控過程,如該物體表面是何處被接 8.

(10) 觸,以及如何被接觸等訊息 (Crevoisier & Bornand, 2008)。這種可觸式聲波操控介面方 法與過往的觸控技術,如電阻/電容式觸控、紅外線矩陣式觸控等,其最主要的差別在 於可觸式聲波操控介面是基於聲音在固體表面的傳播特性來進行互動,不需要複雜機 械或電子裝置來配合,即可將物體本身作為訊號傳播的載體和人機互動介面(Fabiani, 2006)。如此一來不但能減少製作上的耗費,也提供了更加自然的人機互動方式,讓應 用層面擴展地更全面,如在互動藝術創作、情境感知設計等等多元領域上進行應用。 大多數在可觸式聲波操控介面的相關研究聚焦於如何判定單一觸碰事件發生的位 置,例如手指在木板的表面上輕敲,透過感測器去讀取傳遞於物質間的震動訊號,再 計算出手指敲擊於木板的位置。相關使用的技術如『到達時間延遲法(Time Delay of Arrival)』是基於各感測器所擷取到的訊號時間差異,以及『位置模式比對法 (Location Pattern Matching)』是比對擷取到的訊號與事前錄製並儲存的訊號資料庫, 進而推算出訊號源產生的幾何位置(Pham et al., 2005)。然而聲音的速度隨頻率而變化所 造成的頻散現象(dispersion),以及互動空間中所產生環境雜訊也會混雜於擷取到的 訊號中,容易影響定位的精準度(Fabiani, 2006)。此外,上述兩項技術目前僅能同時間 內處理單一觸碰事件上,若有兩者或兩者以上的觸碰事件同時產生,感測器所擷取到 的訊號則為混合訊號,若無法先將各事件所產生的訊號從混合訊號中先行抽離,則系 統難以進行判別。 為解決上述問題,在本文章中提出以獨立成份分析(Independent Component Analysis, ICA)的技術,嘗試將可觸式聲波操控介面中感測器所擷取的混合訊號進行訊 號分析。此項技術是將混合訊號經由線性或非線性轉換,利用統計學上獨立的原理找 出呈現最非高斯分佈的獨立成份,最常被應用於語音訊號分離上,可以成功地從混合 的聲音訊號中分離出獨立的聲源。若能將獨立成份分析技術運用在可觸式聲波操控介 面上,將感測器所截取的混合訊號依組成聲源成份進行分離,便可利用分離出的獨立 聲源來擴大互動偵測的運用廣度。因此本研究依據這個原理,將獨立成份分析法推廣. 9.

(11) 運用於可觸式聲波操控介面中的混合訊號分離上,藉以提供可觸式聲波操控介面裝置 開發技術上的另一選擇。. 第二節 研究目的與問題 本研究希望提出能運用在可觸式聲波操控介面上達到混合訊號分離效果的系統化 方式,因此欲以獨立成份分析法在可觸式聲波操控介面上,將擷取到的混合訊號進行 分析,並嘗試分離出因不同互動方式所產生的不同聲源訊號。 因此本研究可歸納為以下三項目的: 一、利用獨立成份分析法對可觸式聲波操控介面發展出系統化的訊號分析方式。 二、提出利用獨立成份分析法在可觸式聲波操控介面上的訊號分離操作程序。 三、檢視獨立成份分析法在可觸式聲波操控介面中針對混合訊號的分離效果。. 根據以上研究目的,本研究的研究問題可歸納如下述三項: 一、如何運用獨立成份分析法於可觸式聲波操控介面上進行訊號分析? 二、利用獨立成份分析法在可觸式聲波操控介面進行混合訊號的操作程序為何? 三、運用獨立成份分析法在可觸式聲波操控介面上將混合訊號分離的效果如何?. 第三節 研究範圍 本研究之範圍界定可分為以下兩點說明: 一、訊號處理區分為即時性(real time)與非即時性( non-real time)等兩種處理模 式,本研究僅對可觸式聲波操控介面擷取得來的混合訊號進行非即時性的分析處理, 至於即時性的訊號處理方式並非在本研究的研究範圍內。. 10.

(12) 二、本研究僅聚焦於如何提高獨立成份分析法在可觸式聲波操控介面中的混合訊號分 離效果,至於如何利用分離出來的獨立聲源訊號進一步作為介面應用,則不在本研究 的研究範圍內。. 11.

(13) 第二章 文獻探討 於本章節內容中將探討可觸式聲波操控介面與獨立成份分析法的技術原理。第一 節先從可觸式聲波操控介面技術層面進行介紹,分別解說可觸式聲波操控介面的結構 原理、常被用於該介面上作為觸碰事件偵測的技術比較及其相關應用研究 ; 第二節則 針對獨立成份分析法之理論基礎進行說明,詳細說明演算方法及處理過程及其相關應 用研究 ; 於第三小節中則將文獻探討部分進行總結性的討論。. 第一節 可觸式聲波操控介面技術 現今的觸控技術發展成熟,舉凡手機螢幕、電視電腦螢幕、廣告看板、電子白板 等等,觸控介面的應用已經滲透到人們的生活周遭中,種類包括了電阻式、電容式、 光學式、及紅外線式等等多項觸控技術。然而絕大多數的觸控技術需要複雜機械或電 子裝置來配合,這些耗費成本高且精密的觸控裝置介面,不僅難以推廣到大尺寸的應 用上,也常因維護不易而不適合於所有環境情況下使用(Fabiani, 2006; Sanctis, Rovetta, Sarti, Scarparo, & Tubaro, 2006)。 可觸式聲波操控介面是利用聲音在固體中的傳導特性來進行互動。當物體與物體 的表面作用時,表面所產生的聲波模型會因為物體之間作用的不同而改變,加上聲音 震動在絕大多數的物質中傳導性佳,無論該物體表面是否被其他物體覆蓋,兩物體碰 觸所產生的聲音訊息均能透過物體本身結構來作為傳輸管道傳遞到遠處去。我們在物 體表面上設置接觸式麥克風或是加速度感測器來擷取物體內傳遞的聲音訊息,再將這 些聲波模型視覺化及特徵化,經過分析後便可描述出兩物體作用的過程。. 12.

(14) 由以上敘述可知,可觸式聲波操控介面與其他觸控技術相較起來,具有以下三種 特色: 一、作用表面不需侷限在任何特定大小,能有效地擴展到任何尺寸上。 二、能夠減少互動介面的製作成本。 三、可以選擇適合互動情況與環境的物體作為介面使用。. 在可觸式聲波操控介面上針對觸碰事件所產生的聲音震動訊號進行分析的技術主 要代表有「到達時間延遲法(Time Delay of Arrival,TDOA)」與「位置模式比對法 (Location Pattern Matching,LPM)」等兩種技術(Fabiani, 2006; Pham et al., 2005)。以 下將分別細部介紹這兩種技術原理: 一、 到達時間延遲法(Time Delay of Arrival,TDOA) 時間延遲估計法(time delay estimation)已經大量被運用在如雷達、聲吶等領域上 作為偵測、辨別或定位物體的用途,而這種估計方法也可以被運用於開發可觸式聲波 操控介面上。到達時間延遲法是利用時間延遲估計法的原理,先利用麥克風或是加速 度感測器等感測裝置,將其設置在物體表面的不同位置上,每當物體表面被碰觸時, 震動訊號將會在物體表面上產生並藉由物體本身將訊號傳遞出去。每個感測器所接收 到訊號的時間將會被記錄下來,若已知該物質的傳導速度,則可以進一步推算出震動 訊號傳遞的距離,並比對出作用點的位置。換句話說,使用到達時間延遲法來作為可 觸式聲波操控介面之訊號分析的好處是,只要是在感測器所圈圍出的範圍內,任何作 用位置點都可以藉由分析感測器接收訊號的時間差異推算出來。此外,到達時間延遲 法的優點在於反應速度快且運算複雜量低,因此在訊號判斷上能表現出不錯的性能。 然而,到達時間延遲法主要被應用在單一觸碰事件的定位使用,無法更進一步用 於同時間且多重觸碰事件的情況。到達時間延遲法的表現能力好壞依賴著所擷取的時 間延遲資料之精準度與穩定性,當聲波震動訊號傳導的物質本身同質性較低時,波在 同質性低的物質中傳導速度非一致,因此接收到訊號的時間將會因為波在不同物質間 13.

(15) 的傳導速度差異而造成誤差,使得到達時間延遲法無法有效地在可觸式聲波操控介面 上運作(Yang, Pham, Al-Kutubi, Ji, & Wang, 2009)。另外一個缺點則是,該方法必需設置 較多的感測器來接收訊號(如圖2-1所示),缺乏足夠的資料則無法進行評估,而這樣 的要求也提高了硬體設備的複雜度。. 二、位置模式比對法(Location Pattern Matching,LPM) 位置模式比對法的技術原理在於先將數筆事先錄製好的訊號作為資料庫,而後將 擷取到的聲波訊號圖形與資料庫進行比對,進而達到訊號識別的目的。換句話說,感 測器所接收到的每個聲波訊號圖形都可以視為是某特定位置所產生的訊號內容綜合 體,包含頻率、聲波的相位等等,藉由感測器所擷取到的訊號和那些已知且事先儲存 的訊號資料庫進行訊號間的相關係數計算,依據係數最大值來推測從觸碰作用點發出 的聲源資料為何,如位置、或接觸的方式等等。 相較於到達時間延遲法,位置模式比對法通常只需要一個感測器就可以進行(如 圖2-2所示),在硬體的設置上有較大的優勢。由於位置模式比對法是利用相關係數的 計算方式來找出配對者,因此也具有減少雜訊影響的效果。然而,使用位置模式比對 法必須事先儲存多筆訊號資料,新資料與舊資料的圖形比對需要較大的運算量,導致 在訊號判斷上的速度與性能遠低於時間延遲法。此外,雖然不同的觸碰方式會讓表面 所產生的聲波模型不同,但感測器在同一時間下所擷取到的聲波訊號仍為多聲源的混 合訊號,若無法事先將不同的聲源訊號從混合訊號中分離出來,則位置模式比對法仍 無法在同時間且多重觸碰事件的情況下使用。以下表1將上述兩種方法依其優缺點列表 比較。. 14.

(16) 表1 可觸式聲波操控介面技術優缺點比較 ⽅方法名稱. 優點. 缺點. 1. 運算量低。. 到達時間延遲法 (TDOA). 1. 只適合用於同質性的物體表面. 2. 反應速度快。. 上。 2. 無法用於同時間且多重觸碰事 件的情況。. 1. 只需要一個或極少數的感測. 2. 在圖形比對的過程,必須要有. 器。. 位置模式比對法 (LPM). 1. 反應速度較慢。. 2. 可用在複雜形狀的物體上。. 學習階段才能提高訊號偵測的 精準度與反應速度。 3. 無法用於同時間且多重觸碰事 件的情況。. 圖 2-1 到達時間延遲法示意圖. 圖 2-2 位置模式比對法示意圖. 15.

(17) 於上述內容中,簡單的介紹了可觸式聲波操控介面中的原理及兩項訊號分析技 術,接下來將於表 2 列出目前已運用可觸式聲波操控介面技術的相關應用研究。. 表2 可觸式聲波操控介面技術相關應用研究 年份. 裝置名稱 / 引⽤用⽂文獻. Sound Rose 2006. (Crevoisier, Bornand, Guichard,. 互動⽅方式. TAI技術. TDOA. Finger Touch (Tapping & Dragging). 辨識依據. Position. 應⽤用領域 Touch Table ( interactive installation ). Matsumura, & Arakawa, 2006). 2008. Scratch Input. Drawing LPM. (Harrison & Hudson, 2008). 2008. Music Wall. (Line, Circle, Triangle and Square). TDOA. Tapping. Frequency. Touch Table/Wall. Amplitude. (gesture recognition). Position. Digital Music Player. (Hu, Tung, & Lau, 2008). 2011. Augmenting Touch. Gesture LPM. (Lopes, Jota, & Jorge, 2011). (Finger Tap, Knock, Slap, Punch). Amplitude Timbre. Touch Table ( gesture recognition, gesture intention ). Bathcratch 2012. (Shigeyuki, Yoshinobu, & Seiho,. LPM. Rubbing & Touch. Frequency. Interactive Bathtub. Peak. Encoding/Decoding. 2012). Acoustic Barcodes 2012. (Harrison, Xiao, & Hudson,. LPM. Swiping with objects. 2012). 16.

(18) 第二節 獨立成份分析法原理 獨立成份分析法(Independent Component Analysis,ICA)是一種統計及計算的技 術,主要是用來找出隨機變數或訊號中的隱藏因子(hidden factors)。在 ICA 的模型 中,假設觀察的多變量資料是由某些未知的潛在變數(latent variable)經由線性或非線 性的方法混合而成(Comon, 1994)。這些潛在的變數被稱之為觀察資料中的 (Independent Component),並且具有非高斯分佈且互相獨立的特性。ICA 就是利用 分析的方法來找出這些獨立成份。 一、ICA 模型的基本概念: ICA 應用在與語音訊號處理方面,最典型的例子就是「雞尾酒派對問題」(cocktail party problem)(Ainhoren, Engelberg, & Friedman, 2008)。如圖2-3所示,假設有3個人在交 談,每個說話者的聲音訊號分別為 s1(t)、s2(t)、s3(t),在房間中放置了3支麥克風來記錄 聲音,每支麥克風收到的混合訊號分別為 x1(t)、x2(t)、x3(t)。. 圖 2-3 雞尾酒派對問題示意圖. 17.

(19) 在此過程中,我們對聲源與混合過程皆無法事先知道,可擁有的資訊只有麥克風 所量到的訊號。由於語音訊號從說話者到收音的麥克風中間除了直接抵達外,還會有 經由不同路徑反射而來的訊號,為了簡化問題,在此先不考慮反射路徑,只考慮線性 組合,將聲源與所量測到的訊號之間的關係以線性方程式表示成:. x1 ( t ) = a11s1 ( t ) + a12 s2 ( t ) + a13s3 ( t ). x2 ( t ) = a21s1 ( t ) + a22 s2 ( t ) + a23s3 ( t ). x3 ( t ) = a31s1 ( t ) + a32 s2 ( t ) + a33s3 ( t ). (2-1). 其中 aij 代表第 j 個聲源到第 i 個麥克風的放大倍率,取決於聲源與麥克風的距 離。在一般的情況下,通常只能取得混合訊號 x1(t)、x2(t)、x3(t) 的數值,若是在 a11、 a 12 、a 13 、a 21 、a 22 、a 23 、a 31 、a 32 、a 33 皆未知的情況下,要取得最原始的聲源訊號 s1(t)、s2(t) 與 s3(t) 將變得相當困難。我們先將 ICA 的基本模型改寫成矩陣型式:. x = As. (2-2). A 為 x 與 s 之間的混合矩陣(mixing matrix)。x 是由 s 線性組合而成,根據中央 極限定理(central limited theorem),將一群非高斯且彼此獨立的隨機變數經過線性混 合,其混合後的機率分佈會趨近於高斯分布。換句話說,x 會比 s 更近似於高斯分佈。 在雞尾酒派對問題中,唯一得到訊息的只有麥克風所收錄的混合訊號 x,而說話者語音 訊號 s 與實際混合情況 A 皆未知。在假設說話者的語音訊號彼此獨立的情況下,利用 ICA 來找出一個合適的解混合矩陣 W(unmixing matrix),使得接收到的訊號經過 W 的轉換能夠得到原來的聲源訊號。. 18.

(20) x 由 W 重建後得到 y :. y = Wx. (2-3). 結合上述兩公式,因此可得:. y = WAs. (2-4). 如何估計 W 主要是利用聲源訊號與訊號之間呈現獨立的特性,換句話說,就是經 由判斷 y 中每個訊號是否獨立來決定 W。當 y 具有最大的非高斯特性時,相對的獨立 性也最大,可得到 W = A-1,則 ICA 估測出來的 y 就可當做是原來的獨立訊號源 s 。根 據上述 ICA 的基本觀念,可進一步將問題擴大為有 m 個麥克風來接收 n 個聲源,如下 所示:. ⎡ ⎢ x = ⎢⎢ ⎢ ⎢⎣. x1 ⎤ ⎡ a11 a12  a1n ⎥ ⎢ x2 ⎥ ⎢ a21 a21  a2n =  ⎥ ⎢    ⎥ ⎢ xm ⎥ ⎢ am1 am1  amn ⎦ ⎣. ⎤⎡ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎦ ⎢⎣. s1 ⎤ ⎥ s2 ⎥ = As  ⎥ ⎥ sn ⎥ ⎦. (2-5). ⎡ ⎢ y = ⎢⎢ ⎢ ⎢⎣. y1 ⎤ ⎡ w11 w12  w1m ⎥ ⎢ y2 ⎥ ⎢ w21 w21  w2 m =⎢ ⎥     ⎥ ⎢ yn ⎥ ⎢ wn1 wn1  wnn ⎦ ⎣. ⎤⎡ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎦ ⎢⎣. x1 ⎤ ⎥ x2 ⎥ ≈s ⎥  ⎥ xm ⎥ ⎦. (2-6). 19.

(21) 二、ICA 的假設條件: ICA 演算法本身有四項基本假設條件,在使用之前,必須先確定是否滿足這些條 件(Stone, 2002): (一)聲源本身在統計上獨立(independent) 由於 ICA 的演算法就是用聲源彼此獨立的特性來發展出來的,因此所有的聲源必 須滿足彼此獨立的特性。定義獨立的概念,在此先考慮兩個純量的隨機變數 v1 與 v2 , 若是 v1 與 v2,或是 v2 與 v1 沒有任何關係,就稱 v1 與 v2 相互獨立。更精確來說,獨立 可利用 probability density 來定義,當隨機變數 v1, v2, ... , vn 其 joint probability density function 可表達為 marginal probability density function 的乘積,則可稱隨機變數 v1, v2, ... , vn 之間是互相獨立的。. p ( v1 ,v2 ,v3 ,...,vn ) = p1 ( v1 ) p2 ( v2 ) p3 ( v3 ) pn ( vn ). (2-7). (二)各獨立聲源必須為非高斯分佈(non-Gaussian distribution) 由於 ICA 尋找獨立元素的方法來自中央極限定理(Central Limit Theorem),此定 理中說明了:若將多個非高斯分佈(non-Gaussian distribution)且相互獨立的隨機變數 相加之後,其整體結果會更趨近高斯分佈(Gaussian distribution),如圖2-4說明。換 句話說,任意兩個隨機的訊號越偏向於非高斯分佈,則這兩個訊號之間的關聯性就越 小,也就是說這兩個訊號之間越可能獨立。. 20.

(22) 圖 2-4 中央極限定理說明圖. 此外,高斯分佈之變數具有疊加性,當兩個高斯分佈的訊號相加之後仍然為高斯 分佈。因此若一個群集訊號是由高斯訊號線性混合而成,則 ICA 將無法分離出真正的 原始訊號,因此在使用 ICA 來分離訊號時,群集訊號中最多僅能允許有一個訊號為高 斯分佈。 (三)聲源的數目必須小於或等於感測器的數目 假設以 m 個感測器獲得訊號 x,而原始聲源訊號 s 數量為 n 個。在公式 x = As 的 情況下,以線性方程式的角度來看:若 m = n,則 s = A-1x,有解 ; 若 m > n ,則方程式 比未知數多,在這種情形下可先將維度降為 n 再執行 ICA ; 若是 m < n,則方程式比未 知數少,在這種情況下,則缺乏足夠的條件來找出未知的獨立元素。因此聲源的數目 必須小於或等於感測器的數目。 (四)感測器本身的雜訊很小,可以忽略不計 若感測器本身的雜訊很大,ICA 會將感測器雜訊視為另一個獨立聲源,進而造成 聲源數目大於感測器數目的情況。. 21.

(23) 三、ICA 方法的不確定性 從 ICA 的模型中可以看出以下兩項不確定性(Hyvärinen & Oja, 2000): (一)無法確定各獨立元素的變異數 根據 ICA 模型 x = As, 第 i 個感測器所接收到的混合訊號可表示成公式(2-8): n. xi = ∑ aij s j j=1. (2-8). 由於混合矩陣 A 與 聲源 S 皆未知,當 Sj 被放大 k 倍時,aij 只要除以 k 就可以互相 抵銷,如公式(2-9): n. (. )( ). xi = ∑ aij / k s j k j=1. (2-9). 因此假設每一個獨立聲源的變異數(Variance)均等於 1,如公式(2-10):. { }. E si2 = 1. (2-10). (二)無法確定獨立元素的順序 此項不確定性也跟 ICA 模型 x = As 中未知的混合矩陣 A 與聲源 s 有關。根據公式 (2-8),每個混合訊號的次序是可以任意的被調換的,因此無法定義某個獨立訊號是第 幾個。換句話說,利用 ICA 所估計出來的解混合矩陣 W 所求得的獨立成份獨立成份, 與原始獨立訊號的順序是不相同的。. 22.

(24) 四、ICA 演算法的架構: ICA 對於處理資料方面大致上可分為兩個階段。其流程如圖2-5所示:. x. Centering. whitening. z. Objective Function. y. 圖 2-5 獨立成份分析法步驟流程圖. (一)第一階段:資料前處理(Pre-processing) ICA 是從觀察訊號中找出獨立成份獨立成份來解決訊號分離的問題,整個過程相 當複雜。如果可以先將觀察訊號轉換成有意義的形式,將能簡化運算的複雜性。基於 23.

(25) 這個理由,在進行 ICA 演算法之前,通常會先將取得的混合訊號 x 執行去均質 (centering)與白化(whitening) 等兩項步驟,以減輕後續動作的運算量。 1. 去均質(centering) 先將所量測到的混合訊號 x 減去其平均值 E(x),使獲得的新訊號 x’ 為零平均,其 主要目的是要加快 ICA 的演算速度。. x ' = x − E { x}. (2-11). 2. 白化(whitening) 白化的目的是利用線性轉換將原本相關變數轉換成不相關變數,使得原本變異度 較大的變數都集中落在少數的新變數中。變異度較大的變數為主要成份,變異度較小 的變數則可視為雜訊來源。透過這種方法,可以丟掉變異度小的訊號,進而達到抑制 雜訊,加強來源訊號的效果。 假設有一零平均的隨機向量 z = ( z1, ... , zM )T 滿足 E{ zzT } = I ,I 為單位矩陣,則 我們稱這個向量為白化向量。在 ICA 中,對於零平均的獨立訊號源 s = [ s1, ... , sN ] T 而 言,可以得到:. { }. { }. E si s j = E { si } E s j = 0. (2-12). 其共變異矩陣(covariance matrix)是單位矩陣,即 cov ( s ) = I ,因此訊號源 s 是 彼此不相關的。對於觀察訊號 x ,我們可以找到一個線性轉換,使 x 投影到新的子空 間後變成白化向量,即. z = Vx. (2-13). 其中 V 稱為白化矩陣(whitening matrix),z 為白化向量。常見的方法是對觀察訊 號的共變異矩陣做特徵值分解(eigenvalue decomposition)。 24.

(26) { }. E xx T = EDE T. (2-14). E 是由 E{xx T } 的特徵向量(eigenvectors)所構成的正交矩陣(orthogonal matrix),D是由其相對應的特徵值(eigenvalues)所構成的對角矩陣(diagonal matrix)於是可得白化矩陣為:. V = ED −1/2 E T. (2-15). 將 V 帶回 z = Vx 式得 z = ED-1/2ETx ,因此可藉由檢查其共變異矩陣是否為單位矩 陣,以確定經過 V 轉換後的 z 是否已為一白化向量。. { } = E { ED E zzT. −1/2. E T xx T ED −1/2 E T. { }. }. = ED −1/2 E T E xx T ED −1/2 E T = ED −1/2 E T EDE T ED −1/2 E T = ED −1/2 E −1EDE −1ED −1/2 E T = ED −1/2 DD −1/2 E T = EE =I. (2-16). 我們再將 x = As 帶入 z = Vx 中 ,並令 VA = Ã,則. ~. z = VAs = A s. (2-17). 如果把上式中的 z 視為新的觀察訊號,我們可以說白化的步驟將原來的混合矩陣 A 進行線性轉換成一正交矩陣。 25.

(27) E { zz T } = E { Ãss T ÃT } = ÃT E { ss T } ÃT = ÃÃT = I. (2-18). 經過以上證明可以發現,透過白化處理步驟能去除訊號與訊號之間的相關性,並 使其變異數等於1 ,進而抑制雜訊造成的影響。. (二)第二階段:演算法 此階段主要分為兩大部分: 1. 以找出互為獨立之元素為目標,定義一個目標函數(Objective Function),用來量測 隨機變數的獨立性。 2. 利用最佳化演算法(Optimization Algorithm),套用於目標函式中,以完成獨立成份 之分離。 (1)目標函數(Objective Function) 根據中央極限定理(Central Limit Theorem),獨立成份的分佈最不為高斯分佈, 因此要以非高斯分佈當做目標函數去進行獨立成份分析估計,就必須對非高斯分佈進 行量化、公式化定義,進而產生一個非高斯的量測值來當做指標去進行獨立成份分 析。在統計學上,通常以峰度(kurtosis)與負熵(neo-entropy)等兩項概念來做為非 高斯程度量測使用。 ◆ 峰度(kurtosis): 峰度的定義在統計學上是隨機變數 y 的四次動差(moment)減去 3 倍隨機變數 y 的二次動差之平方。. (. kurt ( y ) = E { y 4 } − 3 E { y 2 }. ). 2. (2-19). 如果 y 是由平均值為 0 ,變異度為 1 的隨機變數所組成,則 E{y2}= 1,上式可以 簡化為: 26.

(28) kurt ( y ) = E { y 4 } − 3. (2-20). 透過峰度可以知道該隨機變數 y 是何種分佈。峰度為零,y 為高斯分佈(gaussian distribution )﹔峰度不為零,代表 y 為非高斯分佈(non-gaussian distribution)。峰度 可為正值,其代表超高斯分佈(super-gaussian distribution)﹔峰度為負值時,其代表 次高斯分佈(sub-gaussian distribution)。當峰度的絕對值越大,其非高斯的特性越 強﹔峰度的絕對值越小,代表越接近高斯分佈。因此峰度的絕對值或平方可被用來作 為目標函數,用來量測訊號的獨立性。 雖然使用峰度來量測訊號的非高斯特性相當方便且計算簡單,但峰度是屬於四次 方的量測,在如此高次方的計算下,峰度會對於偏離值(outliers)過於敏感,也就是 說當有小小的偏離值時,就會嚴重地改變峰度值,因此對於非高斯程度的量測來說, 峰度並不是穩定且耐用的評估方法。 ◆ 負熵(neo-entropy): 另一種用來量測非高斯程度的方法為負熵(neo-entropy)。熵(entropy)在資訊 理論中是代表資訊量的量測單位,用來描述隨機變數觀測值不確定性的多寡。對於一 連續的隨機變數 y ,如果它的機率密度分佈函數為 p(y),熵的定義為: +∞. H ( y ) = − ∫ p ( y ) ln p ( y ) dy −∞. (2-21). 根據資訊理論,在所有具有相同共變異矩陣(covariance matrix)的分佈當中,高 斯分佈具有最大的熵值,因此若以高斯分佈作為參考,則可以用熵來描述該連續變數 y 與高斯分佈之間的偏離程度,也就是非高斯特性。基於這樣的概念,我們可以將負熵 J 定義為:. (. ). J ( y ) = H ygauss − H ( y ). 27. (2-22).

(29) 其中 ygauss 是與 y 有相同共變異矩陣的高斯分佈隨機變數。當隨機變數 y 也是高斯 分佈時,負熵才會為零,又因為高斯分佈的變數其熵最大,所以對所有隨機變數的負 熵永遠不為負值。尋找負熵的最大值,即為尋找最非高斯分佈的隨機變數。然而,負 熵的計算相當複雜,為了提高估計的方便性,通常會採用較簡化的近似方式,如以下 公式:. J ( y ) ≈ ⎡⎣ E {G ( y )} − E {G ( v )} ⎤⎦. 2. (2-23). 上式中 G 為對照方程式,v 為平均值為零、變異度為 1 的高斯分佈變數。一般來 說,對照方程式 G 可選擇如下:. G1 ( y ) =. 1 log cosh a1 y a1. ⎛ y2 ⎞ G2 ( y ) = − exp ⎜ − ⎟ ⎝ 2⎠. (2-24). (2-25). 上述式子,1 ≤ a1 ≤ 2,對於對照方程式並無強硬的規定,只要該方程式不要是多 項式與二次函數即可,若能挑選正確的對照方式,則可以求出更好的結果。. (2)最佳化演算法 當目標函數給定後,可以採用一般常用的最佳化演算法來最佳化目標函數,而最 佳化演算法的選擇,將取決於演算法的收斂速度(convergence speed)、記憶體需求 (memory requirements)等特性。由於考量到收斂速度的快慢與效能高低,本研究用 於目標函數上的最佳化演算法將採用 FastICA 演算法來進行。 ◆ FastICA 演算法: FastICA 演算法是一種基於類神經網路演算法所推導而來,利用快速收斂的定點 (fixed-point)演算方式,將大量的樣本資料進行批次處理(Hyvärinen & Oja, 2000)。 28.

(30) FastICA 演算法可選擇基於峰度或是基於負熵等等的目標函數,由於採用負熵來進行獨 立性的判斷較為穩定,因此本研究將以負熵最大值作為目標函數的搜尋方向,並利用 FastICA 演算法來依序擷取獨立訊號源。 假設欲量測的 y = wTz ,公式 (2-23) 則可改寫成:. (. { ( )}. ). J wT z ≈ ⎡ E G wT z − E {G ( v )} ⎤ ⎣ ⎦. 2. (2-26). FastICA 演算法式根據定點疊代(fixed-point iteration)的方式來找出J (wTz) 的最大 值。根據 Kuhan-Tucker 最佳化條件(Kuhan-Tucker condition),在 E{G(wTz)2}= ||w||2 = 1的限制下, E{G(wTz)2} 需在滿足公式 (2-27) 的情況下才可獲得 w 的最大值。. { ( )}. E zG wT z + β w = 0. (2-27). 公式 (2-27) 中,β 是一個常數。接著利用定點演算法來解公式 (2-27),以 F(w) 代 表上式等號左邊的函數,可得 F(w) 的 Jacobian 矩陣 JF(w) 如下:. {. (. )}. JF ( w ) = E zzT G ' wT z − β I. (2-28). 定點演算法就是在求每次該對 w 修正多少 Δw. Δw =. F (w) JF ( w ). (2-29). 29.

(31) 由上式可知,要求得 Δw 必須計算 JF(w) 的逆矩陣,因此為了簡化求逆矩陣的過 程,加上資料已經經過白化的前處理動作,則可將公式(2-28) 修改成公式(2-30):. {. (. E zzT G ' wT z. )} ≈ E {zz } E {G '( w z )} = E {G '( w z )} I T. T. T. (2-30). 於是 Jacobian 矩陣變成了對角矩陣(diagonal matrix),並且比較容易求得逆矩 陣。根據牛頓法,可以推出如以下的疊代公式:. { ( )} { ( )}. ⎡ E zG wT z − β w ⎤ ⎦ w + = w + Δw = w − ⎣ ⎡ E G ' wT z − β ⎤ ⎣ ⎦ w+ w=  w+ . (2-31). 其中w+ 代表新的 w 值。由於 β 是個未知的常數,將等式的兩邊乘上β - E{G’(wTz)} 則可簡化成:. { ( )} { ( )}. w + = E zG wT z − E zG ' wT z w. (2-32). 若是 w+ 與 w 同方向即代表收斂,此時便可找到獨立成份。由於獨立成份不只一 個,為了避免每次疊代會收斂至相同的 w 值,因此在找出第 n+1 個 w 時,需將前 n 個 找出 w 的方向減去,以確保每次估測出來的獨立成份都不一樣,如下式:. n+1. wn+1 = wn − ∑ (wTn+1wi )wi i=1. 30. (2-33).

(32) 綜合以上所述,FastICA 演算法的整體步驟流程如下表3所示:. 表3 FastICA 演算法流程 Step 1. 輸入混合訊號 x. Step 2. 將混合訊號 x,透過centering過程,得到平均為零的訊號 xc. Step 3. 將訊號 xc 作 whitening,得到 variance 為 1的訊號 z 選擇需要估計的獨立成份個數m. Step 4 設定疊代次數 p =1 Step 5. 隨機選擇一個初始的 wp 與適當的對照方程式 G 令. Step 6. { ( )} { ( )}. w p+1 = E zG wTp z − E zG ' wTp z w p 計算. Step 7. p−1. w p+1 = w p − ∑ (wTn+1wi )wi i=1. 令 Step 8. wp =. w p+1  w p+1 . Step 9. 假如 wp 不收斂的話,返回 Step 6. Step 10. 令 p = p + 1,如果 p < m,則返回 Step 5. 獨立成份分析的技術主要被當作是盲訊號分離(Blind Signal Separation)的一種工 具,大部份被應用於語音訊號處理上,例如環境下語音事件的偵測與減低聲音雜訊 (Rebordao, Islam Molla, Hirose, & Minematsu, 2008)、雲端快速聲音訊號分離服務(Liang, Wang, Chou, & Chen, 2011),以及結合頻率遮蔽(spectral masking)方法來提高吵雜環 境下的語音辨識度(de Souza Siqueira Versiani, Rodrigues, de Souza, de Matos Moreira, & Yehia, 2012) 等等相關研究。除了語音訊號分析之外,獨立成份分析方法也被運用於其 31.

(33) 他類型的訊號分析上,例如腦電波訊號的處理(Carvalhaes, Perreau-Guimaraes, Grosenick, & Suppes, 2009)、心肺聲音訊號分離與自動去除雜音(Ayari, Ksouri, & Alouani, 2013),以及針對銀行文件上被油墨透印過的影像進行辨識(Chu & Chen, 2012) 等等應用。在此特別要針對謝佩琳所提出的獨立成份分析法運用於萃取影片字幕上之 研究(謝珮琳, 民94)提出討論。由於傳統在影片上的文字萃取,往往是利用廢時且沒效 率的人工審查方式來進行處理。於該研究中,將影片片段視為是由一連串的影片畫面 所組成,而每一張影片畫面是經由文字成份與非文字成份以線性關係所組成的混合訊 號,利用獨立成份分析法能找出每張影片畫面中的特徵值,並計算出文字成份與非文 字成份。於該研究中提出三種方式來進行影片畫面中的特徵分析,首先是針對連續影 像的序列特徵表示法,透過輸入影片中具有相同字幕的連續畫面並分別轉為灰階影像 作為輸入訊號,以利進行獨立成份分析 ; 其次為RGB影像特徵表示法,是以單張影片 畫面中每個畫素所存在的r、g、b三個色頻分別轉為灰階影像作為多張影像的輸出,以 利進行獨立成份分析 ; 第三種方式則為高次特徵表示法,該方法不僅將單張影像畫面 中r、g、b三個色頻視為三張灰階影像,更考慮影像畫素與它周圍畫素之間的關係,以 上、下、左、右的差異再製造出4張混合影像,並利用影像多次混合的法則,加以創造 出二次、三次的混合訊號作為多張影像的輸出,以利進行獨立成份分析。實驗效果也 發現,利用研究中所提出三種方法,在文字的萃取上有顯著的效果,特別是高次特徵 表示方式,對於背景有更好的濾除效果。這不僅是對影片文字萃取提出一個完善且自 動化處理的方式,也證實了獨立成份分析法能被應用的範圍相當廣泛,對於訊號分離 的效果也相當令人期待。. 32.

(34) 第三節 文獻探討小結 在可觸式聲波操控介面的相關討論中,可以發現使用在可觸式聲波操控介面上的 技術均各有其優點與缺點。反應速度較快的方法,如到達時間延遲法,往往需要嚴格 控制環境因素,減低雜訊的影響,才能滿足其對精準度的要求。相反地,能提供更多 聲源訊號資訊的方法,如位置模式比對法,卻具有運算量高、反應速度較慢等缺點。 因此,在開發可觸式聲波操控介面前,必須先考量其裝置目的再謹慎選擇方法。此操 控介面外,此兩種技術常被用來作為聲源的位置判斷使用,這是因為聲音訊號處理技 術運用在定位上性能表現較為穩定,不易受到環境雜訊的影響。若要使用聲音訊號處 理技術用在識別聲源類型時,最常用的方法是針對聲音的頻率來進行處理,然而環境 雜訊影響因素會影響系統分析的穩定性,這樣的狀況也侷限了可觸式聲波操控介面的 應用層面。 根據獨立成份分析法的演算法則,可以發現獨立成份分析法能藉由統計計算方式 來將混合訊號中的獨立元素分析出來。有鑑於此方法在聲音訊號分離的顯著效果,我 們可以對於「獨立成份分析法可運用在可觸式聲波操控介面裝置上,針對感測器所擷 取之混合訊號進行聲源分離使用」這樣的假設保持樂觀看法。從上述獨立成份分析法 之相關應用中也發現到,當利用獨立成份分析法在訊號時域上的分離效果無法突顯 時,可進一步結合了頻域上的分析方式來進行測試。特別是當已知混合訊號有限而欲 求得的成份數量未知時,可以透過頻域切割及高次混合等方式製造更多的輸入訊號來 符合獨立成份分析法的處理程序。本研究將藉由這樣的概念,進一步運用於可觸式聲 波操控介面中,分別針對多麥克風(多音源輸入)與單一麥克風(單音源輸入)所截 取到的混合訊號來進行訊號分離的測試。當不同的聲源能被有效的從混合訊號中分離 出來,不僅雜訊會藉此被過濾,可觸式聲波操控介面也能利用如位置模式比對法等技 術做到同時間下多觸碰事件的辨識,可運用的互動領域也將因此拓寬。. 33.

(35) 第三章 研究方法 由於本研究目的在於利用獨立成份分析法針對可觸式聲波操控介面發展出系統化 的訊號分析架構,因此本研究將利用可觸式聲波操控介面所實際錄製到的聲源訊號進 行實驗與探討。於本章節中,將依序介紹實驗工具及本研究如何把獨立成份分析演算 法運用於可觸式聲波操控介面的混合訊號分析上,嘗試萃取出因不同觸碰事件所產生 的獨立聲源訊號。. 第一節 實驗樣本與工具介紹 可觸式聲波操控介面最初的構想是希望將生活中常見事物,如書桌、餐桌、窗戶 等任何物體表面都能轉變成可互動的空間,但由於在高度異向性(anisotopic)物質 內,如大型木製桌,聲波不會以直線方向傳遞,且傳遞速度也不一致(Fabiani, 2006)。 為減少環境影響因素並維持可觸式聲波操控介面的概念初衷,在本研究中選擇常用來 建造傢俱的密迪板(Medium Density Fiberboard)作為可觸式聲波操控介面的作用物 質。密迪板是由木削或是木材纖維混合膠合劑後熱壓製成,其密度及加工性質與一般 的木材相似,板材的邊緣光滑易於實施型削處理,不會有粒片板或邊緣粗糙的現象 (Fabiani, 2006)。此外由於密迪板是由非常小尺寸的微粒所組成,可被假設為等向性 (isotropic)物質,其衰減係數非常高,可避免因邊緣反射造成的波擾動現象 (disturbance)(Fabiani, 2006)。在密迪板內傳遞的波也以較慢的速度傳遞著,測量上 較為容易(Christensen & Godsill, 2011)。 為了要測試獨立成份分析法在混合聲源訊號下的分離效果,於實驗中將分別採用 鐵棒與木棒同時地在長120cm寬60cm厚5mm的密迪板表面上進行作用,鐵棒以刮擊的 方式作用於介面上,木棒則以敲擊的方式作用於介面上,進而產生兩種不同聲源訊號 (圖3-1)。密迪板表面上貼覆著接觸式麥克風來擷取表面震動聲音訊號,利用 MOTU. 34.

(36) UltraLite-mk3 多軌道錄音介面依取樣頻率 44100 Hz、位元深度16bit ,配合Sound Forge Pro 軟體錄製成單(多)軌的 wav 格式音訊檔案,整體裝置示意圖請詳見圖3-2。 本實驗將採用MATLAB R2012a版本進行訊號分析的編程,並配合 FastICA Toolbox 進行獨立成份分析。. 圖 3-1 木棒敲擊與鐵棒刮擊波型圖. 圖 3-2 本實驗所採用之可觸式聲波操控介面示意圖 35.

(37) 第二節 符合獨立成份分析法的混合聲源假設 在本研究中,假設每個麥克風截取的聲音訊號就是一組混合訊號 X ,此訊號是由 木棒敲擊聲源訊號 Sk 與鐵棒刮擊聲源訊號 SS 經由線性關係混合而成。(見圖3-3). 圖 3-3 基於獨立成份分析法之混合訊號組成成份示意圖. 以上述的假設,可建構出於符合本研究之聲源訊號的獨立成份分析模型,如公式 (3-1)。在此,木棒敲擊聲源訊號 Sk 與鐵棒刮擊聲源訊號 SS 被視為是兩獨立特徵值,而 麥克風所截取的混合訊號 Xi 是由木棒敲擊聲源訊號 Sk 與鐵棒刮擊聲源訊號 SS 透過混合 權重 aik 及 ais 所混合而成。. Xi (t) = aik Sk + ais Ss. 36. (3-1).

(38) 若有m個麥克風同時間作為截取具有n項特徵值的混合訊號使用時,公式(3-1)可進 一步擴大成為公式(3-2):. ! # # # # # # ". X1 $ ! & a11 a12  a1n X2 & # & # a21 a22  a2n X3 & = #     & # # am1 am2  amn X m &% ". $! &# &# &# &# &%#". S1 $ & S2 & &  & Sn &% (3-2). 從文獻當中可以得知,獨立成份分析法主要是在只有混合訊號 X 已知的情況下, 去找一個解混合矩陣 W,經過轉換後可以得到原本獨立的訊號。換句話說,只要能把 混合訊號依據特徵值表示如公式(3-2)的形式,便可透過獨立成份分析處理程序計算出 藏在混合聲源訊號中的獨立聲源成份。 我們先依據公式(3-2)概念,利用一段演唱會live片段音樂進行獨立成分分析測試。 此片段音樂為取樣頻率44100Hz的wav格式音樂,長度約10秒鐘,內容包含鼓聲與吉他 演奏聲。將此段音樂依左右聲道拆成兩段音軌分別來聽,發現兩音軌聽得出均含有共 同的聲音組成,但由於組成的比例不同混雜在一起,因此聽覺上有明顯的差別。此 外,將兩段音軌繪製波形圖來看(如圖3-4),兩段波形雖在振幅上有所差異,但整體 波形走向大致相同,因此可以將此兩段音樂片段視為是符合獨立成份分析法假設下的 混合聲源訊號。. 37.

(39) 圖 3-4 演唱會live音樂片段左右聲道波形圖. 透過獨立成份分析法進行分析後,分離出兩段聲音訊號,其波形圖如圖3-5所示。 從圖3-4與圖3-5中可以發現,獨立成份分析法確實對混合的聲音訊號產生了作用,使得 原本看似相同的聲音分離過後產生波形上的差異。除了波形上的不同,分離過後的訊 號在聽覺上也加大了差異。在訊號2中,吉他的聲音被凸顯了出來,而鼓聲與其它背景 音樂聲則變為混雜,且音量降低許多 ; 然而訊號1與原始兩音軌的聽覺效果較為相似, 沒有太多變化。 轉為頻率角度來觀察,原始兩音軌的頻率分佈如圖3-6所示,而透過獨立成份分析 法處理過後的分離訊號之頻率分佈則見圖3-7。兩組訊號在頻率的分佈上並沒有改變太 多,表示聲源訊號大致上都存在,只是所佔比例多寡有所差異,與聽覺上所顯示出來 的效果大致相同。. 圖 3-5 演唱會live音樂片段透過ICA處理後所得之分離訊號波形圖. 38.

(40) 圖 3-6 演唱會live音樂片段聲音訊號頻率分佈圖. 圖 3-7 演唱會live音樂片段透過ICA處理後所得之分離訊號頻率分佈圖. 我們再依據公式(3-2)概念,嘗試以模擬混合的方式來驗證獨立成份分析法是否能 依據此架構來達到獨立成份分離的效果。首先先針對木棒敲擊和與鐵棒刮擊的聲音訊 號分別單獨利用麥克風實際錄製(如圖3-8),並給予兩段訊號不同的權值後以 MATLAB進行人工模擬混合,再透過 FastICA 演算法進行訊號分離的步驟。. 39.

(41) 圖 3-8 木棒敲擊和與鐵棒刮擊原始訊號波形圖. 圖 3-9 混合後訊號波形圖. 圖 3-10 FastICA分離後訊號波形圖. 透過人工混合出的兩段混合訊號在波形上雖能看出有包含兩原訊號的輪廓(如圖 3-9所示),但聽覺效果上卻已與原訊號大不相同。經過FastICA進行分析後,得出兩個 獨立元素,其波形與原信號之波形較為相似,如圖3-10所示,藉此可推斷,不同權重 值的混合,並不會對於獨立元素分析法在分離訊號上造成太大影響。. 40.

(42) 將原始訊號、混合訊號以及分離出來的訊號均轉換成頻域的角度來觀察,可以發 現訊號的混合改變了原始訊號的頻率分佈,使得兩段混合訊號的頻率分佈趨近相似。 然而透過獨立成份分析之後所得的分離訊號,其頻率分布則轉為近似於原始訊號所呈 現出的頻率分佈,如圖3-11至圖3-13所示。由上述現象可推論,在符合獨立成份分析法 的混合聲源假設情況下,利用獨立成份分析法在混合訊號上進行分析,由時域及頻域 分佈應可觀察出獨立成份的分離效果。因此,於下一小節內,本研究將提出三種依據 獨立成份分析法原則的操作程序,直接針對可觸式聲波操控介面截取到的混合聲音片 段進行分析處理。. 圖 3-11 木棒敲擊和與鐵棒刮擊原始訊號頻率分布圖. 圖 3-12 混合訊號頻率分布圖. 圖 3-13 分離後訊號頻率分布圖 41.

(43) 第三節 依據獨立成份分析法原則的獨立聲源分析程序 在本小節中將介紹本研究所採用的三種依據獨立成份分析法原則的獨立聲源分析 操作程序來針對可觸式聲波操控介面截取到的混合聲音片段進行分析處理,分別為 (一) 多音源輸入訊號直接進入ICA處理。(二) 單音源輸入訊號經頻率區隔分析後進行 ICA處理。(三) 單音源輸入訊號經頻率區隔及高次混合後進入ICA處理。操作流程如圖 3-14所示,並於下內容進行細部介紹。. 圖 3-14 本研究所採用之獨立聲源分析三操作程序流程說明圖. 程序(一): 多音源輸入訊號直接進入ICA處理 由於木棒敲擊聲音與鐵棒刮擊聲音,在聽覺上、波型顯示上及頻率分佈上均有明 顯的不同(見圖3-15, 3-16),因此依據公式(3-1)的架構,將一段混合訊號中所包含的 所有木棒敲擊聲音視為一獨立訊號源,而所有鐵棒刮擊聲音則視為另一獨立訊號源, 兩獨立訊號源因作用點距離麥克風的遠近而有不同混合係數來對應其組成的比例。. 42.

(44) 圖 3-15 木棒敲擊與鐵棒刮擊波型圖. 圖 3-16 木棒敲擊與鐵棒刮擊訊號頻率分布圖. 我們將密迪板的表面任意設置5個接觸式麥克風,利用多軌道錄音界面同時間進行 錄製木棒敲擊與鐵棒刮擊的聲音,得到混合訊號 Xcont ,如公式(3-3),再將 Xcont 透過 FastICA 演算法進行獨立成份分析測試(見圖3-17 說明)。. 43.

(45) Xcont. ! # # = ## # # #". xmic1 $ ! & # xmic2 & # & # xmic 3 & = # xmic 4 & # & # xmic5 &% #". amic1k amic2 k amic 3k amic 4 k amic5 k. amic1s $ & amic2 s &! & Sknock amic 3s &# # Ssaratch amic 4 s &" & amic5 s &%. $ & &% (3-3). 圖 3-17 程序(一)之混合訊號組成示意圖. 程序(二): 單音源輸入訊號經頻率區隔分析後進行ICA處理 訊號分析方式大致有時間域與頻率域之兩種分析方式。在時間域之分析,最常用 的是時間函數(time function),其表示式為 x ( t )。將訊號的時間函數經過傅立葉轉換 (Fourier Transform)後可得頻率域之函數表示式 x ( f ) ; 相對的,將訊號的頻率函數 x ( f ) 透過反傅立葉轉換(Inverse Fourier Transform)後也可轉換回時間域下的時間函 數 x ( t )。 此操作程序(二)中所採用的方法是利用單一麥克風所錄下的聲音片段先透過頻 率區隔處理,再來進行獨立成份分析。由於獨立成份分析法有一非常重要的原則,就 是混合的成分其數目不得小於欲求得的獨立成份數量。因此,針對單一麥克風所錄製 得來的聲音片段,無法直接利用獨立成份分析法來處理,必須先依據該混合訊號本身 的特性來製作更多訊號輸出,才能進行分析。為解決這個問題,先將截取來的時間域 下混合訊號轉換成頻率域來觀察,了解該段訊號在頻譜上主要分布在哪些頻率範圍 44.

(46) 內,並分別切割出該段頻率下的頻域訊號,透過反傅立葉轉換公式輸出成時域訊號, 藉此可製造出一組混合訊號組 Xsect 以利FastICA演算法執行獨立成份分析測試(如圖 3-18)。. 圖 3-18 程序(二)之混合訊號組成示意圖. 程序(三): 單音源輸入訊號經頻率區隔及高次混合後進入ICA處理 同操作程序(二)所採用的步驟,在程序(三)中也是採用單一麥克風所錄下的 聲音片段,並儘可能地從該聲音片段中製造出更多聲音訊號來提供獨立成份分析法進 行分析處理。於此操作程序中,除了頻率區隔所製造出來的 Xfreq(1~n) 等聲音訊號之外, 更進階的考慮聲音訊號的多次混合法則。公式(3-4) 與 公式(3-5) 分別表示2次與3次的聲 音訊號。將得到高次的混合聲音訊號利用公式(3-6)正規化,得到混合訊號組 Xhigh ,如 公式(3-7)所示,即可透過FastICA演算法進行 Xhigh 的獨立成份分析。. x. (2) (a,b,c). = xa * xb. a , b ∈ { x(t), x freq1 (t), x freq2 (t),x freqn (t)}. x. (3) (a,b,c). and a ≠ b. (3-4). and a ≠ b ≠ c. (3-5). = xa * xb * xc. a , b , c ∈ { x(t), x freq1 (t), x freq2 (t),x freqn (t)} 45.

(47) xnew =. (x − µ ) 3σ. " xrec. freq1 $ $ xrec. freq2 $ xrec. freq 3 $ $  $ x freq(n−1). freq(n) $ xhigh = $ xrec. freq1. freq2 $ $ xrec. freq1. freq 3 $ xrec. freq1. freq 4 $ $  $ $# x freq(n−2). freq(n−1). freq(n). 46. (3-6). % ' ' ' ' ' ' ' ' ' ' ' ' ' ' '&. (3-7).

(48) 第四章 實驗結果與討論 在上述內容提到,本研究針對獨立成份分析法概念提出三種利用在可觸式聲波操 控介面上的混合訊號分析操作程序,實驗樣本為運用可觸式聲波操控介面時,同時由 木棒敲擊表面以及鐵棒刮擊表面而產生的混合聲音,經由貼覆在作用表面的接觸式麥 克風錄製得來。採取的三種操作程序分別為 (一) 多音源輸入訊號直接進入ICA處理。 (二) 單音源輸入訊號經頻率區隔分析後進行ICA處理。(三) 單音源輸入訊號經頻率區隔 及高次混合後進入ICA處理。其分析目的主要以求得可區別的獨立元素訊號為主,因此 在效果評估上,將針對所求得的訊號波型圖與原始混合訊號的波型圖是否俱有明顯差 異作為主要區分原則。以下將針對三種分析程序所得到的實驗結果分別進行探討。. 第一節 多音源輸入訊號與ICA處理 於程序(一)多音源輸入訊號直接進入ICA處理分析操作程序中,密迪板的表面被 任意設置5個接觸式單聲道麥克風以截取並錄製木棒與鐵棒同時作用於板面的聲音,透 過MATLAB分別讀取五段聲音訊號資料,得到的混合訊號聲波圖,如圖4-1所示。仔細 觀察原始波形圖(見圖4-2),可以看出木棒敲擊表面所產生的聲音是短暫具有較高振幅 的波型,而鐵棒刮擊表面所產生的聲音是連續、段時間內震動次數多且振幅較低的波 型。而當鐵棒與木棒同時作用時,其產生的波型則同時具有上述兩種特性,雖然可大 致從振幅大小來推斷出哪些時間區段下有發生動作,但卻無法明確地指出兩動作各自 發生或結束的時間點為何。. 47.

(49) 圖 4-1 程序(一):五個麥克風所截取的混合訊號聲波圖. 圖 4-2 程序(一):混合訊號原始波形圖. 透過FastICA演算法進行分析,嘗試輸出2~5個分析後訊號以進一步觀察。所得結 果發現,無論透過該方法去嘗試輸出幾個獨立訊號,雖有一些區段的振幅大小略為變 動,但所得的訊號波型與原始訊號均大同小異(見圖4-3至圖4-6),並無法辨識有出明顯 的訊號分離現象發生。. 48.

(50) 圖 4-3 程序(一): ICA後所得訊號波形圖-輸出 2 個訊號. 圖 4-4 程序(一): ICA後所得訊號波形圖-輸出 3 個訊號 49.

(51) 圖 4-5 程序(一): ICA後所得訊號波形圖-輸出 4 個訊號. 圖 4-6 程序(一): ICA後所得訊號波形圖-輸出 5 個訊號 50.

(52) 第二節 單音源訊號經頻率區隔與ICA處理 於程序(二)單音源輸入訊號經頻率區隔分析後再利用ICA進行聲源訊號萃取,密 迪板的表面僅被設置1個接觸式單聲道麥克風以截取並錄製木棒與鐵棒同時作用於板面 的聲音,所收錄到的混合訊號的波形如圖4-7所示,由振幅的大小與波出現的頻率仍然 可以大致看出木棒敲擊所造成的訊號以及鐵棒刮擊所造成的訊號在該混合訊號中之發 生的時間區段為何。將該訊號轉換為頻域角度來觀察,頻率分佈顯示,此段混合訊號 主要分佈在0 Hz ~ 8000 Hz之間,且分別在頻率區段 0 ~ 1000Hz、1000Hz ~ 2000Hz、 2000Hz ~ 3000Hz、及 3000Hz ~ 5000Hz之間有較多的訊號分布。因此,於此階段時間 中將針對以上四頻域區段進行頻域時域訊號轉換,進而產生新訊號(公式4-1)。. Xsect. " x freq0−1000 $ $ x freq1000−2000 $ = $ x freq2000−3000 $ x $ freq 3000−5000 $ xrec #. 51. % ' ' ' ' ' ' ' &. (4-1).

(53) 圖 4-7 程序(二):單一麥克風所錄製的聲波訊號圖. 圖 4-8 程序(二): 單一麥克風所錄製的聲波頻率分佈圖 52.

(54) 將Xsect 繪製出波型來觀察(見圖4-8),可以發現從頻率區段來切割混合訊號,同 時也具有過濾訊號的效果,除了較高頻的訊號與較低頻的訊號可被藉此分開,一些環 境雜訊也透過該方法被過濾掉,因此從波型圖上已大致上能看出木棒敲擊所造成的訊 號聲源的波型從混合訊號中被凸顯出來。接著透過FastICA進行獨立成份分析處理時, 也試著嘗試分別輸出2~5個分析後訊號進行觀察(見圖4-9至圖4-13)。由分析結果波形 圖中可以發現木棒敲擊表面所造成的訊號聲已經很明顯地可以由混合訊號中被抽離出 來,透過ICA輸出的訊號越多,能藉此分離出來的訊號細節就更加的詳細。. 圖 4-9 程序(二): 利用頻率區隔所製作出的所有訊號波型圖. 53.

(55) 圖 4-10 程序(二): ICA所得之訊號波型圖 - 輸出 2 個訊號. 圖 4-11 程序(二): ICA所得之訊號波型圖 - 輸出 3 個訊號. 54.

(56) 圖 4-12 程序(二): ICA所得之訊號波型圖 - 輸出 4 個訊號. 圖 4-13 程序(二): ICA所得之訊號波型圖 - 輸出 5 個訊號 55.

(57) 第三節 單音源訊號經頻率區隔及高次混合與ICA處理 於程序(三)單音源輸入訊號經頻率區隔及高次混合後再利用ICA進行聲源訊號 萃取,此階段利用操作程序(二)中麥克風所截取到的混合訊號以及由頻域切割轉換 而來的區段訊號,並依據公式(3-4)與公式(3-5)製作各出10段二次訊號與10段三次訊 號,合計高次混合訊號組 Xhigh 共有25段的訊號來進行獨立成份分析,訊號波形圖如圖 4-14至圖4-18所示。由於訊號數量眾多,加上運算需求量較大,使得程序(三)在進行 獨立成份分析時的運算遠較程序(一)與程序(二)所消耗的時間更多。 藉由獨立成份分析法進行訊號分析後,嘗試由25段原始混合訊號中輸出2~5個分析 後訊號進行觀察,結果顯示獨立成份分析法在程序(三)中僅針對木棒敲擊表面所造 成的大振幅的訊號進行分離,且分離出來的訊號波形已與原訊號的波形大不相同,造 成失真的現象(參考圖4-19至圖4-22)。. 圖 4-14 程序(三):高次混合訊號組 Xhigh 之訊號波形圖之一. 56.

(58) 圖 4-15 程序(三): 高次混合訊號組 Xhigh 之訊號波形圖之二. 圖 4-16 程序(三): 高次混合訊號組 Xhigh 之訊號波形圖之三. 57.

(59) 圖 4-17 程序(三): 高次混合訊號組 Xhigh 之訊號波形圖之四. 圖 4-18 程序(三): 高次混合訊號組 Xhigh 之訊號波形圖之五. 58.

(60) 圖 4-19 程序(三): ICA所得之訊號波型圖 - 輸出 2 個訊號. 圖 4-20 程序(三): ICA所得之訊號波型圖 - 輸出 3 個訊號. 59.

(61) 圖 4-21 程序(三): ICA所得之訊號波型圖 - 輸出 4 個訊號. 圖 4-22 程序(三): ICA所得之訊號波型圖 - 輸出 5 個訊號 60.

(62) 由上述三項實驗操作程序所得之實驗結果顯示,在實驗操作程序(二)中,透過 分析混合訊號的頻率分佈,切割出頻率分佈的區段來進行獨立成份分析,其訊號分離 效果相較於直接將多音源輸入訊號進行獨立成份分析處理,或是將單音源輸入訊號外 加頻率區隔與高次混合後所得來的分析效果,明顯有效許多,且有過濾訊號雜訊的能 力。然而,透過本實驗所採用的分析程序,所得到的最佳分離效果僅對木棒敲擊表面 聲音的分離效果較為顯著,而鐵棒刮擊表面的聲音則仍混雜無法分離。 經研究者推測,其原因可能在於本研究中所採用的兩種不同聲音訊號源:木棒敲 擊表面聲音與鐵棒刮擊表面聲音,在波形圖上已有明顯的差別;若轉為頻率來看,木 棒敲擊表面聲音在頻率分佈上為低頻訊號居多,而鐵棒刮擊表面聲音則略居高頻的範 圍內。兩者在頻率上分佈得明顯差異,或許是造成實驗操作程序(二)所得之木棒敲 擊訊號具顯著分離效果之因素。 在實驗操作程序(一)中利用多音源的輸入來進行分析,其結果卻與預期效果差 異甚大,無法將任何訊號分離出來;依據以盲訊號分離技術的角度來看,利用獨立成 份分析法於盲訊號分離上,其優點在於可以在不知道訊號源數量的情況下而進行分 析,然而本實驗利用多麥克風所收錄的訊號來進行獨立成份分析,其效果與假設不 符,原因可能在於聲音訊號於固體物質中傳導具複雜的特性,而未完善考量聲音訊號 傳導的物理因素使得訊號分離失敗。 在實驗操作程序(三)中所採用的高次混合方法所得結果也與實驗預期結果差異 甚大,令實驗者感到相當訝異。依據文獻探討中所提到之影片字幕萃取實驗(謝珮琳, 民94)所得結果來看,高次混合加強了像素與像素之間的關係性,也造成獨立成份分析 後的顯著分離效果。反觀本次實驗中針對聲音訊號進行高次混合處理,所得到的分離 訊號卻明顯失真且造成無法辨識的結果,其原因則需後續研究進一步探討。. 61.

(63) 第五章 結論與建議 本章分為兩小節,第一節的結論部分,將針對前述第四章實驗結果進行彙整與結 論。第二節的建議部分將根據研究結論提出相關建議,以供未來研究者參考。. 第一節 結論 本研究利用獨立成份分析法針對可觸式聲波操控介面發展出系統化的訊號分析架 構,並提出三種依據獨立成份分析法概念所發展出的混合聲音訊號分析操作程序,分 別為,分別為 (一) 多音源輸入訊號直接進入ICA處理, (二) 單音源輸入訊號經頻率區 隔分析後進行ICA處理 ,以及 (三) 單音源輸入訊號經頻率區隔及高次混合後進入ICA 處理。分析的目的在於將可觸式聲波操控介面與物體因觸碰所產生的聲音混合訊號進 行訊號分離。 實驗結果發現,透過分析單一麥克風所收錄的混合聲音訊號之頻率分佈,並依據 頻率分佈的區段進行訊號切割與重建,製造出更多混合訊號來進行獨立成份分析,其 訊號分離效果相較於直接將多音源輸入訊號進行獨立成份分析處理,或是將單音源輸 入訊號外加頻率區隔與高次混合後所得來的分析效果明顯有效許多,能有效將木棒敲 擊密迪板表面所造成的聲音分離出來。此研究結果也證實了獨立成份分析法可用於可 觸式聲波操控介面上作為聲源訊號分離使用,提供可觸式聲波操控介面在裝置開發技 術上的另一選擇。. 第二節 建議 回歸到本研究的目的來看,導入獨立成份分析技術於可觸式聲波操控界面上使用 的目的,主要在於希望利用觸控方式進行互動的人機界面系統能運用此方法來擴展更 多元的互動事件辨識,並減低設備的建設成本。對於系統來說,只要能萃取到與原始 62.

(64) 混合訊號有一定程度差異的分離訊號,無論該分離訊號是否具有任何實質意義,只要 系統能對此分離訊號進行辨識並作出回應,就代表已達到有效的分離效果。因此,當 利用獨立成份分析法來做為可觸式聲波操控介面的裝置開發技術時,應該先回歸到界 面的設計層面及目的進行考量。若能先將欲獲得的訊號類型進行特徵分析,並規劃系 統的辨識範圍,便能大大提高此操控介面的互動性與完整性。 由於本研究採用非即時性的方式來進行訊號分析,且對於系統進行訊號分析的效 能層面並無納入考量,因此本實驗所採用的訊號分析方法、演算法以及研究結果不完 全能應用於所有的可觸式聲波操控介面上。此外,在混合訊號的分離效果評估上也應 更進一步採實驗數據驗證才能更加完善。因此,對於未來後續的研究方向有下列五點 建議,以供未來研究參考:(1)將聲音的傳導特性納入考量,進一步討論多音源輸入 實際在獨立成份分析法下的可行性。(2)改良在頻率區隔過程上的人工辨識方式,提 高頻率區隔的精準度。(3) 針對聲音訊號的特性去發展有效的高次混合,以利單音源 輸入下的獨立成份分析過程使用。(4)加入多種物體與界面互動所產生的不同聲源訊 號進行測試,進一步驗證獨立成份分析法在可觸式聲波操控介面下的可行性。(5)利 用獨立成份分析法來為即時性的可觸式聲波操控介面進行開發設計。. 63.

(65) 參考文獻 Ainhoren, Y., Engelberg, S., & Friedman, S. (2008). The cocktail party problem [instrumentation notes]. Instrumentation & Measurement Magazine, IEEE, 11(3), 44-48. doi: 10.1109/MIM.2008.4534378 Ayari, F., Ksouri, M., & Alouani, A. T. (2013, Jan 20-22). Computer based analysis for heart and lung signals separation. Paper presented at the 2013 International Conference on Computer Medical Applications (ICCMA), Sousse. Carvalhaes, C.G., Perreau-Guimaraes, M., Grosenick, L., & Suppes, P. (2009, June 28 - July 1). EEG classification by ICA source selection of Laplacian-filtered data. Paper presented at the IEEE International Symposium on Biomedical Imaging: From Nano to Macro (ISBI 2009), Boston, MA. Christensen, J. E. N., & Godsill, S. J. (2011, Oct. 16-19). Bayesian classification of acoustical waveforms under environmental variability,. Paper presented at the 2011 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, NY. Chu, B. Y., & Chen, Y. B. (2012, Sept. 18-20). Reduction of bleed-through effect in images of chinese bank items. Paper presented at the 2012 International Conference on Frontiers in Handwriting Recognition (ICFHR), Bari. Comon, P. (1994). Independent component analysis, a new concept? Signal Processing, 36(3), 287-314. doi: 10.1016/0165-1684(94)90029-9 Crevoisier, A., & Bornand, C. (2008). Transforming daily life objects into tactile interfaces. Paper presented at the 3rd European Conference on Smart Sensing and Context, Zurich, Switzerland. Crevoisier, A., Bornand, C., Guichard, A., Matsumura, S., & Arakawa, C. (2006). Sound rose: creating music and images with a touch table. Paper presented at the Proceedings of the 2006 conference on New Interfaces for Musical Expression (NIME06), Paris, France. de Souza Siqueira Versiani, T., Rodrigues, G. F., de Souza, A. C. S., de Matos Moreira, J., & Yehia, H. C. (2012, July 3-4 ). Binary spectral masking for speech recognition systems. Paper presented at the 35th International Conference on Telecommunications and Signal Processing (TSP), Prague. Elena, M., Omar, A. K. , Stéphane, P., Stefano, C., & Houda, C. D. (2009). Generic framework for transforming everyday objects into interactive surfaces. Paper presented at the 13th International Conference on Human-Computer Interaction. Ambient, Ubiquitous and Intelligent Interaction, San Diego, USA. Fabiani, M. (2006). Development of a tangible human-machine interface exploiting in-solid vibrational signals acquired by multiple sensors. (Master's thesis). Harrison, C., & Hudson, S. E. . (2008). Scratch input: creating large, inexpensive, unpowered and mobile finger input surfaces. Paper presented at the Proceedings of the 21st annual ACM symposium on User interface software and technology, Monterey, CA, USA. Harrison, C., Xiao, R., & Hudson, S. E. (2012). Acoustic barcodes: passive, durable and inexpensive notched identification tags. Paper presented at the Proceedings of the 25th annual ACM symposium on User interface software and technology, Cambridge, Massachusetts, USA. 64.

參考文獻

相關文件

If necessary, you might like to guide students to read over the notes and discuss the roles and language required of a chairperson or secretary to prepare them for the activity9.

In this thesis, we present a Threshold Jumping (TJ) and a Warp-Around Scan (WAS) techniques aim to coordinate simultaneous communications in high density RFID

The study of purpose: We use Structure-Conduct-Performance structure of industry organization economy theory by Mason-Bain to analysis the influence of market

Developing a signal logic to protect pedestrian who is crossing an intersection is the first purpose of this study.. In addition, to improve the reliability and reduce delay of

Developing a signal logic to protect pedestrian who is crossing an intersection is the first purpose of this study.. In addition, to improve the reliability and reduce delay of

Based on a sample of 98 sixth-grade students from a primary school in Changhua County, this study applies the K-means cluster analysis to explore the index factors of the

Based on the analysis conducted by the independent researcher, how could the newspaper report be modified to give a better description of the relationship between the number

This study based on the computer attitudes, the digital learning attitude and the digital game attitude and tried to find out the factors affecting digital game-based