麥克風陣列音訊互動裝置設計及其應用之研究

全文

(1)國立臺灣師範大學圖文傳播學系碩士論文. 麥克風陣列音訊互動裝置設計及其應用之研究 A Study of Audio Interactive Device Design with Microphone Array and Applications.. 研究生：洪欣民指導教授：周遵儒教授. 中華民國一百年一月.

(2) 摘要音樂與舞蹈是密不可分的，一般都是舞者透過肢體動作來表現音樂的內容與情感，如果音樂的呈現是取決於舞者的肢體動作，便能讓音樂與舞蹈之間有另一層面的對話。本研究的目標為開發一個以聲音為主的互動裝置，在互動裝置的輸入部分，我們利用麥克風陣列來接收使用者的舞步，並使用了舞步偵測與三角定位的方法來分辨其節奏與踏步位置；輸出部分，依照使用者的舞步節奏與位置即時地改變音樂的速度與內容，並使用 MIDI 的音樂混音輸出回饋給使用者。藉由本互動裝置的開發，提供了一種無頇配戴的互動方式來進行人機互動，使用者透過舞步做為互動的輸入，並即時呈現配合自己舞步的音樂輸出，進而完成即時的聲音互動裝置。. 關鍵詞：音樂，舞蹈，互動裝置，麥克風陣列，音源定位. I.

(3) Abstract Music and dance are inseparable, generally, dancers use their body movement to present music's content and emotion; However, if the presentation of music is decided by dancer's body movement, that could make music and dance has another interactive relationship. The purpose of this study is to develop an audio interactive device. In the part of input, we use microphone array as interactive device to capture the sound signal of user’s steps, and use step recognition and triangulation to recognize user steps' tempo and location. In the part of output, the different tempo of user's stepping will change the tempo of MIDI music, and the different location of stepping will make MIDI music different mixed content. By the development of this device, offering a wearless way to make interaction between human and machine. User can display the music immediately match up with his body movement, achieving a real-time interactive music device. Keywords: Music, dance, interactive device, microphone array, sound localization.. II.

(4) 目錄第一章. 緒論 ....................................................................................................... 1. 第一節. 研究背景與動機 ............................................................................ 1. 第二節. 研究目的 ....................................................................................... 4. 第三節. 研究問題 ....................................................................................... 4. 第四節. 研究流程 ....................................................................................... 5. 第五節. 研究範圍與限制 ............................................................................ 6. 第六節. 名詞釋義 ....................................................................................... 7. 第二章. 文獻探討 ............................................................................................... 9. 第一節. 人機互動與互動裝置 .................................................................... 9. 第二節. 音訊互動作品探討 ...................................................................... 15. 第三節. 麥克風陣列與定位 ...................................................................... 22. 第四節. MIDI 音樂與發展 ........................................................................ 29. 第五節. 文獻探討小結 .............................................................................. 32. 第三章. 研究方法 ............................................................................................. 34. 第一節. 研究架構 ..................................................................................... 34. 第二節. 研究工具 ..................................................................................... 35. 第三節. 互動裝置設計 .............................................................................. 36. 第四章. 研究結果與討論.................................................................................. 49. 第一節. 互動裝置呈現 .............................................................................. 49. 第二節. 舞步偵測測試 .............................................................................. 53. 第三節. 麥克風陣列定位測試 .................................................................. 57. 第五章. 結論與建議 ......................................................................................... 70. 第一節. 結論 ............................................................................................. 70. 第二節. 建議 ............................................................................................. 71. III.

(5) 圖目錄圖 1-1：研究流程圖 ................................................................................................. 5 圖 2-1：感官模式與感測模式的互動關係 ............................................................ 12 圖 2-2：Drawn 裝置實際操作照片 ........................................................................ 15 圖 2-3：Messa di Voce 裝置實際操作照片 ............................................................ 16 圖 2-4：Freqtric Drums 裝置實際操作照片 ........................................................... 17 圖 2-5：reacTable 裝置實際操作照片 ................................................................... 18 圖 2-6：The Sound of Touch 裝置實際操作照片 ................................................... 18 圖 2-7：Drawdio 裝置實際操作照片 ..................................................................... 19 圖 2-8：對立說法作品 ........................................................................................... 20 圖 2-9：三位一體裝置實際操作圖........................................................................ 20 圖 2-10：2304+壹作品示意圖 ............................................................................... 21 圖 2-11：麥克風陣列應用於飛機噪音偵測示意圖 ............................................... 23 圖 2-12：LOUD 麥克風陣列實際裝置圖 .............................................................. 24 圖 2-13：三角定位示意圖 ..................................................................................... 27 圖 2-14：檔頭區塊基本格式 ................................................................................. 30 圖 2-15：音軌區塊基本格式 ................................................................................. 30 圖 3-1：研究架構圖 ............................................................................................... 34 圖 3-2：互動裝置設計圖 ....................................................................................... 36 圖 3-3：原始波形圖 ............................................................................................... 38 圖 3-4：元素差計算後的波形圖 ........................................................................... 39 圖 3-5：濾波後的波形圖 ....................................................................................... 40 圖 3-6：麥克風指向性示意圖 ............................................................................... 41 圖 3-7：本研究麥克風陣列裝置示意圖 ................................................................ 42 圖 3-8：訊號強度示意圖 ....................................................................................... 43 圖 3-9：訊號比例強度與距離關係圖 .................................................................... 44 圖 3-10：三角定位運用於麥克風陣列示意圖 ...................................................... 44 圖 3-11：最小訊號排除示意圖.............................................................................. 45 圖 3-12：輸出音樂內容示意圖 ............................................................................. 47 圖 3-13：Acid Pro 7.0 實際製作圖 ........................................................................ 48 圖 4-1：本研究的程式使用者介面........................................................................ 49 圖 4-2：開始/播放按鈕操作圖 .............................................................................. 50 圖 4-3：音效裝置操作圖 ....................................................................................... 50 IV.

(6) 圖 4-4：振幅與頻率顯示示意圖 ........................................................................... 51 圖 4-5：定位顯示示意圖 ....................................................................................... 51 圖 4-6：輸出文字檔示意圖 ................................................................................... 52 圖 4-7：麥克風陣列實際裝置圖 ........................................................................... 52 圖 4-8：舞步預測波形圖 ....................................................................................... 53 圖 4-9：人聲雜訊波形圖 ....................................................................................... 54 圖 4-10：裝置操作與人聲雜訊波形圖 .................................................................. 54 圖 4-12：雜訊與舞步偵測結果波形圖 .................................................................. 56 圖 4-13：1600 筆資料座標分佈圖......................................................................... 66 圖 4-14：各區塊帄均點示意圖 ............................................................................. 67 圖 4-15：麥克風頂點區塊準確率示意圖 .............................................................. 68 圖 4-16：麥克風與麥克風之間的區塊準確率示意圖 ........................................... 68 圖 4-17：麥克風中間區塊準確率示意圖 .............................................................. 69. V.

(7) 表目錄表 2-1：感測設備應用於互動輸入分類表 ............................................................ 13 表 3-1：麥克風輸入格式比較表 ........................................................................... 37 表 3-2：本裝置單支麥克風規格 ........................................................................... 41 表 4-1：麥克風陣列定位示意圖 ........................................................................... 58. VI.

(8) 第一章. 緒論. 音樂是舞蹈中的重要元素，沒有音樂，舞蹈只是沒有意義的肢體線條，舞者必頇透過聽覺將所聆聽到的音樂用肢體動作表現出來。自古以來，舞蹈都是扮演配合音樂的角色，如果能夠反過來讓音樂的進行是配合舞者的肢體動作，便能讓舞蹈與音樂有另一層不一樣的對話。本章節將分別介紹本研究的研究背景與動機、研究目的、研究問題、研究流程、研究範圍與限制以及名詞解釋。. 第一節. 研究背景與動機. 音樂是由有組織性的音符安排在時間中流動所創造的聲音藝術[1]，舞蹈是舞者透過有組織性和律動性的肢體動作所表現的視覺藝術。音樂與舞蹈之間存在著一種相互依存的聯繫，音樂透過舞蹈的呈現而讓人們對音樂有視覺感官，而舞蹈透過音樂的搭配讓無聲的肢體動作變有聲。音樂與舞蹈在人類的歷史中有著相當長一段時間，其演進也隨著各種不同的文化而有不同風格與種類，因此各種不同的種類風格也有不同詮釋音樂與舞蹈的差異性。即便如此，音樂與舞蹈都是由人類所發展出來的藝術文化，理論上音樂與舞蹈都應為人類的基本能力之一。 2008 年楊百翰大學的研究顯示[2]，三至九個月的小孩對於音樂中的旋律、情感有一定的敏感度，而 2010 約克大學心理學教授的研究指出[3]，五個月以上的嬰兒便會對於音樂特徵中的節拍感到有興趣，並且會跟隨節奏移動自己的動作。這些研究都顯示即使是沒有受過音樂與舞蹈訓練的人類，對於音樂與舞蹈是具有基本的認知能力，而這些認知能力主要可以分為節奏感與音樂敏感度。在音樂與舞蹈中，均強調節奏感的重要性。在音樂中，音樂演出者必頇要有節奏感來掌握音樂的流動時間，在舞蹈中，舞者必頇要有節奏感才能讓肢體動作搭配音樂所提供的節奏。然而，節奏感是人類與生俱來的基本能力之一，人類對 1.

(9) 於一些單一性、週期性、規律性的聲響，例如心跳、水滴聲、時鐘滴答聲等等都可以產生一定的敏感度。雖然現今樂器的種類繁多，發出聲音的響度、音色與強弱都截然不同，但是大多數的人類還是可以本能的分辨出節拍的位置，甚至預測出下個節拍點出現的時機。節奏感影響的層面不僅僅限於音樂與舞蹈方面，它廣泛的影響程度甚至包含了運動、戲劇與生活等方面。2008 年瑞典卡羅林斯卡研究所和默奧大學的研究表示[4]，節奏感越好的人，經實驗的結果顯示，智力測驗也相對較高。由於人類大腦中用於解決問題的部分與節奏感有聯繫，因此對於大腦中負責規劃和駕馭時間的部分比較發達，所以能夠提高整體智商的水準。因此，節奏感是不僅僅是音樂與舞蹈中的基礎，培養好的節奏感在人類的生活中是重要的。除了節奏感以外，其他的音樂元素與舞蹈動作的結合也是相當重要的。雖然舞者可以不必擁有專業的音樂學習過程，但必頇具備好的音樂敏感度，才能使用肢體動作表達音樂的內容。自古以來人類對於旋律、和絃等音樂元素都有一定的敏感度，人類會跟著喜愛的旋律哼哼唱唱，或是隨著旋律與音樂內容的不同有不一樣的肢體動作，這些都可以視為是一種音樂敏感度的表現。伊利諾大學於 2009 年的研究指出[5]音樂的敏感度對於人類在教學上和學習上都有一定的幫助，因為音樂的相關才能對於教學中的表演與即興方面是有利的。因此，音樂與舞蹈對於人類不僅僅是一種本能的表現，藉由學習音樂與舞蹈進而培養節奏感與音樂敏感度有助於人類可以得到生理與心理的好處。音樂與舞蹈中有著相互相依的關係，但是自古以來，舞蹈都是扮演配合音樂的角色，由於音樂是可以不需要其他藝術而獨立存在的，但是舞蹈是需要依賴音樂才有存在的意義[6]。如果能讓音樂的呈現是取決於舞蹈，將讓音樂與舞蹈之間有另一層不一樣的互動關係。互動是一個極為廣泛的概念，通常指的是一種相互活動的狀態，在科技發達之前，人類透過與樂器之間的互動來學習與培養音樂的素養，例如運用節拍器與打擊樂器來培養節奏感，利用鍵盤樂器來訓練聽力、記憶力與對聲響的音樂敏感度，也算是一種互動的表現。隨著資訊科技的進步，互動的關係從人與工具衍伸 2.

(10) 至人與機器或電腦的人機互動，運用電腦快速運算的優點，讓人機互動提供更為精確、快速的優點。然而，應用影像辨識、語音辨識等技術的人機互動介面也提供使用者更為簡單的操作方式，不同於傳統的滑鼠與鍵盤，高智慧性與高互動性之友善的人機互動介面已是未來各種輸入介面的發展趨勢，而具動作與語音辨識功能之人機互動技術其可將互動控制以人性直覺式肢體表現與語言來達成互動的特性相當有機會成為人機互動設計中之主流[7]。基於上述論點，本研究欲結合音樂與舞蹈的互動於互動裝置，期望透過互動裝置的優點重構音樂、舞蹈與舞者中不一樣的互動關係。使用者藉由舞步作為裝置的輸入，經過聲音訊號的處理技術，達到改變 MIDI 音樂的混音輸出。透過簡單的操作，讓輸入的舞蹈與輸出的音樂產生互動，得到不同於以往音樂與舞蹈的對話。. 3.

(11) 第二節. 研究目的. 本研究欲開發一結合音訊處理技術與麥克風陣列的互動裝置，利用聲音訊號的處理技術辨識使用者於裝置內舞步的聲音，並應用麥克風陣列音源定位的功能取得使用者舞步的位置，進而對使用者的輸入即時改變音樂混音的輸出，達到音樂與舞蹈的另一種對應關係。因此，本研究的研究目的有以下三點：. 一、開發設計一套舞蹈與音樂的互動裝置在本研究中我們希望透過資訊科技的方式來進行舞蹈與音樂之間的另一種對話，使用實際裝置器材與電腦來進行人機互動。因此我們需要開發設計一套互動裝置來讓舞者與音樂之間進行互動。二、設計即時舞步偵測的方法在操作互動裝置時我們希望使用者以舞蹈的方式並不配戴任何額外的裝置作為本互動裝置的輸入。因此我們必頇建立一套即時的舞步偵測方法來辨別使用者於裝置內的舞步的踩踏與否。三、設計麥克風陣列與應用音源定位的方法音源定位是麥克風陣列的應用之一，其中牽涉到各個麥克風的種類，數量以及擺設，進而搭配適當的計算方法來實行定位功能。因此我們需要擬定出一個最適於本研究的麥克風陣列，以利於定位功能的實現。. 第三節. 研究問題. 根據以上研究目的，本研究之研究問題如下：一、如何開發一套舞蹈與音樂的互動裝置？二、如何即時辨識使用者輸入的節拍？三、如何使用麥克風陣列達到音源定位的功能？ 4.

(12) 第四節. 研究流程. 本研究之研究步驟如下：. 研究動機與目的. 文獻蒐集與探討. 研究方法擬定. 設備架設與設計. 互動裝置設計. 裝置開發與實作. 裝置修正與改善. 成果整理. 結論與建議. 圖 1-1：研究流程圖 5.

(13) 第五節. 一、. 研究範圍與限制. 研究範圍. 本研究之範圍界定可分為以下三點： 1.. 聲音訊號的特徵偵測只對於舞步的聲音進行偵測，音調、音色等聲音訊號特徵不在本研究的研究範圍。. 2.. 本互動裝置所使用的麥克風陣列只用來實現定位的功能，因此麥克風陣列的其他功能不在本研究的研究範圍。. 3.. 舞蹈包含全身性的肢體動作，本研究僅對於舞蹈中的舞步進行偵測，其他舞蹈的肢體動作偵測並不在本研究的研究範圍。. 二、. 研究限制. 本研究所受的限制為以下兩點加以說明： 1.. 互動裝置的環境設計本研究中所設置的互動裝置是依照本研究所限制的環境來進行開發，包含裝. 置放置的地板、裝置的器材以及裝置的尺寸，因此本互動裝置並不適用於其他的環境設置，如果需要改變環境設置，必頇要進行程式設計上的微調。 2.. 跨帄台的問題本研究是使用微軟發行的 Visual C#與 DirectSound 做為互動裝置的開發，無. 法運作於非微軟的作業系統。因此本研究所撰寫的程式碼，僅限於執行於安裝 DirectSound 的微軟作業系統，並無法提供跨帄台的整合需求。. 6.

(14) 第六節. 一、. 名詞釋義. 麥克風. 麥克風是接收聲音訊號最普遍的裝置，常見的麥克風形式有動圈式麥克風與電容式麥克風。動圈式麥克風的基本構造包含線圈、振膜、永久磁鐵，當聲波進入麥克風時，振膜受到聲波的壓力而產生振動，而與振膜連接在一起的線圈則會開始在磁場中移動並產生電流，進而改變電壓。電容式麥克風並沒有線圈與磁鐵，而是透過聲音進入麥克風使金屬振動板振動，產生振動板與電極板的距離變化，進而改變電壓。雖然動圈式麥克風的靈敏度不如電容式麥克風，但接收到的雜訊較少，音質較為穩定，價格也比較低廉。. 二、. 麥克風陣列. 麥克風陣列是同時在多個位置設置麥克風，並同時運用多支麥克風進行音訊的偵測。由於聲波經過傳遞後，各個位置的麥克風所偵測的聲音訊號均會有所不同，將這些不同程度的感測資料集中整理，再由後端的處理器或數位信號處理器進行比對運算。因此麥克風陣列可以應用於噪音消除、語音分離、聲音定位等聲音訊號處理範圍。. 三、. DirectSound DirectX 是一套微軟基於 Windows 系統多媒體應用程式接口的. APIs(Application Programming Interface)，而 DirectSound 是 DirectX 中負責音訊處理的 API，它提供了直接控制相關的音訊硬體設備，另外還擁有快速混音、硬體加速等功能，另外由於 DirectSound 是屬於較為底層的 API，所以可以提高在 Windows 作業系統下的執行速度。. 7.

(15) 四、. MIDI. MIDI 是 Musical Instrument Digital Interface (音樂器材的數位化介面)的簡寫，是一種世界的標準規格，容許電子樂器、電腦或其他演奏設備彼此的連接，即時的交換音樂資訊。MIDI 檔案不同於一般音樂檔案，他本身沒有任何的聲音訊號，只有記錄音符的資訊，例如音符的音高音長等等。由於 MIDI 的出現，讓每個音樂設備製造商有共同相通的協定，因此使用者可以同時混和多種音樂設備而不受到廠牌的限定。. 五、. 混音. 混音是將多種的聲音統整合併至一個或多個音軌，是音樂製作中的一個步驟。一首歌經過混音之後可以給人另一種完全不同於原曲的感覺，但卻可以保有原有的韻味，這就是混音最吸引人的地方。過去的混音是需要一些硬體設備如合成器或音效處理器，然而，隨著電腦科技的進步，開始出現許多電腦用的音樂製作軟體，將音樂製作中所需要的步驟整合於個人電腦中，而使用這些軟體便可完成混音作業。. 8.

(16) 第二章. 文獻探討. 本章將分作五個小節來進行探討，第一節先從人機互動與互動裝置進行資料蒐集，了解互動科技的應用以及創作者、使用者與裝置之間的互動模式。第二節蒐集了運用聲音做為互動概念的作品，列出了國內外優秀的作品進行討論並探討其運用的相關技術。第三節則探討麥克風陣列的相關資料，了解麥克風陣列的種類與特性，並從現有的應用與方法來發想本研究的麥克風陣列裝置。在第四節中，針對 MIDI 音樂進行簡介，期望以 MIDI 音樂的呈現來發展本研究的音樂輸出。第五節文獻探討小結中，整理本章中所蒐集的資料，並對於本研究所需的互動設計、技術、裝置設計與音樂輸出等面向進行總結的討論。. 第一節. 人機互動與互動裝置. 互動是一個極為廣泛的概念，通常指的是一種相互活動的狀態，例如人與人之間互相交流、抑或是感受的行為過程就都可稱為互動。隨著資訊科技的進步，互動的關係從人與工具衍伸至人機的互動。. 一、. 人機互動. 人機互動指的是人類與機器或人與電腦的互動技術 (human–computer interaction 或 human–machine interaction)。早期使用鍵盤輸入來對電腦下指令，隨後則推出滑鼠、手寫板、搖桿等輸入設備，近年來則有網路攝影機、麥克風、紅外線等設備提供使用者選擇。這些設備不斷地讓人與電腦間符合「簡單、自然、友好、一致」的互動模式 [8] 。針對人機互動中的互動要素， Borsook & Higginbotham[9]提出以下六點[10]： 1.. 立即回應 9.

(17) 當使用者對互動式系統提出某項訊息或是要求時，能夠即時依據使用者的要求提供適當的訊息回應。 2.. 非單線性資訊處理當使用者有任何問題時，可以隨時反應，暫時中斷資訊的線性流通過程，也. 就是所謂的非線性資訊處理，因此使得互動的雙方可以視互動對象的不同，採取不同的因應對話方式。 3.. 適應性針對不同的使用者，而做出適當的機制調整，以不同的資訊或是互動方式去. 適應使用者，產生出合理的人性化空間與介面。 4.. 回饋由於每個使用者都不相同，因此互動式系統應針對個人的需求而給予適當的. 回饋，促使整個學習能走向個別化、適性化的重要條件。 5.. 選擇性使用者自身擁有自由發揮、操控的權利，藉由身處的環境與條件做思考的判. 斷，始得原本被動的角色轉換為主動的角色。 6.. 雙向溝通在互動的過程中，必頇具備溝通的管道，如此才能夠相互提供訊息以及意見. 與需求，增進互動的品質。. 結合上述六點互動要素，可以將人機互動的層次分成零互動、輕度互動、中度互動以及高度互動這四種程度[11]，零互動是指機器以單線的方式來呈現資料，例如開啟檔案等動作。輕度互動是機器透過非單線性的方式來呈現複雜的知識，提供使用者掌控、選擇學習順序的自由度。中度互動是機器提供有意義的互動，讓人與機器之間可以透過簡單的方式溝通。而高度互動式則是機器作為智慧型的代理者，讓人與機器之間的溝通能夠依照不同的情境進行活動及解決問題。高度互動將人機互動的優點充份發揮在使用者身上，使用者不用花多餘的心 10.

(18) 力再去學習如何操作機器，也會因為不同領域、階層的使用者而加以改善。近年來，以使用者為中心的人機互動朝向新的輸入介面發展，其中包括了網路攝影機與麥克風等無需使用者配戴的裝置，這些裝置經過資訊科技的訊號處理技術讓使用者省略了傳統的輸入並且得到高度的互動性。因此，接收使用者輸入的互動裝置是人機互動中重要的發展之一。. 二、. 互動裝置. 互動裝置是實質材料與數位科技的整合設計[12]，裝置創作者設計裝置的外型與互動的機制，經過使用者提供的輸入得到輸出回饋達到互動的效果，因此互動裝置可以分別從創作者與使用者的角度來討論。. 1.. 創作者面向的互動裝置從創作者的觀點來看，互動裝置可以分為裝置的形式、互動的效果以及互動. 的技術三種來進行討論[13]： 1.1. 裝置的形式最常見的裝置形式是單一的設備器材。然而，廣義上的裝置可以看作是一個空間、場域或環境的構成。使用者可以在一個大範圍的裝置裡面進行操作，或者直接將裝置拿起來操作。有時參與者本身就是一種裝置，有時也可以是多人同時對裝置進行操作。 1.2. 互動的效果人與人進行互動時是透過人類的感知系統進行資訊傳達與接收，在人機互動中，互動裝置則扮演資訊接收的角色。互動裝置的創作者依照其設計理念，決定使用者與裝置之間的互動效果，例如裝置如何知道使用者做了什麼表示、裝置需要如何回應使用者、如何讓使用者感受裝置的互動體驗。 1.3. 互動的技術 11.

(19) 互動技術包括了所使用的科技以及整合的方式，如圖 2-1 所示，互動裝置除了應用人類常用的感知系統以外，還多了動作感測來感應使用者運動時的動作。然而，互動技術的使用不在於科技是否是最先進的，而是整合的方式，這才是真正所謂的創意，真正讓裝置產生最佳互動效果的關鍵。同時，也才能真正呈現出藝術所要傳達的概念，以及要帶給使用者的奇妙的體驗[14]。感官模式. 感測模式. 視覺. 視覺感測. 聽覺. 語音辨識 Serial Process. 觸覺. 觸碰感測. 運動. 動作感測. Human. Machine. 圖 2-1：感官模式與感測模式的互動關係[14]. 2.. 使用者面向的互動裝置互動的過程除了創作者把自己的巧思運用於裝置內，還必頇要有使用者的參. 與、動作與反應做為輸入，並且讓使用者得到回饋的輸出。因此，從使用者的觀點來看，互動裝置可以分為輸入端與輸出端。 2.1. 輸入端：輸入裝置基本的概念，就是可以感知、感測及接收來自人的動作、操作、訊息，或環境的變化，以及互動裝置本身的改變，進而轉換成電子數位訊號，傳送至控制器。因此，互動裝置必頇能整合從不同來源的感官輸入訊息，並對於使用者給予互動裝置的資訊進行辨識、定位、感應等動作[12]。 2.1.1.. 辨識. 例如應用影像辨識技術於手勢辨識、姿勢辨識、臉部辨識等等，運用電磁技 12.

(20) 術於 RFID，運用音訊辨識技術於語音辨識、音樂辨識，運用光學技術於條碼、指紋辨識。 2.1.2.. 定位. 例如 GPS 衛星傳送與接收器提供了任何交通工具或其他物件的座標位置。無線電收發器則可以追蹤車輛、手機。RFID、聲音等感測器可以追蹤小範圍的物件。 2.1.3.. 感應. 例如氣溫感測感應氣溫的改變、溼度感測濕度的變化，加速度計偵測運動的加速度與方向。透過辨識、定位、感應的功能，互動裝置可以將使用者的輸入資訊轉換成電子訊號。依照圖 2-1 的感測模式，輸入端的感測設備可以分為視覺感測設備、語音感測設備、觸碰感測設備與動作感測設備(表 2-1)。表 2-1：感測設備應用於互動輸入分類表感測設備. 輸入. 實例. 視覺感測設備. 影像. 網路攝影機、環繞鏡頭. 語音感測設備. 聲音. 麥克風、麥克風陣列. 觸碰感測設備. 皮膚的觸覺. 觸控螢幕、鍵盤、數位手套、遙控器動作感測設備. 人體運動的動作. 三軸加速器、跳舞踏墊. 2.2. 輸出端：輸出裝置的基本概念，就是把要回應給使用者的電子數位訊號由控制器傳送出去。一般常見的影像輸出裝置有顯示器或投影機，聲音輸出裝置則有喇叭音響，動力輸出裝置則有遊戲的搖桿，讓玩家在遊戲當中體驗真實的觸感。而這些裝置並非只能存在單一裝置，創作者可以依照設定的互動效果選擇多種適當的輸出裝 13.

(21) 置，讓使用者可以得到不只一種的感官回饋。互動裝置的創作者除了要有資訊科技的知識以外，還必頇考慮整個互動流程的架構，讓使用者在進行互動操作時，將無形的物件變成像是真實的一樣，同時體驗創作者設計的互動效果以及輸出回饋的感官結果。. 14.

(22) 第二節. 音訊互動作品探討. 在人機互動的作品中，創作者設計的內容選擇技術與器材。裝置輸入端的部分有使用網路攝影機捕捉影像的影像辨識、用麥克風擷取聲音的音訊辨識、用紅外線偵測溫度的紅外線感測等等，而輸出端依輸出類型可以有螢幕或投影機的影像顯示，喇叭裝置的聲音播放等等。使用不同的技術搭配不同的輸出型態，可以讓使用者與作品有不一樣的互動關係。因此本研究選擇了一些運用不一樣技術的互動作品，藉此了解不一樣的技術領域，進而探討使用者與作品之間的互動關係。. 一、. Drawn. Zach Lieberman[15]是 Drawn 這裝置的創作者，同時擁有程式設計師與藝術家兩種身分的他，致力於互動藝術的開發。這個互動裝置透過一個架設於頭頂上的攝影機來捕捉與辨識使用者用毛筆於白紙上所繪畫的圖形，並經過投影機投影出來，使用者可藉由手指簡單的觸碰與移動這些物件而製造出不一樣的聲音。這種直覺式的互動方式，讓使用者幾乎不需要另外的學習即可有良好的互動效果。. 圖 2-2：Drawn 裝置實際操作照片[15] 15.

(23) 二、. Messa di Voce. Golan Levin[16]被譽為聲音視覺領域的大師，其作品將影像、聲音、音樂循環互動結合在一起。致力於互動藝術的他，在 2000 年以前的作品都呈現視覺相關的互動，但是在 2000 年「Scribble」這個作品以後，開始致力於整合聲音與視覺。Messa di Voce 這件作品就是聲音與影像即時互動的裝置，使用者在舞台上發出一連串的聲音，透過音量、音高、音長以及發聲位置的偵測，將聲音轉換成相對應的虛擬圖像顯示於螢幕上。使用者用聲音操作時可以即時得到視覺上的回饋，經由移動聲音來源或者改變發聲方式來讓聲音與視覺有一定程度的相對應。由於人類對於視覺的熟悉度比聲音來的高，所以這樣的互動方式可以讓使用者對於聲音有更深一層的了解。. 圖 2-3：Messa di Voce 裝置實際操作照片[16]. 三、. Freqtric Drums. 2006 年來自日本九州大學的 Tetsuaki Baba[17]運用皮膚的接觸作為音樂創作的互動介面。Freqtric Drums 運用皮膚的電量活動(EDA，Electro Dermal Activity) 來偵測人類手上的碰觸與否以及碰觸強弱，並且即時傳送 MIDI 信號給擴大機放出聲音來(圖 2-4 左)。整個裝置是以一個帶有四個握把的圓環構成(圖 2-4 右)，讓 16.

(24) 四位使用者各出一隻手握住握把，另一隻手就可以互相的碰觸進而產生不一樣的音調以及強度，進而達到音樂創作的互動。之後出現的 Freqtric Project 也是以 Tetsuaki Baba 為主的計畫，主要是把這項技術以及互動的概念套用到遊戲中，利用人類五感中的觸感：皮膚與皮膚之間的接觸作為互動的概念，讓傳統的人機介面有更不同層面的思考。. 圖 2-4：Freqtric Drums 裝置實際操作照片[17]. 四、. reacTable. 在 2007 年台北數位藝術節一套來自西班牙巴賽隆納 Pompeu Fabra 大學的作品「reacTable」[18]互動音樂桌，強調多用戶、即時操控的聲音、直覺性的音訊互動裝置。reacTable 是以一個半透明圓桌做為操作介面，圓桌上可以依照使用者喜好擺置 reacTable 提供的各種形狀特製方塊，在方塊的背面各有一種辨識符號元件。在圓桌底下有攝影機以及投影機，攝影機即時的捕捉半透明圓桌上各個控制元件的位置以及該辨識符號元件所代表的聲音採樣，並且即時計算其旋轉、移動以及與鄰近其他元件的角度、距離、關聯、連線狀態，再把這些資訊透過 TUIO 協定傳送給控制聲音合成器以及視覺合成器。控制聲音合成器取得所需的資訊後依照不同的參數產生並改變喇叭撥放的聲音，視覺合成器則連結到投影機即時投影出相關狀態顯示於圓桌上。使用者藉由旋轉、移動、加入、移除等動作，操作實體的辨識符號元件，達到即時的聲音改變與圖形連結，得到聽覺與視覺的回饋。目前在 reacTable 的官方網站也有相關的釋出技術，已經有人使用他釋出 17.

(25) 的技術進行相關延伸研究。. 圖 2-5：reacTable 裝置實際操作照片[18]. 五、The Sound of Touch David Merrill 與 Hayes Raffle 是來自 MIT Media Lab 的學生，而 The Sound of Touch[19]是他們於 2004 年的作品。裝置外觀是一支像筆的手持裝置，使用者可以將聲音錄製於裝置中，就可以將剛錄製的聲音與裝置接觸表面的聲音做混音的效果並撥放出來。裝置的前頭可以讓使用者自行選擇使用的材質，有黃銅片、刷子、塑膠棒以及畫刀，不同的材質在接觸不同表面時所發出的聲音也不一樣，因此混音出來的結果也會不一樣。使用者可以藉由聽覺與觸覺去感知材質與聲音之間的變化樂趣。. 圖 2-6：The Sound of Touch 裝置實際操作照片[19]. 18.

(26) 六、. Drawdio. MIT Media Lab 的 Jay Silver[20]延續前一個 The Sound of Touch 作品中混音效果的概念，研發出了一個聲音的互動裝置「Drawdio」。Drawdio 是把 draw 與 audio 結合在一起，顧名思義是一支可以畫出音樂的筆，簡單的應用是將裝置與鉛筆做連接，在紙上畫圖時就可以邊畫邊發出聲音，並且在畫過的痕跡上用手指觸碰塗抹，可以發出不同的音階。主要原理是利用鉛筆筆心內的石墨與電路創造出一個通電的迴圈，類似電路迴圈的概念。運用鉛筆的筆心當作導電元素可以創造出人與物體上的互動，而這項裝置也可以使用於人與人身體上的接觸，幾乎是所有導電與帶電的物體都可以使用此裝置。Drawdio 的出現，除了讓人與人之間有一種不一樣的聲音互動方式，也創造出物體與人類對話的世界。. 圖 2-7：Drawdio 裝置實際操作照片[20]. 七、. Counter Phrases. Counter Phrases（對立說法）[21]是 2010 年台北美術館所展覽的「形、音、異：法國里昂國立音樂創作中心聲音裝置展」中的作品之一，創作者為 Thierry De Mey。一般來說，音樂與舞蹈之間的關係是先有音樂，舞蹈家再根據音樂來進行編舞，但這個作品卻反其道而行，先把舞蹈動作拍攝下來，再請作曲家來根據動作編曲。這個作品將 Anne Teresa de Keersmaeker 所編的舞蹈，請十位作曲家編曲，作者再整合起來變成一段變奏曲，因此將作品的名稱取為對立說法。雖然這 19.

(27) 件作品本身觀眾無法進行科技性的互動，但是作品中所蘊含的意義卻可以帶給觀眾不一樣的回饋。. 圖 2-8：對立說法作品[21]. 八、. 三位一體#2. 這個裝置是台灣藝術家宋恆[22]於 2007 年的作品，2006 年先是推出作品「三位一體」，以傳統鼓具演奏結合互動科技，打破參與者、樂音及影像本位各自獨立的觀念，重新建立人、聲音及影像三者為一體的全新關係，使虛擬影像、真實鼓聲與場域內的參與者同時變成作品主體。而「三位一體#2」的不同處是增加了傳統鼓具的數量到三個，由於使用者的增加也添增了人與人之間透過聲音的互動，形成全新的三位一體。. 圖 2-9：三位一體裝置實際操作圖[22] 20.

(28) 九、. 2304+壹. 「2304+壹」[23]這項作品是施惟捷於 2010 年台北數位藝術獎的互動裝置，試圖以電子音樂、鋼琴裝置、身體三者建立一種帶有即興元素的表演風格。2304 是 48 的次方，代表著 48 個鋼琴白鍵有著 2304 種組合，而國字的壹指的是一個人或舞者，以 2304 與壹來代表兩種不同領域的對話。藉由攝影機捕捉舞者的動作能讓鋼琴上的電磁筏裝置產生敲擊並產生亂數的音符，在這種情況下產生的音樂是完全自由且不具樂理規則的。作者藉由互動裝置的開發，想呈現的是一種從兩者間彼此的試探到彼此的信任，然後在一連串的累積中，趨近完整的一種過程。. 圖 2-10：2304+壹作品示意圖[23]. 在以上所探討的音訊互動作品，我們將擷取這些作品的優點來發想本研究的互動裝置形態，「Messa di Voce」作品利用了麥克風陣列來實現使用者聲音位置的定位，在「2304+壹」的作品中讓舞者的肢體動作做為音樂輸出改變的依據，而「Counter Phrase」則利用幕後編曲的動作讓作品有美妙的音樂搭配舞蹈呈現。結合以上優點來進行本研究互動裝置中輸入、處理與輸出的開發，利用互動裝置來感測與定位使用者舞蹈的肢體動作，並輸出編曲過的音樂來對應使用者的舞蹈動作，希望從人與裝置的互動發展成音樂與舞蹈之間的互動關係。. 21.

(29) 第三節. 麥克風陣列與定位. 本研究是以麥克風陣列做為互動裝置的輸入端，擷取並處理這些同步的聲音訊號，進而得到節拍辨識與音源定位的結果。因此，本節將先簡介麥克風陣列與其應用實例，接著介紹麥克風陣列的定位方法。. 一、. 麥克風陣列簡介與應用. 麥克風是接收聲音最常用的裝置，其收音原理是將聲波轉換成電壓，就如同人類耳朵接收到聲音，轉換成訊號刺激大腦一樣。而麥克風陣列是語音介面技術的一大進展，在麥克風陣列出現以前，即使有再好的演算法或設備，單支麥克風的音訊處理技術依然受到環境與人為因素的影響，麥克風陣列的出現提供了更好的解決方案。麥克風陣列是由兩個以上的麥克風所組成，各支獨立的麥克風在空間中的不同位置擷取聲音訊號，將擷取到的各個資料串流進行比較運算，主要可以應用於噪音消除、回音消除、語音分離、單音源聲音定位、多音源聲音定位等方面[24]。其主要運用的方法是聲音傳播速度的延遲時間或是各個獨立麥克風接收到的音量、頻率等強度的差異來做判斷。由於這些技術的進步，麥克風陣列也漸漸的應用於人類的生活中。雖然麥克風陣列的定義中沒有限制麥克風的數量，也沒有限制各個麥克風的擺設位置，更沒有限制麥克風的呈現外貌，但是有許多研究對於麥克風陣列中所需要之最佳麥克風個數，以及各支麥克風之間的相對配置來進行討論與實驗[25]。不過由於各種麥克風收音範圍的不同與限制，麥克風陣列仍以用途與需求方面來考量最適當的數量與擺設方法。基本上麥克風陣列中各支麥克風的排列結構大致可以分為帄面式與立體式兩種[26]：. 22.

(30) 1.. 帄面式麥克風陣列帄面式麥克風陣列，顧名思義是採取一維直線或二維帄面型態的排列方式，. 因此細分上可以多分出線性式麥克風陣列。線性式麥克風陣列最常見的應用是用於筆記型電腦上，運用兩支獨立的麥克風形成的麥克風陣列可以克服環境噪音和回音對於語音訊號的影響，讓使用者在使用語音服務時可以還原出乾淨的聲音。二維帄面式的麥克風陣列也大量的運用在機器人上面，以人類耳朵為基礎概念，運用兩個或多個麥克風於機器人上可以判斷聲音來源的方向，做出即時的頭部旋轉[27]。帄面式麥克風陣列的應用中最有名的實例是在於偵測波音 777 發出噪音的所在位置。由於世界各發達國家紛紛制定了民航機起飛和降落時的噪音標準，然而人們卻發現波音 777 在起飛和降落期間時常發出類似口哨的噪音，此噪音的頻率被測定為 2000 赫茲左右並超過噪音指標，但是波音公司的工程師卻一直無法確定噪音是來自於哪個零件。最後的解決方法就是利用安裝於飛機飛行的下方地面的麥克風陣列裝置[28]，用聲波的時間延遲和聲源位置這種一一對應的關係，通過對接收到的各個訊號先進行時間延遲補償然後相加，逐點計算出空間聲音強度的分佈圖，即可得知發出噪音的罪魁禍首在哪裡。由於麥克風陣列的應用成功，因此麥克風陣列也有「聲學照相機」的美名，不同於普通照相機的鏡頭是利用光波來聚焦，聲學照相機是利用聲波來讓麥克風陣列聚焦。. 圖 2-11：麥克風陣列應用於飛機噪音偵測示意圖[28] 23.

(31) 2.. 立體式麥克風陣列基本上使用帄面式麥克風陣列即可在噪音消除、語音分離以及二維空間定位. 得到卓越的效果，畢竟帄面式麥克風陣列的擺設方式只有直線或是帄面，因此對於三維的空間定位是有限制的，所以立體式麥克風陣列的出現就提供了空間定位的解決問題。以感應器陣列的觀點來看，增加感應器的數量可以提昇準確度，雖然立體式麥克風陣列中麥克風的放置與數量可以提高定位的精準度，相對的，由於麥克風陣列的輸入資料龐大以及運用了三維的傅立葉轉換，增加了訊號處理的時間。而立體式麥克風陣列最常見的型態與應用是半球面的陣列應用於機器人上，如果單單使用帄面式麥克風陣列，所能定位的範圍只有二維空間，為了讓機器人更像人類，因此使用半球面的立體麥克風陣列來模擬人類的頭部，以達到高度的定位效果。立體式麥克風陣列的應用實例中，最有名氣的是 LOUD 計畫 [29] 。 LOUD(Large acOUstic Data Array)是來自 MIT 的人工智慧實驗室，如圖 2-12，整個麥克風陣列是由 1020 支麥克風組成的，功能主要是做即時的語音分離與聲音定位，不僅僅可以精準的判定多個發聲者的方向，也可以即時的追蹤多個發聲者。. 圖 2-12：LOUD 麥克風陣列實際裝置圖[29]. 24.

(32) 二、. 麥克風陣列定位. 在科技的發展之下，我們可以透過多個感測器進行訊號接收，利用這些感測器的距離與收到訊號的各種差異進行目標位置的定位。然而，實現定位功能的感測器非常廣泛，如 RFID、紅外線等等，麥克風陣列也是用來實現定位功能的工具之一。運用感測器來進行定位的方法有許多種，最主要的定位方法有以下三種： Triangulation（三角定位）、Scene analysis（情境分析法）、Proximity（鄰近法） [30][31]。 1.. Triangulation (三角定位法) 三角定位法[30]的原理是利用三角幾何的原理與特性來進行目標的定位，定. 位時需要知道一些已知位置的訊號接收器所接收的訊號強度，然後應用測距模式來估算定位目標與訊號接收器之間的距離。因此在三角定位中，需要有距離測量的方法。我們這邊整理了四種不同的距離測量方法，分別為ToA、TDoA、AoA、 RSSI[32]：. 1.1. ToA (Time of Arrival ) ToA [33]的測距模式是利用量測接收器與目標位置之間的訊號傳送時間，再將量測得到的傳送時間乘上介質的傳播速度即可取得接收器與目標位置之間的距離。ToA雖然是相當精準的，但是需要配合相當準確的時間同步。. 1.2. TDoA (Time Difference of Arrival) TDoA[34]與ToA一樣都是以時間作為距離的量測方式，不同的地方在於 TDoA不是利用訊號到達的時間，而是使用了訊號到達的時間差概念。一個目標位置發出訊號進而讓兩個接收器接收訊號，由於介質的傳播速度會使兩個接收器所接收到訊號的時間不同，距離越近的接收器會越快收到訊號，越遠的接收器則會有時間的延遲，因此利用這個時間差加上兩個接收器的距離便可求得目標位置 25.

(33) 與接收器的距離。雖然TDoA有著不需要ToA中目標位置與接收器的時間同步即可運作的優點，但是兩個接收器之間的時間延遲需要更為精準的時間計算。. 1.3. AoA (Angle of Arrival ) AoA [35]的距離測量方法是利用額外的裝置如天線陣列或具有方向性的天線來判斷出接收器與目標位置的幾何角度，因此在二維帄面上只要有兩個接收器測量出與目標位置的方向，即可估算出兩個接收器與目標位置的距離以及定位。不同於TDoA與ToA需要精準的時間同步資訊，利用準確測量方向的天線即可做出距離量測並且定位，而缺點部分是需要額外的天線裝置，成本上是相對昂貴的。. 1.4. RSSI (Received Signal Strength Indication) RSSI[36] (接收訊號強度)的距離測量方法是利用接收器所收到目標來源端發出的訊號強度大小，再將所量測的訊號強度代入訊號衰減的模型，即可推算出與目標位置之間的相對距離。不同於前面三種距離測量方法需要時間同步或昂貴的器材，但是訊號強度的接收容易受到障礙物的影響，因此RSSI的缺點是容易受到環境的影響而導致距離量測的誤差。. 在建立了感測器與目標位置之間的距離後，便可以將這些位置資訊帶入三角定位中。在三角定位的方法中，我們必頇要取得三個以上的定位目標與接收器的距離，即可在二維帄面中將接收訊號的接收器設為為圓心，將已知的距離為半徑畫圓，交點即為預估的目標位置，如圖2-13所示。三角定位是定位技術中最普遍的方法，不需要繁瑣的計算公式即可做出精準的定位，但是僅適用於空曠沒有障礙物的環境。空間中障礙物的存在會造成聲音訊號在接收時，產生散射(scattering)、多路徑(multi-pathing)、衰減(attenuation)的影響[37]，進而造成接收訊號的誤差。. 26.

(34) 圖 2-13：三角定位示意圖 1.4.1.. 散射. 當在室內環境進行三角定位時，訊號的傳播會因為牆壁或是其他不規則的表面，產生不同強弱的反射訊號。由於這些訊號會需要較久的時間才會被訊接收器接收到，因此訊號強度也會較弱，使得這些訊號在定位系統的計算中會被視為比實際距離遠的訊號，造成估計的錯誤。 1.4.2.. 多路徑. 在室內定位中，如果有許多已存在的設備，會造成訊號到達接收器之間會有不同的路徑傳送。這樣子的多路徑可能會造成同一個訊號讓接收器收到不同的訊號數值，造成三角定位所估算出來的結果無法準確。 1.4.3.. 衰減. 在室內環境中傳遞的訊號，有可能會傳透過物體在抵達訊號接受器，但是在這樣的傳播方式裡，訊號的到達時間與訊號的強度會有因為被穿透物體的傳播特性而有所衰減，這樣會導致三角定位的計算有誤差。. 2.. 情境分析法 ( Scene analysis ) 另一種利用訊號強度資訊來達成定位的方法稱為情境分析法[31]，此方法也 27.

(35) 可稱為樣本比對定位法。這種定位方法的主要的原理就是利用比對定位目標所蒐集到的訊號強度特徵或其他相關資訊來與定位資料庫中各訓練資料(Training data)所事先紀錄的資訊來進行比對，找出最相似之樣本來執行定位處理。由於在實際環境下，訊號強度會呈現不穩定的現象，因此透過此方法預先紀錄的特性，可以有效減少僅應用演算法所推算的訊號強度與實際情況的誤差。這情境分析法的執行過程主要可分為offline與online階段。Offline階段主要是收集定位環境中所有訓練點的訊號特徵，進而建立成資料庫。Online階段的主要工作就是將預定位目標所接收到的訊號強度特徵值與定位資料庫內的特徵資訊加以比對，找出最匹配的數值來推算出預定位目標可能在哪個訓練點的附近。在這階段執行時會需要許多大量的定位運算，應用如最近鄰近演算法、機率密度函數、最小帄方法則等模式來進行運算比對，最後根據比對的結果來推算出定位目標的位置。. 3.. 鄰近法 ( Proximity ) 鄰近法[31]的原理是利用許多參考點的位置做為預定估測的位置，當有定位. 目標被該參考點上的感測器所偵測到，即判定此參考點的位置做為定位目標的位置。此方法的定位效果將取決於感測器的分佈密度，在定位區域內分佈越密集的感測點，會有更好的定位精度，但相對的成本與複雜度也會提高。主要應用於 RFID與紅外線等感測裝置的定位。. 在本章節中，我們回顧了幾種常見的定位方法，這些定位方法分別透過測量距離、角度或訊號強度等不同方式，來取得定位運算所需要的資訊。不同的定位系統透過不同的定位技術都各有其優點與缺點，如何取決不同的訊號接收或感測器與開發技術來有效的利用這些特性，也將是開發定位系統的重點。. 28.

(36) 第四節. 一、. MIDI音樂與發展. MIDI簡介. MIDI(Music Instrument Digital Interface) 的中文為音樂器材的數位介面 [38][39]，是用於控制電子樂器、電腦或其他演奏設備的標準通訊協定。所有的 MIDI 樂器都遵循著 MIDI 的規範，這樣的規範使得其產生的 MIDI 訊息(MIDI Message)能夠在不同的 MIDI 設備中明確指明具體的音符。藉助這樣的標準與協定，所有的 MIDI 樂器或設備都可以相互交換 MIDI 訊息，同時也可以和具有 MIDI 軟體或者內建 MIDI 的音效卡的電腦進行資訊交換。MIDI 訊息主要可以分為 System message 與 Channel message，這些 MIDI 訊息讓有 MIDI 介面的機器可以交換一致的音樂訊息。而我們在電腦中所看到的 MIDI 音樂檔案，是透過 MIDI 這個介面連結同樣具有 MIDI 介面的輸入器材所輸出編輯出來的一個檔案。 MIDI 格式裡的資料不是音樂訊號，而是一連串音符資訊，它可指示 MIDI 設備如何重建音樂。. 二、. MIDI檔案格式. MIDI 檔案是由區塊（chunk）所組成的。區塊內存放控制 MIDI 的參數及資料，可以分為兩種類型：檔頭區塊（header chunk）與音軌區塊（track chunk）[38]。檔頭區塊儲存了一個 MIDI 檔案的基本參數資訊，總共有 14 個位元的長度，主要紀錄區塊類型(chunk type)、長度(length)、播放格式（format）、音軌數量（tracks）、單位時間（division）等資訊。播放格式可以分為單軌（0）、同步多軌（1）、非同步多軌（2）。而音軌數量紀錄該 MIDI 檔案所容納的音軌數量。單位時間則是指定的計數方式，主要有 0 與 1 兩種格式，分別為時間的計數與使用制式的時間碼。. 29.

(37) Header Chunks. Chunk type. Length. Format. ntrks. division. 圖 2-14：檔頭區塊基本格式. 在音軌區塊中首先記錄音軌的音軌名稱與音軌長度資訊，接著是一連串音軌事件(track event)。這些音軌事件包含主要的音樂內容，可以分為 Meta Event、 MIDI Event 與 System Exclusive Event。Meta Event 紀錄著附加的資訊，例如版權、樂器名稱、歌詞等等。MIDI Event 主要紀錄音符的資訊，例如音符的力度、延長時間、結束等等。. Track Chunks. chunk type. length. Mtrk event. delta-time. Mtrk event. Mtrk event …. track event. meta event. MIDI event. sysex event. 圖 2-15：音軌區塊基本格式. MIDI 檔案的歷史悠久，但卻沒有因為其他音樂格式的出現而被取代，大多數的音樂創作者仍然使用 MIDI 來做為它們創作的方法，因為 MIDI 比起一般的聲音檔案例如 mp3 或 wav 檔案，MIDI 所需的檔案空間非常的小，並且有可以任意改變撥放速度而不會影響其音色的優點[40]。. 30.

(38) 三、. MIDI 的發展與應用. 由於 MIDI 的出現，著實改變音樂產製的流程，在 MIDI 出現以前，音樂製作必頇要先進行編曲的動作，再透過實際的樂器演奏並且錄音，這樣子的過程導致低效率與高成本的現象。但是在 MIDI 出現以後，音樂產製導入了大量的 MIDI 應用，大大的提升效率以及降低花費，各大廠商也推出了各式各樣的 MIDI 設備，例如電子樂器、編曲機、電腦等等，透過電子訊號傳遞的方式達到音樂數位化的優點，但是這樣的設備在使用上還是有許多的不方便，在設備的花費上就讓許多人對於數位音樂望之卻步。隨著電腦慢慢普遍後，電腦的音樂編製軟體如雨後春筍般的出現，這些 MIDI 音樂的應用讓一般人也可以透過電腦的介面一窺數位音樂的奧秘。早期的音樂編製軟體只擁有 MIDI 的編輯功能，由於數位音樂的快速發展下，不管是音樂格式還是軟體技術不斷的符合使用者各式各樣的需求，將錄音、編輯、混音等功能整合在一起讓使用者做音樂的開發。在眾多的音樂編製軟體中，這邊特別提到 Sony 公司所推出的 Acid Pro 系列軟體[41][42]，Acid Pro 提供使用者穩定、可靠、高彈性以及直覺式的使用者介面來進行音樂開發，在 Acid Pro 中，使用者除了可以進行作曲與編曲的工作，還可以使用 MIDI 錄製與編輯功能，並且在上面進行多軌的混音。. 31.

(39) 第五節. 文獻探討小結. 根據以上章節的文獻蒐集與分析，本研究期望結合麥克風陣列與音訊處理技術於音訊互動裝置，利用使用者於裝置內的輸入進而即時改變音樂內容的輸出，達到互動裝置中聽覺元素與聽覺元素之間的共鳴與回饋。在人機互動與互動裝置的探討中，互動裝置的開發除了要符合人機互動的簡單、自然、友好與一致，還必頇有快速與穩定的條件，才能讓使用者在操作互動裝置時得到即時穩定的回饋。近年來，人機互動走向高度互動的互動層次，期望讓使用者在操作時達到更為直覺的互動，而應用高科技的互動裝置更是為使用者提供無頇配戴的互動模式。由於這樣的互動科技發展，讓創作者與使用者之間的互動更為豐富與有趣。目前所看到國內外優秀的音訊互動作品主要可以分為三個種類，第一種是以「看得見的聲音」為發展使用者與創作者之間的互動效果，不過畢竟聽覺元素使用視覺元素來呈現並無法做出確切的對照，如果使用聲音的訊號處理技術搭配聲音的輸出，聽覺元素與聽覺元素的實質回饋會較容易達到共鳴。第二種是以互動裝置搭配電子音樂的呈現方式，使用者可以在裝置的操作過程中得到電子音樂改變的回饋，但是如果音樂的輸出是以有意義的樂音來呈現而不是缺乏感情的電子音樂，可以讓使用者在操作時有更強烈的音樂回饋。第三種是呈現音樂與舞蹈之間的互動關係，在 Counter Phrase 作品中，利用專業編曲家幕後配置音樂於舞蹈影片中，雖然成功完成音樂與舞蹈中另一種對話，但因為這樣的工作是需要專業音樂人才能完成，無法實現於使用者為主的人機互動中。在互動裝置的感測工具中，我們選擇了麥克風陣列來進行互動裝置的開發，應用麥克風陣列的定位以及麥克風的聲音偵測來進行舞蹈與音樂之間的互動。在本研究所探討的定位方法中，鄰近法的定位方法在本互動裝置中是不適用的，因為如果在裝置中放置過多的感應器或麥克風，將限制使用者在操作裝置時的動作， 32.

(40) 形成一定的不方便與不人性化。而情境分析法需要使用到大量的定位運算，並且 training data容易受到環境的改變造成較大的誤差。而三角定位的優點是計算方式簡單，並且適合空曠的室內定位，但是三角定位必頇要多考慮距離量測的問題。在距離測量中，以RSSI的方法會比較適合室內環境來使用[43]，利用RSSI的方式進行距離的測量，不需要AoA額外的天線來感測方向，也不需要像ToA與TDoA 準確的時間同步，RSSI只需要建立訊號強度與距離之間的關係就可以進行定位。雖然RSSI與三角定位中都必頇要是無障礙物與空曠的室內空間，否則會使訊號在傳遞時受到影響導致錯誤，由於本研究所設置的麥克風陣列是開放沒有障礙物的空間，可以避開三角定位與RSSI的缺點而利用其優點，因此在本研究終將使用三角定位搭配RSSI來進行聲音來源的預估。在互動裝置的輸出類型中，本研究選擇使用MIDI格式的音樂作為音樂的混音輸出。由於我們需要讓音樂可以容易的改變節奏速度與改變音樂內容，如果使用一般的聲音格式(.wav, .mp3)除了檔案較大的缺點以外，對於改變節奏速度而不改變音色這點來說是非常困難的，因此在本研究中我們使用了MIDI音樂的優點來進行音樂的互動輸出。在MIDI製作的工具上，我們選用了Sony公司的Acid Pro 7.0來進行MIDI中各個軌道的音樂製作。. 33.

(41) 第三章. 研究方法. 本研究結合節拍偵測以及麥克風陣列定位於互動裝置，偵測使用者於裝置內舞蹈的踏步位置，進而輸出對應裝置內區塊的音樂內容。在上一章的文獻探討中，我們探討了人機互動與麥克風陣列的定位方法，在此章節中，將介紹本研究硬體上的互動裝置設計，進而說明裝置中輸入端與輸出端的互動設計。. 第一節. 研究架構. 本研究使用麥克風陣列做為互動裝置的輸入設備，整合舞步偵測以聲音定位及的訊號處理技術，辨識使用者於本裝置上的舞步及其位置並回饋混音過的 MIDI 音樂內容，完成麥克風陣列音訊互動裝置。. 文獻蒐集與探討. 互動裝置設計. 舞步偵測. 麥克風陣列定位. 音訊互動裝置. 圖 3-1：研究架構圖 34. 音樂混音輸出.

(42) 第二節. 研究工具. 本研究目的為開發一音訊互動裝置，研究工具可以分為硬體裝置與軟體帄台。硬體裝置的部分是運用自行設置的麥克風陣列，而軟體的部分可以分為程式軟體與音樂編製軟體。. . 麥克風陣列：動圈式麥克風*4. . 軟體程式：Microsoft Visual Studio 2008, Microsoft DirectX SDK, Sanford Multimedia MIDI Toolkit. . 展示帄台：安裝 DirectX 的個人電腦. . 音樂編製軟體：Acid Pro 7.0. 35.

(43) 第三節. 互動裝置設計. 本研究藉由麥克風陣列輸入的聲音訊號進行即時偵測使用者舞步的位置與時間，進而改變音樂混音輸出，實現聲音元素與聲音元素的音訊互動裝置，因此本研究的研究設計分為即時舞步偵測、麥克風陣列的定位以及音樂混音輸出三部分。舞步偵測與麥克風陣列定位的部分，本研究是使用微軟 Visual Studio 中的 C#程式語言來撰寫。為了以麥克風做為輸入端的硬體裝置進而達到捕捉音訊，選擇加入了 DirectX 函式庫(DirectX Library)中負責音訊處理的 DirectSound。. 圖 3-2：互動裝置設計圖. 一、即時舞步偵測. 本研究輸入端先是對於使用者的舞步聲音進行偵測，期望在舞步偵測的過程 36.

(44) 中，達到低延遲與低耗資源的優點，因此本小節將先從聲音訊號的捕捉格式設定開始，接著解釋本研究所使用的舞步偵測方法。. 1. 輸入音訊格式麥克風輸入端所捕捉到的聲音訊號是未壓縮過的 PCM(Pulse Code Modulation)編碼，又稱為脈衝編碼調製。它可將連續的語音、圖像等類比訊號透過每隔一段時間進行取樣，以轉換成離散的數位訊號。PCM 編碼中的取樣頻率以及取樣點大小是影響其音質與檔案大小的主要原因。假使取樣頻率越廣，取樣點越大，則擷取到的資料量越多，音質也越好。但是由於資料量龐大，所以佔有的磁碟容量也就相對龐大，訊號處理的時間也相對較大。. 一般最普遍的 PCM 格式為雙聲道(stereo)、44100Hz 的取樣頻率、16bit 的位元深度，這是應用於 CD 音質的設置。由於本研究的目標在舞步的偵測，處理簡單的使用者輸入，如果採用上述的壓縮格式則會增加信號的複雜度，導致處理即時的速度減慢。因此，本研究將麥克風捕捉音訊的 PCM 格式設定為單聲道，取樣頻率降低為每秒 11025 個取樣點，並且將每一個取樣點大小減少為 8bit。提高多支麥克風訊號傳輸的速度以及即時處理的速度。. 表 3-1：麥克風輸入格式比較表 CD 音質(預設). 本研究設定的格式. 聲音擷取格式. PCM. PCM. 取樣頻率. 44100. 11025. 聲道. Stereo. Mono. 位元深度. 16 bit. 8 bit. 資料量(bits)/秒. 1411200. 88200 37.

(45) 2. 舞步偵測. 使用者在地板上踏步，經過麥克風收音之後，我們可以發現舞步的聲音與音樂中節拍的聲音特徵相似。而一般對於 PCM 格式的聲音訊號作節拍偵測的研究，方法大致可以分成兩個步驟。首先，第一步要破壞音樂本身的資訊(decimation)，讓聲音訊號簡單化。使用的方法有雙聲道壓縮成單聲道的降混(downmixing)、以及降低取樣頻率的降低取樣頻率(downsampling)等等。第二步才會使用一連串的濾波器或演算法，例如低通濾波器、與傅立葉轉換等等，並依照不同的目的選擇適合的方法。本研究目的在於即時地偵測出舞步的位置。由於在輸入端麥克風捕捉音訊的格式在設定上已經省略了降混以及降低取樣頻率的動作，所以在處理上減少了許多的工序。因此問題簡化成如何判定舞步的演算法以及如何即時處理聲音訊號。使用 DirectSound 所捕捉出來的聲音訊號是一連串的一維矩陣。它儲存於緩衝區(buffer)，隨著錄音時間的長短擴增矩陣的大小。矩陣內的元素也就是上述的取樣點，選擇 byte(8 bit)的資料型態，把這一連串的一維矩陣依照順序畫出來得到波形圖(圖 3-3)。. 255. 0. 圖 3-3：原始波形圖 38.

(46) 圖 3-3 是麥克風捕捉到簡單的踏步聲的聲音訊號，而我們主要的目的則是要判斷節拍點的出現與否。聲音訊號的強弱可以從一維矩陣中的資料來判別，如圖 3-3 人眼可以很輕易的辨別節拍點的位置，但是由於資料量的龐大以及資料分佈複雜度的影響，必頇要經過一個簡化的方程式來解決上述兩項問題。我們利用一維矩陣內每個元素之間的元素差，取絕對值並記錄於另一個一維矩陣內並依照順序繪製出波形圖(圖 3-4)。元素差的主要用意是：消除不必要的雜訊干擾. I.. 一般雜訊會出現在收音環境以及麥克風本身，經過矩陣中元素之間的相差可以把持續出現的雜訊消除掉。 II.. 保留節拍點出現的瞬間與一般人類說話的聲音不同，使用者舞步的聲音為瞬間提高的音量。因此利用元素之間的相減可以保留節拍出現的瞬間並且把人聲的幅度降低。. III. 本身不帶有聲音訊號只有時間資訊由於聲音訊號經過元素差的計算，計算過後的結果是被破壞的聲音訊號。因此在元素差之後的矩陣並不保留任何聲音訊號，只能作為時間上的表示。 255. 0. 圖 3-4：元素差計算後的波形圖經過元素差計算後的訊號內容所代表節拍點出現位置，對應原始聲音訊號內容取得時間資訊。由於人類舞步聲的響度、音色與音量皆不同，對於判別節拍點 39.

(47) 出現與否會造成一定的影響。所以我們針對人類正常舞步發出的聲音訂定出一個門檻值（threshold），高於這門檻值的訊號則紀錄時間資訊，低於則不予紀錄(圖 3-5)。. 255. threshold. 0. 圖 3-5：濾波後的波形圖. 二、麥克風陣列定位. 本研究將使用麥克風陣列作為互動裝置的主體，並利用麥克風陣列於音源定位的功能，實現於互動裝置內定位使用者的位置。因此本小節先從麥克風的選擇開始，接著對於麥克風陣列進行配置，最後解釋本研究所使用的聲音定位方法。. 1. 麥克風的選擇麥克風在本研究中是實現互動的主要裝置，在麥克風種類的選擇上是使用最常見的動圈式麥克風。而另一個需要考量的是麥克風的收音距離以及範圍，即是麥克風指向性的選擇。指向性是描述麥克風對於來自不同角度聲音的敏感度，而麥克風依照指向性的分類可以分為全指向、心型指向、超心型指向、槍型指向以 40.

(48) 及雙指向這五種。. 全指向性. 心型指向性. 超心型指向性. 槍型指向性. 雙指向. 圖 3-6：麥克風指向性示意圖. 如圖 3-6 所示，虛線圓形上方為麥克風的前方，下方為代表麥克風後方。以本研究的性質上來考量，各支麥克風收音的主要範圍為麥克風正前方左右 90 度角，因此心型指向麥克風的收音範圍為最適合本研究所使用的麥克風類型。於表 3-1 中，條列出本裝置所選擇之麥克風的規格。. 表 3-2：本裝置單支麥克風規格麥克風規格廠牌. Kinyo. 型號. AY-0128. 型式. 動圈式. 指向特性. 心型. 頻率響應. 50~14KHz. 感度. -53 ± 3db. 接頭. USB 插頭. 額定電壓. DC 5V. 41.

(49) 2. 麥克風陣列的配置本研究期望使用麥克風陣列來實現限定區域內的二維空間定位，在地面上一公尺正方形的四個角落上分別設置一支麥克風成為麥克風陣列，分隔出的 16 格區域內，格子與格子之間的距離為 30 公分。麥克風陣列中的四支麥克風進行同步的收音，擷取使用者於裝置內進行踏步的聲音，經過節拍偵測判定是否為踏步聲，進而依照聲音來源進行定位並對應裝置上已分好的 16 格區域。. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 圖 3-7：本研究麥克風陣列裝置示意圖. 3. 聲音訊號定位各個角落上的麥克風會因為音源的距離遠近而造成不同的訊號接收，音源與麥克風距離越近，理論上響度與頻率越大，而距離越遠響度與頻率則越小，甚至會超過收音範圍而收不到聲音的狀況。因此我們可以利用元素差與門檻值計算過後的訊號，藉由定位方法計算各支麥克風接收的響度與頻率，進而得到使用者踏步的位置。在本篇論文的實作中，我們使用了元素差計算後超過門檻值的數量視為收音的訊號強度，如圖 3-8 所示，門檻值在偵測到節拍的發生時間時，將對這 42.

(50) 一段時間中超過門檻值的振幅取出最大值，作為之後三角定位與 RSSI 訊號強度的依據。. 原始聲音訊號. 元素差後的聲音訊號. 圖 3-8：訊號強度示意圖. I.. RSSI 訊號強度與距離：使用者在裝置內進行舞步的踩踏時，聲音訊號會呈現半球狀往所有方向發散. 出去，隨著球面的面積越來越大，聲音訊號的能量會越來越小，因此聲音的振幅與距離的帄方成反比的關係。在 RSSI 訊號強度與距離的關係必頇透過精準的測量來建立訊號衰減的模型，在本研究中由於使用者所進行的踏步無法進行正規化的測量，因此無法在使用者踏步的訊號強度與距離之間得到準確的訊號衰減模型。不過由於我們知道聲音的振幅與距離的帄方是呈現反比的關係，因此我們可以假設麥克風所收到的振幅開根號與距離是呈現反比的現象，便可以將接收到的振幅強度轉換到與距離的關係，再經由三角定位的方法來估算聲音來源在裝置中的位置。. II.. 三角定位：在取得音源與距離之間的相對關係之後，便可帶入三角定位中求得目標音源. 的位置。但由於每位使用者的踏步方法或力道都有不同，就算是同一位的使用者也無法保證其踏步的力道或方法每一次都是一模一樣的，所以並不能直接以麥克風擷取到的訊號強度對應相對的距離。雖然 RSSI 的訊號強度與距離的關係並不 43.

(51) 能完美套用於位置的踏步聲輸入，但可以確定的是在 RSSI 中可以觀察出訊號強度與距離之間主要是呈現帄方反比的關係，我們便可以使用比例的關係套用至三角定位中。首先我們將振幅開根號以符合帄方的關係，再將所有訊號強度進行正規化取各支麥克風的強度比例，再將其依比例配置各自的圓半徑。如圖 3-11 所示，麥克風陣列為 120(cm)X120(cm)，之間各間隔的間距為 30 公分，我們假設單支麥克風佔四支麥克風收音訊號強度比例為 100%時，圓半徑為 1 公分；訊號強度的比例為 0%時，圓半徑為 120. 公分，以此類推。. 100%，圓半徑 1 公分. 0%，圓半徑 120. 公分. 圖 3-9：訊號比例強度與距離關係圖. 三角定位利用幾何的方法，搭配各接收點所接收到的訊號強度，依照 RSSI 對照出的距離作為半徑，而目標點就是這些半徑畫成的圓的交集。在本研究中，我們利用 RSSI 呈現線性的關係，用比例的方式解決未知的輸入訊號進而求得音源位置。. 圖 3-10：三角定位運用於麥克風陣列示意圖 44.

(52) 三角定位中，在沒有障礙物的條件下，基本上使用三個接收器所接收的訊號搭配 RSSI 訊號強度與距離關係就可以完成準確的定位。而本研究的訊號接收器就是四支麥克風，理論上來說使用三支麥克風的數據就可以達到定位的效果，但由於使用者在操作本裝置時，進行舞步之外的另一隻腳可能構成障礙物這一項對三角定位不利的因素。因此本研究並不會因為三角定位的理論而把麥克風的數量減少為三個，而是僅使用其中三支麥克風所接收的數據來定位。使用者在操作裝置時，我們並沒有限制使用者的另一隻腳放置在哪裡，有可能是在裝置內、裝置外或是沒有在地上，如果再裝置外或是沒有在地上，則不會造成聲音傳遞的影響，但如果是在裝置內，會影響其中一支麥克風的收音。因此，我們可以將各個麥克風所收到的數據排除掉數據最小的；如果使用者另一隻腳在裝置外或不在地上，並不會影響其中一支麥克風的收音，排除收音數據最小的麥克風基於三角定位的理論是不會影響定位的效果，如果使用者另一隻腳構成障礙物的影響，受到障礙物影響的麥克風所收到的訊號理論上會是最小的，所以將他排除掉並不會影響到最後的定位結果。. 圖 3-11：最小訊號排除示意圖. 45.

(53) 三、音樂混音輸出本研究所完成的聲音互動裝置，是以四支麥克風所組成的麥克風陣列作為輸入端，處理端是運用節拍偵測與三角定位的方法來實作，輸出端是以 MIDI 音樂作為音樂的混音輸出。在 MIDI 音樂的製作上，我們使用 Acid Pro 7.0 來製作輸出所需的 MIDI 音樂，並選擇了可用於 C#的 Sanford Multimedia 的 MIDI. Toolkit. 做為 MIDI 音樂的開發套件。. 音樂主要可以分為節奏(rhythm)，旋律(Melody)，和弦和聲(harmony)[44][45]，我們便依照這樣的結構來製作本互動裝置的音樂混音輸出。使用者在操作裝置之前會有一種主旋律的播放，作為最基礎的音樂輸出，隨著使用者在裝置內進行舞步的踩踏，舞步的快慢會影響音樂播放的節奏，而不同的位置的舞步則會造成不同背景音樂混音的搭配。因此使用者在操作裝置時，會因為踏步的速度與位置不同，造成音樂的回饋不同，進而更改自己的踏步速度與位置，達到自己想要的音樂混音輸出。本研究的音樂輸出類型可以分為節拍速度與音樂內容：. 1. 節拍速度使用者於裝置上進行舞步的踩踏，經由麥克風陣列將擷取到的舞步聲音經過計算分析，便可得到踏步的時間資訊，因此就可以得到節拍速度(BPM，Beats Per Minute)資訊，進一步改變 MIDI 的音樂撥放速度回饋給使用者。使用者會依照音樂輸出的節奏速度改變自己舞步的速度，進而達到音樂與使用者之間穩定的速度。. 2. 音樂內容混音使用者踏步的速度是改變 MIDI 音樂的節拍速度，而踏步的位置是改變音樂的內容。在本裝置的輸出音樂中，主旋律為固定的音樂，使用者不同位置的踏步會造成不同的節奏與不同的和絃混音搭配主旋律。如圖 3-14 所示，本裝置的四個角落各代表一種不同風格的節奏與和弦，為了讓使用者更能感受不同位置的差異性，這些節奏與和弦也盡量使用不同的樂器演奏，在角落之間的位置代表不同 46.