2.3 視覺化聲音合成
2.3.3 掃描合成法
圖 12 (上)掃描軌道(下)波域上掃描投影之波形[6]
圖 13 (上)掃描軌道(下)波域上掃描投影之波形[6]
2.3.3 掃描合成法
由 Bill Verplank, Max Mathews 和 Robert Shaw 在 1998 年至 2000 年發展的一套適 合於表演的聲音合成法:掃描合成法(Scanned Synthesis) [9]。是一個基於心理聲學的合 成法,根據我們對音色所聽到的和感受到的觸動回饋(haptic)來操作音色,很適合用在 現場即時的表演。因此這個合成法包含了兩種感知的頻率:聽覺頻率和觸覺頻率(haptic frequencies)。聽覺頻率是人耳接收到的頻率響應範圍 20 至 20000 Hz,在音樂上的表現 也就是音高,相較於波域合成的音色是取決於一個週期性的掃描方程式,對於聲音的 頻率取決於週期性的掃描速度是一樣的,不同的是掃描合成的音色是根據一個特定機
-‐ -‐ 16
制中給予各個取樣點不同的位置變化而變化,並且這個變化是在一個特有頻率範圍內 操弄形變合成的波形,這個特有頻率就是觸動頻率。觸動頻率則是由於掃描合成是一 個低速動態的系統而產生 0 至 15 Hz 的頻率,因為這個振動的頻率低於人耳所能接收 的最低頻率,因此只會由身體感受到,不會被人耳聽到。
然而,這個在空間中變化的觸覺頻率,若只是隨意且獨立的改變它點的位置而被 掃描是不夠的,點與點之間必須有關連性,最基本用來描述一個低速動態的系統就是 一維的弦模型(如圖 14)。將這條弦拆成多個元素來看,用有限元素法的概念去逼近這 條弦上每個點,並且以牛頓運動定律來描述弦的運動。描述運動的核心模型是建構在 CORDIS–ANIMA 系統上[10],不同的是,掃描合成法不是直接靠物理建模振動而產生 聲音,它一定要透過特有的掃描機制來得到音頻;至於振動的話,掃描合成法會有一 個低於 15Hz 的觸覺頻率限制,而非 CORDIS–ANIMA 系統模擬物體做快速振動。
圖 14 有限元素模型來描述一維弦模型[9]
上圖中,把弦拆成:質點(Mi)、鏈結(Ti)、對地的鏈結(Ci)與阻尼(Di),這是一個最 基本被建構的模型,並用一個觸覺力(fi)造成質點 Mi 位移,連動其他的質點在這條弦上 的位移,造成隨時間變化的低速運動,生成低速變化的波表。
總之,要做到掃描合成的方式有很多種,但最基本的三個元素必須達成[9]:
(1) 一個低速振盪的動態系統
(2) 一個在觸覺頻率範圍內且依照表演者操作的控制介面
-‐ -‐ 17 理建模並且應用在音樂上,可以追朔到 Claude Cadoz [10]和 ACROE12研究組織,在 1970 年代開始發展至今。
12 由 Claude Cadoz, Annie Luciani and Jean-Loup Florens 在 1976 年發起的組織,致力於藝術科學技術的
研究,發展各樣的創作工具,不論是硬體或軟體
-‐ -‐ 18
一套物理性質的系統要做到物件的模擬,最小元素們彼此間相連但要離散,並且 在有限的維度下完成,勢必要藉由微小物件的構成來完成,將這些物理的溝通轉變成 為點對點的機械式溝通。一個 M 收到外力後傳出受力後的位置,一個 L 接受來自 M 的 位置後回饋一個散射或反射的作用力,再次回到 M,形成一個最基本的物件集合;延 伸物件之間的連結形成集合,當一個 M 連接多個 L,受到多個 L 傳遞的力,就把這些 力加總起來;但是反過來則不行,一個 L 無法連結多個 M, 無法把多個 M 傳過來的 值做加總,因為位置有方向性,L 最多只能連結兩端的 M 將彼此間的作用力與反作用 力做傳遞。
圖 16 M 點與 L 點的基本連結[10]
圖 17 M 點與 L 點的基本傳遞[10]
將這些基本的集合再一一串連結成純物理結構的網路拓撲(network topology),可 以形成二維或高維度不同型態的拓撲。
-‐ -‐ 19
2.4.2 pmpd
pmpd 為一個設計給 Pure Data 專門處理物理建模的系統,這個系統最核心的兩個 物件是虛擬的質點(virtual masses)與黏彈性的鏈結(visco-elastic link),根據 CORDIS–
ANIMA 系統理對 M 和 L 的描述,用上述兩個物件來建構一個質量彈簧網路結構[11]。
-‐ -‐ 20
圖 18 物件 mass 和物件 link 做一維弦模型之模擬
在 Pure Data 上實作也是以物件的概念組合,物理的運動型態與結構也會因為組合 不同形成各種類型的拓撲,也就是說即使質點數量一樣,與鏈結相接的方式不一樣都 會有所不同(如圖 19)。
圖 19 不同型態的拓撲[11]
描述物體結構在畫面上的運動,需要一個外部排程器不斷做訊號的觸發,將畫面 連貫起來,如同動畫的原理是將不同的圖片根據影格率(frame rate)連貫起來;而人類 的眼睛因為視覺暫留現象,可以以畫面影格率大約 10 至 12 的量值讓畫面看起來連貫,
如圖 20 所示,以每 50 毫秒觸發一次,也就是一秒內畫面更新 20 次。
圖 20 質點與鏈結的更新率
-‐ -‐ 21
除了質點和鏈結物件外,另外還有兩個輔助型的物件:互動物件和偵測物件。互 動物件提供了不論是對整體物件、對環境的互動,也因為跟整體的質點在空間中的運 動有關,針對環境、圓圈、線條、線段、球面結構、平面結構、環狀結構與圓柱結構 等做相對不同的作用力與製造重力場,而偵測物件如同質點物件與鏈結物件的關係一 樣,是為了配合互動物件而計算運動位移的物件,互動物件與偵測物件都分別有二維 與三維,因為種類繁多,不在本論文一一詳述其功能。
圖 21 (上)一維模型做二維度運動(下)二維模型做一維度運動[4]
以質點的數量對應到物件或物件副程式的數量,因為是一對一所以是直覺的,鏈 結也根據質點的位置在 Pure Data 上圖形化介面直接拉線即可,但是當結構複雜或是數 量過多時,所耗費的時間成本太高,希望可以靠矩陣型態記錄所有的質點與鏈結,因 此 chdh 在 2011 年的時候釋出了 pmpd 0.10 版本,最大的改善就是提高了質點與鏈結物 件在宣告時的速度與完整性,藉由數值陣列式的呼叫出抽象型態的質點與鏈結,再透
-‐ -‐ 22
過不同的演算將質點與鏈結連接好,這樣的方式節省了設計與實作過程所花費的時間,
詳細的物件介紹與實作,會在之後的第四章作更詳細的說明。
2.5 相關實作
掃描合成法被發明時有一個很獨特的地方,就是強調表演者對於音色的操控[9],
因此以下列舉的一些實作,都是跟介面或是電子樂器做整合,以「掃描式合成樂器」
為主題,討論其中手勢(gesture)的操作與參數的對應[12]。
2.5.1 音源軟體
市面上主打掃描式合成法的 VSTi(Virtual Studio Technology instrument,虛擬音源 軟體)少之又少,最有名或說幾乎唯一的就是『Scanned Synth Pro』(圖 22,左),是第 一套做成商用軟體用的外掛音源,是由 Humanoid Sound Systems 公司出的,音色飽滿 多層次且充滿電音感很重。後來又出了可相容的版本『Scanned Synth Mini』(圖 22,
右),用的是同一套開發引擎,並且在使用者介面上精簡許多,雖然多了很多控制上與 音色調變權限的限制,但是隨機篩選功能把各項參數都預設好,用起來也是挺方便的。
圖 22 Scanned Synth Pro 和 Scanned Synth Mini 的介面 (資料來源:http://www.humanoidsounds.co.uk/) 2.5.2 iPad 音樂軟體
而對於操弄波表與顯示波表兩者,在二維上的表現是最直覺的,以『The Wablet』
-‐ -‐ 23
[13]為例,這是一個基於掃描式合成的聲音合成軟體,同時在畫面與操作介面上以多點 觸控操作,利用物理運動特性來描述二維空間中多種不同形式的網格,可以即時操控 網格形變、拖拉網格中的聲音合成路徑變化以及各項物理參數(見圖 23)。
圖 23 The Wablet 的介面
(資料來源:http://createdigitalmusic.com/)
另一個軟體是最近新出的『SpheroSampler』(圖 24),這是一個罕見的操作介面,
用 3D 球型的方式即時錄放聲音,介面上兩個球體,可以藉由手的滑動更換錄音的音軌 位置和播放速度(見),猶如 DJ 的工作一樣;雖然這個軟體不是用到掃描式合成法,但 是它的表現方式與循環模式也有掃描的味道。
圖 24 SpheroSampler 的介面
(資料來源:http://spherosampler.com/)
-‐ -‐ 24
2.5.3 電子樂器與裝置
關於如何操弄掃描的方式,探討的就是音樂新介面與表現(New Interfaces for Musical Expression,簡稱 NIME),不論是以現成的手勢裝置(gesture device),像滑鼠、
數字鍵盤和電子手繪板等電腦輔助裝置,作為輸入對應參數的方式建立一個平台[12],
或是結合陣列式的控制器『the MATRIX』,把聲音取樣後做離散式的動態掃描[14],又 或是結合各樣感應器做成的樂器『The Squiggle』、『The WaveSaw』[15, 16]和接觸式體 感感應器『MiniBioMuse-III』偵測肢體肌肉脈動[17],以及用即時影像偵測,利用光打 在水面上的漣漪反射,數值化後轉換做對應[18]等,都是很創新的表現介面。
-‐ -‐ 25
三、 物件與結構設計
3.1 音像系統架構
本系統在整體架構的設計上可以分成控制介面、音像演算程式兩大部分。如圖 25 所示,控制介面為指令輸入與監視功能,分為預置調變與即時調變;輸入的參數對應 到音像演算程式,以 pmpd 物件為主體,連結其他邏輯運算子程式後做音訊與影像處 理,最後送出的音像輸出會回傳給控制介面中的顯示介面做監控。
圖 25 系統架構圖
3.1.1 開發環境介紹
本系統與介面是用圖型化介面的即時影音處理程式 Pure data 實作完成,指令的函 式皆由物件的形式做處理,透過拉線的方式完成物件與物件之間的溝通。模擬物理動 態的物件是 pmpd,在本論文的章節 3.3 會做詳細介紹;影像的處理與輸出是透過 GEM
-‐ -‐ 26
系列的物件完成,GEM 的全名是多媒體製圖環境(Graphics Environment for Multimedia),
包括產生畫面視窗、描繪畫面中的幾何物件、物件在三維空間中的運算和打光與色彩
-‐ -‐ 27
因此改以獨立建構點、線、面的方式來描繪球面,球缺從 ! = 2 到 ! = 20。
表 3 球缺與球面結構
! = 2 ! = 3
! = 4 ! = 5
! = 6 ! = 7
-‐ -‐ 28
! = 8 ! = 9
! = 10 ! = 20
球面的結構又可以看做是地理結構,!方向是緯度,!方向是經度,靜止狀態時的 球面半徑為 2,而各個質點就坐落在以半徑為 2 畫出的圓弧線上,質點的位置把弧線做 等分。
3.2.2 色塊對應
為了方便觀看球面上各點、線、面的運動情形,在!的徑向方向根據高度做 RGB 色彩模型的組合變化,紅色最高,藍色最低,設一個三維陣列(!!, !!, !!)來記錄浮點數 量值,以聲音振幅的範圍–1 至 1 來看,定義小於–0.75 和大於 0.75 的值對應到 RGB 色彩模型的藍色和紅色,以!的值範圍來對應的話就是 0.5 至 3.5,透過下面的轉換式便
為了方便觀看球面上各點、線、面的運動情形,在!的徑向方向根據高度做 RGB 色彩模型的組合變化,紅色最高,藍色最低,設一個三維陣列(!!, !!, !!)來記錄浮點數 量值,以聲音振幅的範圍–1 至 1 來看,定義小於–0.75 和大於 0.75 的值對應到 RGB 色彩模型的藍色和紅色,以!的值範圍來對應的話就是 0.5 至 3.5,透過下面的轉換式便