• 沒有找到結果。

本文系統使用的設計程式為 MATLAB,系統的詳細架構主要分為下列幾個 部分,方塊流程圖如圖 4.2.1。

圖 4.2.1 系統流程方塊圖

系統架構主要可以分為訓練模式與使用者模式,其流程分別以淡藍色和紅色 表示,詳細流程說明如下:

(1) 音訊輸入

訓練模式中,訓練音訊的規格採用 wave 格式之音樂檔案,取樣頻率 14700Hz,

取樣解析度 16-bits,單聲道,作為基本的系統訓練與測試,採用 30 秒為片段 的音樂並且附有單一情緒類別的標記,詳細說明請參考 4.3 節。使用者模式中 音訊檔案格式相同,長度視檔案而定。

(2) 音框化

如同 2.1 節所述,為了要對音訊做進一步的頻譜分析,表示音訊於每個時刻 的狀態,必須先對音訊作音框化的處理,使原始訊號切割為許多等長的音框。

音訊音框化的音框長度為 2048 個樣本點,音框重疊長度為 1536 個樣本點。

(3) 特徵萃取

在特徵萃取的部分,主要可以分為五種特徵的萃取(i)音樂事件密集度、(ii)音

4.3 訓練訓練訓練資料訓練資料資料 資料

本文針對音樂事件以頻譜的變化來進行探測,接下來將探討如何以頻譜流量

圖 4.4.1 以音訊頻譜流量進行音樂事件偵測

圖 4.4.1 為 J.S. Bach Cello Suite No.1 Prelude 古典吉他演奏版本的音樂事件 偵測,上方為 0~30 秒的時域波形,下方則是以公式(13)計算的頻譜正流量,綠色 線段為平均流量。可以看到當頻譜流量有峰值出現的時候即對應到一個音樂事件 的發生位置。實際與人工標記的音樂事件比較,結果可以參考圖 4.4.2。

圖 4.4.2 頻譜流量音樂事件偵測結果

圖 4.4.2 中縱軸為 1 的是系統找出的音域事件位置;縱軸為 2 的是系統找出的音 樂事件和人工標記的音樂事件的交集,也就是實際被找出的正確音樂事件;縱軸 為 3 的是人工標記的音樂事件位置。可以看到大部分的音樂事件位置都可以被準 確的找出,達到查準率(Precision)86.96%,查全率(Recall)98.03%,關於查準率與 查全率的定義請參考附錄-C。

目前節奏萃取又分為節奏標記(tempo induction)([23]、[24])和節奏追蹤(beat tracking) ([18]、[20]、[22])兩種研究方向,前者將音訊檔案視為有穩定節奏的訊 號,目標是找出其穩定的節奏速度值;後者是針對節奏速度較不穩定的音訊計算 其節奏速度的變化。由於本系統是考慮各個時間的音樂情緒變化,節奏追蹤為較 適當的計算方式。以往分析節奏速度時,最常遇到的一大爭議就是判定節奏速度 的客觀性,常見的狀況如:相同一首雙數拍的音樂,或許多數人會和人工定義的 標準答案以相同的拍度(BPM - Beats Per Minute)打拍子,但有些人會以兩倍或以 二分之一倍的拍速的拍速來跟著音樂打拍子。這是節奏追蹤的效能評估一直以來 最大的一項爭議[24]。

由於一般普遍的音樂型態皆有固定的節奏,在這樣的假設前提下,本系統直 接以音樂事件密集程度來代表瞬間的節奏速度,如圖 4.4.3 所示:

圖 4.4.3 音樂事件與節奏關係示意圖

音樂事件與節奏關係示意圖如圖 4.4.3,藍色線段為音樂的進行方向,綠色 線段代表音樂事件的端點位置,虛線分別為兩個不同的聆聽音樂的當下音框時 刻,紫色線段代表固定的回溯時間長度,可以看到不同時間的當下回溯前一小段 時間為當下節奏速度感的主要依據,此即為本系統針對節奏速度的計算所使用的 概念。在客觀看待每一個音樂事件的情況下,所有的音樂事件可以以 0 和 1 來表 示,0 表示無音樂事件,1 表示有音樂事件。但考慮人在聆聽音樂的過程中,最 主要影響當下的節奏感的應該是當下往前一段時間內的音樂事件,而非經過太久 和未來未發生的音樂事件。所以本系統利用當下時刻以前的一小段時間的音樂事 件密集程度代表當下的節奏速度,並且給予各個音樂事件距離當下的時間長度不 同的權重,離當下越遠的音樂事件的權重越小,反之離當下越近的音樂事件權重 越大。這個權重函數本系統簡單以半個 Hamming Window 來表示,如圖 4.4.4。

圖 4.4.4 音樂事件的權重分佈

圖 4.4.4 中可以看到,x 軸座標代表其和當前的音框時間的差額,即當下往前 8 秒鐘所有時刻的權重比例。總結上面敘述,任一個當下的節奏速度可以利用音樂 事件的密集程度表示為下式:

# of frames of past 8 seconds

Onset Density[ ] Onset[ ] [ ]

n

m

n m w m

=

= ∑ ⋅

(14)

其中 n 為當前的音框索引,m 為音框索引,Onset[m]為代表各個音框有無音樂事 件的函數,當某個音框時刻有音樂事件則為 1 反之為 0,w[m]即為 Hamming Window 型式的權重函數。實際計算結果可以參考圖 4.4.5 與圖 4.4.6,分別為貝 多芬的月光奏鳴曲與 Muse 的 Stockholm Syndrome 之音樂事件密集程度變化。

圖 4.4.5 貝多芬之月光奏鳴曲-音樂事件密集度

圖 4.4.6 Muse 之 Stockholm Syndrome-音樂事件密集度變化

由圖 4.4.5 與圖 4.4.6 可以看到,音樂事件的密集程度可以表示出音樂內容的節奏 速度大小之不同。這樣的概念有別於以往的節奏追蹤系統,以音樂事件密集程度 來代替節奏追蹤的最大優點為其排除了節奏的倍數差異的難題。考慮一個常見的 情況:一首慢拍速的音樂,在音樂進行中樂手突然以較短促且快速的音符獨奏,

這一瞬間聽者的節奏速度感受應該是相當強烈的,但以往的節奏標記或追蹤系統 則傾向音樂段落前後整體速度不變而較無法反映出這樣的段落,而且倍數拍的差 異會造成系統無法辨識出其音樂實際上到底是快還是慢,這些問題對於情緒辨識 與預測上是一個相當大的阻礙,若需應用節奏速度為特徵來幫助情緒辨識,節奏 速度需要是絕對的節奏速度而不能容許倍數差異。另外因為本系統的目標是找出 當下的情緒反應而非讓電腦依照節奏進行互動,以音樂事件的密集程度代表音樂 當下的節奏速度是一個替代節奏追蹤的可行辦法。訓練資料 192 首音樂片段的平 均音樂事件密集度與各個類別的平均的計算結果請參考第五章。

4.5 音量大小音量大小音量大小 音量大小

聲音的大聲或小聲,在人的聽覺感知中稱為該聲音的響度(Loudness)。音量

在音樂的表現中也常常和情緒有直接或間接的關聯,其大小或是改變對聽者的情

圖 4.5.2 Muse 之 Stockholm Syndrome-音量變化

其為每個頻率位置與頻譜質心 SC 的差額配上當前的頻譜強度權重之加權平均,

圖 4.6.2 Muse 之 Stockholm Syndrome-頻譜質心和頻譜帶寬

4.7 調性調性調性分析調性分析分析與和聲和諧程度分析與和聲和諧程度與和聲和諧程度與和聲和諧程度

一般而言音樂調性也為一種相當具代表性的音樂特徵,旋律和和聲的變化造 就了一個音樂的整體感,在音樂理論上稱為調性。調性在一般的音樂中皆可以得 到一些概要性的分析,如小調音樂總是聽起來較為哀傷與詼諧;大調音樂則是聽 起來較為快樂與振奮。進行調性的追蹤可以知道前一小段時間內的音樂內容對於 聽者的情緒感受影響大概為何。計算短時距頻譜並且轉換其中 100Hz 至 5000Hz 之間的頻譜為音調層級表示法有助於音樂調性的分析,選用特定頻率範圍的用意 為減少打擊樂器和其他非和聲音訊的干擾。文獻[29]以平均率分析音樂調性中各 個調性的音符出現時間比例,比例的多寡即為該調性的音符權重,各種不同的音 符權重分配即為該調性的 12 音符的調性樣板,如圖 4.7.1 和圖 4.7.2:

圖 4.7.1 C 大調調性樣板

圖 4.7.2 C 小調調性樣板

圖 4.7.1 和 4.7.2 中橫軸代表平均律中由 C 至 B 的 12 個音名,注意這邊只針對音 高作分析而不將同音異名分開討論;縱軸代表音符出現的比例強度或是權重。將 權重位置橫向移動即可以得到 12 個大調與 12 個小調的調性樣板,總共 24 種調 性樣板。文獻[2]也以類似的方式製作調性樣板,但是此篇將 KEY 與 MODE 分

成兩個層級來探討。實際計算利用 2.3 節所述音調層級表示法,先以下列兩種樣

# of frames of past 8 seconds

一般在聆聽音樂時很容易就可以發現,不同的和聲帶給聽者不同程度的和諧

進行或變化對於情緒的影響為何,因此在應用上還存在許多問題。本文中嘗試以

整個計分過程如圖 4.8.1,Pt的累加過程中,而每個時刻的累加分數 pt再乘以衰 退函數σ,代表隨時間衰退,即情緒的釋放。

圖 4.8.1 計分流程圖

關於連續時間的音樂特徵值變化與 Thayer 情緒模型的兩軸對應的情形,目前並 無文獻做詳盡的分析,本研究中依照計算結果調整配給的權重如表 4.8.1:

表 4.8.1 音樂特徵值與 Thayer 情緒模型的對應關係

音樂事件密集度 音量 音色 調性 和聲和諧度

能量 0 0 0 1 0.91

壓力 1 0.4 0.14 0 0

4.9 情緒邊界情緒邊界情緒邊界的訓練情緒邊界的訓練的訓練的訓練

本系統中,不同的特徵強度會使聽者情緒指標產生相對的加減分和位移,但 是並無明確邊界可以界定出不同情緒之間的邊界。利用本系統的計分模型所產生 的情緒位移座標,可以使用 GMM 來訓練出各個情緒邊界的範圍,這樣的概念除 了可以使使用者了解音樂的變化和情緒變化的關係,也可利用於整體最終概要情 緒的辨識。新的測試音樂的情緒指標位移即可利用已經訓練好的邊界來辨別每一 段落的可能情緒為何。由於實際計算後的情緒軌跡位移在剛開始計分的時候會有 一段得分累積的時間,訓練資料的取得為情緒軌跡位移後半段的部分,且為隔數

個音框取一個軌跡座標做為訓練資料,如圖 4.9.1 和圖 4.9.2:

圖 4.9.1 貝多芬之月光奏鳴曲-情緒軌跡位移

圖 4.9.1 貝多芬之月光奏鳴曲-情緒軌跡位移

相關文件