• 沒有找到結果。

摘要

N/A
N/A
Protected

Academic year: 2022

Share "摘要"

Copied!
77
0
0

加載中.... (立即查看全文)

全文

(1)

i

摘要

在人類還沒有産生語言時,就已懂得透過聲音的高低及強弱的不同等來表達自己的 想法和情緒。隨著數位時代的來臨,數位化的多媒體資料應用日益擴大,多媒體內涵式 分析(content-base multimedia analysis)已成為目前研究的焦點。以往數位音樂內涵分析的 研究焦點,主要是在探討較低階的、訊號分析的層次上。而近年來,隨著研究的快速進 展,研究焦點逐漸轉為針對高階的人類感知(human perception)、心理(psychology)層面 的分析研究。

本篇論文主要研究目的是探討音樂給人在感知方面的高階情緒特性,並據此提出一 個音樂情緒模型。希望能針對MP3 格式的數位音樂,透過擷取出音樂原始的低階特徵,

來計算與分析音樂感知相關高階特徵。速度、調性、力度被認為是影響音樂表情的三種 主要因素,因此我們針對 MP3 格式的音樂提出兩種方法來自動偵測上述的因素。接著 根據我們所提出的情緒模型,將這三種音樂因素轉換成三個維度,並加以對應至Hevner 所建議的八種情緒。透過我們所提出的高階音樂感知特徵計算與音樂情緒模型之分類,

我們可以自動歸類一首未知MP3 音樂的聆賞情緒。

由於音樂本身本質是聽覺的媒體,在很多狀況下,人們所感受的音樂聆賞情緒,並 不是單一的、彼此無交集的(disjointed)。所以一首歌曲的情緒分類結果應為八種基本情 緒的個別傾向程度的組合。此外,聽覺的媒體在許多應用上希望能以視覺化的(visual) 方式來呈現。因此,我們試著將一首音樂給人的感受,利用顏色這種視覺化的方式,來 呈現聽覺性、看不到、較抽象的音樂聆賞情緒。因此為了以圖型視覺方式來呈現音樂給 人的各種情緒比重,我們提出一個以音樂情緒色彩對應雷達圖來表現音樂情緒與色彩的 關係。

關鍵字:多媒體內涵式分析、音樂聆賞情緒、人類感知、音樂情緒模型、視覺化

(2)

ii

Abstract

Far before any forms of verbal language emerged, human beings have learned to express their thoughts and feelings through vocal variations in tone and force. With the coming of the digital era, the applications of digital multimedia data have been increasing and content-based multimedia analysis has become the focus of recent research. Former content-based multimedia analysis focused mainly on low-level signal analysis. Recent analysis, with great progress, has turned to center on high-level human perceptional and psychological analysis.

The purpose of this thesis is to propose a musical mood model by studying the high-level emotional features that music has been bringing to human beings. Aimed at MP3 digital music and featuring primary low-level musical characteristics, we try to analyze perception-related high-level characteristics. As tempo, dynamics and key are believed to be the three main factors in influencing musical expression, we propose two approaches which will automatically detect the above factors in MP3 music. Then, these three factors will be transformed into three dimensions in the proposed emotional model, and combined and arranged so that they correspond to the eight mood classifications suggested by Hevner.

By referring to these high-level perceptional features and the musical emotional models we have proposed, we will be able to automatically classify moods in MP3 music.

As music is in essence the media of hearing, perceptions, in many circumstances, are not sole or disjointed. The result of mood classification in a song should be the combination of eight emotional tendencies. Furthermore, audio media are often expected to be represented visually. In this thesis we try to present mood that music has brought to the hearer, the acoustic, visible and abstract emotions, by way of color. Hence, in order to the proportion of each mood classification that music brings, we propose here a radar diagram showing the correspondence between musical mood and color.

Keywords: content-base multimedia analysis, musical hear enjoy emotion, human perception, music emotion model, visualization

(3)

1

目錄

1.  序論 ... 8 

1.1.  研究動機 ... 8 

1.2.  相關研究 ... 10 

1.2.1.  情緒模型概述 ... 10 

1.2.2.  情緒模型相關研究 ... 10 

1.2.3.  音樂感知與情緒分析相關研究 ... 12 

1.2.4.  音樂感知情緒偵測相關研究 ... 13 

1.2.5.  調性偵測相關研究 ... 16 

1.2.6.  速度偵測相關研究 ... 16 

1.3.  章節概要 ... 17 

2.  音樂感知情緒自動分類系統之系統架構 ... 18 

3.  音樂表情的主要構成因素 ... 20 

3.1.  音程(interval) ... 20 

3.2.  調性(key) ... 21 

3.3.  速度(tempo) ... 22 

3.4.  力度(dynamic) ... 23 

4.  音樂感知情緒模型 ... 26 

4.1.  情緒模型介紹 ... 26 

4.2.  情緒類型分類 ... 27 

4.3.  音樂感知情緒視覺化模型 ... 30 

5.  MP3 音訊壓縮標準簡介 ... 33 

5.1.  MP3 音訊編碼程序介紹 ... 33 

5.2.  MP3 音訊解碼程序介紹 ... 34 

6.  低階 MP3 音樂特徵值擷取與計算 ... 35 

(4)

2

6.1.  MDCT 特徵值 ... 35 

6.2.  MPEG-7 特徵值 ... 35 

6.3.  MFCC 特徵值 ... 37 

7.  音樂感知情緒自動分類法 ... 38 

7.1.  以樂理為基礎之規則式判讀分類法 ... 38 

7.2.  分類器分類法 ... 40 

8.  實驗 ... 41 

8.1.  實驗環境與實驗樣本 ... 41 

8.2.  實驗結果 ... 41 

9.  結論與未來工作 ... 48 

10.  參考文獻 ... 49 

附錄A、新葛羅夫線上音樂辭典(2007)有關音樂專有名詞之定義 ... 55 

附錄B、實驗樣本樂曲之主觀感知描述及其聆賞情緒分類 ... 60 

附錄C、MPEG-7 公式 ... 73 

(5)

3

圖目錄

圖1、情緒模型演進史... 10 

圖2、Hevner 所提出之八種形容詞列表 ... 12 

圖3、Thayer 提出之二維情緒模型 ... 12 

圖4、音樂感知與情緒分析相關研究圖... 13 

圖5、音樂感知情緒自動分類系統之系統架構... 18 

圖6、音程名稱示意圖... 20 

圖7、全音、半音說明圖... 20 

圖8、大調音階、小調音階... 21 

圖9、貝多芬-第七號鋼琴奏鳴曲-1 ... 21 

圖10、貝多芬-第七號鋼琴奏鳴曲-2 ... 22 

圖11、貝多芬-第八號鋼琴奏鳴曲 c 小調《悲愴》 ... 22 

圖12、貝多芬-第 10 號鋼琴奏鳴曲第一樂章-1 ... 23 

圖13、貝多芬-第 10 號鋼琴奏鳴曲第一樂章-2 ... 23 

圖14、貝多芬-第二十九號鋼琴奏鳴曲-1 ... 25 

圖15、貝多芬-第二十九號鋼琴奏鳴曲-2 ... 25 

圖16、音樂感知情緒模型... 26 

圖17 貝多芬第 29 號鋼琴奏鳴曲 降 B 大調-第一樂章... 28 

圖18、蕭邦作品第 3 號練習曲(op.10-3)... 28 

圖19、蕭邦作品第 13 號練習曲(op.25-1)... 28 

圖20、蕭邦作品第 1 號練習曲(op.10-1)... 29 

圖21、貝多芬-第 25 號鋼琴奏鳴曲-第二樂章 ... 29 

圖22、貝多芬-第 8 號鋼琴奏鳴曲-第一樂章 ... 29 

圖23、蕭邦作品第 4 號練習曲(op.10-4)... 30 

圖24、蕭邦作品第 6 號練習曲(op.10-6)... 30 

(6)

4

圖25、音樂感知情緒對應色譜圖... 32 

圖26、音樂感知情緒示意圖... 32 

圖27、MP3 編碼程序 ... 33 

圖28、人耳 V.S.不同頻率之敏感度分佈圖 ... 34 

圖29、MP3 解碼程序 ... 34 

圖30、MFCC 擷取流程 ... 37 

圖31、Temperley 提出之調性側寫 ... 38 

圖32、起音點偵測示意圖... 39 

圖33、各個片段的平均能量... 39 

圖34、倒傳遞類神經網路架構... 40 

圖35、音樂表情特徵正確率結果... 43 

圖36、蕭邦第 1 號練習曲 op10-1 之情感示意圖-熱情的 ... 44 

圖37、貝多芬-第 23 號奏鳴曲第二樂章之情感示意圖-雄偉的 ... 44 

圖38、貝多芬-第 10 號奏鳴曲第二樂章之情感示意圖-優美的 ... 44 

圖39、蕭邦第 18 號練習曲 op25-6 之情感示意圖-善感的 ... 45 

圖40、蕭邦第 23 號練習曲 op25-11 之情感示意圖-平靜的 ... 45 

圖41、貝多芬-第 8 號奏鳴曲第一樂章之情感示意圖-悲愴的 ... 45 

圖42、貝多芬-第 2 號奏鳴曲第一樂章第二主題之情感示意圖-高貴的 ... 46 

圖43、貝多芬-第 10 號奏鳴曲第一樂章第一主題之情感示意圖-快樂的 ... 46 

(7)

5

表目錄

表1、 Tao Li 將 Fransworth 定義之容詞組擴充成 13 組 ... 14 

表2、Wieczorkowska 所定義之 6 個形容詞組 ... 14 

表3、張智星教授等人使用之特徵... 15 

表4、速度常見術語... 23 

表5、強度標記說明... 24 

表6、情感類型分類說明表... 27 

表7、Cheng-Yu Wei 提出之顏色與關聯的情緒 ... 31 

表8、音樂感知情緒與色彩關聯表... 31 

表9、類神經網路分析結果... 42 

表10、樂理為基礎之規則式判讀結果... 42 

表11、音樂聆賞情緒程度分佈表 ... 43 

表12、特徵值混和音樂特性+樂理規則為基礎的聆賞情緒分類情緒結果之混淆 矩陣... 47 

表13、類神經網路根據不同特徵值分類之音樂聆賞情緒分類結果... 47 

表14、貝多芬-第 1 號奏鳴曲 ... 60 

表15、貝多芬-第 2 號奏鳴曲 ... 60 

表16、貝多芬-第 3 號奏鳴曲 ... 61 

表17、貝多芬-第 4 號奏鳴曲 ... 61 

表18、貝多芬-第 5 號奏鳴曲 ... 62 

表19、貝多芬-第 6 號奏鳴曲 ... 62 

表20、貝多芬-第 7 號奏鳴曲 ... 62 

表21、貝多芬-第 8 號奏鳴曲 ... 63 

表22、貝多芬-第 9 號奏鳴曲 ... 63 

表23、貝多芬-第 10 號奏鳴曲 ... 63 

(8)

6

表24、貝多芬-第 11 號奏鳴曲 ... 64 

表25、貝多芬-第 12 號奏鳴曲 ... 64 

表26、貝多芬-第 13 號奏鳴曲 ... 64 

表27、貝多芬-第 14 號奏鳴曲 ... 65 

表28、貝多芬-第 15 號奏鳴曲 ... 65 

表29、貝多芬-第 16 號奏鳴曲 ... 65 

表30、貝多芬-第 17 號奏鳴曲 ... 66 

表31、貝多芬-第 18 號奏鳴曲 ... 66 

表32、貝多芬-第 19 號奏鳴曲 ... 66 

表33、貝多芬-第 20 號奏鳴曲 ... 67 

表34、貝多芬-第 21 號奏鳴曲 ... 67 

表35、貝多芬-第 22 號奏鳴曲 ... 67 

表36、貝多芬-第 23 號奏鳴曲 ... 68 

表37、貝多芬-第 24 號奏鳴曲 ... 68 

表38、貝多芬-第 25 號奏鳴曲 ... 68 

表39、貝多芬-第 26 號奏鳴曲 ... 69 

表40、貝多芬-第 27 號奏鳴曲 ... 69 

表41、貝多芬-第 28 號奏鳴曲 ... 69 

表42、貝多芬-第 29 號奏鳴曲 ... 70 

表43、貝多芬-第 30 號奏鳴曲 ... 70 

表44、貝多芬-第 31 號奏鳴曲 ... 70 

表45、貝多芬-第 32 號奏鳴曲 ... 71 

表46、蕭邦 練習曲 op10-01~06 ... 71 

表47、蕭邦 練習曲 op10-07~12 ... 71 

表48、蕭邦 練習曲 op25-01~06 ... 72 

表49、蕭邦 練習曲 op25-07~12 ... 72 

(9)

7

表50、基本頻譜(basic spectral) ... 73 

表51、頻譜音色(timbral spectral) ... 74 

表52、信號參數(signal parameters) ... 75 

表53、基本特性(basic) ... 75 

(10)

8

1. 序論

1.1. 研究動機

在人類還沒有産生語言時,就已懂得透用聲音的高低及聲音強弱的不同等來表達自 己的想法和情感。而人類社會音樂的起源,可追溯到洪荒時期,從前伏羲氏教民打獵捕 魚時,創造了網罟之歌,神農氏教民農作時,更有豐收之詠。因此,音樂在人們生活中 扮演非常重要的角色。

隨著時代演進至數位時代,數位化的多媒體資料的應用日益擴大,因而多媒體內涵 式資料成為研究的焦點。其中數位音樂的內涵分析研究焦點,由較低階的訊號分析層次 轉為高階的、人類感知的、心理層面的分析。在音樂聆賞理論方面,1956 年梅爾[47]

認為音樂聆賞是一種動態的過程(dynamic process),音樂的理解及欣賞在於人們對音樂 的特性之感知(perception)與回應(response),而常見的音樂情緒包含讓人緊張(tension)與 鬆弛(repose)、穩定(stability)與不穩定(instability)、模糊(ambiguity)與清晰(clarity)。梅爾 認為使用者對於歌曲的期待(exception)在音樂情感方面,扮演著核心的角色。從音樂的 心理層面的觀點看來,音樂能持續不斷且出乎人意料的引起一些緊張感和不穩定的感 覺,而從其他觀點看來,音樂每一個單位組成都是獨立且完整,而樂理可以提供音樂結 構的技術說明,曲風是如何由音組成音樂,以及瞭解什麼樣的音樂結構的基礎,可以引 發聆聽者的情緒。

Huron 認 為 要 建 立 一 個 能 跨 越 網 路 , 且 將 音 樂 相 關 的 檔 案 建 立 索 引 (index music–related files)的音樂搜索引擎(musical web crawlers)是一個很大的挑戰。必須針對 音樂的感知(perception)和認知(cognition)做廣泛的研究方可,但這可從音樂總結和情緒 特性加以探討。他認為大部分情緒的特性都建立在以下四種資訊裡面:風格(style)、情 緒(emotion)、作品的類型(genre)、相似度(similarity)[19]。所以音樂的內涵有極大的層面 在於其對人類聆賞時所引發得情緒。

(11)

9

十七世紀笛卡兒相信情緒是控制且決定人類行動的活力因素。笛卡兒著的《論情緒 -Theory of Emotion》之中,其認為有六種原始情緒:羨慕(wonder )、愛( love )、恨(hate)、

欲望(desire)、愉快(joy)、悲哀(sadness ),雖然也很多其他情緒,但其認為這都只是此六 種情緒的某幾種相互組合而成的結果。在最近幾十年,心理學家對情緒常見的定義,認 為情緒是一個獨立的過程,有人將情緒當作是介於刺激(impulse)和反應(response)之間的 中間變量(middle variable),直接用行為主義理論來解釋情緒。近代心理學家斯曼托則認 為情緒一詞的含義有極多:情緒是情感、是身體各部位的變化有關的身體狀態、是一種 明顯的或細微的行為,並且可能發生在特定的情境中。由此可見情緒是人類生活中不可 缺的一個重要組成部分[19]。

由於音樂內涵的不確定、多變及朦朧的特性,很容易喚起人們的經驗記憶、聯想和 想像,更可以從音樂中聽出情緒、情感,甚至情節、情態。即使是音樂處於靜止之狀態, 仍有無窮的音律蘊藏。因此音樂情緒在日常生活中能應用的領域非常地廣泛,如餐廳的 老闆常利用音樂來引某些顧客、電影的導演用音樂來營造某種特別的氣氛、廣告商運用 某種旋律來增加觀眾的印象、有氧運動的指揮常利用音樂來找到節奏、卡車司機也常放 一些音樂使自己駕駛時能夠更專心等[19]。人們常透過音樂表現特定的意緒、意向、意 境而傾訴豐富的情思與心語。因此音樂可以表達作曲者的想法、情感,對於聆賞者亦可 產生某些情緒。

以往多媒體內涵的分析,主要透過擷取音樂低階特徵值,如旋律、節奏、調性、速 度等,且加以分析、分類、索引等進行探討。近年來,隨著研究的快速進展,低階特徵 已逐漸無法滿足對音樂內涵分析的高階需求,因此分析人類感知、情緒等高階特徵,已 成為目前研究主流之一。在本篇論文中,我們希望針對 MP3 數位音樂,試著探討音樂 給人的感知的高階情緒特性,據此提出一個音樂情緒模型。並希望能利用 MP3 音樂檔 案的特性,擷取出低階的音樂原始特徵,進一步分析音樂的感知相關特徵,如:旋律 (melody)、節奏(rhythm)、速度(tempo)、和弦(chord)等。最後利用這些感知特徵,配合 所提出的音樂情緒模型,能自動對一首MP3 音樂,進行音樂聆賞情緒的自動分類。

(12)

10

1.2. 相關研究

1.2.1. 情緒模型概述

以往在情緒心理學所提到的情緒模型(emotion models),大致上可分成兩類(圖 1)。

一 類 為 通 用 型[51][52][75][76][61] , 另 一 類 則 是 針 對 音 樂 所 引 發 的 情 緒 反 應 模 型 [16][11][59][41][42][84]。

圖1、情緒模型演進史 1.2.2. 情緒模型相關研究

早期情緒模型的研究是心理學領域的重要探討主題。Watson 與 Tellegen 提出一個 以正向情感[61]和負向情感[76]為量測方法的階層式分類綱目(hierarchical taxonomic scheme)[70]。以此為基礎他們在 1989、1992 年[71][73]陸續提出了一個稱為 PANAS 的 心理模型,用以描述各種情緒的分類綱目。此模型採用兩種不同的層級來測量心境 (mood) , 高 階 的 部 份 主 要 是 用 來 反 應 目 前 心 境 描 述 子 (mood descriptors) 的 價 數 (valence),即表現為正(+)或負(-);而低階部份則是用來反應不同情感所擁有的特殊特 性。Watson 及 Clark 將此模型所提到的情緒狀態加以擴充提出 PANAS-X 的模型 [73][77],並且一樣提供兩種不同的級別來測量心境。

Russell[51]於 2003 年總結其在情感方面長年的相關研究,提出對核心情感(core

(13)

11

affect)的分析,將情緒和情緒轉變時所引發的事件,在心理學的層面上給予嚴謹的定義 與解釋,而不像以往定義的模糊不清。在論文中,採取兩個部份來說明,第一部份主要 用推論的方式來闡述其提出的內容和建議,從架構在心理學上的基本要素,逐步建構成 複雜的情緒事件,基本要素依照規則大致可區分為五個概念:如中心情感(core affect)、

情感質性(affective quality)、情感屬性(attributed affect)、情感的調節(affect regulation)、

以及與精神狀態相關的物件(objects)。第二部份則是加入一些限定的條件,並進一步的 說明解釋。

上文,所提到的情緒模型是一般通用性的,而在針對音樂所引發的情緒反應模型 上,常見的是透過預測人類聆賞音樂所可能引發的各種情緒,根據不同方面的音樂結構 和音樂的表情,來傳達情緒和反應聽者的情緒反應類型。

Hevner 於 1936 年設計了一系列音樂引發情緒的實驗,請聽者寫下當演奏不同類型 音樂時,情緒有何反應。Hevner 透過此實驗,瞭解音樂的聲音和聽者的情緒反應間的 關係,並提出八組情緒相關的形容詞組(adjective group)(圖 2),每一組代表性的形容詞 分別為高貴的(dignified)、傷心的(sad)、悅耳的(dreamy)、平靜的(serene)、優美的 (graceful)、快樂的(happy)、使人興奮的(exciting)、強而有力的(vigorous)[18],此篇的貢 獻主要在於此模型為針對音樂引發情緒,最早被提出的模型。在 1958 年,Farnsworth 將Hevner[18]所提出之八組音樂情緒重新琢磨、編排,增加為十個形容詞組的音樂情緒 [11]。2003 年,Tao Li 則運用 Farnsworth 所修改之形容詞組,並加入了自己所定義之三 組形容詞,最終形成13 組音樂情緒(表 1)[41][42]。

Thayer 在[60]一文中,提出一個以二維空間為基礎的情緒模型,此模型不像 Hevner 使用各種不同的形容詞構成情緒的樣式(mood pattern)的列表。此音樂情緒模型主要的構 成因子有兩個:壓力(stress)和能量(energy),其中壓力指的是快樂(happy)/焦慮(anxious) 的程度,能量指的是平靜(calm)/積極(energetic)的程度,根據壓力和能量可將情緒分成 四群(如圖 3 所示),最後分成滿足(contentment)、沮喪(depression)、豐富(exuberance)、

焦慮/瘋狂(anxious/frantic),此篇的貢獻主要是在於,提供了一個以維度為基礎來區分音

(14)

12

樂情緒的概念。

圖2、Hevner 所提出之八種形容詞列表

圖3、Thayer 提出之二維情緒模型

其他領域亦有許多專屬的情緒模型的研究,如表情[5][53]、語音[6][49][50]、視訊 [2]等,在此就不多做說明。

1.2.3. 音樂感知與情緒分析相關研究

(15)

13

在以往的音樂內涵分析方面的相關研究中,我們可以發現許多研究,對音樂訊號設 計了許多音樂特徵的計算方法,例如旋律、調性、節奏、速度、音色、力度等。而這些 特徵不僅僅對於音樂結構有很重要的影響,亦可能包含許多音樂演奏時想表達給聆賞者 的意義。例如在音樂表情的相關研究中,Juslin 和 Laukka 在[28]一文中,透過一組統計 過的特徵值組,來描述演奏者如何使用音樂特徵來表達情緒,以及聽者如何用此同樣的 特徵來回應被表達的情緒。Juslin 更於[26]一文中,使用了一組有限的集合且不加任何 權重分數的特徵值組,來說明音樂中的情緒表情是可以被預測的。因此我們將音樂感知 與情緒分析的前處理技術及應用方面的相關研究,整理其整體架構,如圖4 所示。

圖4、音樂感知與情緒分析相關研究圖 1.2.4. 音樂感知情緒偵測相關研究

以往在偵測音樂情緒上,常見的是將資料依照人工方式標上級別,再透過分類器去 做分類[41][42][78];或是利用強度、節奏、音色、平均靜音比等音樂特徵值,來偵測音 樂上的情緒[12][39][40][84]。

Tao Li 等人提出[41][42]從音樂中取出特徵值後,利用其定義的 13 組形容詞組(表 1),加以標記再透過向量支援機的技術進行分類。實驗中採用 499 個實驗樣本,樣本之 音樂類型主要包含120 個氛圍電子樂(ambient)、165 古典音樂(classical)、135 個混和音 樂(fusion)、100 個爵士樂(jazz),並且透過人工方式去標記提所提出之形容詞,最後透 過向量支援機的技術加以分類,實驗的準確率和回覆率為46%及 43%。Wieczorkowska

(16)

14

等人則是認為由於有些形容詞組無法明確的描述與比較,便將13 類縮減成只剩下 6 類 (表 2),緊接著根據 KNN 分類器加以分類,實驗準確率只有 37%。根據實驗結果,作 者認為未來在各個類別描述上需要更加平衡,且也需要特別的注意聲音在時間上的發展 的特性[78]。

表1、 Tao Li 將 Fransworth 定義之容詞組擴充成 13 組

表2、Wieczorkowska 所定義之 6 個形容詞組

Feng 等人於 2003 年提出一個以計算美學為基礎之心情偵測方法來做音樂資訊檢 索,認為要偵測音樂的情感[12],就是把特徵空間映射(map)到情緒空間,其論文認為雖 然已有Thayer 等人提出之情緒模型,但 Feng 認為 Juslin 於 2000 年所提出之模型更適 合用來做情緒的自動偵測[28]。如果知道音樂的速度,問題就在於如何決定快或慢。而 音樂的清晰度就在於要用多少 ASR 去決定斷音與連續音。因此他便利用音樂速度取得 音樂是快、慢、斷音或連續音,再將這四種音樂特性表示成模糊量(fuzzy quantity),並 利用時間域上的平均靜音比例的平均值(mASR)和標準差(vASR)及相對速度(rTep),最後 將三種特徵透過類神經網路,輸出四種情感結果,整體的準確率達到67%回覆率 66%。

(17)

15

Lie Lu 以及 Dan Li 認為音樂是富含情感的媒體,可以以音樂的強度(intensity)、音 色(timbre)以及節奏(rhythm)當作每一個音樂切片(clip)的特徵,並且透過將音樂區分成多 個獨立且包含相同情緒表現(homogeneous emotional expression)的片段來進行情感偵測 (mood detection),並進一步應用此技術,擴充到每一個音樂片段的情感追蹤之上(mood tracking),在情緒偵測的正確率高達 86.3%,在情緒範圍的回覆率則有 84.1%[39][40]。

張智星教授等人[84]提出一種音樂情緒偵測方法,主要分成音樂特性與歌詞兩部 分。第一部份係利用音樂所包含的特性如調性、速度等,再透過階層式分類將情緒分成 四類加以分類。在此部分其主要針對流行和古典音樂取出如組曲形式、調性等特徵,以 Thayer 提出之能量和壓力的二維模型為基礎(圖 3),產生相對應的四種情緒(如表 3),再 根據階層式分類法做分類。第二部分則提出三種歌詞與情緒的對應模式來對歌詞作情緒 分類,其中作者提到由於歌詞在能量類別區分不明顯,因此只採用快樂、焦慮來做描述,

最後利用歌詞情緒來比較前一部份的準確率。在實驗部分該文針對古典音樂、流行音樂 的音樂內容做4 種情緒分類辨識率皆可達到八成左右。利用歌詞比較的實驗部分,作者 採用三種評估方法,(a)只利用音樂來標記答案(b)只利用歌詞標記答案(c)同時聽音樂並 根據歌詞標記答案,經實驗發現第三種方法最好,透過完全比對找出最佳之歌詞情緒權 重比例差值的門檻值後,可提昇先前僅利用音樂內容的辨識結果,從86%提升至 88%。

表3、張智星教授等人使用之特徵

綜觀以往的研究,音樂情緒方面雖已逐漸有一些研究被提出,但大部分是針對MIDI 格式之音樂做分析,針對 MP3 音樂檔案特性的研究仍非常罕見。故本論文中我們希望

(18)

16

能提出一個針對MP3 音樂感知情緒的三維模型。並利用 MP3 音樂檔案的特性,從壓縮 的資訊中進行特徵值擷取與計算,並加上音樂理論的知識,自動進行調性、速度、力度 之判斷,並據以達到MP3 音樂聆賞情緒的自動分類。

1.2.5. 調性偵測相關研究

以往調性的相關研究,以Krumhansl 於 1990 年所提出主詞搜尋演算法(Schmuckler key finding)最具代表性,其方法主要是建構在一個比對音調的等級,和音樂片段中音高 分佈的統計[36],來模擬聽者可能感受到的音調(key)。其後很多調性偵測的相關研究大 多依循此基礎或是加以擴充,如 Temperley 於 1999 年以此為基礎,提出一個主調側寫 模型(key profile model),更提出一套基本調性的演算法[65],並於 2001 年修正提出一個 音高分佈的範本(pitch distribution profile)[66]。

而在調性與音樂情感的相關研究上,沈錳坤教授於2006 年[86],利用張智星教授[85]

先前所提出之訓練和弦模型的方式,並加入Krumhansl 等人所提出之調性的權重,訓練 出不同音樂風格的狀態機率和轉移機率。並透過動態規畫以及和弦伴奏手法,加入不同

風格歌曲的速度可能不同的考量,為主旋律加入不同風格的和弦。實驗部分,將 150

首古典音樂分成浪漫、快樂活潑、悲傷平靜三種風格的類型。在不加入不同權重去計算 和弦相似度,且不考慮伴奏合不同風格歌曲的速度下,對於悲傷的準確率可達到六成左 右,但快樂和浪漫去卻不到三成,加入不同權重後,增加的準確率亦不到三成七,但考 慮音樂風格(不同情感)、歌曲速度兩項條件後,準確率平均則可達到八成。由此可見調 性與歌曲速度對於音樂風格與音樂情感的偵測,是非常重要的。

1.2.6. 速度偵測相關研究

以往在速度的相關研究上,最常被用來做為拍子(beat)或節奏(rhythm)偵測的特徵,

[16][17][59][14][7][8][9][1]。最初的偵測速度方法一般都是應用在 MIDI 或是其他符號格 式上[54][43][59],Scheier 於 1998 年就針對 MIDI 音樂,利用少量的波段穿越濾波器 (bandpass filter)和一組平行之梳狀濾波器來分析速度(tempo),再利用求得的速度進分析

(19)

17

出訊號的相位(phase)等,進一步分析預測未來何時會有拍子出現[59]。而最近幾年的研 究漸漸的針對普通CD 格式的音樂。Goto 提出許多完整的節奏追蹤方法[16][17],並發 展了兩個節奏追蹤系統(beat tracking system)用來做流行音樂即時的偵測。

2000 年,Dixon 提出了一個不使用任何的前置知識,如不知道音樂風格、時間記號、

或模擬速度,亦不建立和人類節奏感知相關音樂速度判斷的方法[7],其方法主要建立 在各種不同的音樂風格且降低其計算量之上。Foote 亦提出了不錯的音樂速度偵測方法 [14]。Alonso 於 2004 年提出了一個速度追蹤的演算法,方法主要先偵測出訊號突起 (salient)處的開始位置,接著預測週期性,最後預測拍子可能的位置,目的是用來決定 拍子的位置和每分鐘有多少拍。實驗結果整體的速度預測成功率可達89.7%[1]。

1.3. 章節概要

本篇論文結構如下,第二章介紹音樂感知情感自動分類系統的整體架構,第三章介 紹影響音樂表情的主要構成因素,如調性、力度、速度,第四章介紹音樂感知情緒模型,

第五章為MP3音訊壓縮技術簡介,第六章說明本論文使用的低階MP3音樂特徵擷取與計 算,第七章介紹情緒分類的流程及各分類器的技術,第八章說明實驗的方式及結果分 析,第九章為結論及未來工作的說明。

(20)

18

2. 音樂感知情緒自動分類系統之系統架構

在本章中,我們將介紹音樂感知情緒自動分類系統整體架構的主要流程,並簡述每 個音樂感知情緒分類系統模組的功能如圖5所示。首先我們從MP3音樂檔案中取出每一 小節的音樂片段,接著透過兩種方法分析影響音樂表情之因子:速度、力度、調性等特 徵。取得音樂表情影響因子特徵後,我們透過音樂感知情緒分類器,判定此小節音樂之 音樂片段在八種音樂情緒的各自比重。主要的幾個關鍵技術說明如後。

圖5、音樂感知情緒自動分類系統之系統架構

z MP3 音樂:由於網際網路的興起以及資訊技術的快速發展,造成了數位化的 音樂越來越容易取得。而眾觀目前流行的數位音樂壓縮格式,由於 MP3 的音訊壓縮率 能將真實音樂最高以1:12 的高壓縮比且低失真的情況下保存資料,因此 MP3 已成為目 前數位壓縮音樂主流。在本論文中,我們便採用MP3 格式的數位音樂來加以分析研究。

(21)

19

z 音樂片段:在此部分,由於一首音樂的長度太過長,不容易分析,因此我們透 過商用軟體,將一首歌按照小節為單位切割成許多主題片段,方便後續進行 MP3 特徵 值擷取,取出相對應的特徵值。

z 影響音樂表情主要因子:音樂表情(music expression)在音樂演奏中是很重要的 因素之一,主要是由於只用音符難以表現的音樂表演的細節。所以西方音樂用音符的相 對長度和指定音高位置的體系來記譜,或者是運用音樂常見的特性,力度的強弱,速度 的快慢、調性的不同,來呈現音樂想表達的情緒或意思。在音樂特性偵測方面,利用兩 種方式偵測音樂表情影響因子,速度、力度、調性。

第一種方式,主要根據特徵值計算公式取出音樂低階特徵,主要透過先前的研究提 到的Amp11 解碼程式,來取得 MP3 音訊格式中的 MDCT 係數,在計算出 MDCT 係數 之後,我們以此為基礎,更進一步的去分析每一個音樂片段的內涵,並依照音樂所特有 的特性,將MDCT 係數換算成 MPEG 組織所制定的 MPEG-7 特徵值組[33],並另外從 音樂片段擷取出MFCC 特徵值組,作為後續音樂表情分析的基礎,進一步透過分類器,

分別取得調性、力度、速度的程度。另一種方法,則是提出一種樂理為基礎之規則式 (rule-based)判讀的偵測法,自動針對音樂表情影響因子的作判斷。

z 音樂感知情緒分類方法:在取得音樂表情的相關特徵之後,我們便利用一些常 見的監督/非監督式學習的分類器,進一步進行音樂情緒類型,希望能夠有效的分析出 音樂所內含之表情、情緒。

(22)

20

3. 音樂表情的主要構成因素

音樂表情(music expression)在音樂演奏中是很重要的因素之一,對於情緒表現的重 要作用,根據不同人物、不同的形象、發生不同的事件會產生不同的關係。對古典音樂 而言,影響演奏時音樂表情最重要的特性是速度、力度。而調性則讓我們在聆聽音樂時 會有很明顯的情緒反應。例如表現開朗活潑情緒的音樂,在速度上大都是稍快的,力度 上是較弱的,調性可能是屬於大調。因此我們挑選此速度、力度、調性三個特徵,當作 影響音樂情緒的主要特徵來源。

3.1. 音程(interval)

根據音樂理論,基本上西洋音樂是以七個基本音為基礎,音符照著五線譜依序排 列,得到Do, Re, Mi, Fa, Sol, La, Si 或以英文字母表示成 C, D, E, F, G, A, B 七種不同的 音名(degree),並以某一個音為中心音(主音)形成一組八度(Octave)音程。所謂的音程 (interval)指的是兩音間相隔的距離。音程一般以度為單位,一個全音代表一度(如圖 6),

其名稱則依照兩個音在樂譜上所佔之度數決定。

圖6、音程名稱示意圖

所謂的半音就是指白鍵與相鄰黑鍵的距離,如C-C#之間、A-A#之間等,而 E-F 與 B-C 之間沒有黑鍵,但其距離也是半音。所謂的全音則由兩個半音加起來所形成,如 C-D、G-A,E-F#、B-C#(圖 7)。

圖7、全音、半音說明圖

(23)

21

3.2. 調性(key)

新葛羅夫線上音樂辭典[48]中提到,根據不同的組成,調性又可分成大調(major)及 小調(minor)兩種。在音樂理論[90]中亦提到:「所謂的調性音樂是指音樂中所使用的旋 律與和聲,都以一個主音為中心來建立從屬關係。」亦即調性就是以主音來建立秩序,

支配各音的體系現象。簡單說,調性是依照一定的關係(高或低、穩定與不穩定)組織而 成的一組音符,從教會調式出發發展,最後調逐漸的安定變成只有大調和小調兩個種類。

以特定的音為主音,來構成大調音階或小調音階,就會產生特定的調,大調音階的 調稱為大調,小調音階的調則稱為小調。所謂的大調音階,是指音與音之間的距離符合 全全半全全全半的八個音;小調音階距離則符合全半全全半全全的八個音(如圖 8)。

圖8、大調音階、小調音階

由於各音與主音的音程差所造成的現象,在主觀的感覺上,一般來說,大調常給人 一種快樂而歡騰的感覺,小調則多表示悲傷而沉悶的情緒。例如貝多芬第七號鋼琴奏鳴 曲第二樂章即為d 小調憂傷的最緩板(Largo e mesto),是此曲中最具緊張感的樂章,就 好像樂譜上標示的憂傷符號,這是貝多芬作品之中最具有深刻表情的音樂(圖 9)。到了 第三樂章,轉為快板D 大調,從前的音域氣氛一轉變成溫和明朗的氣氛(圖 10)。

圖9、貝多芬-第七號鋼琴奏鳴曲-1

(24)

22

圖10、貝多芬-第七號鋼琴奏鳴曲-2

3.3. 速度(tempo)

根據新葛羅夫線上音樂辭典[48],音樂速度根據字面上的意思是指音樂構成的時 間,但一般常被用來描述音樂的速度。依照音樂理論[90],所謂的樂曲的速度指的是樂 曲中拍子的速度,其表示的方法可以用很多種不同的方式表現,常見的有三種表達方 式,第一種是利用速度術語,如Allegro(快板)、Andante(行板)、Adagio(慢板)等(表 4),

第二種是用較準確的節拍器,第三種則是做樂曲全體或局部速度的指示。

而速度對於音樂的情感發展影響也是很大的。例如:開朗活潑情緒的音樂,在速度 上一定是稍快的,而憂鬱平靜情緒的音樂,速度上一定是較慢的。就以貝多芬的第八號 鋼琴奏鳴曲c 小調《悲愴》為例,第一樂章即是一個從極緩板到燦爛的極快板的 c 小調,

此樂章一開頭就以漫長而瀰漫著悲愴情緒,十小節的四分之四拍子之極緩板發展,並且 將發展部和結尾縮短,來強調開始的動機,使得一股陰鬱氣氛壟罩著整個樂章(如圖 11)。而其第十號鋼琴奏鳴曲之第一樂章,則是以快板來呈現愉快的情緒,樂曲在右手 愉快的擺動,左手簡短的優美回應下,開始第一主題(如圖 12)。在第二主題以 D 大調 的三度音彈出後,也以輕盈且快速音表現出與第一主題相同的愉快表情(如圖 13)。

圖11、貝多芬-第八號鋼琴奏鳴曲 c 小調《悲愴》

(25)

23

表4、速度常見術語

圖12、貝多芬-第 10 號鋼琴奏鳴曲第一樂章-1

圖13、貝多芬-第 10 號鋼琴奏鳴曲第一樂章-2

3.4. 力度(dynamic)

根據音樂理論,力度是一種介音量的強弱變化賦予音樂表情的方法[90]。新葛羅夫 線上音樂辭典[48]亦提到,音樂力度是音符或聲音的音量強度的表現。20 世紀,力度已 逐漸成為音樂創作時的基本參數,且功能相依於音樂的意義與結構。而力度的變化即使

(26)

24

在樂譜並沒有標記他的存在,仍可以很自然的被假設表現在大部分的音樂種類之中。樂 曲本身想呈現的意義對於力度的變化也有很大的影響。其發展是在義大利,主要是用來 模擬德國、法國、英國音樂與樂譜的影響和反應的關聯。樂譜上的漸強與漸弱,被特別 的標註出來,有時候”漸強”被表示成一連串的力度層級,極弱、甚弱、強、甚強等(如 表5),通常被表示在樂句的上方或下方,用來表示樂音或樂句的力度變化。音樂力度的 強或弱和音樂的內容有很大的關係。

表5、強度標記說明

一般來說,高漲、激動的情緒往往都是以一種強勁的力度來表現;緩和、委婉的情 緒則以較弱的力度來呈現,如果以中等無強烈對比變化的力度,則常常是用來描述平靜

的情緒。以貝多芬第二十九號鋼琴奏鳴曲降 B 大調為例,此曲共有四個樂章,屬於快

板、降 B 大調,此奏鳴曲在前四小節就以一個強而又力的結構開始第一主題,展現了

一種壯大雄偉的風格,在後半的四小節則以一種柔和的表情來表現,和前四小節形成很 強烈的對比(如圖 14),接著整個樂章,便以此強而有力的動機加入後半迷人樂念的樂節

所建構擴展。在第二主題一開始以 G 大調呈現出優雅的感覺,並以很長的經過部演奏

出強烈節奏的樂念,再以一個溫柔的表情(Dolceed espressivo)主題進入小結尾,達到激 昂的高潮後,最後以長震音導入尾奏(如圖 15)。由此可看來用力度的變化可以獲得鮮明 的強弱對比.來準確地塑造音樂形象。

(27)

25

圖14、貝多芬-第二十九號鋼琴奏鳴曲-1

圖15、貝多芬-第二十九號鋼琴奏鳴曲-2

(28)

26

4. 音樂感知情緒模型

根據先前的研究,可了解以往針對音樂情緒偵測所採用的模型,大致上可以分成兩 類,一類是根據1936 年,由 Hevner 所提出之八類形容詞的情緒模型,再加以修改,並 加入自己的定義,另一類則是依照 Thayer 所提出以能量和壓力形成之二維空間所構成 的情緒模型,再加以改良。

4.1. 情緒模型介紹

根據先前的研究,我們可以知道 Hevner 所提出的情緒模型[16]是目前最早提出針 對音樂所引發的情緒模型,雖然有許多人針對其模型加以修正與改良,但仍無法明確的 針對Hevner 提出的 8 類情緒,加以區分。因此本篇論文便以 Hevner 模型為基礎,並加 入Thayer 的模型[59]以及 Juslin 的模型[29]中以二維空間區分 4 種情緒的概念,依照音 樂的調性、音樂的速度、音樂的力度三種音樂特性的排列組合,對應到 Hevner 所提出 的八種類型的情緒,我們分析了貝多芬、蕭邦等古典音樂的實際樣本(如附錄 B)。歸納 出三個音樂表情影響因素與 Hevner的八個情緒的對應關係(如圖 16)。

圖16、音樂感知情緒模型

(29)

27

4.2. 情緒類型分類

根據樂理,當音樂演奏時,我們可以知道,影響音樂表情最重要的特性是速度以及 力度,而調性則是讓我們在聆聽音樂時覺得有明顯的差異。由此我們便可以得知音樂的 調性、力度以及音樂的速度,對於人們的音樂聆聽情緒有相當大的影響。因此我們挑選 速度、力度、調性來做為影響音樂情緒的主要特徵來源。在音樂情感類型分類上,我們 利用調性為大調或小調、速度是輕快或和緩以及力度強或力度弱的排列組合,來區分八 種情緒。並且建立與Hevner 之情緒模型有對應關係。

建立之方法主要是根據透過主觀聆聽、樂譜的標示、樂曲解析或新葛羅夫線上音樂 辭典針對音樂情緒描述的字眼等,試著利用三種特性的排列組合與情緒模型的對應關 係。我們所建立的音樂情緒模型,主要的構成因子有三個:調性(key)、力度(dynamics) 和速度 (tempo),其中調性指的是引發情緒快樂(happy)/悲傷(sad)的程度,速度指的是引 發情緒和緩(relaxed)/積極(energetic)的程度,力度則是引發情緒輕柔(shallow)/深刻(deep) 的程度,根據調性、力度和速度將情緒分成八類(表 6)。

表6、情感類型分類說明表

z 雄偉的(majestic):大調、和緩、力度強

„ 例如:貝多芬第29號鋼琴奏鳴曲 降B大調-第一樂章

„ 敘述:此樂章,屬於快板、大調,且在前四小節就以一個強而又力的結構 開始第一主題,展現了一種壯大雄偉的風格 (如圖 17)。

(30)

28

圖17 貝多芬第 29 號鋼琴奏鳴曲 降 B 大調-第一樂章 z 優美的(graceful):大調、和緩、力度弱

„ 例如:蕭邦作品第3號練習曲(op.10-3)

„ 敘述:此曲的主要旋律在切分的低音節奏以及內聲部的 16 分音符中(圖 18),蕭邦自己也曾經說”他一生中從未寫過如此優美的旋律”。

圖18、蕭邦作品第 3 號練習曲(op.10-3) z 快樂的(happy ):大調、輕快、力度弱

„ 例如:蕭邦作品第13號練習曲(op.25-1)

„ 敘述:此曲(圖 19)又俗稱「牧羊人之笛」,據說蕭邦曾向學生解釋此曲:”

在暴風雨即將來臨,牧童至煽動避難。在風雨交加時,牧童拿起笛子吹出 優雅的旋律,請以此想像演奏”摘自-J. Kleczynki。

圖19、蕭邦作品第 13 號練習曲(op.25-1)

(31)

29

z 熱情的(passionate):大調、輕快、力度強

„ 例如:蕭邦作品第1號練習曲(op.10-1)

„ 敘述:這是一首琶音的練習曲,左手以八度音彈奏於旋律之間,右手則以 兩小節為單位彈奏上下行四個八度以上的琶音(圖 20)。讓人有熱情開放的 感覺。

圖20、蕭邦作品第 1 號練習曲(op.10-1) z 平靜的(quiet):小調、和緩、力度弱

„ 例如:貝多芬第25號鋼琴奏鳴曲 -第二樂章

„ 敘述:此曲為行版、g 小調、力度弱。曲調溫和的樂章,常被比喻為「無 言歌」(圖 21)。

圖21、貝多芬-第 25 號鋼琴奏鳴曲-第二樂章 z 悲愴的(tragic):小調、和緩、力度強

„ 例如:貝多芬第8號鋼琴奏鳴曲 c小調-第一樂章

„ 敘述:極緩板、c 小調、力度極強,本樂章開頭漫長而瀰漫著悲愴情緒(10 小節44 拍,如圖 22),發展部和結尾也以縮小的型態出現,使得陰鬱氣氛 籠罩著整個樂章。

圖22、貝多芬-第 8 號鋼琴奏鳴曲-第一樂章

(32)

30

z 高貴的(dignified):小調、輕快、力度強

„ 例如:蕭邦作品第4號練習曲(op.10-4)

„ 敘述:這是一首要求雙手手指速度及輕快度與力度的技巧性練習曲(圖 23)。演奏中的輕快感與音符快速流動搭配著熱情如火的力度,讓人有種 高貴的感覺。

圖23、蕭邦作品第 4 號練習曲(op.10-4) z 善感的(sentimental):小調、輕快、力度弱

„ 例如:蕭邦作品第6號練習曲(op.10-6)

„ 敘述:這是具有夜曲之曲想的練習曲,而且更洋溢著濃厚、陰鬱的情緒,

但樂曲依然隨處可見照出了朦朧的陽光(圖 24)。

圖24、蕭邦作品第 6 號練習曲(op.10-6)

4.3. 音樂感知情緒視覺化模型

由於音樂本身本質是聽覺媒體,而有時候我們常常會希望能將聽覺媒體,以視覺化 的方式呈現。因此本篇論文亦希望能將一首音樂給人的感受,利用顏色這種視覺化的方 式,來呈現聽覺性、看不到、較抽象的情緒。

[79]一文提到美國心理學家 Mahnke,曾針對色彩與情緒的關係做過深入的研究,

(33)

31

研究結果發現情緒與顏色的關聯並非單一的關係,如紅色一般都表示為”愛”,但愛卻也 和紫色有關係。因此在音樂表情的結果呈現上,我們利用[79]所提出之顏色與心情的關 聯(如表 7),並加以修正,進一步對應到我們所提出之音樂感知情緒色彩關聯。

表7、Cheng-Yu Wei 提出之顏色與關聯的情緒

在音樂感知情緒與色彩的對應上,紅色往往讓人有很熱情的感受;綠色則讓人有和 平、平靜的感受;藍色讓人有很悲傷、悲愴的情緒;紫色常常是高貴的。因此我們根據 Wei 提出之情緒色彩關聯為基礎,加以修正並對應至音樂感知情緒模型,如表 8 及圖 25。

表8、音樂感知情緒與色彩關聯表

(34)

32

圖25、音樂感知情緒對應色譜圖

一般人在聆賞音樂的情緒時,在很多狀況下,感受的情緒,並不是唯一的,如給人 雄偉感受的音樂,並不一定不包含高貴的情緒,所以音樂的聆賞時的八種情緒,並非沒 有交集的。因此我們認為一首歌的八種情緒,代表的是每一種情緒的比重。因此我們呈 現音樂感知情緒的色彩時,便將此加入考量,示意圖如圖26。由圖 26 我們可以了解,

給人熱情情緒的音樂,可能也會包含快樂的、雄偉的情緒。

圖26、音樂感知情緒示意圖

(35)

33

5. MP3 音訊壓縮標準簡介

MP3 是一個由 MPEG 組織所制定的音樂壓縮標準[22],其全名是[Moving Picture Experts Group-1 AudioLayer-3,簡稱為 MP3]。此壓縮標準是一個壓縮量相當大的失真壓 縮,主要是利用人類聽覺系統中的遮蔽效應,將人類聽不到的聲音移除,並且透過赫夫 曼編碼技術達到大幅壓縮音訊資料。因此,能夠使人耳在幾乎分辨不出其失真情況下,

有效地降低傳輸頻寬及儲存空間。以下將針對MP3 音訊編碼與解碼做個簡單的介紹。

5.1. MP3 音訊編碼程序介紹

在MPEG-1 Layer3的編碼過程中(圖27),主要分成四個步驟。一開始,輸入的音訊 訊號會經過一組分析過濾器(analysis filter bank),將訊號依頻率的不同分成32個等寬的 子 頻 帶(subband) 訊 號 , 且 同 時 根 據 符 合 人 類 心 理 聽 覺 特 性 的 模 組 (psychoacoustic model),所提供的訊號遮罩比(SMR,signal-to-mask ratio),而此步驟主要是由於人耳對 於不同頻率的聲音敏感度不同,加上聲音和聲音間有相互遮蔽的效應(masking effect),

造成有許多聲音人耳其實都聽不到(圖28) ,因此便利用人類心理聽覺的特性透過一個 遮罩(mask),把人耳聽不見的資訊加以消除。而在取得根據人類心理聽覺特性的各個子 頻帶資料後,會做一個位元雜訊配置及量化(bit/noise allocation quantization),目的是為 了得到適當的位元編碼長度配置和將資料量化。最後做一個位元流的封裝(bitstream formatting)將資料包成一個一個MP3音訊框架格式。

圖27、MP3 編碼程序

(36)

34

圖28、人耳 V.S.不同頻率之敏感度分佈圖

5.2. MP3 音訊解碼程序介紹

在MPEG-1 Layer3的解碼過程(圖29)中,首先,MP3串流(MP3 bitstream)會一個框架 一個框架的經過位元流解碼模組(bitstream unpacking),之後輸出一組由576個修正離散 餘弦轉換係數(MDCT,modified discrete cosine transform)所構成的向量組。取得此向量 組後,進一步轉換成32個子頻帶,其方法是透過32個多相位濾波器將訊號轉換成多相位 濾波器(polyphase filter)係數,因此每個子頻帶共有18個多相位濾波器係數,最後把每個 子頻帶加以合成為聲音訊號。

圖29、MP3 解碼程序

(37)

35

6. 低階 MP3 音樂特徵值擷取與計算

6.1. MDCT 特徵值

在典型的MP3音樂取樣頻率為44.1KHz,其中每一個框架由1152個樣本所構成,由 此可得知每秒的MP3音樂包含有38.28125個框架(44100/1152=38.28125)。而根據上述的 MP3解碼程序,我們可以了解一個框架中,總共包含了576個MDCT係數。因此在特徵 值擷取部分,首先我們透過先前研究所提到的Amp11解碼程式,來取得MP3音訊格式中 最原始的特徵值,取出位置是根據MP3音訊框架經過位元流解碼(bitstream unpacking)之 後,所輸出的一組向量值,主要是因為他有最高的頻率解析度,而且可以讓我們節省下 解碼時所需要分析的時間。

6.2. MPEG-7 特徵值

MPEG-7的特徵大致上可依照基本(basic)、基本頻譜(basic spectral)、 暫態音色 (timbral temporal)、頻譜音色(timbral spectral)、頻譜積底(spectral basis)、信號參數(signal parameters)等特徵分成以下幾個類[33]。

z 基本特性(basic):主要包含音訊波形(audio waveform)、音訊能量(audio power)兩種 描述。(公式如附錄)

(1) 音訊波形(AWF):紀錄每個框架中最大和最小的振幅值。可以用來預測時間域 上訊號的輪廓。

(2) 音訊能量(AP):表示 s(n)這個訊號在一個沒有疊加的框架中,振幅平方的平 均。可以用來了解某段時間內振幅的發展。L 表示框架的總數。

z 基本頻譜(basic spectral):主要包含音訊頻譜外殼(audio spectrum envelope)、音訊質 譜中心(audio spectrum centroid)、音訊質譜範圍(audio spectrum spread)、音訊質譜平 直度(audio spectrum flatness)四種描述。

(38)

36

(1) 音訊頻譜外殼(ASE):一個將頻率取對數後的能量頻譜圖。可以用來產生原始 訊號中被減弱的頻譜圖。

(2) 音訊質譜中心(ASC):提供對數頻率(log-frequency)能量頻譜的中心。

(3) 音訊質譜範圍(ASS):另一個反應頻譜形狀的特徵。

(4) 音訊質譜平直度(ASF):用來反映能量頻譜的平直度。

z 暫態音色(timbral temporal):主要包含記錄攻擊時間(log attack time)、暫態質量中 心(temporal centroid)兩種。

(1) 記錄攻擊時間(LAT):主要用來定義在需要多少時間能夠在某個最小門檻時間 內達到最大的振幅。

(2) 暫態質量中心(TC):計算訊號超過能量輪廓的平均時間。

z 頻譜音色(timbral spectral):主要包含泛音質譜中心(harmonic spectral centroid)、 泛 音頻譜誤差(harmonic spectral deviation)、泛音頻譜分佈(harmonic spectral spread) 泛 音頻譜變異度(harmonicspectral variation)、質譜中心(spectral centroid)五種特徵。

(1) 泛音質譜中心(HSC):計算某斷時續的時間中,能量頻譜中屬於泛音的高峰之 振幅權重值的平均

泛音頻譜誤差(HSD):計算某個區域(local)頻譜輪廓的泛音高峰誤差 (2) 泛音頻譜分佈(HSS):根據 HSC 去計算頻譜分佈的平均值

(3) 泛音頻譜變異度(HSV):反應兩個不同框架的頻譜差異 (4) 質譜中心(SC):計算聲音訊號的頻譜質量中心。

z 頻譜積底(spectral basis):主要包含音訊頻譜基底(audio spectrum basis)、音訊頻譜投

射(audio spectrum projection)兩種。這兩種特徵主要是用來描述且定義以往被用來做

聲音辨識的高階工具。簡單來說,目的是希望能夠將高維度的特徵向量投射到低維 度且符合能讓一般分類系統更有效的分析比較的方法。

z 信號參數(signal parameters):主要包含音訊泛音(harmonic ratio)、音訊基頻(audio fundamental frequency)兩種。

(39)

37

(1) 音訊泛音(AH):用來描述兩種頻譜泛音特性的量測方法,即泛音比率(HR,

harmonicity ratio)、最大泛音範圍(ULH,upper limit of harmonicity)兩種量測泛 音特性的方法。

(2) 音訊基頻(AFF):主要是用來預測基頻的位置。

6.3. MFCC 特徵值

MFCC 是一種 short-term spectral-based 特徵[45],主要利用人耳對於不同頻率的感 受程度不同,而達到辨識效果。以往很常被用來做音樂和聲音訊號的辨識。

圖30、MFCC 擷取流程

其做法主要是在利用短時間傅立葉轉換取出每個框架的頻譜振幅對數值後,每個框 架所含的頻率線(frequwncy bin)會透過符合人耳感知的梅爾頻譜係數,加以分析調整成 多個組並且對其做平滑化的動作,最後透過離散餘弦轉換取得MFCC 係數(如圖 30)。

(40)

38

7. 音樂感知情緒自動分類法

7.1. 以樂理為基礎之規則式判讀分類法

根據[84]一文,傳統上一首音樂的表情(expressions),也就是一首音樂給聆賞者的感 受,除了該首音樂的旋律與節奏等主要的樂譜資訊以外,演奏的速度、力度、調性等所 謂的表情符號,對不同的音樂家所產生的種種詮釋,往往能給聆賞者極為不同的感受。

所以除了MDCT、MPEG-7、MFCC 的特徵值為基礎的音樂聆賞情緒分類法以外,我們 亦試著根據樂理所描述的規則,發展出速度、力度、調性這三種主要影響音樂表情的自 動偵測方法,分別敘述如下。

z 調性特徵

在調性的偵測方面,我們根據 Izmirli 於[23]所提出的利用 Temperley[67]所提出之 調性側寫(key profile)(圖 31)來進行調性之資訊偵測。因此我們透過先前的研究[91]所偵 測出的十二個樂音家族和Temperley 所提出之調性側寫作相關度計算(correlation),取得 調性判斷分數。由於本篇論文,主要的研究重點並非12 個家族的調性偵測,而是偵測 大小調的程度,因此在正確率上,採用較寬鬆的判定方式,僅以計算出相對應的分數,

比較彼此所得之分數,以最高分者所屬之調性為此片段之調性。

圖31、Temperley 提出之調性側寫 z 音樂速度

在速度的偵測偵測方面,我們首先透過偵測起音點(onset)來求得每個樂音的可能能 量最高峰(peak)的起始時間點,並且將下一個起音點判讀結果當作是能量最高點的結 尾,即兩個相鄰起音點間的時間間隔視作是一個音符演奏持續的時間,進一步統計每分

(41)

39

鐘的平均樂音個數來求得音樂片段的速度,最後再透過分類器,取得一首歌曲相對速度 快、慢的程度。

在起音點的偵測方法上,我們利用找出訊號中波谷的出現位置當作起音點的位置 (如圖 32),也就是當目前的框架能量值小於前兩個框架能量值和目前的後兩個框架能量 值時,我們便認定此框架為相對的波谷出現之處,亦即起音點位置。

圖32、起音點偵測示意圖 z 音樂力度

在力度偵測方面上,我們首先計算每一個音訊框架的能量,接著將此能量換成相對 的分貝值(dB),最後接著計算整個片段的平均能量。透過實驗我們發現一般音訊相對能 量其值幾乎都落於-10db 至-45db 的範圍內(如、圖 33),因此我們在計算出的框架能量 後,之後我們利用分類器進行訓練,建立能夠針對一首音樂中每個小節其力度強、弱的 程度的自動力度分類器。

圖33、各個片段的平均能量

(42)

40

在取得調性、力度、速度等音樂特性後,我們將偵測結果根據音樂感知情緒模型,

對應出相對的情緒結果。

7.2. 分類器分類法

類神經網路的網路形態有許多種,其中應用最廣泛的是倒傳遞類神經網路(back propagation network, BPN) [46][13][81]。其系統架構,主要包含輸入層(Χi )、隱藏層 (Ηi)、輸出層 (Υi ),第一層輸入層的個數,即為我們想要輸入的變數個數。第二層隱 藏層的數目則可為一層到多層,而輸出層的結果,則是網路最後的結果,並且可設定其 偏差值(θ ,bias)。且相鄰層之間都有連接鏈互相連接,同一層之間則無,而每一連接 鍵都有其相對應的權重(ωij ),表示其訊息的重要性。

圖34、倒傳遞類神經網路架構

圖34中輸入層的神經元數量為所需的音效特徵空間的維度,輸出層的神經元數量,

則為想分出類別個數,隱藏層則可依照需求加以定義。其優點是回想(recall)速度快,學 習精確度(precision)高,我們最後採用此模型來進行分類實驗。

(43)

41

8. 實驗

8.1. 實驗環境與實驗樣本

本論文使用的實驗平台是Windows XP,硬體使用 Intel Pentium 4 3.3G CPU 處理 器,記憶體總容量1.5G。在系統開發上,採用 C#與 Matlab 語言來撰寫特徵值擷取與 分類程式。實驗樣本之音樂來源主要取自商業CD 唱片發行光碟,希望能對各個時期的 代表性古典音樂來做為分析,如莫札特、貝多芬、蕭邦、舒伯特、德布西等著名音樂家 作品。但在本篇論文中目前僅針對貝多芬的 32 首奏鳴曲以及蕭邦的 24 首練習曲做分 析。在由光碟取出歌曲後,我們將其轉檔成 MP3,採用雙聲道、128kbps,取樣頻率 44.1KHz。接著將所收集的 MP3,根據該首樂曲主題譜,取出每一曲各個樂章中的各個 主題,共取出84 個音樂主題,每個主題由四小節組成,故共有 86*4 = 336 個小節的音 樂片段作為實驗樣本。

8.2. 實驗結果

我們針對本論文所提出之兩種影響音樂表情之三種主要音樂特性的自動判讀,以及 音樂感知情緒類型分類兩部分,進行實驗的分析和分類結果做說明。首先,將取得之每 個音樂片段計算出MFCC 特徵,並利用從音樂中擷取出之原始音效特徵 MDCT 值,分 析計算出 MPEG-7 特徵,再透過類神經網路分析取得調性、速度、和力度等音樂表情 特徵,最後將所有特徵值混合後,再次分析音樂表情,以了解是否能取得更好的偵測結 果,表9 為利用類神經網路偵測分析結果;同時也根據 7.1 節所描述的方法偵測影響音 樂表情之音樂特性,分析結果如表10。

由實驗結果(表 9)看來,利用原始特徵(MDCT)及其他特徵偵測音樂表情上,在偵測 調性部分,其分類結果正確率可達到七成左右。但若僅針對大調偵測,以使用三種混和 特徵值偵測大調的結果最佳,小調則是以使用 MDCT 特徵值偵測結果最好。在力度、

速度的偵測方面,力度強弱可透過能量特徵來加以判斷,而速度的偵測則可透過起音點

(44)

42

的判斷來取得相對的速度。由於起音點的判斷可利用能量的特徵來取得,而 MDCT 和 MPEG-7 兩種特徵值皆具有能量上的特性,因此在判讀力度、速度都可以有不錯的結 果,而 MFCC 特徵值一般是用於分析頻譜上的特性,因此在力度和速度的判斷上,正 確率都較低。將各個特徵混和部分,由於其包含各種特徵的計算特徵,因此速度偵測的 正確率達到76.62%,而力度偵測的正確率為 88.54%。

表9、類神經網路分析結果

表10、樂理為基礎之規則式判讀結果

以樂理為基礎之規則式判讀來說,由圖 35 中可看出除了小調和速度慢以外其他特 徵準確率皆接近類神經網路分析的結果。速度偵測正確率較低的原因,主要是因為鋼琴 演奏時除主旋律外,一般會再加上左手的伴奏,造成了偵測的音符較主旋律音符為多 確,因此偵測速度慢的樂曲,正確率會大幅降低。而在調性偵測上,由於Temperley 提 出的音高側寫在大調的12 家族權重分數加總會略大於小調家族權重分數的加總。所以 當音樂片段的家族組成音出現較為平均的狀況時,就會優先判為大調,因此在大調的偵

(45)

43

測機率上會高於小調。圖35 為利用本論文所提出之兩種影響音樂表情之三種主要音樂 特性判讀(調性、速度、力度)的正確率結果比較圖,由結果我們可以知道使用三種混和 特徵後輔以樂理判斷可得到最佳結果。

圖35、音樂表情特徵正確率結果

取得音樂表情特徵後,緊接著我們進一步的透過類神經網路分析,以了解此音樂片 段給人的聆賞情緒分佈情況(如表 11)。由表 11,我們可以看出音樂片段給人的聆賞情緒 分佈情況,結果中負值之意義代表最不可能包含該情緒的程度。

表11、音樂聆賞情緒程度分佈表

(46)

44

因此當出現負值的情緒分類結果,我們便直接將其值視為0。利用音樂感知色彩模

型,將其視覺化呈現出每個樂曲所包含之不同情緒的程度。各代表性樂曲的聆賞情緒分 析示意圖如下(圖 36~圖 43 所示)。

圖36、蕭邦第 1 號練習曲 op10-1 之情感示意圖-熱情的

圖37、貝多芬-第 23 號奏鳴曲第二樂章之情感示意圖-雄偉的

圖38、貝多芬-第 10 號奏鳴曲第二樂章之情感示意圖-優美的

(47)

45

圖39、蕭邦第 18 號練習曲 op25-6 之情感示意圖-善感的

圖40、蕭邦第 23 號練習曲 op25-11 之情感示意圖-平靜的

圖41、貝多芬-第 8 號奏鳴曲第一樂章之情感示意圖-悲愴的

(48)

46

圖42、貝多芬-第 2 號奏鳴曲第一樂章第二主題之情感示意圖-高貴的

圖43、貝多芬-第 10 號奏鳴曲第一樂章第一主題之情感示意圖-快樂的

計算出一首樂曲音樂聆賞情緒分佈的資訊後,我們根據該音樂片段所包含之情緒最 高的分數,當作分類依據,並根據該片段所計算出之音樂表情影響因子,透過4.2 節所 提出之音樂感知情緒模型,加以對應比較統計後,表12 為情緒分類結果之混淆矩陣。

表12 中,較值得注意的是雄偉的情緒,主要是在強度強的情況下,由於能量相對的較 大,而此會造成偵測起音點的誤差,進一步的造成速度的音樂特性偵測嚴重誤差,因而 使雄偉的情緒被分類為熱情的情緒比例達到37.12%。由表 12 所示,可看出有 15 首雄 偉的樂曲片段被分類至熱情的。

除此之外我們亦針對以樂理為基礎所偵測出的音樂特性的結果,並對應至我們所提

(49)

47

出之音樂感知情緒模型,再透過原始樂理的標示和樂理解析取得之情緒描述,來判斷分 類結果的正確率,最後得到整體的正確率僅36.31%。而根據表 13,我們可以看出僅使 用MDCT 特徵值、MFCC 特徵值、MPEG-7 特徵值或三種混和特徵值分類音樂情緒時,

結果分別為38.81%、38.99%、36.64%以及 43.75%。但加入以樂理規則為基礎的音樂特 性偵測出之結果後,進一步的分類音樂情緒,可看出音樂情緒分類的正確率有很大幅度 的提高,主要是因為以樂理為基礎之音樂特徵分類結果,雖然僅僅只有 36.31%,但其 在影響音樂表情因子之分類正確的結果,對應音樂感知情緒模型時的正確的結果都很 高,因此可在最後分類的結果大幅提高正確率,可以使正確率從原來的 43.75%提昇至 58.33%。

表12、特徵值混和音樂特性+樂理規則為基礎的聆賞情緒分類情緒結果之混淆矩陣

表13、類神經網路根據不同特徵值分類之音樂聆賞情緒分類結果

(50)

48

9. 結論與未來工作

本篇論文主要針對音樂感知情緒,提出一個以Hevner 的八種情緒為基礎的 MP3 音 樂聆賞情緒模型。而我們認為影響音樂表情的主要因素為速度、調性、力度三種音樂特 性。因此我們提出如何從MP3 檔案中,取出的 MDCT、MPEG-7、MFCC 三種特徵值,

求得這三種特徵的方法,以及一種以Rule-based 的方式來自動偵測速度、力度、調性。

再根據這三種音樂特性,轉換成三個維度,加以排列組合,並對應至 Hevner 的八種情 緒。由於音樂本身是聽覺的、抽象的媒體,且音樂感知情緒也是非常抽象的,所以我們 希望將我們判讀的結果,以視覺化的方式呈現。加上音樂給人的感覺常常不是唯一的、

不可交集的,所以最後我們修改Wei 的色彩模型,試著將音樂給人的可能聆賞感受,以 視覺化呈現。

在未來工作方面,由於本篇論文主要的重點在於音樂感知情緒模型,因此我們所使 用的偵測速度、力度、調性的方法都尚有改善的空間,我們希望未來能對音樂的內涵做 更進一步的了解以後,能針對音樂的特性,提出更好更精確調性、力度、速度的偵測方 式。我們亦希望未來能一併考量其他樂理上的特徵,如音色、節奏、旋律等特徵,以了 解這些音樂特性對於聆賞音樂的情緒,會不會有所影響。

(51)

49

10. 參考文獻

[1] Alonso, M., Bertrand, David and Gael, Richard, “Tempo and beat estimation of musical signals,” Journal of the Acoustical Society of America, 2004.

[2] Adams, B., Dorai, C. and Venkatesh, S., “Towards automatic extraction of expressive elements from motion pictures: Tempo, " IEEE International Conference on Multimedia and Expo, volume II, New York City, USA, July 2000, pp. 641–645.

[3] Aucouturier, J.J., and Pachet, François, “Representing musical genre: a state of the art,”

Journal of New Music Research, Volume 32, Issue 1 , pages 83 – 93, March 2003.

[4] Baumann, S., and Klüter, A., “Super-convenience for Non-musicians: Querying MP3 and the Semantic Web,” Proceedings of the International Symposium on Music Information Retrieval, Paris, France, 2002.

[5] Calder, A.J., Burton, A. M., Miller, P., Young, A. W., and Akamatsu, S., “A principal component analysis of facial expressions,” Vision Research 41, 1179–1208, 2001.

[6] Cosi, P., De Poli, G., and Lauzzana, G., "Auditory Modelling and Self-Organizing Neural Networks for Timbre Classification," Journal of New Music Research, 23, pp.

71-98, 1994.

[7] Dixon, S., “A lightweight multi-agent musical beat tracking system.” In PRICAI 2000 Topics in Artificial Intelligence: 6th Pacific Rim International Conference on Artificial Intelligence, pages 778–788, Berlin. Springer, 2000

[8] Dixon, S., “An empirical comparison of tempo trackers,” Proceedings of the 8th Brazilian Symposium on Computer Music, 2001

[9] Dixon, S., “On the analysis of musical expression in audio signals,” SPIE, 2003

[10] Dellaert, F., Polzin, T. and Waibel, A., “Recognizing Emotion In Speech,” Proc. ICSLP '96.

[11] Farnsworth., Paul R., The social psychology of music. The Dryden Press, 1958.

[12] Feng, Y., Zhuang, Y., and Pan, Y., “Music retrieval by detecting mood via computational media aesthetics,” in Proceedings of the IEEE/WIC International Conference on Web Intelligence (WI’03), pp235-241, Oct 2003.

[13] Freeman, J. A., and Skapura, D. M., Neural networks algorithms, applications, and programming techniques, Addison-Wesley, Reading, Michigan, 1992.

[14] Foote, J. and Uchihashi, S. “The beat spectrum:A new approach to rhythm analysis,”

IEEE International Conference on Multimedia and Expo(ICMC2001), 2001

[15] Gunn, S. R., “Support vector machines for classification and regression,” Technical Repor,t University of Southampton, 1998.

[16] Goto, M., Muraoka, Y., “A real-time beat tracking system for audio signals,” In Proceedings of the International Computer Music Conference, Computer Music

參考文獻

相關文件

Kyunghwi Kim and Wonjun Lee, “MBAL: A Mobile Beacon-Assisted Localization Scheme for Wireless Sensor Networks,” The 16th IEEE International Conference on Computer Communications

C., “Robust and Efficient Algorithm for Optical Flow Computation,” Proceeding of IEEE International Conference on Computer Vision, pp. “Determining Optical Flow.” Artificial

Muraoka, “A Real-time Beat Tracking System for Audio Signals,” in Proceedings of International Computer Music Conference, pp. Goto, “A Predominant-F0 Estimation Method for

When? Where? What? A Real-Time System for Detecting and Tracking People.’’ Proc. International Conference on Face and Gesture Recognotion, April, pp. Pentland, “Pfinder:

Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference

D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,

[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference

Kyunghwi Kim and Wonjun Lee, “MBAL: A Mobile Beacon-Assisted Localization Scheme for Wireless Sensor Networks”, the 16th IEEE International Conference on Computer Communications