• 沒有找到結果。

自動風格轉化之節奏變奏 – 以流行樂為例

N/A
N/A
Protected

Academic year: 2021

Share "自動風格轉化之節奏變奏 – 以流行樂為例"

Copied!
38
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授: 葉梅珍. 博士. 自動風格轉化之節奏變奏 – 以流行樂為例 Automatic style transferring by rhythmic variation—pop song as example. 研究生: 中華民國. 張書堯 106. 撰 年. 7. 月.

(2) Abstract Computer composition has been studied for a long time, in which many methods have been proposed. In particular, in the task of computational variation, finding a general procedure to explain all types of variation is challenging due to the lack of the definition of variation. There are many methods to generate variation, but none of each can be applied to create all types of variation. In this thesis, we propose a systematic method to generate rhythmic variation based on theoretic composition. More specifically, we use the concept of the minimum repeated pattern in rhythm (theme or motif repeats in various way). Although using theme and motif can generate variation, we use the meter to be a minimum repeated pattern, considering the error caused by motif extraction in modern technique of composition. We further compute the probability of beat and rhythm transitions and build the Markov model, upon which we find frequent rhythm patterns (i.e., paths in the model) under the music structure constraints. Finally, we propose a method to evaluate the performance of the proposed style transfer system.. Keyword: Music variation, computer composition, probabilistic model, Markov model. i.

(3) 摘. 要. 電腦編曲是被研究已久的題目,累積了相當多的研究方法,其中電腦變 奏因其多變性,至今沒有一套系統能夠解釋所有的變奏,因此找出音樂變奏 的通則成為一項艱鉅的挑戰。在變奏方法不唯一的情況下,此論文根據樂理 提出一個方法,我們考慮作曲家創作的手法,採用最小重複單位。而節奏的 最小重複單位為動機或主題,但因為存在計算誤差,加上考慮現代音樂節奏 多採用相似並帶有變化性重複, 因此採用小節作為重複的基礎單位。我們 觀察節拍之間轉移的機率和小節之間的轉移機率,建立了馬爾可夫模型,計 算在輸入音樂節奏的結構框架限制下,找出最合適的節奏片段作為節奏變 奏。. 關鍵字 : 音樂變奏、電腦編曲、機率模型、馬爾可夫模型. ii.

(4) 目錄 Abstract ........................................................................................................................... i 附圖目錄....................................................................................................................... iv 附表目錄........................................................................................................................ v 第一章 簡介.................................................................................................................. 1 1.1 研究背景動機................................................................................................. 1 1.2 研究方法......................................................................................................... 2 1.3 系統架構......................................................................................................... 3 1.4 文章架構......................................................................................................... 5 第二章 文獻探討.......................................................................................................... 6 2.1 電腦編曲......................................................................................................... 6 2.2 電腦變奏......................................................................................................... 9 第三章 資料集建製與處理........................................................................................ 11 3.1 拍值計算....................................................................................................... 14 3.2 節奏計算....................................................................................................... 15 第四章 建立節奏轉換之模型.................................................................................... 18 4.1 基於節奏變換之馬爾可夫模型.................................................................... 18 4.2 基於音樂結構之馬爾可夫鍊....................................................................... 20 第五章 實驗結果........................................................................................................ 22 5.1 實驗設置....................................................................................................... 22 5-2 實驗結果以及討論 ...................................................................................... 26 第六章 結論................................................................................................................ 29 參考文獻...................................................................................................................... 31. iii.

(5) 附圖目錄 圖 1.1:自動節奏變奏系統架構圖 ................................................................ 4 圖 2.1: DeepBach 架構圖 .............................................................................. 8 圖 2.2: Magenta AI 產生的 pianoroll ............................................................ 9 圖 2.3: 上圖為原音樂段落,下圖為變奏段落。 .................................... 10 圖 3.1: 調性分布圖,深藍色為大調,黃色為小調,高度為在某小節使 用該調性.............................................................................................. 12 的小節數量。.............................................................................................. 12 圖 3.2: 樂器分布圖,根據 MIDI 標頭取得的樂器資訊,而樂器分類代號 參見表(二) ........................................................................................... 12 圖 3.3: 音符分類系統以及和全音符比值 ................................................ 15 圖 4.1: 真實的圖過於龐大複雜,此圖為示意圖,代表五種拍子類別的 轉移。.................................................................................................. 19 圖 5.1 : 實驗方法設置 ............................................................................... 23 圖 5.2 : GenreXpose 的混淆矩陣分類結果 .............................................. 24 圖 5.3 : GenreXpose 的流行樂分類結果的 ROC 曲線 ............................. 24 圖 5.4 : GenreXpose 的古典樂分類結果 ................................................... 25. iv.

(6) 附表目錄 表格(一) 資料集相關統計 ......................................................................... 11 表格(二) MIDI 樂器類別代號代表之樂器類別 ........................................ 13 表格(三) GenreXpose 系統的分類準確率(10 類) ..................................... 25 表格(四) GenreXpose 對資料集分類之類別機率 ..................................... 26 表格(五) 轉換前被判斷為古典樂以及轉換後被判定為流行樂之轉換率 .............................................................................................................. 26. v.

(7) 第一章 簡介 電腦編曲是被研究已久的題目,累積了相當多的研究方法,而變奏雖然也是 屬於電腦編曲的研究議題之一,但是因其多變性,至今沒有一套系統能夠解釋所 有的變奏。在欠缺通則的情況下,研究方法分別朝向了提出分類規則和分析關鍵 差異,在[1]對變奏的歷史發展提出了研究與分析,其中也提及了相關研究,例 如:Nelson 曾經在 1948 年提出依據其年代去分類變奏手法,kurt von Fisher 則朝 向音樂元素的變化分門別類,而在電腦編曲上往往採用某種特殊的變奏手法,該 方法以模仿編曲上的手法為主,例如: 對位法[2]。 變奏方法千百種目的也不盡相同,本論文著重在探討風格轉換的變奏,輸入 一段旋律,如何用系統化的方法和自動化的過程,且不限定於以某風格為主體的 架構下,提出一個計算的方法進行變奏,而使用者並不需具備音樂相關知識即可 使用該系統,並且我們探討如何評估風格轉換的變奏方法。. 1.1 研究背景動機 由於科技發展日新月異,以往人們聽音樂的習慣也跟著改變,從傳統的類比、 到 CD、隨身聽再到今日的數位音樂串流甚至網路串流平台,音樂變得更容易取 得,也變得更容易傳播,相關平台和應用也蓬勃發展,例如以線上聽音樂聞名的 KKBOX、Spotify,或是數位音效工作室(Digital Audio Workstation,DAW)、作 曲輔助系統如(Propellerhead Reason)、互動式系統如微軟的(Song Smith), 1.

(8) 電腦編曲則有 Experiment in Music Intelligence(EMI) [3],甚至是近一兩年 Sony 的 Flow Machines1和 Google 的 Magenta2等等。. 而人們到喜歡的音樂,往往會有複唱或是以自己擅長的樂器演奏,甚至加上 一點變化讓其風格轉變,或是電影、遊戲中背景音樂也常使用此技巧,主題旋律 在不同的情境中重複,並加入一點變化,以串聯整個主體,例如:電影星際大戰 的主題曲以些微節奏變換的方式穿梭在電影情節中。. 此研究的目標為自動化完成風格的改編,在商業用途上掌握以下設計概念, 使用系統盡可能的簡單,不需要任何音樂知識,盡量讓所有使用者能盡情的玩音 樂或應用在相關的表演之中,而在研究用途上,希望能作為找出研究風格變換規 則的一個可行性。. 1.2 研究方法 此論文將仿照作曲家作曲的步驟,理論作曲[4]中,提到了作曲會先有一個 動機(motif)或是主題(theme),再考慮發展與變化,因此進行風格變換的編曲,假 定最先的動機或主題為目標風格之音樂,可能包含了目標風格特有的音樂元素, 且和旋律本身相關,如常用的和弦行進、節奏,而後再考慮結構面的變化與發展, 例如:曲式結構、樂器編制等等,因此本論文將風格變奏分成主要兩大階段,第 一大階段為產生一段目標風格的節奏,第二大階段為該段節奏的發展。 1 2. http://www.flow-machines.com/ https://magenta.tensorflow.org/performance-rnn 2.

(9) 每種音樂風格(Genre ) 雖都有其特有的音樂元素,但共通性卻也不少,尤 其在 20 世紀後,音樂創作更加變化多端,彰顯了音樂的自由性和無限性,因此 在編曲上發明一個系統化的方法產生或發現所有的規則是一項極為艱難的挑戰, 對於此多變性,曾使用過旋律線、和弦行進、動機結構等等的方法,經過諸多嘗 試,我們決定以節奏來做為風格變奏的要素。 以節奏作為風格變換的工作,沒有如和弦和旋律線上會發生的匹配、錯位、 節奏不穩定問題,另外在評估的方法上,尤其針對普通使用者的使用評量上,較 可避免因為已經知道改編前的音樂資訊內容而給予偏頗判斷的問題。而節奏就如 同動機結構會有重複的規律,而找出這規律也是一項被研究已久的議題,而某些 類別音樂,特別是單一主題或是在同一樂章的在譜面化之後,往往時值能反映出 節奏的重複結構,對於多主題多篇章的音樂,例如: 古典樂,節奏會在篇章之間 呈現截然不同的變換,但因其曲式架構,再現部則會回到原本的節奏架構。 現今大多商業音樂朝向短句或把握單一主題創作,節奏架構穩定,但節奏變 換仍然多端,基於節奏的架構較為穩定,在大多數風格之間也穩定,也因為可理 解的架構是從聲音中辨別為音樂最重要的因素之一,最終決定了以節奏作為風格 變奏的要素,而風格則以流行樂作為例子,較能快速走向應用。. 1.3 系統架構 此研究系統架構如下圖。 3.

(10) 圖 1.1:自動節奏變奏系統架構圖. 當使用者輸入一段旋律,系統會計算原本的旋律節奏、調性,而後從資料集 產生一段可變奏的節奏片段,再將旋律套用該節奏後產生數段節奏變奏的音樂, 而這變化是輸入的一段變換過後再重複再加上一些變化產生而成。步驟簡述如 下: 一、首先,針對想要轉換的風格類型,進行基本的前處理,前處理的目 的在於取得節奏的相關資訊,即時值和節拍,而後為了精確的估計 節奏,透過頻道、音軌、樂器的分類或是計算方法取得單音旋律, 再從檔案標頭或是透過計算的方式取得時值、節拍,產生一個節奏 的資料集。 二、基於這些節奏片段和音樂重複的特性,建立了一個模型,將音樂的 節奏視為兩部分,第一部分是節奏的圖形(pattern)產生,第二部分 是圖形的重複,針對節奏圖形,採用一階馬爾可夫模型計算,從資 料集中計算後產生節奏圖形,針對第二部分,考慮到節奏狀態的變 換,採用馬爾可夫鍊計算,計算後會產生一個節奏片段。產生具有 風格性的節奏後,直接替代節奏,產生新的變奏片段。. 4.

(11) 1.4 文章架構 本文會在第二章中,將歸納和討論電腦編曲以及電腦變奏的相關過往研究, 包含傳統的 Graphical Model 或是基於樂理上規則的語意模型到近來類神經網路 的計算方法,和變奏使用的幾種系統化模型。 第三章將著重於音樂的前處理,和使用的一些處理演算法,第四章則是介紹 複合的模型和其計算、求解的方法,第五章將提出一個評估辦法和評估方法,而 在最後一章提出結論。. 5.

(12) 第二章 文獻探討 本論文的主題和風格變奏(Style Variation)相關,電腦編曲涵蓋了所有以電 腦進行的編曲手法,變奏雖和編曲相關,卻又不同,變奏考量了原本的音樂結構, 然而編曲會改變原本的音樂結構,此論文討論的變奏,為傳統定義上的變奏,探 討音樂中最小單位的重複和變化,而此論文的目的為風格轉移,透過找出指定風 格中最小重複的節奏單位進行變奏,在轉變風格的目的上和電腦編曲中的風格轉 移相關(Style Transfer),透過變奏在方法上卻和編曲不同,因此本論文就電腦編 曲和變奏做相關探討。. 2.1 電腦編曲 電腦編曲是被研究已久的議題,而藉由特定演算法編曲的研究主題為演算法 編曲(Algorithmic composition) ,舉凡提出各種和作曲相關的都是屬於該類範疇, 例如: 普通作曲(General purpose)、和聲法(Harmonization) 、對位法(Counterpoint)、 節奏(Rhythm) 、變奏(Variation) 、互動式即時性作曲(Interactive improvisation)、 風格轉變(Style Transfer)。 風格轉變(Style Transfer)能創作出任何一種風格(Genre)的歌曲,且 非針對特定風格,風格本身並沒有特別定義,也可以創作出屬於個人風格的歌曲, 例如:Sony 的 Flow Machine 可以創作出任意風格的曲子,使用者選定某些曲子, 系統會尋找和這些曲子相似風格或有相似元素的曲子學習,並創作出擁有該類風 6.

(13) 格的曲子。此外,音樂智能實驗(Experimental Music Intelligence,EMI)系統 [3], 由 David Cope 在 1987 年發明,該系統從結構出發,分析結構,並嘗試重組結構, 而非採用一般直覺的音符作為基本單位進行編曲。 演算法編曲有幾大類別,文法生成(Grammar) 、知識為本的系統(Symbolic and knowledge-based system),馬爾可夫鍊(Markov chains)、深度學習以及類 神經網路(Deep learning and artificial neural network)、演化式計算以及基於母 群體的分析方法(Evolutionary and other popular-based methods)、 自相似和自 動細胞機(Self-similarity and cellular automata)。 文法生成就是將一些已知的樂理資訊作為文法樹進行作曲,例如:[5][6]; 馬 爾可夫鍊則是將音樂的元素描述成一個狀態,可以是某小節的調性、甚至某種音 樂片段,觀察其前後關係的轉移機率,並在樂理條件的限制下,求得最大期望值 的轉移。而最常被使用也最為單純的是一階的馬爾可夫模型(1st order Markov Model),例如: [7][8]; 類神經網路則是被利用作為美學代理人(Aesthetic Agent) 去引導作曲[9]或是利用遞迴式類神經網路(Recurrent Neural Network)作曲[10]; 演化式計算的方法將作曲的方式視為一個條件限制下搜尋解(作曲)的過程,而條 件除了樂理之外、亦可以是類神經網路或是一個機率模型。 而近幾年來,則有深度學習(Deep Learning)作曲,例如:DeepBach[11], Google 的 Magenta。DeepBach 的目的在模仿巴哈編曲,該論文將一段複合旋律 以一向量的序列來表示,每個向量接代表該音符(或是和弦,該論文假設最大和 7.

(14) 弦為四和弦) 和譜面的腳本資料(Meta data,如時值、調性、節拍、歌詞)的配對。 爾後設計了一個模型,將巴哈音樂片段挖空分成前後兩部分,並將音樂片段的向 量遷入特徵空間中,再利用 2 個 Deep RNN 從前後段落去預測中間的段落(使用 條件機率),預測方法採用 softmax 選擇最大可能的音樂類別,以達到模仿巴哈的 作曲,如圖 2.1。. 圖 2.1: DeepBach 架構圖 Google 的 Magenta 計畫底下的人工智慧作曲,使用了使用者在數位鋼琴發 表的作品資料集(Yamaha e-piano competition dataset)3,該資料集中紀錄了持續時 間(duration)、力度(Velocity)、音高(Pitch)資訊,透過 LSTM 產生一個 pianoroll(圖 2.2)。. 3. http://www.piano-e-competition.com/ 8.

(15) 圖 2.2: Magenta AI 產生的 pianoroll. 2.2 電腦變奏. 變奏為主題的重複出現,每次出現都會輔以不同的變化,但不包含主題的 發展(Development)和變型(Transformation),變奏上分為樂節變奏(Sectional Variation)、連續變奏(Continuous Variation)、交替變奏(Altering Variation)、 輪旋式變奏(Rondo-Variations),另外有些變奏並沒有明確的變奏規定的自由 變奏。 而變奏並沒有一種明確性的規則和通用的定義,數十年來,音樂認知心理 學家、音樂家們嘗試去用一個精確的定義去定義變奏,但至今仍沒有找到一種明 確的規則或定義去說明所有的變奏,Nelson 曾在 1948 年說過”The principle of variation underlies all music” [12],說明了變奏在音樂中無所不在。 事實上,音樂的編曲也和變奏習習相關,從理論編曲[4]的角度,音樂是 從動機或一段主題旋律,而後考慮發展和架構組成,而動機或主題片段正是這重 複的片段。 9.

(16) 近年來,有研究者們嘗試將變奏模型化4,變奏包含重複和變化,音樂中 重複的部份被稱為 Repeated Pattern,樂理上音樂重複的特徵為音樂結構的基本單 位,如動機或主題,而不同歌曲又可能有相同的變奏方式,例如:流行樂中的伴 奏和弦的變化。 模型化的主要目的在於找出重複的部份和變化,和音樂結構相關,例如: 找出動機([13][14]),或是將音樂分割一段人類理解的片段(Human concept boundary)例如:[15][16] ; 另外一部份研究音樂的變化,如:Alternative In Music(AIM)[17]系統將單一的旋律的音和持續時間視為一個規則,採用問答集編 程(Answer-set programming),問答集編成為一種邏輯式編程。但不同於普通邏輯 的單調式(monotonic)命題,在知識庫(knowledge base)學習規則時,允許同意種宣 告有不同的結果。因此其答案集為一個集合,藉由這集合的封閉,對於已知的資 訊判斷出可能的解,意味著有選擇(Alternative)的概念,AIM 採用該想法產生變 奏,對於每首音樂,以音樂中的小節作為資訊劃分,對於所有小節建立了一個規 則集合(Rule set),已確立小節之間的演變規則,產生出替代的變奏段落,如圖 2.3。. 圖 2.3: 上圖為原音樂段落,下圖為變奏段落。 4. MUSICA vidi-volk project (http://www.cs.uu.nl/research/projects/vidi-volk/) 10.

(17) 第三章 資料集建製與處理 為了探討和分析台灣流行音樂元素以便於轉換,另外欲避免從 WAVE 檔預 測音準造成的誤差,我們將此研究重點放在音樂的音符和樂理關係面上的探討, 採用了 MIDI 檔案格式,建立了一個小型的資料集。 Midi 音樂廳5提供了大約九百多首的流行樂,流行樂依據流行的年代不同, 有著不同流行的曲風,我們選用了八九零年代的歌曲七十四首歌曲,平均長度兩 分半,並且標頭資訊皆存在並無損毀,關於資料相關統計如表(一),調性使用和 使用樂器分布如圖 3.1 和圖 3.3。 表格(一) 資料集相關統計 MidiWorld-twpop-8900 歌曲數量 74 歌曲年代 1980~2005 涵蓋類型 校園歌曲、鄉村風格、抒情情歌 平均長度 2:30:49. 5. http://sql.jaes.ntpc.edu.tw/javaroom/midi/alas/ 11.

(18) 圖 3.1: 調性分布圖,深藍色為大調,黃色為小調,高度為在某小節使用該調性 的小節數量。. 圖 3.2: 樂器分布圖,根據 MIDI 標頭取得的樂器資訊,而樂器分類代號參見表(二). 12.

(19) 表格(二) MIDI 樂器類別代號代表之樂器類別 C1. piano. C9. Reed. C2. Chromatic. C10. Pipe. percussion C3. Organ. C11. Synth Lead. C4. Guitar. C12. Synth pad. C5. Bass. C13. Synth effect. C6. Strings. C14. Ethnic. C7. Ensemble. C15. Percussive. C8. Brass. C16. Sound effect. 旋律和節奏為音樂中較直觀理解且在計算上較為基本,因此我們取得這兩元 素,依據理論作曲[4]的想法,和重複曝光效應 (Mere Exposure effect)[21]的心 理實驗結果。重複會讓人著迷,音樂亦存在重複的特徵,例如節奏或旋律會不斷 的重複且含有某種特殊規律的變化,兩者變化週期不一定相同,依據其共有週期 之片段或是在較大的結構片段(例如整個段落、樂章),重複變化形成了一種重複 中又重複的特殊結構。 以創作的角度來說,流行樂的創作常會先哼出一段旋律,而該旋律往往成為 主題(Theme),再由該旋律聯想出其他旋律,另配置上對應的穩定節奏 (除 了一些民謠音樂或是巴薩諾瓦(Bosanova),會任意的微調拍子讓其節奏浮動)。 旋律為主體的音樂風格,往往採用較為固定的拍子,穩定的重複,當代的流行樂 也有如此特色。 基於以上理由,我們採用了時值提供的資訊以小節為單位作音樂分割。. 13.

(20) 3.1 拍值計算 拍子為計算節奏之基本單位,是人類聽到音樂時自然的打出來的韻律,但感 受到的音樂動態或是韻律因人而異,因此在創作者紀錄其音樂時,使用時值(Time signature)的資訊,讓觀看者了解創作者的韻律。時值紀錄了兩個資訊,分別是一 小節有幾拍和幾分音符為一拍,表示韻律片段的長度和韻律的基本單位,藉由相 對於基本單位的比值得知真實拍值。而 MIDI 的時值資訊多了兩種資訊,和電腦 的 tick 相關,電腦的韻律是 tick,MIDI 定義四分音符為基本拍值,也提供了每 個四分音符的 tick 數,每 tick 所需的時間,相乘後得到真實長度,如式(一),dur 代表真實持續時間,b 代表音符的拍值,ts1、ts2 分別代表時值中一小節有幾拍 和幾分音符為一拍,tpqn 則代表每四分音符有多少個 tick,δ代表 1tick 所需時間, 實做上僅需計算相對於四分音符的比值在計算 tick 即可。 dur =. 𝑏 𝑡𝑠2 𝑏 × × 𝑡𝑝𝑞𝑛 ×𝛿 = × 𝑡𝑝𝑞𝑛 × 𝛿 𝑡𝑠2 𝑞𝑛 𝑞𝑛. 而 MIDI 檔案記錄著每個音計算完經由模擬後的時間,欲得知拍值僅需簡易 逆推算式計算即可,然而,由於樂器音效本身的特性,和強度力度模擬亦或變換、 檔案損壞造成理論上持續時間相同的音。經由電腦模擬後,不同樂器發出有著不 同的持續時間,因此必須進行量化。由於時值提供的是一種相對的概念,例如: 八分音符在 4/4 的時值下代表 1 拍,四分音符代表 2 拍,換作 4/2 的時值下代表 半拍和一拍,然而不管時值如何的改變,八分音符和四分音符的比值保持不變, 藉由比值保持固定的特性,參考音符分類系統的二分法(圖 3.3),量化僅需要轉 14. 式(一).

(21) 換成二進位,每一位數皆代表一種拍值長度,而轉換後去除最小量測單位以下的 位數,便達成量化的效果,例如: 某音符 0.375642 秒,最小量測值 0.125(八分之 一拍,二進位值 0.001),該音符的拍值換成二進位後為 0.11110…,去除 0.001 以下的位數為 0.111,因此該音符會被量化為 0.375 秒 由一個二分音符、一個四 分音符再加上一個八分音符形成之延長音。 圖 3.3: 音符分類系統以及和全音符比值 音符. 比值. 二進位. 全. 1. 1. 2分. 0.5. 0.1. 4分. 0.25. 0.01. 8分. 0.125. 0.001. 16 分. 0.0625. 0.0001. 32 分. 0.03125 0.00001. 由於檔案可能遺失時值資訊,對於遺失時值遺失時的作法,可參考[22]。. 3.2 節奏計算 節奏可以泛指音樂中任何有規律性、重複性的特徵,在此我們僅考慮音長, 而非同時選擇音長和力度。考量複合旋律之單一旋律之間的關係,音長的重複性 和之間的階層關係,力度並沒有相同的結構,其力度的分佈並非和音長一樣,在 跨旋律線之間有一致性,因此僅考慮取得音長資訊。 在實作上,MIDI 檔案將多個聲道的音樂訊號儲存於多個軌道,由於軌道分 配是自訂的,因此同時會發生單一音軌(track)含有所有聲道(channel)的資訊, 15.

(22) 或是多個音軌含有不同聲道的資訊。由於硬體限制,單一聲道同一時間只會有單 一樂器發聲。基於此點,我們將原始音軌分類的機制轉換成聲道分類的機制,並 且標註該時段顯示的樂器編號。在聲道分類的情況下,僅剩下單音樂器和複音樂 器的節奏問題,對於複音樂器,(例如:鋼琴),我們採用 Skyline 演算法[18], 取得單一旋律再來計算節奏。Skyline 演算法原理是當某一時間有兩個音以上同 時存在時,會選擇音高較高者留下,演算法虛擬碼如下,其中 n 代表旋律 M 中 的每個音符,s 代表開始時間,p 代表音高(pitch)。 Algorithm 1 Melody Skyline 1:. Input: Monophony melody M containing list of notes nij , pitch pij note-on sij, and note-off eij represents the j-th note, pitch, note-on event and note-off event stored in track i.. 2: Initialize: i:=1 j:=1 3: for each note nij in M 4: k := j+1 5: while the j-th and k-th co-occur in same time period 6: if the pitch pij is greater than pik 7: eliminate pij 8: j :=k 9: otherwise 10: eliminate pik 11: 12: 13: 14:. k := k + 1 endif endloop if overlap occur on note-off events, i.e. eij > sik. 15: Replace that 16: endif 17: endloop 18: Output : The remain notes of the melody sequence. 16.

(23) 該演算法的主要目的在於處理複音旋律聲部距離遠且主要旋律較高音的情 況,如流行樂,扮演主要旋律的是人聲,即使轉變為鋼琴扮演人聲,人聲往往是 較高聲部的。然而聲部交織較密的音樂或是多聲部的曲子,例如:巴哈的創意曲, 則無法妥善處理。近來有旋律萃取的相關工作,從複合旋律(polyphony)取得 主旋律,例如[19][20],可以處理較廣類型的歌曲。 取得音長資訊後,以小節作為處理節奏的基本單位,取得每一小節的音長序 列,將此視為該小節的節奏,並根據時值將節奏分類。時值紀錄了每小節的拍數 劃分,依此劃分為二拍系、三拍系、和混合拍子。其中二拍系包含簡單二拍子、 複合二拍子; 三拍系包含簡單三拍子、複合三拍; 混合拍子為二拍子三拍子以外 組成的所有拍子。複合二拍子是二拍子的重複抑或是有一點小變化得重複,三拍 系亦同理,而我們取最小重複單位來劃分。. 17.

(24) 第四章 建立節奏轉換之模型 經由前處理我們得到了音樂中基本的節奏資訊,本章節將建立一個流行化的 節奏轉換模型,輸入一段已知長度的旋律或節奏序列,經過計算後產生一個流行 化節奏序列,並且會將原本的旋律所屬的節奏序列直接代換成該節奏,然後產生 變化性的重複而後輸出。 我們配合了音樂中重複的特性而設計此模型架構,並參考傳統電腦編曲中產 生樂曲的方式[7]以及最小重複單位為一小節的定義,最小重複單位是每一小節 的節奏。做法為先建立了一個節奏序列,而後為節奏變換的重複,為該節奏序列 狀態上的一種轉移,因此模型也設計分為兩個階段,一個是區域性的在小節內的 節拍轉移,另一個是基於小節之上的狀態轉移,兩者接採用馬爾可夫模型。. 4.1 基於節奏變換之馬爾可夫模型 為了能製造出流行化的節奏序列,我們統計了音長序列,並建立了一階的馬 爾可夫模型(first order Markov model)。我們將每一種拍子類別視為一個節點, 拍值的最小量測單位為 1/8 拍,最大量測拍值為 4 拍,因此有 32 種拍子類別。 每種拍子類別的拍值為最小拍值的整數倍,其倍數作為該節點的數值,如圖 4.1。 每條邊代表該音拍子類別轉換到另外一拍子類別之轉移機率,形成一個 32 個節 點的有向圖。. 18.

(25) 圖 4.1: 真實的圖過於龐大複雜,此圖為示意圖,代表五種拍子類別的轉移。. 給定一待改編的輸入旋律,我們的系統會根據輸入旋律的長度,從該長度的 音樂中,找出適合替代轉換成流行的節奏。為了保持穩定的重複或是可替代性, 增加了總拍值要相等的限制,因此產出的節奏序列要符合旋律長度相等和節拍總 和相同的兩大要件。由於每個拍子類別都代表一個節點,找出適合的節奏序列問 題如同在限制節點值總和、音符數量的條件下找出權重最大的路徑。然而,從資 料集建構的有向圖具有不少的自環(loop),並且拜訪過的節點亦可重複拜訪, 並無法轉換成基本問題來求解,倘若使用暴力法(Brute-Force),展開每種可能 的序列,該問題的時間複雜度為 O(2𝐿−1 ),其中 L 為輸入旋律的長度,時間複雜 度隨旋律長度呈指數成長。 假設輸入的旋律總拍值為B,雖在總值限制條件下可以降低拜訪路徑,在最 差的情況下(L = 0.5B),由於複雜度指數的成長,需要降低搜尋的次數,考量 到限制條件,可以將該限制條件轉換成整數分割的問題,總拍值分解成可能的節 19.

(26) 點值的和。S 為 B 可能的整數分割(有序)的集合,每個集合接代表一個路徑,𝑆𝑗𝑖 表示第 i 個可能的集合中的第 j 個元素,其對應的權重表示為𝑊𝑗𝑖 ,代表節拍類 別的轉移機率,集合的元素個數表示為|𝑆 𝑖 |,代表路徑的長度。 𝑆 ∗ = argmax ∑ 𝑙𝑜𝑔(𝑤𝑖 ) 𝑠∈𝑆. subject to |𝑠 𝑖 | = L , = 𝐵. 式(二). 傳統的 Viterbi 演算法,雖常被用來解決馬可夫模型轉移機率的問題,但在 路徑的總拍值(解點的總權重)被限制下,greedy 的假設並不存在,因此傳統的 Viterbi 演算法並無法適用於此處,因此,我們採用動態規劃法列舉指定長度下的 可行分割以降低搜尋時間,此外,當最佳解在當序列太長時耗費時間,在不強求 最佳解的情況下,則可以使用啟發式演算法。. 4.2 基於音樂結構之馬爾可夫鍊 藉由前章節的方法,產生了一段節奏片段,將該節奏長度視為變奏之基本單 位,參考理論作曲的手法,考慮節奏的發展,進行有變化性的重複或是直接重複, 我們以小節作為基本單位,利用自相似矩陣(Self-similarity matrix),計算小節之 間的相似性,相似度方法則採用最長共同子序列(Longest Common Subsequence) 作為相似程度計算,如式(三) ,𝑅𝑖 、𝑅𝑗 代表樂曲中任兩節奏片段,len(𝑅𝑖 ) 代 表節奏片段𝑅𝑖 的長度。 similarity(𝑅𝑖 , 𝑅𝑗 ) =. 𝐿𝐶𝑆(𝑅𝑖 , 𝑅𝑗 ) max(len(𝑅𝑖 , 𝑅𝑗 )). 式(三). 計算後以大於 0.8 判斷為相似結構,等於 1 判斷為相同結構,並統計個數已 20.

(27) 計算出是否重複的機率,該機率為 0.79,當選擇不重複時,會搜尋既有的節奏片 段,使用 LCS 相似度找出最相似的片段進行替代。. 21.

(28) 第五章 實驗結果 5.1 實驗設置 音樂風格的研究,對於音樂風格本身的正確標籤,現有的研究大多採用專 家標籤或是群眾外包(crowd sourcing)的方式取得共識標籤,或採用使用者調 查方法以評估系統。然而本論文牽涉到變奏,變奏的結果亦可採用同樣方式調查 轉換的風格,將轉換後之歌曲給予使用者判斷是否為該類型。但音樂類作品是屬 於一種綜合的表現,無法確認使用者的判別結果是否來自於變奏抑或是它項變奏 無關之元素影響,因此在該類調查下較難驗證出變奏的效果。倘若以轉換前後之 作品比對的形式作為調查,則無法確認使用者是否聽過原曲而依既定印象判斷答 案,因此我們採用現有的音樂風格分類系統來驗證,並藉由分類系統透過統計方 式評估變奏系統的變奏效果。 由於現有的音樂風格分類系統無法完全準確預測一首歌的風格,我們將同 時考量分類系統和變奏系統之分類結果。對於變奏系統的評估,由於是以風格 A 轉換成風格 B,在實驗時,若不好取得相關風格之專家標註資料或是不具有該項 資料,需要額外確認風格 A 或風格 B 之曲目風格,才能確保之間之轉換。因此, 我們採用一個風格分類系統判斷輸入音樂的類別,而將輸入音樂轉換過後,又以 同一個的風格分類系統判斷分類結果,我們的實驗方法設置為圖 5.1。. 22.

(29) 圖 5.1 : 實驗方法設置 我們的實驗以古典樂為例,判斷古典樂是否透過變奏系統轉換為流行樂, 並使用了 GenreXpose6系統。該系統為音樂風格分類系統,可以分析流行、古典、 搖滾等 10 類的風格系統。該系統由數個 one against all 的針對單一風格之分類器 組成,而後選擇最大機率的類別作為判斷結果。我們選擇該系統同時作為判斷流 行樂和古典樂之分類器,訓練集來自 GTZAN genre dataset7,計算特徵為梅爾頻 率倒譜(Mel-Frequency Cepstral Coefficient)特徵,並採用邏輯回歸(logistic regression)的方法分類,我們根據其參數重建其工作,並展示其分類成果之混 淆矩陣和流行樂、古典樂之混淆矩陣(confusion matrix)如圖 5.1、圖 5.2、圖 5.3, 準確率如表(三)。. 6 7. https://github.com/jazdev/genreXpose http://marsyasweb.appspot.com/download/data_sets/ 23.

(30) 圖 5.2 : GenreXpose 的混淆矩陣分類結果. 圖 5.3 : GenreXpose 的流行樂分類結果的 ROC 曲線. 24.

(31) 圖 5.4 : GenreXpose 的古典樂分類結果. 表格(三) GenreXpose 系統的分類準確率(10 類) GenreXpose 系統評估準確率(GTZAN dataset) blues. classical. country. disco. Hip-hop. jazz. metal. pop. reggae. rock. 0.48. 0.75. 0.25. 0.33. 0.83. 0.5. 1.0. 0.72. 0.13. 0.10. GenreXpose 系統對於古典樂和流行樂有良好的辨識能力,正確率分別為 0.75 以及 0.72。為了探討本論文之變奏系統所產生的變奏結果在樂理上的變化 和評估對於一般非主題樂段作為輸入進行變奏後是否具有流行樂風格,我們準備 了兩項資料集做為測試。第一個資料集為古典音樂主題的資料集8,含有 150 首 古典樂的主題片段,該片段為音樂主題研究教材,均為短句型式。第二個資料集 為從各大 Midi 網站上蒐集免費且帶有曲風標籤的歌曲中9,隨機選出 1000 首古. 8 9. http://composer.themefinder.org/ https://github.com/albertmeronyo/MIDI-sources 25.

(32) 典鋼琴樂並以節拍作為樂句分割集合資料集做為測試資料。. 5-2 實驗結果以及討論 我們將變奏結果放置網站10,包含變奏之前與變奏之後的音樂,以及音樂風 格分類系統(GenreXpose)程式。GenreXpose 系統會計算輸入的音樂為 10 種類別 之機率,結果如表(四),我們以 C1、C2 標籤表示古典樂主題資料集(150 個主題 音樂)、以及古典樂樂句(1000 片段音樂樂句)資料集經 GenreXpose 系統判定之分 類結果,並以 P1、P2 標籤代表該資料集經轉換過後被 GenreXpose 系統判定之 分類結果。 表格(四) GenreXpose 對資料集分類之類別機率 blues. classical. country. disco. Hip-hop Jazz. metal. pop. reggae rock. C1. 0.073 (11). 0.80 (120). 0.093 (14). 0.02 (3). 0.006 (1). 0.006 (1). 0 (0). 0 (0). 0 (0). 0 (0). C2. 0.075 (75). 0.73 (730). 0.03 (30). 0.009 (9). 0.009 (9). 0.017 (17). 0.013 (13). 0.089 (89). 0.018 (18). 0.01 (10). P1. 0.0467 (7). 0.2067 (31). 0.0333 (5). 0.0067 (1). 0.0133 (3). 0.0667 (10). 0.0067 0.6133 (1) (92). 0 (0). 0 (0). P2. 0.189 (189). 0.142 (142). 0.138 (138). 0.005 (5). 0.003 (3). 0.016 (16). 0.001 (1). 0.008 (8). 0.013 (13). 0.485 (485). 表格(五) 轉換前被判斷為古典樂以及轉換後被判定為流行樂之轉換率 轉換前被判斷為古典樂以及轉換後被判定為流行樂之轉換率(/個數) 資料集 1 (150 首歌曲). 51.67%(62/120). 資料集 2(1000 首樂句) 41.23%(301/730). 10. https://drive.google.com/drive/folders/0B1qqlsenojxhWXVJcGRPTFJnVlU?usp=sharing 26.

(33) 分類結果顯示資料集 1(150 首主題音樂)可以判別古典樂有 61.33%被轉成流 行樂(P1),資料集 2(1000 首樂句片段)中有 48.5%被轉成流行樂(P2)。我們為了 確認風格被確實的轉換,因此對資料集 2(1000 首樂句片段)進行以下實驗,確認 輸入樂句經 GenreXpose 分類為古典樂,該系統在被判定為古典樂的樂曲 730 首 中,有 301 首被判定為流行樂,其準確率為 41.23%。雖然 GenreXpose 可能誤判, 資料集 2(1000 首樂曲)之樂句音樂風格分類系統判定為古典樂,其實際上是否全 都是可被解釋為古典樂或其常用主題、內容等,仍然需要進一步做分析。例如: 小星星變奏曲,我們的切割片段並非小星星這首歌的任一段落,而是任一部份, 而該部分是否能為重複變化之片段、是否有含有常用的古典樂特徵而足以辨識為 古典樂(因為該樂曲之段落並非專家標籤),仍需拆開坐進一步檢驗或嘗試與找尋 現有古典樂之特徵研究進行關聯式分析。 由於古典樂與流行樂風格相差較遠,且音色、和弦行進會影響流行風格。也 由於風格分類系統考量了音樂的音高、音色、強度、節奏特徵來判定風格結果, 其因使用傳統音樂特徵如 MFCC,快速傅立葉轉換、 (Short Time Fourier Transform, STFT), 小波轉換(Wavelet Transform ,WT),特徵本身會影響到曲風分類結果。我 們使用之 MFCC 特徵會反應音樂之動態資訊,倘若單純使用頻譜特徵作為曲風 分類之分類器,對於節奏變奏毫無辨識能力,因為節奏變奏須考量到音樂的動態 特徵。而採用類神經網路作為曲風分類系統,節奏變奏雖某種程度能反應結果, 27.

(34) 但若要分析如何影響需要進一步的研究。 而在樂理分析上,因資料集僅有主題架構或段落,必須透過主題架構或是段 落的主題並以變化前所使用之變化技巧進行編曲,以了解該變奏之節奏經由重複 後,作為作曲元素,採用同樣方式編曲,才能從樂理上去判斷該變奏造成之樂理 意義,而在實際面上要自動達成此件事情,則需要再考量變奏片段辨識、模型化 相關研究。. 28.

(35) 第六章 結論 對於設計一個風格轉換之變奏系統,由於需考量輸入音樂之架構,因此對於 和弦行進、旋律線等音樂元素,若從風格中學習出相關資訊,並使用直接替換會 造成音樂結構之破壞,無法重複則無法產生可分析之片段。而基於重複結構之下 的節奏,則不會破壞音樂原有之重複性,音樂中存在重複,重複讓人理解音樂, 因此選擇節奏變奏以達到風格轉換的目的。 對於此論文所提出之方法輸入,限制輸入在單音旋律(Monophony)的 MIDI 檔案,此研究最終是希望使用者能以哼出一段旋律輸入系統,系統變奏後以另外 一段旋律輸出。使用者雖然唱出的音大多數為單音(有極少數歌手可以唱出和弦, 該類技巧為泛音詠唱),然而使用者唱出旋律以聲波轉數位化後儲存,對於該類 音訊檔案轉成 MIDI 在實現上,檔案仍有技術面要克服。 我們提出的方法是模仿作曲家變奏其主題之過程,由於干涉到風格相關之變 奏,並且是採用節奏這個音樂元素,倘若風格之間節奏使用差異並不明顯,節奏 變奏變無法有效改變風格。也因為音樂作品屬於綜合元素之表現,應採用複合的 元素變奏以達成更多種風格轉變,考量音樂中的重複性,必須理解這個元素之複 合關係和元素可替代關係(如:和弦替代),且音樂在創作中存在一些裝飾與巧思, 則要簡化旋律以找出最基礎旋律架構,這些未來需要對音樂結構分析有近一步研 究。. 29.

(36) 在評估方法上,風格由於界定困難,對於普通使用者調查容易產生混淆之判 斷而無法反映結果,而此論文採用節奏變奏評估古典樂與流行樂之效果,對於古 典樂轉成流行樂表現尚可,但對於音樂性之分析則需要以該元素以模仿原曲之形 式建立一首歌曲,藉由分析結構與重複之片段,對樂理上有分析與解釋。 本論文利用了一個變奏方法達成風格轉變,而該變奏會在不影響結構下進行 變奏。這個方法未來可以應用分析在不影響結構框架下的音樂元素(不會破壞重 複造成不可被分析之片段),例如:音色、樂器編制,甚至於組曲的產生。將每一 首歌曲以旋律片段形式輸入,並以同樣手法訓練馬爾可夫鍊(針對組曲的節奏變 換形式),會產生變奏之片段,若解決銜接與編排之相關問題,則可自動產生一 首具有變化性之組曲。 本論文方法產生之片段,亦可作為編曲材料,可能作為互動式創作系統的一 項功能,使用者想出一音樂片段,變奏系統產生數個變奏片段讓使用者決定, 可以採用該變奏片段或該變奏方式進行作曲。 此外,近來流行深度學習,DeepBach[11]及示範了創作巴哈風格作曲之網路 架構,而變奏片段亦可適用於深度學習技術,將音高、節拍、力度、調性等因素 以一個較好的表達方式(例如:[11]是以向量之集合表達),再利用 Creative Adversarial Neural Network(CAN),該網路為一種監督式的(Supervised)的深層對 抗網路(Generative Adversarial Network,GAN)[23],若研究出能限制音樂結構之 目標函式,應可達到同樣目的。 30.

(37) 參考文獻 [1] W. B. de Haas, A. Volk, and P. van Kranenburg. Towards modelling variation in music as a foundation for similarity. In Proceedings of the 12th International Conference of Music Perception and Cognition (ICMPC), pp. 1085-1094, 2012. [2] T. Tsubasa, N. Takuya, O. Nobutaka, S. Shigeki. Automatic music composition based on counterpoint and imitation using stochastic models. Sounds and Music Composing (SMC) Conference, 2010. [3] C. David. Experiments in music intelligence (EMI). In Proceedings of the 12th International Conference of Music Perception and Cognition (ICMPC), 1987. [4] Arnold Schoenberg. Fundamental and music compositions. Faber and Faber, 1967. [5] P. P. Cruz-Alcázar, and E. Vidal-Ruiz. Learning regular grammars to model musical style: Comparing different coding schemes. In Proceedings of the International Colloquium on Grammatical Inference, pp. 211–222, 1998. [6] G. M. Rader. A method for composing simple traditional music by computer. Communications of the Association of Computing Machinery (ACM), volume 17 issue 11, pp. 631–638, 1974. [7] A. Charles. The Markov process as a compositional model: A survey and tutorial. The MIT Press, Leonardo, volume 22, no. 2, pp. 175-187, 1989. [8] S. Avinash. N-gram modeling of tabla sequences using variable-length hidden Markov models for improvisation and composition. Technique report in Georgia Tech Center for Music Technology, 2011. [9] M. Bill, R. Patrick, M. Penpusal, K. Dwight, P. Luca and R. Juan. Corpus-based hybrid approach to music analysis and composition. Association for the Advancement of Artificial Intelligence (AAAI), 2007. [10] A. Judy. Franklin jazz melody generation from recurrent network learning of several human melodies. Association for the Advancement of Artificial Intelligence (AAAI), 2005. [11] H. Gaetan, P. Franc ois, N. Frank. DeepBach: A steerable model for Bach chorales generation. arXiv preprint arXiv:1612.01010v2 [cs.AI], 17 Jun 2017. [12] R.U. Nelson. The technique of variation; a study of the instrumental variation from antonio de Cabezón to max Reger. University of California Publications in Music 3. Berkeley: University of California Press, 1948. [13] O Lartillot, M Ayari. Motivic pattern extraction in music, and application to the study of tunisian modal music. Institut de Recherche et Coordination Acoustique/Musique (IRCAM), 2007. 31.

(38) [14] L. Olivier. Efficient extraction of closed motivic patterns in multi-dimensional symbolic representations of music. The International Society of Music Information Retrieval (ISMIR), 2005. [15] T. Douglas, L. Gert. A supervised approach for detecting boundaries in music using difference features and boosting. The International Society of Music Information Retrieval (ISMIR), 2007. [16] B. Frédéric, D. Emmanuel, S. Gabriel, V. Emmanuel. Methodology and resources for the structural segmentation of music pieces into autonomous and comparable blocks. The International Society of Music Information Retrieval (ISMIR), 2011. [17] E. P. Flavio Omar, A logical approach for melodic variations. In Proceedings of the Tenth Latin American Workshop on Logic/Languages, Algorithms and New Methods of Reasoning (LANMR), 2011. [18] O. Giyasettin, I. Cihan, A. Adil. Melody extraction on MIDI music files. In Proceedings of the Seventh IEEE International Symposium on Multimedia (ISM), 2005. [19] S. Justin, G. Emilia, P.W. Daniel, and Gaël Richard. Melody extraction from polyphonic music signals. IEEE Signal Processing Magazine, volume 31, p118, 2014. [20] K. Sangeun, O. Changheun, N. Juhan. Melody extraction using multi-column deep neural networks. Music Information Retrieval Evaluation eXchange (MIREX), 2016. [21] R. B. Zajonc. Attitudinal effects of mere exposure. Journal of Personality and Social Psychology 9(JPSP), pp. 1-27, 1965. [22] R. Carles, T. J. Lorenzo, B. Isabel, M. B. Ana. Automatic melody composition based on a probabilistic model of music style and harmonic rules. Knowledge Based System 71, pp. 419-434, 2014. [23] E. Ahmed, L. Bingchen, E. Mohamed, M. Marian, The Art and AI Laboratory Rutgers University. CAN: Creative adversarial networks generating “art” by learning about styles and deviating from style norms*. arXiv preprint arXiv:1706.07068v1 [cs.AI], 21 Jun 2017.. 32.

(39)

參考文獻

相關文件

Hamilton 以很多方式從跟均曲率流 (mean curvature flow) 做類比 得到關於他的 Ricci 流的直觀。曲線縮短流 (curve shortening flow) 已被 Grayson 研究過,而

因電導值與溶液中的離子濃度有關,滴定過程中溶液內的離子濃

電機工程學系暨研究所( EE ) 光電工程學研究所(GIPO) 電信工程學研究所(GICE) 電子工程學研究所(GIEE) 資訊工程學系暨研究所(CS IE )

「節日起源」的 篇章;音樂科 聆聽及演奏/演唱 以節日為題材的 樂曲,並創作 節奏頻現句

1900年, Bachelier以數學方法分析巴黎股票交易的價格變化,自

地球自轉軸傾斜角度的變化:雖然目前自轉軸的傾斜角度為 23.5 度,但 是在經過研究之後可以發現,在地球的歷史中,自轉軸的傾斜角度會以約 4.1 萬年的週 期,在

為了改善唯讀記憶體無法寫入資料的限制,電腦廠商研發出數種除了「讀」還可 以「寫」的 ROM ,其中以 快閃記憶體 ( flash

卻存在著軟體有效掌控的困難。因多核心為現在電腦架構主流,且較不受網路或跨帄 台影響,所以本研究乃著手尋求多核心環境的解決之道,並提出 MATI (Multi-core