利用卷積式注意力機制語言模型為影片生成鋼琴樂曲 - 政大學術集成

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s 治Thesis. 立. 政. 大. ‧ 國. 學 ‧. 利用卷積式注意力機制語言模型為影片生成鋼琴樂曲. y. sit. io. Video-Music Transformer. n. al. er. Nat. InverseMV: Composing Piano Scores with a Convolutional. Ch. engchi. i n U. v. 研究生：林鑫彤指導教授：沈錳坤. 中華民國一百零八年七月 July 2019. DOI:10.6814/NCCU201901153.

(2) 利用卷積式注意力機制語言模型為影片生成鋼琴樂曲 InverseMV: Composing Piano Scores with a Convolutional Video-Music Transformer. Student：Chin-Tung Lin. 研究生：林鑫彤指導教授：沈錳坤. 立. Advisor：Man-Kwan Shan 治政大. ‧ 國. 資訊科學系. ‧. 碩士論文. 學. 國立政治大學. a. er. io. sit. y. Nat A Thesis. n. v Science submitted ltoC Department of Computer ni U. h. n g c h i University NationaleChengchi. in partial fulfillment of the Requirements for the degree of Master in Computer Science. 中華民國一百零八年七月 July 2019 DOI:10.6814/NCCU201901153.

(3) 摘要. 近年手機鏡頭的技術趨向成熟，加上如 Facebook、Instagram 等社群網站的興起，使用者可輕易用手機拍出高品質的照片及影片並分享到網路上。一個高流量的影片往往有著與之搭配的音樂，而一般人並非專業的配樂師，受限於音樂素材的收集和敏銳度，在影片配樂的挑選上時常遇到困難。影片的配樂上使用現成的音樂會受限於版權的問題，. 政治大. 因此在影片配樂上使用音樂的自動生成將成為一個新的研究趨勢。. 立. 隨著近年類神經網路(Neural Network, NN)蓬勃的發展，有許多研究開始嘗試使用. ‧ 國. 學. 類神經網路模型來生成符號音樂(symbolic music)，但據我們所知目前並未有人嘗試為影片生成音樂。在缺乏現成 dataset 的情況下，我們人工收集並標記一個 pop music 的. ‧. dataset 來做為我們模型的訓練資料。基於注意力機制模型(Transformer)在自然語言處. y. Nat. sit. 理(Natural Language Processing, NLP)問題上的成功，而符號音樂的生成與語言生成. n. al. er. io. 也有著異曲同工之處，本研究提出一個為影片自動生成配樂的模型 VMT(Video-Music. i n U. v. Transformer)，輸入影片的 frame sequence 來生成對應的符號鋼琴音樂（symbolic. Ch. engchi. piano music）。我們在實驗結果也得到 VMT 模型相對於序列模型(sequence to sequence model)在音樂流暢度和影片匹配度上有較好的結果。. i. DOI:10.6814/NCCU201901153.

(4) Abstract. With the wide popularity of social media including Facebook, Twitter, Instagram, YouTube, etc. and the modernization of mobile photography, users on social media tend to watch and send videos rather than text. People want their video with a high click-through rate. However, such video requires great editing skill and perfect matching music, which are very difficult for common people. On top of that, people creating soundtrack suffer from the lack of ownership of musical pieces. The music generated from a model instead of existing music conduces to preventing from breaching copyright. The rise of deep learning brought out much work using a model based on the neural network to generate symbolic music. However, to the best of our knowledge, there is no work trying to compose music for video and no dataset with paired video and music. Therefore, we release a new dataset composed of over 7 hours of piano scores with fine alignment between pop music videos and midi files. We propose a model VMT(Video-Music Transformer) that generates piano scores from video frames, and then evaluate our model with seq2seq and obtain better music smooth and relevance of video.. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. ii. DOI:10.6814/NCCU201901153.

(5) 目錄摘要 .................................................................... I ABSTRACT ............................................................ II 目錄 .................................................................. III LIST OF FIGURES ....................................................... V LIST OF TABLES ....................................................... VI 第 1 章緒論 ............................................................ 1. 政治大. 1.1 背景 ................................................................ 1.2 動機 ................................................................ 1.3 研究方法 ............................................................ 1.4 研究貢獻............................................................. 立. ‧ 國. 學. 1 1 2 3. 第 2 章相關研究 ........................................................ 4. ‧. 2.1 背景音樂推薦........................................................ 4 2.2 自動音樂作曲........................................................ 4. y. Nat. sit. 2.3 深度學習............................................................ 6. n. al. er. io. 第 3 章研究方法 ........................................................ 9. v. 3.1 資料前處理 .......................................................... 9 3.2 CONVOLUTIONAL VIDEO-MUSIC TRANSFORMER .............................. 9 3.3 SEQ2SEQ (BASELINE) .................................................. 12. Ch. engchi. i n U. 第 4 章資料集 ......................................................... 14 4.1 資料收集處理 ....................................................... 14 4.2 影片音樂對齊 ....................................................... 14 4.3 資料集介紹 ......................................................... 15 第 5 章實驗設計 ....................................................... 16 5.1 模型訓練 ........................................................... 5.2 評估方法 ........................................................... 5.3 實驗結果 ........................................................... 5.3.1 User Bias ...................................................... 5.3.2 Problem of Seq2seq ............................................... 16 17 18. 19 20. iii. DOI:10.6814/NCCU201901153.

(6) 第 6 章總結 ........................................................... 23 參考文獻 ............................................................... 24 附錄 ................................................................... 26. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. iv. DOI:10.6814/NCCU201901153.

(7) LIST OF FIGURES FIGURE 1: CONVOLUTIONAL VIDEO-MUSIC TRANSFORMER. ..................................................... 11 FIGURE 2: CONVOLUTIONAL 2D AND POOLING.......................................................................... 11 FIGURE 3: SEQ2SEQ MODEL WITH ENCODER-DECODER ATTENTION. ......................................... 13 FIGURE 4: LEARNING RATE. ........................................................................................................ 16 FIGURE 5: LOSS CURVE, ORANGE, BLUE ARE TRAINING AND EVAL LOSS RESPECTIVELY. ............. 16 FIGURE 6: THE INTERFACE FOR USER EVALUATION. .................................................................... 18 FIGURE 7: FROM LEFT TO RIGHT ARE SEQ2SEQ, VMT, AND GROUND TRUTH IS AT THE BOTTOM. INSIDE THE RED BOXES ARE “END” NOTES IN OUR VOCABULARY DICTIONARY. ................ 21 FIGURE 8: FROM TOP TO DOWN ARE SEQ2SEQ, VMT, AND GROUND TRUTH RESPECTIVELY. LEFT AND RIGHT ARE TWO EXAMPLES FROM TESTING SET. INSIDE GREEN BOXES ARE MUSIC MOTIFS WHICH ARE SHORT AND CONSTANTLY RECURRING MUSICAL PHRASES. ................... 22 FIGURE 9: OUR DEMO WEBPAGE. USER CAN USE THE MOUSE TO CLICK EXAMPLES FROM TESTING SET..................................................................................................................................... 26 FIGURE 10: THE WEBPAGE FOR NO. 100-015. USER CAN CLICK LEFT TOP VIDEO TO WATCH ORIGINAL MUSIC VIDEO. THE LEFT BOTTOM IS A SLIDER TO DISPLAY 40 FRAMES WE USED AS. 立. 政治大. ‧. ‧ 國. 學. y. Nat. OUR MODEL INPUTS. THE RIGHT SIDE DISPLAY TARGET'S MIDI PIANO NOTES. USER CAN. sit. CLICK BUTTONS TO PLAY TARGET'S MIDI ONLY OR SYNCHRONIZE WITH LEFT VIDEO. .......... 27. n. al. er. io. FIGURE 11: THE WEBPAGE FOR NO. 100-015 AND THE RESULTS FOR OUR VMT MODEL. ........... 27 FIGURE 12: THE WEBPAGE FOR NO. 100-015 AND THE RESULTS FOR SEQ2SEQ MODEL. ............. 28. Ch. engchi. i n U. v. v. DOI:10.6814/NCCU201901153.

(8) LIST OF TABLES TABLE 1: MUSIC VIDEO WITH CORRESPONDING PIANO SCORES. ............................................... 15 TABLE 2: RESULT OF MUSIC SMOOTH AND SUITABLE OF VIDEO................................................... 19 TABLE 3: THE RESULTS BETWEEN MUSICAL BACKGROUNDS AND WITHOUT MUSICAL BACKGROUNDS. ................................................................................................................. 19. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. vi. DOI:10.6814/NCCU201901153.

(9) 第 1 章緒論. 1.1 背景近年來，手機鏡頭技術趨向成熟，使用者能輕易地拍攝出令人滿意的影像，加上在社群網站的發展下，在 Facebook、Instagram 中發布紀錄日常生活的影像已是現代人生活中不可缺少的部分，近兩年也興起了一個新的職業—YouTuber，是指專門在影片分享. 政治大. 網站 YouTube 上傳原創影片的網路名人。觀察下在各大社群網站高流量的影片，可以發. 立. 現除了影片的內容吸引人外，與之相對應的背景音樂(Background music, BGM)也是不. ‧ 國. 學. 可或缺的一個重要組成要素，一個好的配樂能配合影片適時地帶動觀看者的感受，在影片緊要關頭時烘托出緊張、沉重的情緒，在熱血的片段帶出觀眾激昂的情緒，而在恐怖. ‧. 片段靠音樂及音效烘托出的詭異氣息，才能成功讓觀眾嚇得魂飛魄散。. n. al. er. io. sit. y. Nat. 1.2 動機. i n U. v. 然而大眾雖知道影片配樂對於影片氣氛、感染力的重要性，但受限於音樂素材的認. Ch. engchi. 識和收集的難度，一般人很難如專業配樂師為自己拍攝的影像找到適合的音樂與之搭配，在找尋音樂之後的剪輯、後製也常遇到困難。配樂推薦的研究可以幫使用者解決找尋音樂素材的問題，為影片找出適合的配樂來提升影片的吸睛程度，大量減少使用者在廣大的音樂曲庫中挑選的時間，然而隨著著作權意識的抬頭，作曲人對於自行創作的音樂有了保障，也代表著他人須購買版權、得到授權後才能使用其音樂，因此如若只是為影片做音頻音樂的檢索(Audio Music Retrieval)會造成版權的問題，所以我們提出為影片做音樂的自動生成模型來解決此問題。. 1. DOI:10.6814/NCCU201901153.

(10) 1.3 研究方法啟發於語言建模方法(Language-Modeling approach)在訓練生成模型上使用詞序列 (sequence of token)來做為資料表示方法(data representation)，我們將符號音樂(symbolic muisc)轉換為表演事件序列(a sequence of performance events)來訓練我們的模型。而在生成音樂階段的模型架構上，注意力機制模型(Transformer)最早出現在解決機器翻譯問題並取得成功 [15] ，BERT[1] 也使用注意力機制模型在預訓練字符編碼 (Pre-training. 政治大達到突破的成績。相較於遞歸神經網絡（Recurrent Neural Networks, RNN）有隨著距離增立 character embedding)上並在多個自然語言處理(Natural Language Processing, NLP)任務上. 加導致信息衰退的問題(Vanishing Gradient Problem)，注意力機制模型的機制如下方公式. ‧ 國. 學. 1，輸出的向量會包含了其他所有詞的訊息，而 softmax 可以對每個詞的關聯度做為計算. ‧. 權重。音樂生成在模型的生成長度上遠高於語言生成，因此遞歸神經網路架構的缺點會. io. y. al. 𝑄𝐾𝑇. sit. Attention(Q, K, V) = softmax (. √𝑑𝑘. )𝑉. ( 1 ). er. Nat. 產生嚴重的重複生成問題，因此我們在音樂生成階段決定採用注意力機制模型。. v. n. 我們的研究主要是為了替影片生成音樂，所以除了類似於語言生成模型方式來生成. Ch. engchi. i n U. 音樂，更重要的是如何讓我們的模型學習到影片的資訊，我們使用三層二維卷積網路 (Convolutional 2d)來學習影片的幀序列(sequence of frame)，在 Pooling 成為一維向量後加上 40 個 frame 的位置編碼(Positional Encoding)並使用注意力機制模型架構來學習影片資訊。我們的挑戰在於目前還未有為影片生成音樂的研究，同時也沒有現有的影片音樂配對資料集可以來做為我們的訓練資料集，因此我們在 MuseScore.com 人工收集了超過 7 小時的流行音樂鋼琴譜，在樂譜的選擇上我們使用有官方認證專家級的作者，並在 YouTube 上收集對應的官方音樂錄影帶(official music video)，之後我們人工使用影片編輯軟體剪輯影片或是修改樂譜來對齊影片和 midi 檔案。 2. DOI:10.6814/NCCU201901153.

(11) 1.4 研究貢獻我們的研究貢獻可分為兩部分，第一是我們發布一個全新的訓練資料集，大約 7 小時長度經過人工對齊的影片音樂資料集，第二是我們提出了一個全新的模型來對影片做 encode 並為影片生成對應的音樂，在實驗結果上我們的 VMT(Video-Music Transformer)比我們作為 baseline 的 seq2seq 模型有更好的音樂流暢度和影片匹配度。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 3. DOI:10.6814/NCCU201901153.

(12) 第 2 章相關研究本研究相關的研究領域大致上可以分為三大類，分別為影片音樂推薦、自動音樂作曲和深度學習。. 2.1 背景音樂推薦過去背景音樂推薦的研究大致上可統整為兩大類，分別為 Emotion-mediated. 政治大 Emotion-mediated Approach 立最早在 2005 年由 Kuo 等人提出[9]，在此之前的音樂推. Approach 和 Correlation-based Approach。. ‧ 國. 學. 薦研究多半來自於使用者的愛好，但是音樂的推薦與情緒息息相關，於是他們提出一個 Emotion-base 的音樂推薦模型，與直接從音樂來找出對應的情緒標籤不同的是，他們是. ‧. 運用 Mixed Media Graph(MMG)的方法來做音樂情緒的偵測，從音樂的特徵值去找到相. sit. y. Nat. 對應的情緒。在 2015 年 Lin 等人提出 EMV-matchmaker 的架構[10]，將影片與音樂分開. al. er. io. 萃取特徵值再使用 Temporal Phase Sequence 做情緒識別並對應到相同的 Valence-Arousal. v. n. 情緒象限中，之後使用 String Matching 的方法來做音樂與影像序列和情緒象限的相似度比對。. Ch. engchi. i n U. 2.2 自動音樂作曲音樂自動作曲的歷史相當悠久大致上可分為兩類，簡化或自動化作曲者的部分創作過程以及與作曲者合作共同創作歌曲，像是 IBM Watson 和著名音樂製作人 Alex Da Kid 創作的歌曲「Not Easy」，就是電腦與作曲者共同合作創作歌曲的例子，Watson 學習了 26000 首流行歌曲並分析了近五年來的流行文化，探索什麼樣的主題和旋律最打動人， Watson 的語意分析 API 分析了近五年的文字、文化和音樂資料，從中抽取出了流行的音樂主題，幫助 Alex 鎖定音樂創作主題為「心碎」，之後 Watson 的情感洞察 API 進一 4. DOI:10.6814/NCCU201901153.

(13) 步分析近五年內在美國歌曲排行榜 Billboard Hot 100 榜單中 26000 首歌曲的歌詞，來了解每首歌曲背後的語言風格，幫助 Alex 創作出「Not Easy」這首歌曲，在發布後得到 Spotify 全球排行榜第二名的成績。用神經網路作曲的研究最早在 1989 年由 Todd 等人提出[14]，而隨著深度學習愈來愈受歡迎，在音樂作曲上的研究也越來越多，主要都是基於 RNN 的架構，Google 在 2016 年發布了深度學習的音樂專案「Magenta」，他們的目標是使用機器學習來產生引人注目的音樂，使用了常規的遞歸神經網路(recurrent neural networks, RNN)以及兩個長短. 政治大專案中的每一個訓練模型都含有一個相對的訓練包，裏頭包含數千首的 MIDI 檔案，也立期記憶模型(long short-term memory, LSTM)，可以處理任何單聲道的 MIDI 檔案，該. 可以使用已經預先訓練好的模型來生成新的 MIDI 檔案，也就是新的音樂。但問題是. ‧ 國. 學. Magenta 只能產生單音軌的音符們，無法生成多音軌的音樂，雖然已試著將已生成的旋. ‧. 律加上鼓和吉他，但是是經由人類來輸入。除了 Magenta 之外，2016 年 Sony 的 DeepBach[5]. y. Nat. 也是基於 RNN 的神經網路架構，而同年 Mogren 等人提出的 C-RNN-GAN[11]則是第一個基. er. io. sit. 於生成對抗網路架構的音樂生成器。. 在 2017 年 Dong 等人提出 MuseGAN 架構[2]，是第一個能產生多軌的複音音樂架構，. al. n. v i n C bar 作者從搖滾音樂中選出了十萬個 piano-rolls，包 h e來進行訓練，並生成五個音軌的 ngchi U 含 bass, drums, guitar, piano 和 strings，作者提出三種作曲模型 Jamming Model,. Composer Model 和 Hybrid Model，Jamming 是每一個 track 都有一組自己的 Generator 和 Discriminator 以及各自的 private random vector 𝑧𝑖 ，而 Composer 是只使用一個 Generator、一個 Discriminator 和一個 shared random vector z來生成音樂，第三個 Hybrid Model 則是結合上述兩種模型，每個生成的 track 都有各自的𝐺𝑒𝑛𝑒𝑟𝑎𝑡𝑜𝑟𝑖 和輸入的 intra-track random vector 𝑧𝑖 ，並且所有 track 之間由一個 inter-track random vector z來控制所有生成的音軌是相互有關聯的。上述的三個模型是在於生成單個 bar，而生成的 bar 與 bar 之間的時序關係也需要考慮進去，因此作者使用 Temporal structure 來生成四個連續的 bar。MuseGAN 的 piano-roll 的訓練資料集是 Lakh MIDI 5. DOI:10.6814/NCCU201901153.

(14) dataset(LMD)，跟 Magenta 一樣是使用 MIDI 格式的音樂，同屬 symbolic-domain 的神經網路音樂生成。. 2.3 深度學習深度學習(Deep Learning, DL)是人工神經網路(Neural Network, NN)中的一個子領域，因其在資料探勘、電腦視覺、語音辨識、自然語言處理、證券金融預測分析、生物特徵偵測、醫學診斷等領域的卓越成果，在近幾年熱門於業界，具有商業重要性。. 政治大每個神經元會產生序列的實激勵值(sequence of real-valued activations)。常見的多層前饋立. 一個標準的人工神經網路是由許多簡單且相互連接的處理器所組成，稱為神經元，. 網路結構可分為三部分，一個輸入層(Input layer)用來感知大量環境訊息，輸入的訊息先. ‧ 國. 學. 透過資料前處理被表示為向量形態，一個輸出層(Output layer)，為訊息在神經元鍵結中. ‧. 傳輸、分析計算後的輸出結果，輸出也是向量形態，可以為一個常量(scalar)或是 one-hot. y. Nat. 的向量表示形式，最後一部分為隱藏層(Hidden layer)，是輸入層和輸出層之間眾多神經. er. io. sit. 元鍵接組成的各個層面(layer)，隱藏層可能為一層或多層。. 深度學習也可稱為對訓練資料集的表徵學習(Representation learning)，例如當訓練資. al. n. v i n Ch 料集是圖像時，深度學習可以學習出將一張圖片每個像素強度值轉換成一系列的邊、特 engchi U 定的形狀和該關注的特定模式(pattern)等的表示，以人臉辨識來說，一張人臉圖片的輸. 入，深度學習可以學習出臉形的輪廓、臉部器官的排列模式等，進而辨識出這張圖是否為人臉。目前已有多種知名的深度學習框架，包含卷積神經網路 (Convolutional Neural Network, CNN)、遞歸神經網路(Recurrent Neural Network, RNN)兩大基本架構和其變形，已被廣泛運用於電腦視覺、語音辨識、自然語言處理和生物資訊學等領域並取得了優秀的成果。與本研究相關的深度學習應用領域為語音辨識和電腦視覺，使用的深度學習框架都是基於卷積神經網路的架構，因為不管是影像還是音樂聲音訊號，其實都可看作是圖像 6. DOI:10.6814/NCCU201901153.

(15) 訊號，將音樂的 audio 訊號經過離散傅立葉轉換(Discrete Fourier Transform, DFT)，將訊號數值分解成簡諧波來解析頻率，我們可以得到一個特定時間點的頻率分布圖，稱為頻譜(spectrum)，而頻譜則可以跟圖像訊號一樣使用卷積神經網路作深度學習。2012 年 Hinton 和 Deng 等人[6]發表使用深度神經網路(Deep neural networks, DNNs)取代高斯混合模型(Gaussian mixture models, GMMs)，在語音辨識上有更好的成果，在這之前的語音辨識是使用隱藏馬可夫模型(hidden Markov models, HMMs)和高斯混合模型，此篇研究是語音辨識上劃時代的成果，在 TIMIT 資料集上訓練的 DNNs 在五種不同的大型詞彙. 政治大 GMM-HMM 有更好的成果。而在圖像識別的任務上，Hinton 等人[8]使用卷積神經網路立. 量的連續語音識別 (large-vocabulary continuous speech recognition, LVCSR) 任務都比. 在 2012 年 ImageNet 的競賽上取得了 state-of-the-art 的成果，讓卷積神經網路(CNN)一戰. ‧ 國. 學. 成名，他們使用了包含六千萬的參數和 65 萬的神經元的五層卷積層(convolutional layers)，. ‧. 有些之後接著最大池化層(max-pooling layers)和三層完全鍵接層(fully-connected layers)，. y. Nat. 而在最後是 1000-way 的 softmax，同時為了處理過擬合(overfitting)的問題使用 dropout. er. io. sit. 技術，在 2012 年 ILSVR（ImageNet Large Scale Visual Recognition Competition）由 ImageNet 所舉辦的競賽中以 Top-5 錯誤率 15.4%超過第二名 10%的懸殊差距奪得第一名，此篇提. n. al. Ch. 出的模型也被稱為 AlexNet 而廣為人知。. engchi. i n U. v. 在強化學習(Reinforcement learning, RL)後，Ian Goodfellow 在 2014 年提出生成對抗網路的概念[4]，生成對抗網路是非監督式學習的一大進展，監督式學習是使用大量帶有標籤的訓練資料集的學習方式，例如我們要訓練圖片的分類器，需要帶有大量狗、貓等相對應的標籤，所以監督式學習的一大缺點是缺乏大量的標籤樣本，以人工來標記大量的訓練資料集非常耗時耗力。為了解決上述缺點，發展出了非監督式學習，而生成對抗網路的提出為非監督式學習開拓了全新的可能，生成對抗網路基本分為兩個部分，生成模型(Generator)與分辨模型(Discriminator)，生成模型可以透過輸入的樣本產生相對應的輸出，例如輸入一個向量來產生狗的圖片，而後面的分辨模型則是輸入現有已標記為狗的圖片和生成模型產生的圖片，用來分辨是否為真實數據還是虛假數據(生成模型產生)， 7. DOI:10.6814/NCCU201901153.

(16) 希望讓生成模型產生的圖片與現有已標記為狗的圖片在分辨模型的結果皆為真實，由於這其中有生成模型與分辨模型對抗的用意，因此取名為生成對抗網路。在音樂波形生成的研究上，[12]在 2016 年提出文字轉語音的波型音訊的生成模型架構 WaveNet，能夠生成類人聲的音頻，而因為 WaveNet 直接生成音訊波形的能力，在之後也被常應用於音樂生成研究上。[3]提出了一個基於 WaveNet 的自編碼 (Autoencoder) 模型，經過訓練來學習音樂聲音的特徵，可以生成 Bass 和 Flute、Flute 和 Organ 以及 Organ 和 Bass 等音色合成的聲音頻譜。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 8. DOI:10.6814/NCCU201901153.

(17) 第 3 章研究方法. 3.1 資料前處理受限於 GPU 的 CUDA 記憶體大小，我們無法一次訓練一整首歌曲，因此我們將一首歌曲的音樂錄影帶每 10 秒切割成一筆作為訓練資料。與之對齊的 MIDI 資料也是每 10 秒切成一筆作為訓練資料。. 政治大們使用由[13]提出的表現編碼(performance encoding)來為 MIDI 資料編碼，表現編碼立. 因我們的資料集的 MIDI 資料是鋼琴樂譜演奏而成的，因此全部皆為鋼琴音符，我. ‧ 國. 學. (performance encoding)的詞彙(vocabulary)包含 128 個 NOTE_ON 事件和 128 個 NOTE_OFF 事件、100 個 TIME_SHIFT 來表現 10ms 的時間(expressive timing at 10ms)、32 個 VELOCITY. ‧. 來表現動態(expressive dynamics)，而因為我們的資料集由全鋼琴音符組成，所以我們設. sit. y. Nat. 定𝑀𝐼𝑁_𝑃𝐼𝑇𝐶𝐻 = 21、MAX_PITCH = 108，這樣我們的詞彙庫(vocabulary)大小為 310，. al. er. io. 88 個 NOTE_ON、88 個 NOTE_OFF、32 個 TIME_SHIFT、100 個 VELOCITY、1 個開始符和 1. v. n. 個結束符。所以我們的訓練資料 target Y 是一個數字序列由{0, 1, ⋯ , 309}組成。. Ch. engchi. i n U. 影片資料是每筆 10 秒長度的影片，我們使用 OpenCV 抽出 40 個影片 frames，受限於 CUDA 記憶體大小，將每個 frame 大小調整成長寬皆為 128，而為了讓我們的模型能學到影片氣氛、場景色調的因素，我們的 frame 由 RGB 三個 Channels 組成並使用 TensorFlow 的 PNG 編碼，為了能讓模型有序列編碼，每個 frame 資料我們加上一個 FRAME_NUM，所以我們的訓練資料 input X 為一個40x128x128x3的影片幀序列，每一個圖像資料皆帶有一個𝐹𝑅𝐴𝑀𝐸_𝑁𝑈𝑀 ∈ {0, 1, 2, ⋯ , 39}。. 3.2 Convolutional Video-Music Transformer 我們的 VMT(Video-Music Transformer)模型是基於注意力機制的影片到音樂模型，模 9. DOI:10.6814/NCCU201901153.

(18) 型的輸入序列為一個影片幀序列的資料表示(𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 )，經過如圖 2 的三層二維卷積神經網路，我們使用kernel size = 4、strides = 2和每層的filters = 64 × 2𝑠𝑢𝑚(0,⋯,𝑖) , 𝑖 = 0, 1, 2，經過 Pooling 後會得到一個輸出向量𝐚 = (𝑎, 𝑎2 , ⋯ , 𝑎𝑛 )來做為注意力機制運算的輸入向量序列，每個𝑎的維度𝑑𝑎 = 512。如圖 1 所示我們會使用 Dot-Product Attention，在這裡 𝐚 分別經過三個矩陣 𝑊 𝑄 , 𝑊 𝐾 , 𝑊 𝑉 得到下方公式 2 的 query Q、Key K 和 value V，𝑑𝑘 是 value 的維度，當做 dot product 運算需除以各自的√𝑑𝑘，之後使用 softmax 方程式來得到 attention 的權重(weight). 政治大. 再乘上 values。在這裡的注意力機制因為 query、key 和 value 皆為向量 a 運算而來，我們稱為 Self-Attention。. 立. 𝑄×𝐾𝑇. ‧ 國. √𝑑𝑘. )×𝑉. 學. z = softmax (. ( 2 ). 得到 Attention 的輸出z後經過相加並做規一化(normalization)後，如圖 1 所示，不管. ‧. 左方的 Encoder 或右方的 Decoder 架構，需經過一個完全連接的前饋網絡(a fully. y. sit er. io. 活(activation)。. Nat. connected feed-forward network)，如下方公式 3，使用兩個線性轉換矩陣和 ReLU 做為激. n. = 𝑚𝑎𝑥(0, 𝑧𝑊1 + 𝑏1 )𝑊2 + 𝑏2 ( 3 ) aFFN(𝑧) v i l C Encoding)在 Encoder 而圖 1 中的位置編碼(Positional h e n g c h i U n 和 Decoder 的輸入向量上，在. 我們的 VMT 模型中，Decoder 的輸入向量如同語言生成模型是詞彙的編碼(embedding)，而 Encoder 的輸入向量則是經過圖 2 的二維卷積網路和 Pooling，在我們的模型中兩個輸入向量維度皆為𝑑𝑚𝑜𝑑𝑒𝑙 = 512，在我們的 VMT 模型中使用[15]的位置編碼方程式，波長為2π到10000 ∙ 2π的幾何級數所形成，如下方公式 4 和 5 所示，對於任何的固定偏移 (offset) k，𝑃𝐸𝑝𝑜𝑠+𝑘 皆可被表現為𝑃𝐸𝑝𝑜𝑠 的線性函數。 𝑃𝐸(𝑝𝑜𝑠,2𝑖) = 𝑠𝑖𝑛(𝑝𝑜𝑠/100002𝑖/𝑑𝑚𝑜𝑑𝑒𝑙 ) 𝑃𝐸(𝑝𝑜𝑠,2𝑖+1) = 𝑐𝑜𝑠(𝑝𝑜𝑠/100002𝑖/𝑑𝑚𝑜𝑑𝑒𝑙 ). ( 4 ) ( 5 ). 圖 1 所示的 Encoder-decoder attention 不同於之前的注意力機制運算，上述的 SelfAttention 運算 query、key 和 value 由同一個向量運算而來，而這裡的 Encoder 和 Decoder 10. DOI:10.6814/NCCU201901153.

(19) 間的運算，query 是前一個 Decoder 層(layer)而來，key 和 value 則是 Encoder 的 output 運算而來。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Figure 1: Convolutional Video-Music Transformer.. Figure 2: Convolutional 2D and Pooling.. 圖 1 右方的 Decoder 是採用同機器翻譯模型[15]的生成模型，我們的 target Y = 11. DOI:10.6814/NCCU201901153.

(20) (𝑦1 , 𝑦2 , ⋯ , 𝑦𝑚 )，m 是經過[13]的表現編碼(Performance Encoding)後的序列長度，所以我們的 output 需經過一層線性層(Linear)和 softmax 函數後得到我們 VMT 模型的輸出，我們模型的輸出是一個 1024x310 的矩陣，我們的生成音樂序列最大長度限制為 1024，而我們的彙庫(vocabulary)大小為 310。模型的輸出與 Target Y 使用 NLLLoss 損失函數來計算 loss，並使用 Adam 作為 Optimizer 來計算 gradient 並 backward 更新整個模型的 weights。. 3.3 Seq2seq (baseline). 政治大因為之前並未有相同為影片生成音樂的模型，我們沒有一個比較基準模型(baseline 立. model)，因此我們使用一個修改後的序列到序列模型(Seq2seq model)來與我們的 VMT 模. ‧ 國. 學. 型做比較評估。圖 3 的注意力機制類似於章節 3.2 和圖 1 所述的 Encoder-decoder attention，. ‧. 使用前一個時間的 decoder output 做為 query 的運算來源，而 key 和 value 的運算來源. y. Nat. 則是 encoder 的 output。圖 3 的卷積神經網路和 Pooling 如圖 2 所示，一樣是 input X =. er. io. sit. (𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 )的影片幀序列，經過三層卷積神經網路和經過 Pooling 後，我們得到序列到序列模型(seq2seq)的輸入向量𝐚 = (𝑎, 𝑎2 , ⋯ , 𝑎𝑛 )，在這裡我們使用kernel size = 5、. n. al. strides = 1。. Ch. engchi. i n U. v. 在序列到序列模型我們採用三層的改良遞歸神經網路模型(Gated Recurrent Unit, GPU)，此模型的 hidden size 同前章節 3.2 的𝑑𝑚𝑜𝑑𝑒𝑙 = 512，改良遞歸神經網路運算如下方公式 6 所示，ℎ𝑡 是時間點 time t的 hidden state，𝑎𝑡 是時間t的輸入向量，ℎ(𝑡−1) 是時間 t − 1或是初始時間t = 0的 hidden state，而𝑟𝑡、𝑧𝑡、𝑛𝑡 分別為 reset、update 和 new gates， σ是 sigmoid 函數，這裡的∗是 Hadamard product。 𝑟𝑡 = σ(𝑊𝑖𝑟 𝑎𝑡 + 𝑏𝑖𝑟 + 𝑊ℎ𝑟 ℎ(𝑡−1) + 𝑏ℎ𝑟 ) 𝑧𝑡 = 𝜎(𝑊𝑖𝑧 𝑎𝑡 + 𝑏𝑖𝑧 + 𝑊ℎ𝑧 ℎ(𝑡−1) + 𝑏ℎ𝑧 ) 𝑛𝑡 = 𝑡𝑎𝑛ℎ (𝑊𝑖𝑛 𝑎𝑡 + 𝑏𝑖𝑛 + 𝑟𝑡 ∗ (𝑊ℎ𝑛 ℎ(𝑡−1) + 𝑏ℎ𝑛 )). 12. DOI:10.6814/NCCU201901153.

(21) ℎ𝑡 = (1 − 𝑧𝑡 ) ∗ 𝑛𝑡 + 𝑧1 ∗ ℎ(𝑡−1). ( 6 ). 如圖 3 所示，右方 Decoder 的初始 hidden state 是由左方 Encoder 的 hidden state 傳遞而來，所以我們是使用同一個遞歸神經網路(GRU)來做 Encode 和 Decode，這樣表示在 Decode 階段時我們的模型能繼承所有影片幀序列做為 GRU 輸入向量的資訊的 hidden state，並且結合 encoder-decoder attention 將 Encoder 的 output 乘上𝑊 𝑣 矩陣後做為注意力機制公式 2 的 value V。在 Decoder 階段我們同使用 softmax 函數來得到模型 output，在訓練時我們使用 negative log likelihood loss 做為 loss 函數。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Figure 3: Seq2seq model with Encoder-Decoder Attention.. 13. DOI:10.6814/NCCU201901153.

(22) 第 4 章資料集. 4.1 資料收集處理首先我們選擇的音樂領域為流行音樂(pop music)，因為流行音樂的音樂錄影帶 (Music Video, MV)相對於其他音樂類型有更貼近音樂情緒和音樂表達，最重要是因為流行音樂的官方音樂錄影帶是由專業導演甚至知名導演設計與拍攝剪輯而成，影片中含有. 政治大我們從 MuseScore 上下載作者立 ZakuraMusic 的樂譜，我們會選擇此作者發布的樂譜. 對歌曲的解釋與環環相扣的情節來對應到發布的原歌曲。. ‧ 國. 學. 有兩個原因，第一是此作者是官方認定的專家標籤作者，此作者有 10.8K 的 followers 並總共發布了 254 份樂譜；第二個原因是此作者發布的樂譜多是為流行歌曲改編而成的鋼. ‧. 琴譜，有附上歌詞的對應，而他編的樂譜 BPM(beats per minute)也多與原曲相同，這讓. sit. y. Nat. 我們後續人工處理影片與音樂的對齊工作更為容易。. al. er. io. 收集好流行音樂的鋼琴樂譜後，我們到 YouTube 上下載帶有「VEVO」或「WARNER. v. n. MUSIC」標籤的官方音樂綠影帶(Official Music Video)，我們使用 youtube-dl 工具來下載. Ch. engchi. i n U. 並選擇大約一首 10MB 到 20MB 大小的影片，影片格式為 MP4。. 4.2 影片音樂對齊在對齊影片音樂的工作上，我們找來具有音樂訓練背景，可以聽出多種音色包含鋼琴、吉他、電子合成音等等甚至口哨的音準的人來幫忙做對齊影片音樂的工作，因為原歌曲可能是吉他聲、人聲、提琴聲等等，我們需要把每個音都對齊到鋼琴樂譜上的音符。我們使用影片編輯軟體 OpenShot 來做影片剪輯，因為音樂錄影帶中常會有無原歌曲片段例如爆炸片段、慢動作片段和夢境幻想片段等等，這些在 Spotify 上發布的原歌曲中並沒有的片段我們皆須修剪掉。在對齊工作中我們也需調整樂譜 BPM 和修改小部分樂譜 14. DOI:10.6814/NCCU201901153.

(23) 來對上音樂錄影帶，我們發現 MV 導演可能是為了配合影片連貫效果，有小部分的影片播放的歌曲與原歌曲 BPM 不同，或是原休止符在影片中有延長的表現，以上狀況我們使用 MuseScore 的軟體來修改樂譜並輸出成 mp3 再 import 進 OpenShot 做影片音樂對齊工作。. 4.3 資料集介紹經過我們的收集與人工對齊工作後，我們共有 128 首完整的音樂錄影帶與其對應的. 政治大和 28 首做為測試資料集，我們受限於 CUDA 記憶體的限制，將每首完整的歌曲切成每立. 鋼琴樂譜，總共長度超過 7 小時，我們切 90 首做為訓練資料集、10 首做為驗證資料集. 10 秒一個資料，一樣是音樂影片和與其對應的 MP3 和 MIDI 檔案。. ‧ 國. 學. 如表格 1 所示，我們所發布的資料集總長度有 7.16 小時、170K 的總音符數量和. ‧. 2526 個影片音樂對應資料。. y. Nat. Validation. 90. Ch. 10. Counts. Duration (hrs). Notes(thousands). v n i 0.56. 115.0. 1.66. 39.9. 7.16. 170.5. 1741 198. Test. 28. e n g587 chi U. Total. 128. 2526. er. al. n. Train. Performances. io. Split. sit. Table 1: Music Video with corresponding Piano Scores. 4.93. 15.5. 15. DOI:10.6814/NCCU201901153.

(24) 第 5 章實驗設計. 5.1 模型訓練在模型訓練上，我們訓練總共 355000 個 steps，其中 validation 資料集的最低 loss 在大約 14000 左右，下圖是我們訓練到 50K 時的 learning rate 和 loss 變化，右圖的橘色線和藍色線分別為 training loss 和 eval loss，可以看到大約 14K 時有最低的 eval loss。. 政治大. 立. ‧. ‧ 國. 學 sit. y. Nat. n. al. Figure 5: loss curve, orange, blue are training and eval loss respectively.. er. io. Figure 4: learning rate.. Ch. engchi. i n U. v. 但是我們使用 Testing 資料集做 Model inference 後來聽，發現其實聽起來不太像是音樂，因為模型最低的 loss 可以解釋成對所有資料集都取平均，但是兩首音樂曲平均後並不是一個音樂序列，所以我們認為 14000 時還未完全學到音樂的序列特性，在每 5 萬個 steps 使用 Testing 資料集做 model inference 後我們實際聽，最後決定使用 50000 steps 的 model 做為我們的 best model。當在 355000 時的 model inference，模型已經背起來 Training 資料集了，生成出來的歌曲幾乎等於是在訓練資料集的標準答案中選一首，也就是訓練到 355000 steps 的模型其實已經是在做 Retrieval music。我們的訓練設定btch size = 4、dropout = 0.2、hidden size = 512、Max target sequence length=1024，因受限於 CUDA 記憶體的限制，所以我們的生成音樂序列最大長 16. DOI:10.6814/NCCU201901153.

(25) 度限制為 1024，我們使用[7]所提出的 Adam 做為 Optimizer 和使用 NLLLoss 作為損失函數來計算 Loss，我們設定𝛽1 = 0.9、𝛽2 = 0.997和ϵ = 10−9。我們訓練的 learning rate 排程如下方公式 7 所示，這讓如圖 4 所示 learning rate 在第一個 warmup_steps 內會增加而之後會持續遞減，我們設定warmup_steps = 8000。 −0.5 learning rate = 2𝑑𝑚𝑜𝑑𝑒𝑙 × 𝑚𝑖𝑛(𝑠𝑡𝑒𝑝_𝑛𝑢𝑚 −0.5 , 𝑠𝑡𝑒𝑝_𝑛𝑢𝑚 × 𝑤𝑎𝑟𝑚𝑢𝑝_𝑠𝑡𝑒𝑝𝑠 −1.5 ) ( 7 ). 在資料集處理的部分，為了增加訓練資料和增加生成音樂的多樣性，我們使用歌曲移調在{−3, −2, −1, 0, 1, 2, 3}間，這讓我們在三度內均勻的採樣。我們的訓練資料總共有 12187 筆做為 Training 資料，使用單顆 NVIDIA P40 GPU 訓練，訓練速度為平均一秒 1.4. 政治大. 個 steps，如我們最後使用 50K steps 的 model 總共需要大約 17 小時的訓練時間。. 立. ‧ 國. 學. 5.2 評估方法. 因為之前並未有人做過相同的研究，因此我們並沒有一個好的比較基準，所以我們. ‧. 使用修改後的序列到序列模型做為比較模型，在評估方法上我們採用人工評估，我們找. y. Nat. sit. 來了 23 個人，隨機分配 Testing 資料集中的 30 個資料，每頁分別有三個音樂讓使用者. n. al. er. io. 作評估比較並給分，我們的評估包含音樂流暢度和影片匹配度在 0 到 5 分之間如下圖 6. i n U. v. 所示，在右方我們是隨機排序的音樂，分別來源於同一段影片的 Target (also known as. Ch. engchi. ground truth)音樂、VMT 生成的音樂和 seq2seq 模型生成的音樂，我們的目的是為了讓使用者能比較三個音樂的音樂流暢度，同時也需比較三個音樂對於左方影片的匹配度並給予分數。如圖 6 所示，當按下 Play 按鈕時左方的影片會與音樂同時播放，右下方紅色的「我知道這首歌！跳過！」是為了防止使用者聽過此部影片的 ground truth 音樂，例如 Adele 的「Hello」、Ed Sheeran 的「Shape Of You」和 Lady Gaga 的「Poker Face」這三部 MV 皆在我們的 Testing 資料集中，這三首歌的知名度和傳唱度很高常被跳過，但是我們發現有年齡層的差異，像是 Adele 和 Lady Gaga 的歌曲在 25 到 50 歲的使用者之間常被跳過，但是 15 到 20 歲的使用者卻對她們的歌沒印象，反而是對 Ed Sheeran 的「Shape Of You」表示認識，反之 25 歲到 50 歲的使用者卻不認識「Shape Of You」。 17. DOI:10.6814/NCCU201901153.

(26) 另外值得一提的是我們的 Testing 資料集總共有 587 個資料，根據我們的測試結果，大約一個人在做 30 題總共 90 首歌曲要比較後已趨於疲勞，因此我們的實驗設計是有一個 Stack 裏頭是未被任何使用者做過的，每位使用者開始後會隨機給予裏頭的歌曲。之後我們有 6 位測試者在休息一段時間後繼續下一個 30 題，當使用者所做題數大於 30 題，也就是第 31 題開始我們是有一個隨機每首原歌曲抽取三個資料的 Stack，我們的 Testing 資料集共來自於 28 首原歌曲，所以總共有 84 個資料讓使用者在第 31 題開始抽樣，我們的目的是為了知道同一首歌曲不同受試者的平均分數。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Figure 6: the interface for user evaluation.. 5.3 實驗結果實驗結果如下方表格 2 所示，不管是在音樂流暢度還是音樂影片匹配度上，Ground Truth 都有最高的分數，而我們的卷積注意力機制模型(VMT)在音樂流暢度和影片音樂匹配度上皆高於 seq2seq 模型，這證明了我們提出的卷積注意力機制架構在 model 音樂序列上和影片資訊上是成功的。表格左上角的 690 是 23 位受試者每位 30 題總共 690 題， 18. DOI:10.6814/NCCU201901153.

(27) 584 是被做過的題目集，代表有 3 個題目沒有人做。. Table 2: result of music smooth and suitable of video. #690/584 TARGET VMT Seq2seq SMOOTH SUITABLE. 3.60 3.05. 3.11 2.36. 2.74 2.13. 5.3.1 User Bias. 政治大. 對於 seq2seq 模型和我們的 VMT 模型在音樂流暢度和音樂影片匹配度上無相當大. 立. 的差距，音樂流暢度和音樂影片匹配度分別相差 0.37 和 0.23，我們認為有兩大原因，第. ‧ 國. 學. 一是因為一般受試者對於音樂流暢度的認知只要 10 秒的時間內都有音樂且無斷續，就會認為此音樂是流暢的，而有經過音樂訓練的受試者會仔細聽音樂的和弦變化來判斷音. ‧. 樂是否流暢，如下方表格 3 所示，我們邀請 6 位受試者在做完 30 題後隔天繼續做我們. y. Nat. sit. 在測試資料集 28 首原歌曲每首隨機抽取 3 個 10 秒影片，總共 84 題中的題目，在此 6. n. al. er. io. 人中有三位受過音樂訓練，我們可以發現有音樂訓練背景的人在 Ground Truth 跟我們的. i n U. v. 兩個模型不管在音樂流暢度和影片匹配度上都有較大的差距，也就是他們對真人編寫的. Ch. engchi. 音樂和模型生成的音樂有很高的分辨能力，所以在模型生成上不符合他們所學的作曲樂理皆給予較低分數。雖然在有音樂訓練背景上的結果表示我們的 VMT 模型和人譜寫的音樂有較大的差距，但我們的 VMT 模型也依然比 seq2seq 模型有更好的表現。. Table 3: the results between musical backgrounds and without musical backgrounds. MB/woMB TARGET VMT Seq2seq SMOOTH. 4.12 / 3.01. 3.09 / 2.63. 2.77 / 2.35. SUITABLE. 3.24 / 2.91. 1.96 / 2.38. 1.72 / 2.18. 19. DOI:10.6814/NCCU201901153.

(28) 5.3.2 Problem of Seq2seq 第二個原因是因為我們模型的輸出會在經過 [13]提出的表現解碼 (Performance decoding)，我們發現在 seq2seq 的 output 解碼的過程中會出現很多警告訊息(warning)，訊息是表示序列中有許多不合理的地方，例如此 pitch 有 NOTE_ON 卻沒有 NOTE_OFF，而此解碼過程會自動幫我們濾掉這些不合理的子序列，這導致 seq2seq 雖然輸出的序列有很多不合音樂邏輯的部分，但依然能夠輸出成 midi files，我們認為表現編碼的解碼美. 政治大 VMT 輸出的 tensor 和原歌曲音樂的 tensor，橘色方形圈起來的地方是表現編碼的「音樂立. 化了 seq2seq 模型的輸出結果。如圖 7 所示，左邊從上到下分別是 seq2seq 輸出的 tensor、. 結束符」，我們發現到 seq2seq 模型學不會生成「音樂結束符」，它只會持續的生出下一. ‧ 國. 學. 個值，可以知道 seq2seq 輸出的 tensor 明顯不具有音樂性。. ‧. 圖 8 是經過[13]的表現解碼(Performance decoding)後的 MIDI 音符序列，從上到下. y. Nat. 分別是 Seq2seq、VMT 和標準答案(Ground truth)的音符序列。綠色框框圈起來的是具有. er. io. sit. 音樂動機特徵的音符子序列，可以看到我們的 VMT 模型有學到音樂動機的特徵，音樂動機通常是長度一到兩個小節反覆出現的音樂片段，如知名的貝多芬命運交響曲中的. al. n. v i n C模型生成的音樂並沒有學到音樂動機的特徵，但像是命運敲門的片段。反之 Seq2seq hengchi U. 圖 8 右上方的 Seq2seq 結果，在實驗上音樂流暢度和影片合適度皆有不錯的結果，因為受試者們表示很像流行音樂的前奏，像是鼓聲的開場。而圖 8 左上方的 Seq2seq 結果則是前段提到的 Seq2seq 模型學不到結束符，因此解碼後的音樂長度不固定，像這例子就沒有十秒的音樂長度。. 20. DOI:10.6814/NCCU201901153.

(29) 立. 政治大. ‧. ‧ 國. 學. Figure 7: from left to right are seq2seq, VMT, and ground truth is at the bottom. Inside the red. Nat. n. al. er. io. sit. y. boxes are “END” notes in our vocabulary dictionary.. Ch. engchi. i n U. v. 21. DOI:10.6814/NCCU201901153.

(30) 立. Seq2seq. Seq2seq. VMT. VMT. 政治大. ‧ 國. 學 ‧. Ground Truth. Nat. er. io. sit. y. Ground Truth. al. n. v i n C h VMT, and ground Figure 8: From top to down are seq2seq, e n g c h i U truth respectively. Left and right are. two examples from testing set. Inside green boxes are music motifs which are short and constantly recurring musical phrases.. 22. DOI:10.6814/NCCU201901153.

(31) 第 6 章總結因為之前沒有為影片生成音樂的研究，也沒有影片與相對應對齊的符號音樂資料集，因此我們人工發布了一個超過 7 小時的影片音樂資料集，由流行音樂的鋼琴樂譜和對齊的音樂錄影帶所組成經過人工的對齊工作。我們提出了一個卷積注意力機制模型(Video-Music Transformer)來為影片生成音樂，在與序列到序列模型(seq2seq)的比較上，不管是音樂流暢度和音樂影片匹配度上皆達到. 政治大後的工作可以嘗試一次生成立30 秒的音樂，這樣注意力機制架構相比於遞歸神經網路架最先進的結果，雖然實驗結果顯示與人類譜寫的音樂還有一些進步的空間。我們認為之. ‧ 國. 學. 構上在長序列生成上的優勢較能體現，而且人類譜寫的音樂特性在 30 秒到 1 分鐘長度的音樂才能有較多的顯現。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 23. DOI:10.6814/NCCU201901153.

(32) 參考文獻. [2]. [3]. [4]. 立. 政治大. ‧. [6]. adversarial networks. arXiv preprint arXiv:1709.06298, 2017. J. Engel, C. Resnick, A. Roberts, S. Dieleman, M. Norouzi, D. Eck, and K. Simonyan, Neural audio synthesis of musical notes with wavenet autoencoders. Proceedings of the 34th International Conference on Machine Learning-Volume 70, 2017. I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, Generative adversarial nets. Advances in neural information processing systems, 2014. G. Hadjeres, F. Pachet, and F. Nielsen, DeepBach: a Steerable Model for Bach chorales generation. arXiv preprint arXiv:1612.01010, 2016. G. Hinton, L. Deng, D. Yu, G. E. Dahl, A.-R. Mohamed, N. Jaitly, A. Senior, V.. 學. [5]. J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018. H.-W. Dong, W.-Y. Hsiao, L.-C. Yang, and Y.-H. Yang, MuseGAN: Symbolic-domain music generation and accompaniment with multi-track sequential generative. ‧ 國. [1]. [9]. [10]. [11] [12]. sit. er. al. n. [8]. io. [7]. y. Nat. Vanhoucke, P. Nguyen, and T. N. Sainath, Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 29(6), 82-97, 2012. D. P. Kingma and J. Ba, Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. A. Krizhevsky, I. Sutskever, and G. E. Hinton, Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 2012. F.-F. Kuo, M.-F. Chiang, M.-K. Shan, and S.-Y. Lee, Emotion-based music recommendation by association discovery from film music. Proceedings of the 13th. Ch. engchi. i n U. v. annual ACM international conference on Multimedia, 2005. J.-C. Lin, W.-L. Wei, and H.-M. Wang, EMV-matchmaker: emotional temporal course modeling and matching for automatic music video generation. Proceedings of the 23rd ACM international conference on Multimedia, 2015. O. Mogren, C-RNN-GAN: Continuous recurrent neural networks with adversarial training. arXiv preprint arXiv:1611.09904, 2016. A. V. D. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, Wavenet: A generative model for raw 24. DOI:10.6814/NCCU201901153.

(33) 立. 政治大. 學 ‧ y. Nat. io. sit. [15]. n. al. er. [14]. ‧ 國. [13]. audio. arXiv preprint arXiv:1609.03499, 2016. S. Oore, I. Simon, S. Dieleman, D. Eck, and K. Simonyan, This time with feeling: learning expressive musical performance. Neural Computing and Applications, 1-13, 2018. P. M. Todd, A connectionist approach to algorithmic composition. Computer Music Journal, 13(4), 27-43, 1989. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, Attention is all you need. Advances in neural information processing systems, 2017.. Ch. engchi. i n U. v. 25. DOI:10.6814/NCCU201901153.

(34) 附錄. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Figure 9: Our demo webpage. User can use the mouse to click examples from testing set.. 26. DOI:10.6814/NCCU201901153.

(35) 立. 政治大. ‧ 國. 學. ‧. Figure 10: The webpage for No. 100-015. User can click left top video to watch original music video. The left bottom is a slider to display 40 frames we used as our model inputs. The right side display target's midi piano notes. User can click buttons to play target's midi only or synchronize with left video.. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Figure 11: The webpage for No. 100-015 and the results for our VMT model. 27. DOI:10.6814/NCCU201901153.

(36) 立. 政治大. ‧ 國. 學. Figure 12: The webpage for No. 100-015 and the results for Seq2seq model.. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 28. DOI:10.6814/NCCU201901153.

(37)