過濾歌詞中的重複詞問題 - 建模分析 - 基於文本分析方法探討流行歌曲情緒辨識之研究

第五章建模分析

5.4 過濾歌詞中的重複詞問題

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

5.4 過濾歌詞中的重複詞問題

在流行歌曲中，作詞人為了讓歌曲的傳唱度增加，並且讓歌曲更有記憶點，歌詞中常常會不斷的重複少數的特定詞彙，但這些重複的詞彙，並不能保證真的與該歌曲中的情緒有關，因此我們提出方法三，構想在歌詞特徵擷取方法二中，每首歌的歌詞斷完詞後，將重複的詞彙只計算一次，避免高估一首歌當中反覆出現的詞彙在各個情緒標籤的分數。

按照前面的實驗流程，一樣預測目標分成歌詞標籤與旋律標籤，並且以悲傷與快樂，兩類別的分類做探討，結果如表 11.A 與表 11.B。

圖 4 以歌詞情緒標籤為預測目標，支持向量機放入歌詞與旋律特徵在三分類結果的混淆矩陣

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表格11.A預測歌詞情緒標籤（二分類），方法二與方法三的準確率比較

支持向量機隨機森林最近鄰居法

單用歌詞特徵方法二 0.771 0.760 0.765

方法三 0.817 0.796 0.813

歌詞特徵與旋律特徵方法二 0.855 0.797 0.778

方法三 0.864 0.798 0.817

表格11.B預測旋律情緒標籤（二分類），方法二與方法三的準確率比較

從 KKBOX-Song-Mood-Dataset 來看，除了使用歌詞特徵與旋律特徵預測旋律情緒標籤之外，方法三確實是能提升模型的預測能力。為了測試此效果並不是只表現於 KKBOX-Song-Mood-Dataset 資料集，我們另外使用了南京大學所整理的 NJU-MusicMood-V1.0 資料集 [2]，比較有無將重複歌詞刪除對分類結果的影響。此資料集有 777 首英文歌曲，有四種情緒標籤，分別為悲傷、快樂、平靜與憤怒，每一首歌都有對應的歌詞，此資料集並無音訊的特徵，因此以下實驗只利用歌詞做分析。

支持向量機隨機森林最近鄰居法

單用歌詞特徵方法二 0.767 0.787 0.794

方法三 0.824 0.809 0.806

歌詞特徵與旋律特徵方法二 0.899 0.882 0.891

方法三 0.891 0.871 0.884

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

從表格 12 可以發現南京大學所整理的 NJU-MusicMood-V1.0 英文歌曲，方法三的準確率明顯高於方法二，顯示將重複詞只計算一次的前處理過程，不是單單只表現於 KKBOX-Song-Mood-Dataset 資料集。

表格 12 NJU-MusicMood-V1.0 資料集使用方法二與方法三的準確率比較

支持向量機隨機森林最近鄰居法

方法二 0.327 0.345 0.309

方法三 0.407 0.401 0.378

5.5 探討方法二與方法三的優劣

此節會探討在方法三中，將重複歌詞只算一次的前處理，對歌詞特徵擷取的影響與幫助。會從兩個面向觀察，面向一從測試資料集中，兩種方法分類結果不一致的歌曲中觀察；面向二則從方法二與方法三分別計算出來的 TF-IDF 矩陣的差異著手，其細節如下。

5.5.1 面向一

我們找出在使用方法二與方法三分類結果不同的歌曲中，有什麼共同特色，

來探究處理重複詞對模型的影響為何，其過程如下：

我們以預測目標為歌詞情緒標籤（快樂與悲傷二分類）且只使用歌詞特徵的支持向量機模型來探究「是否重複詞只計算一次」對預測結果的影響。模型評估的方法為 20 折的交叉驗證，因此所有的資料都會在 20 折交叉驗證中當過一次的測試資料，我們將 20 折交叉驗證中的每一筆測試資料的預測結果記錄下來，並觀察使用方法二的模型預測結果，與方法三的模型預測結果不同的歌曲，有什麼共同特徵。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在總共 405 筆資料當中，總共有 55 筆資料是在方法二與方法三中預測不同的，其中「方法三」分類正確，「方法二」分類錯誤的有 35 筆；「方法二」分類正確，「方法二」分類錯誤的有 20 筆，如圖 5 所示。因此我們可知，使用

「歌詞特徵擷取方法三」的模型是表現較好的，但也有「方法二」分類正確，

「方法三」反而分類錯誤的例子發生。

然而，在「方法三」分類正確，「方法二」分類錯誤的 35 筆當中，發現有些許歌曲的歌詞有反覆出現相同詞彙的現象，例子如嚴爵的「一直給」、卓文萱的「不要不要」、潘瑋柏的「打呼」，其歌詞提供在附錄章節。

圖 5 55 筆預測結果不同的資料中，各個歌詞特徵擷取方法正確的資料筆數

‧

性，並比較二方法選出詞彙的合理度。KKBOX-Song-Mood-Dataset 與 NJU-MusicMood-V1.0 [2] 的前二十重要的詞彙如表格 13.A 與表格 13.B。

‧

表格 13.A 方法二與方法三在 KKBOX-Song-mood-dataset 的各個前二十重要的情緒詞彙

排

‧

表格 13.B 方法二與方法三在 NJU-MusicMood-V1.0 資料集的各個前二十重要的情緒詞彙

排

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 6.A 以歌詞情緒標籤為預測目標，測試資料集中歌曲被預測為悲傷的機率的分布圖

圖 6.B 以旋律情緒標籤為預測目標，測試資料集中歌曲被預測為悲傷的機率分佈圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 7.A 與圖 7.B 分別為以歌詞、旋律情緒標籤為預測目標，模型預測錯誤的歌曲的悲傷機率分布圖，可以發現，兩個模型預測為悲傷的機率介於 0.2 到 0.8 之間的比例是明顯變多的，其結果是直觀的，但是模型預測悲傷的機率接近 1 或接近 0 的歌曲還是占大多數，我們可以推估，以歌詞情緒標籤為預測目標，

且模型預測錯誤的歌曲中，許多歌曲的情緒並不是模型覺得模稜兩可，而是完全判斷錯誤，因此我們認為此模型還有改善的空間。

圖 7.A 以歌詞情緒為預測目標，模型預測錯誤歌曲中，歌曲為悲傷機率的分布圖

圖 7.B 以旋律情緒為預測目標，模型預測錯誤歌曲中，歌曲為悲傷機率的分布圖

‧

KKBOX-Song-Mood-Dataset 與 NJU-MusicMood-V1.0 [2]，從分類結果可以發現，有對重複詞做處理的分類結果明顯好於沒處理的分類結果，因此如果要使用「視一種情

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

本文中的歌詞特徵擷取方法，都是使用與 TF-IDF 相關，然而 TF-IDF 相關的方法有一個共同的缺點，正是沒有考慮到每個詞彙的先後順序關係，都是將所有歌詞拆解成獨立的詞彙，因此會遺失掉許多句子中的重要資訊，未來建議可以試著將詞與詞之間的先後順序關係納入考量，也許分類效果能夠往上提升。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

吳克群沒關係（歌詞為悲傷、旋律為悲傷）

沒有一句對不起對不起是我太執迷你離開的時候沒有一句沒有一句話說清說清楚離開的原因也許他可靠他實際他不一樣他能夠給你安全感不只夢想誰還在乎一起傻傻說過的那些話沒關係我們分了沒關係這不是你的問題是我沒那個福氣沒福氣卻又愛上你就算哭了沒關係這不是你的問題痛痛快快給我一槍我沒關係沒關係沒關係你離開的時候沒有一句沒有一句對不起對不起是我太執迷你離開的時候沒有一句沒有一句話說清說清楚你離開的原因也許他可靠他實際他不一樣他能夠給你安全感不只夢想誰還在乎一起傻傻說過的那些話沒關係我們分了沒關係這不是你的問題是我沒那個福氣沒福氣卻又愛上你就算哭了沒關係這不是你的問題痛痛快快給我一槍我沒關係愛情裡面總有一個比較傻怪就怪我放不下痛苦給我幸福留給你和他沒關係沒關係沒關係沒關係我們分了沒關係這不是你的問題是我沒那個福氣沒福氣卻又愛上你就算哭了沒關係這不是你的問題痛痛快快給我一槍我沒關係

刪減過後的歌詞（順序並無意義）

時候不只沒有對不起福氣愛上愛情痛痛快快這不裡面也許我們一起幸福就算說清楚一樣一槍夢想安全感離開在乎傻傻留給問題些話分了比較沒關係實際句話放不下能夠可靠原因執迷痛苦

‧

[1] MennovanZaanenandPieterKanters. AutomaticMoodClassificationUsingtf*idf BasedonLyrics. InJ. StephenDownieandRemcoC. Veltkamp, editors, 11thInternational SocietyforMusicInformationandRetrievalConference, August2010.

[2] HaoXue, LikeXue, FengSu.MultimodalMusicMoodClassificationbyFusionofAudio andLyrics. InProc. ofMMM2015, LNCS8936, pp26-37.

[3] Jen-YuLiuandYi-HsuanYang :EventLocalizationinMusicAuto-tagging, 2016, http://mac.citi.sinica.edu.tw/~yang/pub/liu16mm.pdf

[4] Wei-YunMaandKeh-JiannChen. Abottom-upmergingalgorithmforchinese unknownwordextraction. InProceedingsofthesecondSIGHANworkshop onChineselanguageprocessing, volume17, pages31–38. Association forComputationalLinguistics, 2003.

[5] Wei-YunMaandKeh-JiannChen. IntroductiontoCKIPchinesewordsegmentation systemforthefirstinternationalchinesewordsegmentationbakeoff.

InProceedingsofthesecondSIGHANworkshoponChineselanguage

processing, volume17, pages168–171. AssociationforComputationalLinguistics, 2003.

[6] McFee, Brian, ColinRaffel, DawenLiang, DanielPWEllis, MattMcVicar, EricBattenberg, andOriolNieto. "librosa: Audioandmusicsignalanalysisinpython." InProceedingsofthe 14thpythoninscienceconference, pp. 18-25. 2015.

[7] MartinF. McKinneyandJeroenBreebaart. FeaturesforAudioandMusicClassification. InProceedingsofInternationalConferenceonMusicInformationRetrieval, 2003.

[8] C. Laurier, J. GrivollaandP. Herrera: “MultimodalMusicMoodClassificationUsing AudioandLyrics,” ProceedingsoftheInternationalConferenceonMachineLearningand Applications, 2008.

[9] Y.-H. Yang, Y-C. Lin, H.-T. Cheng, I,-B. Liao, Y-C. Ho, andH. H. Chen. Towardmulti-modal musicemotionclassification. InProceedingsofPacific-RimConferenceinMultimedia, pages 70-79. Springer, 2008

[10] XingWang, XiaoouChen, DeshunYangandYuqianWu. MusicEmotionClassificationof ChineseSongsBasedonLyricsUsingTF*IDFandRhyme.

在文檔中基於文本分析方法探討流行歌曲情緒辨識之研究 - 政大學術集成 (頁 39-0)

過濾歌詞中的重複詞問題

第五章 建模分析

5.4 過濾歌詞中的重複詞問題

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

吳克群 沒關係 （歌詞為悲傷、旋律為悲傷）

刪減過後的歌詞（順序並無意義）

‧

第五章建模分析

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

吳克群沒關係（歌詞為悲傷、旋律為悲傷）