• 沒有找到結果。

基於歌詞文本分析技術探討音樂情緒辨識之方法研究 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "基於歌詞文本分析技術探討音樂情緒辨識之方法研究 - 政大學術集成"

Copied!
42
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政 治 大. ‧ 國. 學. 基於歌詞文本分析技術探討音樂情緒辨識之. ‧. 方法研究 Exploring Music Emotion Recognition via io. sit. y. Nat. er. n. Textual Analysis on Song Lyrics a iv l C n hengchi U. 研 究 生:陳禔多 指導教授:蔡銘峰. 中華民國 一百零六 年 二 月 February 2017.

(2) 2017. 碩 士 論 文. 立. 政 治 大. ‧. ‧ 國. 學. n. al. er. io. sit. y. Nat. 基 於 歌 詞 文 本 分 析 技 術 探 討 音 樂 情 緒 辨 識 之 方 法 研 究. 政 治 大 學 資 訊 科 學 系. 陳 禔 多. Ch. engchi. i Un. v.

(3) 基於歌詞文本分析技術探討音樂情緒辨識之方法研究 Exploring Music Emotion Recognition via Textual Analysis on Song Lyrics 研 究 生:陳禔多 指導教授:蔡銘峰. 立. Student:Ti-Tou Chen Advisor:Ming-Feng Tsai. 國立政治大學 資訊科學系 治 政 碩士論文. 大. ‧ 國. 學 ‧. A Thesis submitted to Department of Computer Science. Nat. n. er. io. sit. y. National Chengchi University in partial fulfillment of the Requirements a l for the degree of i v. n C h Master U engchi. in Computer Science. 中華民國 一百零六 年 二 月 February 2017.

(4) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 2. i Un. v.

(5) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v.

(6) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v.

(7) 致謝. 四年的學習,首先感謝指導教授 蔡銘峰老師的指導,使完全 沒接觸過機器學習的我可以使用這個技術進行研究。研究期間有許多 意外與插曲,格外感謝老師的包容與鼓勵。論文撰寫的部分也感謝 王. 治 政 大 感謝研究室的學長與同學在這些年間給予的幫助。感謝志明學長 立 提供的各種協助,不論是課業、技術或是應對都讓我有很多的學習。. 釧茹老師給予的意見與指正,使得本論文的論述更加流暢。. ‧ 國. 學. 感謝劉澤、哲立與奕安,與你們一起奮鬥的時間真的很珍貴。格外感 謝哲立,在最後一哩的時候耽擱了你的進度,十分不好意思。. ‧. 感謝家人的包容與關心,在花費了比較多的時間與金錢的情況. y. sit. io. n. al. er. 伴。. Nat. 下,仍然讓我完成了學業與研究。 最後感謝教會的摯友們,謝謝你們在這段出乎意料長旅程的陪. Ch. engchi. i Un. v. 陳禔多 國立政治大學資訊科學系 February 2017. iii.

(8) 基於歌詞文本分析技術探討音樂情緒辨識之方法研究. 中文摘要 音樂是一種情感豐富的媒體。即使跨越了數個世紀,人們還是會 對同一首歌曲的情緒表達有類似的理解。然而在現今的數位音樂資料 庫可以看出,我們是不可能憑著人力完成數量如此龐大的音樂情緒辨 識,也因此期待電腦可以協助完成如此繁重的工作。隨著機器學習的 發展,電腦逐漸可以透過統計模型與數學模型判斷與辨識一些並未事 先提供規則的資料,而無法言傳的音樂情緒也得以有機會交由電腦辨 識、分類。雖然目前有許多透過訊號處理技術進行的音樂辨識研究, 但是透過歌詞文本的辨識卻是相對少見,使用的特徵也多侷限於通用 的文字資訊。本研究以音訊特徵為基礎,從不同的歌詞文本資訊出. 政 治 大 訊,藉以提升歌曲於交流、表達、推薦等互動的功能性與準確性。實 立. 發,透過分析歌詞文本進行歌曲情緒辨識,提供更多優化的參考資. 驗結果發現,歌詞文本資訊對於歌曲的正負面情緒辨識確實有相當好. ‧ 國. 學. 的表現,而對於特定分類的限制則是值得更多透過不同自然語言處理 的方法強化的。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. iv. i Un. v.

(9) Exploring Music Emotion Recognition via Textual Analysis on Song Lyrics. Abstract With huge volumes of digital music libraries, we need a computer-based machine learning method to recognize the emotion of every song. Although there are lots of studies exploit machine learning techniques to classify or recognize the emotions of music through audio signal information, the researches focusing on the text information in lyrics are still a few. As a result, this thesis attempts to utilize the information from song lyrics to recognize the emotions of songs. In our experiment, the new features extracted from song lyric information are useful in music classification of different valance.. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. v. i Un. v.

(10) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. vi. i Un. v.

(11) 目錄 致謝. iii. 中文摘要. iv. Abstract. v. 政 治 大. 1. 導論. 2. 文獻探討 2.1 情緒分類 . . . . . . . . . . . . 2.2 音樂情緒辨識 . . . . . . . . . 2.2.1 聲音訊號 . . . . . . . . 2.2.2 後設資料(Metadata) 2.2.3 歌詞文本 . . . . . . . . 2.3 自然語言處理中的情感辨識 . 2.4 歌詞的文字特性 . . . . . . . . 2.5 機器學習在分類問題上之應用. 立. . . . . . . . .. 9 9 9 10 10 10 11 11 11. . . . . . .. 15 15 15 16 16 16 16. 結論 5.1 結果討論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 與過去研究之比較 . . . . . . . . . . . . . . . . . . . . . . . .. 19 19 19. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. y. . . . . . . . .. io. sit. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. er. . . . . . . . .. ‧. Nat. .i v. .. n. al. . . . . . . . .. 學. ‧ 國. . . . . . . . .. 3 3 3 4 4 4 5 5 6. 3 研究方法 3.1 Support Vector Machine . 3.1.1 實作 . . . . . . . 3.1.2 參數選用 . . . . . 3.2 特徵 . . . . . . . . . . . . 3.2.1 全文單字 . . . . . 3.2.2 文本 SUBTLEXus 3.2.3 情感單字 . . . . . 3.3 資料集 MER31k . . . . .. C h.. .. .. .. .. .. .. .. .. ..U.. n.. . e n . .c. h. i. . . . . . . . .g . . . . .. 4 實驗設計與結果分析 4.1 實驗設定 . . . . . . . . . . 4.1.1 資料集 . . . . . . . 4.1.2 評估標準 . . . . . . 4.2 實驗結果與分析 . . . . . . 4.2.1 四象限的分類 . . . 4.2.2 象限對象限的分類 5. 1. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. vii. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . .. . . . . . .. . . . . . . .. . . . . . .. . . . . . . .. . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . ..

(12) 5.2. 5.1.2 特徵分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 未來發展方向 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 參考文獻. 19 20 23. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. viii. i Un. v.

(13) 圖目錄 3.1. 不同參數範圍的格子點搜尋結果 . . . . . . . . . . . . . . . . . . . . .. 13. 4.1 4.2 4.3. 對應ANEW有紀錄的43種情緒於 Affective Space . . . . . . . . . . . . 四象限的分類準確度 . . . . . . . . . . . . . . . . . . . . . . . . . . . 象限對象限的分類準確度 . . . . . . . . . . . . . . . . . . . . . . . . .. 15 17 18. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. ix. i Un. v.

(14) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. x. i Un. v.

(15) 表目錄 3.1 3.2 3.3. 實驗參數前置實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . 歌詞的基本前處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MER31k 計數資料 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10 10 12. 4.1 4.2 4.3 4.4. 資料集相關計數 . . . . . . . . . 第一、二象限實驗結果 . . . . . 不同激動、平靜程度的實驗結果 第三、四象限實驗結果 . . . . .. 16 17 18 18. 立. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 政 治 大. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. xi. i Un. v. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . ..

(16) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. xii. i Un. v.

(17) 第一章 導論 Martin Clayton 在《The Oxford handbook of music psychology》[8] 一書中提到. 政 治 大 扮演著極重要的腳色。在數位的時代,便於攜帶的播放裝置與便於存取的數位音 立. 音樂有三個特性:易於與別人交流的、表情豐富的、具有強健的社交功能,並且 普遍相信這些特性使音樂可以表達情感與調整心情 [7] ,可見音樂在人類生活中 樂資料庫的發展使人們很容易取得與播放大量的音樂。以 iTunes 音樂商店為例,. ‧ 國. 學. 在 2014 年 4 月時已經存有 3700 萬首歌曲;而在亞洲相當流行,以中文歌曲為主 的 KKBOX 音樂服務在 2014 年 8 月也已經提供了超過 2000 萬首歌曲。然而如何. ‧. 從如此大量的資料庫中找到適合與別人交流、表達自己個人特色的歌曲,是使用 者與學者都相當關注的問題。. sit. y. Nat. 在過去的研究中,曾經針對使用者用以搜尋或瀏覽音樂的資訊做過調 查 [18] 。在該研究中,歌手與歌曲標題不意外的是最多人使用的資訊。但是在有. io. er. 近 4000 萬首歌曲任人挑選的今天,如果仍然要知道歌手或標題才能找到歌曲,所 接觸到的歌曲就必定會被限制在一定的數量以下,也就錯失了許多與別人交流的. al. n. iv n C 機會。同時,將熱門程度作為搜尋或瀏覽的資訊的使用者不到總受測人數的三分 hengchi U 之一,代表大部分的使用者並不會主動去找尋一首很紅的歌曲,也是和一般人的 設想有所落差。因此,我們將研究的方向轉回專注於音樂的表情豐富與表達情感 的一面。 在一項情緒分類的研究中 [28] ,從 Last.fm1 取得的社群標籤在透過 PLSA 模 型 [9] 分析後,可以將歌曲進行情緒上的分類,並且在驗證中可以看到不錯的 結果。然而因為社群標籤有賴於人力或使用者自主進行標註,所以即使是取 自 Last.fm 如此龐大的音樂社群,對於相對冷門或標籤較少的音樂依然未能有同 等優秀的表現。捨棄人工輸入的資訊,剩下的研究便分別著重於音訊與歌詞文. 本這二個訊息。在一項訊號處理的研究中 [11] ,有將音訊透過 Music Analysis, Retrieval and Synthesis for Audio Signals(Marsyas) 工具2 處理後的資訊與歌詞文本中 的詞頻資訊進行比較:同樣進行情緒辨識,透過文字詞頻的成果在各情緒分類中 都比 Marsyas 提供的音訊資訊有用。雖然隨著研究與技術的發展,從音訊分析得 1 2. Last.fm: http://www.last.fm Marsyas [32]: http://marsyas.info. 1.

(18) 來的資訊已經可以同樣有效地進行分類 [35] ,但是研究中可以看到這類資訊在音 樂情緒辨識時,對於激動與平靜的音樂時有較佳的表現,但是對於正負面的情緒 分類結果相對較差。從歌詞文本的角度進行的研究並非沒有相關工作,但是許多 研究如 [33] 只是將以往用以分析文章的特徵項目移植到歌詞文本中的詞句分析, 並沒有針對文句作為歌詞的特性提出有效的特徵項目,所以結果也並沒有如預期 的理想。 從過去的研究可以看出對目前歌曲的研究多著重在音訊的處理,雖然有很好 的成效與突破,但是針對不同情緒的辨識仍然有其不足之處。而從歌詞文本分析 的研究卻未能從其作為歌詞的特殊之處著手,只是當成一般文字處理,亦難以期 待有所改善。因此,本研究將專注於萃取歌詞文字資訊可以取得和歌曲情緒相關 的資訊,使其在情緒分類提供顯著的幫助。針對這樣的目的,有二個問題是這個 研究要面對的:. 政 治 大. 1. 如何使用歌詞文本資訊取得有效的歌曲情緒辨識相關資訊?. 立. 2. 取得的歌詞文本資訊如何應用在情緒辨識模型上?. ‧ 國. 學. 除了繼承前述研究中所使用的常見文字資訊,我們期待一些只有歌詞文本才 有的文字特性可以做為特徵來供機器學習的方法進行辨識。像是同一段落的押. ‧. 韻、發音接近的字首或字尾、拉長單一母音發音的字詞、重複的段落結構等,都 是在歌詞文本中常見的特性;如何自動化取得這些資訊,以及怎樣將這些資訊量. y. Nat. 化以提供機器學習的方法進行辨識,都期待可以於本研究中進行探討。. sit. 這樣的研究結果如果對歌曲的情緒分類有顯著的幫助,可以預期在歌曲搜索. n. al. er. io. 或推薦上會有更開闊的發揮空間,而不再受限於特定類別的音樂。在廣大的數位 音樂資料庫中,可以更容易找到帶給使用者類似情緒的歌曲,在與朋友的交流與. Ch. i Un. v. 表達上容易更明確的表達自己的情緒;而不只是類似的情緒,取得在心理學上相. engchi. 對情緒的歌曲推薦給使用者也會是一個選擇,音樂可以調適心情、抒發情緒也就 不再是那麼無法言傳的功用;甚至最後進而連結到音樂治療的使用,也不會太出 乎意料。同樣的研究結果也可以推展到具有類似性質的文字,像是詩詞、劇本等 具有一般文字以外特性的文句,可以預期從其中可以萃取得相關的詩詞、台詞資 訊,並且可以用類似的方法進行辨識與分類。. 2.

(19) 第二章 文獻探討 在音樂情緒辨識的領域有許多研究,但是各個研究中的方向不同與不足,以 及在文字情緒分析領域中許多技術的提升與發展,促使本研究專注於歌詞文本,. 政 治 大. 預期結合文字情緒分析領域,從中取得可用於歌曲情緒辨識的資訊。. 立. 2.1 情 緒 分 類. ‧ 國. 學. 以往心理學在表達與評估「情緒」時會將所有情緒視為分別且獨立的,所以無從. ‧. 比較,更無法分類。直到 Russell 學者於 [26] 提出以激動(Arousal)程度與滿足. y. Nat. (Pleasure)程度二個面向來分析情緒,並於隔年提出 Circumplex model[27] —以 角度於激動、平靜程度(Arousal)與正、負面程度(Valence)二維建立之平面表. sit. 達各種情緒,多維度的情緒分類研究才開始逐漸發展,各種情緒評估、比較與分. er. io. 類的相關研究亦得以進行。. 時至今日, Circumplex model 的 Affective Space 仍然是情緒研究中非常重要的表 達與呈現方式,情緒字典《Affective norms for English words》更是以此為基礎所. n. al. Ch. engchi. i Un. v. 建立的;而Scherer等學者在探討情緒測量時,於 [29] 提出了給研究者評估情緒 用的圖表 Geneva Emotion Wheel ,雖然提供了20種不同的情緒欄位以供填寫,但 是亦將各情緒的關連與相似度透過 Affective Space 呈現,使得填寫與評估時更 加直覺、客觀,後續更有許多情緒相關的研究及情緒字典的基礎是建立於此評 估圖表,甚至在Renato等學者的研究 [14] 中,使用者對於在觀看奧運賽事同時 使用 Geneva Emotion Wheel 呈現 Twitter 評論的介面設計給予非常好的回應。相 較之下, Plutchik’s wheel of emotions[24] —作為另一個常見情緒分類模型,定義 了 8 種基本情緒,以及另外 8 種由上述情緒結合而成的的複合情緒,雖然也將其 視覺化做為評估用的圖表,但是由於缺乏可以建構 X 、 Y 軸的準則,所以比較多 為語言學相關研究所採用,而比較不適用於資料科學領域的研究。. 2.2. 音樂情緒辨識. 音樂對於人類情緒的影響是相當顯著的,也因此音樂本身帶有的情緒一直是許多 研究想釐清的訊息。 3.

(20) 2.2.1. 聲音訊號. 最 常 用 以 辨 識 的 特 徵 就 是 聲 音 訊 號 , 像 是 McKinney 等 學 者 [23] 、 Li 等 學 者 [19] 、 Mandel 等學者 [20] 、 Bergstra 等學者 [1] 都是將歌曲分段,再透過分 析波型、頻率、震幅的相關性,配合 MFC1 等訊號處理相關的技術,產生歌曲特 徵,進而使用不同的機器學習方法來進行分類。在這些研究中都取得了看起來十 分良好的表現,卻都沒有在同樣的情況下比較歌詞資訊,所以無法比對音訊在情 緒判斷上的優秀之處,是透過聲音訊號的音樂辨識相關研究中相對缺乏的部分。. 2.2.2. 後 設資 料( Metadata) ). 在 文 字 相 關 的 研 究 中 , Sarri 等 學 者 [28] 從 使 用 者 的 對 歌 曲 的 標 籤 (tag) 著 手 , 透 過 奇 異 值 分 解 (singular value decomposition) 、 機 率 潛 在 語 意 分 析. 政 治 大 型; Hu 等學者 [12] 也同樣透過 立 Last.fm 取得的標籤透過字典過濾後直接以詞袋模. (probabilistic latent semantic analysis)等數學方法對新的歌曲進行標籤的預測, 進而評估其情緒,最後提出了一個有利於情緒分類、用以代表歌曲情緒的模. ‧ 國. 學. 型(bag-of-words model)進行分類, Yang 等學者 [35] 則是透過 LiveJournal2 取得 標籤後進行機率潛在語意分析,都得到了優於以音訊或歌詞作為特徵的表現。但 是這些因為倚賴大量使用者輸入的標籤、類型等後設資料,在無法存取數量充足. ‧. 的社群標籤(social tags)的環境,或是因為新發行、知名度略低、目標視聽群眾 獨特(如非印歐語系國家)等原因以至於標籤沒有一定數量以上的歌曲,便無法. Nat. sit. n. al. er. io. 2.2.3 歌 詞 文本. y. 使用同樣的模型進行情緒分類,是此類研究的主要限制。. Ch. i Un. v. 歌曲作為音樂與文字組合而形成的表現形式,歌詞的文本則是以歌曲本身進行 音樂情緒辨識的另一個切入點。 Zaanen 等學者 [33] 使用了字數、詞數、字頻、. engchi. 字頻與逆向文件頻率乘積(term frequency–inverse document frequency ,以下簡 稱 TF-IDF)等特徵分析歌詞以進行情緒分類,雖然這些單純的文字資訊無法直接 作為有效的辨識特徵,但是確立了 TF-IDF 優於其餘的基本計數的表現。 Yang 等 學者 [34]則是透過機率潛在語意分析對歌詞文本建立潛在向量(latent vector), 配合一元語法與二元語法的 TF-IDF 作為文字的特徵,雖然分類的準確度不如音 訊的特徵,但是在不同的特徵結合方法中,都顯著的提升了分類的準確度,並 且在後續的研究 [35] 中展示了歌詞在正、負面程度分類優於音訊的結果。 Hu 等 學者 [12] 則是從詞性標記(part-of-speech tagging)與功能詞(function words)出 發,借重功能詞在文字風格分析上的用處,結合以 TF-IDF 為權重的詞袋模型, 在特定的音樂情緒就有得到優於音訊的分類表現。後續的研究 [10] 中,除了以文 字風格為基礎增加了狀聲詞、標點符號、單字與句子重複比例等特徵,更引進心 理學的字典 General Inquirer 與語言學的字典 WordNet-Affect 中作為字詞過濾及標 1 2. mel-frequency cepstrum,一種聲音頻譜的表示方式 Livejournal.com,部落格平台. 4.

(21) 註的依據,綜合比較文字特徵的表現,並且在與音訊的比較實驗 [11] 中在各個種 類的音樂中普遍得到優於音訊特徵的分類表現。. 2.3 自 然 語言 處 理 中的 情 感 辨 識 對文章的分析,最基本就是從一些數字開始:字數、詞數、句數等。然而如果想 要更進一步了解文章的內容,傳統上會使用句法(syntactic)與語意(semantic) 分析。然而歌詞、詩詞等文字創作的撰寫上時常無視文法,詞性的混用也很 常見,使得句法的分析只適用於部分的文本,而有些歌詞甚至連剖析樹(Parse Tree)都無法建立。感情分析(或稱情緒分析)是一個很好的方法。 Ku 等學 者 [15] 對新聞和部落格進行意見探勘,發現在眾多分析的特徵值中,文章中帶有 作者主觀感受的情緒字提供的資訊是令人印象深刻的大量而且有幫助。 Martin 等. 政 治 大. 學者 [21] 也發現在「評論預測」這個研究領域中,對文字進行情緒解析可以取得 很有用的特徵。. 立. 目前最常見的作法是以詞典(lexicon)的方式呈現,每一個字詞對應到一個或多. ‧ 國. 學. 個的情緒分數。 Stone 等學者建立的《Harvard General Inquirer》[31] 是這類詞典 中的先驅,除了紀錄詞性,對 4206 個英文單字的語意進行正面或負面的分類,甚 至更進一步給予各個單字在心理學上使用的一些標註。 Hu 等學者 的研究[11]使用. ‧. 了本詞典,但是實驗結果並不如其他文字特徵有良好的準確度。 Esuli 等學者建立. Nat. 的《SentiWordNet》[6] 是一部以 WordNet 字典為基礎的情緒字詞典,至 2010 年. y. sit. er. io. 已建有近十二萬字義與其同義字的正面、負面與中立分數,有超過一千五百次的 引用,是資料量極高的情緒字參考資料。 Bradley 等學者建立的《Affective norms for English words》[2] 是情緒字研究中相當倚賴的參考資料,透過人工計分的方. al. n. iv n C hengchi U 這二維的分數,有著接近一千六百次的引用,為情緒字研究中相當倚重的參. 式記錄了近二千五百字的激動、平靜程度(Arousal)與正、負面程度(Valence). 考資料。 Hu 等學者甚至於 [13] 將本詞典翻譯成中文,再結合現有的同義字典. 對中文歌詞進行音樂情緒的辨識,亦發揮了一定的效果。《OlympLex》[30] 是 由 Sintsova 等學者透過 Twitter 蒐集奧運期間的 tweet ,加以人工整理所建立的字 典。與前述幾個字典不同的是, OlympLex 對於字詞不是只給個分數,而是對應 到有 20 種情緒評估圖表的 Geneva Emotion Wheel ,對於單一字詞的情緒表達也 就更加詳細與精確。 Renato 等學者曾使用這個字典於 [14] 研究輔助次屆奧運相 關 tweets 的情緒辨識,得到使用者相當的肯定。. 2.4. 歌詞的文字特性. 歌詞雖然是由文字所構成,分類上也屬於一種文學體裁,但是由於其與歌曲 的配合,使其包含的字彙與用字方式都與一般的文本有所不同,所以直接使用 傳統的分析工具來對歌詞文本進行分析時,未必有很好的果效。 在 Ellis 等學 者 [25] 的研究中指出,文字的特殊用法在歌詞文本中非常泛用,為使得轉換 5.

(22) 為 bag-of-words 格式時不會有重複的字彙,需要針對以下的狀況進行前處理: • 透過連字符號連結二字,如 half-hearted 。 • 縮短形式,如 you’ll’ve 或 gonna 。 • 透過撇號去除特定字母或音節,如 ’til 、 ne’er 或 tryin’ 。 • 縮寫,如 mr. 。 • 英式英文與美式英文拼字差異,如 colour 與 color 。 • 拼字錯誤,如 photo 寫為 foto 。 除此之外,由於歌詞文本必然與歌曲配搭,所以在記錄時隨使用者習慣亦會有所 差異。在筆者針對各大歌詞網站考察的過程中,也發現部分透過連字符號切斷單 一單字以符合歌曲節奏的記錄,以及透過破折號表示拉長音的記錄,都是採用使. 政 治 大 用者提供之歌詞文本時需額外注意並處理的部分。 Mayer 等學者在針對歌曲類型 立 的研究 [22] 則指出,隨著歌曲類型的不同,有以下四個特色是值得注意的:. ‧ 國. 學. • 押韻。同一段落的押韻又可細分為對句押韻(Couplet)3 、克萊里休押韻 (Clerihew)4 與回文押韻(Enclosing rhyme)5 。. ‧. • 無視字彙詞性(part-of-speech)的混合使用。. y. Nat. n. 2.5. al. er. io. • 單一字彙的長度。. sit. • 一句歌詞的字彙量。. i Un. Ch. v. 機 器學 習 在 分 類 問 題e上 之c應 i h用 ng. 隨著機器學習的發展,電腦逐漸可以透過統計模型與數學模型判斷並辨識一 些未事先提供規則的資料。所以在對大量的資料進行識別或分類時,人工分 類、甚至傳統透過建立規則(rule-based)的程式已無法於合理時間內得到結果 的當下,機器學習已經是相當關鍵,甚至是必要的方法。機器學習的各種方 法中,隨著目的不同,適用的方法也不同。考慮到本研究打算比較歌詞文本 與音訊的資訊提供之優異,以「核對並比較正確答案之準確度」為相對易於呈 現、表達及討論的方法,所以評估後選用有正確答案的監督式學習進行分類。 在考察同樣為準確度比較的研究後,由Cortes等學者於1995年提出的支持向量 機(Support Vector Machines)[5] 是相關研究中最常使用的監督式學習之一。支 持向量機透過建構一個與最近資料點間隔最大的高維平面(hyperplane)進行 分類,同時可以透過不同的函數將非線性資料對應到更高維度的空間,並且 3. 同一段落全部壓同一個韻 同一段落前半壓同一個韻,後半壓另一個韻 5 同一段落的頭尾壓同一個韻,中間段壓另一個韻 4. 6.

(23) 可以透過二種不同的實作延伸多元分類支持向量機。其強大的功能與泛用性使 造就了超過一萬八千次的引用,不論是前述中單純從音訊進行分類的 Li 等學 者 [19] 、 Mandel 等學者 [20] 、 Laurier 等學者[17] ,或著是文字與音訊同時比較 的 Hu 等學者 [10] 、 Yang 等學者[34] 都是使用這個機器學習方法實作大量的音樂 分類,在各個研究中都有相當優異的表現。在 Laurier 等學者[16] 的另一項情緒分 類研究中,同時實作了支持向量機、邏輯回歸(Logistic regression)與隨機森林 (Random Forests)三種學習方式,其中支持向量機的表現都優於另外二種學習方 式。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 7. i Un. v.

(24) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 8. i Un. v.

(25) 第三章 研究方法 在以訊號處理為主的實驗中,透過多種的取樣方式,從同樣的歌曲獲得不同 的特徵值,並進行比較,是一種廣泛使用的方法。相仿的,透過多樣的文字分析. 政 治 大. 方法,從同樣的歌詞獲得不同的特徵值,再將機器學習的結果進行準確度的比 較,是本實驗的進行方式。. 學. 3.1. ‧ 國. 立. Support Vector Machine. ‧. SVM 透過解出等式3.1的最佳化問題找出分類問題中的分界。其中l為已經標籤好 的訓練集個數,w為所求的分界超平面,ξi 為懲罰函數,xi 為特徵值,yi 為標籤的. n. al. er. io. 去的相關研究也都使用支持向量機作為機器學習方法。. sit. y. Nat. 分類,φ 為對應xi 至更高維空間的函數(又稱為核心函數),b為增加不同類間間 隔的位移。基於支持向量機在小樣本、非線性與高維模型分類問題中的優勢,過. i X 1 n minC h wT w + C i ξU i w,b,ξ 2e n g c hi=1. subject to. l. v. yi (wT φ(xi ) + b) ≥ 1 − ξi ,. (3.1). ξi ≥ 0.. 3.1.1. 實作. LIBSVM[4] 是由林智仁老師開發,實作支持向量機的工具。其簡單易用並且 強大,前述的 [10] 、 [35] 等研究都使用此工具進行分類,而本實驗也將使用此 工具。考慮到運算時間仍在合理範圍,本實驗亦使用了 LIBSVM 提供的功能對 特徵值縮放,以避免數值範圍過大或過小;核心函數選用了預設的 radial basis function ;各項實驗中除了進行交叉驗證外,也大量的針對不同的學習參數進行格 子點式搜尋,以避免特定的訓練與測試資料切割及參數設定不同所造成的誤差。 此外, LIBSVM 亦實作了一對一(one-against-one)的方法1 進行多元分類。所以 對k個分類建立k(k − 1)/2個二元分類器,以對任意2個分類投票,最後以票數較高者為其分 類。相同票數時, LIBSVM 以優先存入的分類為其分類。 1. 9.

(26) 實驗中除了過去研究中常見的二分類,也嘗試並記錄了對歌曲進行多元分類的成 效。. 3.1.2. 參數選用. 即便使用格子點式搜尋參數,仍然有測試範圍與交叉驗證的組數需要設定,為此 本研究取用了部分的資料集進行了前置的實驗以便決定上述參數。 cost 步進 22 22 22 22 21 21 22. cost 最大 215 215 211 211 211 211 249. 交叉驗證組數 5 3 5 3 5 3 3. 執行時間(秒) 32.55 21.53 24.06 17.83 42.55 31.55 341534.26. 政 治 大 表立 3.1: 實驗參數前置實驗結果. 準確度(%) 30.211 30.211 30.1857 30.211 30.2453 30.1857 30.1857. 學. ‧ 國. cost 最小 2−5 2−5 2−5 2−5 2−5 2−5 2−5. 其中,最後一組實驗也調整參數 γ 的範圍為 2−45 ∼ 225 ,結果如圖3.1所示, 雖然有找到在擴大範圍中的最佳 cost 與 γ ,然而表現卻甚至略遜於使用預設參. ‧. 數範圍的結果。 根據前置實驗的結果,將 cost 範圍設為 2−5 ∼ 211 、 γ 範圍設 為 2−15 ∼ 23 ,所得到的最佳參數應已具有充足的代表性;而步進與交叉驗證組數. sit. n. al. er. io 3.2 特 徵. y. Nat. 則因為影響不大,所以選用了時間最快的 2 步進與分割 3 組的交叉驗證,作為接 下來實驗的參數。. Ch. engchi. i Un. v. 作為提供給支持向量機的特徵值,本研究將歌詞部份分為「歌詞內文單字」與 「歌詞部份單字」二個方面。. 3.2.1 全 文單 字 歌詞在創作上的習慣用法是造成把歌詞直接作為特徵值提供給 LIBSVM 時常造成 干擾現象的原因,因此針對歌詞單字中的符號進行了表3.2的前處理,使同一字 詞的計數可以更加精確。 文字分析中,通常會將停止詞(stopwords)去除,以減 符號 連字符號 縮寫點 撇號. 處理方式 分為二個單字 對照字典還原 對照字典還原. 範例 three-year → three year Mr. → Mister lovin’ → loving. 表 3.2: 歌詞的基本前處理 少 bag-of-words 格式的字彙量,並省去大量無法用於判別的字彙。然而考慮到歌 10.

(27) 詞配搭歌曲的特殊性,在部分考察的歌詞文本中發現有為了節奏而填補的不必要 字詞,進而猜測停止詞的數量也會是歌詞的情緒表達中重要的一個評估方向,所 以本實驗中特別保留了停止詞。經過上述處理後,構成所有歌詞的 50876 個字彙 於各歌詞的詞頻與逆向文件頻率(TF-IDF)就作為歌詞本身最基本的特徵值。. 3.2.2. 文 本 SUBTLEXus. Brysbaert 等學者 [3] 從共計五億一千萬字的美國電影與電視影集字幕文本記錄 了超過 75000 個單字的整體詞頻、整體文件頻率、小寫頻率、小寫文件頻率, 並整理成清單《SUBTLEXus》。由於其資料來源的特殊、龐大資料量以及較其 餘類似文本詳細的記錄,很常用於語言學的相關研究,後續也擴編了各個字詞 的詞性,甚至有學者透過相同的方法建立荷蘭文的《SUBTLEXnl》與中文字的 《SUBTLEXch》。 考慮到歌詞的總字數並不算多,整體歌詞的逆向文件頻率未. 政 治 大. 必能正確反應該字詞的權重,所以在這裡便額外使用了《SUBTLEXus》提供的文 件頻率作為輔助,預期這份同樣屬於休閒娛樂領域的文本更可以反應這些單字在. 立. 各首歌曲中的獨特性與權重。本特徵計算了對應到既有歌詞文本的 47368 個單字. ‧ 國. 學. 的詞頻與逆向文件頻率,透過等式3.2計算新的 TF-IDF 作為文字的權重SU Bww, 其中i為原始歌詞文本中的字彙,d為各首歌曲,原本對應整份歌詞文本的逆向文 件頻率(idfi )則改為對應《SUBTLEXus》所提供的逆向文件頻率(subidfi )。. ‧. (3.2). er. io. sit. y. Nat. 3.2.3 情 感 單字. SU Bwwi,d = tfi,d ∗ subidfi. 情緒字的特徵目前都是透過既有的詞典進行情緒分數的累計,包括《ANEW》的. n. al. i Un. v. 激動、平靜與正、負面二個分數、《SentiWordNet》的正面、負面、中性三個分. Ch. engchi. 數與《OlympLex》所記錄關於「愛好、趣味、自豪、喜樂、滿足、知足、喜愛、 欽佩、慰藉、同情、悲傷、罪咎、懊悔、羞恥、失望、恐懼、噁心、輕視、厭 惡、憤怒」共20個分數。其中《SentiWordNet》的同義字眾多,單一單字對應到 的字義與分數常不只一組,故考慮到本實驗著重於歌曲的情緒表達,所以特別挑 選情緒分數較大的字義作為代表,此方法在前置實驗中也得到比較優秀的結果。. 3.3. 資 料 集 MER31k. 本實驗中使用的資料集來源為 Yang 等學者建立並於 [35] 使用的 MER31k 。本資 料集記有 31000 餘首歌曲的歌手、歌名,並透過 last.fm2 上使用者提供的標籤, 對應到 allmusic3 分類的 190 種情緒(詳細資料可參考表3.3。此外,該資料集建 立時同時透過 LyricWiki API4 蒐集歌詞,並且有將透過7digital API5 合法取得的 2. 網路電台與音樂社群網站,http://last.fm 線上音樂導覽網站,http://allmusic.com 4 由wikia製作,便於存取LyricWiki的API,現因版權問題已停止散播 5 7digital提供存取自家音樂庫的API,http://developer.7digital.com/ 3. 11.

(28) 音訊片段, Yang 等學者亦對每首歌曲的片段進行訊號處理,進而整理出每首 歌曲的 177 維音訊特徵。雖然資料筆數不如常見於相關研究的 The Million Song Dataset6 豐富,但是同時具備歌詞與音訊的 MER31k 可說是相當全備的一份資料 集。 歌曲音訊數 31443. 歌曲音訊維度 177. 歌曲歌詞數 32719. 歌詞文字總數 5538443. 歌詞不重複文字數 50876. 表 3.3: MER31k 計數資料. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 6. Ch. engchi. i Un. v. 以bag-of-words的格式記錄了23萬首歌詞的資料集,http://labrosa.ee.columbia.edu/millionsong/musixmatch. 12.

(29) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 3.1: 不同參數範圍的格子點搜尋結果. 13.

(30) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 14. i Un. v.

(31) 第四章 實驗設計與結果分析 4.1. 實驗設定. 政 治 大 是遠比二分類來的巨大。同時,考慮到實驗規模與本實驗欲驗證之項目,本實驗 立 將分類減少為4類,以 Affective Space 的四個象限作為分類依據。其中第一象限代. 在機器學習的分類問題中,多分類的成效一向遠低於二分類,並且改善的困難也. ‧ 國. 學. 表激動且正面,第二象限代表激動且負面,第三象限代表平靜且負面,第四象限 代表平靜且正面,如同圖4.1所示。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 4.1: 對應ANEW有紀錄的43種情緒於 Affective Space. 4.1.1. 資料集. 本實驗將 MER31k 的 190 種情緒分類透過以下二種方式對應到 Affective Space 的 四個象限:將《ANEW》所記錄的激動、平靜程度(Arousal)與正、負面程度 15.

(32) (Valence)直接對應,以其零到十分的中間值—五分作為 Affective Space 的 X 軸 與 Y 軸,以對應字典有記錄的44種情緒(包含一種同義字對應);其次,以人工 的方式透過《SentiWordNet》所記錄的字義與正、負面分數,以其零到一分的中 間值—零點五分作為 Affective Space 的Y軸,並根據字義評估其激動、平靜程度給 予一、零或負一的標記,並以零作為 Affective Space 的 X 軸,以對應字典有紀錄 的 117 種情緒。其餘 29 情緒無法根據字義評估其激動、平靜程度,或是並未記錄 於以上二部字典,故未於本實驗中進行分類。此外,由於對應到各象限的情緒總 數,以及各情緒的歌曲數都有所不同,所以除了過濾沒有歌詞或是沒有音訊特徵 的歌曲,亦額外於各象限隨機抽取 5000 首歌曲以作為本實驗的資料集,以避免不 等量的訓練資料集造成機器學習的成效下降,如表4.1所示。. 立. 包含歌曲總數 8349 7370 5054 7092 4844. 最終取用歌曲總數 5000 5000 5000 5000 0. 政 治 大. 學. 表 4.1: 資料集相關計數. ‧. 4.1.2. 包含情緒總數 46 46 28 41 29+. ‧ 國. 分類 Q1 Q2 Q3 Q4 excluded. 評估標準. y. Nat. sit. 各個實驗皆以 Yang 等學者的音訊特徵(以下簡稱 MIR )作為基礎,比較了. er. io. 使用全部字詞的 bag-of-words(以下簡稱 BOW ) 、使用SUBTLEXus 的 bag-ofwords(以下簡稱 SUB ) 與情緒字典的分數(以下簡稱 Senti )作為特徵值的準 確度。將不同的特徵值分別提供給 LIBSVM 進行學習,並以分為三組交叉驗證後. n. al. Ch. engchi. i Un. v. 的平均精確度作為評估標準,用以比較不同特徵對於該情緒分類的有效程度。. 4.2 實 驗 結 果 與 分 析 4.2.1 四 象限 的分 類 如同實驗設定時所敘述,實驗中四分類的表現十分低落,其準確度表示多分類訓 練得到的模型並沒有辦法有效的進行情緒分類。然而在相互比較時仍然可以觀察 到,相較於單純使用音訊特徵, BOW 的特徵與 Senti 的特徵對情緒分類確實有幫 助,如圖4.2所示,符合一開始的推論與預期。. 4.2.2 象 限對 象 限的 分類 從二分類的實驗結果則可以看出更多值得探討的部分。從實驗數據表4.2可以看 到,在較為激動的歌曲中,文字特徵對於正面與負面的分類有很大的幫助,無論 是 BOW 、 SUB 或是 Senti 的準確度都較單純音訊特徵的準確度高;文字特徵的 16.

(33) 圖 4.2: 四象限的分類準確度(單位:%). 政 治 大 的差異,準確度的領先可以說是非常微小, Senti 透過 25 維反映一首歌曲的情緒 立. 綜合使用與比較則可以看到 BOW 在此實驗中的準確度最高,但是相較於維度上 資訊相當於完整記錄歌詞的資訊量,可以觀察出在較為激動的歌曲中,字詞的選. ‧ 國. 學. 用是相當直接,並且正負面是強烈的。 在激動正面與平靜負面分類實驗結果表4.3觀察到,文字特徵仍有一定幅度的提. n. Ch. y. sit. i Un. 表 4.2: 第一、二象限實驗結果. engchi. 精準度(%) 51.8351 58.4997 58.4243 57.6327 58.2646. er. io. al. 特徵維度 177 177+50876 177+41492 177+25 177+41492+25. ‧. 特徵 MIR only MIR+BOW MIR+SUB MIR+Senti MIR+SUB+Senti. Nat. 分類 Q1/Q2 Q1/Q2 Q1/Q2 Q1/Q2 Q1/Q2. v. 升,但是其實可以看出單純音訊特徵的準確度就較其餘三組實驗高。從這裡可以 看出音訊特徵確實對激動與平靜的分類有很好的反應,而加上較能準確的表達歌 曲正負面的文字特徵則是對準確度有更多的提升,都與先前學者研究中的結果與 預測相符。文字特徵的綜合使用與比較則是小有優劣,對於 SUB 特徵的準確度提 升,最容易理解的,就是 SUB 較 BOW 減少的近 10000 維特徵含有相當程度的雜 訊,造成 LIBSVM 的誤判,故去除後準確度就有所提升。 在激動負面與平靜正面的分類實驗中,雖然單純音訊特徵並沒有很好的表現,但 是在文字特徵也是觀察到類似的現象,也是本實驗中準確度提升最多的一組分 類。 然而比較出乎意料的,在比較平靜的歌曲中,歌詞特徵對於正面與負面的分類就 沒有那麼顯著的幫助,甚至單純歌詞的特徵對訓練的模型是雜訊般的存在,降低 了既有的準確度(如表4.4所示)。即使改使用 SUB 取代 BOW ,雖然準確度有所 提高,但是仍然無法避免負面的效果。從圖4.3可以看到 MIR 的準確度是不尋常 的高,而加入 Senti 後與 BOW 的差距也是所有實驗中最大的,猜測在訓練階段就 17.

(34) 分類 Q1/Q3 Q1/Q3 Q1/Q3 Q1/Q3 Q1/Q3 Q2/Q4 Q2/Q4 Q2/Q4 Q2/Q4 Q2/Q4. 特徵 MIR only MIR+BOW MIR+SUB MIR+Senti MIR+SUB+Senti MIR only MIR+BOW MIR+SUB MIR+Senti MIR+SUB+Senti. 特徵維度 177 177+50876 177+41492 177+25 177+41492+25 177 177+50876 177+41492 177+25 177+41492+25. 精準度(%) 59.8594 62.03 64.279 61.9924 63.8029 52.8748 63.3392 63.362 63.5344 65.1744. 表 4.3: 不同激動、平靜程度的實驗結果 特徵 MIR only MIR+BOW MIR+SUB MIR+Senti MIR+SUB+Senti. 立. 特徵維度 177 177+50876 177+41492 177+25 177+41492+25. 政 治 大. 精準度(%) 62.4423 58.6463 59.8803 62.2557 62.3543. 表 4.4: 第三、四象限實驗結果. 學. ‧ 國. 分類 Q3/Q4 Q3/Q4 Q3/Q4 Q3/Q4 Q3/Q4. ‧. 已經未採用 Senti 的特徵值訓練模型。在最後綜合的特徵實驗中,雖然單純歌詞的. n. al. er. io. sit. y. Nat. 負面影響已經幾乎消去,但是準確度仍然沒有提升,是與實驗設計時的推測有較 大落差的一組結果。. Ch. engchi. i Un. v. 圖 4.3: 象 限 對 象 限 的 分 類 準 確 度 , 由 左 而 右 使 用 的 特 徵 為MIR、MIR+BOW、MIR+SUB、MIR+Senti及MIR+SUB+Senti(單位:%). 18.

(35) 第五章 結論 5.1 5.1.1. 結果討論 與過去研究之比較. 立. 政 治 大. 綜合比較二分類的準確度,在使用本實驗提出的方法進行特徵採計都有顯著的提. ‧ 國. 學. 升,不論是採用全文的 BOW 、部分字詞的 SUB 、針對情緒字的 Senti ,都在不 同的分類情況有其表現良好之處;而四分類的準確度雖然偏低,暫時無法考慮 更進一步的實際應用,但是也可以從比較中證明歌詞的文本資訊對於歌曲的情. ‧. 緒分類確實是有幫助。這樣的研究結果也與 Yang 等學者 [35] 的實驗推論是吻合 的:歌詞文本的特徵在正、負面的情緒分類上比較好的效果。本實驗與 Hu 等學. Nat. io. sit. y. 者的 [11] 同樣證實了歌詞文本的輔助是優於單純音訊特徵的結果;然而有所不同 的是,該研究的十八個情緒分類中,情緒字的特徵表現都沒有單純歌詞文本文字. er. 的表現優秀,但是本實驗的情緒字特徵卻與 bag-of-words 的表現是並駕齊驅的,. al. n. iv n C 此可以推斷在本研究額外導入,分數上較為多元的《ANEW》與《OlympLex》等 hengchi U 情緒字典對於歌曲情緒分類的幫助,是不同於只有正、負面情緒分數字典的。 甚至考慮到特徵維度上的差異,情緒字特徵可以說是優於單純歌詞文本文字。由. 《SUBTLEXus》的表現除了證實 Ellis 等學者 [25] 所提及,在總文件數偏少的資 料集有一定幫助之外,於娛樂相關的文本去蕪存菁,篩選出實際具有代表性的字 詞,是有顯著的幫助與功效的。. 5.1.2 特 徵分 析 本研究從情緒字取得歌詞文本相關資訊的結果觀察,認為情緒字特徵於情緒辨識 模型仍然佔有相當重要的一部分,其使用方法與參考字典的選用則是非常值得討 論與多方研究的項目。此外,《SUBTLEXus》的使用與成果可以看出,同樣更加 口語、不合文法的字幕文本,在具有類似特性的歌詞文本有相當不錯的表現,也 提供了上述不同方向的幫助。雖然歌詞文本並不如後設資料提供如此高參考價值 的資訊,然而作為後設資料的參考、建議,以及缺乏後設資料時的預設輸入,歌 詞文本所能提供的資訊是相當值得期待的。本研究在平靜的歌曲一直未能如預期 19.

(36) 的有所提升,在更多了解平靜歌曲的普遍特徵後,發現平靜的歌詞有較多否定詞 的運用,甚至有雙重否定的用法,而非單純的使用於字典中情緒平靜的單字,導 致單一字詞的出現未必能代表該首歌,甚至有可能造成相反的判斷;其次,平靜 的歌詞會更多的使用敘事的方式表達情緒,出現的字詞也就多半呈現中性或不帶 情緒,與該歌曲表達的情緒幾乎沒有關聯。以歌手 Enya 的《Only Time》1 為例, 歌詞以敘事並提問的方式描述「時光(time)」,並且有許多正面與負面的字詞 結合的使用,像是「哭泣的心(heart cries)」、「成謊言的愛(love lies)」,導 致歌詞的情緒字特徵幾乎沒有幫助,而單純歌詞的特徵更是呈現衰退的果效,即 使透過《SUBTLEXus》也無法取得更有幫助的資訊。. 5.2. 未來發展方向. 政 治 大. 基於本研究用於四分類的機器學習方法於多分類問題的成效不佳,以至於歌曲進 行四分類時準確度相當低落,僅能從不同特徵的實驗中相互比較些微的差距,無. 立. ‧ 國. 學. 法用於比較或驗證實際的優劣。未來在進行四分類或是更多分類的實驗設計時, 使用不同的機器學習方法以避免 SVM 於多分類上的不足,推測可以在準確度的 變化觀察到更多細節。. 本研究使用的參考資料與字典在平靜歌曲的正負面分類上未能帶來顯著的幫助,. ‧. 主要受到此分類的歌詞寫作特色影響。在參考歌詞文本後,本研究認為否定詞的 分析與處理將是進行類似分類時有所突破的關鍵,在適當處理後將可以避免大部. Nat. sit. y. 分的誤判狀況。而中性不帶情緒的敘述則需要導入語意相關的研究與工具,同時 考慮到歌詞比較貼近口語而不合文法的寫作,將會是此分類值得更加深入探討的. io. er. 問題。舉例來說,雖然在過去的情緒相關研究中,會以二元語法(bigram)建立 的 bag-of-words 模型來避免否定詞的誤判,然而在歌詞文本中否定詞與被否定的. al. n. iv n C hengchi U 字詞未必會接連出現,以至於直接應用於歌詞文本的相關研究時,可以預期效果 將會相當有限。. 本實驗導入《SUBTLEXus》的收穫是肯定的。因此其餘相似領域的文本統計 對於研究目標的特徵萃取是值得嘗試的一個方向,甚至如同《SUBTLEXus》 建立一個由歌詞文本統計而成的文本統計,也許對娛樂相關領域的文本分析 都有所幫助。而相關領域的字典仍然是進行特定領域情緒分類的重要材料, 考慮到《OlympLex》通用版本的開發,也許將有助於其餘歌詞文本的分析; 《SentiWordNet》的字義選擇也仍然是使用這部字典的挑戰,在無法自動選出確 切字義的情況下,需要有方法可以整理出常用於歌詞的字;更多相似領域的情緒 字典的採用與開發也是快速提升情緒字分析的方向之一。及至透過現有資料與實 驗建立以歌詞為主的情緒字典,可以預期將會對歌曲情緒分類的相關研究有極大 程度的幫助與突破。 而延續先前的研究,除了情緒字之外,歌詞文本中其餘的文字特色之萃取與量 化,以及最終如何於不同的情緒分析選用適合的特徵值進行分類,使得進行相關 1. 演唱:Enya,作詞:Roma Ryan,作曲:Eithne Ni Bhraonain,於2000年發表。. 20.

(37) 應用時有最高的效率與準確度,將是參考資料眾多的當下值得探討的另一個方 向。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 21. i Un. v.

(38) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 22. i Un. v.

(39) 參考文獻 [1] J. Bergstra, N. Casagrande, D. Erhan, D. Eck, and B. K´egl. Aggregate features and adaboost for music classification. Machine Learning, 65(2-3):473–484, 2006. [2] M. M. Bradley and P. J. Lang. Affective norms for english words (anew): Instruction manual and affective ratings. Technical report, Technical Report C-1, The Center. 政 治 大. for Research in Psychophysiology, University of Florida, 1999.. 立. [3] M. Brysbaert and B. New. Moving beyond kuˇcera and francis: A critical evaluation. ‧ 國. 學. of current word frequency norms and the introduction of a new and improved word frequency measure for american english. Behavior Research Methods, 41(4):977– 990, 2009.. ‧. sit. y. Nat. [4] C.-C. Chang and C.-J. Lin. LIBSVM: A library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2:27:1–27:27, 2011. Software. n. al. er. io. available at http://www.csie.ntu.edu.tw/˜cjlin/libsvm.. i Un. v. [5] C. Cortes and V. Vapnik. Support-vector networks. Machine Learning, 20(3):273– 297, 1995.. Ch. engchi. [6] A. Esuli and F. Sebastiani. Sentiwordnet: A publicly available lexical resource for opinion mining. In Proceedings of the 5th Conference on Language Resources and Evaluation, pages 417–422, 2006. [7] Y. Feng, Y. Zhuang, and Y. Pan. Popular music retrieval by detecting mood. In Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval, pages 375–376. ACM, 2003. [8] S. Hallam, I. Cross, and M. Thaut. Oxford handbook of music psychology. Oxford University Press, 2008. [9] T. Hofmann. Probabilistic latent semantic indexing. In Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 50–57. ACM, 1999. 23.

(40) [10] X. Hu and J. S. Downie. Improving mood classification in music digital libraries by combining lyrics and audio. In Proceedings of the 10th Annual Joint Conference on Digital Libraries, pages 159–168. ACM, 2010. [11] X. Hu and J. S. Downie. When lyrics outperform audio for music mood classification: a feature analysis. In Proceedings of International Society of Music Information Retrieval Conference, pages 1–6, 2010. [12] X. Hu, J. S. Downie, and A. F. Ehmann. Lyric text mining in music mood classification. American Music, 183(5,049):2–209, 2009. [13] Y. Hu, X. Chen, and D. Yang. Lyric-based song emotion detection with affective lexicon and fuzzy clustering method. In Proceedings of International Society of Music Information Retrieval Conference, pages 123–128, 2009.. 政 治 大. [14] R. Kempter, V. Sintsova, C. Musat, and P. Pu. Emotionwatch: Visualizing fine-. 立. grained emotions in event-related tweets. In Proceedings of the 8th International. ‧ 國. 學. AAAI Conference on Weblogs and Social Media, 2014.. ‧. [15] L.-W. Ku, Y.-T. Liang, and H.-H. Chen. Opinion extraction, summarization and tracking in news and blog corpora. In Proceedings of AAAI spring symposium: Computational approaches to analyzing weblogs, pages 100–107, 2006.. y. Nat. sit. al. er. io. [16] C. Laurier, J. Grivolla, and P. Herrera. Multimodal music mood classification using audio and lyrics. In Proceedings of the 7th International Conference on Machine. n. Learning and Applications, pages 688–693. IEEE, 2008. [17] C. Laurier and P. Herrera. machine.. iv n C U Audio using support vector h emusic n g mood c h i classification. [18] J. H. Lee and J. S. Downie. Survey of music information needs, uses, and seeking behaviours: Preliminary findings. In Proceedings of the 5th International Conference on Music Information Retrieval, pages 441–446, 2004. [19] T. Li and M. Ogihara. Content-based music similarity search and emotion detection. In Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 5, pages V–705. IEEE, 2004. [20] M. I. Mandel and D. P. Ellis. Song-level features and support vector machines for music classification. In Proceedings of International Conference on Music Information Retrieval, pages 594–599, 2005. [21] L. Martin and P. Pu. Prediction of helpful reviews using emotions extraction. In Proceedings of the 28th AAAI Conference on Artificial Intelligence, 2014. 24.

(41) [22] R. Mayer, R. Neumayer, and A. Rauber. Rhyme and style features for musical genre classification by song lyrics. 2008. [23] M. F. Mckinney and J. Breebaart. Features for audio and music classification. In Proceedings of International Conference on Music Information Retrieval, 2003. [24] R. Plutchik. The nature of emotions. American Scientist, 89:344, 2001. [25] J. F. Y. W. Robert J Ellis, Zhe Xing. Quantifying lexical novelty in song lyrics. In Proceedings of the 16th International Society for Music Information Retrieval Conference, 2015. [26] J. A. Russell. Affective space is bipolar. Journal of Personality and Social Psychology, 37(3):345–356, 1979.. 政 治 大. [27] J. A. Russell. A circumplex model of affect. Journal of personality and social. 立. psychology, 39(6):1161–1178, 1980.. ‧ 國. 學. [28] P. Saari and T. Eerola. Semantic computing of moods based on tags in social media of music. IEEE Transactions on Knowledge and Data Engineering, 26(10):2548–. ‧. 2560, 2014.. y. Nat. [29] K. R. Scherer. What are emotions? and how can they be measured? Social Science. io. sit. Information, 44(4):695–729, 2005.. n. al. er. [30] V. Sintsova, C.-C. Musat, and P. Pu. Fine-grained emotion recognition in olympic. i Un. v. tweets based on human computation. In Proceedings of the 4th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis, number EPFL-CONF-197185, 2013.. Ch. engchi. [31] P. J. Stone, D. C. Dunphy, and M. S. Smith. The general inquirer: A computer approach to content analysis. 1966. [32] G. Tzanetakis. Music analysis, retrieval and synthesis of audio signals marsyas. In Proceedings of the 17th ACM International Conference on Multimedia, pages 931– 932. ACM, 2009. [33] M. Van Zaanen and P. Kanters. Automatic mood classification using tf*idf based on lyrics. In Proceedings of the 11th International Society of Music Information Retrieval Conference, pages 75–80, 2010. [34] Y.-H. Yang, Y.-C. Lin, H.-T. Cheng, I.-B. Liao, Y.-C. Ho, and H. H. Chen. Toward multi-modal music emotion classification. In Proceedings of Pacific-Rim Conference on Multimedia, pages 70–79. Springer, 2008. 25.

(42) [35] Y.-H. Yang and J.-Y. Liu. Quantitative study of music listening behavior in a social and affective context. IEEE Transactions on Multimedia, 15(6):1304–1315, 2013.. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 26. i Un. v.

(43)

參考文獻

相關文件

A dual coordinate descent method for large-scale linear SVM. In Proceedings of the Twenty Fifth International Conference on Machine Learning

Hofmann, “Collaborative filtering via Gaussian probabilistic latent semantic analysis”, Proceedings of the 26th Annual International ACM SIGIR Conference on Research and

Mehrotra, “Content-based image retrieval with relevance feedback in MARS,” In Proceedings of IEEE International Conference on Image Processing ’97. Chakrabarti, “Query

in Proceedings of the 20th International Conference on Very Large Data

Lange, “An Object-Oriented Design Method for Hypermedia Information Systems”, Proceedings of the Twenty-seventh annual Hawaii International Conference on System Sciences, 1994,

Muraoka, “A Real-time Beat Tracking System for Audio Signals,” in Proceedings of International Computer Music Conference, pp. Goto, “A Predominant-F0 Estimation Method for

[16] Goto, M., Muraoka, Y., “A real-time beat tracking system for audio signals,” In Proceedings of the International Computer Music Conference, Computer Music.. and Muraoka, Y.,

(英文) In this research, we will propose an automatic music genre classification approach based on long-term modulation spectral analysis on the static and dynamic information of