小結 - 領域知識與相關研究 - 以字詞共現網絡探勘情歌歌詞中的情感隱喻

第二章領域知識與相關研究

2.5 小結

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

「實體隱喻」(Ontological Metaphor)和研究者自訂，結合上述兩者的「合成隱喻」

(Portmanteau Metaphor)，進而幫助我們全面地了解中文流行歌詞中，在愛情此一抽象概念主題上的綜合認知過程。

2.5 小結

本章綜述了情感運算的發展和困境、概念隱喻理論和隱喻的應用研究方法，以及自然語言處理、字詞共現網絡等技術的相關應用，和歌詞的情感經驗相關研究，以這些過去相關的研究和技術發展，作為本研究以字詞共現網絡來探勘歌詞中情感隱喻的基礎；

下一章節將從研究資料的處理方法和分析技術做一詳盡的流程說明。

第三章

歌詞中的情感隱喻與字詞共現網絡

根據前幾個章節的討論，本研究將搜集大量的西洋經典情歌歌詞，來進行歌詞中情感概念隱喻的分析；以下各小節將分別說明本研究整體的分析流程架構、歌詞資料的來源和編輯處理，以及兩種研究方法的操作步驟。

3.1 研究流程架構

根據前一章節文獻探討指出，在相似文本中共同出現的字詞帶有相近的含意，因而能透過字詞的共現計算，再現文本中的語意；因此，本研究嘗試透過字詞共現網絡來建立歌詞文本中的字彙概念關聯，來探討以字詞共現網絡作為隱喻探勘工具的可能性，整體研究的流程架構如圖 3.1；在歌詞搜集、編輯過後，分成網絡建置和文本分析兩種研究方法，分別處理實驗分析和驗證的比較資料。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3.1: 研究架構圖

3.2 歌詞資料編輯

在歌詞資料編輯的部分，主要說明本研究分析所需的歌單選取，與歌詞獲取來源，

以下將依網路選取歌單來源和線上歌詞搜集的過程做更詳細的說明，圖 3.2 為歌詞資料編輯的流程圖。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3.2: 歌詞資料編輯流程圖

3.2.1 歌單選取

為了要取得大量的情歌歌詞分析資料，首先建置了一資料庫，存放從網路上取得的經典情歌曲目；由於本研究希望能從英文的經典情歌中，分析出和情感有觀的概念隱喻，故為獲得廣為人知的西洋經典英文歌曲歌單，搜尋了 10 個網站上推薦的百大經典情歌曲目，表列如下。

‧

Best Love Songs of All Time

http://www.about.com/

2 Aol Radio Blog Top 100 Classical Love Songs The top classic love songs of the'50s and '60s

http://www.aolradioblog.com/

3 STEREOGUM⁵ The 100 Greatest Love Songs Perfect love songs playlist for Valentine's night love songs covering over four decades

http://mag.weddingcentral.com.au

5 They Deserve It 100 great love songs of all time

http://www.theydeserveit.com/

6 Maguire Online Top 100 Love Songs http://www.maguireonline.com/lo vesonge.php

7 nuTsie Top 100 Love Songs http://www.nutsie.com/top100srad io/Top%20100%20Love%20Song s/8854785

8 iloveindia.com Top 100 Love Songs http://lifestyle.iloveindia.com/lou nge/top-100-love-songs-2738.htm l

9 dating zen 100 Love Songs http://www.datingonline.org/blog/

uncategorized/100-love-songs/

10 FORUMUL SOFTPEDIA

BEST OF LOVE -The 100 biggest love songs in

http://forum.softpedia.com/index.

php?showtopic=334944

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

history

表 3.1: 經典情歌歌單來源網站

資料庫存放以上十個網站的百首經典情歌曲目，共有 1000 首，經過濾重複曲目 495 首，最後獲得 505 首歌曲歌單，來進行歌詞的取得。

3.2.2 歌詞搜集

依序從 3 個免費歌詞網站上取得每首歌的歌詞，以下描述此三個歌詞網站:

 「Lyric.com」(http://www.lyrics.com/):為一個線上歌詞搜尋平台，網站架構主要依歌手發行專輯做歌詞列表，可依歌名和歌手關鍵字進行歌詞搜尋，歌詞完整，且提供每首歌詞所屬的專輯和歌手詳盡資訊。

 「Absolutelyrics」(http://www.absolutelyrics.com/):此歌詞網站以字母分類歌手和歌曲，歌手姓名可連結到其發表專輯和每首歌詞，而歌名搜尋結果則有歌手姓名的連結，本網站所擁有的歌詞數量相當豐富。

 「Search.azlyrics.com」(http://www.azlyrics.com/):此網站依歌手姓名排列字母提供搜尋，網站按照該歌手發行的專輯呈列相關歌詞，另提供歌手、歌名和關鍵字整合的搜尋方式，相當便利。

從前一步驟所得之 505 個歌單，去除掉 64 首上述 3 個網站上皆未提供歌詞的曲目後，共獲得 441 首歌詞可進行後續分析，詳列於附錄 B。

3.3 共現網絡建置流程

共現網絡主要是將所有歌詞字彙依照不同共現範圍的設定標準，呈現字彙之間的關聯，為由下而上(Bottom-Up)的方法取徑；共現網絡的建置的流程，主要分成歌詞字彙前處理和建立字詞共現網絡兩個步驟，詳述於以下兩個小節。首先在歌詞字彙前處理之

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

前，先將歌詞依照不同的切分標準作區隔，以建立不同共現範圍的共現網絡。

圖 3.3: 共現網絡建置流程圖

3.3.1 歌詞字彙前處理

在字彙前處理的部分，主要有兩個步驟，一是高頻停用詞的去除(Stop Word Filter)，

將所得的歌詞進行字彙的抽取解析，去除掉歌詞中時常出現，不帶有具體分析意義的字彙；另一步驟則是字根還原(Stemming)，是將單字中不同詞型、時態變化的字彙還原成原型，以方便資料的計算和分析。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3.4:字彙前處理流程圖

 高頻停用詞的去除(Stop Word Filter)

在高頻停用詞的去除(Stop Word Filter)的部分，主要參考兩份 Stop Word List⁶(共 718 個字)，再以人工篩選的方式，參考相關文獻來判斷 Stop Word List 中是否存在具有分析意義的字彙予以保留，保留字彙如表 3.2。

No. ID Word No. ID Word No. ID Word 1 39 apart 9 215 going 17 409 one 2 138 down 10 216 gone 18 410 ones 3 153 end 11 254 high 19 599 together 4 154 ended 12 255 higher 20 623 up 5 155 ending 13 256 highest 21 634 value 6 156 ends 14 377 new 22 647 way 7 213 go 15 378 newer 23 648 ways

6 http://www.lextek.com/manuals/onix/stopwords1.html http://www.lextek.com/manuals/onix/stopwords2.html

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

8 214 goes 16 379 newest 表 3.2: 人工篩選字彙表

Stop Word List 中原有 718 個字，參考文獻保留以上字彙後，共剩餘 695 個字，對 441 首歌詞進行高頻停用字彙的篩選刪除。

 字根還原(Stemming)

字根還原(Stemming)的步驟，主要是將不同詞型，有如單複數、詞性變化、和時態變化的字彙處理成字根單位，將具有同一字根的字彙，進行還原以方便統一處理計算；

另一方面，考量本研究後續分析需求，保留去、走(go, goes, going, gone)此組字彙的動詞時態變化形式。

目前幾種著名的 Stemming 演算法，彙整比較於表 3.3，本研究選擇最常被使用的 Porter 演算法；處理方法上，主要是將經過前一步驟，高頻停用字去除後的字彙，和線上提供⁷的字根對照表比對(表列字彙是經 Porter 演算法處理過後的詞型和字根對照表)，

來將歌詞中出現於表列的字彙代換成字根的單位。

以上述兩個步驟處理過後的字彙作為共現網絡建置的依據，以字根的形式進行字彙的關聯配對和計算，最後將經過計算之後的結果進行手動的字彙還原，再作網絡圖形的資料呈現。

Algorithm Reference Key Steps Quality

Porter Martin Porter 1980

1. Deal with past participles and plurals.

2. Transforming double suffices to a single suffix.

3. Removing suffices providing the relevant conditions are met.

The most widely used.

Lovins Julie Beth Lovins 1968

1. The removal of endings.

2. The testing of associated exceptions among other steps.

The first to be published

7 http://snowball.tartarus.org/algorithms/porter/diffs.txt

‧

Paice/Husk Chris Paice

Gareth Husk 1990

1. Select relevant section.

2. Check applicability of rule.

3. Apply Rule.

4. Look for another rule.

Strong and aggressive.

Dawson John Dawson 1974

1. To include all plurals and combinations of the simple suffices.

2. Employ the completion principle in which any suffix contained within the ending list.

Similar to Lovins.

Krovetz Robert Krovetz 1993

1. Transformation of plural to singular forms.

2. Conversion from past to present forms.

3. The removal of ing

is a linguistic lexical validation stemmer with high accuracy but weak strength.

8 「The Lancaster Stemming Algorithm」網站

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3.5: 字詞共現網絡建置流程圖

首先，以每篇歌詞中的所有字彙做矩陣計算，排列成幾個集合( )，以公式

9計算去除重複出現的部分，和字彙之間的距離¹⁰與範圍，產生數個字彙連結的小網絡。

第二步，將上一步驟產生的幾個具有相同連結關係的網絡集合( )聚合到幾個子集

( )之中，，在此可依照字彙之間的連結線數的多寡來觀察歌詞中較重要的字彙組合，

依照這些字彙組合連結關係會產生多個聚合的網絡。

第三步，依照資料組合的排列分布，預設幾種不同的域值門檻，過濾較不重要的節點，看網絡節點浮現的情形，再訂下較佳的分析域值。

完成情感隱喻字詞共現網絡的建置，以視覺化的方式呈現網絡圖形，可以比較 3 個不同共現標準的網絡圖形結構，來觀察不同網絡圖形的節點、連結線數、網絡密度和節

http://www.comp.lancs.ac.uk/computing/research/stemming/index.htm

9 m 代表產生的網絡個數。

10計算兩點之間距離，採歐氏距離(Euclidean Distance)，公式為，計算公式:d =

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

點間的距離，另外也用會網絡分析(SNA)的指標計算，分析網絡中節點個別的重要性，

來了解歌詞中有哪些重要的字彙概念，再和文本分析出的隱喻概念字彙做比較，以評估利用字詞共現網絡的分析方法，作為大量文本中自動化辨識隱喻概念字彙的可能。

3.4 文本隱喻分析流程

文本隱喻分析是參考過去隱喻相關文獻，以專家知識領域的角度為分析基礎，判讀歌詞文本中情感相關連的概念隱喻，從已經確立的上層概念關聯來分析文本中和其相類似的字彙對應關係，可視為一種由上而下(Top-Down)的方法取徑。在分析參考文獻上，

本研究主要採用 Kövecses (2003)「Metaphor and Emotion」書中所列舉的 9 種情感概念隱喻項目作為概念隱喻分析的依據，整體分析流程可分成兩個步驟，一是利用概念隱喻理論(CMT)分析有比對到情感概念字彙的歌詞內容，而針對未比對到情感概念字彙的歌詞內容，以融合理論(BT)分析之。整體分析流程如下圖 3.6。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3.6: 文本隱喻分析流程圖

3.4.1 情感概念字彙比對

首先以 Kövecses (2003)一書中所列舉的 9 種情感概念(Anger, Fear, Happiness, Sadness, Love, Lust, Pride, Shame, and Surprise)做為目標域的情歌主題判斷，以了解情歌歌詞中描述的情感概念有哪些；另外，針對此 9 種情感的目標域概念，和所對應的來源域概念(詳列於附錄 A)，以線上同義字辭典 MWB¹¹擴充字義相近的概念字彙，來和歌詞進行比對，作為文本隱喻分析的參考依據，盡量減少主觀判斷所造成的差異。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.4.2 隱喻概念關聯對應

依情感概念和來源域概念字彙比對結果，作為分析隱喻概念關聯的參考，本步驟分別以概念隱喻理論(CMT)和融合理論(BT)進行隱喻關聯的對應分析。在概念隱喻分析的部分，如圖 3.7，主要依照文獻提供的約定俗成的隱喻例句判斷來源域字彙，再從歌詞中找出與之對應的情感目標域概念，進行概念關聯的分析；因此在概念隱喻分析的部分，本研究先從歌詞中判斷比對到的字彙做為目標域和來源域選定的依據，再依歌詞原句的意義做概念隱喻的詮釋，分析的表格如下表 3.4，將有隱喻意涵的歌詞語句陳述於表達層，再把帶有隱喻意涵的概念字彙分別對應到認知層中的來源域和目標域，最後套用 Kövecses (2003)的情感隱喻例句分類，將各種情感的隱喻表達作一歸類，分析完成 441 首歌詞。

在文檔中以字詞共現網絡探勘情歌歌詞中的情感隱喻 - 政大學術集成 (頁 36-0)

小結

第二章 領域知識與相關研究

2.5 小結

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.5 小結

第三章

歌詞中的情感隱喻與字詞共現網絡

3.1 研究流程架構

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2 歌詞資料編輯

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.1 歌單選取

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.2 歌詞搜集

3.3 共現網絡建置流程

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3.1 歌詞字彙前處理

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.4 文本隱喻分析流程

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.4.1 情感概念字彙比對

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.4.2 隱喻概念關聯對應

第二章領域知識與相關研究

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學