第三章 資料分析與模型建立
3.1.1 資料來源
3.1.1.2 決定情緒類別
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
名詞和形容詞,而概念分佈在渡假、活動、地名、食物為主。相較於純文本的語料,比較 缺乏抽象名詞與長字詞(表3.1)。[26]
表3.1:四組網站資料的常用詞組出現頻率排序比較
在Flickr的照片,透過使用者的點閱、回應、收藏等方式,Flickr API可以針對關鍵字 查詢,回饋經過排序的圖片,透過「intresting」與「relevance」可以得到高度人氣的照片,
經過觀察,排序在前的照片,通常有幾個特性:(1)高點閱數、(2)多人留言、(3)
標籤數量相對較多、(4)被加入收藏的數量的次數多。由於Flickr上的資料,從單一字 詞查找,回饋的數量規模相當可觀,因此若要做資料的抽樣,考慮以高相關性、高人氣 的照片,做為資料抽樣的選擇。
3.1.1.2 決定情緒類別
本階段進行研究需從Flickr API提取的情緒字詞,由於心理學領域對於基礎情緒的 分類方式未有一定論,不同的切入觀點,可能得到不同的分類方式,因此本研究首先 必須從Flickr資料庫中,透過心理學研究對於基礎情緒的分類,觀察Flickr社群對於這些 情緒字詞的使用樣貌,以及數量是否具有一定可參考的規模,若遇見罕用的情緒字詞,
可能為基於學術分類上的概念,而不是社群中常用來的字詞(例如aroused),這類字詞則
‧
Input word result
Positive emotion love 10,670,889 12,205,453
Joy 783,232
Surprise 751,332
Negtive emotion Anger 102161 483,664 Sadness 78,906
fear 302597
表3.2:使用六種基礎情緒字詞查詢得到的圖片數量
但由於從「sadness」查詢所得到的數量較「sad」少,同樣的「anger」與「angry」有同樣的 情形,從這個階段可以觀察Flickr社群中的英語標籤使用習慣,happy遠大於joy的數量,
Angry遠大於anger的數量,同時sad也遠大於 sadness的使用頻率(表3.3)。這個例子告訴 我們,未來在定義基礎情緒詞的時候,不單得考慮每個不同的情緒詞之間的數量差異,
也得考慮同一個情緒詞本身的詞性變化,其不同的頻率分佈,會影響到資料抽樣的選 取比例。
[註]使用Flickr全文檢索的範圍包含照片標題、照片敘述、文字標籤
‧
Joy 335,817 happy 1,270,671
Anger 31,231 Angry 56,910
Sadness 50,995 Sad 50,995
表3.3:在Flickr情緒字詞使用的頻率
由於一義多字字詞的存在,為了找到最常被當做標籤的情緒字詞,以不更動字意為 前提,將「sadness」、 「joy」、 「anger」三個字考慮替代為查詢結果較多的「sad」、
「happy」、 「angry」,更新之後的查詢數量如下,作為實驗階段抽取Flickr 資料庫帶有情 緒字詞標籤照片的查詢基礎:
Input word result
Positive emotion love 2,971,826
4,376,937
happy 1,270,673
Surprise 134,438
Negtive emotion Angry 56,910 331,927
Sad 50,995
fear 89,584
表3.4:Flickr資料庫中含有六類情緒字詞分別次數
由於以上的數量,在正情緒偏向,仍然有極大的差異,可見該影像社群的標籤使用 習慣,與過去研究有極大的不同,正向情緒字詞多於負向情緒字詞。
另外以Russel的28種情緒作為查詢詞,所得結果如表3.5所示,以底線標示出現次數 超過十萬的情緒字詞:
‧
input word result input word result happy 4,419,268 gloomy 73,451 delighted 190,218 depressed 59,458 excited 548,019 bored 538,508 astonished 21,642 droopy 9,598 aroused 5,912 tired 1,005,477 tense 19,849 sleepy 398,249 alarmed 105,053 clam 108,936 angry 201,488 relaxed 809,703 afraid 147,898 satisfied 76,325 annoyed 113,861 as ease 12,704 distressed 55,606 content 395,540 frustrated 48,617 serene 103,877 miserable 46,342 glad 262,149 Sad 655,934 pleased 4,420,966
表3.5:使用Russel的28種情緒字詞查詢得到的圖片數量
另外以[31][32]的情感分類進行查詢,在Flickr上可得到回傳的照片數量結果、其中 有超過十萬次的情緒字詞,整理如表3.6:
第一象限 第二象限 第三象限 第四象限
excited (545,765) delighted (181,149) happy (4,455562)
annoyed (1,110,532) angry (203,402) afraid (149,499) alarmed (104,988)
tired (1,015,596) bored (539,712) sad (659,822)
pleased (4,515,022) glad (254,665) serene(103,029) content(406,774) relaxed (820,953) calm(314,517) sleepy(390,083)
表3.6:flickr超過十萬次的高頻率的情緒字詞