詞意相似度 - 字詞共現計算 - 領域知識與相關研究 - 透過圖片標籤觀察情緒字詞與事物概念之關聯

第二章領域知識與相關研究

2.2 詞意相似度 - 字詞共現計算

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2.1.2 透過語料和專家方法進行情緒字詞分類

Valitutti (2004)根據wordnet的研究，試圖建立多意字詞的領域分類[10]，以研究者歸類的方式完成wordnet domain，而wordnet affect則是wordnet domain的子類別，獨立出情緒字詞的分類，共有2,874個同義詞組與4,787個字，建立起的字詞同義詞組、階層關係以及情緒標籤，其目的為可供作為查詢不帶有情緒的字詞其情緒偏向、同義詞組、

上下階層關係。例如給予查詢university這個字，其synset有school，指定相關情緒為正向得到建議相關的詞組為：professor, scholarship, achievement，而其相關的正向情緒為：

enthusiasm, sympathy, devotion, encouragement。另外給與查詢difficulty這個字，可以得到相關連的情緒標籤為：identification, negative-concern, ambiguous-expectatioin, apathy。

affective-state anger disgust fear joy sadness surprise synsets 127 19 82 227 123 28

表2.4：word-net affect emotion list

由wordnet domain的延伸出名為word-net affect的情緒字詞結構，包含子集合中同義詞集，來表達情緒概念相關的情緒字詞(表2.4)。Wordnet affect提出六種基礎情緒：

anger、disgust、fear、joy、sadness、surprise，四種偏向分類：中性(neutual)、含糊不清 (ambiguous)、正向(positive)、負向(negtive)。

2.2 詞意相似度 - 字詞共現計算

2.2.1 字詞共現指標 (tag co-occurrence index)

共現(co-occurrence)，是一份文件或句子中，共同出現的字詞，當作為關係建立依

‧

Jaccard coefficient可以用作為計算兩個字詞之間的相似程度，以下公式為例，分母為A和B的交集，除以分子為A與B的聯集，成為A與B的相關係數。這個方法用來評估兩個物件或是集合之間的相似程度。曾有研究用作為評估兩個文字標籤在Flickr資料庫中的意義相似係數，建立Flickr標籤推薦機制[11]。

J (A , B)=

∣A∧B∣

∣A∨B∣

2.2.2 點式交互資訊 (point-wise mutual information)

PMI(point-wise mutual information) (Turney, 2001)針對大量語料資訊的探勘，例如網際網路、語料庫，以統計方法，字詞共現為基礎，計算兩組結果X、Y之間的共同出現的機率，透過共同出現的機率除以個別出現機率的乘積，取log值之後，成為PMI 指標：

Similarity_{PMI − IR}x , y =log P x , y

score choice

_i=log

p problem∧choice

_i

p problem p choice

_i≈log

p  problem near choice

_i

p  problem pchoice

_i

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Read(2004)使用PMI-IR的方法，透過wordnet選定情緒字詞，從155則50字短篇小說中，計算句子的情緒偏向(表2.5)，雖然其結果與使用者驗證的準確度相較下來不如預期，但在單字的部份，卻可能支持PMI-IR的方法，有機會成為未來Affective oriention的計算指標。[12]

表2.5：Read以PMI計算字詞情緒偏向之範例值

　　經過PMI計算後，abusive在negative affect的分數相較另外三項positive

affective、pleasantness、engagement來的高，代表該字偏負向情緒。而beautifully在positive affective與pleasantness皆為正值，代表該字與這兩個項目呈現較高的相關性。

2.2.3 關聯規則演算法 (Apriori Algorithm)

隨著數據資料與儲存設備提升，如何面對日益龐大的數據資料，從大量重複的資料找到高頻率的關聯規則(association rules)，為資訊科學領域的重要議題，Apriori

Algorithm在資料探勘領域用做學習關聯法則(association rule)的方法，最初為了尋找交易資料庫中的多筆交易資料中，哪些商品的購買組合最頻繁出現(frequent item set)，例如在超市購物資料中，最常被購買的產品搭配關係（例如尿布和啤酒），該頻繁出現的購買組合，將有助於發現潛在的購物規則，而後使用於無時序的DNA序列，作為基

‧

Apriori演算法屬於bottom up策略，透過廣度優先(breadth-first search)與樹狀結構，

給定min.support與min.confidence，以k個回合找到k個items的關聯規則的frequent item sets candidates，其presedo code如下：

1. 訂定門檻值─最小支持度(min.support)及最小信賴度(min.confidence) 2. 尋找所有的高頻組合(frequent itemsets)：

• 取得高頻物件(frequent items)：

• 物件出現次數大於等於最小支持度

• 取得高頻物件組合Get frequent itemsets：

• 從高頻物件中產生候選物件組合candidates

• 縮小結果得到高頻的物件組合

3. 從高頻詞組中產生強關聯規則strong association rules

• 找到符合最小支持度與最小信賴度的規則。

在文檔中透過圖片標籤觀察情緒字詞與事物概念之關聯 - 政大學術集成 (頁 25-28)

詞意相似度 - 字詞共現計算

第二章 領域知識與相關研究

2.2 詞意相似度 - 字詞共現計算

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2 詞意相似度 - 字詞共現計算

‧

J (A , B)=

score choice

p problem∧choice

p problem p choice

p  problem near choice

p  problem pchoice

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第二章領域知識與相關研究

立政治大學

立政治大學