• 沒有找到結果。

第二章 領域知識與相關研究

2.2 詞意相似度 - 字詞共現計算

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.1.2 透過語料和專家方法進行情緒字詞分類

Valitutti (2004)根據wordnet的研究,試圖建立多意字詞的領域分類[10],以研究者 歸類的方式完成wordnet domain,而wordnet affect則是wordnet domain的子類別,獨立 出情緒字詞的分類,共有2,874個同義詞組與4,787個字,建立起的字詞同義詞組、階層 關係以及情緒標籤,其目的為可供作為查詢不帶有情緒的字詞其情緒偏向、同義詞組、

上下階層關係。例如給予查詢university這個字,其synset有school,指定相關情緒為正向 得到建議相關的詞組為:professor, scholarship, achievement,而其相關的正向情緒為:

enthusiasm, sympathy, devotion, encouragement。另外給與查詢difficulty這個字,可以得到 相關連的情緒標籤為:identification, negative-concern, ambiguous-expectatioin, apathy。

affective-state anger disgust fear joy sadness surprise synsets 127 19 82 227 123 28

表2.4:word-net affect emotion list

由wordnet domain的延伸出名為word-net affect的情緒字詞結構,包含子集合中同義 詞集,來表達情緒概念相關的情緒字詞(表2.4)。Wordnet affect提出六種基礎情緒:

anger、disgust、fear、joy、sadness、surprise,四種偏向分類:中性(neutual)、含糊不清 (ambiguous)、正向(positive)、負向(negtive)。

2.2 詞意相似度 - 字詞共現計算

2.2.1 字詞共現指標 (tag co-occurrence index)

共現(co-occurrence),是一份文件或句子中,共同出現的字詞,當作為關係建立依

Jaccard coefficient可以用作為計算兩個字詞之間的相似程度,以下公式為例,分母 為A和B的交集,除以分子為A與B的聯集,成為A與B的相關係數。這個方法用來評估兩 個物件或是集合之間的相似程度。曾有研究用作為評估兩個文字標籤在Flickr資料庫中 的意義相似係數,建立Flickr標籤推薦機制[11]。

J (A , B)=

∣A∧B∣

∣A∨B∣

2.2.2 點式交互資訊 (point-wise mutual information)

PMI(point-wise mutual information) (Turney, 2001)針對大量語料資訊的探勘,例如網 際網路、語料庫,以統計方法,字詞共現為基礎,計算兩組結果X、Y之間的共同出現的 機率,透過共同出現的機率除以個別出現機率的乘積,取log值之後,成為PMI 指標:

SimilarityPMI − IRx , y =log P x , y

score choice

i=log

p problem∧choice

i

p problem p choice

i≈log

p  problem near choice

i

p  problem pchoice

i

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Read(2004)使用PMI-IR的方法,透過wordnet選定情緒字詞,從155則50字短篇小說 中,計算句子的情緒偏向(表2.5),雖然其結果與使用者驗證的準確度相較下來不如預 期,但在單字的部份,卻可能支持PMI-IR的方法,有機會成為未來Affective oriention的 計算指標。[12]

表2.5:Read以PMI計算字詞情緒偏向之範例值

  經過PMI計算後,abusive在negative affect的分數相較另外三項positive

affective、pleasantness、engagement來的高,代表該字偏負向情緒。而beautifully在positive affective與pleasantness皆為正值,代表該字與這兩個項目呈現較高的相關性。

2.2.3 關聯規則演算法 (Apriori Algorithm)

隨著數據資料與儲存設備提升,如何面對日益龐大的數據資料,從大量重複的資料 找到高頻率的關聯規則(association rules),為資訊科學領域的重要議題,Apriori

Algorithm在資料探勘領域用做學習關聯法則(association rule)的方法,最初為了尋找交 易資料庫中的多筆交易資料中,哪些商品的購買組合最頻繁出現(frequent item set),例 如在超市購物資料中,最常被購買的產品搭配關係(例如尿布和啤酒),該頻繁出現 的購買組合,將有助於發現潛在的購物規則,而後使用於無時序的DNA序列,作為基

Apriori演算法屬於bottom up策略,透過廣度優先(breadth-first search)與樹狀結構,

給定min.support與min.confidence,以k個回合找到k個items的關聯規則的frequent item sets candidates,其presedo code如下 :

1. 訂定門檻值─最小支持度(min.support)及最小信賴度(min.confidence) 2. 尋找所有的高頻組合(frequent itemsets):

• 取得高頻物件(frequent items):

• 物件出現次數大於等於最小支持度

• 取得高頻物件組合Get frequent itemsets:

• 從高頻物件中產生候選物件組合candidates

• 縮小結果得到高頻的物件組合

3. 從高頻詞組中產生強關聯規則strong association rules

• 找到符合最小支持度與最小信賴度的規則。

相關文件