第二章 領域知識與相關研究
2.2 詞意相似度 - 字詞共現計算
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
2.1.2 透過語料和專家方法進行情緒字詞分類
Valitutti (2004)根據wordnet的研究,試圖建立多意字詞的領域分類[10],以研究者 歸類的方式完成wordnet domain,而wordnet affect則是wordnet domain的子類別,獨立 出情緒字詞的分類,共有2,874個同義詞組與4,787個字,建立起的字詞同義詞組、階層 關係以及情緒標籤,其目的為可供作為查詢不帶有情緒的字詞其情緒偏向、同義詞組、
上下階層關係。例如給予查詢university這個字,其synset有school,指定相關情緒為正向 得到建議相關的詞組為:professor, scholarship, achievement,而其相關的正向情緒為:
enthusiasm, sympathy, devotion, encouragement。另外給與查詢difficulty這個字,可以得到 相關連的情緒標籤為:identification, negative-concern, ambiguous-expectatioin, apathy。
affective-state anger disgust fear joy sadness surprise synsets 127 19 82 227 123 28
表2.4:word-net affect emotion list
由wordnet domain的延伸出名為word-net affect的情緒字詞結構,包含子集合中同義 詞集,來表達情緒概念相關的情緒字詞(表2.4)。Wordnet affect提出六種基礎情緒:
anger、disgust、fear、joy、sadness、surprise,四種偏向分類:中性(neutual)、含糊不清 (ambiguous)、正向(positive)、負向(negtive)。
2.2 詞意相似度 - 字詞共現計算
2.2.1 字詞共現指標 (tag co-occurrence index)
共現(co-occurrence),是一份文件或句子中,共同出現的字詞,當作為關係建立依
‧
Jaccard coefficient可以用作為計算兩個字詞之間的相似程度,以下公式為例,分母 為A和B的交集,除以分子為A與B的聯集,成為A與B的相關係數。這個方法用來評估兩 個物件或是集合之間的相似程度。曾有研究用作為評估兩個文字標籤在Flickr資料庫中 的意義相似係數,建立Flickr標籤推薦機制[11]。
J (A , B)=
∣A∧B∣∣A∨B∣
2.2.2 點式交互資訊 (point-wise mutual information)
PMI(point-wise mutual information) (Turney, 2001)針對大量語料資訊的探勘,例如網 際網路、語料庫,以統計方法,字詞共現為基礎,計算兩組結果X、Y之間的共同出現的 機率,透過共同出現的機率除以個別出現機率的乘積,取log值之後,成為PMI 指標:
SimilarityPMI − IRx , y =log P x , y
score choice
i=logp problem∧choice
ip problem p choice
i≈logp problem near choice
ip problem pchoice
i‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
Read(2004)使用PMI-IR的方法,透過wordnet選定情緒字詞,從155則50字短篇小說 中,計算句子的情緒偏向(表2.5),雖然其結果與使用者驗證的準確度相較下來不如預 期,但在單字的部份,卻可能支持PMI-IR的方法,有機會成為未來Affective oriention的 計算指標。[12]
表2.5:Read以PMI計算字詞情緒偏向之範例值
經過PMI計算後,abusive在negative affect的分數相較另外三項positive
affective、pleasantness、engagement來的高,代表該字偏負向情緒。而beautifully在positive affective與pleasantness皆為正值,代表該字與這兩個項目呈現較高的相關性。
2.2.3 關聯規則演算法 (Apriori Algorithm)
隨著數據資料與儲存設備提升,如何面對日益龐大的數據資料,從大量重複的資料 找到高頻率的關聯規則(association rules),為資訊科學領域的重要議題,Apriori
Algorithm在資料探勘領域用做學習關聯法則(association rule)的方法,最初為了尋找交 易資料庫中的多筆交易資料中,哪些商品的購買組合最頻繁出現(frequent item set),例 如在超市購物資料中,最常被購買的產品搭配關係(例如尿布和啤酒),該頻繁出現 的購買組合,將有助於發現潛在的購物規則,而後使用於無時序的DNA序列,作為基
‧
Apriori演算法屬於bottom up策略,透過廣度優先(breadth-first search)與樹狀結構,
給定min.support與min.confidence,以k個回合找到k個items的關聯規則的frequent item sets candidates,其presedo code如下 :
1. 訂定門檻值─最小支持度(min.support)及最小信賴度(min.confidence) 2. 尋找所有的高頻組合(frequent itemsets):
• 取得高頻物件(frequent items):
• 物件出現次數大於等於最小支持度
• 取得高頻物件組合Get frequent itemsets:
• 從高頻物件中產生候選物件組合candidates
• 縮小結果得到高頻的物件組合
3. 從高頻詞組中產生強關聯規則strong association rules
• 找到符合最小支持度與最小信賴度的規則。