• 沒有找到結果。

字詞語意關係探勘

第二章 文獻探討

2.3 字詞語意關係探勘

本研究必頇自動擷取出句子中重要的字詞或是句型樣式當作特徵,計算句子 間彼此的語意關聯度,相似於字詞語意關係探勘之研究。一般來說文件資料都是 由大量的字詞或是文句所組成,但是在計算文件間相似度或是關聯性時,如果將 每個字詞都考慮的話,不僅會浪費儲存空間,效率上也會不佳,而且文句中並非 每一個字詞都是有意義的,因此也有越來越多的研究在討論如何擷取文件中重要 的特徵或字詞。

2.3.1 字詞間的語意關係探勘

[6]對於使用者所輸入的兩個查詢詞組,判斷彼此間是否有隱含上的語意關 聯,例如,輸入為―鴕鳥-鳥類‖和―獅子-貓科‖,彼此間隱含的關係是‖大型‖,因

12

為鴕鳥是一種體型較大的鳥類,獅子則是大型的貓科動物。為了評估兩個查詢詞 組間的關係是否有相關,作者利用網路搜尋引擎蒐集兩個詞組的網頁摘要後,從 中篩選出同時包含兩個詞組的句子,並以這兩個詞組在句中的位置為起始位置和 終止位置,擷取在這範圍內的語句樣式(lexical pattern),依照所訂定的規則去組 合成子序列(subsequence)樣式,利用這些子序列樣式進行分群,由聚落和聚落間 不同的相關程度值得知查詢字組間是否相關。

[9]利用網路搜尋引擎找出不同實體(entity)間有什麼關聯性。例如輸入兩家 公司名稱,‖鴻海‖和‖宏碁‖,知道它們彼此間有‖電腦公司‖這個相關的特性。作 者先利用網路搜尋引擎對於使用者輸入的兩個實體當作關鍵字查詢之後,收集兩 個實體間前 M 個網頁形成兩個集合,經過前處理後,由兩個集合中的網頁一一 進行配對,利用 Okapi formula [10]計算網頁間彼此的相關分數,回傳前 k 名的網 頁配對,再利用 Okapi formula 計算對於兩個集合相關程度高的字詞當作兩個實 體間的關係。

2.3.2 高語意關聯字詞探勘

一般來說,在資訊檢索領域中,在比較文件和文件之間的相似度時,可以利 用文件中字詞出現的頻率,以及出現在文件中的頻率形成 TFIDF 值,建立特徵 向量,再利用這個向量去計算文件間的相似程度。但是這種方法的缺點在於,若 是字詞間有一字多義或是多字一義的情況時,例如,‖table‖和‖desk‖都是表示桌

13

子,但因為沒有考慮到字詞之間的語意關聯,在計算相似度時會將這兩個字詞視 為不同,如此一來會影響查詢效果。本小節將介紹有關於擷取高語意關聯字詞之 研究。

[12]利用 WordNet [13]建立語意網路,從中可找到和字詞有相關的概念詞。

作者建立了以名詞為主的語意網路,首先利用了維基百科收集了大量的名詞,再 利用 WordNet 找出和這些名詞關聯性高的字詞,稱為概念,計算名詞和概念在 維基百科內的 Kullback-Leivler divergence 值,找出和名詞語意關聯度高的字詞。

[14]提出了一些不同於以往 TFIDF 為主的向量模型,例如結合字詞出現在文件中 的機率和在語料庫中的機率計算 Mutual information 值;或是利用字詞出現在文 件中的機率和沒有出現在文件中的機率計算 Information Gain 值,當字詞間有多 字一義的情況時,這兩種方法皆可有效避免相同兩個字語意相關高但相似度低的 情況。

在標籤推薦系統中,也會遇到類似這樣的問題,以 Flickr 為例,當使用者下 標籤‖table‖去搜尋圖片時,若是不考慮語意相關的標籤,可能無法找到包含‖desk‖

的圖片推薦給使用者。因此[15]提出一方法,同時考慮標籤和標籤之間語法和語 意上的相關性。作者提出的方法是將標籤自成一個聚落,計算標籤和聚落之間各 標籤的出現物件所形成的特徵向量之餘弦相似度值,若是大於所訂定的門檻值,

則將該標籤加入聚落中,之後再進行合併以避免過多重複的標籤聚落。

14

相關文件