• 沒有找到結果。

2 文獻探討

2.2 短文相似度比較

文件主題相似度比對方法,在資訊擷取領域中已有長久而豐富的研究。然而 由少量的句子所構成的短文由於字彙稀少,其語意主題相似度比對相較於文件將 更為困難。過去學者的研究方向大致可分為下列幾項:

1) 字彙的重複

此方法假設兩篇短文共用的字彙越多,相似度越高 [Hatzivassiloglou et al.

1999]。此種方法包括了許多不同的變形,其中包括是否考慮單字的大小寫之別,

以及是否將單字轉換為字根的形式後再比較短文間的字彙重複。另外也有學者在 比較字彙的重複之前,先將短文中資訊意義較低的停用字(Stopwords)移除,

以減少相似度比對時的雜訊。此方法最簡單的實做方式是將語句以向量模型表 示,向量的一個維度代表一個字彙,利用向量內積求得短文間的相似度。然而,

語言的使用千變萬化,同樣語意的短文,使用的字彙卻可能有相當大的差異。據 此,短文間的語意相似度不一定與字彙重複的多寡成正比。

2) 字義相似度

由於字彙重複,非有即無,無法考量到不同字彙字義上的相似程度。有學者 為了彌補此一缺憾,將專家所建立的階層式語意知識本體導入字彙相似度比較之 中[[Dolan et al. 2005; Li et al 2006; Corley and Mihalcea 2005; Hatzivassiloglou et al.

1999; 鄭守益和梁婷 2005]。

此類知識本體以階層式的架構表示人類對於單字意義上的分類,位於越上層 的單字,語意上的概念越抽象;反之,越下層單字的語意越為明確。中文的單字

語意知識本體如哈爾濱工業大學所發展之同義詞詞林,英文則以普林斯頓大學建 立的 WordNet 最為有名。此階層式的知識架構,為判斷單字間語意相似度的重 要依據。

以單字語意知識本體為基礎的字義相似度計算的方法眾多,知名的包括 Wu and Palmer (1994)、Resnik (1995)、Jiang & Conrath (1997)與 Lin (1998)

[Corley and Mihalcea 2005; 顏偉和荀恩東 2004; Pedersen]。

由階層式知識本體計算得單字字義相似度之後,便可將此一資訊帶入語句相 似度計算之中,如圖 2 [Li et al 2006]。其假設為,若兩短文所包含的字彙,字義 上的相似度越高,則短文越相近。在[Li et al 2006; Corley and Mihalcea 2005; 鄭 守益和梁婷 2005]的研究皆使用到此一方法。

圖 2 階層式語意知識體

此方法有幾項缺點,首先,人類所使用的字彙其中的概念錯綜複雜,難以完 整且清楚地將其表示為階層式的知識本體。其次,不管是 WordNet 或是同義詞 詞林,這些知識本體都是由專家所訂立,因此字義的分類難免會有主觀的成份存 在。

3) 單字詞性分類

在短文中,不同詞性的單字具有不同的角色與功能。[Corley and Mihalcea 2005]

只取短文中的名詞、動詞、副詞及序數,四種詞性之單字,並獨立處理不同詞性 的字彙。[Hatzivassiloglou et al. 1999 ] 則特別針對短文中的「名詞片語」與「專 有名詞」進行比對,統計兩篇短文共有的名詞片語與專有名詞的數量。

4) 單字資訊內容

短文中每個單字含有多寡不同的資訊內容(Information Content),一般而 言,資訊內容越高的單字越能幫助辨識短文的語意主題。過去學者時常以平衡語 料庫(balance corpus)計算單字資訊內容。所謂的平衡料庫,義為均衡地包含各 種主題及各式文體的語料庫。單字在平衡語料庫中出現機率越小者,資訊內容越 高;反之,出現機率越高則資訊內容約低。利如介係詞”to”和”for”的資訊內容就 不如名詞”travel”與”business”來的高。在[Li et al 2006]的研究中,即依照每個單 字的資訊內容設定不同的字彙權重值;短文中資訊內容越高的單字給予越高的權 重。

5) 潛在語意分析(Latent Semantic Analysis )

潛在語意分析可說是向量模型的延伸,一種以整個語料庫為依據的文件或短 文相似度比較方法[Foltz et al. 1998; Landauer et al. 1997; 汪若文 2004]。進行潛 在語意分析時,首先需建立一個字彙對情境的矩陣(word by context matrix)。經 過 singular value decomposition (SVD)分解,會將該矩陣切為三個矩陣的乘積。

將此三個矩陣做降階處理後,再重新建構起原本的字彙對情境矩陣。經過這樣的 處理,LSA 可將散佈在情境之中的知識表現在重新建構的字彙對情境的矩陣當 中。

然而,由於字彙對情境的維度是固定的,當情境限定為由少數幾個句子構成 的短文時,矩陣可能會非常的稀疏。此外,潛在語意分析也沒有考量到字彙的排 列等任何語法上的資訊 [Li et al 2006]。

相關文件