短文相似度比較 - 文獻探討 - 旅遊英語會話相似主題段落發掘之研究

2 文獻探討

2.2 短文相似度比較

文件主題相似度比對方法，在資訊擷取領域中已有長久而豐富的研究。然而由少量的句子所構成的短文由於字彙稀少，其語意主題相似度比對相較於文件將更為困難。過去學者的研究方向大致可分為下列幾項：

1) 字彙的重複

此方法假設兩篇短文共用的字彙越多，相似度越高 [Hatzivassiloglou et al.

1999]。此種方法包括了許多不同的變形，其中包括是否考慮單字的大小寫之別，

以及是否將單字轉換為字根的形式後再比較短文間的字彙重複。另外也有學者在比較字彙的重複之前，先將短文中資訊意義較低的停用字（Stopwords）移除，

以減少相似度比對時的雜訊。此方法最簡單的實做方式是將語句以向量模型表示，向量的一個維度代表一個字彙，利用向量內積求得短文間的相似度。然而，

語言的使用千變萬化，同樣語意的短文，使用的字彙卻可能有相當大的差異。據此，短文間的語意相似度不一定與字彙重複的多寡成正比。

2) 字義相似度

由於字彙重複，非有即無，無法考量到不同字彙字義上的相似程度。有學者為了彌補此一缺憾，將專家所建立的階層式語意知識本體導入字彙相似度比較之中[[Dolan et al. 2005; Li et al 2006; Corley and Mihalcea 2005; Hatzivassiloglou et al.

1999; 鄭守益和梁婷 2005]。

此類知識本體以階層式的架構表示人類對於單字意義上的分類，位於越上層的單字，語意上的概念越抽象；反之，越下層單字的語意越為明確。中文的單字

語意知識本體如哈爾濱工業大學所發展之同義詞詞林，英文則以普林斯頓大學建立的 WordNet 最為有名。此階層式的知識架構，為判斷單字間語意相似度的重要依據。

以單字語意知識本體為基礎的字義相似度計算的方法眾多，知名的包括 Wu and Palmer （1994）、Resnik （1995）、Jiang & Conrath （1997）與 Lin （1998）

[Corley and Mihalcea 2005; 顏偉和荀恩東 2004; Pedersen]。

由階層式知識本體計算得單字字義相似度之後，便可將此一資訊帶入語句相似度計算之中，如圖 2 [Li et al 2006]。其假設為，若兩短文所包含的字彙，字義上的相似度越高，則短文越相近。在[Li et al 2006; Corley and Mihalcea 2005; 鄭守益和梁婷 2005]的研究皆使用到此一方法。

圖 2 階層式語意知識體

此方法有幾項缺點，首先，人類所使用的字彙其中的概念錯綜複雜，難以完整且清楚地將其表示為階層式的知識本體。其次，不管是 WordNet 或是同義詞詞林，這些知識本體都是由專家所訂立，因此字義的分類難免會有主觀的成份存在。

3) 單字詞性分類

在短文中，不同詞性的單字具有不同的角色與功能。[Corley and Mihalcea 2005]

只取短文中的名詞、動詞、副詞及序數，四種詞性之單字，並獨立處理不同詞性的字彙。[Hatzivassiloglou et al. 1999 ] 則特別針對短文中的「名詞片語」與「專有名詞」進行比對，統計兩篇短文共有的名詞片語與專有名詞的數量。

4) 單字資訊內容

短文中每個單字含有多寡不同的資訊內容（Information Content），一般而言，資訊內容越高的單字越能幫助辨識短文的語意主題。過去學者時常以平衡語料庫（balance corpus）計算單字資訊內容。所謂的平衡料庫，義為均衡地包含各種主題及各式文體的語料庫。單字在平衡語料庫中出現機率越小者，資訊內容越高；反之，出現機率越高則資訊內容約低。利如介係詞”to”和”for”的資訊內容就不如名詞”travel”與”business”來的高。在[Li et al 2006]的研究中，即依照每個單字的資訊內容設定不同的字彙權重值；短文中資訊內容越高的單字給予越高的權重。

5) 潛在語意分析（Latent Semantic Analysis ）

潛在語意分析可說是向量模型的延伸，一種以整個語料庫為依據的文件或短文相似度比較方法[Foltz et al. 1998; Landauer et al. 1997; 汪若文 2004]。進行潛在語意分析時，首先需建立一個字彙對情境的矩陣（word by context matrix）。經過 singular value decomposition （SVD）分解，會將該矩陣切為三個矩陣的乘積。

將此三個矩陣做降階處理後，再重新建構起原本的字彙對情境矩陣。經過這樣的處理，LSA 可將散佈在情境之中的知識表現在重新建構的字彙對情境的矩陣當中。

然而，由於字彙對情境的維度是固定的，當情境限定為由少數幾個句子構成的短文時，矩陣可能會非常的稀疏。此外，潛在語意分析也沒有考量到字彙的排列等任何語法上的資訊 [Li et al 2006]。

在文檔中旅遊英語會話相似主題段落發掘之研究 (頁 14-18)