• 沒有找到結果。

第二章 文獻探討

第一節 潛在語意分析

LSA 是使用大型的語料庫(Corpus)與利用統計方法萃取出和表達詞彙在語料 庫中的上下文之間的語意關係。而使用 LSA 建置語意空間的基本概念是先建置一個 二維矩陣空間的詞彙-文件共生矩陣(term-by-document occurrence matrix)表示詞彙 與文件之間的關聯性,並使用奇異值分解(SVD)拆解原始的共生矩陣以得到詞彙與文 件相對應的語意結構矩陣,接著利用維度約化(dimension reduction)為基礎去除一 些 不 重 要 的 雜 訊 維 度 , 最 後 將 矩 陣 重 新 建 置 即 是 具 有 代 表 性 的 潛 在 語 意 空 間

(Landauer & Dumais, 1997)。以下就語料庫的相關研究、潛在語意空間建置流程、

語意相似度計算與詞彙在文件重要性的研究分別進行說明。

壹、 語料庫的相關研究

語料庫(Corpus)是指大型的詞語料資料庫,內容包含了大量的語料分析與文 本資料,其語料庫內容是經由整理與有架構的的格式儲存,以提供語言相關之研究 者進行分析與統計之研究(溫文喆,2008)。根據過去的相關研究指出利用 LSA 建 置語意空間時,其所需要的語料庫的語料來源越大越好,即須包含大量的詞彙與文 件,且其語料庫需要和研究目的有一定的相關(Wiemer-Hastings, 2004)。

過去應用語料庫於建置潛在語意空間的相關研究,Landauer等人(1998)曾經以 葛羅里學術百科全書(Grolier Encyclopedia)作為語料庫,並建立一個60,768個詞彙 和30,473個文件的詞彙-文件共生矩陣,接著利用SVD與維度約化將共生矩陣轉換 成一個維度為300的語意空間。而在中文領域亦有相關研究,如葉鎮源(2002)曾經

建置一個約有1600個關鍵詞大小的語意空間,其語料來源是以新聞週刊中的100份新 聞文件為小型語料庫。張國恩與宋曜廷(2005)設計一個可以自動評量小六學生閱 讀摘要寫作的系統,建置以族群與群落與端午節兩個主題,其中以族群與群落為主 題分別建置關鍵詞大小為488、901與1557的語意空間,以端午節為主題則分別建置 關鍵詞大小為1340、2176與2921的語意空間。陳明蕾等人(2009)則利用了中央研 究院所建置的現代漢語平衡語料庫(3.0版)建置了一個大型的中文語意空間,其中 包含了49021的關鍵詞與40463份文件,其研究結果發現以潛在語意分析技術所建置 的中文語意空間,能反應中文讀者內在心理詞彙表徵間之語意關聯性。

貳、 潛在語意空間建置流程

根據Martin and Berry(2007)的研究中使用LSA建置語意空間,需要以下幾個步 驟:建立詞彙-文件共生矩陣;詞彙權重計算;執行SVD轉換矩陣;維度約化。圖1-1 為LSA基本架構,灰色底部分表示使用LSA建置語意空間的流程。以下就本研究建 立潛在語意空間之各步驟分別說明:

圖 1-1 LSA 基本架構

一、 建立詞彙-文件共生矩陣

詞彙-文件共生矩陣為一個二維的空間矩陣,是以文件為行,以關鍵詞為列,其 中關鍵詞為語料庫中所定義的詞彙,文件可以是語料庫中的一般文章、句子,或是 研究者自行將文章切割成所需要的大小而形成的新文件,矩陣中的元素值為關鍵詞 出現在每份文件的次數。根據(Quesada, 2006)的研究中說明,在共生矩陣中只出 現一次的詞彙會干擾LSA語意比對的效果,因此在關鍵詞的選取中,是以詞彙在共 生矩陣中出現兩次以上的作為研究所定義的關鍵詞彙。表2-1和表2-2為一小型語料庫 和其相對應藉由詞彙出現次數所建立的詞彙-文件共生矩陣的例子(Witter &

Berry,1998)。

執行 SVD 矩陣轉換

語意空間

建立詞彙-文件共生矩陣

維度約化 詞彙權重計算

相似度計算

表2-1 Titles for Topics on Music and Baking 文件 標題

M1 Rock and Roll Music in the 1960’s

M2 Different Drum Rolls, a Demonstration of Techniques M3 Drum and Bass Composition

M4 A Perspective of Rock Music in the 90’s M5 Music and Composition of Popular Bands

B1 How to Make Bread and Rolls, a Demonstration B2 Ingredients for Crescent Rolls

B3 A Recipe for Sourdough Bread

B4 A Quick Recipe for Pizza Dough using Organic Ingredients

表2-2 The 10 x 9 Type-by-Document Matrix With Type Frequencies

詞彙 文件 給定一個加權來降低這些詞彙對於共生矩陣的影響(Landauer & Dumais, 1997)。而 加權方式可分為 local 與 global,local 權重是考慮詞彙在每一份文件中所佔的重要

性,如果詞彙在該份文件出現次數愈多,其 local 權重愈大;gloal 權重則是考慮到 詞彙在語料庫所有文件的重要性,與 local 權重相反,當詞彙出現很多文件中出現很 多次時,global 權重則愈小(Dumais, 1991; Landauer & Dumais, 1997)。下列為 m n× 的詞彙-文件共生矩陣 A 作詞彙權重加權的公式:

A=(fij×G i( )×L i j( , ))m n× (2.1) ( )

G i 代表第 i 個詞彙在語料庫的 global 權重,而 ( , )L i j 表示第 i 個詞彙在第 j 個文件 的 local 權重。一般研究發現使用 log-entropy 方法有較好的效果(Dumais, 1991),

其公式給定如下:

表2-3 The 10 x 9 Weighted Type-by-Document Matrix

詞彙 文件

三、 執行 SVD 矩陣轉換

其中 U 是正交矩陣(orthogonal matrix)或稱為左奇異向量(left singular value) , V 為正交矩陣(orthogonal matrix)或稱為右奇異向量(right singular value),∑為由 奇異特徵值組成的對角矩陣(∑ =diagonal( ,λ λ1 2,,λr),其於元素皆為 0) (Letsche

& Berry, 1997),U 矩陣的列向量稱為詞彙向量(type vector),而 V 矩陣的列向量稱 為文件向量(document vector)(Landauer, Foltz, & Laham, 1998)。

圖 2-2 SVD 與維度約化圖示

意比對的結果,所以我們可以利用維度約化(dimension reduction)來消除語意空間 中不重要之雜訊。而維度約化的方式是取出 SVD 後前k個最大的特徵奇異值,和U

矩陣、V矩陣前k個行向量( k< )r ,並重建矩陣Ak =UkkVkT,如圖 2-2 所示(Berry, Dumais, & O’Brien, 1995; Witter & Berry, 1998)。

陳明蕾等人(2009)的研究中提出其所建立的共生矩陣經由 SVD 後每個詞彙的 同義詞的測試會有不錯的效果(Berry, Drmac, & Jessup, 1999; Jessup & Martin, 2001;Lizza & Sartoretto, 2001.; Landauer & Dumais, 1997)。而在本研究中則是以 300 作為維度約化的維度數重新建置新的中文潛在語意空間。

參、 語意相似度計算

經由 SVD 重新建置的矩陣 Ak,是將詞彙、段落句子或文章以向量形式呈現該詞 彙、段落句子或文章在語意空間的相對位置,假設我們要判斷第 i 個詞彙和第 j 個詞 彙的相似度,則可利用 VSM(vector space model)求兩向量的夾角的餘弦值(cosine),

即可求得其語意相似度,公式如下:

McNamara 等人(2007)的研究中所定義的文件語意相似度比對方法的公式如下:

T 度對於 LSA 的 cosine 值有負高相關(相關性=-0.94,p<0.01),即詞彙向量長度愈大,

其刪除該詞彙之文件與原來文件兩者之間的 cosine 值愈低,表示在比對的文件中所 出現的每個關鍵詞彙的重要性程度皆不相同。

表 2-4 是其研究結果,LSA 為刪除該詞彙之文件與原來文件之 cosine 值,length 為該詞彙在語意空間中的向量長度,αi為該詞彙在詞彙權重加權計算時的 entropy

權重值。

表2-4 McNamara等人(2007)研究結果 LSA length αi

根據 McNamara 等人(2007)的研究結果敘述,在詞彙文件加權共生矩陣中重要性 較高的詞彙,在句子比對中的重要性卻不一定是最重要的。但是此項研究只以 LSA

根據上述公式進一步探討,發現此公式的詞彙加權方法有一限制,因為他只針 對摘要句子中的關鍵詞彙進行公式轉換加權,因此當句子中每個關鍵詞次數都一樣 時,每個詞彙權重都是一樣的,無法完全區別出每個詞彙的重要性。

相關文件