第二章 文獻探討
第一節 潛在語意分析
LSA 是使用大型的語料庫(Corpus)與利用統計方法萃取出和表達詞彙在語料 庫中的上下文之間的語意關係。而使用 LSA 建置語意空間的基本概念是先建置一個 二維矩陣空間的詞彙-文件共生矩陣(term-by-document occurrence matrix)表示詞彙 與文件之間的關聯性,並使用奇異值分解(SVD)拆解原始的共生矩陣以得到詞彙與文 件相對應的語意結構矩陣,接著利用維度約化(dimension reduction)為基礎去除一 些 不 重 要 的 雜 訊 維 度 , 最 後 將 矩 陣 重 新 建 置 即 是 具 有 代 表 性 的 潛 在 語 意 空 間
(Landauer & Dumais, 1997)。以下就語料庫的相關研究、潛在語意空間建置流程、
語意相似度計算與詞彙在文件重要性的研究分別進行說明。
壹、 語料庫的相關研究
語料庫(Corpus)是指大型的詞語料資料庫,內容包含了大量的語料分析與文 本資料,其語料庫內容是經由整理與有架構的的格式儲存,以提供語言相關之研究 者進行分析與統計之研究(溫文喆,2008)。根據過去的相關研究指出利用 LSA 建 置語意空間時,其所需要的語料庫的語料來源越大越好,即須包含大量的詞彙與文 件,且其語料庫需要和研究目的有一定的相關(Wiemer-Hastings, 2004)。
過去應用語料庫於建置潛在語意空間的相關研究,Landauer等人(1998)曾經以 葛羅里學術百科全書(Grolier Encyclopedia)作為語料庫,並建立一個60,768個詞彙 和30,473個文件的詞彙-文件共生矩陣,接著利用SVD與維度約化將共生矩陣轉換 成一個維度為300的語意空間。而在中文領域亦有相關研究,如葉鎮源(2002)曾經
建置一個約有1600個關鍵詞大小的語意空間,其語料來源是以新聞週刊中的100份新 聞文件為小型語料庫。張國恩與宋曜廷(2005)設計一個可以自動評量小六學生閱 讀摘要寫作的系統,建置以族群與群落與端午節兩個主題,其中以族群與群落為主 題分別建置關鍵詞大小為488、901與1557的語意空間,以端午節為主題則分別建置 關鍵詞大小為1340、2176與2921的語意空間。陳明蕾等人(2009)則利用了中央研 究院所建置的現代漢語平衡語料庫(3.0版)建置了一個大型的中文語意空間,其中 包含了49021的關鍵詞與40463份文件,其研究結果發現以潛在語意分析技術所建置 的中文語意空間,能反應中文讀者內在心理詞彙表徵間之語意關聯性。
貳、 潛在語意空間建置流程
根據Martin and Berry(2007)的研究中使用LSA建置語意空間,需要以下幾個步 驟:建立詞彙-文件共生矩陣;詞彙權重計算;執行SVD轉換矩陣;維度約化。圖1-1 為LSA基本架構,灰色底部分表示使用LSA建置語意空間的流程。以下就本研究建 立潛在語意空間之各步驟分別說明:
圖 1-1 LSA 基本架構
一、 建立詞彙-文件共生矩陣
詞彙-文件共生矩陣為一個二維的空間矩陣,是以文件為行,以關鍵詞為列,其 中關鍵詞為語料庫中所定義的詞彙,文件可以是語料庫中的一般文章、句子,或是 研究者自行將文章切割成所需要的大小而形成的新文件,矩陣中的元素值為關鍵詞 出現在每份文件的次數。根據(Quesada, 2006)的研究中說明,在共生矩陣中只出 現一次的詞彙會干擾LSA語意比對的效果,因此在關鍵詞的選取中,是以詞彙在共 生矩陣中出現兩次以上的作為研究所定義的關鍵詞彙。表2-1和表2-2為一小型語料庫 和其相對應藉由詞彙出現次數所建立的詞彙-文件共生矩陣的例子(Witter &
Berry,1998)。
執行 SVD 矩陣轉換
語意空間
建立詞彙-文件共生矩陣
維度約化 詞彙權重計算
相似度計算
表2-1 Titles for Topics on Music and Baking 文件 標題
M1 Rock and Roll Music in the 1960’s
M2 Different Drum Rolls, a Demonstration of Techniques M3 Drum and Bass Composition
M4 A Perspective of Rock Music in the 90’s M5 Music and Composition of Popular Bands
B1 How to Make Bread and Rolls, a Demonstration B2 Ingredients for Crescent Rolls
B3 A Recipe for Sourdough Bread
B4 A Quick Recipe for Pizza Dough using Organic Ingredients
表2-2 The 10 x 9 Type-by-Document Matrix With Type Frequencies
詞彙 文件 給定一個加權來降低這些詞彙對於共生矩陣的影響(Landauer & Dumais, 1997)。而 加權方式可分為 local 與 global,local 權重是考慮詞彙在每一份文件中所佔的重要
性,如果詞彙在該份文件出現次數愈多,其 local 權重愈大;gloal 權重則是考慮到 詞彙在語料庫所有文件的重要性,與 local 權重相反,當詞彙出現很多文件中出現很 多次時,global 權重則愈小(Dumais, 1991; Landauer & Dumais, 1997)。下列為 m n× 的詞彙-文件共生矩陣 A 作詞彙權重加權的公式:
A=(fij×G i( )×L i j( , ))m n× (2.1) ( )
G i 代表第 i 個詞彙在語料庫的 global 權重,而 ( , )L i j 表示第 i 個詞彙在第 j 個文件 的 local 權重。一般研究發現使用 log-entropy 方法有較好的效果(Dumais, 1991),
其公式給定如下:
表2-3 The 10 x 9 Weighted Type-by-Document Matrix
詞彙 文件
三、 執行 SVD 矩陣轉換
其中 U 是正交矩陣(orthogonal matrix)或稱為左奇異向量(left singular value) , V 為正交矩陣(orthogonal matrix)或稱為右奇異向量(right singular value),∑為由 奇異特徵值組成的對角矩陣(∑ =diagonal( ,λ λ1 2,,λr),其於元素皆為 0) (Letsche
& Berry, 1997),U 矩陣的列向量稱為詞彙向量(type vector),而 V 矩陣的列向量稱 為文件向量(document vector)(Landauer, Foltz, & Laham, 1998)。
圖 2-2 SVD 與維度約化圖示
意比對的結果,所以我們可以利用維度約化(dimension reduction)來消除語意空間 中不重要之雜訊。而維度約化的方式是取出 SVD 後前k個最大的特徵奇異值,和U
矩陣、V矩陣前k個行向量( k< )r ,並重建矩陣Ak =Uk∑kVkT,如圖 2-2 所示(Berry, Dumais, & O’Brien, 1995; Witter & Berry, 1998)。
陳明蕾等人(2009)的研究中提出其所建立的共生矩陣經由 SVD 後每個詞彙的 同義詞的測試會有不錯的效果(Berry, Drmac, & Jessup, 1999; Jessup & Martin, 2001;Lizza & Sartoretto, 2001.; Landauer & Dumais, 1997)。而在本研究中則是以 300 作為維度約化的維度數重新建置新的中文潛在語意空間。
參、 語意相似度計算
經由 SVD 重新建置的矩陣 Ak,是將詞彙、段落句子或文章以向量形式呈現該詞 彙、段落句子或文章在語意空間的相對位置,假設我們要判斷第 i 個詞彙和第 j 個詞 彙的相似度,則可利用 VSM(vector space model)求兩向量的夾角的餘弦值(cosine),
即可求得其語意相似度,公式如下:
McNamara 等人(2007)的研究中所定義的文件語意相似度比對方法的公式如下:
T 度對於 LSA 的 cosine 值有負高相關(相關性=-0.94,p<0.01),即詞彙向量長度愈大,
其刪除該詞彙之文件與原來文件兩者之間的 cosine 值愈低,表示在比對的文件中所 出現的每個關鍵詞彙的重要性程度皆不相同。
表 2-4 是其研究結果,LSA 為刪除該詞彙之文件與原來文件之 cosine 值,length 為該詞彙在語意空間中的向量長度,αi為該詞彙在詞彙權重加權計算時的 entropy
權重值。
表2-4 McNamara等人(2007)研究結果 LSA length αi
根據 McNamara 等人(2007)的研究結果敘述,在詞彙文件加權共生矩陣中重要性 較高的詞彙,在句子比對中的重要性卻不一定是最重要的。但是此項研究只以 LSA
根據上述公式進一步探討,發現此公式的詞彙加權方法有一限制,因為他只針 對摘要句子中的關鍵詞彙進行公式轉換加權,因此當句子中每個關鍵詞次數都一樣 時,每個詞彙權重都是一樣的,無法完全區別出每個詞彙的重要性。