潛在語意分析

第二章文獻探討

第一節潛在語意分析

LSA 是使用大型的語料庫（Corpus）與利用統計方法萃取出和表達詞彙在語料庫中的上下文之間的語意關係。而使用 LSA 建置語意空間的基本概念是先建置一個二維矩陣空間的詞彙-文件共生矩陣（term-by-document occurrence matrix）表示詞彙與文件之間的關聯性，並使用奇異值分解(SVD)拆解原始的共生矩陣以得到詞彙與文件相對應的語意結構矩陣，接著利用維度約化（dimension reduction）為基礎去除一些不重要的雜訊維度，最後將矩陣重新建置即是具有代表性的潛在語意空間

（Landauer ＆ Dumais, 1997）。以下就語料庫的相關研究、潛在語意空間建置流程、

語意相似度計算與詞彙在文件重要性的研究分別進行說明。

壹、語料庫的相關研究

語料庫（Corpus）是指大型的詞語料資料庫，內容包含了大量的語料分析與文本資料，其語料庫內容是經由整理與有架構的的格式儲存，以提供語言相關之研究者進行分析與統計之研究（溫文喆，2008）。根據過去的相關研究指出利用 LSA 建置語意空間時，其所需要的語料庫的語料來源越大越好，即須包含大量的詞彙與文件，且其語料庫需要和研究目的有一定的相關（Wiemer-Hastings, 2004）。

過去應用語料庫於建置潛在語意空間的相關研究，Landauer等人（1998）曾經以葛羅里學術百科全書（Grolier Encyclopedia）作為語料庫，並建立一個60,768個詞彙和30,473個文件的詞彙－文件共生矩陣，接著利用SVD與維度約化將共生矩陣轉換成一個維度為300的語意空間。而在中文領域亦有相關研究，如葉鎮源（2002）曾經

建置一個約有1600個關鍵詞大小的語意空間，其語料來源是以新聞週刊中的100份新聞文件為小型語料庫。張國恩與宋曜廷（2005）設計一個可以自動評量小六學生閱讀摘要寫作的系統，建置以族群與群落與端午節兩個主題，其中以族群與群落為主題分別建置關鍵詞大小為488、901與1557的語意空間，以端午節為主題則分別建置關鍵詞大小為1340、2176與2921的語意空間。陳明蕾等人（2009）則利用了中央研究院所建置的現代漢語平衡語料庫（3.0版）建置了一個大型的中文語意空間，其中包含了49021的關鍵詞與40463份文件，其研究結果發現以潛在語意分析技術所建置的中文語意空間，能反應中文讀者內在心理詞彙表徵間之語意關聯性。

貳、潛在語意空間建置流程

根據Martin and Berry（2007）的研究中使用LSA建置語意空間，需要以下幾個步驟：建立詞彙-文件共生矩陣；詞彙權重計算；執行SVD轉換矩陣；維度約化。圖1-1 為LSA基本架構，灰色底部分表示使用LSA建置語意空間的流程。以下就本研究建立潛在語意空間之各步驟分別說明：

圖 1-1 LSA 基本架構

一、建立詞彙-文件共生矩陣

詞彙-文件共生矩陣為一個二維的空間矩陣，是以文件為行，以關鍵詞為列，其中關鍵詞為語料庫中所定義的詞彙，文件可以是語料庫中的一般文章、句子，或是研究者自行將文章切割成所需要的大小而形成的新文件，矩陣中的元素值為關鍵詞出現在每份文件的次數。根據（Quesada, 2006）的研究中說明，在共生矩陣中只出現一次的詞彙會干擾LSA語意比對的效果，因此在關鍵詞的選取中，是以詞彙在共生矩陣中出現兩次以上的作為研究所定義的關鍵詞彙。表2-1和表2-2為一小型語料庫和其相對應藉由詞彙出現次數所建立的詞彙－文件共生矩陣的例子（Witter &

Berry,1998）。

執行 SVD 矩陣轉換

語意空間

建立詞彙-文件共生矩陣

維度約化詞彙權重計算

相似度計算

表2-1 Titles for Topics on Music and Baking 文件標題

M1 Rock and Roll Music in the 1960’s

M2 Different Drum Rolls, a Demonstration of Techniques M3 Drum and Bass Composition

M4 A Perspective of Rock Music in the 90’s M5 Music and Composition of Popular Bands

B1 How to Make Bread and Rolls, a Demonstration B2 Ingredients for Crescent Rolls

B3 A Recipe for Sourdough Bread

B4 A Quick Recipe for Pizza Dough using Organic Ingredients

表2-2 The 10 x 9 Type-by-Document Matrix With Type Frequencies

詞彙文件給定一個加權來降低這些詞彙對於共生矩陣的影響（Landauer & Dumais, 1997）。而加權方式可分為 local 與 global，local 權重是考慮詞彙在每一份文件中所佔的重要

性，如果詞彙在該份文件出現次數愈多，其 local 權重愈大；gloal 權重則是考慮到詞彙在語料庫所有文件的重要性，與 local 權重相反，當詞彙出現很多文件中出現很多次時，global 權重則愈小（Dumais, 1991; Landauer & Dumais, 1997）。下列為 m n× 的詞彙－文件共生矩陣 A 作詞彙權重加權的公式：

A=(f_ij×G i( )×L i j( , ))m n_× (2.1) ( )

G i 代表第 i 個詞彙在語料庫的 global 權重，而 ( , )L i j 表示第 i 個詞彙在第 j 個文件 的 local 權重。一般研究發現使用 log-entropy 方法有較好的效果（Dumais, 1991），

其公式給定如下：

表2-3 The 10 x 9 Weighted Type-by-Document Matrix

詞彙文件

三、執行 SVD 矩陣轉換

其中 U 是正交矩陣（orthogonal matrix）或稱為左奇異向量（left singular value）， V 為正交矩陣（orthogonal matrix）或稱為右奇異向量（right singular value），∑為由奇異特徵值組成的對角矩陣（∑ =diagonal( ,λ λ₁ ₂,,λ_r)，其於元素皆為 0）（Letsche

& Berry, 1997），U 矩陣的列向量稱為詞彙向量（type vector），而 V 矩陣的列向量稱為文件向量（document vector）（Landauer, Foltz, & Laham, 1998）。

圖 2-2 SVD 與維度約化圖示

意比對的結果，所以我們可以利用維度約化（dimension reduction）來消除語意空間中不重要之雜訊。而維度約化的方式是取出 SVD 後前k個最大的特徵奇異值，和U

矩陣、V矩陣前k個行向量（ k< ）r ，並重建矩陣_A_k =_U_k∑_k_V_k^T，如圖 2-2 所示（Berry, Dumais, & O’Brien, 1995; Witter & Berry, 1998）。

陳明蕾等人（2009）的研究中提出其所建立的共生矩陣經由 SVD 後每個詞彙的同義詞的測試會有不錯的效果（Berry, Drmac, & Jessup, 1999； Jessup & Martin, 2001；Lizza & Sartoretto, 2001.； Landauer & Dumais, 1997）。而在本研究中則是以 300 作為維度約化的維度數重新建置新的中文潛在語意空間。

參、語意相似度計算

經由 SVD 重新建置的矩陣 A_k，是將詞彙、段落句子或文章以向量形式呈現該詞 彙、段落句子或文章在語意空間的相對位置，假設我們要判斷第 i 個詞彙和第 j 個詞 彙的相似度，則可利用 VSM（vector space model）求兩向量的夾角的餘弦值(cosine)，

即可求得其語意相似度，公式如下：

McNamara 等人（2007）的研究中所定義的文件語意相似度比對方法的公式如下：

T 度對於 LSA 的 cosine 值有負高相關（相關性=-0.94，p<0.01），即詞彙向量長度愈大，

其刪除該詞彙之文件與原來文件兩者之間的 cosine 值愈低，表示在比對的文件中所出現的每個關鍵詞彙的重要性程度皆不相同。

表 2-4 是其研究結果，LSA 為刪除該詞彙之文件與原來文件之 cosine 值，length 為該詞彙在語意空間中的向量長度，α_i為該詞彙在詞彙權重加權計算時的 entropy

權重值。

表2-4 McNamara等人（2007）研究結果 LSA length α_i

根據 McNamara 等人（2007）的研究結果敘述，在詞彙文件加權共生矩陣中重要性較高的詞彙，在句子比對中的重要性卻不一定是最重要的。但是此項研究只以 LSA

根據上述公式進一步探討，發現此公式的詞彙加權方法有一限制，因為他只針對摘要句子中的關鍵詞彙進行公式轉換加權，因此當句子中每個關鍵詞次數都一樣時，每個詞彙權重都是一樣的，無法完全區別出每個詞彙的重要性。

在文檔中以潛在語意分析評估詞彙重要性及其應用 (頁 13-22)

第二章 文獻探討

第一節 潛在語意分析

壹、 語料庫的相關研究

貳、 潛在語意空間建置流程

參、 語意相似度計算

第二章文獻探討

第一節潛在語意分析

壹、語料庫的相關研究

貳、潛在語意空間建置流程

參、語意相似度計算