潛在語意分析

第二章文獻探討

第一節潛在語意分析

LSA 是一種建立於向量空間模型上，並利用 SVD 和維度約化將文件所隱含的知識轉換至語意空間中的技術。其概念主要是先建置一個能夠表示詞彙與文件之間關聯性的二維矩陣空間：詞彙－文件共生矩陣（term-by-document

occurrence matrix），接著利用 SVD 的分解技術，將此詞彙－文件共生矩陣加以拆解，可將此矩陣分解成三個矩陣，進而將文件所隱含的知識意義抽象化，並轉換到語意空間中，並通過維度約化將向量空間的維度降低，藉以去除文件在語意空間中的雜訊，而能夠讓LSA 夠精確地展現出文件所涵藏的知識意義。且此一經過SVD 和維度約化所重新建置之語意空間，將比原始矩陣更具代表性

（Landauer ＆ Dumais, 1997；Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990）。以下就語料庫的相關研究、潛在語意空間建置流程、語意關聯度計算等研究分別進行說明。

壹、語料庫的相關研究

語料庫（Corpus）是指大型的詞語料資料庫，通常包含了大量經過分析整理的文本以及語文資料，具有既定的格式與標記，藉以提供語言學相關之研究做分析與與統計（溫文喆，2008）。過去的相關研究指出，當使用LSA在建立語意空間時，除了語料庫本身與研究目的需有一定的相關之外，語料庫來源的詞彙與文件數量則是越多越好（Wiemer-Hastings, 2004）。例如最早也最具代表

性的平衡語料庫，也就是美國的布朗語料庫（Brown Corpus）中即包含有一百多萬個詞彙；而中央研究院的現代漢語平衡語料庫（4.0版）中包含一千多萬個詞彙，

是世界上第一個有完整詞類標記的漢語平衡語料庫。

在各個不同的領域中，研究者常會根據其目的與需要的不同，建置各種不同類型的語料庫，如鄧守信（2005）為探討至臺灣學習華語文的學生，其華語語料所呈現的中介現象，因此建置了對外漢語中介語語料庫；謝杰雄（2007）為了研究臺灣的客家語，而建置了「T3」語料庫，內含有32619個客家語詞彙；中央研究院張顯達、張鑑如、柯華葳、蔡素娟（2011）則以臺灣一歲半至八歲半的兒童為基準，建置了臺灣兒童語言語料庫（TCCM），其中包含了362份語料檔案。而在利用語料庫建立潛在語意空間方面，Landauer等人（1998）即曾以電子版葛羅里學術百科全書（Grolier Encyclopedia）來做為語料庫來加以建置語意空間，建立出一個有60,768個詞彙×30,473份文件的詞彙－文件共生矩陣，接著再透過SVD 與維度約化，得出一個維度300的語意空間，此語意空間便可以用來比對出隱含在詞彙之中的語意關係（Landauer et al., 1998）。除此之外，科羅多大學的LSA 研究團隊，採用了擁有九百萬個詞彙的TASA（Touchstone Applied Science Associates, Inc.），並成功的建置德文與法文語料的語意空間。在中文方面，張國恩與宋曜廷（2005）蒐集了國民小學三到六年級自然與生活科技課本內容及網路相關文章，建置了以「族群與族群」和「端午節」兩個主題，分別為1557個詞彙和2921個詞彙的語意空間，並由這兩個語意空間為基礎，設計出一個能夠自動評量學生閱讀摘要寫作的系統，顯示出利用向量餘弦值為為標準的評分結果，和教師的批閱結果彼此之間有顯著的相關性。而陳明蕾、王學誠、柯華葳（2009）則使用了中央研究院建置之擁有五百萬詞彙的現代漢語平衡語料庫（3.0版）來建立一個包含49021個詞彙×40463份文件的中文語意空間，且研究結果顯示出利用LSA 所建置出的中文語意空間，能夠反應出中文讀者內在心理詞彙之語意關聯性。

因本次研究對象以國小學童為主，因此所使用之語料庫為廖晨惠（2011）

研究中所建置之國小兒童語料庫，其內容來源為現行國民小學一到六年級教科

書及獲得授權之兒童讀物（國語日報、大紀元時報等），共計1208篇文章，並經由LSA技術將文章切割成5219份文件，共計20022個詞彙。接著將不適合做為題目的詞彙，如人名、介係詞、短語、成語等加以刪除之後，適合成為斷詞測驗之題庫者共有10568個詞彙，最後依此建置出10568個詞彙×5219份文件的語意空間。

貳、潛在語意空間建置之流程

使用LSA建置語意空間，除了必須先建立語料庫之外，需要進行以下幾個步驟：（1）建立詞彙－文件共生矩陣（2）計算詞彙權重（3）運用SVD轉換矩陣（4）維度約化（Martin and Berry, 2007）。以下為LSA之執行步驟，而灰色部分則為建置語意空間的流程：

圖211 LSA執行步驟

一、建立詞彙－文件共生矩陣

當語料庫中之資料收集完成後，接著就必須從此語料庫建立詞彙－文件共生矩陣。此矩陣以文件為行、關鍵詞為列，文件可以是句子、一段文章、書本的一個章節等，或是研究者對文章進行切割的新文件，而關鍵詞則為語料庫中所有被定義出且不重複的詞彙，最後在矩陣中所填入的值則是各個關鍵詞出現在每份文件的頻率。且根據研究顯示，在詞彙－文件共生矩陣中總共只出現一次的詞彙會對LSA語意間的比對效果產生影響（Quesada, 2006），因此在選取關鍵詞時，必

建立語料庫

建立詞彙－文件共生矩陣

計算詞彙權重

運用SVD轉換矩陣

維度約化

建立語意空間

相似度計算

須將出現頻率僅有一次的詞彙加以刪除。以下之表2-1-1和表2-1-2為一小型語料庫和其對應之關鍵詞與詞頻所建立的詞彙－文件共生矩陣的例子，M1-M5為音樂相關的標題，B1-B4為烘培相關的標題（Witter & Berry, 1998）。

表2-1-1 Titles for Topics on Music and Baking 文件標題

M1 Rock and Roll Music in the 1960’s

M2 Different Drum Rolls, a Demonstration of Techniques M3 Drum and Bass Composition

M4 A Perspective of Rock Music in the 90’s M5 Music and Composition of Popular Bands

B1 How to Make Bread and Rolls, a Demonstration B2 Ingredients for Crescent Rolls

B3 A Recipe for Sourdough Bread

B4 A Quick Recipe for Pizza Dough using Organic Ingredients

資料來源：Handbook of Latent Semantic Analysis. (p. 37), by Martin, D.I., & Berry, M. W. Mahwah, 2007, NJ: Lawrence Erlbaum Associates.

表2-1-2 The 10 x 9 Type-by-Document Matrix With Type Frequencies

詞彙文件

資料來源：Handbook of Latent Semantic Analysis. (p. 38), by Martin, D.I., & Berry, M. W. Mahwah, 2007, NJ: Lawrence Erlbaum Associates.

二、計算詞彙權重

因為考量到每個不同的詞彙以及文件都具有不同的重要性，因此需要給予其不同的權重。研究中指出，與只出現在部份文件的關鍵性詞彙相較起來，一個在眾多文件裡皆頻繁出現的詞彙，不論是在語意上或是在詞彙－文件共生矩陣中都並非具有關鍵性的意義（例如：的、是、在），因此會給予此類過於頻繁出現的詞彙較低的權重，以及只出現在部份文件的關鍵性詞彙較高的權重（Landauer &

Dumais, 1997）。

權重計算方式分為兩個部份：local權重與global權重。local權重針對的是文件，

指的是各個詞彙在每一份文件中的重要性，因此詞彙重要性通常與詞彙出現頻率成正比；global權重針對的則是語料庫，其代表了各個詞彙在語料庫中的重要性，

因此詞彙頻率愈高，往往其詞彙重要性會降得愈低（Dumais, 1991；Salton &

Buckley, 1991；Landauer & Dumais, 1997；Letsche & Berry, 1997）。詞彙－文件共生矩陣之權重加權公式如下：

a local , global

（2.1）

其中的 global 代表第 i 個詞彙在語料庫的 global 權重，而 local , 則表示第 i 個詞彙在第 j 份文件的 local 權重。而本研究中所採用的權重計算方式為Log-Entropy，公式如下：

local , log 1

（2.2）

其中 表示第 i 個詞彙在第 j 份文件中所出現的次數。

global 1 log

log ，

（2.3）

其中 則表示第 i 個詞彙在所有文件中出現次數的總和。

表2-1-3為表2-1-2經過 Log-Entropy之權重加權後所形成的加權共生矩陣。

表2-1-3 The 10 x 9 Weighted Type-by-Document Matrix

詞彙文件

M1 M2 M3 M4 M5 B1 B2 B3 B4 Bread 0 0 0 0 0 .474 0 .474 0 Composition 0 0 .474 0 .474 0 0 0 0 Demonstration 0 .474 0 0 0 .474 0 0 0

Dough 0 0 0 0 0 0 0 .474 .474 Drum 0 .474 .474 0 0 0 0 0 0 Ingredients 0 0 0 0 0 0 .474 0 .474

Music .347 0 0 .347 .347 0 0 0 0 Recipe 0 0 0 0 0 0 0 .474 .474

Rock .474 0 0 .474 0 0 0 0 0 Roll .256 .256 0 0 0 .256 .256 0 0 資料來源：Handbook of Latent Semantic Analysis. (p. 39), by Martin, D.I., & Berry,

M. W. Mahwah, 2007, NJ: Lawrence Erlbaum Associates.

三、執行SVD矩陣轉換

使用SVD來分解詞彙－文件共生矩陣有以下幾個優點：第一，可以同時代表關鍵詞與文件；第二、能夠充分擷取語意結構，並允許調整關鍵詞與文件在向量空間中的維度數；第三，SVD運算在大型資料庫中易於管理（Berry & Martin, 2005）。

詞彙－文件共生矩陣基本上僅能表現出每一個關鍵詞在文件所出現的位置以及次數多寡，但並未能呈現出關鍵詞彼此間的語意關係。藉由SVD的運算過程，

可以算出每個關鍵詞在對角矩陣中的特徵值，一般來說特徵值與訊息量呈現正相

關，也就是特徵值愈大的向量，訊息量便愈大，反之亦然。而經過SVD轉換的詞彙－文件共生矩陣可被拆解成：

Α = UΣV^Τ

（2.4）

其中U矩陣的列向量為詞彙向量（type vector），而V矩陣的列向量為文件向量（document vector）（Landauer, Foltz & Laham, 1998）。拆解圖示如圖2-1-2所示。

圖2-1-2 SVD與維度約化圖示

資料來源：Handbook of Latent Semantic Analysis. (p. 41), by Martin, D.I., & Berry, M. W. Mahwah, 2007, NJ: Lawrence Erlbaum Associates.

四、維度約化（dimension reduction）

詞彙－文件共生矩陣經過SVD的運算處理之後，在語意空間的矩陣過大時，

由於維度數量過多，因而會產生許多的雜訊（noise），進而會對語意比對的結果產生干擾，因此可利用維度約化的方式來消除語意空間中不重要之雜訊。維度約化的方式是取出在經過SVD後，前k個最大的特徵值，和U矩陣、V矩陣前k個行向量（k<r），最後重新建置矩陣 Α = U Σ V^T ，如圖2-1-2所示（Berry, Dumais, &

O’Brien, 1995; Witter & Berry, 1998）。

在執行維度約化時，若維度約化後剩餘的維度數量過少，則詞彙之間的相似 Ak Uk

V^T Σ

A（m x n） U（m x r） Σ（r x r） V^T（r x n）

＝

k k

性會變得過高；而若維度約化後剩餘的維度數量過多，則無法把語意空間中之雜訊做有效率的刪除。根據過去的研究結果顯示，若將維度約化的範圍設定為100 到300個維度間，其在同義詞的測試效果最佳（Berry et al., 1999; Jessup&Martin, 2001; Lizza & Sartoretto, 2001），因此在本研究中將維度約化的維度數定為300，

並用來建置新的語意空間。

參、詞彙語意關聯度計算

重新建置的矩陣 Α = U Σ V^T ，能夠將詞彙、句子、文件等呈現在向量空間中，因此可利用VSM（vector space model）來求得兩者間的夾角的餘弦值（cosine）

之方式來得出兩者間的語意關聯度。若要計算詞彙與詞彙間的詞彙關聯度，

計算公式如下：

cos ,

（2.5）

在潛在語意空間中，若計算出的cosine值愈高，則兩者間的語意關聯度愈高；

反之，若計算出的cosine值愈低，則兩者間的語意關聯度愈低。圖2-1-3為Witter &

在文檔中以潛在語意分析建置斷詞測驗輔助工具及其在閱讀理解上之應用 (頁 15-0)

第二章 文獻探討

第一節 潛在語意分析

第一節 潛在語意分析

壹、語料庫的相關研究

貳、潛在語意空間建置之流程

參、詞彙語意關聯度計算

第二章文獻探討

第一節潛在語意分析

第一節潛在語意分析