• 沒有找到結果。

第二章 文獻探討

第一節 潛在語意分析

第一節 潛在語意分析 

LSA 是一種建立於向量空間模型上,並利用 SVD 和維度約化將文件所隱含 的知識轉換至語意空間中的技術。其概念主要是先建置一個能夠表示詞彙與文 件之間關聯性的二維矩陣空間:詞彙-文件共生矩陣(term-by-document

occurrence matrix),接著利用 SVD 的分解技術,將此詞彙-文件共生矩陣加以 拆解,可將此矩陣分解成三個矩陣,進而將文件所隱含的知識意義抽象化,並 轉換到語意空間中,並通過維度約化將向量空間的維度降低,藉以去除文件在 語意空間中的雜訊,而能夠讓LSA 夠精確地展現出文件所涵藏的知識意義。且 此一經過SVD 和維度約化所重新建置之語意空間,將比原始矩陣更具代表性

(Landauer & Dumais, 1997;Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990)。以下就語料庫的相關研究、潛在語意空間建置流程、語意關聯度計算 等研究分別進行說明。

壹、語料庫的相關研究

語料庫(Corpus)是指大型的詞語料資料庫,通常包含了大量經過分析整 理的文本以及語文資料,具有既定的格式與標記,藉以提供語言學相關之研究 做分析與與統計(溫文喆,2008)。過去的相關研究指出,當使用LSA在建立 語意空間時,除了語料庫本身與研究目的需有一定的相關之外,語料庫來源的 詞彙與文件數量則是越多越好(Wiemer-Hastings, 2004)。例如最早也最具代表

性的平衡語料庫,也就是美國的布朗語料庫(Brown Corpus)中即包含有一百多 萬個詞彙;而中央研究院的現代漢語平衡語料庫(4.0版)中包含一千多萬個詞彙,

是世界上第一個有完整詞類標記的漢語平衡語料庫。

在各個不同的領域中,研究者常會根據其目的與需要的不同,建置各種不同 類型的語料庫,如鄧守信(2005)為探討至臺灣學習華語文的學生,其華語語料 所呈現的中介現象,因此建置了對外漢語中介語語料庫;謝杰雄(2007)為了研 究臺灣的客家語,而建置了「T3」語料庫,內含有32619個客家語詞彙;中央研 究院張顯達、張鑑如、柯華葳、蔡素娟(2011)則以臺灣一歲半至八歲半的兒童 為基準,建置了臺灣兒童語言語料庫(TCCM),其中包含了362份語料檔案。而 在利用語料庫建立潛在語意空間方面,Landauer等人(1998)即曾以電子版葛羅 里學術百科全書(Grolier Encyclopedia)來做為語料庫來加以建置語意空間,建 立出一個有60,768個詞彙×30,473份文件的詞彙-文件共生矩陣,接著再透過SVD 與維度約化,得出一個維度300的語意空間,此語意空間便可以用來比對出隱含 在詞彙之中的語意關係(Landauer et al., 1998)。除此之外,科羅多大學的LSA 研究團隊,採用了擁有九百萬個詞彙的TASA(Touchstone Applied Science Associates, Inc.),並成功的建置德文與法文語料的語意空間。在中文方面,張國 恩與宋曜廷(2005)蒐集了國民小學三到六年級自然與生活科技課本內容及網路 相關文章,建置了以「族群與族群」和「端午節」兩個主題,分別為1557個詞彙 和2921個詞彙的語意空間,並由這兩個語意空間為基礎,設計出一個能夠自動評 量學生閱讀摘要寫作的系統,顯示出利用向量餘弦值為為標準的評分結果,和教 師的批閱結果彼此之間有顯著的相關性。而陳明蕾、王學誠、柯華葳(2009)則 使用了中央研究院建置之擁有五百萬詞彙的現代漢語平衡語料庫(3.0版)來建立 一個包含49021個詞彙×40463份文件的中文語意空間,且研究結果顯示出利用LSA 所建置出的中文語意空間,能夠反應出中文讀者內在心理詞彙之語意關聯性。

因本次研究對象以國小學童為主,因此所使用之語料庫為廖晨惠(2011)

研究中所建置之國小兒童語料庫,其內容來源為現行國民小學一到六年級教科

書及獲得授權之兒童讀物(國語日報、大紀元時報等),共計1208篇文章,並 經由LSA技術將文章切割成5219份文件,共計20022個詞彙。接著將不適合做為 題目的詞彙,如人名、介係詞、短語、成語等加以刪除之後,適合成為斷詞測 驗之題庫者共有10568個詞彙,最後依此建置出10568個詞彙×5219份文件的語意 空間。

貳、潛在語意空間建置之流程

使用LSA建置語意空間,除了必須先建立語料庫之外,需要進行以下幾個 步驟:(1)建立詞彙-文件共生矩陣(2)計算詞彙權重(3)運用SVD轉換矩 陣(4)維度約化(Martin and Berry, 2007)。以下為LSA之執行步驟,而灰色部 分則為建置語意空間的流程:

圖2­1­1 LSA執行步驟   

一、建立詞彙-文件共生矩陣

當語料庫中之資料收集完成後,接著就必須從此語料庫建立詞彙-文件共生 矩陣。此矩陣以文件為行、關鍵詞為列,文件可以是句子、一段文章、書本的一 個章節等,或是研究者對文章進行切割的新文件,而關鍵詞則為語料庫中所有被 定義出且不重複的詞彙,最後在矩陣中所填入的值則是各個關鍵詞出現在每份文 件的頻率。且根據研究顯示,在詞彙-文件共生矩陣中總共只出現一次的詞彙會 對LSA語意間的比對效果產生影響(Quesada, 2006),因此在選取關鍵詞時,必

建立語料庫

建立詞彙-文件共生矩陣

計算詞彙權重

運用SVD轉換矩陣

維度約化

建立語意空間

相似度計算

須將出現頻率僅有一次的詞彙加以刪除。以下之表2-1-1和表2-1-2為一小型語料庫 和其對應之關鍵詞與詞頻所建立的詞彙-文件共生矩陣的例子,M1-M5為音樂相 關的標題,B1-B4為烘培相關的標題(Witter & Berry, 1998)。

表2-1-1 Titles for Topics on Music and Baking 文件 標題

M1 Rock and Roll Music in the 1960’s

M2 Different Drum Rolls, a Demonstration of Techniques M3 Drum and Bass Composition

M4 A Perspective of Rock Music in the 90’s M5 Music and Composition of Popular Bands

B1 How to Make Bread and Rolls, a Demonstration B2 Ingredients for Crescent Rolls

B3 A Recipe for Sourdough Bread

B4 A Quick Recipe for Pizza Dough using Organic Ingredients

資料來源:Handbook of Latent Semantic Analysis. (p. 37), by Martin, D.I., & Berry, M. W. Mahwah, 2007, NJ: Lawrence Erlbaum Associates.

 

表2-1-2 The 10 x 9 Type-by-Document Matrix With Type Frequencies

詞彙 文件

資料來源:Handbook of Latent Semantic Analysis. (p. 38), by Martin, D.I., & Berry, M. W. Mahwah, 2007, NJ: Lawrence Erlbaum Associates.

二、計算詞彙權重

因為考量到每個不同的詞彙以及文件都具有不同的重要性,因此需要給予其 不同的權重。研究中指出,與只出現在部份文件的關鍵性詞彙相較起來,一個在 眾多文件裡皆頻繁出現的詞彙,不論是在語意上或是在詞彙-文件共生矩陣中都 並非具有關鍵性的意義(例如:的、是、在),因此會給予此類過於頻繁出現的 詞彙較低的權重,以及只出現在部份文件的關鍵性詞彙較高的權重(Landauer &

Dumais, 1997)。

權重計算方式分為兩個部份:local權重與global權重。local權重針對的是文件,

指的是各個詞彙在每一份文件中的重要性,因此詞彙重要性通常與詞彙出現頻率 成正比;global權重針對的則是語料庫,其代表了各個詞彙在語料庫中的重要性,

因此詞彙頻率愈高,往往其詞彙重要性會降得愈低(Dumais, 1991;Salton &

Buckley, 1991;Landauer & Dumais, 1997;Letsche & Berry, 1997)。詞彙-文件 共生矩陣之權重加權公式如下:

a local , global

(2.1)

其中的 global 代表第 i 個詞彙在語料庫的 global 權重,而 local , 則表示第 i 個詞彙在第 j 份文件的 local 權重。而本研究中所採用的權重計算 方式為Log-Entropy,公式如下:

local , log 1

(2.2)

其中 表示第 i 個詞彙在第 j 份文件中所出現的次數。

global 1   log

log ,

(2.3)

其中  則表示第 i 個詞彙在所有文件中出現次數的總和。

表2-1-3為表2-1-2經過 Log-Entropy之權重加權後所形成的加權共生矩陣。

表2-1-3 The 10 x 9 Weighted Type-by-Document Matrix

詞彙 文件

M1 M2 M3 M4 M5 B1 B2 B3 B4 Bread 0 0 0 0 0 .474 0 .474 0 Composition 0 0 .474 0 .474 0 0 0 0 Demonstration 0 .474 0 0 0 .474 0 0 0

Dough 0 0 0 0 0 0 0 .474 .474 Drum 0 .474 .474 0 0 0 0 0 0 Ingredients 0 0 0 0 0 0 .474 0 .474

Music .347 0 0 .347 .347 0 0 0 0 Recipe 0 0 0 0 0 0 0 .474 .474

Rock .474 0 0 .474 0 0 0 0 0 Roll .256 .256 0 0 0 .256 .256 0 0 資料來源:Handbook of Latent Semantic Analysis. (p. 39), by Martin, D.I., & Berry,

M. W. Mahwah, 2007, NJ: Lawrence Erlbaum Associates.

三、執行SVD矩陣轉換

使用SVD來分解詞彙-文件共生矩陣有以下幾個優點:第一,可以同時代表 關鍵詞與文件;第二、能夠充分擷取語意結構,並允許調整關鍵詞與文件在向量 空間中的維度數;第三,SVD運算在大型資料庫中易於管理(Berry & Martin, 2005)。

詞彙-文件共生矩陣基本上僅能表現出每一個關鍵詞在文件所出現的位置 以及次數多寡,但並未能呈現出關鍵詞彼此間的語意關係。藉由SVD的運算過程,

可以算出每個關鍵詞在對角矩陣中的特徵值,一般來說特徵值與訊息量呈現正相

關,也就是特徵值愈大的向量,訊息量便愈大,反之亦然。而經過SVD轉換的詞 彙-文件共生矩陣可被拆解成:

Α = UΣVΤ

(2.4)

其中U矩陣的列向量為詞彙向量(type vector),而V矩陣的列向量為文件向 量(document vector)(Landauer, Foltz & Laham, 1998)。拆解圖示如圖2-1-2所示。

圖2-1-2 SVD與維度約化圖示

資料來源:Handbook of Latent Semantic Analysis. (p. 41), by Martin, D.I., & Berry, M. W. Mahwah, 2007, NJ: Lawrence Erlbaum Associates.

四、維度約化(dimension reduction)

詞彙-文件共生矩陣經過SVD的運算處理之後,在語意空間的矩陣過大時,

由於維度數量過多,因而會產生許多的雜訊(noise),進而會對語意比對的結果 產生干擾,因此可利用維度約化的方式來消除語意空間中不重要之雜訊。維度約 化的方式是取出在經過SVD後,前k個最大的特徵值,和U矩陣、V矩陣前k個行 向量(k<r),最後重新建置矩陣 Α = U Σ VT ,如圖2-1-2所示(Berry, Dumais, &

O’Brien, 1995; Witter & Berry, 1998)。

在執行維度約化時,若維度約化後剩餘的維度數量過少,則詞彙之間的相似 Ak Uk

V T Σ

k

A(m x n) U(m x r) Σ(r x r) VT(r x n)

k k

k

性會變得過高;而若維度約化後剩餘的維度數量過多,則無法把語意空間中之雜 訊做有效率的刪除。根據過去的研究結果顯示,若將維度約化的範圍設定為100 到300個維度間,其在同義詞的測試效果最佳(Berry et al., 1999; Jessup&Martin, 2001; Lizza & Sartoretto, 2001),因此在本研究中將維度約化的維度數定為300,

並用來建置新的語意空間。

參、詞彙語意關聯度計算

重新建置的矩陣 Α = U Σ VT ,能夠將詞彙、句子、文件等呈現在向量空間 中,因此可利用VSM(vector space model)來求得兩者間的夾角的餘弦值(cosine)

之方式來得出兩者間的語意關聯度。若要計算詞彙   與詞彙   間的詞彙關聯度,

計算公式如下:

cos ,   

(2.5)

在潛在語意空間中,若計算出的cosine值愈高,則兩者間的語意關聯度愈高;

反之,若計算出的cosine值愈低,則兩者間的語意關聯度愈低。圖2-1-3為Witter &

反之,若計算出的cosine值愈低,則兩者間的語意關聯度愈低。圖2-1-3為Witter &

相關文件