潛在語意分析

第二章文獻探討

第一節潛在語意分析

人類語言學習的歷程中，理解日常生活眾多隱含複雜意義的語意關係，是重要的認知行為之一。例如單純就「老師」和「學生」這二個詞彙而言，雖然表面上並沒有相同的字，但我們會根據以往閱讀過的許多文章，直覺的認為這二個詞彙彼此間相當程度的語意關聯性。Deerwester、Dumais、Furnas、Landauer 與 Harshman (1990)所提出的潛在語意分析是一種可以用來分析大量語料資訊的擷取技術（陳明蕾等人，2009），採用向量空間模式，以數學統計方式表徵關鍵字和原始文件間的關係(Landauer & Dumais, 1997)並將兩者的關係進行轉換，找出關鍵字在文件中所隱含的概念及關鍵字對應文件的潛在語意。

要建構一個潛在語意分析計算的過程，首先，必須建置一個彼此有關聯性且相似語意字的語料庫（corpus），再從語料庫中建立一個可以呈現原先文件和字詞之間關聯的共生矩陣（ term-to-document co-occurrence matrix ） (Wang, Pomplun, Chen, Ko, & Rayner, 2010)。為了將隱藏在字詞背後的語意關聯性計算出來，因此，利用線性代數方法中的奇異值分解法（singular value decomposition, SVD）和維度約化（Dimension Reduction）方式(Landauer & Dumais, 1997)，去除一些不重要的雜訊維度後，再將每一個字詞（word）或一段落（passage）以向量的方式呈現在一個語意空間（semantic space）中(Wang et al., 2010)，將原本字面看不到的隱含語意挖掘出來，有效的提昇資訊擷取，更精確推演出文件所隱含的知識。

使用 LSA 建立語意空間的步驟如下(Maletic & Marcus, 2000)：

一、建立詞彙-文件共生矩陣。

二、以 SVD 方法進行矩陣轉換。

三、取出特徵奇異值（singular value）進行維度約化四、重建矩陣。

LSA 基本的架構流程如圖 2-1 所示：

圖2-1 LSA基本架構

壹、建立詞彙-文件共生矩陣

共生矩陣為一個二維的空間矩陣，是以語料庫中所定義的關鍵詞為列，以文件為行，當中的元素值為關鍵詞出現在每份文件的次數。語料庫中文件的形式包括文章、句子，或是研究者自行切割文章為所需大小的新文件。（Quesada, 2006）的研究中指出，在共生矩陣中只出現一次的詞彙會干擾 LSA 語意比對的效果，因此在關鍵詞的選取上，以在共生矩陣中出現兩次以上的詞彙作為研究所定義的關鍵詞彙。

建立語料庫

進行 SVD 矩陣分解

語意空間

建立詞彙-文件共生矩陣

維度約化

貳、以 SVD 方法進行矩陣轉換

各變數代表意義：U 為正交矩陣（orthogonal matrix），或稱左奇異向量（left singular value）；V 為正交矩陣（orthogonal matrix），或稱右奇異向量（right singular value）；為由奇異特徵值組成的對角矩陣（ diagonal( , ₁ ₂, , )_r ，其餘元素為 0）（Letsche & Berry, 1997）。其中 U 矩陣的列向量稱為「詞彙向量

（type vector）」，而 V 矩陣的列向量稱為「文件向量（document vector）」（Landauer, Foltz, & Laham, 1998）。

參、維度約化（dimension reduction）

經由 SVD 進行矩陣轉換後，可以利用維度約化來消除語意空間中不重要之效果（Berry, Drmac, & Jessup, 1999；Jessup & Martin, 2001；Landauer & Dumais, 1997；Lizza & Sartoretto, 2001）。因而在本研究中以 300 作為維度約化的維度數，來重新建置新的中文潛在語意空間。

由上述研究可知，潛在語意分析已被使用在處理大量的語料資訊，能表徵

出隱含在字詞下的語意知識，因此可運用這技術建立語意空間，並應用於擴充詞彙的教學上。

在文檔中以LSA為基礎之兒童中文語意關聯輔助學習系統建置 (頁 19-22)

第二章 文獻探討

第一節 潛在語意分析

壹、建立詞彙-文件共生矩陣

貳、以 SVD 方法進行矩陣轉換

參、維度約化（dimension reduction）

第二章文獻探討

第一節潛在語意分析