• 沒有找到結果。

第二章 文獻探討

第一節 潛在語意分析

人類語言學習的歷程中,理解日常生活眾多隱含複雜意義的語意關係,是 重要的認知行為之一。例如單純就「老師」和「學生」這二個詞彙而言,雖然 表面上並沒有相同的字,但我們會根據以往閱讀過的許多文章,直覺的認為這 二個詞彙彼此間相當程度的語意關聯性。Deerwester、Dumais、Furnas、Landauer 與 Harshman (1990)所提出的潛在語意分析是一種可以用來分析大量語料資訊 的擷取技術(陳明蕾等人,2009),採用向量空間模式,以數學統計方式表徵關 鍵字和原始文件間的關係(Landauer & Dumais, 1997)並將兩者的關係進行轉 換,找出關鍵字在文件中所隱含的概念及關鍵字對應文件的潛在語意。

要建構一個潛在語意分析計算的過程,首先,必須建置一個彼此有關聯性 且相似語意字的語料庫(corpus),再從語料庫中建立一個可以呈現原先文件和 字 詞 之 間 關 聯 的 共 生 矩 陣 ( term-to-document co-occurrence matrix ) (Wang, Pomplun, Chen, Ko, & Rayner, 2010)。為了將隱藏在字詞背後的語意關聯性計算 出來,因此,利用線性代數方法中的奇異值分解法(singular value decomposition, SVD)和維度約化(Dimension Reduction)方式(Landauer & Dumais, 1997),去 除一些不重要的雜訊維度後,再將每一個字詞(word)或一段落(passage)以 向量的方式呈現在一個語意空間(semantic space)中(Wang et al., 2010),將原 本字面看不到的隱含語意挖掘出來,有效的提昇資訊擷取,更精確推演出文件 所隱含的知識。

使用 LSA 建立語意空間的步驟如下(Maletic & Marcus, 2000):

一、 建立詞彙-文件共生矩陣。

二、 以 SVD 方法進行矩陣轉換。

三、 取出特徵奇異值(singular value)進行維度約化 四、 重建矩陣。

LSA 基本的架構流程如圖 2-1 所示:

圖2-1 LSA基本架構

壹、建立詞彙-文件共生矩陣

共生矩陣為一個二維的空間矩陣,是以語料庫中所定義的關鍵詞為列,以 文件為行,當中的元素值為關鍵詞出現在每份文件的次數。語料庫中文件的形 式包括文章、句子,或是研究者自行切割文章為所需大小的新文件。(Quesada, 2006)的研究中指出,在共生矩陣中只出現一次的詞彙會干擾 LSA 語意比對的 效果,因此在關鍵詞的選取上,以在共生矩陣中出現兩次以上的詞彙作為研究 所定義的關鍵詞彙。

建立語料庫

進行 SVD 矩陣分解

語意空間

建立詞彙-文件共生矩陣

維度約化

貳、以 SVD 方法進行矩陣轉換

各變數代表意義:U 為正交矩陣(orthogonal matrix),或稱左奇異向量(left singular value);V 為正交矩陣(orthogonal matrix),或稱右奇異向量(right singular value);為由奇異特徵值組成的對角矩陣( diagonal( , 1 2, , )r , 其餘元素為 0)(Letsche & Berry, 1997)。其中 U 矩陣的列向量稱為「詞彙向量

(type vector)」,而 V 矩陣的列向量稱為「文件向量(document vector)」(Landauer, Foltz, & Laham, 1998)。

參、維度約化(dimension reduction)

經由 SVD 進行矩陣轉換後,可以利用維度約化來消除語意空間中不重要之 效果(Berry, Drmac, & Jessup, 1999;Jessup & Martin, 2001;Landauer & Dumais, 1997;Lizza & Sartoretto, 2001)。因而在本研究中以 300 作為維度約化的維度 數,來重新建置新的中文潛在語意空間。

由上述研究可知,潛在語意分析已被使用在處理大量的語料資訊,能表徵

出隱含在字詞下的語意知識,因此可運用這技術建立語意空間,並應用於擴充 詞彙的教學上。

相關文件