潛在語意分析(Latent Semantic Analysis)

第四章以潛在語意分析為基礎的語句摘要

第一節潛在語意分析(Latent Semantic Analysis)

4.1.1 LSA 工作原理

[Landauer98]認為 LSA 除可作為文件的知識表示(Knowledge Representation) 外，並可用來推演隱性的知識關聯；此外，LSA 的知識模型與知識推演過程接近於人腦用來理解文件知識的推演與認知機制模型。

LSA是以數學統計為基礎的知識模型，其運作方式跟類神經網路(Neural Net) 的極為相似，不同的是類神經網路以權重的傳遞與回饋來修正本身的學習，LSA 則以奇異值分解 (Singular Value Decomposition, SVD) 與維度約化 (Dimension Reduction)為核心作為邏輯推演的方式。

LSA 的應用非常廣泛，主要集中在資訊擷取、同義詞建構、字詞與文句的相關性判斷標準、文件品質優劣的判別標準及文件理解與預測等各方面的研究。

LSA 的工作原理如圖 14 所示：利用 SVD 及維度約化將輸入的知識模型抽象化，整個過程除可以將隱含的語意顯現出來外，更能將原本輸入的知識模型提升到較高層次的語意層面。

圖 14： LSA 工作原理示意圖

實際運作的過程中，首先將文件集 (Corpus)中所有文件的 Context²用 Word-by-Context 矩陣 M 來表示，矩陣中的每個元素即是某關鍵詞在某 Context 中的重要性或出現頻率。接著，將矩陣 M 經過 SVD 分解轉換得成新的矩陣乘積 LSU^T，亦即 M=LSU^T，其中 S 代表語意空間(Semantic Space)，L 代表關鍵詞在此 語意空間中的表示法，U^T則代表 Context 在此語意空間中的表示法。LSA 利用維 度約化可更精確地描述語意空間的維度，並重建矩陣 M∼M’=L’S’U’^T，更明確地探究出 Word-Word、Word-Context 或 Context-Context 間的關聯性。

總結上述說明：

1. LSA 假設經過 SVD 後所得到的對角線矩陣(即上述中的 S 與 S’)所代表 的意義是整份文件的語意空間。所謂的語意空間就是文件中每個字詞的定義空間，也就是說，每個字詞可以透過這個語意空間的定位來得到真正代表的意思。

2. 為了要將語意空間的真正維度定義出來，LSA 需要經過維度約化來重建最後的 Word-by-Sentence 矩陣。

3. M 經過 SVD 分解與維度約化後重建得到的新矩陣 M’中，S’代表語意空

間，此語意空間比 S 可以更正確地定義且描述關鍵詞與 Context 所代表

2 所謂 Context 可視需求定義為 Sentence, Paragraph, Chapter, 或 Document 的層面來考量。

的意義。

4. 相較於使用外在資源以達到文件模型建構的方法，LSA 提供直接的分析方式，更精確地建構文件的知識模型，且避免使用輔助知識可能發生的語意混淆的問題。

5. LSA 與資訊擷取的不同在於 LSA 可以涵蓋字詞間關聯程度 (Co-occurrence)，更可藉由維度約化將原 Context 中潛在的語意表現出來。

6. LSA 具有知識推演的能力，如果將最原始矩陣中的任一個數值改變後，

其結果會影響到最後重建的矩陣，且影響的範圍不只是原先經過改變的數值，更可能影響到矩陣中的其他數值。

4.1.2 LSA 實例說明

接下來，我們以實例說明 LSA 的運作方式 [Landauer98]。這個例子中共包含 9 個 Context，分別為 c1、c2、c3、c4、c5、m1、m2、m3 與 m4，其中 c1 至 c5 是 Human-Computer Interface 領域的相關文件標題，而 m1 至 m4 則來自於 Mathematical Graph Theory 領域的相關文件標題。

Exampl of text data: Titles of Some Technical Memos [Human-Computer Interface]

c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system

c4: System and human system engineering testing of EPS

c5: Relation of user perceived response time to error measurement [Mathematical Graph Theory]

m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees

m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey

我們挑選至少出現兩次的關鍵詞來建構 Word-by-Title 的矩陣{X}，{X}中的每 一列(Row)代表在兩個或兩個以上的 Context 中出現過的關鍵詞，而每一行 (Column)則代表一個 Context ；此外， {X}中每個元素代表特定關鍵詞在特定 Context 中出現的次數。{X}經過 SVD 分解後得到三個矩陣，分別為{W},{S}以及 {P}^T。其中{X}即是先前所說的 M，另外{W}、{S}與{P}^T分別為前面所說的的 L、

S 與 U^T。

{X’}則是維度約化過程中取維度(Dimension)為 2，亦即取{W}、{S}與{P}的前 二 Column( 相當於把其他 Column 的值均設為 0) 後所重建回來的矩陣 —

{ }

^X^'

{ }{ }{ }

^W^' ^S^' ^P^'^T Mathematical Graph Theory 這個領域中不具有特別的重大意義(直覺上來想，

survey 在任何領域中出現的機率應該是幾乎均等的)。

假若將 Context 轉換成語意空間的表示法，便可以應用在許多領域。例如，

計算{X’}中列向量(Row-Vector)— 即關鍵詞在 Context 中的”出現機率”或”重要 性”— 的內積值(Inner-Product)，便可以推斷出關鍵詞間的語意相關程度；計算{X’}

中行向量(Column- Vector)— 即 Context 由關鍵詞所組成的整體資訊— 的內積值，

便可以推斷任意兩個 Context 的語意相關程度。

在文檔中文件自動化摘要方法之研究及其在中文文件的應用 (頁 42-47)

第四章 以潛在語意分析為基礎的語句摘要

第一節 潛在語意分析(Latent Semantic Analysis)

{ }

{ }

{ }{ }{ }

第四章以潛在語意分析為基礎的語句摘要

第一節潛在語意分析(Latent Semantic Analysis)