• 沒有找到結果。

潛在語意分析(Latent Semantic Analysis)

第四章 以潛在語意分析為基礎的語句摘要

第一節 潛在語意分析(Latent Semantic Analysis)

4.1.1 LSA 工作原理

[Landauer98]認為 LSA 除可作為文件的知識表示(Knowledge Representation) 外,並可用來推演隱性的知識關聯;此外,LSA 的知識模型與知識推演過程接 近於人腦用來理解文件知識的推演與認知機制模型。

LSA是以數學統計為基礎的知識模型,其運作方式跟類神經網路(Neural Net) 的極為相似,不同的是類神經網路以權重的傳遞與回饋來修正本身的學習,LSA 則 以 奇 異 值 分 解 (Singular Value Decomposition, SVD) 與 維 度 約 化 (Dimension Reduction)為核心作為邏輯推演的方式。

LSA 的應用非常廣泛,主要集中在資訊擷取、同義詞建構、字詞與文句的 相關性判斷標準、文件品質優劣的判別標準及文件理解與預測等各方面的研究。

LSA 的工作原理如圖 14 所示:利用 SVD 及維度約化將輸入的知識模型抽 象化,整個過程除可以將隱含的語意顯現出來外,更能將原本輸入的知識模型提 升到較高層次的語意層面。

圖 14: LSA 工作原理示意圖

實 際 運 作 的 過 程 中 , 首 先 將 文 件 集 (Corpus)中 所 有 文 件 的 Context2Word-by-Context 矩陣 M 來表示,矩陣中的每個元素即是某關鍵詞在某 Context 中的重要性或出現頻率。接著,將矩陣 M 經過 SVD 分解轉換得成新的矩陣乘積 LSUT,亦即 M=LSUT,其中 S 代表語意空間(Semantic Space),L 代表關鍵詞在此 語意空間中的表示法,UT則代表 Context 在此語意空間中的表示法。LSA 利用維 度約化可更精確地描述語意空間的維度,並重建矩陣 M∼M’=L’S’U’T,更明確地 探究出 Word-Word、Word-Context 或 Context-Context 間的關聯性。

總結上述說明:

1. LSA 假設經過 SVD 後所得到的對角線矩陣(即上述中的 S 與 S’)所代表 的意義是整份文件的語意空間。所謂的語意空間就是文件中每個字詞的 定義空間,也就是說,每個字詞可以透過這個語意空間的定位來得到真 正代表的意思。

2. 為了要將語意空間的真正維度定義出來,LSA 需要經過維度約化來重 建最後的 Word-by-Sentence 矩陣。

3. M 經過 SVD 分解與維度約化後重建得到的新矩陣 M’中,S’代表語意空

間,此語意空間比 S 可以更正確地定義且描述關鍵詞與 Context 所代表

2 所謂 Context 可視需求定義為 Sentence, Paragraph, Chapter, 或 Document 的層面來考量 。

的意義。

4. 相較於使用外在資源以達到文件模型建構的方法,LSA 提供直接的分 析方式,更精確地建構文件的知識模型,且避免使用輔助知識可能發生 的語意混淆的問題。

5. LSA 與 資 訊 擷 取 的 不 同 在 於 LSA 可 以 涵 蓋 字 詞 間 關 聯 程 度 (Co-occurrence),更可藉由維度約化將原 Context 中潛在的語意表現出 來。

6. LSA 具有知識推演的能力,如果將最原始矩陣中的任一個數值改變後,

其結果會影響到最後重建的矩陣,且影響的範圍不只是原先經過改變的 數值,更可能影響到矩陣中的其他數值。

4.1.2 LSA 實例說明

接下來,我們以實例說明 LSA 的運作方式 [Landauer98]。這個例子中共包 含 9 個 Context,分別為 c1、c2、c3、c4、c5、m1、m2、m3 與 m4,其中 c1 至 c5 是 Human-Computer Interface 領域的相關文件標題,而 m1 至 m4 則來自於 Mathematical Graph Theory 領域的相關文件標題。

Exampl of text data: Titles of Some Technical Memos [Human-Computer Interface]

c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system

c4: System and human system engineering testing of EPS

c5: Relation of user perceived response time to error measurement [Mathematical Graph Theory]

m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees

m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey

我們挑選至少出現兩次的關鍵詞來建構 Word-by-Title 的矩陣{X},{X}中的每 一列(Row)代表在兩個或兩個以上的 Context 中出現過的關鍵詞 ,而每一行 (Column)則代表一個 Context ;此外, {X}中每個元素代表特定關鍵詞在特定 Context 中出現的次數。{X}經過 SVD 分解後得到三個矩陣,分別為{W},{S}以及 {P}T。其中{X}即是先前所說的 M,另外{W}、{S}與{P}T分別為前面所說的的 L、

S 與 UT

{X’}則是維度約化過程中取維度(Dimension)為 2,亦即取{W}、{S}與{P}的前 二 Column( 相 當 於 把 其 他 Column 的 值 均 設 為 0) 後 所 重 建 回 來 的 矩 陣 —

{ }

{ }

X'

{ }{ }{ }

W' S' P'T Mathematical Graph Theory 這個領域中不具有特別的重大意義(直覺上來想,

survey 在任何領域中出現的機率應該是幾乎均等的)。

假若將 Context 轉換成語意空間的表示法,便可以應用在許多領域。例如,

計算{X’}中列向量(Row-Vector)— 即關鍵詞在 Context 中的”出現機率”或”重要 性”— 的內積值(Inner-Product),便可以推斷出關鍵詞間的語意相關程度;計算{X’}

中行向量(Column- Vector)— 即 Context 由關鍵詞所組成的整體資訊— 的內積值,

便可以推斷任意兩個 Context 的語意相關程度。