語句分群與摘要生成

第四章以潛在語意分析為基礎的語句摘要

第三節語句分群與摘要生成

本節中說明如何將潛在語意分析(LSA)的概念應用於以主題關係地圖(Text Relationship)為基礎的語句摘錄系統上。LSA 除考慮到文件中關鍵字的相關程度之外，更能將關鍵字之間的語意關係顯現出來；文件中的每個語句透過 LSA 可更精確地定義出語句涵義與相互間的關聯，因此可達到更好的摘要結果。

作法上以一篇文件為單位建構 Word-by-Sentence 矩陣，假設此文件為 D，文 件中擁有 N 個語句，且重要的關鍵詞有 M 個，最後會得到如圖 16 的矩陣，其 中 Wi代表文件中的關鍵詞，Si代表文件中的語句。

圖 16：Word-by-Sentence 矩陣範例

4.3.1 關鍵詞的選取

文件中並非所有的關鍵詞都具有同樣的重要性，一般來說，名詞與動詞的重要性就比冠詞、副詞或是介系詞的重要性高很多；加上每個語句都是由詞彙所組成的，因此，假如建構矩陣的詞彙選擇不好的話，LSA 的結果便會受到影響。

由於大多數語句都是”主詞-述詞-受詞”的結構 [陳光華 98]，且文件裡的主詞與受詞往往就是名詞，而述詞往往是動詞。因此，對於每個語句來說，便可以單由名詞和動詞來理解其語意。

據了解(Dk)，國台辦(Nc)高層(Na)官員(Na)還(D)曾(D)設宴(VA)款待(VC) 該(D)參訪團(Na)成員(Na)。

上述例子中，屬於名詞的關鍵字有『國台辦』、『高層』、『官員』、『參訪團』、

『成員』，屬於動詞的關鍵字有『設宴』、『款待』；如果保留這些關鍵詞，依舊可以推測整個語句所要表達的意思。因此，我們只保留名詞及動詞作為建構 Word-by-Sentence 矩陣的詞彙。

4.3.2 矩陣中數值的計算方式

為了精確地掌握每個關鍵詞的重要性，除了計算每個關鍵詞在每個語句中出現的頻率之外，我們亦考慮每個關鍵詞於整份文件中的重要程度。因此，圖 16 中的每個 Kij的計算方式便如方程式 16：

ij i

ij G L

K = *

方程式 16：Kij的計算公式

其中 Gi代表關鍵詞 Wi於 D 中的分佈權重，Lij代表 Wi在 Sj中的分佈權重。

假設 cij為 Wi出現在 Sj中的次數，tj為 Wi出現在 D 中的次數，則 Wi在 Sj中的相對頻率計算方式如方程式 17：

i ij

ij t

f = c

方程式 17：Wi於 Si中的相對頻率 fij [Bellegarda96]

此外，考慮文件 D 中 Wi的資訊分佈量(Entropy)計算方式如方程式 18：

( ) ∑ ( )

−

= ^N

ij j

i fi f

E N

log log *

方程式 18：Wi於 D 中的資訊分佈值 [Bellegarda96]

由方程式 18 可知當 fij等於 1 的時候，Ei的值為 0；當 fij等於 1/N 的時候，

Ei的值為 1。當 Ei的值越接近於 1 的時候，表示 Wi在文件 D 中的分佈越平均， Wi

的重要性便會降低；相反地，如果 Ei的值越接近 0 的時候，表示 Wi只出現在某 些語句中而已， Wi的重要性便比平均分布在文件 D 的關鍵字來得高。舉例來說，

如果文件 D 是討論資料庫系統效能的文章，因為文件內容中常常提到『資料庫』

這個詞語，『資料庫』在整份文件中的分佈便會非常地平均，因此，它的重要性就會降低。

定義了 Ei之後，我們定義 Wi於 Sj中的總體權重 Gi如方程式 19：

i E

G =1−

方程式 19：Wi於 Sj中的總體權重 Gi [Bellegarda96]

此外，定義 Wi於 Sj中的權重 Lij如方程式 20：



 

 +

j ij

j n

Li log2 1 c

方程式 20：Wi於 Sj中的權重 Lij [Bellegarda96]

其中 nj 代表 Sj中所含的關鍵詞總數。

接著建構 Word-by-Sentence 的矩陣。假設該矩陣為 A，接下來將矩陣 A 作奇 異值分解(SVD)使得 A=USV^T。對於 S，經過維度約化(Dimension Reduction)取適 當的維度後重新建構矩陣 A’=U’S’V’^T；此時，便得到具有語意的 Word-by-Sentence 矩陣表示法，其中，每個列向量(Row-Vector)代表了該關鍵詞在每個語句中的權重，而每個行向量(Column-Vector)代表該語句由各個關鍵字所組成的意義。

4.3.3 摘要的生成

由於 LSA 可以將文章中的隱性語意表現出來，因此，若以 LSA 產生的語句表示方式來計算語句間的相似度，其結果會比單純使用關鍵字出現頻率權重的表示法來得好。基於這個想法，我們將 LSA 所得到的語句表示式— 行向量(Column Vector)套用在主題相關地圖(Text Relationship Map)上，並衡量 LSA 對於摘要結果的影響。

接下來計算每個語句的相似度，並建構主題相關地圖。我們以 LSA 重建之後得到的行向量當作語句的表示法，並計算兩向量間的 Cosine 值來衡量計算語句間的相似度。建構主題相關地圖時，只保留約 1.5 倍語句數目的連結；亦即該文件中若有 n 個語句的話，那麼總共的連結數目會是 C(n,2)個，而最後只保留相似度高的前 1.5*n 個連結。

我們採用 Global Bushy Path [Salton97]來產生摘要，統計主題相關地圖上每個節點的連結數目，依照每個語句在原始文件中的先後順序以及每個語句所擁有

的連結數目由大而小排列；最後，挑選排名前面的 Top K 個語句即是該文件的摘要。綜合上述，我們將此摘要的方法加以整理並列出於圖 17。

LSA 文件摘要生成演算法

1 中文文件前置處理 1.1 語句切割

1.2 斷詞切字與詞鍵權重計算 2 LSA 語意模型建構

2.1 Word-by-Sentence 語意矩陣建構 2.2 語意矩陣的奇異值分解(SVD)

2.3 語意矩陣維度約化(Dimension Reduction)

2.4 語意矩陣重建：語句與詞鍵語意知識模型的形成 3 利用 2 中所得到的語句語意表示法計算兩兩語句間的相似度

sim(si,sj)，並保留 1.5n 的連結數以建構 Text Relationship Map 4 排序 Text Relationship Map 上的節點並形成 Global Bushy Path 5 由 Global Bushy Path 上取 Top K 個節點語句當作最後摘要的集合

圖 17： LSA 文件摘要生成演算法

在文檔中文件自動化摘要方法之研究及其在中文文件的應用 (頁 49-54)

第四章 以潛在語意分析為基礎的語句摘要

第三節 語句分群與摘要生成

( ) ∑ ( )

第四章以潛在語意分析為基礎的語句摘要

第三節語句分群與摘要生成