• 沒有找到結果。

第四章 以潛在語意分析為基礎的語句摘要

第三節 語句分群與摘要生成

本節中說明如何將潛在語意分析(LSA)的概念應用於以主題關係地圖(Text Relationship)為基礎的語句摘錄系統上。LSA 除考慮到文件中關鍵字的相關程度 之外,更能將關鍵字之間的語意關係顯現出來;文件中的每個語句透過 LSA 可 更精確地定義出語句涵義與相互間的關聯,因此可達到更好的摘要結果。

作法上以一篇文件為單位建構 Word-by-Sentence 矩陣,假設此文件為 D,文 件中擁有 N 個語句,且重要的關鍵詞有 M 個,最後會得到如圖 16 的矩陣,其 中 Wi代表文件中的關鍵詞,Si代表文件中的語句。

圖 16:Word-by-Sentence 矩陣範例

4.3.1 關鍵詞的選取

文件中並非所有的關鍵詞都具有同樣的重要性,一般來說,名詞與動詞的重 要性就比冠詞、副詞或是介系詞的重要性高很多;加上每個語句都是由詞彙所組 成的,因此,假如建構矩陣的詞彙選擇不好的話,LSA 的結果便會受到影響。

由於大多數語句都是”主詞-述詞-受詞”的結構 [陳光華 98],且文件裡的主詞 與受詞往往就是名詞,而述詞往往是動詞。因此,對於每個語句來說,便可以單 由名詞和動詞來理解其語意。

據了解(Dk),國台辦(Nc)高層(Na)官員(Na)還(D)曾(D)設宴(VA)款待(VC) 該(D)參訪團(Na)成員(Na)。

上述例子中,屬於名詞的關鍵字有『國台辦』、『高層』、『官員』、『參訪團』、

『成員』,屬於動詞的關鍵字有『設宴』、『款待』;如果保留這些關鍵詞,依舊可 以推測整個語句所要表達的意思。 因此, 我們只保留名詞及動詞作為建構 Word-by-Sentence 矩陣的詞彙。

4.3.2 矩陣中數值的計算方式

為了精確地掌握每個關鍵詞的重要性,除了計算每個關鍵詞在每個語句中出 現的頻率之外,我們亦考慮每個關鍵詞於整份文件中的重要程度。因此,圖 16 中的每個 Kij的計算方式便如方程式 16:

ij i

ij G L

K = *

方程式 16:Kij的計算公式

其中 Gi代表關鍵詞 Wi於 D 中的分佈權重,Lij代表 Wi在 Sj中的分佈權重。

假設 cij為 Wi出現在 Sj中的次數,tj為 Wi出現在 D 中的次數,則 Wi在 Sj中的相 對頻率計算方式如方程式 17:

i ij

ij t

f = c

方程式 17:Wi於 Si中的相對頻率 fij [Bellegarda96]

此外,考慮文件 D 中 Wi的資訊分佈量(Entropy)計算方式如方程式 18:

( ) ∑ ( )

=

= N

j

ij j

i fi f

E N

1

log log *

1

方程式 18:Wi於 D 中的資訊分佈值 [Bellegarda96]

由方程式 18 可知當 fij等於 1 的時候,Ei的值為 0;當 fij等於 1/N 的時候,

Ei的值為 1。當 Ei的值越接近於 1 的時候,表示 Wi在文件 D 中的分佈越平均, Wi

的重要性便會降低;相反地,如果 Ei的值越接近 0 的時候,表示 Wi只出現在某 些語句中而已, Wi的重要性便比平均分布在文件 D 的關鍵字來得高。舉例來說,

如果文件 D 是討論資料庫系統效能的文章,因為文件內容中常常提到『資料庫』

這個詞語,『資料庫』在整份文件中的分佈便會非常地平均,因此,它的重要性 就會降低。

定義了 Ei之後,我們定義 Wi於 Sj中的總體權重 Gi如方程式 19:

i

i E

G =1−

方程式 19:Wi於 Sj中的總體權重 Gi [Bellegarda96]

此外,定義 Wi於 Sj中的權重 Lij如方程式 20:



 

 +

=

j ij

j n

Li log2 1 c

方程式 20:Wi於 Sj中的權重 Lij [Bellegarda96]

其中 nj 代表 Sj中所含的關鍵詞總數。

接著建構 Word-by-Sentence 的矩陣。假設該矩陣為 A,接下來將矩陣 A 作奇 異值分解(SVD)使得 A=USVT。對於 S,經過維度約化(Dimension Reduction)取適 當的維度後重新建構矩陣 A’=U’S’V’T;此時,便得到具有語意的 Word-by-Sentence 矩陣表示法,其中,每個列向量(Row-Vector)代表了該關鍵詞在每個語句中的權 重,而每個行向量(Column-Vector)代表該語句由各個關鍵字所組成的意義。

4.3.3 摘要的生成

由於 LSA 可以將文章中的隱性語意表現出來,因此,若以 LSA 產生的語句 表示方式來計算語句間的相似度,其結果會比單純使用關鍵字出現頻率權重的表 示法來得好。基於這個想法,我們將 LSA 所得到的語句表示式— 行向量(Column Vector)套用在主題相關地圖(Text Relationship Map)上,並衡量 LSA 對於摘要結 果的影響。

接下來計算每個語句的相似度,並建構主題相關地圖。我們以 LSA 重建之 後得到的行向量當作語句的表示法,並計算兩向量間的 Cosine 值來衡量計算語 句間的相似度。建構主題相關地圖時,只保留約 1.5 倍語句數目的連結;亦即該 文件中若有 n 個語句的話,那麼總共的連結數目會是 C(n,2)個,而最後只保留相 似度高的前 1.5*n 個連結。

我們採用 Global Bushy Path [Salton97]來產生摘要,統計主題相關地圖上每 個節點的連結數目,依照每個語句在原始文件中的先後順序以及每個語句所擁有

的連結數目由大而小排列;最後,挑選排名前面的 Top K 個語句即是該文件的摘 要。綜合上述,我們將此摘要的方法加以整理並列出於圖 17。

LSA 文件摘要生成演算法

1 中文文件前置處理 1.1 語句切割

1.2 斷詞切字與詞鍵權重計算 2 LSA 語意模型建構

2.1 Word-by-Sentence 語意矩陣建構 2.2 語意矩陣的奇異值分解(SVD)

2.3 語意矩陣維度約化(Dimension Reduction)

2.4 語意矩陣重建:語句與詞鍵語意知識模型的形成 3 利用 2 中所得到的語句語意表示法計算兩兩語句間的相似度

sim(si,sj),並保留 1.5n 的連結數以建構 Text Relationship Map 4 排序 Text Relationship Map 上的節點並形成 Global Bushy Path 5 由 Global Bushy Path 上取 Top K 個節點語句當作最後摘要的集合

圖 17: LSA 文件摘要生成演算法