語句權重的計算與摘要生成

第三章改良型語句權重摘要

第二節語句權重的計算與摘要生成

對於測試文件中的某個語句 s 而言，向心性特徵值計算方式如方程式 14：

( )

keywords in s keywords in other sentences ntences n other se

keywords i n s

keywords i s

Score^Centrality

= I

方程式 14：s 的向心性特徵值

訓練 Score Function 的做法，我們將每組 w1, w2, w3, w4, w5 視為基因組 (genome)。每次產生 1000 個個體(Element)當作一個世代(Generation)，接著計算每個個體對於該訓練文件集的摘要正確率— 以召回率(Recall)為參考標準，並保留摘要召回率最高的 10 個個體當作下一世代的母體；每一個世代評估完後，依照保留下來的 10 個個體來交配產生下一個世代的部分個體，並隨機產生其他個體以補足每個世代的個體數目。個體交配的時候，我們以下面兩個原則來產生下一世代的個體。

1. 以圖 11 為例。E1, E2 分別代表母代的基因組，產生下一世代的時候，

將 E1 的基因組(M1,1, M1,2)與 E2 的基因組(M2,3, M2,4, M2,5)組合成為 E3，

將 E2 的基因組(M2,1, M2,2)與 E1 的基因組(M1,3, M1,4, M1,5)組合成為 E4，

這樣的交配方法我們將之稱為”2-3 基因交換”。依照這個原則，我們實作了 1-4, 2-3, 3-2, 4-1 四種交配的方法。

圖 11： m-n 基因交配方法

2. 為了增加基因的突變能力，以圖 12 為例，以隨機的方式保留下 E1 中的 M1,2, M1,4, M1,5作為 E2 的基因(每次所保留的基因不同)，另外，E2 中的 M1,1與 M1,3則由系統隨機產生，便可以保留下部分優良的基因，

以增加世代的突變能力。

圖 12：個體的基因組(M1,1, M1,2, M1,3, M1,4, M1,5)與其突變

利用基因演算法的訓練方式，我們可以找到一組最適合該訓練文件集的特徵權重值。這樣的作法乃是因為對於不同的訓練文件集，很難有效地找到最適合的特徵權重值，然而，套用基因演算法的方式可以幫助找到一組適當的解，做為系統設計者調整系統好壞的依據。

值得一提的是，我們將基因演算法套用於訓練文件集上，因此對於測試文件集(Test Corpus )並不能保證所得到的權重值組也能得到相同的好結果。但是，假如測試文件集與訓練文件集的性質非常接近的話，此方法的結果與實際上真正適合該測試文件集的權重值組所計算出來的正確率並不會相差太多。

生成文件摘要的部份，以一篇測試文件而言，首先根據方程式 15 計算每個語句的整體權重值，當成是每個語句的分數(Score)，接著依據語句的分數將文件中的語句依分數由大至小的方式作排名(Ranking)，最後將 Top N 個語句擷取出來當作該文件的摘要結果。綜合上述，我們將此摘要的方法加以整理於圖 13。

Corpus -based 文件摘要生成演算法

1 針對測試文件中的每個語句依下列步驟計算它的權重值。

1.1 利用方程式 8、方程式 10、方程式 12、方程式 13、方程式 14 計算每個特徵值的大小。

1.2 利用方程式 15 計算該語句的整體權重大小。

2 將文件中的所有語句，依照語句的分數由大排到小形成一份語句重要性排名清單(Sentence Importance List)。

3 根據壓縮比(Compression Rate)計算欲摘要的語句個數 N。

4 從語句重要性排名清單中挑選出前面的 N 個語句即為該文件的摘要。

圖 13： Corpus-based 文件摘要生成演算法

總結來說，我們以[Kupiec95]為本，提出了三項改進的方法：

1. 引入權重的概念應用在語句位置的重要性計算上，以期得到更正確的語句位置特徵值的計算。

2. 根據中文斷詞切字的問題，利用詞彙相關程度的技術來找到文件集中的新詞，以期能夠改進與關鍵詞相關的特徵值(正面關鍵詞、負面關鍵詞、

與標題的相似度及向心性)的計算結果。

3. 使用基因演算法來訓練 Score Function 中的 w1, w2, w3, w4以及 w5，以期能夠提供系統設計者調整 Score Function 的依據。

在文檔中摘要 (頁 38-42)

第三章 改良型語句權重摘要

第二節 語句權重的計算與摘要生成

( )

第三章改良型語句權重摘要

第二節語句權重的計算與摘要生成