• 沒有找到結果。

語句權重的計算與摘要生成

在文檔中 摘要 (頁 38-42)

第三章 改良型語句權重摘要

第二節 語句權重的計算與摘要生成

對於測試文件中的某個語句 s 而言,向心性特徵值計算方式如方程式 14:

( )

keywords in s keywords in other sentences ntences n other se

keywords i n s

keywords i s

ScoreCentrality

U

= I

方程式 14:s 的向心性 特徵值

訓練 Score Function 的做法,我們將每組 w1, w2, w3, w4, w5 視為基因組 (genome)。每次產生 1000 個個體(Element)當作一個世代(Generation),接著計算 每個個體對於該訓練文件集的摘要正確率— 以召回率(Recall)為參考標準,並保 留摘要召回率最高的 10 個個體當作下一世代的母體;每一個世代評估完後,依 照保留下來的 10 個個體來交配產生下一個世代的部分個體,並隨機產生其他個 體以補足每個世代的個體數目。個體交配的時候,我們以下面兩個原則來產生下 一世代的個體。

1. 以圖 11 為例。E1, E2 分別代表母代的基因組,產生下一世代的時候,

將 E1 的基因組(M1,1, M1,2)與 E2 的基因組(M2,3, M2,4, M2,5)組合成為 E3,

將 E2 的基因組(M2,1, M2,2)與 E1 的基因組(M1,3, M1,4, M1,5)組合成為 E4,

這樣的交配方法我們將之稱為”2-3 基因交換”。依照這個原則,我們實 作了 1-4, 2-3, 3-2, 4-1 四種交配的方法。

圖 11: m-n 基因交配方法

2. 為了增加基因的突變能力,以圖 12 為例,以隨機的方式保留下 E1 中 的 M1,2, M1,4, M1,5作為 E2 的基因(每次所保留的基因不同),另外,E2 中的 M1,1與 M1,3則由系統隨機產生,便可以保留下部分優良的基因,

以增加世代的突變能力。

圖 12:個體的基因組(M1,1, M1,2, M1,3, M1,4, M1,5)與其突變

利用基因演算法的訓練方式,我們可以找到一組最適合該訓練文件集的特徵 權重值。這樣的作法乃是因為對於不同的訓練文件集,很難有效地找到最適合的 特徵權重值,然而,套用基因演算法的方式可以幫助找到一組適當的解,做為系 統設計者調整系統好壞的依據。

值得一提的是,我們將基因演算法套用於訓練文件集上,因此對於測試文件 集(Test Corpus )並不能保證所得到的權重值組也能得到相同的好結果。但是,假 如測試文件集與訓練文件集的性質非常接近的話,此方法的結果與實際上真正適 合該測試文件集的權重值組所計算出來的正確率並不會相差太多。

生成文件摘要的部份,以一篇測試文件而言,首先根據方程式 15 計算每個 語句的整體權重值,當成是每個語句的分數(Score),接著依據語句的分數將文件 中的語句依分數由大至小的方式作排名(Ranking),最後將 Top N 個語句擷取出來 當作該文件的摘要結果。綜合上述,我們將此摘要的方法加以整理於圖 13。

Corpus -based 文件摘要生成演算法

1 針對測試文件中的每個語句依下列步驟計算它的權重值。

1.1 利用方程式 8、方程式 10、方程式 12、方程式 13、方程式 14 計算每個特徵值的大小。

1.2 利用方程式 15 計算該語句的整體權重大小。

2 將文件中的所有語句,依照語句的分數由大排到小形成一份語句重要 性排名清單(Sentence Importance List)。

3 根據壓縮比(Compression Rate)計算欲摘要的語句個數 N。

4 從語句重要性排名清單中挑選出前面的 N 個語句即為該文件的摘要。

圖 13: Corpus-based 文件摘要生成演算法

總結來說,我們以[Kupiec95]為本,提出了三項改進的方法:

1. 引入權重的概念應用在語句位置的重要性計算上,以期得到更正確的語 句位置特徵值的計算。

2. 根據中文斷詞切字的問題,利用詞彙相關程度的技術來找到文件集中的 新詞,以期能夠改進與關鍵詞相關的特徵值(正面關鍵詞、負面關鍵詞、

與標題的相似度及向心性)的計算結果。

3. 使用基因演算法來訓練 Score Function 中的 w1, w2, w3, w4以及 w5,以期 能夠提供系統設計者調整 Score Function 的依據。

在文檔中 摘要 (頁 38-42)