• 沒有找到結果。

4.1. 測試資料集

實驗中以DUC (Document Understanding Conference)的 DUC 2003 資料為測 試對象,該年度的評比共分為四個項目:1) Task 1 – Very short summaries; 2) Task 2 – Short summaries focused by events; 3) Task 3 – Short summaries focused by viewpoints; 4) Task 4 – Short summaries in response to a question。其中 Task 2 及 Task 3 為多文件摘要評比,然而因為我們所發展的摘要技術針對新聞事件多文件 摘要而設計,因此,我們使用Task 2 的資料作為評估演算法好壞的資料集。

Task 2 所提供的資料共有 30 個文件群(Document Clusters),每個文件群中各 有約10 篇新聞文章,且這 10 篇新聞文件皆是討論相同的新聞事件發展。Task 2 要求每個參與比賽的系統針對這30 個文件群各產生約 100 字的摘要14

4.2. 評估方法

DUC 從 DUC 2004 起採用 ROUGE (Recall-Oriented Understudy for Gisting Evaluation)[58]為評估工具,因此我們亦已該工具來評估演算法的好壞。DUC 2003 的資料中,每個文件群皆由四個專家閱讀過所有文章後,針對該文件群所 討論的事件主題等資訊,以人工方式產出約100 字的短摘要。ROUGE 以專家所 產出的摘要當參考答案,對照機器所產出的摘要內容,主要計算有平均有多少個 Word 被專家與機器所產生的摘要所共同包含。

ROUGE 的評估主要有 ROUGE-1, ROUGE-2, …, ROUGE-N, ROUGE-L, ROUGE-WL。ROUGE-N 以 N 個字為單位計算 Recall 值, 如 ROUGE-2 為以 Bigram 為單位時所得到的 Recall。ROUGE-L 以 common string 為單位計算 Recall,ROUGE-WL 則為加權過後的 ROUGE-L。目前已經證明 ROUGE-1 的評 估分數比較接近專家所給定的評估分數,因此我們僅列出ROUGE-1 的分數。

4.3. 實驗結果

實驗的參數設定,Model 1 的 α 值(亦即 Table 4 中的 α 值)動態設定為該 Pi

與目前所產生摘要段落集合中具有連結的Pj個數。Eq. (14)中的 λ 值則設定為 0 到50,以比較各種不同 λ 值下對於摘要好壞的影響。

14 小於 100 字不予加分;多於 100 字則需先縮減為 100 字後再由評估工具計算分數。

Table 5 列出 Model 1 的 ROUGE-1 平均值;Table 6 則列出 Model 2 的 ROUGE-1 平均值。Figure 12 則將 Table 5 與 Table 6 整合製圖。由圖中可知,當 λ=0 時(亦即沒有考慮到 Anti-Redundancy),此時的結果最差。另外,Model 1 不 管在任何λ 值的設定下,皆比 Model 2 有較佳的表現。這是因為 Model 2 考慮語 句與其他語句的平均相似度值,導致失去了連結個數的表現。因而使得結果變得 較差。

Table 5: Model 1 的實驗結果 (ROUGE-1 Average)

λ=0 λ=10 λ=20 λ=30 λ=40 λ=50 ROUGE-1 0.3405 0.3579 0.3544 0.3521 0.3532 0.3564

Table 6: Model 2 的實驗結果 (ROUGE-1 Average)

λ=0 λ=10 λ=20 λ=30 λ=40 λ=50 ROUGE-1 0.3402 0.3457 0.3497 0.3434 0.3429 0.3466

0.335 0.34 0.345 0.35 0.355 0.36

0 10 20 30 40 50

Model 1 Model 2

Figure 12: Model 1 與 Model 2 的 ROUGE-1 比較

Table 7 中列出 DUC 2003 年的比賽結果,其中 SYSID 代表不同的系統,且

字母A-J 為專家所作的摘要與其他專家的摘要比較結果,數字代表當年度參加比

賽的系統代號。由此表並比較我們的所提出的演算法結果,可知我們的方法亦有 不錯的結果,評估所獲得的分數約為中等以上。

Table 7: DUC 2003 的部分 Official Results

SYSID ROUGE-1 SYSID ROUGE-1

B 0.4467 17 0.3606

C 0.4451 6 0.3598

D 0.4358 20 0.3475

E 0.4201 14 0.3362

A 0.4149 23 0.3339

H 0.4109 18 0.3297

I 0.4001 21 0.3267

G 0.3956 3 0.3170

12 0.3918 2 0.3090

F 0.3918 11 0.3068

J 0.3883 19 0.3057

16 0.3747 15 0.2943

13 0.3698 10 0.2905

26 0.3627 22 0.2565

5. 結論

本計畫為三年期研究案之第一年計畫,我們考量相關文獻所提多文件摘要的 方法之優缺點,並以先前發展之單文件摘要方法[52]為基礎,加以改進以適用於 多文件摘要,同時對於段落重要性評估提出兩種模型。

以下整理我們所提出的摘要架構中各個模組及所採用的技術。

1. 前處理(Preprocessing) z Feature Selection z Feature Extraction

2. 語意模型建立(Semantic Modeling) z Latent Semantic Analysis z Semantic Matrix

3. 主題關係地圖建構(Text Relationship Map Construction) z Text Relationship Map

z Similarity Matrix

4. 重要性評估(Significance Measurement) z Model 1:Global Bushy Path z Model 2:Average Similarity

實驗部分以DUC [15]提供的資料進行實驗,並以過去 DUC 結果評估我們所

提之多文件摘要方法的優劣。評估採用ROUGE 來計算專家所產出的摘要與機器

所產出摘要中,平均包含有多少個相同的字。我們以ROUGE-1 為評估標準,實

驗結果顯示 Model 1 獲得平均 ROUGE-1 分數為 0.3564,Model 2 獲得平均 ROUGE-1 分數為 0.3497。比較 DUC 2003 的比賽結果,我們的方法亦有不錯的 表現,約在中等以上。

相關文件