結果與討論 - 多語言複合式文件自動摘要之研究(III)

4.1. 測試資料集

實驗中以DUC (Document Understanding Conference)的 DUC 2003 資料為測試對象，該年度的評比共分為四個項目：1) Task 1 – Very short summaries; 2) Task 2 – Short summaries focused by events; 3) Task 3 – Short summaries focused by viewpoints; 4) Task 4 – Short summaries in response to a question。其中 Task 2 及 Task 3 為多文件摘要評比，然而因為我們所發展的摘要技術針對新聞事件多文件摘要而設計，因此，我們使用Task 2 的資料作為評估演算法好壞的資料集。

Task 2 所提供的資料共有 30 個文件群(Document Clusters)，每個文件群中各有約10 篇新聞文章，且這 10 篇新聞文件皆是討論相同的新聞事件發展。Task 2 要求每個參與比賽的系統針對這30 個文件群各產生約 100 字的摘要¹⁴。

4.2. 評估方法

DUC 從 DUC 2004 起採用 ROUGE (Recall-Oriented Understudy for Gisting Evaluation)[58]為評估工具，因此我們亦已該工具來評估演算法的好壞。DUC 2003 的資料中，每個文件群皆由四個專家閱讀過所有文章後，針對該文件群所討論的事件主題等資訊，以人工方式產出約100 字的短摘要。ROUGE 以專家所產出的摘要當參考答案，對照機器所產出的摘要內容，主要計算有平均有多少個 Word 被專家與機器所產生的摘要所共同包含。

ROUGE 的評估主要有 ROUGE-1, ROUGE-2, …, ROUGE-N, ROUGE-L, ROUGE-WL。ROUGE-N 以 N 個字為單位計算 Recall 值, 如 ROUGE-2 為以 Bigram 為單位時所得到的 Recall。ROUGE-L 以 common string 為單位計算 Recall，ROUGE-WL 則為加權過後的 ROUGE-L。目前已經證明 ROUGE-1 的評估分數比較接近專家所給定的評估分數，因此我們僅列出ROUGE-1 的分數。

4.3. 實驗結果

實驗的參數設定，Model 1 的 α 值(亦即 Table 4 中的 α 值)動態設定為該 Pi

與目前所產生摘要段落集合中具有連結的Pj個數。Eq. (14)中的 λ 值則設定為 0 到50，以比較各種不同 λ 值下對於摘要好壞的影響。

14 小於 100 字不予加分；多於 100 字則需先縮減為 100 字後再由評估工具計算分數。

Table 5 列出 Model 1 的 ROUGE-1 平均值；Table 6 則列出 Model 2 的 ROUGE-1 平均值。Figure 12 則將 Table 5 與 Table 6 整合製圖。由圖中可知，當 λ=0 時(亦即沒有考慮到 Anti-Redundancy)，此時的結果最差。另外，Model 1 不管在任何λ 值的設定下，皆比 Model 2 有較佳的表現。這是因為 Model 2 考慮語句與其他語句的平均相似度值，導致失去了連結個數的表現。因而使得結果變得較差。

Table 5: Model 1 的實驗結果 (ROUGE-1 Average)

λ=0 λ=10 λ=20 λ=30 λ=40 λ=50 ROUGE-1 0.3405 0.3579 0.3544 0.3521 0.3532 0.3564

Table 6: Model 2 的實驗結果 (ROUGE-1 Average)

λ=0 λ=10 λ=20 λ=30 λ=40 λ=50 ROUGE-1 0.3402 0.3457 0.3497 0.3434 0.3429 0.3466

0.335 0.34 0.345 0.35 0.355 0.36

0 10 20 30 40 50

Model 1 Model 2

Figure 12: Model 1 與 Model 2 的 ROUGE-1 比較

Table 7 中列出 DUC 2003 年的比賽結果，其中 SYSID 代表不同的系統，且

字母A-J 為專家所作的摘要與其他專家的摘要比較結果，數字代表當年度參加比

賽的系統代號。由此表並比較我們的所提出的演算法結果，可知我們的方法亦有不錯的結果，評估所獲得的分數約為中等以上。

Table 7: DUC 2003 的部分 Official Results

SYSID ROUGE-1 SYSID ROUGE-1

B 0.4467 17 0.3606

C 0.4451 6 0.3598

D 0.4358 20 0.3475

E 0.4201 14 0.3362

A 0.4149 23 0.3339

H 0.4109 18 0.3297

I 0.4001 21 0.3267

G 0.3956 3 0.3170

12 0.3918 2 0.3090

F 0.3918 11 0.3068

J 0.3883 19 0.3057

16 0.3747 15 0.2943

13 0.3698 10 0.2905

26 0.3627 22 0.2565

5. 結論

本計畫為三年期研究案之第一年計畫，我們考量相關文獻所提多文件摘要的方法之優缺點，並以先前發展之單文件摘要方法[52]為基礎，加以改進以適用於多文件摘要，同時對於段落重要性評估提出兩種模型。

以下整理我們所提出的摘要架構中各個模組及所採用的技術。

1. 前處理(Preprocessing) z Feature Selection z Feature Extraction

2. 語意模型建立(Semantic Modeling) z Latent Semantic Analysis z Semantic Matrix

3. 主題關係地圖建構(Text Relationship Map Construction) z Text Relationship Map

z Similarity Matrix

4. 重要性評估(Significance Measurement) z Model 1：Global Bushy Path z Model 2：Average Similarity

實驗部分以DUC [15]提供的資料進行實驗，並以過去 DUC 結果評估我們所

提之多文件摘要方法的優劣。評估採用ROUGE 來計算專家所產出的摘要與機器

所產出摘要中，平均包含有多少個相同的字。我們以ROUGE-1 為評估標準，實

驗結果顯示 Model 1 獲得平均 ROUGE-1 分數為 0.3564，Model 2 獲得平均 ROUGE-1 分數為 0.3497。比較 DUC 2003 的比賽結果，我們的方法亦有不錯的表現，約在中等以上。

在文檔中多語言複合式文件自動摘要之研究(III) (頁 37-41)