實驗結果

第四章、實驗過程與結果

4.3 實驗結果

4.3.1 本系統各類別不同壓縮率實驗結果

表4-1. 三學者取最大交集 F-value 結果

maximum 健康類 社會類 政治類 旅遊類 Average

壓縮率 15% 0.403217714 0.409789481 0.722542597 0.465179265 0.500182264 壓縮率 20% 0.430865875 0.451039275 0.624679255 0.419235941 0.481455086 壓縮率 30% 0.467568888 0.479611168 0.548401229 0.485900922 0.495370552 Average 0.433884159 0.446813308 0.63187436 0.456772043

上表的結果是利用三人工摘要和本系統摘要做比較，算出系統和三人分別比對計算出的 F-value 值，取最大值做為我們的結果。

表4-2. 三學者取平均交集 F-value 結果

average 健康類 社會類 政治類 旅遊類 Average

壓縮率 15% 0.254722644 0.289347451 0.627853674 0.330860251 0.375696005 壓縮率 20% 0.295539202 0.30323755 0.545859853 0.341880128 0.371629183 壓縮率 30% 0.360153354 0.376645013 0.481896376 0.386716033 0.401352694 Average 0.303471733 0.323076671 0.551869968 0.353152137

上表的結果是利用三學者的人工摘要和本系統摘要做比較，算出系統和三人分別比對計算出的 F-value 值，取最大值做為我們的結果。

4.3.2 本系統與其他系統比較評估結果

表 4-3，表 4-4，表 4-5 分別為不同壓縮率(壓縮率 15%、壓縮率 20%、壓縮率 30%)，與其它摘要系統的比較結果。

表4-3. 本系統與其它摘要系統的比較結果

F-value 壓縮率 15% 壓縮率 20% 壓縮率 30%

本系統 0.50018 0.48145 0.495370552

關鍵詞擴展+LSA (C.H Lee, Z.W.

Liao,2009)[25]

0.4831925 0.4937185 0.5004

SVMs 0.1547 0.2508 0.3691

SVR(S. Li, Y.

Ouyang, W. Wang, B. Sun,2007)[5]

0.3646 0.3896 0.456

4.3.3 DUC02 評估結果

表 4-6，表 4-7，表 4-8 分別為本系統以 DUC02 為文集，ROUGE-1，ROUGE-2，

ROUGE-SU4 Recall，Precision ，F-value 的結果。

表4-5. ROUGE-1 Recall,Precision,F-value 結果

DUC 2002 ROUGE-1

X ROUGE-1 Average_R 0.41201 (95%-conf.int. 0.39991 - 0.42456)

X ROUGE-1 Average_P 0.39288 (95%-conf.int. 0.38245 - 0.40313)

X ROUGE-1 Average_F 0.40139 (95%-conf.int. 0.39084 - 0.41159)

表4-6. ROUGE-2 Recall,Precision,F-value 結果

DUC 2002 ROUGE-2

X ROUGE-2 Average_R 0.10003 (95%-conf.int. 0.09149 - 0.10891)

X ROUGE-2 Average_P 0.09525 (95%-conf.int. 0.08771 - 0.10363)

X ROUGE-2 Average_F 0.09738 (95%-conf.int. 0.08927 - 0.10602)

表4-7. ROUGE-SU4 Recall,Precision,F-value 結果

DUC 2002 ROUGE-SU4

X ROUGE-SU4 Average_R 0.14845 (95%-conf.int. 0.14082 - 0.15656)

X ROUGE-SU4 Average_P 0.14131 (95%-conf.int. 0.13442 - 0.14878)

X ROUGE-SU4 Average_F 0.14449 (95%-conf.int. 0.13756 - 0.15216)

表4-8. 本系統與其它摘要系統的比較結果

ROUGE-1 ROUGE-2 ROUGE-SU4

CQPSum(2010)[22] 0.42241 0.17177 0.19320

Our System 0.412 0.100 0.148

Rel+Bigram(2009)[24] 0.403 0.076 0.180 0.076 Rel+NoBigr(2009)[24] 0.403 0.080 0.180 0.082

DGM(2008)[23] 0.390 0.008

S28 0.427 0.217 0.173

S21 0.414 0.171 0.193

DUC baseline 0.411 0.210 0.166

S19 0.408 0.208 0.163

Lead 0.384 0.177

Rel 0.389 0.178

MMR 0.392 0.178

GM 0.375 0.083

S28 , S21 , S19 : the top 3 performing DUC 2002 systems From the 13 participating systems

Lead : Extract the leading sentences Rel : learned via the SVMRank Algorithm MMR : Maximal Marginal Relevance DGM : document-based graph model GM : graph model

4.3.4 結果分析:

由表 4-1 可得知，健康類、社會類、政治類、旅遊類四個類別在系統摘要 15%、

20%、30%壓縮率與人工摘要結果做比較，三個壓縮率的平均正確率各別為 0.500182264、0.481455086、0.495370552，大概在五成左右，其效果是不錯的。

另外，比較健康類、社會類、政治類、旅遊類四個類別在 15%、20%、30%壓縮率下的平均正確率，各別為 0.433884159 0.446813308 0.63187436

0.456772043 ;我們發現政治類新聞摘要正確率有六成多，較其他類別高出一些，

根據我們的觀察，此現象跟本系統所使用的弱分類器有關;在政治類新聞的人工摘要中，專有名詞、動名詞數，相較於其他類別，在摘要出現的頻率是比較高的，

所以本系統對政治類文章的分類是較為準確的。

由表 4-8 可得知，以 ROUGE-1 來看，本系統與近幾年的摘要系統作比較，是具有競爭力的，以 ROUGE-2 來看，ROUGE-2 是取決於人工摘要與系統摘要中 2-gram match 個數，由於本系統所取的特徵值較注重於句子中的資訊含量，缺乏句子間連貫性的特徵，因此在連貫性方面略顯不足。另外 ROUGE-SU4 方面，由於 ROUGE-SU4 的準確率是取決於，在人工摘要或系統摘要中，共同出現的兩個字，其距離只要不超過四個字，則可視為在人工摘要與系統摘要中 match 的單位，

而非連續的兩個字，所以其效果，相較於 ROUGE-2 是略為提升的。

在文檔中自動摘要系統基於AdaBoost (頁 42-47)

第四章、 實驗過程與結果

4.3 實驗結果

第四章、實驗過程與結果