• 沒有找到結果。

實驗結果

在文檔中 中 華 大 學 (頁 56-62)

5. 實驗分析

5.6. 實驗結果

在本節中,本實驗首先將比較類別關鍵詞數各為 5 個、30 個以及 60 個的情況下,

我們所提之 ELSA 的方法(MMLSA、FMPLSA 以及 FMMLSA)與 LSA 在文件分類正 確率的比較;其次比較分別以測詴集文件 650 篇與文件集總文件 1300 篇(包含訓練文 件集)所產生之摘要的摘要句間平均相似度情況,最後並說明實驗的結果。

文件分類正確率的計算方法,主要是以摘要所包含的類別關鍵詞數為依據,當包 含某類別關鍵詞越多,則將該摘要分到該某類別中。最後再計算有多少篇摘要是有被 分到其該所屬之類別,如方程(5.1)。摘要句間的平均相似度計算方法,主要是所節錄 出之摘要句藉由第四章所計算之語句間相似度,統計摘要句彼此間相似度之值並求得 相似度總和,最後再將相似度總和除以摘要句數以求得摘要句間平均相似度之值。

49

A. 文件分類正確率之比較

由圖 5-3、圖 5-4 以及圖 5-5 的曲線趨勢圖可以看出我們所提之 ELSA 的方法 (MMLSA、FMPLSA 以及 FMMLSA)在低壓縮率的情況下(20%~40%),正確率比 LSA 來的高,由圖 5-6 可以得知在各種不同類別關鍵詞數中,整體的分類正確率 LSA 與 ELSA 不分軒輊;由表 5-3、表 5-4 以及表 5-5 可得知在類別關鍵詞數各為 35 個且在 壓縮率為 20%的情況下,(MMLSA、FMPLSA 以及 FMMLSA)的正確率都比 LSA 高 出 0.6%(約 3 篇文件);當類別關鍵詞數各為 60 個(圖 5-5)的時候在壓縮率為 30%的情 況下,可以看得出來 MMLSA 的正確率比 LSA 高出 2%(約 12 篇文件);由表 5-7 得 知 MMLSA 整體的分類正確率比 LSA 來的好,由以上結果得知我們所提之方法能在 原文句保留較低的情況下,仍能有效保留原始文章的主題。

圖 5-3 類別關鍵詞數為各 5 個時,文件分類正確率比較圖。

12 14 16 18 20

20% 30% 40% 50% 60% 70% 80%

正確率%

Precision

LSA MMLSA FMPLSA FMMLSA

壓縮率

50

圖 5-4 類別關鍵詞數為各 35 個時,文件分類正確率比較圖。

圖 5-5 類別關鍵詞數為各 60 個時,文件分類正確率比較圖。

圖 5-6 各種類別關鍵詞數情況之文件分類正確率比較圖。

36 38 40 42 44

20% 30% 40% 50% 60% 70% 80%

正確率%

Precision

LSA MMLSA FMPLSA FMMLSA

40 42 44 46 48 50

20% 30% 40% 50% 60% 70% 80%

正確率%

Precision

LSA MMLSA FMPLSA FMMLSA

15 20 25 30 35 40 45 50

5 10 15 20 25 30 35 40 45 50 55 60

正確率%

Precision

LSA MMLSA FMPLSA FMMLSA

壓縮率

壓縮率

各類別之類別關鍵詞數

51

表 5-4 類別關鍵詞庫詞數為各 5 個時,文件分類正確率

方法\壓縮率 20% 30% 40% 50% 60% 70% 80%

LSA 12.7692 14.4615

16.0000 18.1538 19.5385 20.1538 20.6154

MMLSA 12.7692 14.4615 15.3846 17.6923 18.7692 19.6923 20.1538 FMPLSA 13.2308 14.9231 16.1538 17.2308 18.3077 19.5385 20.3077 FMMLSA

13.3846 15.3846

15.8462 17.0769 18.3077 19.2308 20.1538

表 5-5 類別關鍵詞庫詞數為各 35 個時,文件分類正確率

方法\壓縮率 20% 30% 40% 50% 60% 70% 80%

LSA 36.3077 38.9231 40.7692

42.9231

43.6923 44.0000 44.0000 MMLSA 36.9231

39.8462

40.6154 42.1538

43.8462

44.0000 44.3077 FMPLSA 36.9231 38.7692 39.8462 41.0769 43.3846

44.4615 44.6154

FMMLSA 36.9231 39.5385

41.0769

42.6154 43.0769 43.8462 44.3077

表 5-6 類別關鍵詞數為各 60 個時,文件分類正確率

方法\壓縮率 20% 30% 40% 50% 60% 70% 80%

LSA 41.3846 43.0769 46.0000

48.0000

47.6923

49.0769

48.4615 MMLSA 42.0000

45.0769

46.0000 47.6923

48.9231

48.6154 48.3077 FMPLSA 41.2308 43.3846 44.9231 46.0000 47.6923 48.0000

49.0769

FMMLSA 41.5385 43.8462

46.9231

47.3846 48.4615 47.6923 48.3077

表 5-7 各種類別關鍵詞數情況之文件分類正確率

方法\類別詞數 5 10 15 20 25 30 35 40 45 50 55 60 LSA

17.38

23.30 29.69 28.90

35.67 37.21

41.52 42.86 43.21 44.07 45.67 46.24 MMLSA 16.99

23.30 29.85 28.95

35.43 36.92

41.67

42.86

43.30 44.57 45.87 46.66

FMPLSA 17.10 23.38 29.45 28.84 34.70 36.57 41.30 42.81 42.92 43.93 44.59 45.76 FMMLSA 17.05 23.08 29.47 28.70 34.90 36.95 41.63

42.97

43.23 44.51 45.41 46.31

B. 摘要句間平均相似度之比較

由圖 5-6 以及圖 5-7 的曲線趨勢圖可以看出我們所提之 ELSA 的方法(MMLSA、

FMPLSA 以及 FMMLSA)不論是在 650 篇文件或是 1300 篇文件中,整體的平均相似 度都比 LSA 來的低,由表 5-7 可看出在 650 篇文件中 MMLSA 以及 FMPLSA 能在較

52

低壓縮率(文章語句保留較少)之下所節錄出的摘要,能有效地降低摘要句間的平均相 似度。由表 5-8 能明顯的看出 FMMLSA 也能有效地降低摘要句間的相似度,由此反 映出我們所提之 ELSA 方法能有效地降低摘要句間的相似性即所謂的文句重複性。

圖 5-7 650 篇文件摘要句平均相似度比較圖

圖 5-8 1300 篇文件摘要句平均相似度比較圖 0.026

0.027 0.028 0.029 0.03 0.031

20% 30% 40% 50% 60% 70% 80%

相似度

摘要句平均相似度

LSAMMLSAFMPLSA

FMMLSA

0.0265 0.0275 0.0285 0.0295 0.0305 0.0315

20% 30% 40% 50% 60% 70% 80%

相似度

摘要句平均相似度

LSAMMLSA

FMPLSA

壓縮率

壓縮率

53

表 5-8 650 篇文件摘要句平均相似度

方法\壓縮率 20% 30% 40% 50% 60% 70% 80%

LSA 0.02991 0.03030 0.02965 0.02856 0.02771 0.02663 0.02627 MMLSA

0.02850 0.02860 0.02827

0.02808 0.02752 0.02696 0.02649 FMPLSA 0.02961 0.02972 0.02861 0.02774 0.02729 0.02661 0.02610 FMMLSA 0.02915 0.02987 0.02869

0.02764 0.02693 0.02653 0.02619

表 5-9 1300 篇文件摘要句相似度總和

方法\壓縮率 20% 30% 40% 50% 60% 70% 80%

LSA 0.03115 0.03154 0.03054 0.02958 0.02834 0.02750 0.02699

MMLSA

0.03021 0.02996 0.02927

0.02898 0.02823 0.02772 0.02710

FMPLSA 0.03116 0.03052 0.02964 0.02863 0.02809 0.02748

0.02698

FMMLSA 0.03024 0.03052 0.02954

0.02855 0.02774 0.02738

0.02713

實驗總結

由實驗結果得知我們所提之方法(MMLSA、FMPLSA 與 FMMLSA)在低壓縮率 (20%~40%)的情況下文件分類正確率都比 LSA 高,最好可以高出 2%(約 12 篇文件),

且摘要句間相似度也都比 LSA 低。所以我們提之方法能有效地找出原文內相似度較 低(重複性較低)的語句,但又不失其原文意與我們預期的一樣。

54

在文檔中 中 華 大 學 (頁 56-62)

相關文件