5. 實驗分析
5.6. 實驗結果
在本節中,本實驗首先將比較類別關鍵詞數各為 5 個、30 個以及 60 個的情況下,
我們所提之 ELSA 的方法(MMLSA、FMPLSA 以及 FMMLSA)與 LSA 在文件分類正 確率的比較;其次比較分別以測詴集文件 650 篇與文件集總文件 1300 篇(包含訓練文 件集)所產生之摘要的摘要句間平均相似度情況,最後並說明實驗的結果。
文件分類正確率的計算方法,主要是以摘要所包含的類別關鍵詞數為依據,當包 含某類別關鍵詞越多,則將該摘要分到該某類別中。最後再計算有多少篇摘要是有被 分到其該所屬之類別,如方程(5.1)。摘要句間的平均相似度計算方法,主要是所節錄 出之摘要句藉由第四章所計算之語句間相似度,統計摘要句彼此間相似度之值並求得 相似度總和,最後再將相似度總和除以摘要句數以求得摘要句間平均相似度之值。
49
A. 文件分類正確率之比較
由圖 5-3、圖 5-4 以及圖 5-5 的曲線趨勢圖可以看出我們所提之 ELSA 的方法 (MMLSA、FMPLSA 以及 FMMLSA)在低壓縮率的情況下(20%~40%),正確率比 LSA 來的高,由圖 5-6 可以得知在各種不同類別關鍵詞數中,整體的分類正確率 LSA 與 ELSA 不分軒輊;由表 5-3、表 5-4 以及表 5-5 可得知在類別關鍵詞數各為 35 個且在 壓縮率為 20%的情況下,(MMLSA、FMPLSA 以及 FMMLSA)的正確率都比 LSA 高 出 0.6%(約 3 篇文件);當類別關鍵詞數各為 60 個(圖 5-5)的時候在壓縮率為 30%的情 況下,可以看得出來 MMLSA 的正確率比 LSA 高出 2%(約 12 篇文件);由表 5-7 得 知 MMLSA 整體的分類正確率比 LSA 來的好,由以上結果得知我們所提之方法能在 原文句保留較低的情況下,仍能有效保留原始文章的主題。
圖 5-3 類別關鍵詞數為各 5 個時,文件分類正確率比較圖。
12 14 16 18 20
20% 30% 40% 50% 60% 70% 80%
正確率%
Precision
LSA MMLSA FMPLSA FMMLSA
壓縮率
50
圖 5-4 類別關鍵詞數為各 35 個時,文件分類正確率比較圖。
圖 5-5 類別關鍵詞數為各 60 個時,文件分類正確率比較圖。
圖 5-6 各種類別關鍵詞數情況之文件分類正確率比較圖。
36 38 40 42 44
20% 30% 40% 50% 60% 70% 80%
正確率%
Precision
LSA MMLSA FMPLSA FMMLSA
40 42 44 46 48 50
20% 30% 40% 50% 60% 70% 80%
正確率%
Precision
LSA MMLSA FMPLSA FMMLSA
15 20 25 30 35 40 45 50
5 10 15 20 25 30 35 40 45 50 55 60
正確率%
Precision
LSA MMLSA FMPLSA FMMLSA
壓縮率
壓縮率
各類別之類別關鍵詞數
51
表 5-4 類別關鍵詞庫詞數為各 5 個時,文件分類正確率
方法\壓縮率 20% 30% 40% 50% 60% 70% 80%
LSA 12.7692 14.4615
16.0000 18.1538 19.5385 20.1538 20.6154
MMLSA 12.7692 14.4615 15.3846 17.6923 18.7692 19.6923 20.1538 FMPLSA 13.2308 14.9231 16.1538 17.2308 18.3077 19.5385 20.3077 FMMLSA13.3846 15.3846
15.8462 17.0769 18.3077 19.2308 20.1538表 5-5 類別關鍵詞庫詞數為各 35 個時,文件分類正確率
方法\壓縮率 20% 30% 40% 50% 60% 70% 80%
LSA 36.3077 38.9231 40.7692
42.9231
43.6923 44.0000 44.0000 MMLSA 36.923139.8462
40.6154 42.153843.8462
44.0000 44.3077 FMPLSA 36.9231 38.7692 39.8462 41.0769 43.384644.4615 44.6154
FMMLSA 36.9231 39.538541.0769
42.6154 43.0769 43.8462 44.3077表 5-6 類別關鍵詞數為各 60 個時,文件分類正確率
方法\壓縮率 20% 30% 40% 50% 60% 70% 80%
LSA 41.3846 43.0769 46.0000
48.0000
47.692349.0769
48.4615 MMLSA 42.000045.0769
46.0000 47.692348.9231
48.6154 48.3077 FMPLSA 41.2308 43.3846 44.9231 46.0000 47.6923 48.000049.0769
FMMLSA 41.5385 43.846246.9231
47.3846 48.4615 47.6923 48.3077表 5-7 各種類別關鍵詞數情況之文件分類正確率
方法\類別詞數 5 10 15 20 25 30 35 40 45 50 55 60 LSA
17.38
23.30 29.69 28.9035.67 37.21
41.52 42.86 43.21 44.07 45.67 46.24 MMLSA 16.9923.30 29.85 28.95
35.43 36.9241.67
42.8643.30 44.57 45.87 46.66
FMPLSA 17.10 23.38 29.45 28.84 34.70 36.57 41.30 42.81 42.92 43.93 44.59 45.76 FMMLSA 17.05 23.08 29.47 28.70 34.90 36.95 41.6342.97
43.23 44.51 45.41 46.31B. 摘要句間平均相似度之比較
由圖 5-6 以及圖 5-7 的曲線趨勢圖可以看出我們所提之 ELSA 的方法(MMLSA、
FMPLSA 以及 FMMLSA)不論是在 650 篇文件或是 1300 篇文件中,整體的平均相似 度都比 LSA 來的低,由表 5-7 可看出在 650 篇文件中 MMLSA 以及 FMPLSA 能在較
52
低壓縮率(文章語句保留較少)之下所節錄出的摘要,能有效地降低摘要句間的平均相 似度。由表 5-8 能明顯的看出 FMMLSA 也能有效地降低摘要句間的相似度,由此反 映出我們所提之 ELSA 方法能有效地降低摘要句間的相似性即所謂的文句重複性。
圖 5-7 650 篇文件摘要句平均相似度比較圖
圖 5-8 1300 篇文件摘要句平均相似度比較圖 0.026
0.027 0.028 0.029 0.03 0.031
20% 30% 40% 50% 60% 70% 80%
相似度
摘要句平均相似度
LSAMMLSAFMPLSAFMMLSA
0.0265 0.0275 0.0285 0.0295 0.0305 0.0315
20% 30% 40% 50% 60% 70% 80%
相似度
摘要句平均相似度
LSAMMLSAFMPLSA
壓縮率
壓縮率
53
表 5-8 650 篇文件摘要句平均相似度
方法\壓縮率 20% 30% 40% 50% 60% 70% 80%
LSA 0.02991 0.03030 0.02965 0.02856 0.02771 0.02663 0.02627 MMLSA
0.02850 0.02860 0.02827
0.02808 0.02752 0.02696 0.02649 FMPLSA 0.02961 0.02972 0.02861 0.02774 0.02729 0.02661 0.02610 FMMLSA 0.02915 0.02987 0.028690.02764 0.02693 0.02653 0.02619
表 5-9 1300 篇文件摘要句相似度總和
方法\壓縮率 20% 30% 40% 50% 60% 70% 80%
LSA 0.03115 0.03154 0.03054 0.02958 0.02834 0.02750 0.02699
MMLSA
0.03021 0.02996 0.02927
0.02898 0.02823 0.02772 0.02710FMPLSA 0.03116 0.03052 0.02964 0.02863 0.02809 0.02748
0.02698
FMMLSA 0.03024 0.03052 0.02954
0.02855 0.02774 0.02738
0.02713實驗總結
由實驗結果得知我們所提之方法(MMLSA、FMPLSA 與 FMMLSA)在低壓縮率 (20%~40%)的情況下文件分類正確率都比 LSA 高,最好可以高出 2%(約 12 篇文件),
且摘要句間相似度也都比 LSA 低。所以我們提之方法能有效地找出原文內相似度較 低(重複性較低)的語句,但又不失其原文意與我們預期的一樣。
54