實驗一 - 實驗設計與結果 - 系統實作與實驗結果與分析 - 以自動摘要提昇中文文件分類之效能

4 系統實作與實驗結果與分析

4.5 實驗設計與結果

4.5.1 實驗一

在實驗一之目的在於瞭解以文件為特徵向量單位和以類別為特徵向量單位(整個類別以一個向量表示)⁵，何者之分類效果較佳。此處，當文件為特徵向量單位時，分類器會選取最相近之35篇文件(i.e., KNN的參數

K取35)，並依類別加總相似度，選取相似度最高之類別做為預測值。實驗測試摘要篩選比例(θ)方式為，由於在[9]中摘要篩選比例效果最好是 40%，因此本研究先測試摘要比例為30%及40％時(全文的30%與40%)⁶，不同訓練資料比例(30%、50%、70%)下，以文件或類別為向量單位何者表現會較佳。詳細的比較結果請參考表 4-7~表 4-12所示。

表 4-7 以文件為向量，訓練資料為 30％，摘要比例為 30％及 40％之分類結果

取前30％全文摘要取前40％全文摘要

類別文件數分類正確 Recall Precision 類別文件數分類正確Recall Precision 政治 290 227 0.78 0.60 政治 290 230 0.79 0.61 運動 315 304 0.97 0.94 運動 315 306 0.97 0.93 財經 309 224 0.72 0.63 財經 309 229 0.74 0.63 影視 284 228 0.80 0.81 影視 284 238 0.84 0.80 科技 308 202 0.66 0.62 科技 308 207 0.67 0.63 兩岸 312 169 0.54 0.60 兩岸 312 171 0.55 0.63 休閒 306 173 0.57 0.75 休閒 306 182 0.59 0.76 社會 294 185 0.63 0.61 社會 294 188 0.64 0.64 國際 289 144 0.50 0.65 國際 289 141 0.49 0.65 健康 312 249 0.80 0.80 健康 312 249 0.80 0.83 TOTAL 3019 2105 70% 70% TOTAL 3019 2141 71% 71%

Accuracy 70% Accuracy 71%

表 4-8 以文件為向量，訓練資料為 50％，摘要比例為 30％及 40％之分類結果

取前30％全文摘要取前40％全文摘要

類別文件數分類正確 Recall Precision 類別文件數分類正確Recall Precision 政治 207 163 0.79 0.71 政治 207 163 0.79 0.73 運動 225 218 0.97 0.94 運動 225 219 0.97 0.94 財經 221 172 0.78 0.73 財經 221 173 0.78 0.72 影視 203 168 0.83 0.86 影視 203 175 0.86 0.86 科技 220 156 0.71 0.69 科技 220 158 0.72 0.70

兩岸 223 134 0.60 0.69 兩岸 223 129 0.58 0.70 休閒 219 151 0.69 0.76 休閒 219 159 0.73 0.77 社會 210 142 0.68 0.61 社會 210 140 0.67 0.61 國際 207 119 0.57 0.66 國際 207 124 0.60 0.67 健康 223 180 0.81 0.79 健康 223 181 0.81 0.79 TOTAL 2158 1603 74% 74% TOTAL 2158 1621 75% 75%

Accuracy 74% Accuracy 75%

表 4-9 以文件為向量，訓練資料為 70％，摘要比例為 30％及 40％之分類結果

取前30％全文摘要取前40％全文摘要

類別文件數分類正確 Recall Precision 類別文件數分類正確Recall Precision 政治 124 91 0.73 0.72 政治 124 91 0.73 0.75 運動 135 131 0.97 0.93 運動 135 131 0.97 0.92 財經 132 110 0.83 0.74 財經 132 108 0.82 0.74 影視 122 95 0.78 0.86 影視 122 101 0.83 0.89 科技 132 96 0.73 0.72 科技 132 98 0.74 0.71 兩岸 134 86 0.64 0.69 兩岸 134 89 0.66 0.70 休閒 131 104 0.79 0.75 休閒 131 110 0.84 0.77 社會 126 90 0.71 0.67 社會 126 90 0.71 0.68 國際 124 69 0.56 0.63 國際 124 69 0.56 0.66 健康 133 106 0.80 0.85 健康 133 107 0.80 0.86 TOTAL 1293 978 75% 76% TOTAL 1293 994 77% 77%

Accuracy 76% Accuracy 77%

表 4-10 以類別為向量，訓練資料為 30％，摘要比例為 30％及 40％之分類結果

取前30％全文摘要取前40％全文摘要

類別文件數分類正確 Recall Precision 類別文件數分類正確Recall Precision 政治 290 220 0.76 0.70 政治 290 219 0.76 0.71 運動 315 306 0.97 0.94 運動 315 307 0.97 0.95 財經 309 226 0.73 0.66 財經 309 231 0.75 0.66 影視 284 263 0.93 0.77 影視 284 266 0.94 0.76 科技 308 203 0.66 0.69 科技 308 203 0.66 0.71 兩岸 312 178 0.57 0.67 兩岸 312 181 0.58 0.67 休閒 306 215 0.70 0.74 休閒 306 224 0.73 0.77

TOTAL 3019 2225 74% 73% TOTAL 3019 2247 74% 74%

Accuracy 74% Accuracy 74%

表 4-11 以類別為向量，訓練資料為 50％，摘要比例為 30％及 40％之分類結果

取前30％全文摘要取前40％全文摘要

類別文件數分類正確 Recall Precision 類別文件數分類正確Recall Precision 政治 207 155 0.75 0.80 政治 207 156 0.75 0.80 運動 225 219 0.97 0.95 運動 225 220 0.98 0.96 財經 221 173 0.78 0.75 財經 221 173 0.78 0.74 影視 203 186 0.92 0.78 影視 203 190 0.94 0.80 科技 220 159 0.72 0.77 科技 220 158 0.72 0.79 兩岸 223 141 0.63 0.71 兩岸 223 142 0.64 0.72 休閒 219 180 0.82 0.80 休閒 219 191 0.87 0.81 社會 210 141 0.67 0.64 社會 210 139 0.66 0.64 國際 207 133 0.64 0.73 國際 207 132 0.64 0.72 健康 223 190 0.85 0.82 健康 223 193 0.87 0.84 TOTAL 2158 1677 78% 77% TOTAL 2158 1694 78% 78%

Accuracy 78% Accuracy 78%

表 4-12 以類別為向量，訓練資料為 70％，摘要比例為 30％及 40％之分類結果

取前30％全文摘要取前40％全文摘要

類別文件數分類正確 Recall Precision 類別文件數分類正確Recall Precision 政治 124 87 0.70 0.78 政治 124 91 0.73 0.78 運動 135 127 0.94 0.96 運動 135 129 0.96 0.96 財經 132 104 0.79 0.79 財經 132 103 0.78 0.82 影視 122 109 0.89 0.83 影視 122 110 0.90 0.83 科技 132 100 0.76 0.79 科技 132 102 0.77 0.80 兩岸 134 93 0.69 0.72 兩岸 134 95 0.71 0.73 休閒 131 117 0.89 0.81 休閒 131 120 0.92 0.83 社會 126 95 0.75 0.67 社會 126 94 0.75 0.70 國際 124 77 0.62 0.71 國際 124 77 0.62 0.71 健康 133 112 0.84 0.82 健康 133 115 0.86 0.85 TOTAL 1293 1021 79% 79% TOTAL 1293 1036 80% 80%

Accuracy 79% Accuracy 80%

綜括而言，以類別為向量單位之分類器顯著優於以文件為向量單位之分類器(就macro-recall及macro-precision二者皆然)(參考表 4-13與表 4-14之數據，或圖 4-3及圖 4-4之比較圖)。其原因可能在於，當以類別為特徵向量單位時該類別之特徵詞全部聚在一起，描述類別的資訊更加完整，因此分類效果也比較好。

表 4-13 摘要篩選比例 30%，不同向量單位之比較摘要篩選

篩選比例 30%

(文件向量) (類別向量)

訓練文件比例 Marco-Recall Marco-Precision Marco-Recall Marco-Precision

30% 1330 份 70% 70% 74% 73%

50% 2161 份 74% 74% 78% 77%

70% 3026 份 75% 76% 79% 79%

表 4-14 摘要篩選比例 40%，不同向量單位之比較摘要篩選

篩選比例 40%

(文件向量) (類別向量)

訓練文件比例 Marco-Recall Marco-Precision Marco-Recall Marco-Precision

30% 1330 份 71% 71% 74% 74%

50% 2161 份 75% 75% 78% 78%

70% 3026 份 77% 77% 80% 80%

65%

70%

75%

80%

Marco-Recall Marco-Precise Marco-Recall Marco-Precise

1330份 2161份 3026份

65%

70%

75%

80%

85%

Marco-Recall Marco-Precise Marco-Recall Marco-Precise

（文件向量） (類別向量)

1330份 2161份 3026份

圖 4-4 摘要篩選比例 40%，不同向量單位之比較

為進一步瞭解不同摘要篩選比例(10％, 20%, 30%, 40％)及不同訓練資料比例(20%, 30%, …, 80%)的分類效果，本研究採用接受者操作曲線 (ROC curve)分析。詳細的數據如表 4-15及圖 4-5所示，可知摘要篩選比例愈高或訓練資料愈多，模式的正確率愈高(當然其計算成本也相對的較高)。但由數據中我們也可觀察出，當摘要比例由30%提昇為40%時，其正確率提昇皆不足1%；顯示正確率提昇的效益已不足彌平摘要比例增加的成本，因此本研究之後續實驗皆將摘要比例固定為40％。

表 4-15 以類別為向量，在不同摘要比例下，不同訓練資料比例之分類結果訓練資料比例 (%)

摘要篩選比例 20 30 40 50 60 70 80

0.1 59.360% 65.585% 66.820% 69.741% 71.460% 73.163% 73.050%

0.2 66.600% 71.017% 73.310% 75.255% 76.040% 76.489% 78.860%

0.3 69.320% 73.700% 76.320% 77.711% 78.360% 78.964% 80.720%

0.4 70.370% 74.429% 76.940% 78.499% 79.350% 80.124% 81.770%

10%

20%

30%

40%

50%

60%

70%

80%

90%

0 10 20 30 40 50 60 70 80

訓練資料比例（％）

Accuracy

0.1 0.2 0.3 0.4

圖 4-5 以類別向量在不同摘要篩選比例之比較

在文檔中以自動摘要提昇中文文件分類之效能 (頁 50-57)