• 沒有找到結果。

4 系統實作與實驗結果與分析

4.5 實驗設計與結果

4.5.4 實驗四

有實驗三之基礎後,本研究則以保留法(holdout method),分別以資 料集A(yahoo電子新聞)及資料集B(ICIM2006學術論文),進一步測試三個 分類器(KNN、SVM、及本研究分類器)在大量資料集上的表現。為使三 者能在相同的基礎下進行比較,我們將三個分類器的特徵維度大小加以 統一為N,分別實驗不同特徵維度(N=1000, 2000, 3000, 4000, 5000)下三分 類器之表現。實驗的保留比例依次:資料集A訓練資料為70%,測試資料 為30%;資料集B訓練資料為30%,測試資料為70%。其餘設定如實驗三 所述。以下分述兩個資料集之比較結果。

1) 資料集A之實驗結果

詳細的數據如表 4-22~表 4-24所示。綜括而言(參考表 4-25及圖 4-9~圖 4-11),本研究所提分類器之表現與SVM表現相當(雖略遜一些),

但明顯優於以Information Gain為特徵選取準則之KNN分類器。仔細比較 後發現,隨著維度的增加,本研究分類器與SVM的差距會愈來愈小。其 背後之主要原因可能在於本研究是採用類別為特徵向量單位。以維度大 小為1000為例,則10個類別每一類只能分配到100個特徵,相較於其它分 類器的1000個維度明顯地資訊不足;此情形會隨著維度增大而獲得改 善。此呼應實驗一的結果(c.f. 表 4-12),若不限制維度,本研究分類器之

正確率可達到與SVM一樣。

z

資料集A之實驗結果

表 4-22 在資料集 A 下,本研究分類器分類結果

維度:1000 維度:2000

類別 文件數 分類正確 Recall Precision F-measure 類別 文件數 分類正確Recall Precision F-measure 政治 124 91 0.73 0.77 0.75 政治 124 91 0.73 0.77 0.75 運動 135 126 0.93 0.94 0.94 運動 135 126 0.93 0.94 0.94 財經 132 98 0.74 0.78 0.76 財經 132 98 0.74 0.78 0.76 影視 122 109 0.89 0.78 0.83 影視 122 109 0.89 0.78 0.83 科技 132 102 0.77 0.76 0.76 科技 132 102 0.77 0.76 0.76 兩岸 134 92 0.69 0.70 0.69 兩岸 134 92 0.69 0.70 0.69 休閒 131 109 0.83 0.77 0.80 休閒 131 109 0.83 0.77 0.80 社會 126 88 0.70 0.69 0.70 社會 126 88 0.70 0.69 0.70 國際 124 73 0.59 0.66 0.62 國際 124 73 0.59 0.66 0.62 健康 133 107 0.80 0.82 0.81 健康 133 107 0.80 0.82 0.81 TOTAL 1293 995 77% 77% TOTAL 1293 995 77% 77%

Accuracy 76.953% Accuracy 76.953%

維度:3000 維度:4000

類別 文件數 分類正確 Recall Precision F-measure 類別 文件數 分類正確Recall Precision F-measure 政治 124 92 0.74 0.78 0.76 政治 124 92 0.74 0.77 0.76 運動 135 127 0.94 0.93 0.93 運動 135 128 0.95 0.93 0.94 財經 132 103 0.78 0.80 0.79 財經 132 104 0.79 0.82 0.80 影視 122 109 0.89 0.80 0.84 影視 122 108 0.89 0.81 0.84 科技 132 102 0.77 0.77 0.77 科技 132 102 0.77 0.77 0.77 兩岸 134 91 0.68 0.70 0.69 兩岸 134 95 0.71 0.71 0.71 休閒 131 112 0.85 0.81 0.83 休閒 131 111 0.85 0.80 0.83 社會 126 91 0.72 0.70 0.71 社會 126 90 0.71 0.69 0.70 國際 124 73 0.59 0.69 0.63 國際 124 73 0.59 0.68 0.63 健康 133 112 0.84 0.83 0.84 健康 133 111 0.83 0.83 0.83 TOTAL 1293 1012 78% 78% TOTAL 1293 1014 78% 78%

(continued) 維度:5000

類別 文件數 分類正確 Recall Precision F-measure 政治 124 92 0.74 0.77 0.76 運動 135 128 0.95 0.94 0.94 財經 132 104 0.79 0.81 0.80 影視 122 110 0.90 0.81 0.85 科技 132 103 0.78 0.77 0.77 兩岸 134 96 0.72 0.72 0.72 休閒 131 110 0.84 0.82 0.83 社會 126 90 0.71 0.70 0.71 國際 124 72 0.58 0.67 0.62 健康 133 113 0.85 0.84 0.84 TOTAL 1293 1018 79% 78%

Accuracy 78.732%

表 4-23 在資料集 A 下,SVM 分類器分類結果

維度:1000 維度:2000

類別 文件數 分類正確 Recall Precision F-measure 類別 文件數 分類正確Recall Precision F-measure 政治 124 89 0.72 0.76 0.74 政治 124 87 0.70 0.75 0.73 運動 135 132 0.98 0.92 0.95 運動 135 131 0.97 0.94 0.96 財經 132 110 0.83 0.76 0.80 財經 132 107 0.81 0.75 0.78 影視 122 111 0.91 0.86 0.88 影視 122 111 0.91 0.84 0.87 科技 132 103 0.78 0.81 0.80 科技 132 102 0.77 0.80 0.78 兩岸 134 92 0.69 0.70 0.69 兩岸 134 97 0.72 0.78 0.75 休閒 131 106 0.81 0.79 0.80 休閒 131 110 0.84 0.81 0.83 社會 126 98 0.78 0.72 0.75 社會 126 99 0.79 0.76 0.77 國際 124 70 0.56 0.71 0.63 國際 124 72 0.58 0.70 0.63 健康 133 111 0.83 0.83 0.83 健康 133 112 0.84 0.79 0.82 TOTAL 1293 1022 79% 79% TOTAL 1293 1028 79% 79%

Accuracy 79.041% Accuracy 79.505%

維度:3000 維度:4000

類別 文件數 分類正確 Recall Precision F-measure 類別 文件數 分類正確Recall Precision F-measure 政治 124 87 0.70 0.75 0.73 政治 124 85 0.69 0.75 0.72 運動 135 131 0.97 0.95 0.96 運動 135 132 0.98 0.94 0.96 財經 132 111 0.84 0.78 0.81 財經 132 109 0.83 0.79 0.81 影視 122 114 0.93 0.83 0.88 影視 122 113 0.93 0.84 0.88

科技 132 105 0.80 0.78 0.79 科技 132 107 0.81 0.78 0.80 兩岸 134 100 0.75 0.77 0.76 兩岸 134 97 0.72 0.78 0.75 休閒 131 112 0.85 0.84 0.85 休閒 131 114 0.87 0.82 0.84 社會 126 96 0.76 0.74 0.75 社會 126 100 0.79 0.75 0.77 國際 124 71 0.57 0.68 0.62 國際 124 72 0.58 0.68 0.63 健康 133 107 0.80 0.85 0.83 健康 133 108 0.81 0.86 0.83 TOTAL 1293 1034 80% 80% TOTAL 1293 1037 80% 80%

Accuracy 79.969% Accuracy 80.201%

維度:5000

類別 文件數 分類正確 Recall Precision F-measure 政治 124 86 0.69 0.76 0.73 運動 135 132 0.98 0.94 0.96 財經 132 112 0.85 0.78 0.81 影視 122 114 0.93 0.85 0.89 科技 132 106 0.80 0.79 0.80 兩岸 134 96 0.72 0.76 0.74 休閒 131 114 0.87 0.82 0.84 社會 126 99 0.79 0.74 0.76 國際 124 72 0.58 0.69 0.63 健康 133 107 0.80 0.86 0.83 TOTAL 1293 1038 80% 80%

Accuracy 80.278%

表 4-24 在資料集 A 下,KNN 分類器分類結果

維度:1000 維度:2000

類別 文件數 分類正確 Recall Precision F-measure 類別 文件數 分類正確Recall Precision F-measure 政治 124 95 0.77 0.68 0.72 政治 124 93 0.75 0.62 0.68 運動 135 128 0.95 0.94 0.94 運動 135 130 0.96 0.92 0.94 財經 132 97 0.73 0.72 0.73 財經 132 102 0.77 0.71 0.74 影視 122 110 0.90 0.65 0.76 影視 122 111 0.91 0.65 0.76 科技 132 87 0.66 0.79 0.72 科技 132 95 0.72 0.79 0.75 兩岸 134 58 0.43 0.64 0.52 兩岸 134 54 0.40 0.65 0.50

TOTAL 1293 924 71% 71% TOTAL 1293 927 72% 71%

Accuracy 71.462% Accuracy 71.694%

維度:3000 維度:4000

類別 文件數 分類正確 Recall Precision F-measure 類別 文件數 分類正確Recall Precision F-measure 政治 124 93 0.75 0.62 0.68 政治 124 93 0.75 0.61 0.67 運動 135 130 0.96 0.92 0.94 運動 135 129 0.96 0.90 0.93 財經 132 106 0.80 0.76 0.78 財經 132 107 0.81 0.80 0.80 影視 122 115 0.94 0.61 0.74 影視 122 116 0.95 0.59 0.73 科技 132 97 0.73 0.82 0.77 科技 132 94 0.71 0.80 0.76 兩岸 134 61 0.46 0.66 0.54 兩岸 134 65 0.49 0.66 0.56 休閒 131 106 0.81 0.77 0.79 休閒 131 108 0.82 0.76 0.79 社會 126 82 0.65 0.67 0.66 社會 126 83 0.66 0.75 0.70 國際 124 56 0.45 0.64 0.53 國際 124 55 0.44 0.61 0.51 健康 133 96 0.72 0.82 0.77 健康 133 90 0.68 0.85 0.75 TOTAL 1293 942 73% 73% TOTAL 1293 940 73% 73%

Accuracy 72.854% Accuracy 72.699%

維度:5000

類別 文件數 分類正確 Recall Precision F-measure 政治 124 98 0.79 0.52 0.63 運動 135 127 0.94 0.92 0.93 財經 132 104 0.79 0.76 0.77 影視 122 113 0.93 0.57 0.70 科技 132 91 0.69 0.77 0.73 兩岸 134 54 0.40 0.74 0.52 休閒 131 106 0.81 0.77 0.79 社會 126 80 0.63 0.72 0.68 國際 124 53 0.43 0.60 0.50 健康 133 86 0.65 0.86 0.74 TOTAL 1293 912 71% 72%

Accuracy 70.534%

表 4-25 分類器分類結果比較表 (資料集 A)

Marco-Recall Marco-Precision 維度 KNN 分類器 本研究分類器 SVM 分類器 KNN 分類器 本研究分類器 SVM 分類器

5000 71% 79% 80% 72% 78% 80%

4000 73% 78% 80% 73% 78% 80% 5000 70.534% 78.732% 80.278% 5000 71.360% 78.536% 80.035%

4000 72.699% 78.422% 80.201% 4000 72.939% 78.230% 79.938%

3000 72.854% 78.268% 79.969% 3000 72.886% 78.071% 79.714%

2000 71.694% 76.953% 79.505% 2000 71.547% 76.797% 79.278%

1000 71.462% 76.953% 79.041% 1000 71.336% 76.797% 78.838%

50%

1000 2000 3000 4000 5000 維度數量

Accuracy KNN分類器

本研究分類器 SVM分類器

50%

55%

60%

65%

70%

75%

80%

85%

90%

95%

100%

1000 2000 3000 4000 5000 維度數量

Macro-F KNN分類器

本研究分類器 SVM分類器

4- 分類器分類結果比較圖(Macro-F) (資料集A)11

2) 資料集B之分類器比較實驗結果

表 4-26 表 4-28所示。整體而言(參考表 4-29

詳細的數據如 ~ 及圖

4-12~圖 4-14),本研究之分類器優於傳統之KNN分類器,且與SVM表現 相當(在Marco-Recall及Macro-F值略勝於SVM,但在Macro-Precision的表 現則稍負於SVM)。

z 資料集B之實驗結果

表 4-26 在資料集 B 下,本研究分類器分類結果

維度:1000 維度:2000

文件 數

分類 正確

文件 數

分類

類別 R P F 類別 正確 R P F

決策支援智慧型

系統 22 9 0.41 0.47 0.44 決策支援智慧型

系統 22 9 0.41 0.47 0.44 其他資訊管理相

關議題 4 1 0.25 0.25 0.25 其他資訊管理相

關議題 4 1 0.25 0.25 0.25 知識經濟與創新 12 9 0.75 0.50 0.60 知識經濟與創新 12 8 0.67 0.50 0.57 商業智慧與資料

探勘 11 6 0.55 0.36 0.43 商業智慧與資料

探勘 11 5 0.45 0.36 0.40 軟體工程 8 1 0.13 0.25 0.17 軟體工程 8 1 0.13 0.25 0.17 資訊安全管理 11 3 0.27 0.33 0.30 資訊安全管理 11 5 0.45 0.33 0.38 資訊系統應用 14 0 0.00 0.00 0.00 資訊系統應用 14 0 0.00 0.00 0.00 資訊科技創新與

應用 16 3 0.19 0.14 0.16 資訊科技創新與

應用 16 3 0.19 0.14 0.16 資訊科技與社會 11 1 0.09 0.13 0.11 資訊科技與社會 11 1 0.09 0.13 0.11 資訊教育 4 3 0.75 0.38 0.50 資訊教育 4 3 0.75 0.38 0.50 電子商務 6 2 0.33 0.14 0.20 電子商務 6 2 0.33 0.14 0.20 網路技術與應用 15 4 0.27 0.27 0.27 網路技術與應用 15 4 0.27 0.27 0.27

*R表Recall,P表Precision,F表F-measure

資訊科技與社會 11 1 0.09 0.11 0.10

系統 系統

Accuracy 33.333%

表 4-28 在資料集 B 下,KNN 分類器分類結果

資訊科技創新與

Accuracy 17.730% Accuracy 21.986%

維度:5000

Accuracy 17.730%

表 4-29 分類器分類結果比較表(資料集 B)

Marco-Recall Marco-Precision

維度 KNN 分類器 本研究分類器SVM 分類器 KNN 分類器 本研究分類器 SVM 分類器

Accuracy Macro-F

維度 KNN 分類器 本研究分類器 SVM 分類器 維度KNN 分類器 本研究分類器 SVM 分類器 1000 21.986% 31.915% 31.206% 1000 18.609% 30.668% 27.963%

2000 19.149% 31.915% 31.915% 2000 12.699% 30.692% 27.964%

3000 17.730% 31.915% 34.043% 3000 10.803% 30.692% 28.837%

4000 21.986% 30.496% 34.752% 4000 16.687% 31.492% 29.574%

5000 17.730% 30.496% 33.333% 5000 9.913% 31.492% 28.268%

1000 2000 3000 4000 5000 維度數量

Accuracy KNN分類器

本研究分類器 SVM分類器

圖 4-13 分類器分類結果比較圖(Accuracy) (資料集 B)

0%

5%

10%

15%

20%

25%

30%

35%

40%

相關文件