• 沒有找到結果。

特徵權重方法分類效果差異檢定

4. 實驗結果與分析

4.2 特徵權重方法分類效果差異檢定

(2). 特徵權重方法為特徵比例之 TFIDF 時:

以特徵比例為權重計算方式時,其分類準確率平均值為 85.6%,值域分佈在 84%到 88%之間,標準差為 0.01,極大值為 87.9%。召回率的部分平均值為 85.2%,

值域分佈在 83%到 87%之間,標準差為 0.011,極大值為 87.7%。F 值平均數為 85.2%,

標準差 0.011,極大值為 87.7%。

圖 11 特徵比例權重分類結果

資料來源:本研究繪製

表 8 特徵比例權重之分類統計值

準確率 召回率 F 值

平均數 0.856 0.852 0.852 標準差 0.01 0.011 0.011 極大值 0.879 0.877 0.877

資料來源:本研究整理

實驗分析

實驗一以貝式機率分類器測試特徵權重方法是否對分類效果有顯著影響,亦 即利用統計檢定在特徵權重方法不同的情況下,分類效果是否顯著差異。根據 4.1 實驗數據,將以特徵次數與特徵比例為權重方式之分類效果平均值以下表呈現。

表 9 特徵次數與特徵比例權重法之分類效果比較

特徵次數 特徵比例 準確率平均 0.658 0.856 召回率平均 0.590 0.852 F 值平均 0.590 0.852

資料來源:本研究整理

(1). 特徵次數與特徵比例之準確率比較:

圖 12 特徵次數與特徵比例權重法之準確率比較 資料來源:本研究繪製

根據實驗模擬之數據,令特徵比例權重方法母體之準確率為 ,特徵次數權 重方法母體準確率為 ,則假設檢定為:

0

: 0 特徵比例準確率較特徵次數準確率高

: 特徵比例準確率與特徵次數準確率無差異

以 t 檢定進行分析,計算得 t 值為 17.203 大於臨界值 1.833,因此拒絕虛無假 設 ,即特徵比例之準確率確實高於特徵次數之準確率。

(2). 特徵次數與特徵比例之召回率比較:

圖 13 特徵次數與特徵比例權重法之召回率比較 資料來源:本研究繪製

令特徵比例權重方法母體之召回率為 ,特徵次數權重方法母體召回率為 , 則假設檢定為:

: 0 特徵比例召回率與特徵次數召回率無差異

: 0 特徵比例召回率較特徵次數召回率高

以 t 檢定進行分析,計算得 t 值為 15.436 大於臨界值 1.833,因此拒絕虛無假 設 ,即特徵比例之召回率確實高於特徵次數之召回率。

(3). 特徵次數與特徵比例之 F 值比較:

圖 14 特徵次數與特徵比例權重法之 F 值比較 資料來源:本研究繪製

令特徵比例權重方法母體之 F 值為 ,特徵次數權重方法母體準確率為 , 則假設檢定為:

: 0 特徵比例 F 值與特徵次數 F 值無差異

: 0 特徵比例 F 值較特徵次數 F 值高

以 t 檢定進行分析,計算得 t 值為 15.689 大於臨界值 1.833,因此拒絕虛無假 設 ,即特徵比例之 F 值確實高於特徵次數之 F 值。

小結與討論

(1). 小結

根據上述統計假設檢定的結果,發現特徵比例權重方法在分類準確率、召回 率與 F 值皆顯著大於特徵次數權重方法,因此以特徵比例權重值建構文件特徵向 量在分類上獲得較佳的效果。

(2). 討論

特徵權重方法實驗結果如預期,以特徵比例分類效果較佳,其分類準確率平 均值,證實以特徵比例進行權重可避免文章長度不同造成以特徵次數比較失衡的 問題。

相關文件