• 沒有找到結果。

文章欄位分類效果差異檢定

4. 實驗結果與分析

4.3 文章欄位分類效果差異檢定

(2). 為摘要時:

以摘要欄位為特徵建構來源時,其分類準確率平均值為 85.2%,值域分佈在 80%到 90%之間,標準差為 0.026,極大值為 89.9%。召回率的部分平均值為 85%,

值域分佈在 80%到 90%之間,標準差為 0.027,極大值為 89.7%。F 值平均數為 84.9%,

標準差 0.027,極大值為 89.7%。

圖 16 摘要欄位之分類結果 資料來源:本研究繪製

表 11 摘要欄位分類之統計值

準確率 召回率 F 值

平均數 0.852 0.85 0.849

標準差 0.026 0.027 0.027

極大值 0.899 0.897 0.897

資料來源:本研究整理

(3). 為關鍵字時:

以關鍵字欄位為特徵建構來源時,其分類準確率平均值為 81.3%,值域分佈在 74%到 86%之間,標準差為 0.038,極大值為 85.5%。召回率的部分平均值為 78.7%,

值域分佈在 60%到 86%之間,標準差為 0.071,極大值為 85.1%。F 值平均數為 79.6%,

標準差 0.067,極大值為 85.1%

圖 17 關鍵字欄位之分類結果 資料來源:本研究繪製

表 12 關鍵字分類之統計值

準確率 召回率 F 值

平均數 0.813 0.787 0.79

標準差 0.038 0.071 0.067

極大值 0.855 0.851 0.851

資料來源:本研究整理

(4). 為全部採記時:

同實驗一之特徵比例權重之分類效果。

實驗分析

實驗二目的在探討期刊論文之文章欄位對於分類上所能提供之分類資訊是否 有顯著差異。

表 13 文章欄位之分類效果比較

標題 摘要 關鍵字 全部

準確率平均 0.818 0.852 0.813 0.856 召回率平均 0.806 0.85 0.787 0.852

F 值平均 0.806 0.849 0.79 0.852

資料來源:本研究整理

(1). 標題、摘要、關鍵字與全部採記之準確率

圖 18 文章欄位分類準確率比較 資料來源

令標題欄位分類準確率為 ,摘要欄位分類準確率為 ,關鍵字欄位分類準 確率為 ,全部欄位分類準確率為 。則假設檢定為:

:本研究繪製

檢 一 全部欄位

: 全部欄位分類準確率與摘要欄位分類準確率無差異

定 : 與摘要欄位

0

: 0 全部欄位分類準確率較摘要欄位分類準確率高

以 t 檢定進行分析,計算得 t 值為 0.229 小於臨界值 1.812,因此不拒絕虛無假 設,亦即採記全部欄位之分類準確率並未較採記摘要欄位之分類準確率高。

檢 二 摘要欄位

: 摘要欄位分類準確率與標題欄位分類準確率無差異

定 : 與標題欄位

0

: 0 摘要欄位分類準確率較標題欄位分類準確率高

以 t 檢定進行分析,計算得 t 值為 2.59 大於臨界值 1.745,因此拒絕虛無假設,

即採記摘要欄位之分類準確率高於標題欄位分類之準確率。

檢 三 摘要欄位

: 摘要欄位分類準確率與關鍵字欄位分類準確率無差異

定 : 與關鍵字欄位

0

: 0 摘要欄位分類準確率較關鍵字欄位分類準確率高

以 t 檢定進行分析,計算得 t 值為 2.922 大於臨界值 1.753,因此拒絕虛無假設,

即採記摘要欄位之分類準確率高於標題欄位分類之準確率。

檢 四 標題欄位

: 標題欄位分類準確率與關鍵字欄位分類準確率無差異

定 : 與關鍵字欄位

0

: 0 標題欄位分類準確率較關鍵字欄位分類準確率高

以 t 檢定進行分析,計算得 t 值為 0.698 小於臨界值 1.753,因此不拒絕虛無假 設,即採記標題欄位之分類準確率與關鍵字欄位之分類準確率無顯著差異。

(2). 標題、摘要、關鍵字與全部採記之召回率

圖 19 文章欄位分類召回率比較 資料來源:本研究繪製

令標題欄位分類召回率為 ,摘要欄位分類召回率為 ,關鍵字欄位分類召 回率為 ,全部欄位分類召回率為 。則假設檢定為:

檢 一 全部欄位

: 全部欄位分類召回率與摘要欄位分類召回率無差異

定 : 與摘要欄位

0

: 0 全部欄位分類召回率較摘要欄位分類召回率高

以 t 檢定進行分析,計算得 t 值為 0.154 小於臨界值 1.812,因此不拒絕虛無假 設,即採記全部欄位之分類召回率與採記摘要欄位之分類召回率無顯著差異。

檢 二 摘要欄位

: 摘要欄位分類召回率與標題欄位分類召回率無差異

定 : 與標題欄位

0

: 0 摘要欄位分類召回率較標題欄位分類召回率高

以 t 檢定進行分析,計算得 t 值為 3.254 大於臨界值 1.746,故拒絕虛無假設,

即採記摘要欄位分類召回率較標題欄位分類召回率高。

檢 三 摘要欄位

: 摘要欄位分類召回率與關鍵字欄位分類召回率無差異

定 : 與關鍵字欄位

0

: 0 摘要欄位分類召回率較關鍵字欄位分類召回率高

以 t 檢定進行分析,計算得 t 值為 2.641 大於臨界值 1.812,故拒絕虛無假設,

即採記摘要欄位分類召回率較關鍵字欄位高。

檢 四 標題欄位

: 標題欄位分類召回率與關鍵字欄位分類召回率無差異

定 : 與關鍵字欄位

0

: 0 標題欄位分類召回率較關鍵字欄位分類召回率高

以 t 檢定進行分析,計算得 t 值為 0.988 小於臨界值 1.812,因此不拒絕虛無假 設,即採記標題欄位之分類召回率與關鍵字欄位分類召回率無顯著差異。

(3). 標題、摘要、關鍵字與全部採記之 F 值

圖 20 文章欄位分類 F 值比較 資料來源:本研究繪製

令標題欄位分類 F 值為 ,摘要欄位分類 F 值為 ,關鍵字欄位分類 F 值為 , 全部欄位分類 F 值為 。則假設檢定為:

檢 一 全部欄位

: 全部欄位分類 F 值與摘要欄位分類 F 值無差異

定 : 與摘要欄位

0

: 0 全部欄位分類 F 值較摘要欄位分類 F 值高

以 t 檢定進行分析,計算得 t 值為 0.176 小於臨界值 1.795,因此不拒絕虛無假 設,即採記全部欄位進行分類之 F 值與摘要欄位分類 F 值無顯著差異。

檢 二 摘要欄位

: 摘要欄位分類 F 值與標題欄位分類 F 值無差異

定 : 與標題欄位

0

: 0 摘要欄位分類 F 值較標題欄位分類 F 值高

以 t 檢定進行分析,計算得 t 值為 3.147 大於臨界值 1.746,故拒絕虛無假設,

即採記摘要欄位進行分類之 F 值高於標題欄位分類 F 值。

檢 三 摘要欄位

: 摘要欄位分類 F 值與關鍵字欄位分類 F 值無差異

定 : 與關鍵字欄位

0

: 0 摘要欄位分類 F 值較關鍵字欄位分類 F 值高

經 t 檢定計算得 t 值為 2.647 大於臨界值 1.796,故拒絕虛無假設,即摘要欄位 分類 F 值高於關鍵字。

檢 四 標題欄位

: 標題欄位分類 F 值與關鍵字欄位分類 F 值無差異

定 : 與關鍵字欄位

0

: 0 標題欄位分類 F 值較關鍵字欄位分類 F 值高

經 t 檢定計算得 t 值為 0.933 小於臨界值 1.796,因此不拒絕虛無假設,即標題 欄位分類 F 值與關鍵字欄位 F 值並無顯著差異。

小結與討論

(1). 小結

藉由假設檢定的結果,發現進行分類時,採記全部欄位與僅採記摘要欄位時,

分類效果並無顯著差異,而摘要欄位分類效果顯著優於標題欄位與關鍵字欄位。

標題欄位與關鍵字欄位之分類效果並無顯著差異。因此,以摘要欄位進行分類可 獲得較佳之分類效果。

(2). 討論

根據實驗結果顯示,期刊論文之摘要欄位相較於標題與關鍵字欄位之分類效 果較佳。推測此現象之原因在於摘要欄位擁有較多鑑別力較佳之特徵。單就分類 準確率來看,即便是效果較差之標題欄位與關鍵字欄位可達到 80%以上的水準。

召回率與 F 值也都有 75%~80%的水準。就分類效果來說三者個欄位皆具有一定分 類資訊。而採記全部欄位與採記摘要欄位在效果上並無顯著差異,分類則可以摘

相關文件