• 沒有找到結果。

3. 研究方法

3.1 研究問題

符號說明

表 3 為本研究之基本符號說明,各符號之意涵與本研究設定之值域將於下列 各點介紹:

表 3 符號說明

符號 定義與說明

表文件集合。

表文件集合之類別集合。

Φ 表本研究使用之分類器。

表分類之準確率。

表分類之召回率。

表 測量值。

1 表信心水準, 表錯誤的機率。

表特徵選取方法。

表文件欄位。

資料來源:本研究整理

(1). 文件集合

以 表文件集合,即為本研究使用之期刊論文文集。 與 依 序表示訓練資料集合與測試資料集合。 與 分別表示經過第 t 次隨 機抽樣切割 之訓練資料與測試資料集合,其中 1, … , | |,本研究中

| | 10。

(2). 文件集合之類別集合

以 表類別集合,係指本研究期刊論文文集之類別, 表個別類別。其中 1, … , | |,本研究中| | 7, 行銷, 太空, 數學, 網路, 財金, 資管, 機械 。

(3). 分類器

以 Φ 表分類器集合。 Φ 表個別分類器,其中 1, … , |Φ|,本研究中

|Φ| 4,Φ 決策樹, 貝式, 支持向量機, 抽樣分配分類器 。

(4). 分類效果之準確率 、召回率 與 F 測量值

以 表分類之準確率, 表召回率, 表 F 測量值。 表分類器 Φ 之 分類準確率, 表分類器 Φ 之分類召回率, 表分類器 Φ 之分類 F 測量值。

(5). 信心水準

以 1 表抽樣分配估計信心區間之信心水準, 1 表個別信心水準,

其中 1, … , | |,本研究中| | 3。 0.01, 0.05, 0.1 。

(6). 特徵選取方法

以 表特徵選取方法,。 表不同的選取方法,其中 1, … , | |,本研 究中| | 2。 特徵權重TFIDF 權重值, 特徵比例 TRIDF 權重值 。

(7). 文章欄位

以 表文章欄位集合。 表個別欄位,其中 1, … , | |,本研究中| | 4。

標題, 摘要, 關鍵字, 全部採記 。

問題說明

(1). 問題一:檢定特徵權重方法中,特徵比例與特徵頻率分類效果差異

本問題探討當特徵權重方法不同時,分類效果之間是否顯著差異。針對文件 集合 D 之特徵空間 S,令 表特徵選取之方法,以此法選取之特徵空間為 。 對於分類器 Φ 之分類效果之準確率 之間,召回率 之間以及 之間 是否顯著差異。

(2). 問題二:檢定期刊論文之文章欄位分類效果之差異

本問題探討文章欄位是否對於分類效果有顯著差異。 表文章欄位並以該欄 位當文章內容並建構文件之特徵向量。分類器 Φ 依此特徵向量分類而得分類效 果之準確率 之間、召回率 之間以及 之間是否顯著差異。

(3). 問題三:檢定各分類器之分類效果之差異程度?

本問題探討分類器對於期刊論文之分類效果之優劣。令 Φ 表分類器個體,

當以不同分類器進行分類時,所得到之分類效果之準確率為 ,召回率為 ,F 值為 。利用統計假設檢定驗證當分類器不同時是否分類效果有所差異。

(4). 問題四:檢定信心水準對抽樣分配分類器效果之差異性

本問題探討信心水準對於抽樣分配分類器在分類效果上的影響。Φ 表信心 水準為 1 α 之抽樣分配分類器。其分類準確率為 ,召回率為 ,F 測 量值為 。藉由統計檢定不同信心水準 1 α 時,分類效果 之間、

之間以及 之間是否顯著差異。並依此結果排序,挑選分類效果最佳之信心水 準 1 α 作為抽樣分配分類器之信心水準。

相關文件