國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
38
欄位名稱
欄位內容
圖4-1 資料格式
5、 若資料中有遺漏值,必頇以"空格"或"NA"表示,在此注意,"NA"要 以半形大寫英文字表示,其餘表現方式皆不可行。
6、 由於數字型目標變數是以其種類個數大於 5 及小於等於 5 來分成連續型及類 別型,所以此系統只適用於目標變數為類別型且種類個數小於等於 5,若目 標變數為類別型,但種類個數大於 5,則會被歸類為連續型變數。
第二節 數字連續型目標變數
本研究所設定的連續型目標變數為數字型態,且目標變數種類大於 5,此章 節依此種類型的目標變數舉例說明。
一、 資料說明
利用「Babies」資料檔為例,此資料為懷孕母親的各項資料以及新生嬰兒體 重,資料筆數共有 1,236 筆,其中有遺漏值為"NA"的有 52 筆,共 7 個欄位,
資料欄位名稱說明如表 4-1 所示。
‧
析資料,在此選擇桌面上的「Babies」檔案,其檔案類型為 Microsoft Office Excel 工作表(.xlsx),選取完成後按下「開啟」按鈕。‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
40
圖4-2 使用者上傳欲分析資料之視窗
圖4-3 瀏覽並選取欲載入的檔案之視窗
步驟二:
按下開啟按鈕後,此系統會讀取使用者欲分析之資料,並跳出「檢視上傳資 料」之視窗,如圖 4-4 所示,使用者可檢視資料是否上傳成功,並再次確定此資 料是否為自己欲分析之資料。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
41
圖4-4 檢視上傳資料之視窗
使用者檢視並確定資料後,按下「下一步」按鈕,此按鈕置入了可清除資料 遺漏值之功能,可清除 Babies 檔案中的 52 筆遺漏值資料,剩餘 1,184 筆資料,
在清除完遺漏值部分資料後,接著會跳出「選擇欲分析之資料採礦功能」之視窗,
如圖 4-5 所示,此視窗包含了四種不同功能按鈕,分別為「預測(Forecasting)」、
「分類(Classification)」、「關聯規則(Association Rule)」以及「集群分析
(Clustering)」,使用者可依欲分析之功能來選擇其中一種功能,本研究為研究分 類之功能,因此點選「分類(Classification)」按鈕,進入下一個步驟。
圖4-5 選擇欲分析之資料採礦功能之視窗
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
42
步驟三:
按下「分類(Classification)」按鈕後,即跳出「資料採礦之分類功能」之視 窗,如圖 4-6 所示,視窗中的二個清單裡分別顯示所有資料欄位名稱,使用者可 就欲分析的目的來選擇解釋變數及目標變數,在此示範的目標變數為數字連續 型,於是點選「bwt」,而解釋變數為其它六個變數,選擇完畢後,按下「執行」
按鈕,系統將已去除遺漏值之資料以及目標變數「bwt」傳送到 R 軟體開始進行 分析,並將分析結果依不同模型分別以各別的工作表呈現。
圖4-6 資料採礦之分類功能之視窗
三、 報表輸出
選擇數字連續型目標變數會產生三種模型,分別是決策樹、支持向量機以及 隨機森林,分析結果會以網頁預覽方式呈現給使用者,報表中共有四個工作表,
工作表名稱分別為「UserData」、「Tree」、「SVM」以及「RandomForest」,以下 將以各個工作表內容做說明。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
43
1、 「UserData」工作表
此工作表內容為使用者上傳欲分析之資料且已清除遺漏值,共有 1,184 筆資 料,如圖 4-7 所示。
圖4-7 「UserData」工作表
2、 「Tree」工作表
此工作表為利用決策樹分析之結果,網頁預覽如圖 4-8 所示。
圖4-8 「Tree」工作表
決策樹分析結果報表如圖 4-9 所示,其中有四個部分,分別為:
(1) Regression Tree
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
44
(2) Split Rule (3) MAPE
(4) Testing Data Detail
圖4-9 決策樹分析結果報表
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
45
3、 「SVM」工作表
此工作表為利用支持向量機分析之結果,網頁預覽如圖 4-10 所示。
圖4-10 「SVM」工作表
支持向量機分析結果報表如圖 4-11 所示,其中有六個部分,分別為:
(1) Kernel (2) Gamma (3) Rho
(4) Number of Support Vector (5) Support Vector
(6) MAPE
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
46
圖4-11 支持向量機分析結果報表
4、 「RandomForest」工作表
此工作表為利用隨機森林分析之結果,網頁預覽如圖 4-12 所示。
圖4-12 「RandomForest」工作表
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
47
隨機森林分析結果報表如圖 4-13 所示,其中有四個部分,分別為:
(1) Type of Random Forest (2) Number of Trees (3) Variable Importance (4) MAPE
圖4-13 隨機森林分析結果報表
四、 評估模型優劣
選擇數字連續型目標變數所分析出來的結果中,會計算出各個模型的 MAPE 值,並呈現在報表中,使用者可以比較 MAPE 之大小來評估模型的優劣,表 4-2 為決策樹、支持向量機及隨機森林的 MAPE,其 MAPE 值的大小順序為決策樹
>隨機森林>支持向量機,因此,可判定支持向量機所分類出來的結果最佳。
表4-2 分類模型之 MAPE 比較
模型 決策樹 支持向量機 隨機森林
MAPE 12.18% 10.73% 11.17%
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
48
第三節 數字類別型目標變數