• 沒有找到結果。

立 政 治 大 學

Na tiona

l Ch engchi University

38

欄位名稱

欄位內容

圖4-1 資料格式

5、 若資料中有遺漏值,必頇以"空格"或"NA"表示,在此注意,"NA"要 以半形大寫英文字表示,其餘表現方式皆不可行。

6、 由於數字型目標變數是以其種類個數大於 5 及小於等於 5 來分成連續型及類 別型,所以此系統只適用於目標變數為類別型且種類個數小於等於 5,若目 標變數為類別型,但種類個數大於 5,則會被歸類為連續型變數。

第二節 數字連續型目標變數

本研究所設定的連續型目標變數為數字型態,且目標變數種類大於 5,此章 節依此種類型的目標變數舉例說明。

一、 資料說明

利用「Babies」資料檔為例,此資料為懷孕母親的各項資料以及新生嬰兒體 重,資料筆數共有 1,236 筆,其中有遺漏值為"NA"的有 52 筆,共 7 個欄位,

資料欄位名稱說明如表 4-1 所示。

析資料,在此選擇桌面上的「Babies」檔案,其檔案類型為 Microsoft Office Excel 工作表(.xlsx),選取完成後按下「開啟」按鈕。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

40

圖4-2 使用者上傳欲分析資料之視窗

圖4-3 瀏覽並選取欲載入的檔案之視窗

步驟二:

按下開啟按鈕後,此系統會讀取使用者欲分析之資料,並跳出「檢視上傳資 料」之視窗,如圖 4-4 所示,使用者可檢視資料是否上傳成功,並再次確定此資 料是否為自己欲分析之資料。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

41

圖4-4 檢視上傳資料之視窗

使用者檢視並確定資料後,按下「下一步」按鈕,此按鈕置入了可清除資料 遺漏值之功能,可清除 Babies 檔案中的 52 筆遺漏值資料,剩餘 1,184 筆資料,

在清除完遺漏值部分資料後,接著會跳出「選擇欲分析之資料採礦功能」之視窗,

如圖 4-5 所示,此視窗包含了四種不同功能按鈕,分別為「預測(Forecasting)」、

「分類(Classification)」、「關聯規則(Association Rule)」以及「集群分析

(Clustering)」,使用者可依欲分析之功能來選擇其中一種功能,本研究為研究分 類之功能,因此點選「分類(Classification)」按鈕,進入下一個步驟。

圖4-5 選擇欲分析之資料採礦功能之視窗

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

42

步驟三:

按下「分類(Classification)」按鈕後,即跳出「資料採礦之分類功能」之視 窗,如圖 4-6 所示,視窗中的二個清單裡分別顯示所有資料欄位名稱,使用者可 就欲分析的目的來選擇解釋變數及目標變數,在此示範的目標變數為數字連續 型,於是點選「bwt」,而解釋變數為其它六個變數,選擇完畢後,按下「執行」

按鈕,系統將已去除遺漏值之資料以及目標變數「bwt」傳送到 R 軟體開始進行 分析,並將分析結果依不同模型分別以各別的工作表呈現。

圖4-6 資料採礦之分類功能之視窗

三、 報表輸出

選擇數字連續型目標變數會產生三種模型,分別是決策樹、支持向量機以及 隨機森林,分析結果會以網頁預覽方式呈現給使用者,報表中共有四個工作表,

工作表名稱分別為「UserData」、「Tree」、「SVM」以及「RandomForest」,以下 將以各個工作表內容做說明。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

43

1、 「UserData」工作表

此工作表內容為使用者上傳欲分析之資料且已清除遺漏值,共有 1,184 筆資 料,如圖 4-7 所示。

圖4-7 「UserData」工作表

2、 「Tree」工作表

此工作表為利用決策樹分析之結果,網頁預覽如圖 4-8 所示。

圖4-8 「Tree」工作表

決策樹分析結果報表如圖 4-9 所示,其中有四個部分,分別為:

(1) Regression Tree

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

44

(2) Split Rule (3) MAPE

(4) Testing Data Detail

圖4-9 決策樹分析結果報表

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

45

3、 「SVM」工作表

此工作表為利用支持向量機分析之結果,網頁預覽如圖 4-10 所示。

圖4-10 「SVM」工作表

支持向量機分析結果報表如圖 4-11 所示,其中有六個部分,分別為:

(1) Kernel (2) Gamma (3) Rho

(4) Number of Support Vector (5) Support Vector

(6) MAPE

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

46

圖4-11 支持向量機分析結果報表

4、 「RandomForest」工作表

此工作表為利用隨機森林分析之結果,網頁預覽如圖 4-12 所示。

圖4-12 「RandomForest」工作表

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

47

隨機森林分析結果報表如圖 4-13 所示,其中有四個部分,分別為:

(1) Type of Random Forest (2) Number of Trees (3) Variable Importance (4) MAPE

圖4-13 隨機森林分析結果報表

四、 評估模型優劣

選擇數字連續型目標變數所分析出來的結果中,會計算出各個模型的 MAPE 值,並呈現在報表中,使用者可以比較 MAPE 之大小來評估模型的優劣,表 4-2 為決策樹、支持向量機及隨機森林的 MAPE,其 MAPE 值的大小順序為決策樹

>隨機森林>支持向量機,因此,可判定支持向量機所分類出來的結果最佳。

表4-2 分類模型之 MAPE 比較

模型 決策樹 支持向量機 隨機森林

MAPE 12.18% 10.73% 11.17%

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

48

第三節 數字類別型目標變數

相關文件