數字連續型目標變數

國

立政治大學

‧

Na tiona

l Ch engchi University

欄位名稱

欄位內容

圖4-1 資料格式

5、若資料中有遺漏值，必頇以＂空格＂或＂NA＂表示，在此注意，＂NA＂要以半形大寫英文字表示，其餘表現方式皆不可行。

6、由於數字型目標變數是以其種類個數大於 5 及小於等於 5 來分成連續型及類別型，所以此系統只適用於目標變數為類別型且種類個數小於等於 5，若目標變數為類別型，但種類個數大於 5，則會被歸類為連續型變數。

第二節數字連續型目標變數

本研究所設定的連續型目標變數為數字型態，且目標變數種類大於 5，此章節依此種類型的目標變數舉例說明。

一、資料說明

利用「Babies」資料檔為例，此資料為懷孕母親的各項資料以及新生嬰兒體重，資料筆數共有 1,236 筆，其中有遺漏值為＂NA＂的有 52 筆，共 7 個欄位，

資料欄位名稱說明如表 4-1 所示。

‧

析資料，在此選擇桌面上的「Babies」檔案，其檔案類型為 Microsoft Office Excel 工作表(.xlsx)，選取完成後按下「開啟」按鈕。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖4-2 使用者上傳欲分析資料之視窗

圖4-3 瀏覽並選取欲載入的檔案之視窗

步驟二：

按下開啟按鈕後，此系統會讀取使用者欲分析之資料，並跳出「檢視上傳資料」之視窗，如圖 4-4 所示，使用者可檢視資料是否上傳成功，並再次確定此資料是否為自己欲分析之資料。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖4-4 檢視上傳資料之視窗

使用者檢視並確定資料後，按下「下一步」按鈕，此按鈕置入了可清除資料遺漏值之功能，可清除 Babies 檔案中的 52 筆遺漏值資料，剩餘 1,184 筆資料，

在清除完遺漏值部分資料後，接著會跳出「選擇欲分析之資料採礦功能」之視窗，

如圖 4-5 所示，此視窗包含了四種不同功能按鈕，分別為「預測(Forecasting)」、

「分類(Classification)」、「關聯規則(Association Rule)」以及「集群分析

(Clustering)」，使用者可依欲分析之功能來選擇其中一種功能，本研究為研究分類之功能，因此點選「分類(Classification)」按鈕，進入下一個步驟。

圖4-5 選擇欲分析之資料採礦功能之視窗

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

步驟三：

按下「分類(Classification)」按鈕後，即跳出「資料採礦之分類功能」之視窗，如圖 4-6 所示，視窗中的二個清單裡分別顯示所有資料欄位名稱，使用者可就欲分析的目的來選擇解釋變數及目標變數，在此示範的目標變數為數字連續型，於是點選「bwt」，而解釋變數為其它六個變數，選擇完畢後，按下「執行」

按鈕，系統將已去除遺漏值之資料以及目標變數「bwt」傳送到 R 軟體開始進行分析，並將分析結果依不同模型分別以各別的工作表呈現。

圖4-6 資料採礦之分類功能之視窗

三、報表輸出

選擇數字連續型目標變數會產生三種模型，分別是決策樹、支持向量機以及隨機森林，分析結果會以網頁預覽方式呈現給使用者，報表中共有四個工作表，

工作表名稱分別為「UserData」、「Tree」、「SVM」以及「RandomForest」，以下將以各個工作表內容做說明。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

1、「UserData」工作表

此工作表內容為使用者上傳欲分析之資料且已清除遺漏值，共有 1,184 筆資料，如圖 4-7 所示。

圖4-7 「UserData」工作表

2、「Tree」工作表

此工作表為利用決策樹分析之結果，網頁預覽如圖 4-8 所示。

圖4-8 「Tree」工作表

決策樹分析結果報表如圖 4-9 所示，其中有四個部分，分別為：

(1) Regression Tree

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

(2) Split Rule (3) MAPE

(4) Testing Data Detail

圖4-9 決策樹分析結果報表

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

3、「SVM」工作表

此工作表為利用支持向量機分析之結果，網頁預覽如圖 4-10 所示。

圖4-10 「SVM」工作表

支持向量機分析結果報表如圖 4-11 所示，其中有六個部分，分別為：

(1) Kernel (2) Gamma (3) Rho

(4) Number of Support Vector (5) Support Vector

(6) MAPE

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖4-11 支持向量機分析結果報表

4、「RandomForest」工作表

此工作表為利用隨機森林分析之結果，網頁預覽如圖 4-12 所示。

圖4-12 「RandomForest」工作表

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

隨機森林分析結果報表如圖 4-13 所示，其中有四個部分，分別為：

(1) Type of Random Forest (2) Number of Trees (3) Variable Importance (4) MAPE

圖4-13 隨機森林分析結果報表

四、評估模型優劣

選擇數字連續型目標變數所分析出來的結果中，會計算出各個模型的 MAPE 值，並呈現在報表中，使用者可以比較 MAPE 之大小來評估模型的優劣，表 4-2 為決策樹、支持向量機及隨機森林的 MAPE，其 MAPE 值的大小順序為決策樹

＞隨機森林＞支持向量機，因此，可判定支持向量機所分類出來的結果最佳。

表4-2 分類模型之 MAPE 比較

模型決策樹支持向量機隨機森林

MAPE 12.18% 10.73% 11.17%

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

第三節數字類別型目標變數

在文檔中導入雲端運算概念於資料採礦之分類系統 - 政大學術集成 (頁 46-56)

國

立 政 治 大 學

‧

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學