第四章 實例分析
第三節 系統實例操作
二、 數字型之目標變數實例分析(非時間數列)
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
56
二、數字型之目標變數實例分析(非時間數列)
針對數字型之目標變數實例操作的部分,本研究將使用 TKU NetStat
(http://netstat.stat.tku.edu.tw/)網站的 Babies 範例資料檔,此資料檔包含 1,236 個懷孕母親和其新生兒的資料,將以表格(表 4-3 Babies 資料檔)簡述資料。
表4-3 Babies 資料檔
變數名稱 資料型態 資料內容 資料筆數
bwt 連續型 嬰兒重量 1,236
gestation 連續型 母親懷孕天數 1,223
NA 13
parity 數字類別型 0(第一胎) 921
1(第二胎) 315
age 連續型 母親年齡 1,234
NA 2
height 連續型 母親身高(inches) 1,214
NA 22
weight 連續型 母親體重(pounds) 1,200
NA 36
smoke 數字類別型 0(沒有抽菸) 752
1(有抽菸) 484 資料來源:TKU NetStat (http://netstat.stat.tku.edu.tw/)
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
57
接著,將以圖示的方式來介紹分析步驟,由步驟一至步驟四:
步驟一、執行資料採礦之預測系統,則會顯示上傳資料之介面(圖 4-16 上傳欲 分析資料之介面)。
圖4-16 上傳欲分析資料之介面
步驟二、連續的數字型目標變數(非時間序列資料)的範例操作所選用的資料 是 Babies 資料檔,故選擇上傳欲分析的 Babies 檔案,(圖 4-17 讀取 Babies 資料 檔)。
圖4-17 讀取 Babies 資料檔
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
58
步驟三、檢視上傳之資料是否有誤,或者有不符合系統之規定,若有誤則選擇 上一步回到上傳資料頁面重新上傳資料(圖 4-18 檢視上傳資料之頁面)
圖4-18 檢視上傳資料之頁面
步驟四、選擇本研究部分的資料採礦預測(Forecasting)功能(圖 4-19 資料採 礦功能之選擇)。
圖4-19 資料採礦功能之選擇
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
59
步驟五、選擇欲分析的目標變數和解釋變數,本操作範例選擇目標變數為 bwt,
變數 gestation、age、height 和 weight 當解釋變數,點選「確認」鍵,進行預測 功能之分析(圖 4-20 變數選擇)。
圖4-20 變數選擇
做完選擇變數的動作後,點選「確認」鍵,接著進行資料採礦預測功能之 分析,由於目標變數 bwt(嬰兒體重)為數字型資料,為連續型(Continuous)
變數,且經系統判斷後不為時間序列資料,所以系統以迴歸分析(Regression analysis)和分類迴歸樹(C&R tree)這兩種分析方法建構模型。分析完成後,
分析結果頁面會發布成網頁的型式以供使用者預覽(圖 4-21 結果頁面預覽選擇),
分別有資料頁面(圖 4-22 資料頁面)、迴歸分析(Regression analysis)分析頁 面(圖 4-23 迴歸分析分析頁面)以及分類迴歸樹(C&R tree)分析頁面(圖 4-24 分類迴歸樹分析頁面)可以選擇預覽。且資料頁面是使用者所選的目標變數和 解釋變數,其中資料頁面的第一行為使用者所選的目標變數,而分析頁面的目 標變數名稱以「Target.Variable」取代原本的名稱,以便使用者方便區別目標變 數和解釋變數。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
60
圖4-21 結果頁面預覽選擇
圖4-22 資料頁面
可以選擇檢視結果頁面
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
61
圖4-23 迴歸分析分析頁面
圖4-24 分類迴歸樹分析頁面
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
62
在連續型數字目標變數的範例分析中,其資料頁面包含在變數選擇介面所 選擇的目標變數和解釋變數,第一行為目標變數資料,第二行之後依序為所選 的解釋變數。而分析頁面有兩種可以選擇預覽,分別是迴歸分析頁面和分類迴 歸樹頁面,在迴歸分析頁面,包含多種統計量和統計圖表,包括:散佈圖矩陣、
常態機率圖、殘差圖、模型係數、訓練集殘差值、訓練集估計值、測詴集樣本 及預測值、MAPE 值、ANOVA 表、95%信賴區間。分類迴歸樹的部分,包括:
迴歸樹、分枝準則、MAPE 值、測詴集樣本及預測值。迴歸分析和分類迴歸樹 兩種分析方法提供多種上述報表供使用者做參考。