第四章 實例分析
第三節 系統實例操作
三、 類別型之目標變數實例分析
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
62
在連續型數字目標變數的範例分析中,其資料頁面包含在變數選擇介面所 選擇的目標變數和解釋變數,第一行為目標變數資料,第二行之後依序為所選 的解釋變數。而分析頁面有兩種可以選擇預覽,分別是迴歸分析頁面和分類迴 歸樹頁面,在迴歸分析頁面,包含多種統計量和統計圖表,包括:散佈圖矩陣、
常態機率圖、殘差圖、模型係數、訓練集殘差值、訓練集估計值、測詴集樣本 及預測值、MAPE 值、ANOVA 表、95%信賴區間。分類迴歸樹的部分,包括:
迴歸樹、分枝準則、MAPE 值、測詴集樣本及預測值。迴歸分析和分類迴歸樹 兩種分析方法提供多種上述報表供使用者做參考。
三、類別型之目標變數實例分析
(一) 數字型二元類別
對於數字型二元分類之目標變數實例操作的部分,必頇選擇數字型類別資 料為目標變數做分析,將使用與數字型連續變數(非時間序列)實例分析一樣 的 Babies 資料檔,此資料檔包含 1,236 個懷孕母親和其新生兒的資料,此範例 我們想要預測嬰兒體重是大於 50%百分位數還是小於 50%百分位數,因此將變 數 bwt 嬰兒體重資料,以嬰兒體重少於 50%百分位數(120)為標的,將 bwt 變 數轉換成 0 和 1 數字型二元類別的資料另建一個 Babies1 檔,將以表格(表 4-4 Babies1 資料檔)簡述資料。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
63
表4-4 Babies1 資料檔
變數名稱 資料型態 資料內容 資料筆數
bwt 數字型類別 0(bwt≧120) 632 1(bwt<120) 604
gestation 連續型 母親懷孕天數 1,223
NA 13
parity 類別型 0(第一胎) 921
1(第二胎) 315
age 連續型 母親年齡 1,234
NA 2
height 連續型 母親身高(inches) 1,214
NA 22
weight 連續型 母親體重(pounds) 1,200
NA 36
smoke 類別型 0(沒有抽菸) 752
1(有抽菸) 484 資料來源:TKU NetStat (http://netstat.stat.tku.edu.tw/)
接著,將以圖示的方式來介紹數字型二元分類目標變數之分析步驟,依序操作 由步驟一至步驟五:
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
64
步驟一、執行系統,顯示上傳資料之介面(圖 4-25 上傳欲分析資料之介面)。
圖4-25 上傳欲分析資料之介面
步驟二、選擇上傳此部分範例操作欲分析的 Babies1 檔案(圖 4-26 讀取 Babies1 資料檔)。
圖4-26 讀取 Babies1 資料檔
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
65
步驟三、檢視上傳之資料是否有誤,或者不符合系統之規定,若發現錯誤則點 選上一步返回資料上傳之介面。由於本資料含有 NA 值,一旦檢視資料無誤,
點選「下一步」後,系統則會自動將含有 NA 值的資料列刪除(圖 4-27 檢視上 傳資料)。
圖4-27 檢視上傳資料
步驟四、選擇本研究部分的資料採礦預測(Forecasting)功能(圖 4-28 資料採 礦功能之選擇)。
圖4-28 資料採礦功能之選擇
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
66
步驟五、選擇欲分析的目標變數和解釋變數,由於此部分的操作範例選擇目標 變數為數字型二元類別,故選擇 bwt 為操作範例的目標變數,即 bwt 小於 50%
百分位數令為 1,其餘為 0,而變數 gestation、parity、age、height、weight 和 smoke 當解釋變數,點選「確認」鍵,進行預測功能之分析(圖 4-29 變數選擇)。
圖4-29 變數選擇
當變數確定後,進行資料採礦預測功能之分析,由於目標變數 bwt 為數字 型二元類別資料,系統判斷會以類神經網路(Neural net)和二元分類羅吉斯迴 歸分析(Dichotomous logistic)建構模型。待資料採礦預測分析完成後,分析結 果頁面會發布成網頁的型式以供使用者預覽(圖 4-30 結果頁面預覽選擇),分 別有資料頁面(圖 4-31 資料頁面)、類神經網路(Neural net)分析頁面(圖 4-32 類神經網路分析頁面)以及二元分類羅吉斯迴歸分析(Dichotomous logistic)分 析頁面(圖 4-33 二元分類羅吉斯迴歸分析頁面)供使用者選擇預覽,而在分析 頁面中「Target.Variable」所代表是一開始所選擇的目標變數「bwt」。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
67
圖4-30 結果頁面預覽選擇
圖4-31 資料頁面
可以選擇檢視結果頁面
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
68
圖4-32 類神經網路分析頁面
圖4-33 二元分類羅吉斯迴歸分析頁面
‧
二元分類羅吉斯迴歸(Dichotomous logistic)分析頁面。類神經網路分析頁面包 括:輸入層數(Input layer)、隱含層數(Hidden layer)、輸出層數(Output layer)、訓練集錯誤分類表、訓練集正確預測比率、測詴集錯誤分類表、測詴集正確預 測比例、權重、訓練集樣本及估計值、訓練集殘差值、測詴集預測值。二元分 類羅吉斯迴歸分析頁面包括:散佈圖矩陣、模型係數及標準差、偏差量殘差值
(Deviance Residuals)、訓練集殘差值、訓練集估計值、AIC 值、殘差偏誤值
(Residual deviance)、exp(模型係數)、參數的 95%信賴區間、exp(參數)的 95%信賴區間、Wald 檢定、Likelihood-ratio 檢定、訓練集錯誤分類表、訓練集 正確預測比例、訓練集錯誤分類表、訓練集正確預測比例。提供上述統計報表 以及花瓣寬度,iris 資料集的類別變數 Species 內容包含三種類型的花,包括 setosa、
versicolor 以及 virginica,因為此範例的操作需要數字型多元類別的目標變數,
所以將變數 Species 的內容做簡單的轉換,轉換成數字型的類別資料:setosa 類 別以 0 取代;versicolor 類別以 1 取代;virginica 類別以 2 取代,且將轉換過後 的資料檔命名為 iris1。將以表格(表 4-5 iris1 資料集)簡述資料。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
70
表4-5 iris1 資料集
變數名稱 資料型態 資料內容 資料筆數
Sepal.Length 連續型 蕚片長度,以公分做記錄 150
Sepal.Width 連續型 蕚片寬度,以公分做記錄 150
Petal.Length 連續型 花瓣長度,以公分做記錄 150
Petal.Width 連續型 花瓣寬度,以公分做記錄 150
Species 類別型 0=setosa 50
1=versicolor 50 2=virginica 50 資料來源: Bulletin of the American Iris Society , 59 , 2-5
接著,將以圖示的方式來介紹分析步驟,分別由步驟一至步驟五:
步驟一、執行系統,顯示上傳資料之介面(圖 4-34 上傳欲分析資料之介面)。
圖4-34 上傳欲分析資料之介面
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
71
步驟二、選擇上傳欲分析的 iris1 檔案(圖 4-35 讀取 iris1 資料檔)。
圖4-35 讀取 iris1 資料檔
步驟三、檢視資料上傳是否正確,或者是否符合系統之限制,若不符合請點選 上一步回到資料上傳之頁面重新上傳(圖 4-36 檢視上傳資料)。
圖4-36 檢視上傳資料
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
72
步驟四、選擇進入資料採礦之預測功能(圖 4-37 資料採礦功能之選擇)
圖4-37 資料採礦功能之選擇
步驟五、挑選欲分析之目標變數和解釋變數,挑選 Species 為目標變數,其餘維 解釋變數。(圖 4-38 變數選擇)
圖4-38 變數選擇
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
73
變數選擇完成後,點選「確認」,接著進行資料採礦預測功能之分析,由於 iris1 資料檔裡的目標變數 Species 為數字型多元類別資料(setosa=0; versicolor=1;
virginica=2),因此系統會自動判斷以類神經網路(Neural net)和多元分類羅吉 斯迴歸分析(Polytomous logistic)建構模型。分析完成後,分析結果頁面最後 會發布成網頁的型式以供使用者預覽(圖 4-39 結果頁面預覽選擇),分別有資料 頁面(圖 4-40 資料頁面)、類神經網路(Neural net)分析頁面(圖 4-41 類神經 網路分析頁面)以及多元分類羅吉斯迴歸分析(Polytomous logistic)分析頁面
(圖 4-42 多元分類羅吉斯迴歸分析頁面)可以選擇預覽,資料頁面是一開始所 挑選的目標變數和解釋變數,其中第一行的資料為使用者所選擇的目標變數資 料,而在分析結果的頁面中,「Target.Variable」代表的是使用者一開始所選擇的 目標變數,方便使用者分辨目標變數和解釋變數。
圖4-39 結果頁面預覽選擇
可以選擇檢視結果頁面
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
74
圖4-40 資料頁面
圖4-41 類神經網路分析頁面
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
75
圖4-42 多元分類羅吉斯迴歸分析頁面
在數字型多元類別的目標變數範例分析中,其資料頁面包含在變數選擇所 選擇的目標變數和解釋變數,第一行為目標變數資料,第二行之後依序為所選 的解釋變數。而分析頁面有類神經網路分析頁面和多元分類羅吉斯迴歸分析頁 面可以選擇預覽,類神經網路分析頁面包括:輸入層數(Input layer)、隱含層數
(Hidden layer)、輸出層數(Output layer)、訓練集錯誤分類表、訓練集正確預 測比率、測詴集錯誤分類表、測詴集正確預測比例、權重、訓練集樣本及估計 值、訓練集殘差值、測詴集預測值。多元分類羅吉斯迴歸分析頁面包括:散佈 圖矩陣、模型係數、模型係數標準差、訓練集殘差值、訓練集估計值、AIC 值、
殘差偏誤值(Residual deviance)、exp(模型係數)、模型係數 T-test 統計量、模 型係數 T-test 的 P-value、訓練集錯誤分類表、訓練集正確預測比例、訓練集錯 誤分類表、訓練集正確預測比例。提供上述統計報表供使用者做參考。
‧
TRUE(bwt<120) 604gestation 連續型 母親懷孕天數 1,223 資料來源:TKU NetStat (http://netstat.stat.tku.edu.tw/)
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
77
接著,將以圖示的方式來介紹文字型二元分類之目標變數分析步驟,分別由步 驟一至步驟五:
步驟一、執行系統,顯示上傳資料之介面(圖 4-43 上傳欲分析資料之介面)。
圖4-43 上傳欲分析資料之介面
步驟二、選擇上傳欲分析的 Babies2 檔案(圖 4-44 讀取 Babies2 資料檔)。
圖4-44 讀取 Babies2 資料檔
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
78
步驟三、檢視資料是否上傳正確,或者是否符合本系統之限制。由於本資料含 有 NA 值,故資料確定後,點選「下一步」系統會自動將含有 NA 值的資料列刪 除。(圖 4-45 檢視上傳資料)
圖4-45 檢視上傳資料
步驟四、選擇本研究部分的資料採礦預測(Forecasting)功能(圖 4-46 資料採 礦功能之選擇)。
圖4-46 資料採礦功能之選擇
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
79
步驟五、選擇欲分析的目標變數和解釋變數,由於此部分的操作範例選擇目標 變數為文字型二元類別,故選擇變數 bwt (bwt<120 為 TRUE;bwt≧120 為 FALSE)
為操作範例的目標變數,其餘變數 gestation、parity、age、height、weight 和 smoke 當解釋變數,點選「確認」鍵,進行預測功能之分析(圖 4-47 變數選擇)。
圖4-47 變數選擇
在進行資料採礦預測功能之分析後,由於目標變數 bwt 的內容為 TRUE 和 FALSE 為文字型類別資料,系統判斷會以類神經網路(Neural net)和二元分類 羅吉斯迴歸分析(Dichotomous logistic)建構模型。待資料採礦預測分析完成後,
在進行資料採礦預測功能之分析後,由於目標變數 bwt 的內容為 TRUE 和 FALSE 為文字型類別資料,系統判斷會以類神經網路(Neural net)和二元分類 羅吉斯迴歸分析(Dichotomous logistic)建構模型。待資料採礦預測分析完成後,