• 沒有找到結果。

第四章 實例分析

第三節 系統實例操作

三、 類別型之目標變數實例分析

立 政 治 大 學

Na tiona

l Ch engchi University

62

在連續型數字目標變數的範例分析中,其資料頁面包含在變數選擇介面所 選擇的目標變數和解釋變數,第一行為目標變數資料,第二行之後依序為所選 的解釋變數。而分析頁面有兩種可以選擇預覽,分別是迴歸分析頁面和分類迴 歸樹頁面,在迴歸分析頁面,包含多種統計量和統計圖表,包括:散佈圖矩陣、

常態機率圖、殘差圖、模型係數、訓練集殘差值、訓練集估計值、測詴集樣本 及預測值、MAPE 值、ANOVA 表、95%信賴區間。分類迴歸樹的部分,包括:

迴歸樹、分枝準則、MAPE 值、測詴集樣本及預測值。迴歸分析和分類迴歸樹 兩種分析方法提供多種上述報表供使用者做參考。

三、類別型之目標變數實例分析

(一) 數字型二元類別

對於數字型二元分類之目標變數實例操作的部分,必頇選擇數字型類別資 料為目標變數做分析,將使用與數字型連續變數(非時間序列)實例分析一樣 的 Babies 資料檔,此資料檔包含 1,236 個懷孕母親和其新生兒的資料,此範例 我們想要預測嬰兒體重是大於 50%百分位數還是小於 50%百分位數,因此將變 數 bwt 嬰兒體重資料,以嬰兒體重少於 50%百分位數(120)為標的,將 bwt 變 數轉換成 0 和 1 數字型二元類別的資料另建一個 Babies1 檔,將以表格(表 4-4 Babies1 資料檔)簡述資料。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

63

表4-4 Babies1 資料檔

變數名稱 資料型態 資料內容 資料筆數

bwt 數字型類別 0(bwt≧120) 632 1(bwt<120) 604

gestation 連續型 母親懷孕天數 1,223

NA 13

parity 類別型 0(第一胎) 921

1(第二胎) 315

age 連續型 母親年齡 1,234

NA 2

height 連續型 母親身高(inches) 1,214

NA 22

weight 連續型 母親體重(pounds) 1,200

NA 36

smoke 類別型 0(沒有抽菸) 752

1(有抽菸) 484 資料來源:TKU NetStat (http://netstat.stat.tku.edu.tw/)

接著,將以圖示的方式來介紹數字型二元分類目標變數之分析步驟,依序操作 由步驟一至步驟五:

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

64

步驟一、執行系統,顯示上傳資料之介面(圖 4-25 上傳欲分析資料之介面)。

圖4-25 上傳欲分析資料之介面

步驟二、選擇上傳此部分範例操作欲分析的 Babies1 檔案(圖 4-26 讀取 Babies1 資料檔)。

圖4-26 讀取 Babies1 資料檔

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

65

步驟三、檢視上傳之資料是否有誤,或者不符合系統之規定,若發現錯誤則點 選上一步返回資料上傳之介面。由於本資料含有 NA 值,一旦檢視資料無誤,

點選「下一步」後,系統則會自動將含有 NA 值的資料列刪除(圖 4-27 檢視上 傳資料)。

圖4-27 檢視上傳資料

步驟四、選擇本研究部分的資料採礦預測(Forecasting)功能(圖 4-28 資料採 礦功能之選擇)。

圖4-28 資料採礦功能之選擇

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

66

步驟五、選擇欲分析的目標變數和解釋變數,由於此部分的操作範例選擇目標 變數為數字型二元類別,故選擇 bwt 為操作範例的目標變數,即 bwt 小於 50%

百分位數令為 1,其餘為 0,而變數 gestation、parity、age、height、weight 和 smoke 當解釋變數,點選「確認」鍵,進行預測功能之分析(圖 4-29 變數選擇)。

圖4-29 變數選擇

當變數確定後,進行資料採礦預測功能之分析,由於目標變數 bwt 為數字 型二元類別資料,系統判斷會以類神經網路(Neural net)和二元分類羅吉斯迴 歸分析(Dichotomous logistic)建構模型。待資料採礦預測分析完成後,分析結 果頁面會發布成網頁的型式以供使用者預覽(圖 4-30 結果頁面預覽選擇),分 別有資料頁面(圖 4-31 資料頁面)、類神經網路(Neural net)分析頁面(圖 4-32 類神經網路分析頁面)以及二元分類羅吉斯迴歸分析(Dichotomous logistic)分 析頁面(圖 4-33 二元分類羅吉斯迴歸分析頁面)供使用者選擇預覽,而在分析 頁面中「Target.Variable」所代表是一開始所選擇的目標變數「bwt」。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

67

圖4-30 結果頁面預覽選擇

圖4-31 資料頁面

可以選擇檢視結果頁面

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

68

圖4-32 類神經網路分析頁面

圖4-33 二元分類羅吉斯迴歸分析頁面

二元分類羅吉斯迴歸(Dichotomous logistic)分析頁面。類神經網路分析頁面包 括:輸入層數(Input layer)、隱含層數(Hidden layer)、輸出層數(Output layer)、

訓練集錯誤分類表、訓練集正確預測比率、測詴集錯誤分類表、測詴集正確預 測比例、權重、訓練集樣本及估計值、訓練集殘差值、測詴集預測值。二元分 類羅吉斯迴歸分析頁面包括:散佈圖矩陣、模型係數及標準差、偏差量殘差值

(Deviance Residuals)、訓練集殘差值、訓練集估計值、AIC 值、殘差偏誤值

(Residual deviance)、exp(模型係數)、參數的 95%信賴區間、exp(參數)的 95%信賴區間、Wald 檢定、Likelihood-ratio 檢定、訓練集錯誤分類表、訓練集 正確預測比例、訓練集錯誤分類表、訓練集正確預測比例。提供上述統計報表 以及花瓣寬度,iris 資料集的類別變數 Species 內容包含三種類型的花,包括 setosa、

versicolor 以及 virginica,因為此範例的操作需要數字型多元類別的目標變數,

所以將變數 Species 的內容做簡單的轉換,轉換成數字型的類別資料:setosa 類 別以 0 取代;versicolor 類別以 1 取代;virginica 類別以 2 取代,且將轉換過後 的資料檔命名為 iris1。將以表格(表 4-5 iris1 資料集)簡述資料。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

70

表4-5 iris1 資料集

變數名稱 資料型態 資料內容 資料筆數

Sepal.Length 連續型 蕚片長度,以公分做記錄 150

Sepal.Width 連續型 蕚片寬度,以公分做記錄 150

Petal.Length 連續型 花瓣長度,以公分做記錄 150

Petal.Width 連續型 花瓣寬度,以公分做記錄 150

Species 類別型 0=setosa 50

1=versicolor 50 2=virginica 50 資料來源: Bulletin of the American Iris Society , 59 , 2-5

接著,將以圖示的方式來介紹分析步驟,分別由步驟一至步驟五:

步驟一、執行系統,顯示上傳資料之介面(圖 4-34 上傳欲分析資料之介面)。

圖4-34 上傳欲分析資料之介面

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

71

步驟二、選擇上傳欲分析的 iris1 檔案(圖 4-35 讀取 iris1 資料檔)。

圖4-35 讀取 iris1 資料檔

步驟三、檢視資料上傳是否正確,或者是否符合系統之限制,若不符合請點選 上一步回到資料上傳之頁面重新上傳(圖 4-36 檢視上傳資料)。

圖4-36 檢視上傳資料

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

72

步驟四、選擇進入資料採礦之預測功能(圖 4-37 資料採礦功能之選擇)

圖4-37 資料採礦功能之選擇

步驟五、挑選欲分析之目標變數和解釋變數,挑選 Species 為目標變數,其餘維 解釋變數。(圖 4-38 變數選擇)

圖4-38 變數選擇

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

73

變數選擇完成後,點選「確認」,接著進行資料採礦預測功能之分析,由於 iris1 資料檔裡的目標變數 Species 為數字型多元類別資料(setosa=0; versicolor=1;

virginica=2),因此系統會自動判斷以類神經網路(Neural net)和多元分類羅吉 斯迴歸分析(Polytomous logistic)建構模型。分析完成後,分析結果頁面最後 會發布成網頁的型式以供使用者預覽(圖 4-39 結果頁面預覽選擇),分別有資料 頁面(圖 4-40 資料頁面)、類神經網路(Neural net)分析頁面(圖 4-41 類神經 網路分析頁面)以及多元分類羅吉斯迴歸分析(Polytomous logistic)分析頁面

(圖 4-42 多元分類羅吉斯迴歸分析頁面)可以選擇預覽,資料頁面是一開始所 挑選的目標變數和解釋變數,其中第一行的資料為使用者所選擇的目標變數資 料,而在分析結果的頁面中,「Target.Variable」代表的是使用者一開始所選擇的 目標變數,方便使用者分辨目標變數和解釋變數。

圖4-39 結果頁面預覽選擇

可以選擇檢視結果頁面

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

74

圖4-40 資料頁面

圖4-41 類神經網路分析頁面

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

75

圖4-42 多元分類羅吉斯迴歸分析頁面

在數字型多元類別的目標變數範例分析中,其資料頁面包含在變數選擇所 選擇的目標變數和解釋變數,第一行為目標變數資料,第二行之後依序為所選 的解釋變數。而分析頁面有類神經網路分析頁面和多元分類羅吉斯迴歸分析頁 面可以選擇預覽,類神經網路分析頁面包括:輸入層數(Input layer)、隱含層數

(Hidden layer)、輸出層數(Output layer)、訓練集錯誤分類表、訓練集正確預 測比率、測詴集錯誤分類表、測詴集正確預測比例、權重、訓練集樣本及估計 值、訓練集殘差值、測詴集預測值。多元分類羅吉斯迴歸分析頁面包括:散佈 圖矩陣、模型係數、模型係數標準差、訓練集殘差值、訓練集估計值、AIC 值、

殘差偏誤值(Residual deviance)、exp(模型係數)、模型係數 T-test 統計量、模 型係數 T-test 的 P-value、訓練集錯誤分類表、訓練集正確預測比例、訓練集錯 誤分類表、訓練集正確預測比例。提供上述統計報表供使用者做參考。

TRUE(bwt<120) 604

gestation 連續型 母親懷孕天數 1,223 資料來源:TKU NetStat (http://netstat.stat.tku.edu.tw/)

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

77

接著,將以圖示的方式來介紹文字型二元分類之目標變數分析步驟,分別由步 驟一至步驟五:

步驟一、執行系統,顯示上傳資料之介面(圖 4-43 上傳欲分析資料之介面)。

圖4-43 上傳欲分析資料之介面

步驟二、選擇上傳欲分析的 Babies2 檔案(圖 4-44 讀取 Babies2 資料檔)。

圖4-44 讀取 Babies2 資料檔

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

78

步驟三、檢視資料是否上傳正確,或者是否符合本系統之限制。由於本資料含 有 NA 值,故資料確定後,點選「下一步」系統會自動將含有 NA 值的資料列刪 除。(圖 4-45 檢視上傳資料)

圖4-45 檢視上傳資料

步驟四、選擇本研究部分的資料採礦預測(Forecasting)功能(圖 4-46 資料採 礦功能之選擇)。

圖4-46 資料採礦功能之選擇

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

79

步驟五、選擇欲分析的目標變數和解釋變數,由於此部分的操作範例選擇目標 變數為文字型二元類別,故選擇變數 bwt (bwt<120 為 TRUE;bwt≧120 為 FALSE)

為操作範例的目標變數,其餘變數 gestation、parity、age、height、weight 和 smoke 當解釋變數,點選「確認」鍵,進行預測功能之分析(圖 4-47 變數選擇)。

圖4-47 變數選擇

在進行資料採礦預測功能之分析後,由於目標變數 bwt 的內容為 TRUE 和 FALSE 為文字型類別資料,系統判斷會以類神經網路(Neural net)和二元分類 羅吉斯迴歸分析(Dichotomous logistic)建構模型。待資料採礦預測分析完成後,

在進行資料採礦預測功能之分析後,由於目標變數 bwt 的內容為 TRUE 和 FALSE 為文字型類別資料,系統判斷會以類神經網路(Neural net)和二元分類 羅吉斯迴歸分析(Dichotomous logistic)建構模型。待資料採礦預測分析完成後,