• 沒有找到結果。

立 政 治 大 學

Na tiona

l Ch engchi University

48

第三節 數字類別型目標變數 一、 資料說明

利用 The Data and Story Library(DASL)網站中的「Egyptian Skulls」資料 檔為例,此資料測量來自西元前及西元後的埃及男性頭骨之最大頭骨寬度、

Basibregmatic 骨頭高度、Basialveolar 骨頭長度以及鼻骨高度,資料筆數共有 150 筆,5 個欄位,資料欄位名稱說明如表 4-3 所示。

表4-3 Egyptian Skulls 資料說明

欄位名稱 欄位說明 欄位內容

MB 最大頭骨寬度 數字連續型

BH Basibregmatic 骨頭高度 數字連續型 BL Basialveolar 骨頭長度 數字連續型

NH 鼻骨高度 數字連續型

Year 西元前後 文字類別型

1:西元前;0:西元後

二、 使用者操作說明

依照第三章的研究流程中所設計的使用者操作步驟來說明。

步驟一:

進入此系統後,會先跳出「上傳欲分析資料」之視窗,使用者可上傳欲分析 的資料,操作介面如圖 4-14。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

49

圖4-14 使用者上傳欲分析資料之視窗

點選「上傳資料 (Upload Data)」之按鈕,即跳出「請瀏覽並選取欲載入的 檔案」之視窗,如圖 4-15 所示,可瀏覽使用者電腦中的資料,使用者可選取欲 分析資料,在此選擇桌面上的「Egyptian Skulls」檔案,其檔案類型為 Microsoft Office Excel 工作表(.xlsx),選取完成後按下「開啟」按鈕。

圖4-15 瀏覽並選取欲載入的檔案之視窗

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

50

步驟二:

按下開啟按鈕後,此系統會讀取使用者欲分析之資料,並跳出「檢視上傳資 料」之視窗,如圖 4-16 所示,使用者可檢視資料是否上傳成功,並再次確定此 資料是否為自己欲分析之資料。

圖4-16 檢視上傳資料之視窗

使用者檢視並確定資料後,按下「下一步」按鈕,接著會跳出「選擇欲分析 之資料採礦功能」之視窗,如圖 4-17 所示,點選「分類(Classification)」按鈕,

進入下一個步驟。

圖4-17 選擇欲分析之資料採礦功能之視窗

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

51

步驟三:

按下「分類(Classification)」按鈕後,即跳出「資料採礦之分類功能」之視 窗,如圖 4-18 所示,在視窗中的二個清單裡會顯示「Egyptian Skulls」資料檔所 有資料欄位名稱,在此示範的目標變數為數字類別型,於是點選「Year」,而解 釋變數在此選擇其它四個變數,選擇完畢後,按下「執行」按鈕,系統將資料以 及目標變數「Year」傳送到 R 軟體開始進行分析,並將分析結果依不同模型分別 以各別的工作表呈現。

圖4-18 資料採礦之分類功能之視窗

三、 報表輸出

選擇數字類別型目標變數會產生四種模型,分別是決策樹、支持向量機、判 別分析以及隨機森林,分析結果會以網頁預覽方式呈現給使用者,報表中共有四 個工作表,工作表名稱,分別為「UserData」、「Tree」、「SVM」、「Discriminant」

以及「RandomForest」,以下將以各個工作表內容做說明。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

52

1、 「UserData」工作表

此工作表內容為使用者上傳欲分析之資料,共有 150 筆資料,如圖 4-19 所 示。

圖4-19 「UserData」工作表

2、 「Tree」工作表

此工作表為利用決策樹分析之結果,網頁預覽如圖 4-20 所示。

圖4-20 「Tree」工作表

決策樹分析結果報表如圖 4-21 所示,其中有七個部分,分別為:

(1) Classification Tree

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

53

(2) Split Rule

(3) Confusion Table for Training Data (4) Correct Rate for Training Data (5) Confusion Table for Testing Data (6) Correct Rate for Testing Data (7) Testing Data Detail

圖 4-21 第 7 個部分的 Testing Data Detail 因為資料筆數較多,此僅展示其中 一部分。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

54

圖4-21 決策樹分析結果報表

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

55

3、 「SVM」工作表

此工作表為利用支持向量機分析之結果,網頁預覽如圖 4-22 所示。

圖4-22 「SVM」工作表

支持向量機分析結果報表如圖 4-23 所示,其中有九個部分,分別為:

(1) Kernel (2) Gamma (3) Rho

(4) Numbers of Support Vectors (5) Confusion Table for Training Data (6) Correct Rate for Training Data (7) Confusion Table for Testing Data (8) Correct Rate for Testing Data (9) Support Vector

圖 4-23 第 9 個部分的 Support Vector 因為資料筆數較多,此僅展示其中一部 分。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

56

圖4-23 支持向量機分析結果報表

4、 「Discriminant」工作表

此工作表為利用判別分析之結果,網頁預覽如圖 4-24 所示。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

57

圖4-24 「Discriminant」工作表

判別分析結果報表如圖 4-25 所示,其中有九個部分,分別為:

(1) The Prior Probability (2) The Group Counts (3) Total Numbers (4) The Group Means (5) Discriminant Function

(6) Confusion Table for Training Data (7) Correct Rate for Training Data (8) Confusion Table for Testing Data (9) Correct Rate for Testing Data

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

58

圖4-25 判別分析結果報表

5、 「RandomForest」工作表

此工作表為利用隨機森林分析之結果,網頁預覽如圖 4-26 所示。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

59

圖4-26 「RandomForest」工作表

隨機森林分析結果報表如圖 4-27 所示,其中有七個部分,分別為:

(1) Type of Random Forest (2) Number of Trees (3) Variable Importance

(4) Confusion Table for Training Data (5) Correct Rate for Training Data (6) Confusion Table for Testing Data (7) Correct Rate for Testing Data

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

60

圖4-27 隨機森林分析結果報表

四、 評估模型優劣

選擇數字類別型目標變數所分析出來的結果中,可計算出各個模型中訓練資 料集和測試資料集的正確率,並呈現在報表中,使用者可以比較測試資料集的正 確率之大小來評估模型的優劣,此目標變數為二元,使用者可自行計算出各個模 型的精確度及回應率,表 4-4 為決策樹、支持向量機、判別分析及隨機森林的訓 練資料集和測試資料集的正確率、精確度及回應率。分析結果顯示這四種模型在 訓練資料集之表現都相同,而在測試資料集之表現,只有決策樹之回應度為 60%,其它模型皆高達 100%,然而,就模型正確率或者精確度論,都以判別分 析為最高之百分比,故使用者可選擇判別分析為最佳解釋模型。

不同種類(setosa、versicolor 及 virginica)的花萼長度、花萼寬度、花瓣長度以 及花瓣寬度,每個種類分別測量 50 朵,資料筆數共有 150 筆,5 個欄位,資料

(setosa、versicolor 及 virginica)

相關文件