• 沒有找到結果。

不同種類(setosa、versicolor 及 virginica)的花萼長度、花萼寬度、花瓣長度以 及花瓣寬度,每個種類分別測量 50 朵,資料筆數共有 150 筆,5 個欄位,資料

(setosa、versicolor 及 virginica)

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

62

二、 使用者操作說明

依照第三章的研究流程中所設計的使用者操作步驟來說明。

步驟一:

進入此系統後,會先跳出「上傳欲分析資料」之視窗,使用者可上傳欲分析 的資料,操作介面如圖 4-28。

圖4-28 使用者上傳欲分析資料之視窗

點選「上傳資料 (Upload Data)」之按鈕,即跳出「請瀏覽並選取欲載 入的檔案」之視窗,如圖 4-29 所示,可瀏覽使用者電腦中的資料,使用者 可選取欲分析資料,在此選擇「iris」檔案,其檔案類型為 Microsoft Office Excel 逗點分隔值檔案(.csv),選取完成後按下「開啟」按鈕。

步驟二:

按下開啟按鈕後,此系統會讀取使用者欲分析之資料,並跳出「檢視上 傳資料」之視窗,如圖 4-30 所示,使用者可檢視資料是否上傳成功,並再 次確定此資料是否為自己欲分析之資料。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

63

圖4-29 瀏覽並選取欲載入的檔案之視窗

圖4-30 檢視上傳資料之視窗

使用者檢視並確定資料後,按下「下一步」按鈕,接著會跳出「選擇欲分析 之資料採礦功能」之視窗,如圖 4-31 所示,點選「分類(Classification)」按鈕,

進入下一個步驟。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

64

圖4-31 選擇欲分析之資料採礦功能之視窗

步驟三:

按下「分類(Classification)」按鈕後,即跳出「資料採礦之分類功能」

之視窗,如圖 4-32 所示,在視窗中的二個清單裡會顯示「iris」資料檔所有 資料欄位名稱,在此示範的目標變數為文字類別型,於是點選「Species」,

而解釋變數則選擇其它四個變數,選擇完畢後,按下「執行」按鈕,系統便 將資料以及目標變數「Species」傳送到 R 軟體開始進行分析,並將分析結 果依不同模型分別以各別的工作表呈現。

圖4-32 資料採礦之分類功能之視窗

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

65

三、 報表輸出

選擇文字類別型目標變數會產生四種模型,分別是決策樹、支持向量機、判別 分析以及隨機森林,分析結果會以網頁預覽方式呈現給使用者,報表中共有四個 工作表,工作表名稱分別為「UserData」、「Tree」、「SVM」、「Discriminant」以及

「RandomForest」,以下將以各個工作表內容做說明。

1、 「UserData」工作表

此工作表內容為使用者上傳欲分析之資料,共有 150 筆資料,如圖 4-33 所 示。

圖4-33 「UserData」工作表

2、 「Tree」工作表

此工作表為利用決策樹分析之結果,網頁預覽如圖 4-34 所示。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

66

圖4-34 「Tree」工作表

決策樹分析結果報表如圖 4-35 所示,其中有七個部分,分別為:

(1) Classification Tree (2) Split Rule

(3) Confusion Table for Training Data (4) Correct Rate for Training Data (5) Confusion Table for Testing Data (6) Correct Rate for Testing Data (7) Testing Data Detail

圖 4-35 第 7 個部分的 Testing Data Detail 因為資料筆數較多,此僅展示其中 一部分。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

67

圖4-35 決策樹分析結果報表

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

68

3、 「SVM」工作表

此工作表為利用支持向量機分析之結果,網頁預覽如圖 4-36 所示。

圖4-36 「SVM」工作表

支持向量機分析結果報表如圖 4-37 所示,其中有九個部分,分別為:

(1) Kernel (2) Gamma (3) Rho

(4) Numbers of Support Vectors (5) Confusion Table for Training Data (6) Correct Rate for Training Data (7) Confusion Table for Testing Data (8) Correct Rate for Testing Data (9) Support Vector

圖 4-37 第 9 個部分的 Support Vector 因為資料筆數較多,此僅展示其中一部 分。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

69

圖4-37 支持向量機分析結果報表

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

70

4、 「Discriminant」工作表

此工作表為利用判別分析之結果,網頁預覽如圖 4-38 所示。

圖4-38 「Discriminant」工作表

判別分析結果報表如圖 4-39 所示,其中有九個部分,分別為:

(1) The Prior Probability (2) The Group Counts (3) Total Numbers (4) The Group Means (5) Discriminant Function

(6) Confusion Table for Training Data (7) Correct Rate for Training Data (8) Confusion Table for Testing Data (9) Correct Rate for Testing Data

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

71

圖4-39 判別分析結果報表

5、 「RandomForest」工作表

此工作表為利用隨機森林分析之結果,網頁預覽如圖 4-40 所示。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

72

圖4-40 「RandomForest」工作表

隨機森林分析結果報表如圖 4-41 所示,其中有七個部分,分別為:

(1) Type of Random Forest (2) Number of Trees (3) Variable Importance

(4) Confusion Table for Training Data (5) Correct Rate for Training Data (6) Confusion Table for Testing Data (7) Correct Rate for Testing Data

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

73

圖4-41 隨機森林分析結果報表 四、 評估模型優劣

選擇文字類別型目標變數所分析出來的結果中,可計算出各個模型中訓練資 料集和測試資料集的正確率,並呈現在報表中,使用者可以比較測試資料集的正 確率之大小來評估模型的優劣,表 4-6 為決策樹、支持向量機、判別分析及隨機 森林的訓練資料集和測試資料集的正確率。分析結果顯示這四種模型各別的訓練 資料集和測試資料集的正確率的大小皆相同,分別為 95.56%以及 100%, 表示 配適出的決策樹、支持向量機、判別分析及隨機森林都相當的良好。

表4-6 分類模型之正確率比較

模型 決策樹 支持向量機 判別分析 隨機森林 訓練集正確率 95.56% 95.56% 95.56% 95.56%

測試集正確率 100% 100% 100% 100%

以「Babies」資料檔、「Egyptian Skulls」資料檔及「iris」資料檔為例,分別 利用數字連續型、數字類別型以及文字類別型三種不同的目標變數型態,上傳至

相關文件