文字類別型目標變數 - 導入雲端運算概念於資料採礦之分類系統

不同種類（setosa、versicolor 及 virginica）的花萼長度、花萼寬度、花瓣長度以及花瓣寬度，每個種類分別測量 50 朵，資料筆數共有 150 筆，5 個欄位，資料

（setosa、versicolor 及 virginica）

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

二、使用者操作說明

依照第三章的研究流程中所設計的使用者操作步驟來說明。

步驟一：

進入此系統後，會先跳出「上傳欲分析資料」之視窗，使用者可上傳欲分析的資料，操作介面如圖 4-28。

圖4-28 使用者上傳欲分析資料之視窗

點選「上傳資料 (Upload Data)」之按鈕，即跳出「請瀏覽並選取欲載入的檔案」之視窗，如圖 4-29 所示，可瀏覽使用者電腦中的資料，使用者可選取欲分析資料，在此選擇「iris」檔案，其檔案類型為 Microsoft Office Excel 逗點分隔值檔案(.csv)，選取完成後按下「開啟」按鈕。

步驟二：

按下開啟按鈕後，此系統會讀取使用者欲分析之資料，並跳出「檢視上傳資料」之視窗，如圖 4-30 所示，使用者可檢視資料是否上傳成功，並再次確定此資料是否為自己欲分析之資料。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖4-29 瀏覽並選取欲載入的檔案之視窗

圖4-30 檢視上傳資料之視窗

使用者檢視並確定資料後，按下「下一步」按鈕，接著會跳出「選擇欲分析之資料採礦功能」之視窗，如圖 4-31 所示，點選「分類(Classification)」按鈕，

進入下一個步驟。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖4-31 選擇欲分析之資料採礦功能之視窗

步驟三：

按下「分類(Classification)」按鈕後，即跳出「資料採礦之分類功能」

之視窗，如圖 4-32 所示，在視窗中的二個清單裡會顯示「iris」資料檔所有資料欄位名稱，在此示範的目標變數為文字類別型，於是點選「Species」，

而解釋變數則選擇其它四個變數，選擇完畢後，按下「執行」按鈕，系統便將資料以及目標變數「Species」傳送到 R 軟體開始進行分析，並將分析結果依不同模型分別以各別的工作表呈現。

圖4-32 資料採礦之分類功能之視窗

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

三、報表輸出

選擇文字類別型目標變數會產生四種模型，分別是決策樹、支持向量機、判別分析以及隨機森林，分析結果會以網頁預覽方式呈現給使用者，報表中共有四個工作表，工作表名稱分別為「UserData」、「Tree」、「SVM」、「Discriminant」以及

「RandomForest」，以下將以各個工作表內容做說明。

1、「UserData」工作表

此工作表內容為使用者上傳欲分析之資料，共有 150 筆資料，如圖 4-33 所示。

圖4-33 「UserData」工作表

2、「Tree」工作表

此工作表為利用決策樹分析之結果，網頁預覽如圖 4-34 所示。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖4-34 「Tree」工作表

決策樹分析結果報表如圖 4-35 所示，其中有七個部分，分別為：

(1) Classification Tree (2) Split Rule

(3) Confusion Table for Training Data (4) Correct Rate for Training Data (5) Confusion Table for Testing Data (6) Correct Rate for Testing Data (7) Testing Data Detail

圖 4-35 第 7 個部分的 Testing Data Detail 因為資料筆數較多，此僅展示其中一部分。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖4-35 決策樹分析結果報表

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

3、「SVM」工作表

此工作表為利用支持向量機分析之結果，網頁預覽如圖 4-36 所示。

圖4-36 「SVM」工作表

支持向量機分析結果報表如圖 4-37 所示，其中有九個部分，分別為：

(1) Kernel (2) Gamma (3) Rho

(4) Numbers of Support Vectors (5) Confusion Table for Training Data (6) Correct Rate for Training Data (7) Confusion Table for Testing Data (8) Correct Rate for Testing Data (9) Support Vector

圖 4-37 第 9 個部分的 Support Vector 因為資料筆數較多，此僅展示其中一部分。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖4-37 支持向量機分析結果報表

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

4、「Discriminant」工作表

此工作表為利用判別分析之結果，網頁預覽如圖 4-38 所示。

圖4-38 「Discriminant」工作表

判別分析結果報表如圖 4-39 所示，其中有九個部分，分別為：

(1) The Prior Probability (2) The Group Counts (3) Total Numbers (4) The Group Means (5) Discriminant Function

(6) Confusion Table for Training Data (7) Correct Rate for Training Data (8) Confusion Table for Testing Data (9) Correct Rate for Testing Data

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖4-39 判別分析結果報表

5、「RandomForest」工作表

此工作表為利用隨機森林分析之結果，網頁預覽如圖 4-40 所示。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖4-40 「RandomForest」工作表

隨機森林分析結果報表如圖 4-41 所示，其中有七個部分，分別為：

(1) Type of Random Forest (2) Number of Trees (3) Variable Importance

(4) Confusion Table for Training Data (5) Correct Rate for Training Data (6) Confusion Table for Testing Data (7) Correct Rate for Testing Data

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖4-41 隨機森林分析結果報表四、評估模型優劣

選擇文字類別型目標變數所分析出來的結果中，可計算出各個模型中訓練資料集和測試資料集的正確率，並呈現在報表中，使用者可以比較測試資料集的正確率之大小來評估模型的優劣，表 4-6 為決策樹、支持向量機、判別分析及隨機森林的訓練資料集和測試資料集的正確率。分析結果顯示這四種模型各別的訓練資料集和測試資料集的正確率的大小皆相同，分別為 95.56%以及 100%，表示配適出的決策樹、支持向量機、判別分析及隨機森林都相當的良好。

表4-6 分類模型之正確率比較

模型決策樹支持向量機判別分析隨機森林訓練集正確率 95.56% 95.56% 95.56% 95.56%

測試集正確率 100% 100% 100% 100%

‧

以「Babies」資料檔、「Egyptian Skulls」資料檔及「iris」資料檔為例，分別利用數字連續型、數字類別型以及文字類別型三種不同的目標變數型態，上傳至

在文檔中導入雲端運算概念於資料採礦之分類系統 - 政大學術集成 (頁 69-82)

文字類別型目標變數

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學