• 沒有找到結果。

資料探勘預測模型之測試與修正

第四章 資料分析結果

第四節 資料探勘預測模型之測試與修正

依據前一節的說明,本研究採用三種資料探勘演算法建置五種採礦模型(詳 見表 4-14),並不斷嘗試調整演算法參數,測試產生之預測結果與驗證其是否符

合研究需求。此五種採礦模型建置完成的情形如圖 4-24 所示。為配合模型輸入 參數的特性,部分變數會有連續值與離散值 2 種狀態,並視演算法的需求採用其 中一種型態做為輸入變數,因此在模型輸入變數中有許多忽略的變數。採礦模型 初次執行後,如果使用測試組資料檢驗模型的預測效果不佳時,在不更換演算法 的前提之下,研究中將會嘗試變更演算法的參數或是輸入的變數組合,同時為排 除相互作用的干擾,每次調整模型的參數或變數時僅能調整一個項目,以找出最 佳的調整方式。經不斷反覆調整與測試各採礦模型的演算法參數後,終於找出最 符合研究目的的各採礦模型的演算法參數,以下將三種演算法所設定之參數說明 如表 4-15、表 4-16、表 4-17 中。

圖 4-24 資料探勘使用之五種採礦模型 資料來源:本研究整理

表 4-15 研究中使用決策樹演算法之參數設定說明

TTRIBUTES

可以處理的輸入變數的最大數目。將此值 設定為 0,會停用輸入屬性的特徵選取。

255

MAXIMUM_OUTPUT_

ATTRIBUTES

可以處理輸出變數的最大數目。將此值設 定為 0,會停用輸出屬性的特徵選取。

255

MINIMUM_SUPPORT 指定決策樹的每一節點必須包含的最小案 例數目。如將此值設定為小於 1,代表最 小案例數目為總案例數的百分比。將此值 設定為大於 1 的整數,則代表最小案例數 目的絕對數值。

5

SCORE_METHOD 計算決策樹分岔準則的方法。其中包含:

Entropy (1)、Bayesian with K2 Prior (3) 或 Bayesian Dirichlet Equivalent with Uniform prior (4)。

TTRIBUTES

可以處理的輸入變數的最大數目。將此值 設定為 0,會停用輸入屬性的特徵選取。

255 MAXIMUM_OUTPUT_

ATTRIBUTES

可以處理輸出變數的最大數目。將此值設 定為 0,會停用輸出屬性的特徵選取。

255

續下頁

續表 4-16 研究中使用貝式機率分類之參數設定說明

參 數 名 稱 說 明 參數設 定值 MAXIMUM_STATES 指定演算法所支援變數屬性狀態的最大數

目。如果變數屬性的狀態數目大於此參數 值,演算法會使用變數最常用的屬性狀 態,並將其餘的屬性狀態視為遺漏值。

100

MAXIMUM_DEPEND ENCY_PROBABILITY

指定介於輸入和輸出變數之間的最小相依 HIDDEN_NODE_RATIO * SQRT({輸入變 數的數目} * {輸出變數的數目})。

HOLDOUT_SEED 透過此參數可決定隨機抽取鑑效組的亂數 種子。修改此參數會重新抽取鑑效組資 TTRIBUTES

可以處理的輸入變數的最大數目。將此值 設定為 0,會停用輸入屬性的特徵選取。

255

MAXIMUM_OUTPUT_

ATTRIBUTES

可以處理輸出變數的最大數目。將此值設 定為 0,會停用輸出屬性的特徵選取。

255

續下頁

續表 4-17 研究中使用類神經網路之參數設定說明

參 數 名 稱 說 明 參數設 定值 MAXIMUM_STATES 指定演算法所支援變數屬性狀態的最大數

目。如果變數屬性的狀態數目大於此參數 值,演算法會使用變數最常用的屬性狀 態,並將其餘的屬性狀態視為遺漏值。

100

SAMPLE_SIZE 指定用來訓練模型的案例數目。演算法會 根 據 SAMPLE_SIZE 或總案例數目*(1- HOLDOUT_PERCENTAGE/100) 兩 者 中 數值較小者決定訓練組使用的案例數目。

100000

a資料來源:研究者自行整理

經由以上的參數設定,最後得到五種不同的預測模型輸出。以下將各 預測模型的詳細內容條列說明如下:

一、決策樹連續值預測模型:

決策樹的預測模型是所有演算法中最容易被理解的一種,其預測模型能 以樹狀分枝圖呈現之,讓使用者理解模型預測的判斷邏輯模式,也能凸顯出 哪一些輸入變數是決定預測結果之重要變數。本模型的輸入變數如表 4-18 所示,所有數值型態皆保持與資料庫中原有型態一致,並未將連續性的資料 離散化,故將模型取名為決策樹-連續值預測模型。在模型完成資料分析與 訓練(在 SQL 2008 R2 軟體中稱為建置與部署)的工作後,就可點選軟體視窗 中的採礦模型檢視器分頁視窗。從此分頁視窗中,可以檢視決策樹輸出之圖 形與相依性網路圖。其中決策樹的輸出圖形如圖 4-25 所示,圖中共有 10 個 葉節點,每一葉節點代表著一種預測的判斷規則。以圖 4-25 中最右上角的 葉節點為例,在軟體視窗中使用滑鼠點選此葉節點圖,其從根部到葉節點的 判斷規則可進一步從採礦圖例視窗中獲得,如圖 4-26 所示。

表 4-18 決策樹連續值與類神經網路連續值預測模型之輸入變數資料型態 編號 輸 入 變 數 名 稱 輸入變數資料型態

1 建造年度分類 離散值(Discrete) 2 建築材料 離散值(Discrete) 3 走廊型式 離散值(Discrete)

4 廊外柱 離散值(Discrete)

5 樓層數 離散值(Discrete)

6 總載重 連續值(Continuous) 7 總高度 連續值(Continuous) 8 總面積 連續值(Continuous) 9 一樓總牆量 連續值(Continuous) 10 一樓 X 向總牆量 連續值(Continuous) 11 一樓 Y 向總牆量 連續值(Continuous) 12 一樓 X 向 RC 牆總斷面積 連續值(Continuous) 13 一樓 X 向四面圍束磚牆總斷面積 連續值(Continuous) 14 一樓 X 向三面圍束磚牆總斷面積 連續值(Continuous) 15 一樓 Y 向 RC 牆總斷面積 連續值(Continuous) 16 一樓 Y 向四面圍束磚牆總斷面積 連續值(Continuous) 17 一樓 Y 向三面圍束磚牆總斷面積 連續值(Continuous)

a資料來源:研究者自行整理

從圖 4-26 之採礦圖例視窗中可顯示出此葉節點的來案例預測值分佈狀 態。從視窗中可得知,此葉節點總案例數是 5 個,預測「結果_不用補強」

值為否的案例數是 5 個,預測機率為 85.71%。預測「結果_不用補強」值為 是的案例數是 0 個,預測機率為 14.29%。此葉節點的判斷規則為當案例同 時符合有廊外柱、2 樓、建築材料為加強磚造、建造年度分類值為 3(即 1971 年到 1981 年間興建)這四種條件時,此案例將會使用此葉節點的分類機率進 行判斷。其他九個葉節點的判斷規則、包含案例個數與預測機率亦可以從其 採礦圖例視窗中得知。

資料來源:本研究整理

圖 4-26 決策樹連續值預測模型之採礦圖例視窗 資料來源:本研究整理

決策樹的預測模型除了可展示樹狀的邏輯預測規則之外,亦能透過相 依性網路圖檢視有哪一些輸入變數對於預測結果有影響,並能展示這些變數 影響預測結果的強弱能力。圖 4-27 為決策樹的預測模型之相依性網路圖,

在圖中可看出有 5 個輸入變數和預測「結果_不用補強」的值有關係,而每 一個帶有箭頭的連線表示預測的關係。連線的起點是輸入變數,箭頭的終點 是輸出變數。另外,也可以透過調整左方按鈕往下移動,就可以比較出各輸 入變數之間預測能力的強弱。

圖 4-27 決策樹連續值預測模型之相依性網路圖

一般而言,預測能力的強弱是根據輸入變數位於決策樹的層級數來決定 的。換句話說,在決策樹第一層的輸入變數,就是預測能力最強的輸入變數。

本決策樹預測模型各輸入變數預測能力的強弱比較如表 4-19 所示。

表 4-19 決策樹連續值預測模型之輸入變數預測能力的強弱比較

編號 輸 入 變 數 名 稱 預測能力的強弱說明(數字越大表示越強)

1 廊外柱 6

2 樓層數 4

3 建築材料 3

4 建造年度分類 2

5 走廊形式 1

a資料來源:研究者自行整理

由上表可得知,廊外柱的預測能力最強,走廊形式的預測能力最弱。

從圖 4-25 中亦可發現,廊外柱是第一層的判斷變數,代表最強的預測能力,

而走廊形式和建造年度分類是最末層的判斷變數,因此預測能力較弱。前 述的預測模型皆經由決策樹演算法依據分析資料之訓練組 191 筆校舍案例 內容所產生的。如果資料庫的資料產生變動,本預測模型經重新建置與部 署之後,其預測模型也會因而有所變化。因此如果搭配自動化的程序協助,

預測模型亦可以偵測資料的變化而進行模型的修正,但是模型的評估仍需 使用者依建置目的做最後的判斷,通過評估的預測模型才有實用的價值。

二、決策樹離散值預測模型:

從決策樹-連續值預測模型所輸出的結果可發現,具有預測能力的輸入 變數皆為離散值的變數。由此可知決策樹的演算法雖然能接受連續值的變 數輸入,但是在分析上仍因演算法的公式限制,無法將連續值的變數的實 際對預測值影響力納入預測模型中。因此本模型嘗試進行輸入變數的修 正,雖然同樣採用決策樹的演算法,但是在輸入變數上進行調整,將連續 值的變數使用集群分析的方式將其離散化,讓決策樹的演算法能將這些輸

入變數對於預測值的影響力包含至整個輸出的預測模型中。本模型的輸入 變數如表 4-20 所示,所有在資料庫中以連續性數值型態呈現的變數皆經過 離散化處理後成為本模型的新輸入變數。為與前一模型名稱加以區隔,故 將模型取名為決策樹-離散值預測模型。

表 4-20 決策樹離散值與類神經網路離散值預測模型之輸入變數資料型態 編號 輸 入 變 數 名 稱 輸入變數資料型態

1 建造年度分類 離散值(Discrete) 2 建築材料 離散值(Discrete) 3 走廊型式 離散值(Discrete)

4 廊外柱 離散值(Discrete)

5 樓層數 離散值(Discrete)

6 總載重離散化 離散化值(Discretized) 7 總高度離散化 離散化值(Discretized) 8 總面積離散化 離散化值(Discretized) 9 一樓總牆量離散化 離散化值(Discretized) 10 一樓 X 向總牆量離散化 離散化值(Discretized) 11 一樓 Y 向總牆量離散化 離散化值(Discretized) 12 一樓 X 向 RC 牆總斷面積離散化 離散化值(Discretized) 13 一樓 X 向四面圍束磚牆總斷面積離散化 離散化值(Discretized) 14 一樓 X 向三面圍束磚牆總斷面積離散化 離散化值(Discretized) 15 一樓 Y 向 RC 牆總斷面積離散化 離散化值(Discretized) 16 一樓 Y 向四面圍束磚牆總斷面積離散化 離散化值(Discretized) 17 一樓 Y 向三面圍束磚牆總斷面積離散化 離散化值(Discretized)

a資料來源:研究者自行整理

資料來源:本研究整理