資料探勘預測模型之測試與修正

第四章資料分析結果

第四節資料探勘預測模型之測試與修正

依據前一節的說明，本研究採用三種資料探勘演算法建置五種採礦模型(詳見表 4-14)，並不斷嘗試調整演算法參數，測試產生之預測結果與驗證其是否符

合研究需求。此五種採礦模型建置完成的情形如圖 4-24 所示。為配合模型輸入參數的特性，部分變數會有連續值與離散值 2 種狀態，並視演算法的需求採用其中一種型態做為輸入變數，因此在模型輸入變數中有許多忽略的變數。採礦模型初次執行後，如果使用測試組資料檢驗模型的預測效果不佳時，在不更換演算法的前提之下，研究中將會嘗試變更演算法的參數或是輸入的變數組合，同時為排除相互作用的干擾，每次調整模型的參數或變數時僅能調整一個項目，以找出最佳的調整方式。經不斷反覆調整與測試各採礦模型的演算法參數後，終於找出最符合研究目的的各採礦模型的演算法參數，以下將三種演算法所設定之參數說明如表 4-15、表 4-16、表 4-17 中。

圖 4-24 資料探勘使用之五種採礦模型資料來源：本研究整理

表 4-15 研究中使用決策樹演算法之參數設定說明

TTRIBUTES

可以處理的輸入變數的最大數目。將此值設定為 0，會停用輸入屬性的特徵選取。

255

MAXIMUM_OUTPUT_

ATTRIBUTES

可以處理輸出變數的最大數目。將此值設定為 0，會停用輸出屬性的特徵選取。

255

MINIMUM_SUPPORT 指定決策樹的每一節點必須包含的最小案例數目。如將此值設定為小於 1，代表最小案例數目為總案例數的百分比。將此值設定為大於 1 的整數，則代表最小案例數目的絕對數值。

SCORE_METHOD 計算決策樹分岔準則的方法。其中包含:

Entropy (1)、Bayesian with K2 Prior (3) 或 Bayesian Dirichlet Equivalent with Uniform prior (4)。

TTRIBUTES

可以處理的輸入變數的最大數目。將此值設定為 0，會停用輸入屬性的特徵選取。

255 MAXIMUM_OUTPUT_

ATTRIBUTES

可以處理輸出變數的最大數目。將此值設定為 0，會停用輸出屬性的特徵選取。

255

續下頁

續表 4-16 研究中使用貝式機率分類之參數設定說明

參數名稱說明參數設定值 MAXIMUM_STATES 指定演算法所支援變數屬性狀態的最大數

目。如果變數屬性的狀態數目大於此參數值，演算法會使用變數最常用的屬性狀態，並將其餘的屬性狀態視為遺漏值。

100

MAXIMUM_DEPEND ENCY_PROBABILITY

指定介於輸入和輸出變數之間的最小相依 HIDDEN_NODE_RATIO * SQRT({輸入變數的數目} * {輸出變數的數目})。

HOLDOUT_SEED 透過此參數可決定隨機抽取鑑效組的亂數種子。修改此參數會重新抽取鑑效組資 TTRIBUTES

可以處理的輸入變數的最大數目。將此值設定為 0，會停用輸入屬性的特徵選取。

255

MAXIMUM_OUTPUT_

ATTRIBUTES

可以處理輸出變數的最大數目。將此值設定為 0，會停用輸出屬性的特徵選取。

255

續下頁

續表 4-17 研究中使用類神經網路之參數設定說明

參數名稱說明參數設定值 MAXIMUM_STATES 指定演算法所支援變數屬性狀態的最大數

目。如果變數屬性的狀態數目大於此參數值，演算法會使用變數最常用的屬性狀態，並將其餘的屬性狀態視為遺漏值。

100

SAMPLE_SIZE 指定用來訓練模型的案例數目。演算法會根據 SAMPLE_SIZE 或總案例數目*(1- HOLDOUT_PERCENTAGE/100) 兩者中數值較小者決定訓練組使用的案例數目。

100000

a資料來源：研究者自行整理

經由以上的參數設定，最後得到五種不同的預測模型輸出。以下將各預測模型的詳細內容條列說明如下：

一、決策樹連續值預測模型：

決策樹的預測模型是所有演算法中最容易被理解的一種，其預測模型能以樹狀分枝圖呈現之，讓使用者理解模型預測的判斷邏輯模式，也能凸顯出哪一些輸入變數是決定預測結果之重要變數。本模型的輸入變數如表 4-18 所示，所有數值型態皆保持與資料庫中原有型態一致，並未將連續性的資料離散化，故將模型取名為決策樹-連續值預測模型。在模型完成資料分析與訓練(在 SQL 2008 R2 軟體中稱為建置與部署)的工作後，就可點選軟體視窗中的採礦模型檢視器分頁視窗。從此分頁視窗中，可以檢視決策樹輸出之圖形與相依性網路圖。其中決策樹的輸出圖形如圖 4-25 所示，圖中共有 10 個葉節點，每一葉節點代表著一種預測的判斷規則。以圖 4-25 中最右上角的葉節點為例，在軟體視窗中使用滑鼠點選此葉節點圖，其從根部到葉節點的判斷規則可進一步從採礦圖例視窗中獲得，如圖 4-26 所示。

表 4-18 決策樹連續值與類神經網路連續值預測模型之輸入變數資料型態編號輸入變數名稱輸入變數資料型態

1 建造年度分類離散值(Discrete) 2 建築材料離散值(Discrete) 3 走廊型式離散值(Discrete)

4 廊外柱離散值(Discrete)

5 樓層數離散值(Discrete)

6 總載重連續值(Continuous) 7 總高度連續值(Continuous) 8 總面積連續值(Continuous) 9 一樓總牆量連續值(Continuous) 10 一樓 X 向總牆量連續值(Continuous) 11 一樓 Y 向總牆量連續值(Continuous) 12 一樓 X 向 RC 牆總斷面積連續值(Continuous) 13 一樓 X 向四面圍束磚牆總斷面積連續值(Continuous) 14 一樓 X 向三面圍束磚牆總斷面積連續值(Continuous) 15 一樓 Y 向 RC 牆總斷面積連續值(Continuous) 16 一樓 Y 向四面圍束磚牆總斷面積連續值(Continuous) 17 一樓 Y 向三面圍束磚牆總斷面積連續值(Continuous)

a資料來源：研究者自行整理

從圖 4-26 之採礦圖例視窗中可顯示出此葉節點的來案例預測值分佈狀態。從視窗中可得知，此葉節點總案例數是 5 個，預測「結果_不用補強」

值為否的案例數是 5 個，預測機率為 85.71%。預測「結果_不用補強」值為是的案例數是 0 個，預測機率為 14.29%。此葉節點的判斷規則為當案例同時符合有廊外柱、2 樓、建築材料為加強磚造、建造年度分類值為 3(即 1971 年到 1981 年間興建)這四種條件時，此案例將會使用此葉節點的分類機率進行判斷。其他九個葉節點的判斷規則、包含案例個數與預測機率亦可以從其採礦圖例視窗中得知。

資料來源：本研究整理

圖 4-26 決策樹連續值預測模型之採礦圖例視窗資料來源：本研究整理

決策樹的預測模型除了可展示樹狀的邏輯預測規則之外，亦能透過相依性網路圖檢視有哪一些輸入變數對於預測結果有影響，並能展示這些變數影響預測結果的強弱能力。圖 4-27 為決策樹的預測模型之相依性網路圖，

在圖中可看出有 5 個輸入變數和預測「結果_不用補強」的值有關係，而每一個帶有箭頭的連線表示預測的關係。連線的起點是輸入變數，箭頭的終點是輸出變數。另外，也可以透過調整左方按鈕往下移動，就可以比較出各輸入變數之間預測能力的強弱。

圖 4-27 決策樹連續值預測模型之相依性網路圖

一般而言，預測能力的強弱是根據輸入變數位於決策樹的層級數來決定的。換句話說，在決策樹第一層的輸入變數，就是預測能力最強的輸入變數。

本決策樹預測模型各輸入變數預測能力的強弱比較如表 4-19 所示。

表 4-19 決策樹連續值預測模型之輸入變數預測能力的強弱比較

編號輸入變數名稱預測能力的強弱說明(數字越大表示越強)

1 廊外柱 6

2 樓層數 4

3 建築材料 3

4 建造年度分類 2

5 走廊形式 1

a資料來源：研究者自行整理

由上表可得知，廊外柱的預測能力最強，走廊形式的預測能力最弱。

從圖 4-25 中亦可發現，廊外柱是第一層的判斷變數，代表最強的預測能力，

而走廊形式和建造年度分類是最末層的判斷變數，因此預測能力較弱。前述的預測模型皆經由決策樹演算法依據分析資料之訓練組 191 筆校舍案例內容所產生的。如果資料庫的資料產生變動，本預測模型經重新建置與部署之後，其預測模型也會因而有所變化。因此如果搭配自動化的程序協助，

預測模型亦可以偵測資料的變化而進行模型的修正，但是模型的評估仍需使用者依建置目的做最後的判斷，通過評估的預測模型才有實用的價值。

二、決策樹離散值預測模型：

從決策樹-連續值預測模型所輸出的結果可發現，具有預測能力的輸入變數皆為離散值的變數。由此可知決策樹的演算法雖然能接受連續值的變數輸入，但是在分析上仍因演算法的公式限制，無法將連續值的變數的實際對預測值影響力納入預測模型中。因此本模型嘗試進行輸入變數的修正，雖然同樣採用決策樹的演算法，但是在輸入變數上進行調整，將連續值的變數使用集群分析的方式將其離散化，讓決策樹的演算法能將這些輸

入變數對於預測值的影響力包含至整個輸出的預測模型中。本模型的輸入變數如表 4-20 所示，所有在資料庫中以連續性數值型態呈現的變數皆經過離散化處理後成為本模型的新輸入變數。為與前一模型名稱加以區隔，故將模型取名為決策樹-離散值預測模型。

表 4-20 決策樹離散值與類神經網路離散值預測模型之輸入變數資料型態編號輸入變數名稱輸入變數資料型態

1 建造年度分類離散值(Discrete) 2 建築材料離散值(Discrete) 3 走廊型式離散值(Discrete)

4 廊外柱離散值(Discrete)

5 樓層數離散值(Discrete)

6 總載重離散化離散化值(Discretized) 7 總高度離散化離散化值(Discretized) 8 總面積離散化離散化值(Discretized) 9 一樓總牆量離散化離散化值(Discretized) 10 一樓 X 向總牆量離散化離散化值(Discretized) 11 一樓 Y 向總牆量離散化離散化值(Discretized) 12 一樓 X 向 RC 牆總斷面積離散化離散化值(Discretized) 13 一樓 X 向四面圍束磚牆總斷面積離散化離散化值(Discretized) 14 一樓 X 向三面圍束磚牆總斷面積離散化離散化值(Discretized) 15 一樓 Y 向 RC 牆總斷面積離散化離散化值(Discretized) 16 一樓 Y 向四面圍束磚牆總斷面積離散化離散化值(Discretized) 17 一樓 Y 向三面圍束磚牆總斷面積離散化離散化值(Discretized)

a資料來源：研究者自行整理

資料來源：本研究整理

在文檔中應用資料探勘技術於學校建築耐震能力評估之研究 (頁 94-128)

第四章 資料分析結果

第四節 資料探勘預測模型之測試與修正

第四章資料分析結果

第四節資料探勘預測模型之測試與修正