第五章 區別分析結果
6.2 分類樹(classification tree)的分析結果
策樹模型的摘要部分,分類樹除了預測誤差均方(Residual mean deviance)外,還會印出錯誤分類率(Misclassification error rate),其中 預測誤差均方等於葉節點的 deviance 的和除以自由度,自由度等於根 節點的樣本數減去葉節點的個數。
圖 6.1 樹狀圖
x8<50.115|
x6<11.97
x14<0.105
x6<27.2
x9<10950
x13<31.9
x6<5.8
x11<19.495
x6<8.95 x3<24.165 CL
SM
SC SC SC
SM ML
CL CL ML CL
節點 2 的
x
8 50.115的 99 筆土壤繼續向下分,在此 99 筆山坡地土壤 資料中,影響土壤最大的是塑性限度( )x
6 ,最佳的 split 是x
6 11.97, 在節點 4 塑性限度小於 11.97 的土壤只有 5 筆,所以不再繼續向下分 了。接著將節點 5 的
x
6 11.97的 94 筆資料繼續向下分,此時對土壤 區別能力最大的變數是壓縮指數(x
14),最佳的 split 是x
14 0.105,在 節點 10 壓縮指數小於 0.105 的土壤有 12 筆,由於 deviance 0 所以不 再繼續向下分。將節點 11 壓縮指數大於 0.105 的 82 筆土壤資料繼續表 6.1 摘要表
*** Tree Model ***
Classification tree:分類樹模型
tree(formula = type ~ x3 + x6 + x7 + x8 + x9 + x10 + x11 + x12 + x13 + x14, data
= data10, na.action = na.exclude, mincut = 5, minsize = 10, mindev = 0.05)
Variables actually used in tree construction:實際用在決策樹中的變數
[1] "x8" "x6" "x14" "x9" "x13" "x11" "x3"
Number of terminal nodes: 11 葉節點(終端節點)個數
Residual mean deviance: 0.6643 = 178 / 268 預測誤差均方(自由度268=279-11)
Misclassification error rate: 0.1254 = 35 / 279 錯誤分類率
node), split, n, deviance, yval, (yprob) * denotes terminal node
1) root 279 704.000 CL ( 0.47310 0.18640 0.2079 0.1326 ) 2) x8<50.115 99 160.500 SC ( 0.04040 0.00000 0.5859 0.3737 ) 4) x6<11.97 5 5.004 CL ( 0.80000 0.00000 0.2000 0.0000 ) * 5) x6>11.97 94 126.000 SC ( 0.00000 0.00000 0.6064 0.3936 ) 10) x14<0.105 12 0.000 SM ( 0.00000 0.00000 0.0000 1.0000 ) * 11) x14>0.105 82 100.900 SC ( 0.00000 0.00000 0.6951 0.3049 ) 22) x6<27.2 64 55.480 SC ( 0.00000 0.00000 0.8438 0.1563 ) 44) x9<10950 42 46.110 SC ( 0.00000 0.00000 0.7619 0.2381 ) 88) x13<31.9 27 18.840 SC ( 0.00000 0.00000 0.8889 0.1111 ) * 89) x13>31.9 15 20.730 SC ( 0.00000 0.00000 0.5333 0.4667 ) * 45) x9>10950 22 0.000 SC ( 0.00000 0.00000 1.0000 0.0000 ) * 23) x6>27.2 18 16.220 SM ( 0.00000 0.00000 0.1667 0.8333 ) * 3) x8>50.115 180 216.400 CL ( 0.71110 0.28890 0.0000 0.0000 ) 6) x6<5.8 24 13.770 ML ( 0.08333 0.91670 0.0000 0.0000 ) * 7) x6>5.8 156 152.700 CL ( 0.80770 0.19230 0.0000 0.0000 ) 14) x11<19.495 121 73.720 CL ( 0.90910 0.09091 0.0000 0.0000 ) 28) x6<8.95 32 33.620 CL ( 0.78130 0.21880 0.0000 0.0000 ) * 29) x6>8.95 89 32.640 CL ( 0.95510 0.04494 0.0000 0.0000 ) * 15) x11>19.495 35 48.260 ML ( 0.45710 0.54290 0.0000 0.0000 ) 30) x3<24.165 23 26.400 ML ( 0.26090 0.73910 0.0000 0.0000 ) * 31) x3>24.165 12 10.810 CL ( 0.83330 0.16670 0.0000 0.0000 ) *
向下分。影響 82 筆土壤最大的變數為塑性限度( )
x
6 ,最佳的 split 是6 27.2
x
,在節點 22 塑性限度小於 27.2 的土壤有 64 筆,將繼續往下 分,在節點 23 塑性限度大於 27.2 的土壤有 18 筆,由於此節點的 deviance 16.220 除以根節點的 deviance 704 的比例為 0.023<0.05,所 以不再往下分了。在節點 22 的x
6 27.2的 64 筆資料中,影響土壤最 大的變數是滲透係數( )x
9 ,最佳的 split 是x
9 10950,在節點 44 滲透 係數小於 10950 的土壤有 42 筆,將繼續往下分,在節點 45 滲透係數 大於 10950 的土壤則有 22 筆,不再往下分。影響節點 44 的 42 筆土 壤的最大變數是內摩擦角(x
13),最佳的 split 是x
13 31.9,在節點 88 內 摩擦角小於 31.9 的土壤有 27 筆,在節點 89 內摩擦角大於 31.9 的土 壤有 15 筆,這兩個節點均不再向下分。回到根節點右邊,在節點 3 細粒含量大於 50.115 的土壤有 180 筆,在 180 筆中,影響土壤最大的變數是塑性限度( )
x
6 ,最佳的 split 是x
6 5.8,在節點 6 塑性限度小於 5.8 的土壤有 24 筆,不再繼續向 下分。另外在節點 7 塑性限度大於 5.8 的土壤有 156 筆,影響這 156 筆土壤最大的變數是最佳含水量(x
11),最佳的 split 是x
11 19.495。在節點 14 最佳含水量小於 19.495 的土壤有 121 筆,影響 121 筆 土壤最大的變數是塑性限度( )
x
6 ,最佳的 split 是x
6 8.95,其中在節 點 28 塑性限度小於 8.95 的土壤有 32 筆,另外在節點 29 塑性限度大 於 8.95 的土壤有 89 筆,這兩個節點均不再向下分。在節點 15 最佳含水量大於 19.495 的土壤有 35 筆,剩下的這 35 筆土壤中,影響最 大的變數是含水比( )
x
3 ,最佳的 split 是x
3 24.165,在節點 30 含水 比小於 24.165 的土壤有 23 筆,在節點 31 含水比大於 24.165 的土壤 有 12 筆,這兩個節點也均不再繼續向下分,此時分類樹已建構完成。樹狀圖及摘要表的解釋
樹狀圖建立好以後,我們就可以根據區別能力,預測資料應歸類 到哪一種土壤,在摘要表印有〝*〞表示是最終的節點,共有 11 個,
以下是我們的分析結果:
(1) 當土壤的細粒含量( )
x
8 50.115 且塑性限度( )x
6 11.97 時,估計為 四種土壤的機率為(CL ML SC SM) (0.80000 0.00000 0.2000 0.0000),由於為低塑性粘土(CL)的機率最高,所以應歸類為低塑 性粘土。(2) 當土壤的細粒含量( )
x
8 50.115、塑性限度( )x
6 11.97 且壓縮指數 (x
14) 0.105 時 , 估 計 為 四 種 土 壤 的 機 率 為 (CL ML SC SM) (0.00000 0.00000 0.0000 1.0000),由於為粉土質砂(SM)的機 率為 1,所以應歸類為粉土質砂。(3) 當土壤的細粒含量( )
x
8 50.115、塑性限度( )x
6 11.97、壓縮指數 (x
14) 0.105、塑性限度( )x
6 27.2 時,估計為四種土壤的機率為 (CL ML SC SM) (0.00000 0.00000 0.8438 0.1563),由於為粘土質砂(SC)的機率最高,所以應歸類為粘土質砂。
(4) 當土壤的細粒含量( )
x
8 50.115、塑性限度( )x
6 11.97、壓縮指數 (x
14) 0.105 、塑性限度( )x
6 27.2 時,估計為四種土壤的機率為(CL ML SC SM) (0.00000 0.00000 0.1667 0.8333),由於為粉土質 砂(SM)的機率最高,所以應歸類為粉土質砂。
(5) 當土壤的細粒含量( )
x
8 50.115、塑性限度( )x
6 5.8 時,估計為四 種 土 壤 的 機 率 為 (CL ML SC SM) (0.08333 0.91670 0.0000 0.0000),由於為低塑性粉土(ML)的機率最高,所以應歸類為低塑 性粉土。(6) 當土壤的細粒含量( )
x
8 50.115、塑性限度( )x
6 5.8,最佳含水量 (x
11) 19.495 時 , 估 計 為 四 種 土 壤 的 機 率 為 (CL ML SC SM) (0.90910 0.09091 0.0000 0.0000),由於為低塑性粘土(CL)的 機率最高,所以應歸類為低塑性粘土。(7) 當土壤的細粒含量( )
x
8 50.115、塑性限度( )x
6 5.8,最佳含水量 (x
11) 19.495、含水比( )x
3 24.165時,估計為四種土壤的機率為 (CL ML SC SM) (0.26090 0.73910 0.0000 0.0000),由於為低塑性 粉土(ML)的機率最高,所以應歸類為低塑性粉土。(8) 當土壤的細粒含量( )
x
8 50.115、塑性限度( )x
6 5.8,最佳含水量 (x
11) 19.495、含水比( )x
3 24.165 時,估計為四種土壤的機率為(CL ML SC SM) (0.83330 0.16670 0.0000 0.0000),由於為低塑性 粘土(CL)的機率最高,所以應歸類為低塑性粘土。