單一分類樹模型分析

第四章資料分析結果

4.2 單一分類樹模型分析

4.2.1 自變數篩選

進入分類樹分析前，先以隨機森林計算各自變數的重要值並刪去不重要者，

以降低雜訊干擾。自變數之間若存在高度相關性(correlation)，會影響重要值評估結果，導致其一被低估。因此須先檢查各自變數之間的相關性(見圖 8、9)。呈現高相關的自變數有：樣點樹均胸徑與冠層高度，及高度正或負相關的氣候自變數。

移除冠層高度與年雨量後，進行隨機森林分析。

圖 10 以隨機森林分析各自變數的平均準確率降低值。(A)，生物與環境自變數合併分析時，各自變數相對於「是否發現淡黃木層孔菌」的平均準確率降低值。森林密度(TD)重要值極小，予以刪除。(B)，同前，但僅考慮環境自變數；各項重要值差距不大，皆予保留。代號意義：MeanDecreaseAccuracy：平均準確率降低值。

FAG.by.VT：各植群群系中殼斗科所佔比例。MEAN.DBH：樣點樹均胸徑。

TEMP.IQR：12 個月均溫四分位差。PREC.IQR：12 個月均雨量四分位差。

MEAN.TEMP：年均溫。TD：森林密度。本表使用 R 語言的 randomForest package (Liaw & Wiener，2002)計算而得。

結果如圖 10。(A)為生物與環境變數合併分析時，各自變數平均準確率降低值的高低。(B)相同但僅考慮環境變數。本研究自變數的篩選僅參考平均準確率降低值。平均準確率降低值最低者為森林密度，不到 1%，因此刪除。其餘各項的值差距不大；由於兩個以上解釋力相當的自變數會壓低且逼近彼此的準確率降低值，

因為隨機置換其中之一並不會大幅影響結果。因此不刪除剩下的自變數。

經過篩選後，確定用於分類樹分析的自變數為：

「生物與環境自變數」組：樣點樹均胸徑、植群群系之殼斗棵比例、年均溫、

年雨量、月均溫與月均雨量之四分位差。

「環境自變數」組：年均溫、年雨量、月均溫與月均雨量之四分位差。

以下分類樹分析以「淡黃木層孔菌發現與否」做為依變數，依據資訊獲利演算法，分析此兩組自變數對結果模型的影響。

4.2.2 「生物與環境自變數」組

以圖 11 為例，分類樹由上而下分割，最上方為根資料(root)，每個節點皆為二分點，顯示分割根資料集所使用的自變數及其數值，符合的資料走左邊，反之走右邊。圖中第一分割點為 MEAN.DBH(樣點樹均胸徑(公分))，第二分割點為 FAG.by.VT(殼斗棵所佔比例(%))，第三分割點為 TEMP.IQR(12 個月均溫之四分位差(°C))。綠色框表示該資料子集合中「未發現淡黃木層孔菌(以 0 表示)」的樣點佔多數，藍色則表示「發現(以 1 表示)」的樣點佔多數。各框第二行呈現「未發現(左)」

與「發現(右)」的比例。第三行則為該子集合佔所有資料的比例。

圖 11 中以樣點樹均胸徑 < 70 公分左右做為第一分割點，意指樣點周邊最大的樹均胸徑 < 70 公分的地方(圖中紅字 A)幾乎不會發現淡黃木層孔菌。此處的例外(紅字 B)為雜有大型殼斗科的山地常綠闊葉矮林(植群群系代號 FB42)，這種林型多位於山間小稜線，多為胸徑 30~40 公分左右的杜鵑純林，但附近若有發現淡黃木層孔菌之常綠闊葉林，則杜鵑林中也可能混雜有長菌的殼斗科大樹。

第二分割點為該地植群群系殼斗科所佔比例 < 35%。符合者為紅字 C，多為高海拔之紅檜-鐵杉林、冷杉林，或低海拔的肖楠林，殼斗科比例低，樹木雖普遍大棵，但幾乎無法發現淡黃木層孔菌。此處的例外為紅字 D，多為紅檜、鐵杉為優勢樹，但仍有零星大型殼斗科的針闊葉混淆林。

前二個分割點皆與植群群系相關。最後分割點為 12 個月均溫之四分位差 > = 7.4°C。換言之，即使森林組成適合淡黃木層孔菌，但溫度季節變化太過劇烈，則也不容易發現它。紅字 E 與 F 多為海拔較高的針闊混淆林，或低地常綠闊葉林的上緣。此處可謂淡黃木層孔菌分布的最高與最低邊界，其間恰好大致為雲霧林的分布區。在所有樣點中，氣溫變化最劇烈者為高海拔、陽明山、以及低地，這可能解釋了為何淡黃木曾孔菌偏好中海拔，且幾乎無法在林型適合的東北部如福山樣區、或中部低海拔闊葉林如蓮華池發現。

整體而言，若一地樹均胸徑 > 70 公分、森林中殼斗棵樹木佔整體 35%以上，

且氣溫季節變化 < 7.4°C，則發現淡黃木層孔菌的機會最大。反之，若樹木胸徑不大，或樹大但殼斗科不多、季節性溫差大，則要發現淡黃木層孔菌相當困難。

圖 11 以完整調查資料庫建立的分類樹，使用生物與環境自變數。共有 355 個樣點，

其中「發現」的樣點有 21 個。本樹的預測「發現」的準確率(靈敏度)為 61.9%，

預測「未發現」的準確率(特異度)為 100%，馬修相關係數為 80.9%。三項準確率指標算法請見 3.2.3。代號意義：MEAN.DBH：樣點樹均胸徑。FAG.by.VT：各植群群系中殼斗科所佔比例。TEMP.IQR：12 個月均溫四分位差。本樹狀圖以 R 語言的 rattle package (Williams，2011)繪製。

4.2.3 「環境自變數」組

本組使用四個氣候自變數。圖 12 分類樹的若干節點重覆使用了同一自變數進行分割。MEAN.TEMP(年均溫)低於 14°C，且 TEMP.IQR(月均溫四分位差)在 7~7.6

°C 之間、ANNE.PREC(年雨量)在 3269~3510 公厘之間的地方，則有 69%的機率可發現淡黃木層孔菌，為此樹所有分組中機率最大者，然而大部份分組皆不如 4.2.2 中的分類樹純粹。此樹最大問題是分割過於精細，難以做生態解釋，且有過度配

適之疑慮，可能僅適用於本次調查資料。此種樹型是否為常態，將於 4.3.3 中分析。

圖 12 以完整調查資料庫建立的分類樹，僅用環境自變數。共有 355 個樣點，其中

「發現」的樣點有 21 個。靈敏度為 52.4%，特異度為 98.5%，馬修相關係數為 57.9%。

三項準確率指標算法請見 3.2.3。代號意義：MEAN.TEMP：年均溫。TEMP.IQR：

12 個月均溫四分位差。ANN.PREC：年雨量。本圖以 R 語言的 rattle package (Williams，

2011)繪製。

以上兩棵分類樹「未發現」的錯誤率都相當低、都會多估，「發現」的情況則相反。可見分類樹處理比例懸殊之二元資料時小比例類別的訊號可能被忽略。

在文檔中淡黃木層孔菌在臺灣中部及北部與環境暨生物因子之研究 (頁 45-50)

第四章 資料分析結果

4.2 單一分類樹模型分析

第四章資料分析結果