以重複隨機子取樣驗證法比較兩組分類樹之效用

第四章資料分析結果

4.3 以重複隨機子取樣驗證法比較兩組分類樹之效用

本節從三個方面來評估加入「生物自變數」與僅用「環境自變數」建立之模

型的差異：

(1) 預測淡黃木層孔菌分布的準確率(4.3.1)，使用三項指標。

(2) 用以建立跨區與分區模型的自變數一致性(4.3.2)。

(3) 模型是否簡潔且易詮釋(4.3.3)。

4.3.1 跨區與分區分析中兩組模型之準確率比較

以跨區(全部)資料建立之兩組 1,000 個模型準確率之分布如圖 13。獨立雙樣本 T 檢定的結果顯示，「生物與環境自變數」組的所有指標數值均大於「環境自變數」

組 (t(1980.18) = 7.22, p < .001)。

圖 13 所有資料的 1,000 組訓練子集與測試子集之準確率分布。左邊黃色五欄為用

「生物與環境自變數」建立之模型，右邊紫色五欄為「環境自變數」組。由最左邊起，前兩欄為訓練資料之特異度(預測「未發現」)與靈敏度(預測「發現」)，第三、四欄為用測試資料驗證所得之特異度與靈敏度，第五欄為測試資料之馬修相

關係數(整體準確率)。右邊紫色五欄的排列方式亦同。Set.seed(20)。代號意義：SPE：

特異度(specificity)。SEN：靈敏度(sensitivity)。MCC：馬修相關系數。

以上為全部資料之跨區分析，包含北部與中部的樣點。然而各個自變數數值或類別的分布趨勢，在北部、中部並不相同。因此，為檢測各自變數在模型中的重要性是否因地區而異，須將資料依地區區分後重新分析，並比較分區與跨區的結果是否具有一致性。由於北臺灣的資料中「發現」的比例過小(2.7%)，無法建立分類樹，因此僅以中臺灣的模型與跨區模型做比較。以中臺灣資料建立的模型經驗證後的準確率分布如圖 14。獨立雙樣本 T 檢定的結果顯示，中台灣模型中「生 物與環境自變數」組的所有指標數值均顯著大於「環境自變數」組 (t(1927.24) = 4.88, p < .001)。此外，「環境自變數」組的預測結果準確率較為發散。

圖 14 中臺灣資料的 1,000 組訓練子集與測試子集之準確率分布。左邊黃色五欄為用「生物與環境自變數」建立之模型，右邊紫色五欄為「環境自變數」組。由最左邊起，前兩欄為訓練資料之特異度(預測「未發現」)與靈敏度(預測「發現」)，

統計所有分類樹中，各自變數用於模型建立的總次數如表 8。由此表可見，「生物與環境自變數」組中，最重要的自變數為：樣點樹均胸徑(MEAN.DBH)、植群群系中殼斗科比例(FAG.by.VT)、以及較為次要的月均溫四分位差(TEMP.IQR)。「環境自變數」組中則為年雨量(ANN.PREC)、月均溫四分位差(TEMP.IQR)、年均溫 (MEAN.TEMP)。月均雨量四分位差在兩組模型中皆不重要。此表可概略代表各自變數的重要值。與 4.2 單棵分類樹的詮釋也相符。

樹均胸徑與殼斗科比例之於「生物與環境自變數」組，以及年雨量、月均溫四分位差之於「環境自變數」組，無論在跨區或分區模型中都佔有最重要地位，

相當一致。

生物自變數加入後，幾乎完全取代年均溫、年雨量，成為更佳的分類標準，

提高了整體模型的表現。由於生物自變數與氣候自變數之間僅有低度相關性，代表兩者間重複的訊息可能不多，兩者對淡黃木層孔菌具不同的意義，影響力也不同。年均溫在中臺灣的「環境自變數」組中失去重要性，是較特別的現象，中臺灣樣點的年均溫為 6~21°C，平均 13.7°C，海拔分布極廣，但淡黃木層孔菌僅分布在年均溫 12~13°C、海拔 2100~2300 m 的地方，但即使如此，年雨量與月均溫差異仍為更凸顯的分類標準。移除北臺灣資料後，年均溫不再具有樣點「發現」與否的鑑別力，對模型建立而言並非一個跨區仍穩定的自變數。

在文檔中淡黃木層孔菌在臺灣中部及北部與環境暨生物因子之研究 (頁 50-56)

第四章 資料分析結果

4.3 以重複隨機子取樣驗證法比較兩組分類樹之效用

第四章資料分析結果