第四章 資料分析結果
4.3 以重複隨機子取樣驗證法比較兩組分類樹之效用
本節從三個方面來評估加入「生物自變數」與僅用「環境自變數」建立之模
50
型的差異:
(1) 預測淡黃木層孔菌分布的準確率(4.3.1),使用三項指標。
(2) 用以建立跨區與分區模型的自變數一致性(4.3.2)。
(3) 模型是否簡潔且易詮釋(4.3.3)。
4.3.1 跨區與分區分析中兩組模型之準確率比較
以跨區(全部)資料建立之兩組 1,000 個模型準確率之分布如圖 13。獨立雙樣本 T 檢定的結果顯示,「生物與環境自變數」組的所有指標數值均大於「環境自變數」
組 (t(1980.18) = 7.22, p < .001)。
圖 13 所有資料的 1,000 組訓練子集與測試子集之準確率分布。左邊黃色五欄為用
「生物與環境自變數」建立之模型,右邊紫色五欄為「環境自變數」組。由最左 邊起,前兩欄為訓練資料之特異度(預測「未發現」)與靈敏度(預測「發現」),第 三、四欄為用測試資料驗證所得之特異度與靈敏度,第五欄為測試資料之馬修相
51
關係數(整體準確率)。右邊紫色五欄的排列方式亦同。Set.seed(20)。代號意義:SPE:
特異度(specificity)。SEN:靈敏度(sensitivity)。MCC:馬修相關系數。
以上為全部資料之跨區分析,包含北部與中部的樣點。然而各個自變數數值 或類別的分布趨勢,在北部、中部並不相同。因此,為檢測各自變數在模型中的 重要性是否因地區而異,須將資料依地區區分後重新分析,並比較分區與跨區的 結果是否具有一致性。由於北臺灣的資料中「發現」的比例過小(2.7%),無法建立 分類樹,因此僅以中臺灣的模型與跨區模型做比較。以中臺灣資料建立的模型經 驗證後的準確率分布如圖 14。獨立雙樣本 T 檢定的結果顯示,中台灣模型中「生 物與環境自變數」組的所有指標數值均顯著大於「環境自變數」組 (t(1927.24) = 4.88, p < .001)。此外,「環境自變數」組的預測結果準確率較為發散。
圖 14 中臺灣資料的 1,000 組訓練子集與測試子集之準確率分布。左邊黃色五欄為 用「生物與環境自變數」建立之模型,右邊紫色五欄為「環境自變數」組。由最 左邊起,前兩欄為訓練資料之特異度(預測「未發現」)與靈敏度(預測「發現」),
52
53
統計所有分類樹中,各自變數用於模型建立的總次數如表 8。由此表可見,「生 物與環境自變數」組中,最重要的自變數為:樣點樹均胸徑(MEAN.DBH)、植群 群系中殼斗科比例(FAG.by.VT)、以及較為次要的月均溫四分位差(TEMP.IQR)。「環 境自變數」組中則為年雨量(ANN.PREC)、月均溫四分位差(TEMP.IQR)、年均溫 (MEAN.TEMP)。月均雨量四分位差在兩組模型中皆不重要。此表可概略代表各自 變數的重要值。與 4.2 單棵分類樹的詮釋也相符。
樹均胸徑與殼斗科比例之於「生物與環境自變數」組,以及年雨量、月均溫 四分位差之於「環境自變數」組,無論在跨區或分區模型中都佔有最重要地位,
相當一致。
生物自變數加入後,幾乎完全取代年均溫、年雨量,成為更佳的分類標準,
提高了整體模型的表現。由於生物自變數與氣候自變數之間僅有低度相關性,代 表兩者間重複的訊息可能不多,兩者對淡黃木層孔菌具不同的意義,影響力也不 同。年均溫在中臺灣的「環境自變數」組中失去重要性,是較特別的現象,中臺 灣樣點的年均溫為 6~21°C,平均 13.7°C,海拔分布極廣,但淡黃木層孔菌僅分布 在年均溫 12~13°C、海拔 2100~2300 m 的地方,但即使如此,年雨量與月均溫差異 仍為更凸顯的分類標準。移除北臺灣資料後,年均溫不再具有樣點「發現」與否 的鑑別力,對模型建立而言並非一個跨區仍穩定的自變數。
54
55