關鍵詞：決策樹、貝氏網路、資料探勘、崩塌潛勢 - 比較監督及非監督模式與共克利金法估算河川污染指標面化圖

1. 前言

台灣地狹人稠，屬於海島型國家並座落於地震帶，常受颱風和地震等災害肆虐。再者，本身地質狀態複雜，自九二一地震後，其結構更加破碎，加上過度開發山坡地，造成坡地崩塌與土石流等威脅更甚以往。因此，世界銀行將台灣列為高風險受災的國家之一(Dilley et al., 2005)。如何預防、減輕及評估上述災害，實屬重要課題。本研究即針對淺層坡地崩塌，提出資料探勘導向的分析方法。

一般而言，崩塌研究可粗略分成定性及定量分析( 游中榮， 1996; Aleotti & Chowdhury, 1999;

Guzzetti et al., 1999)。前者藉由影像和輔助資料由 人工辨識，實務上能快速獲得成果，但缺點是無法客觀量化。因此，許多學術研究著重後者。決定論法(deterministic method)、探索法(heuristic method) 和統計法(statistical method)是崩塌量化分析的常見方法(Clerici et al., 2006; Dai et al., 2002)。決定論法是基於物理定律計算坡地的穩定程度( 例如 Dietrich et al., 1995; Dunne, 1991; Montgomery &

Dietrich, 1994; Okimura & Kawatani, 1987)，然此法僅適於小範圍且均質之處(吳宗樺，2004; Ercanoglu

& Gokceoglu, 2004)。探索法是依照專家經驗對崩塌潛在因子的重要性進行排序及給予權重，但有過於主觀之嫌(吳宗樺，2004)。後者運用統計方法假設未來崩塌與過去情形類似並進行預測(Clerici et

al., 2006)，較為客觀且適合中等尺度分析(Gemitzi et al., 2011)。另外，為了特定目的，某些文獻合併

上述方法成為複合法(composite method)。Gemitzi

et al. (2011)利用模糊隸屬函數(fuzzy membership

function)排序崩塌因子並訂定權重，降低人為干涉，即是統計法和指標法的複合案例。不過，統計法必須先決定變數，並假設各變數彼此獨立且符合某種統計分佈；實際上，造成崩塌的潛在因素往往是未知的，且存在某種關聯性及鄰近相依現象，使得統計法未必適用所有案例(鄒明城及孫志鴻，

2005)。

近年來，空間資訊技術與資料逐漸成熟且普遍，GIS 資料、空載及衛星影像適合長期協助監測及調查自然災害，實作上已達不錯成果( 諸如 Metternicht et al., 2005; Nichol & Wong, 2005;

Peduzzi, 2010; Sakar & Kanungo, 2004; Tsai & Chen, 2007)。除此之外，各級政府單位、學術或其他機構多年來對災害、國土變遷、環境資源以及其他種

種調查也累積了十分可觀的資料。這些寶貴的資料對於災害防救應用和相關研究都是重要的資源。然而，這些資料來自不同的單位，不僅格式、特性和品質等不一，常無法直接利用，造成整合上的困難。而如此龐大資料，也產生現有崩塌演算法的效能問題，甚至分析成果失去代表性(林岑彧，2010)。

資料探勘(data mining)能從大量且複雜資料中萃取有用的、可能的、或是之前未知的資訊或知識 (Tan et al., 2006)，是面臨眾多資料有效的分析方法 (Miller & Han, 2001)，但現有文獻較少探討此技術對崩塌預測的成效(Wang & Niu, 2010)。而資料探勘演算法中，決策樹(decision tree)是古典、簡單和直觀的方法，其歸納的因果規則容易理解及解釋 (Openshaw & Openshaw, 1997)。貝氏網路(Bayesian network)則基於貝氏定理，考慮變數間的因果關係 (Tan et al., 2006)，是另一個強而有力的演算法。綜 合以上論述，本研究採用決策樹與貝氏網路兩種分類方法，嘗試萃取石門水庫集水區 2004 至 2008 年代表性的淺層崩塌(shallow landslide)特性，希冀建構可靠的崩塌潛勢(susceptibility)預測模型。

2. 研究主旨

資料充足是執行資料探勘的首要條件；如何萃取代表性成果，是進階且重要任務。由於本研究蒐集石門水庫集水區可觀的空間資料，已符合第一條件。至於如何避免陷入「垃圾進、垃圾出」的泥淖，

必須先明確定義本文探討的崩塌問題。

崩塌可謂邊坡上部份物體因重力作用而向下之運動(劉朝俊，1986；張石角，1993；陳信雄，

1995)；若同時存在土壤、泥流、岩塊等滑動之複雜移動亦可稱之(Cruden & Varnes, 1996)。就決定論法而言，通常先區分崩塌類型，以利後續力學分析(吳宗樺，2004)。導致崩塌的相關因子可概分為潛在和促發因子(Dahal et al., 2008; Sidle et al., 1985; Wu & Sidle, 1995; Zhou et al., 2002)。以台灣 而言，地震及豪雨是最主要的促發因子。而本文旨在藉由空間資料搭配颱風挾帶豪雨導致的已知淺層崩塌事件和範圍，以資料探勘分類技術萃取崩塌

潛勢條件，並進行驗證與潛勢評估。其中空間資料相對於傳統力學分析資料，屬於小比例尺範圍；潛勢意指僅考慮潛在因子，此為避免偶發強降雨造成模型預測失敗(Dai et al., 2002)；驗證是假設較晚年份的崩塌事件及範圍為未知，並以較早年份資料所建構的資料探勘模型預測。此外，本文蒐集的崩塌事件與範圍皆是根據颱風前後衛星影像的變遷結果，針對可疑崩塌範圍，以數值高程模型及 GIS 圖層等輔助資料配合實地調查所得(陳良健等，

2006；蔡富安及饒見有，2008)。實務上，利用遙測影像配合實地勘查是辨識崩塌範圍與定義崩塌目錄(landslide inventory)的常見方法 (Dai et al., 2002)，例如 Bai et al. (2011)及 Gemitzi et al.

(2011)。因此，本研究不著重崩塌類型，主要探討因降雨促發石門水庫集水區淺層崩塌現象，屬於災後之資料導向分析。

3. 研究區域與資料

石門水庫集水區(如圖 1 所示)占地約 763.4 平方公里，土地覆蓋多為森林，但有少數農作活動。

年平均降雨量約2200 釐米，主要由每年五到十月登陸颱風帶來充沛降雨所造成。其它如地形、水系、地質與土壤等詳細資訊，請見行政院農業委員會水土保持局石門水庫集水區保育治理網站 (http://smr.swcb.gov.tw/academia.asp?block=1)。

本研究蒐集資料共計十二類，包含網格及向量兩種資料型態，其中數值高程模型(Digital Elevation Model, DEM)、SPOT 衛星影像、水系、

道路與斷層資料可藉由額外計算獲得衍生資料，詳情請見表1。DEM 網格大小原為 40 公尺×40 公尺，

為能與SPOT 影像套疊(SPOT-2 及 SPOT-4 空間解析度為 20 公尺×20 公尺，SPOT-5 為 10 公尺×10 公尺)，本研究將所有網格資料重新取樣成 10 公尺

×10 公尺。關於篩選 SPOT 衛星影像策略，以表 2 各颱風登陸前品質較佳且少雲者為原則。另外，表 2 的崩塌像元數是由表 1 的崩塌範圍向量資料轉成網格型式而得，大小亦為10 公尺×10 公尺。

圖1 石門水庫集水區位置圖表1 蒐集資料

資料型態原始資料衍生資料備註

網格數值高程模型高程 40 公尺×40 公尺，重新取樣成 10 公尺×10 公尺。

坡度坡向曲率 SPOT 衛星影像正規化差異植生

指標

SPOT-2 及 SPOT-4 為 20 公尺×20 公尺，重新取樣成10 公尺×10

公尺，以套合SPOT-5。

向量水系水系距離 -

道路道路距離 1/25,000 地形圖

斷層斷層距離 1/50,000 斷層圖

地質 1/500,000 地質圖

土地利用工業技術研究院

土壤 1/25,000 土壤圖

崩塌範圍 (陳良健等，2006；蔡富安&饒見

有，2008) 表2 颱風事件及崩塌像元數

名稱侵台時間崩塌像元數名稱侵台時間崩塌像元數

敏督利 2004/7/1 216 寶發 2006/8/9 9

艾利 2004/8/25 33815 聖帕 2007/8/16 334

納坦 2004/10/25 30 韋帕 2007/9/18 363

海棠 2005/7/18 100 柯羅莎 2007/10/6 439

馬莎 2005/8/4 2120 卡玫基 2008/7/17 84

泰利 2005/9/1 205 鳳凰 2008/7/28 424

碧利斯 2006/7/13 48 辛樂克 2008/9/14 996

凱米 2006/7/24 111 薔蜜 2008/9/28 335

4. 研究流程與方法

本研究流程可概分四大項，即資料前處理與整合、分析策略、演算法與成果，如圖2 所示。資料前處理與整合階段，先輸入崩塌因子(即表 1 的資料，但不包含崩塌範圍)，並將向量資料網格化，

與網格資料一起進行前處理，再對特定資料進行空間分析，得到衍生資料。接著整合所有資料，供後續資料探勘演算法分析。而前處理包括清除空值紀錄、DN 值轉輻射值及多時期衛星影像之相對輻射校正。

至於分析策略，本文根據崩塌範圍轉換成像元型態，從整合資料中找出對應的屬性；針對非崩塌區域的屬性，本研究以隨機方式取樣，數量以崩塌像元的十倍測試，以期符合實況比例，並取出相對應屬性，最後合併成非崩塌資料。當崩塌與非崩塌資料挑選完畢，接續整合兩者並建置訓練、檢核與預測等三種資料，前者供資料探勘演算法建立崩塌

知識模型，後兩者作為成果的評估機制，檢核結果代表可靠程度，預測準確度表示模型的預測能力。

其中，2008 年當作預測資料，2/3 的 2004 至 2007 年資料作為訓練資料，剩餘者為檢核資料。

本研究利用決策樹與貝氏網路演算法進行坡地崩塌因子資料探勘分析。為了解所有崩塌因子於資料探勘過程的交互作用，在執行資料探勘前，先進行崩塌因子顯著性分析和特徵縮減(feature reduction)。由於決策樹是以資訊獲利(information gain)作為評估基準，且並無與貝氏網路相關的因子分析，故本文採用資訊獲利(詳情請見 4.2 節)探討崩塌因子的顯著程度。在成果部分，採用誤差矩陣 (error matrix) 計算整體精度 (Overall Accuracy, OA)、生產者精度(Producer’s Accuracy, PA)、使用者精度(User’s Accuracy, UA)與 Kappa 等四種統計指標評估分析成果。若成果通過門檻，則據演算法提供的偵測成果與機率值輸出成崩塌預測及潛勢圖。

在文檔中比較監督及非監督模式與共克利金法估算河川污染指標面化圖 (頁 74-77)