資料探勘技術於坡地崩塌之驗證與潛勢評估

(1)

Volume17, No2, August 2013, pp. 149-160

1國立中央大學土木工程學系空間資訊組博士候選人收到日期:民國 102 年 02 月 25 日

2國立中央大學太空及遙測研究中心副教授修改日期:民國 102 年 08 月 07 日

3國立中央大學土木工程學系空間資訊組碩士接受日期:民國 102 年 08 月 16 日

4國立台北科技大學土木工程學系副教授

＊通訊作者, 電話: 03-4227151 ext. 57619, E-mail: [email protected]

資料探勘技術於坡地崩塌之驗證與潛勢評估

賴哲儇

¹

蔡富安

^2*

林岑彧

³

陳偉堯

⁴

林唐煌

²

摘要

基於災後以資料導向分析的觀點，本研究採用決策樹與貝氏網路兩種資料探勘的分類技術，萃取因颱風豪雨促發的淺層坡地崩塌特性，希冀建構可靠的崩塌潛勢預測模型。此外，本研究亦提出資料濾除機制，去除不確定性資料，並配合因子顯著性分析與特徵縮減技術，強化崩塌案例驗證與潛勢評估之有效性。研究成果顯示，資料濾除機制可降低模型因遷就不確定性資料造成之不可靠，提升預測能力；且貝氏網路成果優於決策樹演算法，提供較可靠的預測及潛勢成果。而特徵縮減不但改善效能問題，亦能維持一定程度的檢核及預測精度。

關鍵詞：決策樹、貝氏網路、資料探勘、崩塌潛勢

1. 前言

台灣地狹人稠，屬於海島型國家並座落於地震帶，常受颱風和地震等災害肆虐。再者，本身地質狀態複雜，自九二一地震後，其結構更加破碎，加上過度開發山坡地，造成坡地崩塌與土石流等威脅更甚以往。因此，世界銀行將台灣列為高風險受災的國家之一(Dilley et al., 2005)。如何預防、減輕及評估上述災害，實屬重要課題。本研究即針對淺層坡地崩塌，提出資料探勘導向的分析方法。

一般而言，崩塌研究可粗略分成定性及定量分析( 游中榮， 1996; Aleotti & Chowdhury, 1999;

Guzzetti et al., 1999)。前者藉由影像和輔助資料由 人工辨識，實務上能快速獲得成果，但缺點是無法客觀量化。因此，許多學術研究著重後者。決定論法(deterministic method)、探索法(heuristic method) 和統計法(statistical method)是崩塌量化分析的常見方法(Clerici et al., 2006; Dai et al., 2002)。決定論法是基於物理定律計算坡地的穩定程度( 例如 Dietrich et al., 1995; Dunne, 1991; Montgomery &

Dietrich, 1994; Okimura & Kawatani, 1987)，然此法僅適於小範圍且均質之處(吳宗樺，2004; Ercanoglu

& Gokceoglu, 2004)。探索法是依照專家經驗對崩塌潛在因子的重要性進行排序及給予權重，但有過於主觀之嫌(吳宗樺，2004)。後者運用統計方法假設未來崩塌與過去情形類似並進行預測(Clerici et al., 2006)，較為客觀且適合中等尺度分析(Gemitzi et al., 2011)。另外，為了特定目的，某些文獻合併 上述方法成為複合法(composite method)。Gemitzi et al. (2011)利用模糊隸屬函數(fuzzy membership function)排序崩塌因子並訂定權重，降低人為干涉，即是統計法和指標法的複合案例。不過，統計法必須先決定變數，並假設各變數彼此獨立且符合某種統計分佈；實際上，造成崩塌的潛在因素往往是未知的，且存在某種關聯性及鄰近相依現象，使得統計法未必適用所有案例(鄒明城及孫志鴻，

2005)。

近年來，空間資訊技術與資料逐漸成熟且普遍，GIS 資料、空載及衛星影像適合長期協助監測及調查自然災害，實作上已達不錯成果( 諸如 Metternicht et al., 2005; Nichol & Wong, 2005;

Peduzzi, 2010; Sakar & Kanungo, 2004; Tsai & Chen, 2007)。除此之外，各級政府單位、學術或其他機構多年來對災害、國土變遷、環境資源以及其他種

(2)

種調查也累積了十分可觀的資料。這些寶貴的資料對於災害防救應用和相關研究都是重要的資源。然而，這些資料來自不同的單位，不僅格式、特性和品質等不一，常無法直接利用，造成整合上的困難。而如此龐大資料，也產生現有崩塌演算法的效能問題，甚至分析成果失去代表性(林岑彧，2010)。

資料探勘(data mining)能從大量且複雜資料中萃取有用的、可能的、或是之前未知的資訊或知識 (Tan et al., 2006)，是面臨眾多資料有效的分析方法 (Miller & Han, 2001)，但現有文獻較少探討此技術對崩塌預測的成效(Wang & Niu, 2010)。而資料探勘演算法中，決策樹(decision tree)是古典、簡單和直觀的方法，其歸納的因果規則容易理解及解釋 (Openshaw & Openshaw, 1997)。貝氏網路(Bayesian network)則基於貝氏定理，考慮變數間的因果關係 (Tan et al., 2006)，是另一個強而有力的演算法。綜 合以上論述，本研究採用決策樹與貝氏網路兩種分類方法，嘗試萃取石門水庫集水區 2004 至 2008 年代表性的淺層崩塌(shallow landslide)特性，希冀建構可靠的崩塌潛勢(susceptibility)預測模型。

2. 研究主旨

資料充足是執行資料探勘的首要條件；如何萃取代表性成果，是進階且重要任務。由於本研究蒐集石門水庫集水區可觀的空間資料，已符合第一條件。至於如何避免陷入「垃圾進、垃圾出」的泥淖，

必須先明確定義本文探討的崩塌問題。

崩塌可謂邊坡上部份物體因重力作用而向下之運動(劉朝俊，1986；張石角，1993；陳信雄，

1995)；若同時存在土壤、泥流、岩塊等滑動之複雜移動亦可稱之(Cruden & Varnes, 1996)。就決定論法而言，通常先區分崩塌類型，以利後續力學分析(吳宗樺，2004)。導致崩塌的相關因子可概分為潛在和促發因子(Dahal et al., 2008; Sidle et al., 1985; Wu & Sidle, 1995; Zhou et al., 2002)。以台灣 而言，地震及豪雨是最主要的促發因子。而本文旨在藉由空間資料搭配颱風挾帶豪雨導致的已知淺層崩塌事件和範圍，以資料探勘分類技術萃取崩塌

潛勢條件，並進行驗證與潛勢評估。其中空間資料相對於傳統力學分析資料，屬於小比例尺範圍；潛勢意指僅考慮潛在因子，此為避免偶發強降雨造成模型預測失敗(Dai et al., 2002)；驗證是假設較晚年份的崩塌事件及範圍為未知，並以較早年份資料所建構的資料探勘模型預測。此外，本文蒐集的崩塌事件與範圍皆是根據颱風前後衛星影像的變遷結果，針對可疑崩塌範圍，以數值高程模型及 GIS 圖層等輔助資料配合實地調查所得(陳良健等，

2006；蔡富安及饒見有，2008)。實務上，利用遙測影像配合實地勘查是辨識崩塌範圍與定義崩塌目錄(landslide inventory)的常見方法 (Dai et al., 2002)，例如 Bai et al. (2011)及 Gemitzi et al.

(2011)。因此，本研究不著重崩塌類型，主要探討因降雨促發石門水庫集水區淺層崩塌現象，屬於災後之資料導向分析。

3. 研究區域與資料

石門水庫集水區(如圖 1 所示)占地約 763.4 平方公里，土地覆蓋多為森林，但有少數農作活動。

年平均降雨量約2200 釐米，主要由每年五到十月登陸颱風帶來充沛降雨所造成。其它如地形、水系、地質與土壤等詳細資訊，請見行政院農業委員會水土保持局石門水庫集水區保育治理網站 (http://smr.swcb.gov.tw/academia.asp?block=1)。

本研究蒐集資料共計十二類，包含網格及向量兩種資料型態，其中數值高程模型(Digital Elevation Model, DEM)、SPOT 衛星影像、水系、

道路與斷層資料可藉由額外計算獲得衍生資料，詳情請見表1。DEM 網格大小原為 40 公尺×40 公尺，

為能與SPOT 影像套疊(SPOT-2 及 SPOT-4 空間解析度為 20 公尺×20 公尺，SPOT-5 為 10 公尺×10 公尺)，本研究將所有網格資料重新取樣成 10 公尺

×10 公尺。關於篩選 SPOT 衛星影像策略，以表 2 各颱風登陸前品質較佳且少雲者為原則。另外，表 2 的崩塌像元數是由表 1 的崩塌範圍向量資料轉成網格型式而得，大小亦為10 公尺×10 公尺。

(3)

圖1 石門水庫集水區位置圖表1 蒐集資料

資料型態原始資料衍生資料備註

網格數值高程模型高程 40 公尺×40 公尺，重新取樣成 10

公尺×10 公尺。

坡度坡向曲率 SPOT 衛星影像正規化差異植生

指標

SPOT-2 及 SPOT-4 為 20 公尺×20 公尺，重新取樣成10 公尺×10

公尺，以套合SPOT-5。

向量水系水系距離 -

道路道路距離 1/25,000 地形圖

斷層斷層距離 1/50,000 斷層圖

地質 1/500,000 地質圖

土地利用工業技術研究院

土壤 1/25,000 土壤圖

崩塌範圍 (陳良健等，2006；蔡富安&饒見

有，2008) 表2 颱風事件及崩塌像元數

名稱侵台時間崩塌像元數名稱侵台時間崩塌像元數

敏督利 2004/7/1 216 寶發 2006/8/9 9

艾利 2004/8/25 33815 聖帕 2007/8/16 334

納坦 2004/10/25 30 韋帕 2007/9/18 363

海棠 2005/7/18 100 柯羅莎 2007/10/6 439

馬莎 2005/8/4 2120 卡玫基 2008/7/17 84

泰利 2005/9/1 205 鳳凰 2008/7/28 424

碧利斯 2006/7/13 48 辛樂克 2008/9/14 996

凱米 2006/7/24 111 薔蜜 2008/9/28 335

(4)

4. 研究流程與方法

本研究流程可概分四大項，即資料前處理與整合、分析策略、演算法與成果，如圖2 所示。資料前處理與整合階段，先輸入崩塌因子(即表 1 的資料，但不包含崩塌範圍)，並將向量資料網格化，

與網格資料一起進行前處理，再對特定資料進行空間分析，得到衍生資料。接著整合所有資料，供後續資料探勘演算法分析。而前處理包括清除空值紀錄、DN 值轉輻射值及多時期衛星影像之相對輻射校正。

至於分析策略，本文根據崩塌範圍轉換成像元型態，從整合資料中找出對應的屬性；針對非崩塌區域的屬性，本研究以隨機方式取樣，數量以崩塌像元的十倍測試，以期符合實況比例，並取出相對應屬性，最後合併成非崩塌資料。當崩塌與非崩塌資料挑選完畢，接續整合兩者並建置訓練、檢核與預測等三種資料，前者供資料探勘演算法建立崩塌

知識模型，後兩者作為成果的評估機制，檢核結果代表可靠程度，預測準確度表示模型的預測能力。

其中，2008 年當作預測資料，2/3 的 2004 至 2007 年資料作為訓練資料，剩餘者為檢核資料。

本研究利用決策樹與貝氏網路演算法進行坡地崩塌因子資料探勘分析。為了解所有崩塌因子於資料探勘過程的交互作用，在執行資料探勘前，先進行崩塌因子顯著性分析和特徵縮減(feature reduction)。由於決策樹是以資訊獲利(information gain)作為評估基準，且並無與貝氏網路相關的因子分析，故本文採用資訊獲利(詳情請見 4.2 節)探討崩塌因子的顯著程度。在成果部分，採用誤差矩陣 (error matrix) 計算整體精度 (Overall Accuracy, OA)、生產者精度(Producer’s Accuracy, PA)、使用者精度(User’s Accuracy, UA)與 Kappa 等四種統計指標評估分析成果。若成果通過門檻，則據演算法提供的偵測成果與機率值輸出成崩塌預測及潛勢圖。

向量資料

網格資料

網格化

前處理空間分析

資料整合

訓練資料

檢核資料

預測資料崩塌像元

顯著性分析

成果評估

資料探勘特徵縮減

資料前處理與整合

分析策略成果

演算法崩塌因子

成果圖

圖2 研究流程

(5)

4.1 虛擬不變特徵正規化

由於每時期的衛星影像會因不同大氣、季節、

日照及氣膠等因素，導致相同地物卻擁有極大差異的輻射反應。若直接依此比對多時序資料，成果將受上述條件影響，有所偏差。圖3 顯示相同波段不同時期的輻射值散佈圖(scatter plot)，理論上不變特徵應位於對角實線上，但基於上述因素，可能座落於圖中兩虛線之間；此亦可利用影像相減描述，理想不變特徵之差值為零，實際卻介於某區間。一般而言，利用絕對輻射校正或大氣校正模型去除輻射偏差，是個理想方式。然而，此法需要詳細的實地參考資料，牽涉複雜的大氣參數與輻射傳輸理論，

且目前並無一致且通用的模式。加上本研究著重多時期正規化差異植生指標(Normalized Difference Vegetation Index, NDVI)之比對，繁複的輻射校正

過程將造成實作困難。

有鑑於此，本研究改用統計影像灰階值進而正規化的相對輻射校正。其中，虛擬不變特徵(Pseudo Invariant Features, PIFs)正規化是個簡單、快速的方法，適於多時期影像比對(Du et al., 2002)。該法前提是相同地物不同時期之輻射差異可根據虛擬不變特徵以線性拉伸(linear stretch)或直方圖匹配 (histogram matching)描述(Schott et al., 1988)。不 過，如何決定虛擬不變特徵是最大的問題。本文假設 SPOT 影像中的地物(山區多植被)大多沒有改變，利用不同時期相同波段的差值直方圖，以零至最大頻率的灰階差值所對應的像元，作為虛擬不變特徵(如圖 4 所示)，再據此進行直方圖匹配。圖 5 為虛擬不變特徵正規化前後的NDVI 差異，圖中可知改正後的平均值較接近於零，且標準差相似，表示相同地物的輻射差異已經降低。

Day1 波段 i

Day2 波段 i

相同地物

容忍程度 ? = ^- ^{Day1 波段 i} ^{Day2 波段 i}

相同地物差值理論上為零但實際上介於某區間

圖3 相同地物不同時期的輻射差異

圖4 萃取虛擬不變特徵

(6)

μ= -0.357823, σ= 0.054292 μ= 0.000706, σ= 0.070858

圖5 虛擬不變特徵正規化成果比較(左為改正前，右為改正後)

4.2 決策樹

決策樹是透過集合論方式將已知資料(即訓練資料)中的各屬性資訊建構成樹狀結構，再對未知資料分類。其可視為一連串的邏輯判斷組合，即某種條件成立，就發生某種特定事件。決策樹分析一般可概分為建立樹狀模型和修剪樹狀結構等兩步驟。前者需根據各屬性或因子的不純程度(degree of impurity)先後分割成節點，後者則是避免過度遷就 (over-fitting)或雜訊。

資訊獲利與 Gini 指標是不純程度的主要量化方式，各適用於離散及連續型資料。資訊獲利是計算訓練資料要預測屬性及各候選屬性的亂度 (entropy)，兩者之差即是資訊獲利，個別定義如式 (1)的 I(p, n)、E(A)和 Gain(A)所示，其中 A 表示某項屬性，p 及 n 代表分類的正例和反例個數，v 為某項屬性的選項。若屬性資料分布越純(即 E(A)值小)，表示資訊獲利(Gain(A))大，因此以此屬性作為節點較具代表性且無爭議，亦符合分類原則。至於 Gini 指標則是從各屬性連續值中求得最佳的分割點，如式(2)所示，其中 D 表示某項屬性切割點的樣本集合，pj是屬於某類別的樣本在D 出現的相對頻率，N 為資料總筆數，N1及N2是該切割點上下的資料筆數，D1及D2代表因切割點造成D 分離的樣本集合。理論上 Gini 指標與亂度意義相同，

僅是計算公式不同，故得以應用於連續型資料。本研究採用能處理離散與連續資料的 J48 決策樹演算法做為分析工具，其內建於免費且公開的 WEKA 軟體(http://www.cs.waikato.ac.nz/ml/weka/)。

2 2

1

( ) ( , ) - ( )

( , ) - log - log

( ) ^v ⁱ ⁱ ( , )_i _i

i

Gain A I p n E A

p p n n

I p n

p n p n p n p n p n

E A I p n

 p n



    

 





(1)

2 1

' 1 2

1 2

( ) 1

( ) ( ) ( )

n j j

t

Gini D p

N N

Gini D Gini D Gini D

N N



 

 



(2)

4.3 貝氏網路

貝氏網路又稱貝氏信念網路，利用條件機率描述所有條件屬性(崩塌因子)及決策屬性(崩塌與否) 的因果關係，但不允許方向性循環(Directed Acyclic Graph, DAG)。圖 6 為該法示意圖，A 表示父節點，

B 及 C 為子節點，以條件機率(如式(3)所示)描述因果關係。式中，Y 代表決策屬性，U 為條件屬性，

u 是條件屬性之子集合，pa(u)意指 u 之 Y 集合。其中，網路架構由訓練資料而得，因此採用局部求解策略。不過，貝氏網路僅能處理離散資料，WEKA 軟體利用群聚分析將連續資料離散化(Fayyad &

Irani, 1993)，再進行貝氏網路演算法。

A

B C

父節點

子節點子節點

條件機率

圖6 貝氏網路示意圖

(7)

5. 研究流程與方法

5.1 初步成果

表3 為崩塌因子顯著性分析成果。除了道路距離外，訓練資料與檢核資料的因子排序非常相似。

而訓練與預測資料就非常不同，尤其是高程與正規化差異植生指標。由此可知，訓練及預測資料間存在極大差異。雖然此成果沒有一致性，無法找出代表性的顯著因子，但藉此得知預測成果可能劣於檢核成果。

表 6 (a)呈現 J48 決策樹和貝氏網路(BN)的檢核與預測成果。該表顯示兩種演算法都能提供不錯的檢核成果。然而，預測成果的OA 值雖仍維持高標，卻是因非崩塌地的樣本較崩塌地多，且辨識較崩塌地簡單，使得精度過於樂觀。但崩塌地預測的漏授與誤授過高，導致kappa 值降低。以上結果呼應表3，即訓練資料與預測資料間存在異質性，且受制2004 年艾利颱風的樣本數過多(請見表 2)，造成模型過度遷就(over-fitting)現象，因此預測能力不佳。為降低資料間的異質現象，本研究提出資料濾除機制(請見 5.2 節)，希冀改善資料探勘模型的預測精度。

5.2 資料濾除機制

承上節，因為資料的異質性和模型過度遷就，

導致模型預測成果不佳。據此，本研究提出有效的資料濾除機制，降低資料屬性的不確定性。本研究針對所有連續型資料，個別計算平均值(μ)與標準差(σ)，並以平均值正負 n 倍標準差作為資料保留與否的條件，因此保留的像元表示所有屬性皆通過門檻，即圖7 斜線區域。圖中 n 值越小代表資料越純，但保留像元數較少；反之，資料越雜，但像元較多。表4 為資料濾除前後之像元數，發現 3 及 4 倍標準差保留的像元太少，成果將不具代表性。而 5 倍標準差能夠濾除異質資料外，保留像元數亦足

以分析。至於超過5 倍標準差，因為門檻過寬，違背濾除資料的意義。故本研究保留5 倍標準差內的像元並進行分析，以期得到更具代表性成果。

表3 崩塌因子顯著性分析

排序訓練資料檢核資料預測資料

1 坡度土地利用斷層距離

2 土地利用坡度坡度

3 正規化差異植生指標

正規化差異

植生指標高程

4 道路距離斷層距離土地利用

5 水系距離水系距離水系距離

6 斷層距離土壤道路距離

7 土壤地質土壤

8 地質道路距離地質

9 高程高程正規化差異

植生指標

10 坡向坡向曲率

11 曲率曲率坡向

屬性 i 屬性 j

u u+nσ u-nσ

u u-nσ u+nσ

圖7 資料濾除示意圖(二維為例，實際為多維空間)

5.3 資料濾除後成果

資料濾除後，再度探究崩塌因子的顯著程度。

表5 顯示訓練資料與檢核資料依然相似，且道路距離也較近似。而預測資料的順序也有所改善，較接近訓練資料，預測成果應能提高。再者，正規化差異植生指標、土地利用、斷層距離及水系距離都一致地位於訓練、檢核與預測資料的前五位，表示這四個因子與崩塌地呈現高顯著性。

(3)

(8)

表 6 (b)為資料濾除前後的檢核與預測成果，

發現濾除後的OA 值都微幅降低，理由是非崩塌地像元數因濾除機制減少(請見表 4)，增加分類難度。另外，濾除後非崩塌地的PA 與 UA 值稍微降低，但崩塌地漏授與誤授明顯減少，尤其是預測結果，致使kappa 值大為升高，其中 J48 提升約 30%，

貝氏網路改善約20%。值得一提的是，貝氏網路的

預測成果的kappa 值可達 0.8939。針對 2008 年崩塌較集中的範圍，圖8 與圖 9 展示貝氏網路的預測及潛勢成果，前者呈現資料濾除後能獲得較佳的偵測能力，後者顯示濾除機制使得演算法產生的機率值更符合實況。因此，案例證實濾除機制能保留代表性資料，提升模型預測和潛勢成果的可靠性。

表4 資料濾除前後像元數

門檻值崩塌資料非崩塌資料

訓練及檢核資料預測資料訓練及檢核資料預測資料

原始 37790 1839 329786 19184

3σ 260 0 0 0

4σ 260 117 0 158

5σ 34624 1336 21993 1360

表5 資料濾除後崩塌因子顯著性分析

順序訓練資料檢核資料預測資料

1 正規化差異植生指標土地利用正規化差異植生指標

2 土地利用坡度斷層距離

3 坡度正規化差異植生指標土地利用

4 斷層距離斷層距離水系距離

5 水系距離水系距離道路距離

6 地質地質高程

7 道路距離土壤坡度

8 土壤道路距離地質

9 高程高程土壤

10 坡向坡向曲率

11 曲率曲率坡向

表6 成果比較((a)資料濾除前，(b)資料濾除後，(c)是對(b)特徵縮減)

非崩塌崩塌

OA (%) Kappa PA (%) UA (%) PA (%) UA (%)

檢核

J48

(a) 99.1 98.9 88.5 90.2 98.1 0.8829 (b) 95.5 92.8 95.5 97.3 95.5 0.9053 (c) 88.6 88 92.3 92.7 90.9 0.8085 BN

(a) 98.9 98.4 84.4 88.1 97.5 0.8487 (b) 94.4 94.8 96.7 96.4 95.8 0.9115 (c) 91.6 89.2 92.9 94.6 92.4 0.841

預測

J48

(a) 93.1 98.8 65.3 23.9 92.2 0.3182 (b) 75.1 92.4 89.8 68.9 80.7 0.6134 (c) 89.1 88.3 87.9 88.8 88.5 0.7707

BN (a) 96.4 99 86 61.2 95.7 0.6928

(b) 95.1 94.3 94.3 95.1 94.7 0.8939 (c) 90.1 92.5 92.5 91.3 91.3 0.8257

(9)

0 3 6 12

Kilometers 0 150 300 600

Meters 0 150 300 600

Meters

位置圖(右側為放大圖) 資料濾除前資料濾除後

圖8 貝氏網路部分預測成果(黃色：未偵測區域，紅色：偵測區域)

0 3 6 12

Kilometers ⁰ ¹⁵⁰ ³⁰⁰ ⁶⁰⁰Meters 0 150 300 600

Meters

位置圖(右側為放大圖) 資料濾除前資料濾除後

圖 9 貝氏網路部分潛勢成果(紅色：較高機率，崩塌機率大於 0.75；黃色：高機率，崩塌機率介於 0.75 與0.51；藍色：低機率，崩塌機率介於 0.5 與 0.26；綠色：較低機率，崩塌機率小於 0.26)

5.4 特徵縮減成果

基於表5，得知正規化差異植生指標、土地利用、斷層距離及水系距離扮演重要角色。本節據此四種崩塌因子重新計算，成果如表6 (c)所示。相較於表6 (b)， J48 決策樹預測成果的 kappa 值大幅提升，因非崩塌地漏授及崩塌地誤授降低之故。雖然犧牲檢核和貝氏網路的預測成果(礙於分類策略不同)，但仍持接受範圍。若為減少資料屬性，以及節省計算資源，不失為可行辦法。

6. 結論與建議

本研究針對災後以資料導向分析的觀點，探究資料探勘技術對豪雨促發崩塌事件之驗證與潛勢評估，為龐大資料量、空間資料來源及格式不一、

崩塌因子與崩塌事件關係未必明確、崩塌因子的獨立與否、之前未知的崩塌特性等五項議題提供可能的解決途徑。除此之外，不同時期資料整合、向量與網格資料轉換、套合不同細緻度或粒度 (granularity)圖層、人為數化誤差、複雜的自然現象等等情形，皆可能造成空間資料的異質性和不確定

(10)

性。若直接將崩塌因子代入演算法，勢必面臨模型學習不足或過度遷就問題。有鑑於此，本研究提出資料濾除機制，萃取代表性資料並依此建立模型，

希冀提升預測能力。再根據因子顯著性分析結果，

進行特徵縮減，考量資料量與效能問題。

本研究案例成果顯示，(1)所建立之崩塌因子模型有良好的檢核成果；(2)資料濾除機制可改善模型的預測能力；(3)貝氏網路的預測成果優於 J48 決策樹；(4)特徵縮減策略，可增進 J48 決策樹的預測精度。

然而，本文所述之資料濾除機制目前僅針對連續型資料，且只能有效預測圖7 斜線區域的樣本，

不若一般影像處理或統計學理，區域外之樣本亦不可輕忽，需額外探討。再者，本研究以年份為分析單位，後續將以颱風事件為基礎，納入時序分析概念，逐次增加模型的崩塌樣本並預測接續事件，更符合理想及實務需求。以此方式進行分析，則資料之位置、屬性、分析與空間關係的不確定性影響更甚。因此，未來將採取柔性策略，並嵌入不確定性理論，以優化崩塌預測模型。此外，地形效應是導致影像中相同目標不同時期卻有輻射差異的因素之一，日後亦將加以考慮。

致謝

本研究承蒙國科會計畫 NSC 99-2218-E-027-008 經費支助，以及中華民國航空測量及遙感探測學會補助筆者赴澳洲墨爾本參加第二十二屆 ISPRS 研討會(The XXII Congress of the International Society for Photogrammetry and Remote Sensing)，並發表本研究成果，特此致謝。

參考文獻

劉朝俊，1976。坡地開發與邊坡穩定之關係的研究 -以基隆市大竿林與大德國中東側等平面型地滑為例，碩士論文，國立台灣大學地理環境資源學系。

張石角，1993。山坡地調查規劃、評估其崩塌預測與治理，行政院農委會專題研究。

陳信雄，1995。崩塌地調查與分析，渤海堂文化，

台北。

游中榮，1996。應用地理資訊系統於北橫地區山崩潛感之研究，碩士論文，國立中央大學應用地質學研究所。

吳宗樺，2004。空間資料探勘與知識產生：以建立崩塌敏感性評估模式為例，碩士論文，國立台灣大學地理環境資源學系。

鄒明城、孫志鴻，2005。空間資料庫之關聯樣式探勘，台灣地理資訊學刊，第三期，第 27~41 頁。

陳良健、蔡富安、饒見有，2006。95 年度以光學衛星影像輔助長期監測石門水庫集水區土地開發利用情形，經濟部水利署北區水資源局。

蔡富安、饒見有，2008， 96-98 年光學衛星影像長期輔助監測石門水庫集水區土地開發利用情形，經濟部水利署北區水資源局。

林岑彧，2010。結合遙測影像與 GIS 資料以資料挖掘技術進行崩塌地辨識-以石門水庫集水區為例，碩士論文，國立中央大學土木工程學系。

Aleotti, P., and R. Chowdhury, 1999. Landslide hazard assessment: summary review and new perspectives, Bulletin of Engineering Geology and the Environment, Vol. 58, pp. 21-44.

Bai, S., G. Lu, J. Wang, P. Zhou, and L. Ding, 2011.

GIS-based rare events logistic regression for landslide-susceptibility mapping of Lianyungang, China, Environmental Earth Science, Vol. 62, pp. 139-149.

Clerici, A., S. Perego, C. Tellini, and P. Vescovi, 2006.

A GIS-based automated procedure for landslide susceptibility mapping by the conditional analysis method: the Braganza valley case study (Italian Northern Apennines), Environmental Geology, Vol. 50, pp. 941-961.

Cruden, D. M., and D. J. Varnes, 1996. Landslide types and processes In: K.A. Turner and R.L.

Schuster, Editors, Landslides: investigation and mitigation, Transport Research Board Special Report, Vol. 247, pp.36-75.

Dahal, R. K., S. Hasegawa, A. Nonomura, M.

Yamanaka, S. Dhakal, and P. Paudyal, 2008.

Predictive modeling of rainfall-induced landslide hazard in the lesser Himalaya of Nepal based on weights-of-evidence, Geomorphology,

(11)

Vol. 102, No. 3-4, pp.496-510.

Dai, F. C., C. F. Lee, and Y. Y. Ngai, 2002. Landslide risk assessment and management: an overview, Engineering Geology, Vol. 64, pp. 65-87.

Dietrich, E. W., R. Reiss, M. L. Hsu, and D. R.

Montgomery, 1995. A process-based model for colluvial soil depth and shallow landsliding using digital elevation data, Hydrological Processes, Vol. 9, pp. 383-400.

Dilley, M., R. S. Chen, U. Deichmann, A. L.

Lerner-Lam, and A. Margaret, 2005. Natural disaster hotspots: a global risk analysis, The World Bank, pp. 145.

Du, Y., P. M. Teillet, and J. Cihlar, 2002. Radiometric normalization of multitemporal high-resolution satellite images with quality control for land cover change detection, Remote Sensing of Environment, Vol. 82, pp. 123-134.

Dunne, T., 1991. Stochastic aspects of the relations between climate, hydrology and landform evolution, Transaction Japanese Geomorphological Union, Vol. 12, pp. 1-24.

Fayyad, U. M., and K. B. Irani, 1993. Multi-interval discretization of continuous-valued attributes for classification learning, International Joint Conference on AI, pp. 1022-1027, Morgan, Kaufmann.

Ercanoglu, M., and C. Gokceoglu, 2004. Use of fuzzy relations to produce landslide susceptibility map of a landslide prone area (West Black Sea Region, Turkey), Engineering Geology, Vol. 75, pp. 229-250.

Gemitzi, A., G. Falalakis, P. Eskioglou, and C. Petalas.

2011. Evaluating landslide susceptibility using environmental factors, fuzzy membership functions and GIS, Global NEST (Network for Environmental Science and Technology) Journal, Vol. 13, No. 1, pp. 28-40.

Guzzetti, F., A. Carrara, M, Cardinali, and P.

Reichenbach, 1999. Landslide hazard assessment in the Saffora basin, northern Italian Apennines, Geomorphology, Vol. 72, pp.

272-299.

Mettemicht, G., L. Hurni, and R. Gogu, 2005. Remote sensing of landslides: An analysis of the potential contribution to geo-spatial systems for hazard assessment in mountainous environments, Remote Sensing of Environment, Vol. 98, pp.

284-303.

Miller, J., and J. Han, 2001. Geographic data mining and knowledge discovery, in: Geographic data mining and knowledge discovery (ed. by H.J.

Miller and J. Han), Taylor and Francis, London.

Montgomery, D. R., and W. E. Dietrich, 1994, Landscape dissection and drainage area-slope

thresholds. Process Models and Theoretical Geomorphology, British Geomorphological Research Group Symposia Series, John Wiley &

Sons Ltd.,Chichester, pp. 221-246.

Nichol, J., and M. S. Wong, 2005. Satellite remote sensing for detailed landslide inventories using change detection and image fusion, International Journal of Remote Sensing, Vol. 26, No. 9, pp.

1913-1926.

Okimura T., and T. Kawatani, 1987. Mapping of the potential surface- failure sites on granite slopes, International Geomorphology 1986 Part I., Wiley, Chichester, pp. 121-138.

Openshaw, S., and C. Openshaw, 1997. Artificial intelligence in geography, John Wiley and Sons., U.S.A.

Peduzzi, P., 2010. Landslide and vegetation cover in the 2005 Northern Pakistan earthquake: a GIS and statistical quantitative approach, Natural Hazards and Earth System Sciences, Vol. 10, pp.

623-640.

Sakar, S., and D. P. Kanungo, 2004. An integrated approach for landslide susceptibility mapping using remote sensing and GIS, Photogrammetric Engineering & Remote Sensing, Vol. 70, pp.

614-625.

Schott, J. R., C. Salvaggio, and W. J. Volchok, 1988.

Radiometric scene normalization using pseudoinvariant features, Remote Sensing of Environment, Vol. 26, pp. 1-16.

Sidle, R. C., A. J. Pearce, and C. L. O'Loughlin, 1985.

Hillslope stability and land use, Water Resources Monograph, Vol. 11, pp.140-141.

Tan, P.-N., M. Steinbach, and V. Kumar, 2006.

Introduction to data mining, Addison Wesley, U.S.A.

Tsai, F., and L. C. Chen, 2007. Long-term landcover monitoring and disaster assessment in the Shiman Reservoir Watershed using satellite images, in: Proc. 13^th CeRES International Symposium on Remote Sensing, Chiba, Japan.

Wang, X., and R. Niu, 2010. Landslide intelligent prediction using object-oriented method, Soil Dynamics and Earthquake Engineering, Vol. 30, pp. 1478-1486.

Wu, W., and R. C. Sidle, 1995. A distributed slope stability model for steep forested basins. Water Resource Research, Vol. 31, pp. 2097-2110.

Zhou, C. H., C. F. Lee, J. Li, and Z. W. Xu, 2002. On the spatial relationship between landslides and causative factors on Lantau Island, Hong Kong.

Geomorphology, Vol. 43, No. 3-4, pp. 197-207.

(12)

1 PhD Candidate, Department of Civil Engineering, National Central University Received Date: Feb. 25, 2013 2 Associate Professor, Center for Space and Remote Sensing, National Central University Revised Date: Aug. 07, 2013 3 Master, Department of Civil Engineering, National Central University Accepted Date: Aug.16, 2013 4 Associate Professor, Department of Civil Engineering, National Taipei University of Technology

*.Corresponding Author, Phone: 886-3-4227151 ext. 57619, E-mail：[email protected]

Verification and Susceptibility Assessment for Landslides using Data Mining Techniques

Jhe-Syuan Lai

¹

Fuan Tsai

^2*

Tesn-Yu Lin

³

Walter W Chen

⁴

Tang-Huang Lin

²

ABSTRACT

This study utilized decision tree and Bayesian network algorithms to extract the knowledge of shallow landslides based on susceptibility analysis in the Shimen reservoir watershed. Furthermore, the uncertainty filter, significant analysis and feature reduction methods for landslide factors were also proposed. The objective is to develop a post- and data-driven analysis system for landslide detection and risk assessment in a regional scale.

This study did not distinguish different types of landslides, and all landslides were induced by heavy rainfall.

Experimental results demonstrate that the developed landslide factor model is effective for landslide detection in the study site. After filtering uncertain data, the reliability of landslides verification and susceptibility assessment has been improved significantly. Based on the experiments, Bayesian network can provide more reliable prediction and susceptibility results than decision tree in the study case. In addition, feature reduction can improve the computation efficiency while maintaining acceptable check and prediction accuracy.

Keywords:

Decision Tree, Bayesian Network, Data Mining, Landslide Susceptibility

資料探勘技術於坡地崩塌之驗證與潛勢評估

資料探勘技術於坡地崩塌之驗證與潛勢評估

賴哲儇

蔡富安

林岑彧

陳偉堯

林唐煌

摘 要

關鍵詞：決策樹、貝氏網路、資料探勘、崩塌潛勢

1. 前言

2. 研究主旨

3. 研究區域與資料

4. 研究流程與方法

向量資料

網格資料

網格化

前處理 空間分析

資料整合

訓練資料

檢核資料

預測資料 崩塌像元

顯著性分析

成果評估

資料探勘 特徵縮減

資料前處理與整合

分析策略 成果

演算法 崩塌因子

成果圖

4.1 虛擬不變特徵正規化

Day1 波段 i

Day2 波段 i

相同地物

容忍程度 ? = - Day1 波段 i Day2 波段 i

相同地物差值理論上為零 但實際上介於某區間

μ= -0.357823, σ= 0.054292 μ= 0.000706, σ= 0.070858

4.2 決策樹





4.3 貝氏網路

5. 研究流程與方法

5.1 初步成果

5.2 資料濾除機制

屬性 i 屬性 j

u u+nσ u-nσ

u u-nσ u+nσ

5.3 資料濾除後成果

5.4 特徵縮減成果

6. 結論與建議

致謝

參考文獻

Verification and Susceptibility Assessment for Landslides using Data Mining Techniques

Jhe-Syuan Lai

Fuan Tsai

Tesn-Yu Lin

Walter W Chen

Tang-Huang Lin

ABSTRACT

Keywords:

摘要

前處理空間分析

預測資料崩塌像元

資料探勘特徵縮減

分析策略成果

演算法崩塌因子

容忍程度 ? = ^- ^{Day1 波段 i} ^{Day2 波段 i}

相同地物差值理論上為零但實際上介於某區間