Volume17, No2, August 2013, pp. 149-160
1國立中央大學土木工程學系空間資訊組 博士候選人 收到日期:民國 102 年 02 月 25 日
2國立中央大學太空及遙測研究中心 副教授 修改日期:民國 102 年 08 月 07 日
3國立中央大學土木工程學系空間資訊組 碩士 接受日期:民國 102 年 08 月 16 日
4國立台北科技大學土木工程學系 副教授
*通訊作者, 電話: 03-4227151 ext. 57619, E-mail: [email protected]
資料探勘技術於坡地崩塌之驗證與潛勢評估
賴哲儇
1蔡富安
2*林岑彧
3陳偉堯
4林唐煌
2摘 要
基於災後以資料導向分析的觀點,本研究採用決策樹與貝氏網路兩種資料探勘的分類技術,萃取因 颱風豪雨促發的淺層坡地崩塌特性,希冀建構可靠的崩塌潛勢預測模型。此外,本研究亦提出資料濾除 機制,去除不確定性資料,並配合因子顯著性分析與特徵縮減技術,強化崩塌案例驗證與潛勢評估之有 效性。研究成果顯示,資料濾除機制可降低模型因遷就不確定性資料造成之不可靠,提升預測能力;且 貝氏網路成果優於決策樹演算法,提供較可靠的預測及潛勢成果。而特徵縮減不但改善效能問題,亦能 維持一定程度的檢核及預測精度。
關鍵詞:決策樹、貝氏網路、資料探勘、崩塌潛勢
1. 前言
台灣地狹人稠,屬於海島型國家並座落於地震 帶,常受颱風和地震等災害肆虐。再者,本身地質 狀態複雜,自九二一地震後,其結構更加破碎,加 上過度開發山坡地,造成坡地崩塌與土石流等威脅 更甚以往。因此,世界銀行將台灣列為高風險受災 的國家之一(Dilley et al., 2005)。如何預防、減輕及 評估上述災害,實屬重要課題。本研究即針對淺層 坡地崩塌,提出資料探勘導向的分析方法。
一般而言,崩塌研究可粗略分成定性及定量分 析( 游 中 榮 , 1996; Aleotti & Chowdhury, 1999;
Guzzetti et al., 1999)。前者藉由影像和輔助資料由 人工辨識,實務上能快速獲得成果,但缺點是無法 客觀量化。因此,許多學術研究著重後者。決定論 法(deterministic method)、探索法(heuristic method) 和統計法(statistical method)是崩塌量化分析的常 見方法(Clerici et al., 2006; Dai et al., 2002)。決定論 法 是 基 於 物 理 定 律 計 算 坡 地 的 穩 定 程 度( 例 如 Dietrich et al., 1995; Dunne, 1991; Montgomery &
Dietrich, 1994; Okimura & Kawatani, 1987),然此法 僅適於小範圍且均質之處(吳宗樺,2004; Ercanoglu
& Gokceoglu, 2004)。探索法是依照專家經驗對崩 塌潛在因子的重要性進行排序及給予權重,但有過 於主觀之嫌(吳宗樺,2004)。後者運用統計方法假 設未來崩塌與過去情形類似並進行預測(Clerici et al., 2006),較為客觀且適合中等尺度分析(Gemitzi et al., 2011)。另外,為了特定目的,某些文獻合併 上述方法成為複合法(composite method)。Gemitzi et al. (2011)利用模糊隸屬函數(fuzzy membership function)排序崩塌因子並訂定權重,降低人為干 涉,即是統計法和指標法的複合案例。不過,統計 法必須先決定變數,並假設各變數彼此獨立且符合 某種統計分佈;實際上,造成崩塌的潛在因素往往 是未知的,且存在某種關聯性及鄰近相依現象,使 得統計法未必適用所有案例(鄒明城及孫志鴻,
2005)。
近年來,空間資訊技術與資料逐漸成熟且普 遍,GIS 資料、空載及衛星影像適合長期協助監測 及 調 查 自 然 災 害 , 實 作 上 已 達 不 錯 成 果( 諸 如 Metternicht et al., 2005; Nichol & Wong, 2005;
Peduzzi, 2010; Sakar & Kanungo, 2004; Tsai & Chen, 2007)。除此之外,各級政府單位、學術或其他機 構多年來對災害、國土變遷、環境資源以及其他種
種調查也累積了十分可觀的資料。這些寶貴的資料 對於災害防救應用和相關研究都是重要的資源。然 而,這些資料來自不同的單位,不僅格式、特性和 品質等不一,常無法直接利用,造成整合上的困 難。而如此龐大資料,也產生現有崩塌演算法的效 能問題,甚至分析成果失去代表性(林岑彧,2010)。
資料探勘(data mining)能從大量且複雜資料中 萃取有用的、可能的、或是之前未知的資訊或知識 (Tan et al., 2006),是面臨眾多資料有效的分析方法 (Miller & Han, 2001),但現有文獻較少探討此技術 對崩塌預測的成效(Wang & Niu, 2010)。而資料探 勘演算法中,決策樹(decision tree)是古典、簡單和 直觀的方法,其歸納的因果規則容易理解及解釋 (Openshaw & Openshaw, 1997)。貝氏網路(Bayesian network)則基於貝氏定理,考慮變數間的因果關係 (Tan et al., 2006),是另一個強而有力的演算法。綜 合以上論述,本研究採用決策樹與貝氏網路兩種分 類方法,嘗試萃取石門水庫集水區 2004 至 2008 年代表性的淺層崩塌(shallow landslide)特性,希冀 建構可靠的崩塌潛勢(susceptibility)預測模型。
2. 研究主旨
資料充足是執行資料探勘的首要條件;如何萃 取代表性成果,是進階且重要任務。由於本研究蒐 集石門水庫集水區可觀的空間資料,已符合第一條 件。至於如何避免陷入「垃圾進、垃圾出」的泥淖,
必須先明確定義本文探討的崩塌問題。
崩塌可謂邊坡上部份物體因重力作用而向下 之運動(劉朝俊,1986;張石角,1993;陳信雄,
1995);若同時存在土壤、泥流、岩塊等滑動之複 雜移動亦可稱之(Cruden & Varnes, 1996)。就決定 論法而言,通常先區分崩塌類型,以利後續力學分 析(吳宗樺,2004)。導致崩塌的相關因子可概分為 潛在和促發因子(Dahal et al., 2008; Sidle et al., 1985; Wu & Sidle, 1995; Zhou et al., 2002)。以台灣 而言,地震及豪雨是最主要的促發因子。而本文旨 在藉由空間資料搭配颱風挾帶豪雨導致的已知淺 層崩塌事件和範圍,以資料探勘分類技術萃取崩塌
潛勢條件,並進行驗證與潛勢評估。其中空間資料 相對於傳統力學分析資料,屬於小比例尺範圍;潛 勢意指僅考慮潛在因子,此為避免偶發強降雨造成 模型預測失敗(Dai et al., 2002);驗證是假設較晚年 份的崩塌事件及範圍為未知,並以較早年份資料所 建構的資料探勘模型預測。此外,本文蒐集的崩塌 事件與範圍皆是根據颱風前後衛星影像的變遷結 果,針對可疑崩塌範圍,以數值高程模型及 GIS 圖層等輔助資料配合實地調查所得(陳良健等,
2006;蔡富安及饒見有,2008)。實務上,利用遙 測影像配合實地勘查是辨識崩塌範圍與定義崩塌 目 錄(landslide inventory)的常 見方法 (Dai et al., 2002),例如 Bai et al. (2011)及 Gemitzi et al.
(2011)。因此,本研究不著重崩塌類型,主要探討 因降雨促發石門水庫集水區淺層崩塌現象,屬於災 後之資料導向分析。
3. 研究區域與資料
石門水庫集水區(如圖 1 所示)占地約 763.4 平 方公里,土地覆蓋多為森林,但有少數農作活動。
年平均降雨量約2200 釐米,主要由每年五到十月 登陸颱風帶來充沛降雨所造成。其它如地形、水 系、地質與土壤等詳細資訊,請見行政院農業委員 會 水 土 保 持 局 石 門 水 庫 集 水 區 保 育 治 理 網 站 (http://smr.swcb.gov.tw/academia.asp?block=1)。
本研究蒐集資料共計十二類,包含網格及向量 兩 種 資 料 型 態 , 其 中 數 值 高 程 模 型(Digital Elevation Model, DEM)、SPOT 衛星影像、水系、
道路與斷層資料可藉由額外計算獲得衍生資料,詳 情請見表1。DEM 網格大小原為 40 公尺×40 公尺,
為能與SPOT 影像套疊(SPOT-2 及 SPOT-4 空間解 析度為 20 公尺×20 公尺,SPOT-5 為 10 公尺×10 公尺),本研究將所有網格資料重新取樣成 10 公尺
×10 公尺。關於篩選 SPOT 衛星影像策略,以表 2 各颱風登陸前品質較佳且少雲者為原則。另外,表 2 的崩塌像元數是由表 1 的崩塌範圍向量資料轉成 網格型式而得,大小亦為10 公尺×10 公尺。
圖1 石門水庫集水區位置圖 表1 蒐集資料
資料型態 原始資料 衍生資料 備註
網格 數值高程模型 高程 40 公尺×40 公尺,重新取樣成 10
公尺×10 公尺。
坡度 坡向 曲率 SPOT 衛星影像 正規化差異植生
指標
SPOT-2 及 SPOT-4 為 20 公尺×20 公尺,重新取樣成10 公尺×10
公尺,以套合SPOT-5。
向量 水系 水系距離 -
道路 道路距離 1/25,000 地形圖
斷層 斷層距離 1/50,000 斷層圖
地質 1/500,000 地質圖
土地利用 工業技術研究院
土壤 1/25,000 土壤圖
崩塌範圍 (陳良健等,2006;蔡富安&饒見
有,2008) 表2 颱風事件及崩塌像元數
名稱 侵台時間 崩塌像元數 名稱 侵台時間 崩塌像元數
敏督利 2004/7/1 216 寶發 2006/8/9 9
艾利 2004/8/25 33815 聖帕 2007/8/16 334
納坦 2004/10/25 30 韋帕 2007/9/18 363
海棠 2005/7/18 100 柯羅莎 2007/10/6 439
馬莎 2005/8/4 2120 卡玫基 2008/7/17 84
泰利 2005/9/1 205 鳳凰 2008/7/28 424
碧利斯 2006/7/13 48 辛樂克 2008/9/14 996
凱米 2006/7/24 111 薔蜜 2008/9/28 335
4. 研究流程與方法
本研究流程可概分四大項,即資料前處理與整 合、分析策略、演算法與成果,如圖2 所示。資料 前處理與整合階段,先輸入崩塌因子(即表 1 的資 料,但不包含崩塌範圍),並將向量資料網格化,
與網格資料一起進行前處理,再對特定資料進行空 間分析,得到衍生資料。接著整合所有資料,供後 續資料探勘演算法分析。而前處理包括清除空值紀 錄、DN 值轉輻射值及多時期衛星影像之相對輻射 校正。
至於分析策略,本文根據崩塌範圍轉換成像元 型態,從整合資料中找出對應的屬性;針對非崩塌 區域的屬性,本研究以隨機方式取樣,數量以崩塌 像元的十倍測試,以期符合實況比例,並取出相對 應屬性,最後合併成非崩塌資料。當崩塌與非崩塌 資料挑選完畢,接續整合兩者並建置訓練、檢核與 預測等三種資料,前者供資料探勘演算法建立崩塌
知識模型,後兩者作為成果的評估機制,檢核結果 代表可靠程度,預測準確度表示模型的預測能力。
其中,2008 年當作預測資料,2/3 的 2004 至 2007 年資料作為訓練資料,剩餘者為檢核資料。
本研究利用決策樹與貝氏網路演算法進行坡 地崩塌因子資料探勘分析。為了解所有崩塌因子於 資料探勘過程的交互作用,在執行資料探勘前,先 進 行 崩 塌 因 子 顯 著 性 分 析 和 特 徵 縮 減(feature reduction)。由於決策樹是以資訊獲利(information gain)作為評估基準,且並無與貝氏網路相關的因子 分析,故本文採用資訊獲利(詳情請見 4.2 節)探討 崩塌因子的顯著程度。在成果部分,採用誤差矩陣 (error matrix) 計 算 整 體 精 度 (Overall Accuracy, OA)、生產者精度(Producer’s Accuracy, PA)、使用 者精度(User’s Accuracy, UA)與 Kappa 等四種統計 指標評估分析成果。若成果通過門檻,則據演算法 提供的偵測成果與機率值輸出成崩塌預測及潛勢 圖。
向量資料
網格資料
網格化
前處理 空間分析
資料整合
訓練資料
檢核資料
預測資料 崩塌像元
顯著性分析
成果評估
資料探勘 特徵縮減
資料前處理與整合
分析策略 成果
演算法 崩塌因子
成果圖
圖2 研究流程
4.1 虛擬不變特徵正規化
由於每時期的衛星影像會因不同大氣、季節、
日照及氣膠等因素,導致相同地物卻擁有極大差異 的輻射反應。若直接依此比對多時序資料,成果將 受上述條件影響,有所偏差。圖3 顯示相同波段不 同時期的輻射值散佈圖(scatter plot),理論上不變特 徵應位於對角實線上,但基於上述因素,可能座落 於圖中兩虛線之間;此亦可利用影像相減描述,理 想不變特徵之差值為零,實際卻介於某區間。一般 而言,利用絕對輻射校正或大氣校正模型去除輻射 偏差,是個理想方式。然而,此法需要詳細的實地 參考資料,牽涉複雜的大氣參數與輻射傳輸理論,
且目前並無一致且通用的模式。加上本研究著重多 時期正規化差異植生指標(Normalized Difference Vegetation Index, NDVI)之比對,繁複的輻射校正
過程將造成實作困難。
有鑑於此,本研究改用統計影像灰階值進而正 規化的相對輻射校正。其中,虛擬不變特徵(Pseudo Invariant Features, PIFs)正規化是個簡單、快速的方 法,適於多時期影像比對(Du et al., 2002)。該法前 提是相同地物不同時期之輻射差異可根據虛擬不 變 特徵以 線性 拉伸(linear stretch)或直方圖匹配 (histogram matching)描述(Schott et al., 1988)。不 過,如何決定虛擬不變特徵是最大的問題。本文假 設 SPOT 影像中的地物(山區多植被)大多沒有改 變,利用不同時期相同波段的差值直方圖,以零至 最大頻率的灰階差值所對應的像元,作為虛擬不變 特徵(如圖 4 所示),再據此進行直方圖匹配。圖 5 為虛擬不變特徵正規化前後的NDVI 差異,圖中可 知改正後的平均值較接近於零,且標準差相似,表 示相同地物的輻射差異已經降低。
Day1 波段 i
Day2 波段 i
相同地物
容忍程度 ? = - Day1 波段 i Day2 波段 i
相同地物差值理論上為零 但實際上介於某區間
圖3 相同地物不同時期的輻射差異
圖4 萃取虛擬不變特徵
μ= -0.357823, σ= 0.054292 μ= 0.000706, σ= 0.070858
圖5 虛擬不變特徵正規化成果比較(左為改正前,右為改正後)
4.2 決策樹
決策樹是透過集合論方式將已知資料(即訓練 資料)中的各屬性資訊建構成樹狀結構,再對未知 資料分類。其可視為一連串的邏輯判斷組合,即某 種條件成立,就發生某種特定事件。決策樹分析一 般可概分為建立樹狀模型和修剪樹狀結構等兩步 驟。前者需根據各屬性或因子的不純程度(degree of impurity)先後分割成節點,後者則是避免過度遷就 (over-fitting)或雜訊。
資訊獲利與 Gini 指標是不純程度的主要量化 方式,各適用於離散及連續型資料。資訊獲利是計 算 訓 練 資 料 要 預 測 屬 性 及 各 候 選 屬 性 的 亂 度 (entropy),兩者之差即是資訊獲利,個別定義如式 (1)的 I(p, n)、E(A)和 Gain(A)所示,其中 A 表示某 項屬性,p 及 n 代表分類的正例和反例個數,v 為 某項屬性的選項。若屬性資料分布越純(即 E(A)值 小),表示資訊獲利(Gain(A))大,因此以此屬性作 為節點較具代表性且無爭議,亦符合分類原則。至 於 Gini 指標則是從各屬性連續值中求得最佳的分 割點,如式(2)所示,其中 D 表示某項屬性切割點 的樣本集合,pj是屬於某類別的樣本在D 出現的相 對頻率,N 為資料總筆數,N1及N2是該切割點上 下的資料筆數,D1及D2代表因切割點造成D 分離 的樣本集合。理論上 Gini 指標與亂度意義相同,
僅是計算公式不同,故得以應用於連續型資料。本 研究採用能處理離散與連續資料的 J48 決策樹演 算 法 做 為 分 析 工 具 , 其 內 建 於 免 費 且 公 開 的 WEKA 軟體(http://www.cs.waikato.ac.nz/ml/weka/)。
2 2
1
( ) ( , ) - ( )
( , ) - log - log
( ) v i i ( , )i i
i
Gain A I p n E A
p p n n
I p n
p n p n p n p n p n
E A I p n
p n
(1)
2 1
' 1 2
1 2
( ) 1
( ) ( ) ( )
n j j
t
Gini D p
N N
Gini D Gini D Gini D
N N
(2)4.3 貝氏網路
貝氏網路又稱貝氏信念網路,利用條件機率描 述所有條件屬性(崩塌因子)及決策屬性(崩塌與否) 的因果關係,但不允許方向性循環(Directed Acyclic Graph, DAG)。圖 6 為該法示意圖,A 表示父節點,
B 及 C 為子節點,以條件機率(如式(3)所示)描述因 果關係。式中,Y 代表決策屬性,U 為條件屬性,
u 是條件屬性之子集合,pa(u)意指 u 之 Y 集合。其 中,網路架構由訓練資料而得,因此採用局部求解 策略。不過,貝氏網路僅能處理離散資料,WEKA 軟體利用群聚分析將連續資料離散化(Fayyad &
Irani, 1993),再進行貝氏網路演算法。
A
B C
父節點
子節點 子節點
條件機率
圖6 貝氏網路示意圖
5. 研究流程與方法
5.1 初步成果
表3 為崩塌因子顯著性分析成果。除了道路距 離外,訓練資料與檢核資料的因子排序非常相似。
而訓練與預測資料就非常不同,尤其是高程與正規 化差異植生指標。由此可知,訓練及預測資料間存 在極大差異。雖然此成果沒有一致性,無法找出代 表性的顯著因子,但藉此得知預測成果可能劣於檢 核成果。
表 6 (a)呈現 J48 決策樹和貝氏網路(BN)的檢 核與預測成果。該表顯示兩種演算法都能提供不錯 的檢核成果。然而,預測成果的OA 值雖仍維持高 標,卻是因非崩塌地的樣本較崩塌地多,且辨識較 崩塌地簡單,使得精度過於樂觀。但崩塌地預測的 漏授與誤授過高,導致kappa 值降低。以上結果呼 應表3,即訓練資料與預測資料間存在異質性,且 受制2004 年艾利颱風的樣本數過多(請見表 2),造 成模型過度遷就(over-fitting)現象,因此預測能力 不佳。為降低資料間的異質現象,本研究提出資料 濾除機制(請見 5.2 節),希冀改善資料探勘模型的 預測精度。
5.2 資料濾除機制
承上節,因為資料的異質性和模型過度遷就,
導致模型預測成果不佳。據此,本研究提出有效的 資料濾除機制,降低資料屬性的不確定性。本研究 針對所有連續型資料,個別計算平均值(μ)與標準 差(σ),並以平均值正負 n 倍標準差作為資料保留 與否的條件,因此保留的像元表示所有屬性皆通過 門檻,即圖7 斜線區域。圖中 n 值越小代表資料越 純,但保留像元數較少;反之,資料越雜,但像元 較多。表4 為資料濾除前後之像元數,發現 3 及 4 倍標準差保留的像元太少,成果將不具代表性。而 5 倍標準差能夠濾除異質資料外,保留像元數亦足
以分析。至於超過5 倍標準差,因為門檻過寬,違 背濾除資料的意義。故本研究保留5 倍標準差內的 像元並進行分析,以期得到更具代表性成果。
表3 崩塌因子顯著性分析
排序 訓練資料 檢核資料 預測資料
1 坡度 土地利用 斷層距離
2 土地利用 坡度 坡度
3 正規化差異植 生指標
正規化差異
植生指標 高程
4 道路距離 斷層距離 土地利用
5 水系距離 水系距離 水系距離
6 斷層距離 土壤 道路距離
7 土壤 地質 土壤
8 地質 道路距離 地質
9 高程 高程 正規化差異
植生指標
10 坡向 坡向 曲率
11 曲率 曲率 坡向
屬性 i 屬性 j
u u+nσ u-nσ
u u-nσ u+nσ
圖7 資料濾除示意圖(二維為例,實際為多維空間)
5.3 資料濾除後成果
資料濾除後,再度探究崩塌因子的顯著程度。
表5 顯示訓練資料與檢核資料依然相似,且道路距 離也較近似。而預測資料的順序也有所改善,較接 近訓練資料,預測成果應能提高。再者,正規化差 異植生指標、土地利用、斷層距離及水系距離都一 致地位於訓練、檢核與預測資料的前五位,表示這 四個因子與崩塌地呈現高顯著性。
(3)
表 6 (b)為資料濾除前後的檢核與預測成果,
發現濾除後的OA 值都微幅降低,理由是非崩塌地 像元數因濾除機制減少(請見表 4),增加分類難 度。另外,濾除後非崩塌地的PA 與 UA 值稍微降 低,但崩塌地漏授與誤授明顯減少,尤其是預測結 果,致使kappa 值大為升高,其中 J48 提升約 30%,
貝氏網路改善約20%。值得一提的是,貝氏網路的
預測成果的kappa 值可達 0.8939。針對 2008 年崩 塌較集中的範圍,圖8 與圖 9 展示貝氏網路的預測 及潛勢成果,前者呈現資料濾除後能獲得較佳的偵 測能力,後者顯示濾除機制使得演算法產生的機率 值更符合實況。因此,案例證實濾除機制能保留代 表性資料,提升模型預測和潛勢成果的可靠性。
表4 資料濾除前後像元數
門檻值 崩塌資料 非崩塌資料
訓練及檢核資料 預測資料 訓練及檢核資料 預測資料
原始 37790 1839 329786 19184
3σ 260 0 0 0
4σ 260 117 0 158
5σ 34624 1336 21993 1360
表5 資料濾除後崩塌因子顯著性分析
順序 訓練資料 檢核資料 預測資料
1 正規化差異植生指標 土地利用 正規化差異植生指標
2 土地利用 坡度 斷層距離
3 坡度 正規化差異植生指標 土地利用
4 斷層距離 斷層距離 水系距離
5 水系距離 水系距離 道路距離
6 地質 地質 高程
7 道路距離 土壤 坡度
8 土壤 道路距離 地質
9 高程 高程 土壤
10 坡向 坡向 曲率
11 曲率 曲率 坡向
表6 成果比較((a)資料濾除前,(b)資料濾除後,(c)是對(b)特徵縮減)
非崩塌 崩塌
OA (%) Kappa PA (%) UA (%) PA (%) UA (%)
檢核
J48
(a) 99.1 98.9 88.5 90.2 98.1 0.8829 (b) 95.5 92.8 95.5 97.3 95.5 0.9053 (c) 88.6 88 92.3 92.7 90.9 0.8085 BN
(a) 98.9 98.4 84.4 88.1 97.5 0.8487 (b) 94.4 94.8 96.7 96.4 95.8 0.9115 (c) 91.6 89.2 92.9 94.6 92.4 0.841
預測
J48
(a) 93.1 98.8 65.3 23.9 92.2 0.3182 (b) 75.1 92.4 89.8 68.9 80.7 0.6134 (c) 89.1 88.3 87.9 88.8 88.5 0.7707
BN (a) 96.4 99 86 61.2 95.7 0.6928
(b) 95.1 94.3 94.3 95.1 94.7 0.8939 (c) 90.1 92.5 92.5 91.3 91.3 0.8257
0 3 6 12
Kilometers 0 150 300 600
Meters 0 150 300 600
Meters
位置圖(右側為放大圖) 資料濾除前 資料濾除後
圖8 貝氏網路部分預測成果(黃色:未偵測區域,紅色:偵測區域)
0 3 6 12
Kilometers 0 150 300 600Meters 0 150 300 600
Meters
位置圖(右側為放大圖) 資料濾除前 資料濾除後
圖 9 貝氏網路部分潛勢成果(紅色:較高機率,崩塌機率大於 0.75;黃色:高機率,崩塌機率介於 0.75 與0.51;藍色:低機率,崩塌機率介於 0.5 與 0.26;綠色:較低機率,崩塌機率小於 0.26)
5.4 特徵縮減成果
基於表5,得知正規化差異植生指標、土地利 用、斷層距離及水系距離扮演重要角色。本節據此 四種崩塌因子重新計算,成果如表6 (c)所示。相較 於表6 (b), J48 決策樹預測成果的 kappa 值大幅 提升,因非崩塌地漏授及崩塌地誤授降低之故。雖 然犧牲檢核和貝氏網路的預測成果(礙於分類策略 不同),但仍持接受範圍。若為減少資料屬性,以 及節省計算資源,不失為可行辦法。
6. 結論與建議
本研究針對災後以資料導向分析的觀點,探究 資料探勘技術對豪雨促發崩塌事件之驗證與潛勢 評估,為龐大資料量、空間資料來源及格式不一、
崩塌因子與崩塌事件關係未必明確、崩塌因子的獨 立與否、之前未知的崩塌特性等五項議題提供可能 的解決途徑。除此之外,不同時期資料整合、向量 與 網 格 資 料 轉 換 、 套 合 不 同 細 緻 度 或 粒 度 (granularity)圖層、人為數化誤差、複雜的自然現象 等等情形,皆可能造成空間資料的異質性和不確定
性。若直接將崩塌因子代入演算法,勢必面臨模型 學習不足或過度遷就問題。有鑑於此,本研究提出 資料濾除機制,萃取代表性資料並依此建立模型,
希冀提升預測能力。再根據因子顯著性分析結果,
進行特徵縮減,考量資料量與效能問題。
本研究案例成果顯示,(1)所建立之崩塌因子 模型有良好的檢核成果;(2)資料濾除機制可改善 模型的預測能力;(3)貝氏網路的預測成果優於 J48 決策樹;(4)特徵縮減策略,可增進 J48 決策樹的預 測精度。
然而,本文所述之資料濾除機制目前僅針對連 續型資料,且只能有效預測圖7 斜線區域的樣本,
不若一般影像處理或統計學理,區域外之樣本亦不 可輕忽,需額外探討。再者,本研究以年份為分析 單位,後續將以颱風事件為基礎,納入時序分析概 念,逐次增加模型的崩塌樣本並預測接續事件,更 符合理想及實務需求。以此方式進行分析,則資料 之位置、屬性、分析與空間關係的不確定性影響更 甚。因此,未來將採取柔性策略,並嵌入不確定性 理論,以優化崩塌預測模型。此外,地形效應是導 致影像中相同目標不同時期卻有輻射差異的因素 之一,日後亦將加以考慮。
致謝
本 研 究 承 蒙 國 科 會 計 畫 NSC 99-2218-E-027-008 經費支助,以及中華民國航空 測量及遙感探測學會補助筆者赴澳洲墨爾本參加 第二十二屆 ISPRS 研討會(The XXII Congress of the International Society for Photogrammetry and Remote Sensing),並發表本研究成果,特此致謝。
參考文獻
劉朝俊,1976。坡地開發與邊坡穩定之關係的研究 -以基隆市大竿林與大德國中東側等平面型地 滑為例,碩士論文,國立台灣大學地理環境資 源學系。
張石角,1993。山坡地調查規劃、評估其崩塌預測 與治理,行政院農委會專題研究。
陳信雄,1995。崩塌地調查與分析,渤海堂文化,
台北。
游中榮,1996。應用地理資訊系統於北橫地區山崩 潛感之研究,碩士論文,國立中央大學應用地 質學研究所。
吳宗樺,2004。空間資料探勘與知識產生:以建立 崩塌敏感性評估模式為例,碩士論文,國立台 灣大學地理環境資源學系。
鄒明城、孫志鴻,2005。空間資料庫之關聯樣式探 勘,台灣地理資訊學刊,第三期,第 27~41 頁。
陳良健、蔡富安、饒見有,2006。95 年度以光學 衛星影像輔助長期監測石門水庫集水區土地 開發利用情形,經濟部水利署北區水資源局。
蔡富安、饒見有,2008, 96-98 年光學衛星影像長 期輔助監測石門水庫集水區土地開發利用情 形,經濟部水利署北區水資源局。
林岑彧,2010。結合遙測影像與 GIS 資料以資料 挖掘技術進行崩塌地辨識-以石門水庫集水區 為例,碩士論文,國立中央大學土木工程學 系。
Aleotti, P., and R. Chowdhury, 1999. Landslide hazard assessment: summary review and new perspectives, Bulletin of Engineering Geology and the Environment, Vol. 58, pp. 21-44.
Bai, S., G. Lu, J. Wang, P. Zhou, and L. Ding, 2011.
GIS-based rare events logistic regression for landslide-susceptibility mapping of Lianyungang, China, Environmental Earth Science, Vol. 62, pp. 139-149.
Clerici, A., S. Perego, C. Tellini, and P. Vescovi, 2006.
A GIS-based automated procedure for landslide susceptibility mapping by the conditional analysis method: the Braganza valley case study (Italian Northern Apennines), Environmental Geology, Vol. 50, pp. 941-961.
Cruden, D. M., and D. J. Varnes, 1996. Landslide types and processes In: K.A. Turner and R.L.
Schuster, Editors, Landslides: investigation and mitigation, Transport Research Board Special Report, Vol. 247, pp.36-75.
Dahal, R. K., S. Hasegawa, A. Nonomura, M.
Yamanaka, S. Dhakal, and P. Paudyal, 2008.
Predictive modeling of rainfall-induced landslide hazard in the lesser Himalaya of Nepal based on weights-of-evidence, Geomorphology,
Vol. 102, No. 3-4, pp.496-510.
Dai, F. C., C. F. Lee, and Y. Y. Ngai, 2002. Landslide risk assessment and management: an overview, Engineering Geology, Vol. 64, pp. 65-87.
Dietrich, E. W., R. Reiss, M. L. Hsu, and D. R.
Montgomery, 1995. A process-based model for colluvial soil depth and shallow landsliding using digital elevation data, Hydrological Processes, Vol. 9, pp. 383-400.
Dilley, M., R. S. Chen, U. Deichmann, A. L.
Lerner-Lam, and A. Margaret, 2005. Natural disaster hotspots: a global risk analysis, The World Bank, pp. 145.
Du, Y., P. M. Teillet, and J. Cihlar, 2002. Radiometric normalization of multitemporal high-resolution satellite images with quality control for land cover change detection, Remote Sensing of Environment, Vol. 82, pp. 123-134.
Dunne, T., 1991. Stochastic aspects of the relations between climate, hydrology and landform evolution, Transaction Japanese Geomorphological Union, Vol. 12, pp. 1-24.
Fayyad, U. M., and K. B. Irani, 1993. Multi-interval discretization of continuous-valued attributes for classification learning, International Joint Conference on AI, pp. 1022-1027, Morgan, Kaufmann.
Ercanoglu, M., and C. Gokceoglu, 2004. Use of fuzzy relations to produce landslide susceptibility map of a landslide prone area (West Black Sea Region, Turkey), Engineering Geology, Vol. 75, pp. 229-250.
Gemitzi, A., G. Falalakis, P. Eskioglou, and C. Petalas.
2011. Evaluating landslide susceptibility using environmental factors, fuzzy membership functions and GIS, Global NEST (Network for Environmental Science and Technology) Journal, Vol. 13, No. 1, pp. 28-40.
Guzzetti, F., A. Carrara, M, Cardinali, and P.
Reichenbach, 1999. Landslide hazard assessment in the Saffora basin, northern Italian Apennines, Geomorphology, Vol. 72, pp.
272-299.
Mettemicht, G., L. Hurni, and R. Gogu, 2005. Remote sensing of landslides: An analysis of the potential contribution to geo-spatial systems for hazard assessment in mountainous environments, Remote Sensing of Environment, Vol. 98, pp.
284-303.
Miller, J., and J. Han, 2001. Geographic data mining and knowledge discovery, in: Geographic data mining and knowledge discovery (ed. by H.J.
Miller and J. Han), Taylor and Francis, London.
Montgomery, D. R., and W. E. Dietrich, 1994, Landscape dissection and drainage area-slope
thresholds. Process Models and Theoretical Geomorphology, British Geomorphological Research Group Symposia Series, John Wiley &
Sons Ltd.,Chichester, pp. 221-246.
Nichol, J., and M. S. Wong, 2005. Satellite remote sensing for detailed landslide inventories using change detection and image fusion, International Journal of Remote Sensing, Vol. 26, No. 9, pp.
1913-1926.
Okimura T., and T. Kawatani, 1987. Mapping of the potential surface- failure sites on granite slopes, International Geomorphology 1986 Part I., Wiley, Chichester, pp. 121-138.
Openshaw, S., and C. Openshaw, 1997. Artificial intelligence in geography, John Wiley and Sons., U.S.A.
Peduzzi, P., 2010. Landslide and vegetation cover in the 2005 Northern Pakistan earthquake: a GIS and statistical quantitative approach, Natural Hazards and Earth System Sciences, Vol. 10, pp.
623-640.
Sakar, S., and D. P. Kanungo, 2004. An integrated approach for landslide susceptibility mapping using remote sensing and GIS, Photogrammetric Engineering & Remote Sensing, Vol. 70, pp.
614-625.
Schott, J. R., C. Salvaggio, and W. J. Volchok, 1988.
Radiometric scene normalization using pseudoinvariant features, Remote Sensing of Environment, Vol. 26, pp. 1-16.
Sidle, R. C., A. J. Pearce, and C. L. O'Loughlin, 1985.
Hillslope stability and land use, Water Resources Monograph, Vol. 11, pp.140-141.
Tan, P.-N., M. Steinbach, and V. Kumar, 2006.
Introduction to data mining, Addison Wesley, U.S.A.
Tsai, F., and L. C. Chen, 2007. Long-term landcover monitoring and disaster assessment in the Shiman Reservoir Watershed using satellite images, in: Proc. 13th CeRES International Symposium on Remote Sensing, Chiba, Japan.
Wang, X., and R. Niu, 2010. Landslide intelligent prediction using object-oriented method, Soil Dynamics and Earthquake Engineering, Vol. 30, pp. 1478-1486.
Wu, W., and R. C. Sidle, 1995. A distributed slope stability model for steep forested basins. Water Resource Research, Vol. 31, pp. 2097-2110.
Zhou, C. H., C. F. Lee, J. Li, and Z. W. Xu, 2002. On the spatial relationship between landslides and causative factors on Lantau Island, Hong Kong.
Geomorphology, Vol. 43, No. 3-4, pp. 197-207.
1 PhD Candidate, Department of Civil Engineering, National Central University Received Date: Feb. 25, 2013 2 Associate Professor, Center for Space and Remote Sensing, National Central University Revised Date: Aug. 07, 2013 3 Master, Department of Civil Engineering, National Central University Accepted Date: Aug.16, 2013 4 Associate Professor, Department of Civil Engineering, National Taipei University of Technology
*.Corresponding Author, Phone: 886-3-4227151 ext. 57619, E-mail:[email protected]
Verification and Susceptibility Assessment for Landslides using Data Mining Techniques
Jhe-Syuan Lai
1Fuan Tsai
2*Tesn-Yu Lin
3Walter W Chen
4Tang-Huang Lin
2ABSTRACT
This study utilized decision tree and Bayesian network algorithms to extract the knowledge of shallow landslides based on susceptibility analysis in the Shimen reservoir watershed. Furthermore, the uncertainty filter, significant analysis and feature reduction methods for landslide factors were also proposed. The objective is to develop a post- and data-driven analysis system for landslide detection and risk assessment in a regional scale.
This study did not distinguish different types of landslides, and all landslides were induced by heavy rainfall.
Experimental results demonstrate that the developed landslide factor model is effective for landslide detection in the study site. After filtering uncertain data, the reliability of landslides verification and susceptibility assessment has been improved significantly. Based on the experiments, Bayesian network can provide more reliable prediction and susceptibility results than decision tree in the study case. In addition, feature reduction can improve the computation efficiency while maintaining acceptable check and prediction accuracy.