1. 前言
台灣地狹人稠,屬於海島型國家並座落於地震 帶,常受颱風和地震等災害肆虐。再者,本身地質 狀態複雜,自九二一地震後,其結構更加破碎,加 上過度開發山坡地,造成坡地崩塌與土石流等威脅 更甚以往。因此,世界銀行將台灣列為高風險受災 的國家之一(Dilley et al., 2005)。如何預防、減輕及 評估上述災害,實屬重要課題。本研究即針對淺層 坡地崩塌,提出資料探勘導向的分析方法。
一般而言,崩塌研究可粗略分成定性及定量分 析( 游 中 榮 , 1996; Aleotti & Chowdhury, 1999;
Guzzetti et al., 1999)。前者藉由影像和輔助資料由 人工辨識,實務上能快速獲得成果,但缺點是無法 客觀量化。因此,許多學術研究著重後者。決定論 法(deterministic method)、探索法(heuristic method) 和統計法(statistical method)是崩塌量化分析的常 見方法(Clerici et al., 2006; Dai et al., 2002)。決定論 法 是 基 於 物 理 定 律 計 算 坡 地 的 穩 定 程 度( 例 如 Dietrich et al., 1995; Dunne, 1991; Montgomery &
Dietrich, 1994; Okimura & Kawatani, 1987),然此法 僅適於小範圍且均質之處(吳宗樺,2004; Ercanoglu
& Gokceoglu, 2004)。探索法是依照專家經驗對崩 塌潛在因子的重要性進行排序及給予權重,但有過 於主觀之嫌(吳宗樺,2004)。後者運用統計方法假 設未來崩塌與過去情形類似並進行預測(Clerici et
al., 2006),較為客觀且適合中等尺度分析(Gemitzi et al., 2011)。另外,為了特定目的,某些文獻合併
上述方法成為複合法(composite method)。Gemitziet al. (2011)利用模糊隸屬函數(fuzzy membership
function)排序崩塌因子並訂定權重,降低人為干 涉,即是統計法和指標法的複合案例。不過,統計 法必須先決定變數,並假設各變數彼此獨立且符合 某種統計分佈;實際上,造成崩塌的潛在因素往往 是未知的,且存在某種關聯性及鄰近相依現象,使 得統計法未必適用所有案例(鄒明城及孫志鴻,2005)。
近年來,空間資訊技術與資料逐漸成熟且普 遍,GIS 資料、空載及衛星影像適合長期協助監測 及 調 查 自 然 災 害 , 實 作 上 已 達 不 錯 成 果( 諸 如 Metternicht et al., 2005; Nichol & Wong, 2005;
Peduzzi, 2010; Sakar & Kanungo, 2004; Tsai & Chen, 2007)。除此之外,各級政府單位、學術或其他機 構多年來對災害、國土變遷、環境資源以及其他種
種調查也累積了十分可觀的資料。這些寶貴的資料 對於災害防救應用和相關研究都是重要的資源。然 而,這些資料來自不同的單位,不僅格式、特性和 品質等不一,常無法直接利用,造成整合上的困 難。而如此龐大資料,也產生現有崩塌演算法的效 能問題,甚至分析成果失去代表性(林岑彧,2010)。
資料探勘(data mining)能從大量且複雜資料中 萃取有用的、可能的、或是之前未知的資訊或知識 (Tan et al., 2006),是面臨眾多資料有效的分析方法 (Miller & Han, 2001),但現有文獻較少探討此技術 對崩塌預測的成效(Wang & Niu, 2010)。而資料探 勘演算法中,決策樹(decision tree)是古典、簡單和 直觀的方法,其歸納的因果規則容易理解及解釋 (Openshaw & Openshaw, 1997)。貝氏網路(Bayesian network)則基於貝氏定理,考慮變數間的因果關係 (Tan et al., 2006),是另一個強而有力的演算法。綜 合以上論述,本研究採用決策樹與貝氏網路兩種分 類方法,嘗試萃取石門水庫集水區 2004 至 2008 年代表性的淺層崩塌(shallow landslide)特性,希冀 建構可靠的崩塌潛勢(susceptibility)預測模型。
2. 研究主旨
資料充足是執行資料探勘的首要條件;如何萃 取代表性成果,是進階且重要任務。由於本研究蒐 集石門水庫集水區可觀的空間資料,已符合第一條 件。至於如何避免陷入「垃圾進、垃圾出」的泥淖,
必須先明確定義本文探討的崩塌問題。
崩塌可謂邊坡上部份物體因重力作用而向下 之運動(劉朝俊,1986;張石角,1993;陳信雄,
1995);若同時存在土壤、泥流、岩塊等滑動之複 雜移動亦可稱之(Cruden & Varnes, 1996)。就決定 論法而言,通常先區分崩塌類型,以利後續力學分 析(吳宗樺,2004)。導致崩塌的相關因子可概分為 潛在和促發因子(Dahal et al., 2008; Sidle et al., 1985; Wu & Sidle, 1995; Zhou et al., 2002)。以台灣 而言,地震及豪雨是最主要的促發因子。而本文旨 在藉由空間資料搭配颱風挾帶豪雨導致的已知淺 層崩塌事件和範圍,以資料探勘分類技術萃取崩塌
潛勢條件,並進行驗證與潛勢評估。其中空間資料 相對於傳統力學分析資料,屬於小比例尺範圍;潛 勢意指僅考慮潛在因子,此為避免偶發強降雨造成 模型預測失敗(Dai et al., 2002);驗證是假設較晚年 份的崩塌事件及範圍為未知,並以較早年份資料所 建構的資料探勘模型預測。此外,本文蒐集的崩塌 事件與範圍皆是根據颱風前後衛星影像的變遷結 果,針對可疑崩塌範圍,以數值高程模型及 GIS 圖層等輔助資料配合實地調查所得(陳良健等,
2006;蔡富安及饒見有,2008)。實務上,利用遙 測影像配合實地勘查是辨識崩塌範圍與定義崩塌 目 錄(landslide inventory)的常 見方法 (Dai et al., 2002),例如 Bai et al. (2011)及 Gemitzi et al.
(2011)。因此,本研究不著重崩塌類型,主要探討 因降雨促發石門水庫集水區淺層崩塌現象,屬於災 後之資料導向分析。
3. 研究區域與資料
石門水庫集水區(如圖 1 所示)占地約 763.4 平 方公里,土地覆蓋多為森林,但有少數農作活動。
年平均降雨量約2200 釐米,主要由每年五到十月 登陸颱風帶來充沛降雨所造成。其它如地形、水 系、地質與土壤等詳細資訊,請見行政院農業委員 會 水 土 保 持 局 石 門 水 庫 集 水 區 保 育 治 理 網 站 (http://smr.swcb.gov.tw/academia.asp?block=1)。
本研究蒐集資料共計十二類,包含網格及向量 兩 種 資 料 型 態 , 其 中 數 值 高 程 模 型(Digital Elevation Model, DEM)、SPOT 衛星影像、水系、
道路與斷層資料可藉由額外計算獲得衍生資料,詳 情請見表1。DEM 網格大小原為 40 公尺×40 公尺,
為能與SPOT 影像套疊(SPOT-2 及 SPOT-4 空間解 析度為 20 公尺×20 公尺,SPOT-5 為 10 公尺×10 公尺),本研究將所有網格資料重新取樣成 10 公尺
×10 公尺。關於篩選 SPOT 衛星影像策略,以表 2 各颱風登陸前品質較佳且少雲者為原則。另外,表 2 的崩塌像元數是由表 1 的崩塌範圍向量資料轉成 網格型式而得,大小亦為10 公尺×10 公尺。
圖1 石門水庫集水區位置圖 表1 蒐集資料
資料型態 原始資料 衍生資料 備註
網格 數值高程模型 高程 40 公尺×40 公尺,重新取樣成 10 公尺×10 公尺。
坡度 坡向 曲率 SPOT 衛星影像 正規化差異植生
指標
SPOT-2 及 SPOT-4 為 20 公尺×20 公尺,重新取樣成10 公尺×10
公尺,以套合SPOT-5。
向量 水系 水系距離 -
道路 道路距離 1/25,000 地形圖
斷層 斷層距離 1/50,000 斷層圖
地質 1/500,000 地質圖
土地利用 工業技術研究院
土壤 1/25,000 土壤圖
崩塌範圍 (陳良健等,2006;蔡富安&饒見
有,2008) 表2 颱風事件及崩塌像元數
名稱 侵台時間 崩塌像元數 名稱 侵台時間 崩塌像元數
敏督利 2004/7/1 216 寶發 2006/8/9 9
艾利 2004/8/25 33815 聖帕 2007/8/16 334
納坦 2004/10/25 30 韋帕 2007/9/18 363
海棠 2005/7/18 100 柯羅莎 2007/10/6 439
馬莎 2005/8/4 2120 卡玫基 2008/7/17 84
泰利 2005/9/1 205 鳳凰 2008/7/28 424
碧利斯 2006/7/13 48 辛樂克 2008/9/14 996
凱米 2006/7/24 111 薔蜜 2008/9/28 335
4. 研究流程與方法
本研究流程可概分四大項,即資料前處理與整 合、分析策略、演算法與成果,如圖2 所示。資料 前處理與整合階段,先輸入崩塌因子(即表 1 的資 料,但不包含崩塌範圍),並將向量資料網格化,
與網格資料一起進行前處理,再對特定資料進行空 間分析,得到衍生資料。接著整合所有資料,供後 續資料探勘演算法分析。而前處理包括清除空值紀 錄、DN 值轉輻射值及多時期衛星影像之相對輻射 校正。
至於分析策略,本文根據崩塌範圍轉換成像元 型態,從整合資料中找出對應的屬性;針對非崩塌 區域的屬性,本研究以隨機方式取樣,數量以崩塌 像元的十倍測試,以期符合實況比例,並取出相對 應屬性,最後合併成非崩塌資料。當崩塌與非崩塌 資料挑選完畢,接續整合兩者並建置訓練、檢核與 預測等三種資料,前者供資料探勘演算法建立崩塌
知識模型,後兩者作為成果的評估機制,檢核結果 代表可靠程度,預測準確度表示模型的預測能力。
其中,2008 年當作預測資料,2/3 的 2004 至 2007 年資料作為訓練資料,剩餘者為檢核資料。
本研究利用決策樹與貝氏網路演算法進行坡 地崩塌因子資料探勘分析。為了解所有崩塌因子於 資料探勘過程的交互作用,在執行資料探勘前,先 進 行 崩 塌 因 子 顯 著 性 分 析 和 特 徵 縮 減(feature reduction)。由於決策樹是以資訊獲利(information gain)作為評估基準,且並無與貝氏網路相關的因子 分析,故本文採用資訊獲利(詳情請見 4.2 節)探討 崩塌因子的顯著程度。在成果部分,採用誤差矩陣 (error matrix) 計 算 整 體 精 度 (Overall Accuracy, OA)、生產者精度(Producer’s Accuracy, PA)、使用 者精度(User’s Accuracy, UA)與 Kappa 等四種統計 指標評估分析成果。若成果通過門檻,則據演算法 提供的偵測成果與機率值輸出成崩塌預測及潛勢 圖。