• 沒有找到結果。

應用非監督模式分類河川污染空間分佈之研究

N/A
N/A
Protected

Academic year: 2022

Share "應用非監督模式分類河川污染空間分佈之研究"

Copied!
16
0
0

加載中.... (立即查看全文)

全文

(1)

Volume 14, No.4, December 2009, pp. 287-302

1國立雲林科技大學環境與安全衛生工程系 講師 收到日期:民國 99 年 04 月 16 日

2國立雲林科技大學環境與安全衛生工程所 碩士 修改日期:民國 99 年 06 月 05 日

3國立雲林科技大學防災與環境工程所 碩士 接受日期:民國 99 年 07 月 02 日

通訊作者, 電話: 886-5-5342601 ext.4489, E-mail: shihml@yuntech.edu.tw

應用非監督模式分類河川污染空間分佈之研究

施明倫

1*

楊政儒

2

顏可翰

3

摘 要

本研究使用自行開發之非監督式兩階段模糊及機率模式作為河川空間污染分類的研究,目前水質遙 測分類大都使用監督模式,但監督式模式前提需建構一個多樣且代表性的學習樣本,相對的非監督模式 毋需準備學習樣本,只需要少部分現場水質污染監測分類值作為最終判斷的參考,且少了監督模式學習 建模之複雜性;本研究模式亦改善傳統非監督模式需要預設資料分類數的缺點,模式採自動最佳化分類 結果,因河川污染是由多種不同水質綜合而成,分類數也隨不同河川有所差異,故不預設模式分類數,

藉最佳化分類衛星遙測影像河川水體之污染情形。另外為提高對河川水質污染分類之精確度,透過篩選 輸入最佳光譜變量組合,可進一步建立一套遙測河川表面水質空間污染的分類系統。

關鍵詞:衛星遙測、兩階段模糊機率非監督模式、最佳化分類

1. 前言

1.1 研究背景

目前遙測技術已廣泛應用於氣象、農漁、防災、

土地管理及環境監測,遙感探測技術具有快速、簡 便、同步、客觀、經濟等優勢,可以有效的監測河 川表面水質參數空間及時間上的變化。有別於一般 傳統的河川水質監測,採用人工現場採樣實驗,再 求得其河川水質污染指標,不但成本高、耗時、同 步性差,且往往只能獲得河川上少數測站的水質狀 況,並不能有效的掌握整條河川水質之變化。因此 本研究嘗試使用衛星遙測影像,藉由開發之兩階段 非監督模式應用於河川水質污染分類的監測。以有 效且半即時的掌握河川水質污染指標的變化。本研 究使用SPOT 衛星影像圖, 衛星影像之幾何扭曲 校正,使得衛星影像在土地利用監測及水體辨識之 可行性,大幅提升河川湖泊水質監測之潛勢。

1.2 文獻回顧

水質遙測之探討文獻,一般可分為指標污染物 參數項目的選擇、光譜變量的選擇及應用的模式等。

本研究文獻回顧共分為四部份,第一部份提出應用 遙測水質指標進行光譜相關性分析之研究;第二部 份探討衛星影像水體辨識採用之方法;第三部份針 對衍生波段的採用及變量篩選之分析;第四部份則 探討非監督模式應用在影像分類之文獻。

1.2.1 衛星遙測水質指標可行性

Tripathi et al. (1998) 研究發現水質參數濁度 與透視度間具有 0.975 的高相關性,且當波長為 500~600 nm 時與水質參數濁度之非線性回歸模 式相關性高達 0.967;丹寧酸濃度高相關性的波長 為620~690 nm,相關性在 0.92~0.94 之間,而運 用遙測資料雖不能明確指出水中COD 值濃度現況,

但丹寧酸濃度與 COD 之相關性高達 0.959,因此 水中COD 值仍是可以透過丹寧酸濃度被監測。

Yang et al. (1999) 利用 SPOT 衛星於德基水

(2)

庫作為水質觀測工具,該研究僅採用一張衛星影像 圖,並於圖中取 5 個測點獲取水質(葉綠素、透視 度及磷酸鹽)樣本及光譜樣本,以多變量回歸分析 模式預估水質,從研究中發現預測葉綠素–a 之 R2 = 0.95;透視度 R2 = 0.95;磷酸鹽 R2 = 0.83,由該研 究結果顯示出利用 SPOT 遙測影像作監測特定水 質參數是可行的。

Wang et al. (2004) 此篇研究是以中國大陸廣 州之深圳的石岩水庫、鐵崗水庫、西麗水庫、匯田 水庫及深圳水庫五個重要水庫之水體做水質監測,

水質監測項目為生化需氧量 (BOD)、化學需氧量 (COD)、總有機碳 (TOC),該研究運用統計方法建 立以LANDSAT TM (thematic mapper) 波段與水 中溶解性物質 BOD、COD 及 TOC 之模式,運用 輻射校正作光譜分析並與實地採樣分析作比較。研 究結果顯示,在TM1-TM3,其 R2值分別為0.638、

0.607、0.780;在水質模式之建立上,運用多元回 歸方式估算水中TOC、BOD 及 COD 時,其 R2值 則分別為0.829、0.707、0.626,皆有較高線性相關,

特別是TOC,發現運用 TM1-TM3 光譜資料可對有 機污染物有較佳預測結果。

1.2.2 衛星影像水體辨識

本研究採用 SPOT 衛星影像作為河川水質分 類可行性之研究。由於 SPOT 衛星影像空間解析 度有20 公尺,因此水體像元的取樣非常關鍵,在 衛星影像內真實河川水體常受雲(含薄雲及厚雲 等)、陰影及河道邊之洪氾區土地覆蓋物影響,所 以如何正確取得水質監測站位置之衛星影像水體 像元光譜資料是非常重要的第一步驟。故本研究使 用ERDAS IMAGINE 軟體中的 ISODATA 法(Nellis et al., 1998)將水體及非水體的部份分類出來,並再 以人工圈選的方式將河道擷取出來。

1.2.3 衍生波段應用及變量篩選

Zang et al. (2002) 研究利用 Landsat TM1-4 可 見與近紅外光波段間組合為輸入變量進行回歸分 析發現葉綠素-a 與(TM2-TM3)/TM1 和 TM4/

(TM1+TM2+TM4)於線性方程式的 R2達0.67,

而RMSE(均方根誤差)值為 0.96;同時發現濁度與 組合波段中相關性高達0.66。

林家宏 (2007) 利用衛星遙測影像光譜原始 與衍生波段之輸入變量,以 Jeffries-Matusita (JM) Distance 取代計算之距離,作為特徵變量分離類別 能力之判別式,再藉由特徵變量鑑別度指標進行變 量篩選,挑選出最佳輸入變量組合,並結合類神經 網路學習之功能,建立河川水質污染指標(River Pollution Index, RPI)預測之模式,以証明河川水 質監測方面之可行性。

Chen et al. (2004) 整合衛星資源對香港鄰近 海岸及河口進行水質分類,以常態化差異水質指數 (The Normalized Difference Water Index,NDWI)作 為分類水體水質光譜反射之指標。

1.2.4 非監督模式應用影像分類之 可行性

Nellis et al. (1998) 則利用非監督式分類法 (ISODATA)先萃取分離出 LANDSAT/TM 圖像中 之水體像元,再將水體像元單獨作非監督式分類水 庫水體之懸浮固體、濁度及透視度,以得到水庫水 質的空間概略分佈。Chen et al. (2001) 使用模糊群 集法針對衛星遙測影像圖做土地利用分類,遙測影 像圖的實際試驗證實了FCM 提供一個獲得最佳群 數的方法。

綜合而言利用衛星遙測影像做水質方面的分 類大多使用監督式方法,如多變量回歸、類神經網 路、支撐向量機等,且大部分的研究都認為以監督 式方法作預測之效果較好,但使用前必須先建構一 個具有多樣且代表性的資料庫提供學習,但在累積 取得水質光譜資料庫上,尚不足以代表所有可能水 體污染,因此利用非監督式分類法在現階段的使用 上應該有較高的實用性。

2. 研究地區及基本資料

2.1 研究區域

(3)

本研究選用流域為淡水河、高屏溪及八掌溪,

選擇條件上盡量選取河道寬涵蓋流域面積大且水 質監測站較多之河川,其中八掌溪為早期之圖資,

故亦一併加入模擬,最後不選擇濁水溪原因為根據 經濟部水利署資料顯示,集集攔河堰設置後,濁水 溪水量減少一半,枯水期幾乎無水流排放,斷流嚴 重,加上監測站少,故僅擇取淡水河、高屏溪及八 掌溪作為本研究區域。

衛星拍攝日期則必須與環保署河川採樣為同 一天,由於河川採樣時間無法使數個測站配合衛星 拍照時間同步執行,故本研究假設河川水質於數小 時內為穩定狀態,並確認當日拍攝影像無任何雲層 遮蔽等干擾,故選擇高屏溪的2003 年 11 月 6 日、

2004 年 10 月 14 日及淡水河的 2003 年 5 月 7 日、

2004 年 1 月 6 日、2004 年 9 月 7 日、2004 年 11 月3 日與八掌溪 1996 年 12 月 5 日等空間解析度為 20 公尺之 SPOT 衛星影像進行流域水質測站樣本 的選取,並利用ERDAS IMAGINE 軟體進行衛星 影像的前處理,以萃取流域各個水質測站鄰近範圍 水體的灰度值,研究位置如圖1 所示。

圖1 研究區域

2.2 水質資料

本研究採用行政院環境保護署監測的水質資 料,利用其中四個水質參數項目DO、BOD、SS、

NH3-N 平均計算出河川污染指標(River Pollution Index,RPI),數值愈高表示污染愈嚴重,即是將 四個水質項目之濃度依其點數進行平均計算,所得 到的點數再根據污染程度積分範圍轉換成未 (稍) 受污染(A 級)、輕度污染(B 級)、中度污染(C 級) 及重度污染(D 級)。本研究再配合研究區域同一時 間之衛星影像作後續光譜估算水質污染分類面化 之研究。

3. 研究方法

本研究首先從行政院環保署取得河川水質參 數資料,做為本研究之輸入資料,再進行河道的選 取及光譜波段分析的評選,以萃取水質監測站的水 質參數及對應之像元波譜資料來判別分類,並利用 交叉驗證來估算其準確度。

3.1 水體像元選取

本研究因針對河川水體的辨識,河川水體寬度 一般較湖泊水庫或海洋範圍小,取樣上較為困難,

如果無法獲得解析度高之衛星影像,往往會使河川 水體取樣受到周圍雜訊之干擾,因此在遙測影像取 樣過程中,水體像元(pixels)的辨識為首要的關鍵。

首先本研究先以ERDAS IMAGINE 軟體之非 監督式分類法(ISODATA)將水體及非水體部份分 類出來,利用水體光譜反射值比非水體較小之差異 來增加水體分辨度,以提升水體取樣的準確性,最 後再以人工圈選方式擷取河道之水體。

3.2 輻射校正

輻射修正最主要的目的是在校正大氣散射的 影響及影像的失真與雜訊,然又因日照的強弱、大 氣的條件、太陽的高度角、觀測角度與表面反射率 等因素的變化與系統性的儀器誤差,會造成相同的

(4)

地物類別具有不同的輻射量,而不同的地物類別有 可能會具有相近的輻射量,如此會造成影像辨識上 的困擾。因此遙測影像在研究之前需要先經過輻射 修正,而輻射修正最主要包括兩種,衛星感測器的 錯誤修正(Correction for Sensor System Detector Error) 及 環 境 衰 減 修 正 (Correction for Environmental Attenuation Error),而本研究使用模 式為非監督,基本上無需作大氣校正,僅使用衛星 感測器的錯誤修正,主要藉由太陽天頂角、校正係 數及該衛星於外太空輻射值的演算方法,將影像的 灰度值轉換為反射率。

輻射校正方法:考慮太陽光輻射角從地面反射 到衛星的反射率

反射率 =

  E Z

G DC

cos

0





(1)

式中,DC (Digital count)為衛星測得的灰度值,G 是校正係數,θZE0分別為太陽天頂角及外太空 的輻射值。

3.3 波段篩選

本研究嘗試以SPOT 衛星影像原始三波段 B1

(Green, 綠光)、B2(Red, 紅光)、B3(Nearly Infrared Rays, 近紅外光),另參考相關文獻所使用 之衍生波段組合加選採用 B1-B2、B2-B3、B1

-B3、B1+B2、B2+B3、B1+B3、B1/B2、B1/B3、

B3/B2、1/B1、1/B2、1/B3、NDVI( 3 2

3 2

B B B B

,常態化 差異植生指標)、NDWI(

4 3

4 3

B B

B B

常態化差異水質指

數)、B1/(B1+B2+B3)、B2/(B1+B2+B3)、B3/(B1

B2 + B3) (Zhang et al.,2002; Hansen and Schjoerring, 2003; Chen et al., 2004)等波段來做為 本研究之輸入參數篩選。

3.3.1 相關性分析

本研究利用原始及衍生特徵變量與河川水質 污染指標(RPI)間之相關性分析,找出特徵變量

與RPI 間之相關性,其計算式如下:

  

   

 

 

2

2 y y

x x

y y x

R x (2)

R 是用來衡量一自變數 X 與因變數 Y 相關性之相 關係數,相關係數值介於0~1 之間,結果如表 1。

表1 特徵波段變量之相關性分析結果 特徵波段 相關係數 (R)

B1 0.32

B2 0.20

B3 0.61

1/B1 0.34 1/B2 0.25 1/B3 0.60 B1/B2 0.17 B3/B2 0.58 B1/B3 0.48 B2-B3 0.57 B1-B2 0.32 B1-B3 0.42 B1+B2 0.27 B2+B3 0.51 B1+B3 0.56 NDVI 0.59 NDWI 0.52 B1 % 0.41 B2 % 0.60 B3 % 0.56

3.3.2 變量篩選

依文獻中所參考的波段計算方式,應用於 SPOT 衛星影像原始光譜波段及衍生波段的計算,

共產生20 個變量,如表 1 所示。在本研究使用之 20 波段中,以特徵變量與 RPI 之相關性分析結果,

先取其相關係數大於0.5 以上之十個特徵波段,再 以此十個波段做特徵變量間的相關性分析,其結果 如表2。以相關係數高於 0.9 以上或接近 0.9 之數 值為依據,藉此將變量與變量之間較高相關的波段 選定一個,以避免使用兩個資訊重複相關性高之變 量。

(5)

表2 特徵波段變量間相關性分析結果

B3 1/B3 B2+B3 B1+B3 NDVI NDWI B2% B3% B3/B2 B2-B3 B3 0.92 0.93 0.91 0.77 0.82 0.60 0.81 0.78 0.71 1/B3 0.92 0.90 0.89 0.72 0.76 0.53 0.74 0.68 0.56 B2+B3 0.93 0.90 0.98 0.50 0.59 0.30 0.56 0.51 0.40 B1+B3 0.91 0.89 0.98 0.50 0.54 0.37 0.53 0.50 0.40

NDVI 0.77 0.72 0.50 0.50 0.95 0.91 0.98 0.98 0.96 NDWI 0.82 0.76 0.59 0.54 0.95 0.74 0.99 0.94 0.90 B2% 0.60 0.53 0.30 0.37 0.91 0.74 0.83 0.90 0.91 B3% 0.81 0.74 0.56 0.53 0.98 0.99 0.83 0.98 0.94 B3/B2 0.78 0.68 0.51 0.50 0.98 0.94 0.90 0.98 0.98 B2-B3 0.71 0.56 0.40 0.40 0.96 0.90 0.91 0.94 0.98

如表2 中可分出兩個組群,兩兩波段相關性最 少的 B3、1/B3、B2+B3、B1+B3,此四個波段彼 此相關性都很高,且 B3 與 1/B3 在運用上可視為 相同,為避免輸入相同資訊,且B3 與 RPI 相關性 為最高,所以選擇B3 做為輸入變量;另一群則以 B3/B2 作為第一個輸入變量,因這群中未有如 B3 與1/B3 之相同情形,其他五個波段都可使用。因 此以兩個波段為基礎,最後篩選出可使用之輸入變 量順序分別為:B3、B3/B2、NDWI、B3%、NDVI、

B2-B3、B2%。

3.4 兩階段非監督式模糊及機 率群集演算法

本研究所使用非監督模式之演算法分為兩個 階段,第一階段決定群體的個數並選擇候選群中心

(candidate centers),第二階段利用第一階段所選 擇的候選群中心當作起始群中心並分類出結果。圖 2 為兩階段非監督演算法流程圖。第一階段可分為:

『階層式減少候選群中心演算法』,將可能的候選 群中心挑選出來、『選擇候選群中心演算法』,則是 決定真正的候選群中心、『最佳化模糊因數演算法』,

決定模糊因數的大小。而第二階段是利用『EM 群

集演算法』分類出最後的結果。 圖2 兩階段非監督演算法流程圖

選擇候選群中心

EM 群集演算法 階層式減少候選群中心演算

選擇最佳化群數演算法

最佳化模糊因子演算法 輸入資料

否,m=m+0.1

利用距離最小的m 值找 最後群數及群中心位置

分類結果 m≧mmax

(6)

(6)

3.4.1 階層式減少候選群中心演算 法

階 層 式 減 少 候 選 群 中 心 演 算 法(HSC : Hierarchical Subtractive Clustering algorithm)是參 考(Tao, 2002)的作法,將所有的資料點分割成若干 個子集合,針對每個子集合選出若干個候選群中心,

再將個別子集合所選出來的候選群中心集合起來 成一個新的集合,再由這個新的集合選出若干個新 的候選群中心交給之後的演算法挑選。N 階層的目 的是要減低演算法的運算量,所以可以依據輸入的 資料量來決定需要做幾層的減少,如果輸入的資料 不多的話,可以直接當成一個集合選出這個階段的 候選群中心,但是如果輸入的資料量非常多的話,

可以多增加一層以減少運算的時間。

假設所有資料的集合為C = {x1, x2,…,xn},其 中n 是輸入資料點的個數,而每個點是 p 維的向量,

xi = (xi1, xi2, …, xip)。在第一層的運算中,先將集合 C 平均分成 NS 個子集合(在實際的程式裡,設定 NS= √ ),所以每個子集合的大小最多只有一個 的差距。假設每個子集合的大小為SS (SS = n / NS),

所以可以定義子集合為

NS λ x

x x

C { 1, 2,..., SS }, 1 

(3)

接著定義『鄰域』(neighbor),鄰域是指對一個資 料點來說,與它距離小於某個半徑內的點都是它的 鄰域,而這邊所定義的半徑(rmin)是對每個點的 每個維度算出其標準偏差值,取標準偏差最小的值 當作rmin,以數學式來說是

min

p

r

min

  

{x1p, x2p, ..., xnp}) (4)

另外需要定義密度函數(density function),一 個資料點x 的密度函數是指這個點的鄰域數,也就 是包含x 且與 x 的距離小於 rmin點數,可用下列式 子表示

b

j j i

i

i x u r x x

D

1 ( min )

)

(

(5)

The number of points in the neighborhood of 其中 u 是單位步階函數(unit step function) α

1 if α 0,

0 otherwise.,對一個子集合要選出候選群中心,

就是要先找到這個子集合中擁有最大密度函數的 點,並取這個點與其鄰域的質心當作候選群中心,

也 就 是 說 , 假 設 點 有 最 大 的 密 度 函 數 max

i ),那麼此子集合所選出來的第一個 候選群中心可以表示為

c1

c

= mean(data points in the neighborhood of xc1 ) 第二層HSC 的方法就像第一層的其中一個子 集合一樣,首先把第一層所有子集合所選出來的候 選群中心當成一個新的集合,並且利用找最大密度 函數的方式選出若干個新的候選群中心,最後得到 的候選群中心就是這階段所要的結果。

3.4.2 選擇最佳群數及起始群中心 演算法

新目標函數的意義在於當多選到一個群中心 時,點對群中心的能量總和(Jfcm)將減少,而中 心對中心間的能量和(Jcc)將增加,所以當點對群 中心減少的能量和大於中心對中心增加的能量和 時,該群中心才會被選出來,可以藉著誤差的大小 來決定模糊因數的值,誤差越小表示重建回來的集 合越好。

濃縮了候選群中心的個數,再此利用fuzzy 的 概念從這些群中心裡面選出真正要的部份。利用 FCM 的目標函數是

 

n

1 i

n

1 j

m 2 ji cm

p

j i

f x -cc

J

(7)

如果在群數尚未確定的情況下,最小化這個目 標函數將無法減少任何群中心個數,也就是說,假 設原本有n 個候選群中心,經由最小化 Jfcm之後也 會得到同樣n 個候選群中心,所以必須適當的修改 目標函數,在此增加群與群之間能量的參數Jcc

(7)

2

1 1

 

i j i

j i

cc cc cc

J

(8)

其中 β 是候選群中心的個數,所以新的目標函數

(Jnew)可以改寫成

 



1 1

n 2 1 i

n

1 j

m 2 ji

p

i ji

j i j

i cc fcm new

cc cc -cc

x J J J

(9)

新目標函數的意義在於當多選到一個群中心時,點 對群中心的能量總和(Jfcm)將減少,而中心對中 心間的能量和(Jcc)將增加,所以當點對群中心減 少的能量和大於中心對中心增加的能量和時,該群 中心才會被選出來。

3.4.3 最佳化模糊因子演算法

群集的結果會因為模糊因數大小的不同而有 很大的差異,因此我們希望演算法能夠自動決定一 個好的模糊因數。(Chen&Lee, 2001)認為若是針對 遙測影像圖的話,模糊因數應該要設成2.5 是最適 當的。(Cheng&Huang, 2004)提供一個方法可以計 算模糊因數的範圍,讓使用者自己選擇。(Deer&

Eklund, 2003)發現若是針對純圖元(pure pixels)

的影像,模糊因數應該設為 1.6,而如果是混合圖 元(mixed pixels)的影像,模糊因數應該設為 3。

另外也有許多方法認為不管針對任何資料的型態,

模糊因數都應該設為2。因此在這裡採用(Okeke&

Karnieli, 2006)的方法,從一定範圍內中尋找一個最 適當值。

假設資料集X = {x1, x2, …, xk}且 ,而 是 將X 經過 FCM 之後所得到的群中 心和歸屬函數

的乘積所得到的集合, , , ,

其中 ,而 = 。

假設藉著FCM 執行的過程後所得到 U 和 V,

要重建或預測(predict)原本的資料集 X,可以得 到 , 。X 與 間一定會有誤差,誤差的表示方 式是:

m X

X * , 0, (10) 所以可以藉著誤差的大小來決定模糊因數的值,誤 差越小表示重建回來的集合越好。

3.4.4 EM 群集演算法

利用第一階段的各個方法所得到的群數與群 中心位置當作起始條件,執行E-Step 和 M-Step 兩 步驟計算概似值(likelihood),當概似值的改變量小 於某個門檻值時,演算法就會停止執行。

兩個步驟如下式所表示:

E-Step (Expectation step)

K

k k i k k

k k i k i

x f k P

x f k x P

k P

1

) ,

| ( ) (

) ,

| ( ) ) (

| (

 (11)

其中

K

k

k P k

P

1

1 ) ( 0 , 1 ) (

M-Step (Maximization step)

N

i

i N

i

i i k

x k P

x x k P

1 1

)

| (

)

| (

(12)

N

i

i N

i

k i i k

x k P

x x k P

1 1

2

)

| (

) )(

|

(

(13)

N

i P k xi

x N k P

1

)

| 1 (

)

|

( (14)

而概似值的表示方式如下:

 

N

i

K

k P k f xi k

L

1 1

)

| ( ) (

log (15)

4. 結果與討論

本研究模式可作最佳化模糊因子及分類數,傳 統非監督模式只能預設其分類數,再從眾多結果中 主觀的選出最好之分類結果,作為其最佳分類。本

(8)

研究利用自動分類最佳化的程序,主要是期望改善 傳統非監督模式判斷最佳分類數不夠客觀的缺點;

而且本模式當所需分類之資料有特定類別,模式亦 可使用模糊因子之變更來吻合此特定分類數。

4.1 模式測試

在利用本模式對衛星影像河川水體作污染分 類前,預先對模式做測試,以確認模式的穩定性及 準確率。

本研究使用四種資料庫數據測試,其中有三個 國際常用的資料庫及一個本實驗室所做的衛星光 譜水質資料庫,茲分述如下:

(1) Iris data:鳶尾屬植物的資料(Iris data)是一個 標準的測試資料,它有150 筆資料,其中每筆 資料有4 個屬性,最後分類的結果為 3 類,而 每類各有50 筆資料。

(2) Thyroid gland data:由 Five 實驗室提供的有關 甲狀腺的數據,主要用來測試病人是否有甲狀 腺機能亢進、甲狀腺機能減退等症狀,資料共 有215 筆。其中每筆資料有 5 個屬性,而最後 分類的結果為3 類,包括 normal 的 150 筆資料,

hyper 的 35 筆資料,hypo 的 30 筆資料。

(3) Ruspini data:在 1970 年由 Ruspini 所提出,它 是一個人造的資料集,總共有75 筆資料。每筆 資料有2 個屬性,而最後分類的結果為 4 類;

如將屬性資料分別以X 與 Y 表示,很容易用圖 形來描述。

(4) RPI data:為本實驗室所製作之水質光譜資料集,

利用衛星影像光譜及水質監測站之資料,用以

作為測試光譜預測水質之數據,資料共有 123 筆。此水質監測資料為三種屬性之資料,此三 種屬性之資料為SPOT 衛星之光譜波段 B1(綠 光)、B2(紅光)、B3(近紅外光),最後分類 之結果為3 類,此三類分別為未受污染與輕度 污染的B 類有 35 筆,中度污染的 C 類有 37 筆 及嚴重污染的D 類有 51 筆。

表3 列出數種不同的常用非監督方法,與本研 究模式分別測試上述資料庫所得之結果,其中第一 到第四個方法都是以K-means 為主,差別在於挑選 起始群數及群中心的方法不同,如KMEANS-first k 指的是以前 k 筆資料當作起始群中心;FUZZY

(splus)是 S-Plus 軟體內建的方法,它的歸屬函 數與傳統模糊分類(FCM)不同。表 3 欄位說明詳述 如下:

(1) 分類模式:不同分類方法。

(2) 程式來源:表示電腦運算的程式取得來源。

“stat.”表示採用統計軟體 STATISTICA,“splus”

指的是採用統計軟體S-PLUS。

(3) 正確率:分類正確的百分比。

其中測試iris data 的結果,正確率為 94.0%;

測試 thyroid gland data,正確率為 96.7%;測試 ruspini data,正確率為 98.7%。此三種資料庫都是 有正確答案及分類群數,而當本模式需要預設分類 群數時,分類之結果依然比其他傳統非監督模式高,

且綜合國際資料庫之結果可以很明顯的發現本模 式正確率都達到94%以上,而在 RPI 水質資料中,

其測試之結果顯示,本模式分類之結果亦是所有模 式中最高的正確率(64%),證明其穩定性很高。

表3 不同非監督式分類方法預測結果比 No. 分類模式 程式

來源

Iris Thyroid Ruspini RPI 正確率(%) 正確率(%) 正確率(%) 正確率(%) 1 KMEAN-max stat. 89 89 64 64 2 KMEAN-random stat. 89 89 63 64 3 KMEAN-first k stat. 89 89 64 64 4 KMEAN-centroids splus 89 80 100 49 5 PAM-medoids splus 89 86 100 42 6 FUZZY splus 91 75 100 51 7 EM(random) stat. 94 96 99 59

8 本研究模式 94 97 99 64

(9)

本模式經過測試,瞭解分類之準確率比其他傳 統非監督模式有較佳的成果及穩定性,因此將本模 式應用於衛星圖分類河川污染的空間分布,研究如 何利用衛星影像結合傳統水質採樣有效且半即時 地監測河川表面水質污染的全流域變化,並探討污 染分類面化圖的效果。

4.2 模式驗證

本研究嘗試利用以原始波段延伸之衍生波段 做變量組合,以此為新的輸入變量,而原始波段與 新增之衍生波段共有20 個,其若輸入之變量數太 多,資料筆數亦多因而增加模式運算時間。故經過 篩選後適合使用之變量順序分別為:B3、B3/B2、

NDWI、B3%、NDVI、B2-B3、B2%等七個波段。

依照順序輸入,由二個變量到七個變量組合,共六 組,以觀察多組波段的結果。經由本研究非監督模 式與ISODATA 模式分類過後,可得到新的河川水 體空間分類污染面化圖,再同樣利用河川水質監測 站之RPI 值作對照,以探討衛星影像水體污染分類 面化圖各種分類顏色污染級數認定之合理性。

4.2.1 模式最佳化結果(衍生變量)

本 研 究 以 非 監 督 模 式 共 分 類 七 張 衛 星 圖 (1996/12/05、2003/05/07、2003/11/06、2004/01/06、

2004/09/07、2004/10/14、2004/11/03),波段輸入方 面,先以B3、B3/B2 為第一組,再依序加入 NDWI、

B3%、NDVI、B2-B3、B2% 等,共有六個組合,

其分類結果準確率如表4。在各張衛星圖分類準確 率上,以變量數較多者為佳,但分類所需時間則會 拉長。如為求較高效率,不考慮最高準確率,可自 行選擇四~五個波段組合變量之其中一組,但本研 究建議使用六或七個波段做為輸入變量。

分類結果方面,以1996/12/05 來看,在二至四 個變量波段之分類準確率是比較差的,為60%,但 在五至七個波段組合其準確率皆高達80%以上,顯 示五到七個變量分類效果優於二到四個變量波段;

在2003/05/07 衛星圖之二至七個變量波段分類中,

以三、五、六及七個波段為最佳,其準確率達到 80%,其中二及四個波段為最差,準確率各為 60%

70%;2003/11/06 之分類結果三、五、六個變量 波段準確率皆達88%以上,二、四、七個變量波段 準確率稍低皆為75%;2004/01/06 之衛星圖在二至 七個變量波段分類準確率皆相當高,到達 86%;

2004/09/07 之六個變量組合分類準確率皆為 83%;

最後2004/10/14 及 2004/11/03 之分類準確率皆以七 個變量組合為最佳。

綜合上述之結果,以六或七個變量波段之分類 準確率為最好,其值皆達75%以上,其中以兩個變 量波段分類效果為最差,顯示當變量數增加時,其 分類準確率也跟著提升。

4.2.2 模式效能之比較

本研究經上述分類後,以ISODATA 模式僅輸 入七個變量波段,測試其效能,並與本研究非監督 模式作比較,如表5 為兩模式利用七個變量來分類 之準確率。表中顯示在1996 年至 2004 年 9 月前五 張衛星圖(八掌溪、淡水河、高屏溪、淡水河、基 隆河)之分類結果方面,不論是本研究非監督模式 或ISODATA 模式其分類準確率皆相同,幾乎無太 大差異,但在最後兩張衛星圖2004 年 10 月及 11 月(高屏溪、淡水河)之分類結果則有明顯之差異,

其準確率皆以本模式為最佳,分別為75%及 90%,

ISODATA 模式之準確率僅為 50%及 60%,顯示 本研究非監督模式在分類準確率上仍較 ISODATA 法穩定。

(10)

表4 本模式分類衛星圖利用七變量波段之六個組合分類準確率 正確率(%)

二 三 四 五 六 七 1996/12/05 60 60 60 80 80 80 2003/05/07 60 80 70 80 80 80 2003/11/06 75 88 75 88 88 75 2004/01/06 86 86 86 86 86 86 2004/09/07 83 83 83 83 83 83 2004/10/14 50 50 50 63 75 75 2004/11/03 50 60 70 70 80 90 表5 非監督模式及 ISODATA 模式以七個變量波段分類衛星圖之準確率

時 間 區域 最佳分

類數 本模式 ISODATA

1996/12/05 八掌溪 6 80% 80%

2003/05/07 淡水河 7 80% 80%

2003/11/06 高屏溪 6 75% 75%

2004/01/06 淡水河 5 86% 86%

2004/09/07 基隆河 5 83% 83%

2004/10/14 高屏溪 6 75% 50%

2004/11/03 淡水河 7 90% 60%

4.3 河川污染分類面化圖

本研究在經過上述七張影像分類之結果,確定 以七個波段變量在分類準確率上已有明顯的提升,

且與ISODATA 模式比較也有較佳的準確率,最後 將七張圖利用七個變量波段分類過之衛星圖以空 間污染分佈面化圖來呈現,如圖3 至圖 9,同樣利 用河川水質監測站之RPI 值作對照,來探討衛星影 像水體污染分類之設定級數。其判別河川污染分類 的結果依據如下:

(1) 當河川水體衛星影像圖做出分類後,因顏色並 沒有固定污染類別,使得難以分辨顏色分佈是 否正確,所以配合河川水質監測站之RPI 類別

資料,以合理判別分類顏色與水質污染之吻合 度。

(2) 先選擇單一顏色類別之測站資料,再比較水質 污染類別,找出其站數較多之水質污染類別,

以此水質類別為此顏色分類之污染類別。

(3) 而當顏色類別上只有單一測站時,即以此測站 之水質污染類別為此顏色之污染類別。

(4) 當測站剛好位於兩個顏色類別之間時,則兩種 顏 色 類 別 都 可 判 定 為 此 測 站 之 水 質 污 染 類 別。

(5) 顏色主要分佈於河道邊緣之類別,如未有分佈 於河道中央,也就是未與其他顏色混合在一起 之顏色,則將其認定為非水體。

衛星拍攝日期

波段數

(11)

圖3 為 1996 年 12 月 5 日八掌溪流域之分類面 化結果,其分類結果之綠色、黃色、紅色及藍色為 C 級污染,紫色為 B 級污染,就顏色分佈上僅軍輝 橋出現分類錯誤之情況,將A 級污染分類為 C 級 污染,顯示分類準確率達80%。

圖4 為 2003 年 5 月 7 日淡水河流域之分類面 化結果,黃色為 C 級污染,紅色、藍色、及綠色 為 D 級污染,淺藍、紫色與灰色為非水體之分類 結果。由圖可明顯地發現模式將非水體之部分分離 出,而整張圖之錯誤分類,以關渡橋、中正橋之水 質指標類別為C 級污染,而模式所分類之類別為 D 級污染的紅色與藍色,僅兩監測站分類錯誤,且由 於其分類數較多,所以其分類之準確率也明顯的提 高。

圖5 為 2003 年 11 月 6 日高屏溪流域之分類面 化結果,本研究模式分類分佈黃色、紅色、藍色及 綠色為 A 級污染,紫色、粉藍色為非水體,里港 橋為C 級污染卻分類為黃色之 A 級污染類別,旗 南橋為B 級污染卻分類為藍色之 A 級污染類別,

此兩測站分類錯誤。

圖6 為 2004 年 1 月 6 日淡水河流域之分類面 化結果,其中黃色、紅色、綠色及紫色皆為 D 級 污染,藍色則為非水體,其中僅關渡橋分類錯誤,

此張分類準確率達86%。

另外圖7 為 2004 年 9 月 7 日基隆河,是淡水 河流域之分流,故為淡水河一部份,其分類面化結 果,以紅色為D 級污染,綠色及藍色皆為 C 級污 染,紫色及黃色則判別為非水體部分,此張僅南湖 大橋分類錯誤,準確率達83%,另外此張圖也將非 水體部分明顯分類出來。

圖8 為 2004 年 10 月 14 日高屏溪流域分類面 化結果,以紅色及綠色為B 級污染,黃色、淺藍、

藍色皆為 A 級污染,而紫色為非水體,此張圖大 津橋及里港橋皆為 C 級污染,但面化圖卻未分類 出 C 級污染顏色,顯示兩監測站分類錯誤,其準 確率為75%,雖稍低但仍遠高於 ISODATA 準確率 50%。

最後圖9 為 2004 年 11 月 3 日淡水河流域分類 面化結果,以紅色及藍色為 D 級污染,紫色及綠

色為 C 級污染,黃色、淺藍、灰色皆為非水體,

其中僅關渡橋及重陽橋分類錯誤,準確率高達90%,

ISODATA 之準確率僅 60%,顯示本模式運算之 準確率較佳。

5. 結論與建議

總體來說,本研究結果歸納如下:

(1) 本研究非監督模式在測試過後,不論預設類別 數或最佳化分類結果都比傳統非監督模式可 得到較佳的結果。以國際間常用的資料庫作測 試之結果可以很明顯的發現模式正確率都達 到94 %以上,而在本實驗室所收集之衛星光譜 水質污染分類資料庫的測試結果也可達到 64

%,亦不比現有常用的非監督模式模擬結果差,

證明其穩定性很高,加上本模式毋需主觀預設 分類數,更顯現其應用的方便性。

(2) 本研究使用波段經過變量篩選後,選出七個波 段作為河川水體污染分類之最佳輸入變量組 合,此七個波段變量依序分別為:B3、B3/B2、

NDWI、B3%、NDVI、B2-B3、B2%,作為模 式的輸入參數,以非監督模式模擬的河川水體 污染分類圖確實比ISODATA 模式之河川水體 污染分類圖有較好的分類準確率。

(3) 本研究非監督模式雖然資料運算時間比較長,

亦僅需數小時即可完成,如相對硬體性能規格 能提昇,應可縮短很多運算時間,況且目前水 質監測的頻率每月僅一次,如需縮短監測頻率 時間為一週,本模式實際應用的可執行性仍 高。

(4) 本研究非監督模式以經過變量篩選後之衍生 波段組合作為輸入參數來分類河川水體污染,

未來可多嘗試不同的衍生變量,或加入環境因 子例如高程,對模式的分類影響,應該可以更 有效的提高本研究非監督模式之準確率。

(12)

圖3 本模式七個輸入波段八掌溪分類面化圖(1996/12/05)

(水體分類:6 最佳分類:6)

圖4 本模式七個輸入波段淡水河分類面化圖(2003/05/07)

(水體分類:4 最佳分類:7)

圖5 本模式七個輸入波段高屏溪分類面化圖(2003/11/06)

(水體分類:4 預設分類:6)

軍輝橋 A 級 嘉南大橋

C 級 厚生橋

C 級

八掌溪橋

C 級 五虎寮橋

B 級

■:C 級污染

■:C 級污染

■:C 級污染

■:C 級污染

■:C 級污染

■:B 級污染

■:D 級污染

■:D 級污染

■:D 級污染

■:C 級污染

■:非水體

■:非水體

■:非水體 重陽橋

D 級

忠孝大橋 D 級

新海橋 D 級 華江橋

D 級

百齡橋 C 級

大直橋 C 級

中山橋 C 級

華中橋 D 級 關渡橋

C 級

中正橋 C 級

嶺口橋 A 級

里港橋 C 級

南華橋 A 級 大津橋

A 級 六龜橋

A 級 新旗尾橋

A 級 月眉橋

A 級

旗南橋 B 級

■:A 級污染

■:A 級污染

■:A 級污染

■:A 級污染

■:非水體

■:非水體

(13)

圖6 本模式七個輸入波段高屏溪分類面化圖(2004/01/06)

(水體分類:4 預設分類:5)

圖7 本模式七個輸入波段基隆河分類面化圖(2004/09/07)

(水體分類:3 最佳分類:5)

圖8 本模式七個輸入波段高屏溪分類面化圖(2004/10/14)

(水體分類:5 最佳分類:6)

關渡橋 C 級

重陽橋 D 級 忠孝大橋

D 級 新海橋

D 級 華中橋

D 級 中正橋

D 級

華江橋 D 級

■:D 級污染

■:D 級污染

■:D 級污染

■:D 級污染

■:非水體

百齡橋 D 級 中山橋

C 級

大直橋 C 級

民權大橋 C 級

成美橋 C 級

南湖大橋 C 級

■:D 級污染

■:C 級污染

■:C 級污染

■:非水體

■:非水體

月眉橋 A 級 新旗尾橋

A 級 旗南橋

B 級

嶺口橋 A 級

六龜橋 A 級

大津橋 C 級 南華橋

B 級

■:B 級污染

■:B 級污染

■:A 級污染

■:A 級污染

■:A 級污染

■:非水體

(14)

圖9 本模式七個輸入波段淡水河分類面化圖(2004/11/03)

(水體分類:4 最佳分類:7)

綜合上述結論,使用本研究開發的非監督模式 產生衛星影像水體污染分布面化圖具有相當可靠 的應用層面,未來環保署可利用此模式定期將河川 流域的概略污染情形發布供民眾參考。惟其辨識過 程亦容易受水體表面雜質或水體邊界及較淺水體 如浮覆地、沙洲與洪氾地的干擾,造成模式預測產 生非水體之可能分類,此現象容易使管理者有誤判 的結果,在未來應用上勢必要找出更能分離出非水 體的前處理方式。另外在八掌溪及高屏溪之河川水 體,由於河道較窄,截取河道時斷斷續續、常有破 碎辨識不清的情形,使水體沒有連貫,未來建議使 用其他解析度較高之衛星影像應可解決此問題,但 應用上仍以河道較寬及水深較大的河川比較合適。

雖然本研究模式在運算時間上,需使用較多之時間,

但所使用之硬體設備等級只是個人電腦,在運算速 度上本就會受到限制,將來隨著硬體設備提升,應 可改善運算時間長的缺點。

參考文獻

李茂園,2001。高解析度衛星影像之幾何處理與定 位精度分析,國立台灣大學碩士論文,臺北 市。

林家宏,2007。遙測影像預測河川水質指標輸入變 量篩選之研究,雲林科技大學環境與安全衛生 工程所碩士論文,雲林縣。

Chen, C. F., J. M. Lee, 2001. The Validity Measurement of Fuzzy C-means Classifier for Remotely Sensed Images. 22nd Asian Conference on Remote Sensing, pp 208-211.

Chen, X., Y. S. Li, Z. Liu, K. Yin, Z. Lid, W. O. Wh, B. King, 2004. Integration of multi-source data for water quality classification in the Pearl River estuary and its adjacent coastal water of Hong Kong. Continental Shelf Research, 23:1827-1843.

Cheng, J. Yu, Q., and H. Huang, 2004. Analysis of the Weighting Exponent in the FCM. Systems, Man and Cybernetics, Part B, IEEE Transactions on, Vol. 34, pp 634-639.

Deer, P. J., P. Eklund, 2003. A Study of Parameter Values for a Mahalanobis Distance Fuzzy Classifier. Fuzzy Sets and Systems, Vol. 137.

Nellis, M. D., J. A. Harrington Jr. , J. Wu, 1998.

Remote sensing of temporal and spatial variations in pool size, suspended sediment, turbidity, and Secchi depth in Tuttle Creek Reservoir, Kansas: 1993. Geomorphology, 21:281-293.

Okeke, F., A. Karnieli, 2006. Linear mixture model approach for selecting fuzzy exponent value in fuzzy c-means algorithm. Ecological Informatics, Vol. 1, pp 117-124.

關渡橋 C 級

重陽橋 D 級

忠孝大橋 D 級 新海橋

D 級 華江橋

D 級

百齡橋 C 級 大直橋

C 級

中山橋 C 級 中正橋

C 級 華中橋

D 級

■:D 級污染

■:D 級污染

■:C 級污染

■:C 級污染

■:非水體

■:非水體

■:非水體

(15)

Tao, C.W., 2002. Unsupervised fuzzy clustering with multi-center clusters. Fuzzy Sets and Systems, Vol. 128, pp 305-322.

Tripathi, N.K., C. Venkobachar, K.S. Ramesh, P.S.

Shiv, 1998. Monitoring the pollution of river Ganga by tanneries using the multiband ground truth radiometer. ISPRS Journal of Photogrammetry & Remote Sensing, 53 , 204-216

Wang, Y., H. Nia, J. Fu, G. Sheng, 2004. Water quality in reservoirs of Shenzhen, China:

detection using LANDSTA/TM data. The Science of the Total Environment, 195-206.

Yang, M.D., C.J. Merry and R.M. Syker, 1999.

Integration of Water Quality Modeling, Remote Sensing, and GIS. J. Am. Water. Resour. As 35(2):253-263.

Zhang, Y., J. T. Pulliainen, S. S. Koponen, M. T.

Hallikainen, 2002. Application of an empirical neural network to surface water quality estimation in the Gulf of Finland using combined optical data and microwave data. Remote Sensing of Environment, 327-336.

(16)

1Instructor, Institute of Safety, Health and Environmental Engineering, Received Date: Apr. 16, 2010 2 National Yunlin University of Science & Technology Revised Date: Jun. 05, 2010 2Master, Institute of Safety, Health and Environmental Engineering, Accepted Date: Jul. 02, 2010

4National Yunlin University of Science & Technology

3Master, Institute of Disaster Prevention and Environmental Engineering, National Yunlin University of Science & Technology

*.Corresponding Author, Phone: 886-5-5342601 ext.4489, E-mail: shihml@yuntech.edu.tw

Using Unsupervised Method To Classify the Space of River Pollution in the Image of the Satellites

Min-Luen Shih 1* Jeng-Ru Yang 2 Ke-Han Yan 3

ABSTRACT

This story uses a two unsupervised fuzzy and probabilistic clustering method in order to research how predict the space of rivers is polluted. The river pollution includes many kinds of different water quality. But it is to need to possess various and representative study sample to utilize the supervised type to classify. Unsupervised method does not needing to study samples, but need local value as monitoring and classifying the basis finally. This method improves many traditional unsupervised methods that have been set up the number of clusters, and the automatic optimization classification. It is classing the pollution of river in the image of the satellites. In addition improve the accuracy predicted to the pollution of river, input the best variable association that is screened, in order to set up the prediction system that the space of river pollution in the image of the satellites.

Keywords:

remote sensing, two unsupervised fuzzy and probabilistic clustering method, feature selection

參考文獻

相關文件

Reading Task 6: Genre Structure and Language Features. • Now let’s look at how language features (e.g. sentence patterns) are connected to the structure

好了既然 Z[x] 中的 ideal 不一定是 principle ideal 那麼我們就不能學 Proposition 7.2.11 的方法得到 Z[x] 中的 irreducible element 就是 prime element 了..

volume suppressed mass: (TeV) 2 /M P ∼ 10 −4 eV → mm range can be experimentally tested for any number of extra dimensions - Light U(1) gauge bosons: no derivative couplings. =>

For pedagogical purposes, let us start consideration from a simple one-dimensional (1D) system, where electrons are confined to a chain parallel to the x axis. As it is well known

The observed small neutrino masses strongly suggest the presence of super heavy Majorana neutrinos N. Out-of-thermal equilibrium processes may be easily realized around the

incapable to extract any quantities from QCD, nor to tackle the most interesting physics, namely, the spontaneously chiral symmetry breaking and the color confinement.. 

(1) Determine a hypersurface on which matching condition is given.. (2) Determine a

• Formation of massive primordial stars as origin of objects in the early universe. • Supernova explosions might be visible to the most