Volume17, No2, August 2013, pp. 135-148
1醒吾科技大學資訊圖書處 行政組組長 收到日期:民國 102 年 04 月 08 日
2國立臺灣海洋大學海洋環境資訊系 教授 修改日期:民國 102 年 07 月 15 日
3國立臺灣大學生物環境系統工程學系 博士後研究員 接受日期:民國 102 年 07 月 24 日
*通訊作者, 電話: 0910-560101, E-mail: [email protected]
運用資料探勘技術分析熱帶海水表面溫度
李永翔
1*郭南榮
2摘 要
本 研 究 應 用 資 料 探 勘 技 術 提 升 地 球 同 步 作 業 環 境 衛 星(Geostationary Operational Environmental Satellite, GOES)的紅外線感測器所量測導出的熱帶海面溫度資料的準確度,並探討影響誤差的主要因素。
由倒傳遞類神經網路(Back Propagation Network, BPN)的演算,得到日平均的海面溫度均方根誤差(Root Mean Square Error, RMSE)從 0.58 K 降至 0.37 K,平均絕對百分比誤差(Mean Absolute Percentage Error, MAPE)為 1.03%;小時的海面溫度均方根誤差從 0.66 K 降至 0.44 K,MAPE 值為 1.1%,顯示倒傳遞類神 經網路演算法有效改善了海面溫度估計的準確度。對於不同比例的雲層遮蔽情況下,倒傳遞類神經網路 對於衛星海面溫度資料修正後之RMSE 均維持在 0.38 K 以下,展現倒傳遞類神經演算法對於海面溫度分 析時之抗雜訊能力。另外,分析結果也顯示大氣溫度是影響誤差的主要因素,其次為風速與相對溼度。
關鍵詞:資料探勘、倒傳遞類神經網路、紅外線感測器、海面溫度、熱帶太平洋
1. 前言
海洋佔地球表面積約 71%,其含熱量(Heat Content)較大氣高,因此扮演著記憶大氣的角色。
地球主要的能量來源是來自於太陽,而海洋所吸收 到的能量,幾乎都儲存在海水表層兩百公尺左右的 範圍內(Merchant et al., 2003),因此海面溫度(Sea Surface Temperature, SST)是影響天氣和氣候的一 個重要因素。由於海面溫度是觀測海洋對天氣與氣 候影響的重要因素之一(Merchant et al., 2003),正 確且完整的海面溫度資料,有助於提高天氣及氣候 預報的準確性。
資料探勘(Data Mining)技術最早應用在天文 學的領域中,近來也有不少的海洋相關研究也開始 使用資料探勘技術。例如Barnes et al. (2007)應用 於分析衛星影像資料,並推估受颱風影響的區域;
Huang et al. (2007)使用模糊推論預測海水溫度與 鹽度的變化,並提出跨界性關聯規則優於一般傳統 的關聯規則方法,同時將模型推估準確度提升至 82%;Steinbach et al. (2002)則使用群集演算法探討
海洋氣候指標(Ocean Climate Indices),顯示資料探 勘技術是可以廣泛應用在海洋環境資訊分析領域 中。本研究利用資料探勘技術,使用時間解析度較 高 的 地 球 同 步 作 業 環 境 衛 星(Geostationary Operations Environmental Satellite, GOES)海面溫度 產品,對 2003~2010 年東太平洋赤道地區進行分 析 , 並 使 用 NOAA (National Oceanic and Atmospheric Administration) 的 熱 帶 大 氣 海 洋 (Tropical Atmosphere Ocean, TAO)浮標實測資料,
對紅外線電磁波能量之實測變數進行校正,進而建 立一海面溫度修正模型。除識別出影響 GOES 衛 星海面溫度誤差的關鍵因素外,並評估不同海面溫 度產品特質下,是否會影響探勘模型之分析結果。
1.1 衛星遙測海面溫度
自1980 年代以來,內建紅外線和微波感測器 的人造衛星,已廣泛應用在研究全球海面溫度空間 和時間的分佈和變化。美國國家海洋暨大氣總署在 其繞極軌道衛星 NOAA 上搭載的先進極高解析度 輻射儀(Advanced Very High Resolution Radiometer, AVHRR)感應器,應用多頻道海水表面溫度演算法
(Multi-channel Sea Surface Temperature, MCSST)反 演出海面溫度(McClain et al., 1983)。後續研究所發 表的 MCSST 演算法,則再加入修正衛星天頂角 (Satellite Zenith Angle)變量因素(Shoichi & FutoKi, 1996)。一般使用 MCSST 演算法所量測出來的海 面溫度誤差範圍約在 0.6~0.7 K 左右(Strong &
McClain, 1984; McClain, 1989; May et al., 1992)。為 有效降低MCSST 演算法所產生的誤差,後續研究 發展出非線性海面溫度(Nonlinear SST, NLSST)演 算法,其中的變數隱含了一些與水氣總量有關的參 數使用(Emery et al., 1994; Walton et al., 1998;
Martin, 2004)。近來海面溫度的修正研究大多是利 用實測資料與衛星量測資料比較,修正之前的演算 法,而使得資料庫資料較為可信(Stark et al, 2008;
Dash et al., 2010; Høyer et al., 2012)。也有應用不同 衛 星 量 測 資 料 調 整 其 他 衛 星 量 測 之 海 面 溫 度 (Petrenko et al., 2011; O'Carroll et al., 2012)。
由於熱紅外容易受到水氣影響,所以衛星紅外 影像會受到雲層水氣的遮蔽,平均不到15%的資料 才具有使用價值(Merchant et al., 2003)。但因地球 同步衛星可於定點以每半小時提供一張地球四分 之一區域的影像資料,相對地其過濾雲層遮蔽的能 力比繞極衛星高出許多。雖然地球同步衛星所使用 的海面溫度演算法與繞極衛星的演算法相似,但地 球同步衛星因距離地表遠,訊號強度較弱,有著比 繞極衛星更高的系統雜訊產生(Richard & Tong, 1997)。
1.2 資料探勘
資料探勘是由 Fayyad (1991)所發展的一套樣 本辨識演算法(Pattern Recognition)衍生出來。此演 算法藉由統計、機器學習(Machine Learning)、樣本 辨識(Pattern Recognition)等技術,成功地應用在多 種領域中。而資料探勘可說是透過對資料庫的萃 取,挖掘過去所未曾發現的新資訊(Frawley et al., 1992; Berry & Linoff, 1997; Ronald, 2001)。類神經 網路是資料探勘的方法之一,Thiemann & Schiller (2003)曾利用類神經網路分析德國康士坦湖(Lake Constance)水面溫度,並比較使用不同地區的複迴
歸係數之分析式,得到類神經網路演算法推估湖水 溫度的結果比複迴歸分析為佳。Krasnopolsky &
Schiller (2003)也證明在遙感探測上,類神經網路是 一個適當且有效的工具。他們使用風速、水氣等影 響衛星亮度溫度資料作為前饋式類神經網路的輸 入項目,結論認為類神經網路比其他統計方法更能 夠優化輸入項與輸出項之間的統計聯繫。Elisa &
Joan (2007)使用類神經網路預測地中海西部的海 面溫度,該研究利用平均海平面氣壓、緯向與經向 風分量、大氣溫度、露點濕度,總雲量等六個輸入 資料,並使用三個隱藏層共20 個神經元網路進行 分析,結果成功預測地中海西部海面溫度的季節性 與年際性的變化。
1.3 倒傳遞類神經網路
倒傳遞類神經網路在類神經網路中的學習演 算法歸類中,是屬於監督式學習網路。類神經網路 的基本處理單元具備了資料處理、接收、以及傳遞 訊息的功能,並能同時接受和處理類比、模糊、和 隨機的訊息,以便有效解決問題(Sarle, 1994)。網 路是由多層神經元構成的一個結構組合,網路的學 習就是在調整神經結的權重。這是使用最廣泛的人 工神經網路模型,也是一個最經常被應用的數據挖 掘方法(Miller & Emery, 1997)。
Cybenko (1989)提出,類神經網路只需一層隱 藏層的配置,便可模擬任何線性或非線性的資料關 係,本研究據此架構三層式的倒傳遞類神經網路。
為使神經網路運算速度加快,並避免得到區域最佳 解(Local Optimal),模型應用最陡坡法(Levenberg Marquardt , LM)演算法,修正學習過程的權重 (Weight)與偏差值(Error),來達到神經網路的收 斂,以得到最佳的學習效果(Hagan & Menhaj, 1994;
Fun & Hagan, 1996)。類神經網路在開始訓練時,
通常使用均方和誤差(Mean Squared Error, MSE) 計算整批樣本輸出值與實際值的差異,其定義為:
其中
x 為原數值、y 為訓練後的數值、n 為個數。
(1)
2. 資料與方法
2.1 研究資料
研究範圍自北緯8 度到南緯 8 度;西經 95 度 到170 度間的區域,如圖 1 所示,擷取資料時間自 2003 年 5 月到 2010 年 12 月間的衛星與實測資料,
並利用資料探勘技術對地球同步衛星的海面溫度 資料進行分析。
120oE 160oE 160oW 120oW 80oW 40oS
20oS 0o 20oN 40oN
圖1 研究海域,北緯 8 度到南緯 8 度;西經 95 度 到170 度(紅色斜線區域)。
本 研 究 利 用 國 際 熱 帶 海 洋 全 球 大 氣 計 畫 (International Tropical Ocean Global Atmosphere, TOGA)所建立的 TAO (Tropical Atmosphere Ocean) 陣列作為實測資料來源,此項實測資料已廣泛使用 在 科 學 研 究 上( 例 如 : Legeckis & Zhu, 1997;
Chambers et al., 1998; Murray et al., 2000; Neeraj et
al., 2007)。由於研究區域中的 TAO 浮標設備所提
供資料的時間尺度不一,本研究資料取得方式一律 採用各測站時間尺度最小的資料集,再依研究需要 進行資料合成。TAO 浮標提供的風向資料為 0 到 360 度的數值資料,依據資料探勘分析的正規化概 念,並滿足類神經網路資料分析的限制,本研究簡 化風向資料為四個方向,劃分風向為東風(45°〜135o)、南風(135o〜225o)、西風(225o〜315o)、北風 (315o〜45o)。淨長波輻射通量資料(Net Longwave Radiation Flux)為 NOAA(http://www.cdc.noaa.gov/) 所提供的全球日平均資料,本研究以浮標位置為中 心點,擷取所需的淨長波輻射資料值,並將數據匯 出至資料庫中與其他資料整併。由於該資料並無小 時平均資料,因此將不列入小時資料的分析中。
衛星資料所使用的 GOES 海面溫度產品資料 為 美 國 物 理 海 洋 學 資 料 分 送 中 心(Physical Oceanography Distribute Active Archive Center, PO.DAAC)所製作的 Level 3 產品,資料解析度為 每像素(Pixel) 6 公里 6 公里,時間解析度為每小 時 一 筆 資 料 , 研 究 利 用 產 品 提 供 之 讀 取 程 式 (ftp://podaac/pub/sea_surface_temperature/goes/goes 11-12/software/MATLAB),將影像中研究區域的浮 標點的海面溫度資料讀取出來,並與其他資料整 併。
由於 GOES 為地球同步衛星,光學路徑也比 繞極衛星大許多,Yokoyama (1991)認為考量不同 地區的特性而調整,應可改善誤差。本研究新增一 個衛星方位角(Satellite Zenith Angle)分析參數。研 究依照球面三角公式,計算TAO 浮標點位置與衛 星的方位角,公式如下:
sin ) (
cos ) cot (
e H a
e H e a a
(2)
其中
a
e表示地球的半徑,H 代表地球同步衛星與 地表的距離,代表地球球心到地球同步衛星和浮 標點的夾角,而θ 是方位角。
2.2 資料處理
為減少 GOES 衛星 Level 3 影像產品的雜訊 (Wu et al., 1999),本研究選取對應浮標點地區像素 為中心,擷取55 像素矩陣區域,剔除無效的像素 資料(如雲、陸地等)後,計算平均值存入資料庫 中。除建立每小時一筆的衛星海面溫度資料外,另 將原始資料合成日平均資料。浮標資料收集解析度 最高的資料,去除錯誤或無數據的紀錄後,再合成 小時平均資料及日平均資料。並參考 Wu et al.
(1999)做法,刪除所有缺漏的紀錄及三個標準差以 外的資料。部分實測資料時間尺度較小,為研究資 料的變異是否對海面溫度造成影響,在合成小時與 日平均的過程中,另產生資料合併時的均方根誤差 值(公式 1)。本研究收集的變數有海面溫度、大氣 溫度、風向、風速、相對溼度、長波輻射。由於淨 長波輻射資料只有每日平均資料可使用,本研究規
劃日平均資料部份使用8 個輸入變數,小時資料部 份則使用7 個變數,所有變數項目如表 1 所示。
PO.DAAC 於 2008 年起提供了濾雲率(Cloud Contamination Percentage, CCP),該產品預設之濾 雲率值為2%。為了解不同 CCP 對倒傳遞類神經網 路推估能力的影響,本研究另規劃四種不同 CCP 的小時資料,合併的資料採用分層抽樣方式,每測 站隨機不超過6,300 筆作為資料探勘分析的訓練資 料,剩餘資料作為驗證資料,變數如表2 說明:
Zeng et al. (1999)指出,在白天時,太陽的能 量直射在海平面上面,會在海面形成一個較熱的皮 層。而到了夜晚時間,海水的溫度又會因為太陽不 再加熱而冷卻。Fairall et al. (1996)指出日夜的差異 一般在1 K 左右,甚至有到 3 K。由於夜晚資料無 白天太陽反輝的影響,研究利用夜間資料訓練出來 之模型,來探討修正白天資料的能力。研究將小時 的資料區分為白天與晚上的資料,白天資料定義為
當地時間 08:00~17:00,夜晚時間則是當地時間 19:00~05:00。並以夜晚資料進行模型分析,白天的 資料則做為重複驗證與比較。資料利用式(3)進行 正規化運算,將所有輸入資料轉換成1 到-1 之間的 數值。
1 max min
min) (
2
P P
P P
Pnew . (3)
其中
P
new為正規化後的目標變數值,P
max為該 變數集合中的最大值,Pmin為該變數集合中的最小 值,P 值為目標變數值。為避免模型資料分布不平 均 而 造 成 各 項 變 數 權 重 的 偏 差 , 本 研 究 依 據 PO.DAAC 產品誤差±0.5 K 為基準,使用分層抽樣 的方式產生小時及日平均分析資料。每個測站每月 隨機抽樣不超過1000 筆,而在產品誤差範圍外的 資料,每個測站每月隨機抽樣不超過500 筆。表1 研究模型使用之輸入變數
日平均資料 小時資料
airt
Xi 大氣溫度 Xiairt 大氣溫度
ag
Xi 衛星方位角 Xiag 衛星方位角
rh
Xi 相對溼度 Xirh 相對溼度
std rh
Xi _ 相對溼度合成均方根誤差值 Xirh_std 相對溼度合成均方根誤差值
wspd
Xi 風速 Xiwspd 風速
std ws
Xi _ 風速合成均方根誤差值 Xiws_std 風速合成均方根誤差值
wd
Xi 風向 Xiwd 風向
nlwrs
Xi 長波輻射淨值
表2 濾雲率分析研究模型使用之輸入變數
變數代號 變數名稱
airt
Xi 大氣溫度
std airt
Xi _ 大氣溫度合成均方根誤差值
ag
Xi 衛星方位角
rh
Xi 相對溼度
wspd
Xi 風速
std wspd
Xi _ 風速合成均方根誤差值
wd
Xi 風向
std wd
Xi _ 風向合成均方根誤差值
2.3 資料模型評估與檢定
本研究日平均資料隨機選取 70%的資料設定 為訓練資料,其中的50%資料作為網路訓練,25%
的資料進行網路測試修正,25%的資料進行模型驗 證。餘30%的 5,229 筆資料作重複驗證。CCP 的資 料分析中,小時資料使用夜間資料(138,028 筆)做 模型訓練資料,其中的50%資料進行訓練,25%的 資料進行模型測試修正,25%的資料進行模型驗 證,訓練完成的模型另以日間資料進行重複驗證,
網路隱藏神經元均使用6 個隱藏層神經元。
為 有 效 評 估 本 研 究 之 模 型 , 以 相 關 係 數 (correlation coefficient, R)
平均絕對誤差(Mean Absolute Error, MAE)
n i x i y i n 1
MAE 1 (5)
均方根誤差(Root Mean Square Error, RMSE)
以 及 平 均 絕 對 百 分 比 誤 差(Mean Absolute Percentage Error, MAPE)
1 100
MAPE
n
n i x i
y i x i
(7)
進行評估。Makridakis (1993)建議使用 MAPE 做為 評估結果,因 MAPE 能整合不同衡量指標的最佳 特質,提供決策者當作一項判斷參考依據。Lewis (1982)也認為 MAPE 是最有效的評估準則,並提出 MAPE<10%時,則有高度準確的預測能力。
在倒傳遞類神經網路評估重要變數的方法是 以權重值大小為依據,網路中每個輸入變數與隱藏 層採取完全連結,以圖2 為例說明,每條連線都有
一個權重值,透過w1 (w2)、w3 (w4)、和 w5 (w6)三 個權重值與三個輸入變數連結,可了解那個輸入變 數對隱藏層神經單元FA (FB)影響最大,每個隱藏層 神經單元的權重值可由(8)式代表
F B A F
w6w4 w2
w5 w3 w1
(8)
透過分析這些權重值的大小,可推導出模型最具貢 獻的變數。
w2
w6
w5
w7
w4
w3
w1
w8
FA
FB
X1
X3
X2
圖2 倒傳遞類神經神經網路概念圖
研究利用變異數影響因子(Variance Inflation Factor, VIF)檢定預測變數間共線性的量化指標(陳 順宇,1997),表 3 分別為日平均與小時資料的 VIF 分析表,兩表中的各項預測變數之 VIF 值均遠小 於10。
另以(4)式計算日平均與小時資料的相關係 數,分析結果各項變數之相關係數表現出各變數間 的關聯性低,檢定結果無需排除任何變數。
3. 結果分析
3.1 模型分析結果
圖3 是網路訓練的結果,模型測試資料的相關 係數(R)為 0.97,均方根誤差(RMSE)為 0.36 K,平 均絕對百分比誤差(MAPE)為 1.03%。圖 4 則為小 時資料,模型測試資料的R 為 0.97,RMSE 為 0.36,
MAPE 為 1.3%。
(4)
(6)
表3 日平均與小時資料共線性檢定分析表
日平均 小時
允差 VIF 允差 VIF
大氣溫度, airt
Xi .756 1.323 .843 1.186
衛星方位角,Xiag .926 1.080 .934 1.071
相對溼度, rh
Xi .837 1.194 .856 1.168
相對濕度合成均方根誤差值, rh std
Xi _ .864 1.158 .933 1.072
風速,Xiwspd .862 1.160 .942 1.061
風速合成均方根誤差值, wspd
Xi .790 1.266 .933 1.072
風向, wd
X i .935 1.069 .955 1.047
長波幅射淨值, nlwrs
Xi .852 1.173
(a)
(b)
圖3 日平均資料網路訓練結果(a)、日平均資料網路訓練 MSE 陡坡圖(b)
(b)
圖4 小時資料網路訓練結果(a)、小時資料網路訓練 MSE 陡坡圖(b) (a)
表 4 是日平均資料與小時資料倒傳遞類神經 網路權重值正規化後的統計表。日平均與小時的網 路權重表中,Xiairt權重順位都是第一,表現出明顯 的影響力,代表在熱帶海洋地區,大氣溫度是左右 海面溫度最重要的因素。第二順位的因素在日平均 與小時資料中並不相同,Xiws_std是小時資料中的第 二重要因子,但在日平均資料中則排第4。推論當 大 氣 受 到 日 照 影 響 下 , 大 氣 中 的 熱 潮 現 象 (Atmospheric Thermal Tide) 會 造 成 半 日 緯 向 風 (Semidiurnal Zonal Wind) (Deser, 1994; Ueyama &
Clara, 2008),造成日平均資料中的風速變化模糊了
std ws
Xi _ 對海面溫度解釋能力,同時太平洋赤道地區 長年固定吹的是東風,造成數據變量不足。相對溼 度部分,日平均與小時資料分析結果一致,推論研
究區域的相對濕度在相同的時間尺度上較風速穩 定。
以 CCP=2%的類神經網路訓練結果如圖 5 說 明,使用模型測試資料預估海面溫度與實測資料的 相關係數為0.97,RMSE 為 0.38 K,MAPE 為 1%。
網路權重表(表 5)中,大氣溫度與相對溼度對 各隱藏層神經元的權重值相對比其他變數來得 高,特別是Xiairt_RMSE權重最高,其次為Xiairt,第三 則是Xirh。
其他不同CCP 資料的分析結果如表 6 說明,
從表中的各項數值可看出 CCP 對類神經網路分析 的結果影響有限,無論模型使用訓練資料或是驗證 資料,各個RMSE 值均在 0.38 K 以下,相關係數 (R)均為 0.97,MAPE 值也在 1.1%以下。
表4 倒傳遞類神經網路權重表
日平均資料 小時資料
ag
Xi Xiairt Xiwspd Xiws_std Xirh_std Xirh Xiwd Xinlwrs Xiag Xiairt Xiwspd Xiws_std Xirh_std Xirh Xiwd F1 0.16 0.20 0.02 0.09 0.10 0.08 0.10 0.27 0.02 0.01 0.00 0.13 0.60 0.16 0.07 F2 0.01 0.47 0.01 0.14 0.24 0.03 0.07 0.03 0.08 0.32 0.04 0.17 0.09 0.26 0.04 F3 0.01 0.10 0.01 0.03 0.57 026 0.01 0.02 0.13 0.31 0.09 0.34 0.02 0.03 0.08 F4 0.04 0.38 0.01 0.02 0.18 0.33 0.04 0.02 0.05 0.56 0.00 0.21 0.02 0.15 0.01 F5 0.03 0.50 0.03 0.03 0.19 0.22 0.00 0.00 0.04 0.27 0.02 0.22 0.24 0.19 0.02 F6 0.15 0.05 0.03 0.18 0.07 0.35 0.10 0.06 0.02 0.44 0.06 0.02 0.11 0.13 0.21 合計 0.39 1.70 0.11 0.49 1.35 1.26 0.31 0.39 0.34 1.91 0.22 1.10 1.08 0.92 0.43
順序 6 1 8 4 2 3 7 5 6 1 7 2 3 4 5
圖5 使用小時資料的網路訓練圖(a)、使用小時資料的網路訓練 MSE 陡坡圖(b) (b)
(a)
比較日平均及小時資料修正前後的海面溫度 與TAO 海面溫度(圖 6、7),發現原始 GOES 海面 溫度在低溫(<28 oC)時會有高估實際海面溫度的現 象,而在海面溫度較高時(28 oC)會有低估的現
象,經本研究模型修正後,此現象有明顯的改善。
研究結果表現倒傳遞類神經網路對於日平均資料 與小時資料都具有良好的分析能力,並有穩定的結 果呈現。
表5 倒傳遞類神經網路權重表(CCP=2%)
ag
Xi Xirh Xiwd Xiws_std Xiwspd Xiwspd_std Xiairt Xiairt_std F1 0.06 0.23 0.11 0.00 0.02 0.00 0.12 0.45 F2 0.01 0.21 0.02 0.22 0.05 0.21 0.13 0.15 F3 0.02 0.22 0.03 0.29 0.07 0.24 0.09 0.05 F4 0.01 0.11 0.01 0.02 0.01 0.11 0.30 0.44 F5 0.00 0.11 0.03 0.01 0.30 0.02 0.43 0.11 F6 0.05 0.07 0.01 0.00 0.03 0.02 0.07 0.76 合計 0.15 0.95 0.21 0.54 0.48 0.60 1.14 1.96
順序 8 3 7 5 6 4 2 1
表6 不同 CCP 值的 RMSE、R、MAPE 比較
CCP 1% 2% 10% 20%
訓練資料 RMSE 0.37 0.38 0.38 0.38
驗證資料 RMSE 0.37 0.38 0.38 0.38
原始資料 R 0.97 0.97 0.97 0.97
訓練資料 R 0.97 0.97 0.97 0.97
驗證資料 MAPE 1.0% 1.0% 1.1% 1.0%
圖6 日平均資料 TAO 海面溫度與 GOES 海面溫度之比較(a)、日平均資料 TAO 海面溫度與模型推估海面 溫度之比較(b)
圖7 小時 TAO 海面溫度與 GOES 海面溫度之比較(a)、小時 TAO 海面溫度與模型推估海面溫度之比較(b)
(a) (b)
(a) (b)
3.2 模型驗證
為確認模型分析結果中的重要關鍵因素是否 穩定且具代表性,研究另將模型中權重較高的Xiairt 變數移除後做比較,無論是日平均資料或是小時資 料,移除Xiairt後的RMSE 均提高 0.9 K 以上。另將 變數權重絕對值加總最高的前三個變數移除後(日 平均資料: airt
Xi , rh std
Xi _ , rh
Xi 、小時資料: airt
Xi , rh
Xi ,
std rh
Xi _ ),日平均資料的 RMSE 提升將近 1.3 K,小 時資料的RMSE 提升 1.1 K。證明Xiairt與Xirh二因子
在日平均與小時資料的模型中,均為最具影響力的 變數。
使用5,229 筆資料日平均資料進行模型重複驗 證(圖 8、9),RMSE 為 0.37 K,R 為 0.97,小時資 料模型使用日間資料做重複驗證,RMSE 為 0.44 K,相關係數為 0.98。圖 10 分別是 CCP=2%時,
模型推估的海面溫度與實測海面溫度的散佈圖。這 樣的結果比原始產品的誤差(±0.5 K)佳,也比 Wu et
al. (1999)的 1 K、以及 Liu et al. (2006)的 0.7 K 佳。
圖8 日平均資料模型使用訓練資料推估海面溫度與實測海面溫度散佈圖(a)、日平均資料模型使用驗證資 料推估海面溫度與實測海面溫度散佈圖(b)
圖9 小時資料模型使用訓練資料推估海面溫度與實測海面溫度散佈圖(a)、小時資料模型使用驗證資料推 估海面溫度與實測海面溫度散佈圖(b)
圖 10 小時資料模型使用訓練資料推估海面溫度與實測海面溫度散佈圖(a)、小時資料模型使用驗證資料 推估海面溫度與實測海面溫度散佈圖(b)
RMSE=0.38, R=0.97, CCP=2%
RMSE=0.38, R=0.97, CCP=2%
(a) (b)
(a) (b)
(a) (b)
4. 討論
應用資料探勘技術分析來自 GOES 衛星紅外 線感應器量測所導出的熱帶海洋表面溫度資料的 誤差來源,透過倒傳遞類神經網路演算法對海面溫 度估計的準確性得到改善。倒傳遞類神經網路於日 平均資料海面溫度均方根誤差估計從0.58 K 降至 0.37 K,平均絕對百分比誤差為 1%。小時資料海 面溫度均方根誤差也從0.66 K 減少至 0.44 K,平 均絕對百分比誤差是 1.1%。這樣的結果比原始產 品的誤差佳(±0.5 K),也比 Wu et al. (1999)的 1 K、
以及Liu et al. (2006)的 0.7 K 佳。
衛星量測海面溫度的主要誤差來源包括大氣 中的氣膠和水氣、雲層、儀器的誤差、以及皮層效 應(Skin Effect) (Barton, 2001)造成的取樣誤差。其 中 儀 器 自 身 的 誤 差 約 在 0.1 ~ 0.2 K (May &
Osterman, 1997),許多研究在利用 GOES 海面溫度 時,大多只採用夜間資料;或是選定特定的海域和 時間進行分析(Murray et al., 2000),這種經過篩選 的資料可有效提升結果的準確度。本研究使用大量 且連續的TAO 實測資料與 GOES 海面溫度資料進 行分析,在只刪除海面溫度誤差三個標準差以外資 料的情況下,有效增進 GOES 海面溫度品質。經 由倒傳遞類神經網路演算法所建立的模型,將日平 均資料的 RMSE 由原始的 0.58 K 降至 0.37 K,
MAPE 值為 1 %,小時資料的 RMSE 由原始的 0.66 K 降至 0.44 K,MAPE 值為 1.1 %。
倒 傳 遞 類 神 經 網 路 模 型 結 果 不 但 提 升 了 GOES 海面溫度精確度,也發掘出大氣溫度與相對 溼度是影響 GOES 海面溫度誤差的主要關鍵因 素,大氣溫度應是與海面溫度產生了熱力平衡 (thermal equilibrium)的物理現象,而水氣本身即為 海溫反演之重要參數之一。前人的研究指出風速對 衛星量測海面溫度有著重要的影響(Murray et al., 2000; Barton, 2001),從研究結果中也得到小時資料 的分析中,風速變異的權重值是模型中僅次於大氣 溫度,雖然風的因素在日平均分析結果中貢獻不 大,原因應是太平洋赤道地區氣候特性,造成數據 變量不足所致。
海面溫度在一般情形的變化主要是由海面淨 熱通量和海洋混合過程決定(Large et al., 1994)。海 面溫度不像地面溫度具有明顯日夜變化,但是在微 風、強日照和無明顯天氣系統時,海面溫度也有明 顯的日夜變化,其大小約為0.5 K 左右,有時可達 到2 K (Bradley & Weller, 1995)。白天太陽輻射加 熱且風應力較小,使海面溫度升高。夜晚時間因為 海面淨熱通量變為負值,而使海面溫度降低。這種 日夜周期的變化,顯示洋面約有 1/4 的時間被加 熱,3/4 的時間是被冷卻(Price et al., 1986)。本研究 小時資料使用夜間資料建立倒傳遞類神經網路模 型,其RMSE 可達到 0.36 K,模型另推估日間資 料時,RMSE 略提昇至 0.44 K(如圖 9),MAPE 與 相關係數值變化不大,表現出本研究模型對海面溫 度日夜週期變化下,對資料的修正能力。
本研究發現 GOES 海面溫度在未進行校正 前,低於28oC 的資料會高估海面溫度;相對高於 28oC 的海面溫度普遍發生低估的現象,應該是受 到海面旺盛熱對流影響。Leipper & Volgenau (1972) 提出颱風是海洋中海氣交換最劇烈的自然現象之 一,颱風發展於溫度大於26oC 的海面上,在颱風 形成前後,都會有旺盛的熱對流出現。研究資料顯 示出海面溫度超過28oC 時,海氣介面間的蒸發與 傳導會加速進行,當大氣中充滿著水氣時,會大量 吸收海面散發出來的紅外線電磁波,造成 GOES 衛星成像儀所能收到的電磁波強度降低。進而低估 真實的海水表面溫度。另一方面,GOES 海面溫 度產品是使用一個複迴歸公式產生海面溫度資 訊,因此在海面低於28oC 的情況時,環境對各項 迴歸參數有不同的變異,造成高估海面溫度的現 象。
在太平洋熱帶區域中,由於太陽直射海面,海 水表面溫度高且蒸發效應強,代表當地區域水氣充 沛,Large et al. (1994)認為海面溫度在一般情形的 變化主要是由海面淨熱通量和海洋混合過程決 定,除了反映在大氣中的積雲外,也代表著該地區 相對濕度高。另外大氣溫度的變化代表海水蒸發所 產生水氣的多寡,而海洋上方風的吹拂會帶動水氣 的移動,相對反映在相對濕度的變化上。相關研究
指 出 風 速 對 衛 星 量 測 海 面 溫 度 有 重 要 的 影 響 (Murray et al., 2000; Barton, 2001),而這種水氣的 變化又會影響衛星紅外線影像的數值,故增加海面 溫度推估的誤差。
5. 結論與未來展望
太平洋熱帶地區缺乏地面接收站,繞極衛星海 面溫度資料取得有限,相同地點影像間隔時間又比 地球同步衛星來得長,映證地球同步衛星具備對大 洋地區長時間觀測的優勢。然地球同步衛星距離地 表較遠,空間解析度差,海面溫度品質無法與繞極 衛星相比。此外地球同步衛星影像涵蓋面積廣大,
演算法無法兼顧特殊區域的資料進行調整。本研究 利用資料探勘技術,成功使用類神經網路提升地球 同步衛星的海面溫度品質,並經過使用驗證資料重 複驗證後,各版本RMSE 均維持在 0.45 K 以下,
MAPE 也維持在具有高預測能力的 1 %左右,展現 研究結果對資料的修正能力,證明模型對海面溫度 估計的準確性也得到了改善。表7 為比較相關研究 與本研究對於海面溫度修正能力的說明。
表7 地球同步衛星海面溫度修正能力比較
日平均 小時
Wu et al. (1999) 1 K Liu et al. (2006) 0.7 K
GOES 產品 0.5 K
本研究 0.37 K 0.44 K 倒傳遞演算法不但對衛星海面溫度有著最佳 的修正能力外,對於不同衛星海面溫度品質下,均 有穩定的修正能力,以表 6 的結果中顯示,CCP 值1 %與 20 %的 RMSE 只有 0.01 K 的差異,模型 對夜間與日間資料修正的差異也不大,表現出演算 法的抗雜訊能力。
本研究利用資料探勘的分析結果證實,大氣溫 度、相對濕度、風速變化是影響東太平洋熱帶地區 海面溫度誤差的主要因素,提供後續相關研究的方 向,另外演算法有效降低海面溫度的誤差,提升衛 星推估海面溫度的準確性。海洋環境資訊有著資料
量大、關聯複雜且多元,適合應用資料探勘技術來 發掘現象並解決問題,地球同步衛星的海面溫度是 一種適合估算大面積海域海面溫度的產品,如能利 用本模型配合大面積的大氣溫度、風速或相對濕度 等推估資料來進行修正,將可獲得準確度較佳的海 面溫度資料。
參考文獻
陳順宇,1997。迴歸分析,二版,華泰書局,1997。
Barnes, C.; Fritz, H.; Yoo, J., 2007. Hurricane disaster assessments with image-driven data mining in high-resolution satellite imagery.
IEEE Trans. Geosci. Remote Sens., 45(6),
1631-1640.Barton, I. J., 2001. Interpretation of Satellite-Derived Sea Surface Temperatures, Adv. Space Res., 28(1), 165-170.
Berry, M. J. A.; Linoff, G., 1997. Data Mining
Technique for Marketing, Sale, and Customer Support, John Wiley & Sons Inc.
Bradley, E. F.; Weller, R. A., 1995. Joint Workshop of
the TOGA COARE Flux and Atmospheric Working Groups. Report, TCIPO, Boulder, CO.
Chambers, D. P.; Tapley, B. D.; Stewart, R. H., 1998.
Measuring heat storage changes in the Equatorial Pacific: A comparison between TOPEX altimetry and Tropical Atmosphere-Ocean buoys. J. Geophys. Res., 103, 18591-18597.
Cybenko, G., 1989. Approximation by superpositions of a sigmoidal function. Math. Control Signal
Syst., 2(4), 303-314.
Deser, C., 1994. Daily surface wind variations over the equatorial Pacific Ocean. J. Geophys. Res., 99(D11), 23071-23078.
Elisa, G. G.; Joan, G. S., 2007. Prediction of sea surface temperatures in the western Mediterranean Sea by neural networks using satellite observations. Geophys. Res. Lett., 34, L11603, doi:10.1029/ 2007GL029888.
Emery, W. J.; Yu, Y.; Wick, G. A.; Schluessel, P.;
Reynolds, R. W., 1994. Correcting infrared satellite estimates of sea surface temperature for atmospheric water vapor contamination. J.
Geophys. Res., 99, 5219-5236.
Fairall, C. W.; Bradley, E. F.; Godfrey, J. S.; Wick, G.
A.; Edson, J. B., 1996. Cool-skin and warm-layer effects on sea surface temperature. J.
Geophys. Res., 101, 1295-1308.
Fayyad, U. M.; Irani, K. B., 1991. Machine learning algorithm (GID3*) for automated knowledge acquisition: Improvements and extensions. GM.
Res. Rep., CS-634, Warren, MI:CM research
labs.Frawley, W. J.; Piatetsky-Shapiro, G.; Matheus, C. J., 1992. Knowledge Discovery in Database: An
Overview; AI Magazine, 13(3), 57-70.
Fun, M.H.; Hagan, M.T., 1996. Levenberg-Marquardt training for modular networks. IEEE Int. C.
Neural Netw., 1, 468-473.
Hagan, M.T.; Menhaj, M.B., 1994. Training feedforward networks with the Marquardt algorithm. IEEE Trans. Neural Netw., 5(6), 989-993.
Høyer, J. L.; Karagali, I.; Dybkjær, G.; Tonboe, R., 2012. Multi sensor validation and error characteristics of Arctic satellite sea surface temperature observations.
Remote Sens.
Environ., 121, 335-346.
Huang, Y. P.; Kao, L. J.; Sandnes, F. E., 2007. Data mining and fuzzy inference based salinity and temperature variation prediction, Proc. IEEE
SMC, Montreal, Canada, 2074-2079.
Krasnopolsky, V.; Schiller H., 2003. Some neural network applications in environmental sciences.
Part I: Forward and inverse problems in satellite remote sensing. Neural Netw., 16, 321-334.
Large, W. G.; McWilliams J. C.; Doney, S. C., 1994.
A Review and model with a nonlocal boundary layer parameterization. Rev. Geophys., 32, 363-403.
Legeckis, R.; Zhu, T., 1997. Sea Surface Temperatures from the GOES-8 Geostationary Satellite. Bull. Amer. Meteorol. Soc., 78, 1971-1983.
Leipper, D.; Volgenau, D., 1972. Hurricane heat potential of the Gulf of Mexico. J. Phys.
Oceanogr., 2, 218-224.
Lewis , E. B., 1982. Control of body segment di fferentiation in Drosophil a by the bithorax gene complex, Embryonic Development, Part A:
Geneti cs Aspects, Edited by Burger, M. M. and R. Weber. Alan R. Liss, New York, 269-288.
Liu, C. T.; Nan, C. H.; Chen, C. M., 2006. The diurnal variation of sea surface temperature bias of geostationary satellite. J. Photogramm.
Remote Sens., 11(3), 237-247.
Makridakis, S., 1993. Accuracy measures:
Theoretical and practical concerns. Int. J.
Forecast., 9, 527-529.
Martin, S., 2004. An Introduction to Ocean Remote
Sensing; Cambridge University Press,
Cambridge, UK.May, D. A.; Osterman, W. O., 1997. Satellite-derived sea surface temperature: evaluation of GOES-8 and GOES-9 multispectral imager retrieval accuracy. J. Atmos. Ocean. Technol., 15, 788-797.
May, D.; Stowe, L.; Hawkins, J.; McClain, E. P., 1992. A correction for Saharan dust effects on satellite sea surface temperature measurements.
J. Geophys. Res., 97, 3611–3619.
McClain, E. P., 1989. Global sea surface temperatures and cloud clearing for aerosol optical depth estimates. Int. J. Remote Sens., 10, 763-769.
McClain, E. P.; Pichel, W. G.; Walton, C. C.; Ahmad, Z.; Sutton, J., 1983. Multichannel improvements to satellite-derived global sea surface temperatures. Adv. Space Res., 2, 43-47.
Merchant, C. J.; Simpson, J. J.; Harris, A. R., 2003. A cross-calibration of GMS-5 thermal channels against ATSR-2. Remote Sens. Environ., 84, 268-282.
Miller, S. W.; Emery, W. J.. 1997. An automated neural network cloud classifier for use over land and ocean surfaces. J. Appl. Meteorol., 36, 1346-1362.
Murray, M. J.; Allen, M. R.; Merchant, C. J.; Harris, A. R.; Donlon, C. J., 2000. Direct observations of skin-bulk SST variability. Geophys. Res. Lett., 27, 1171-1174.
Neeraj, A.; Rashmi, S.; Sujit, B. K.; Abhijit, S.; Vijay, A. K., 2007. Evaluation of relative performance of QuikSCAT and NCEP re-analysis winds through simulations by an OGCM. Deep-Sea
Res. Part I, 54, 1311-1328.
O'Carroll, A. G.; Blackmore, T.; Fennig, K.;
Saunders, R. W.; Millington, S., 2012. Towards a bias correction of the AVHRR Pathfinder SST data from 1985 to 1998 using ATSR. Remote
Sens. Environ., 116, 118-125.
Petrenko, B.; Ignatov, A.; Shabanov, N.; Kihai, Y., 2011. Development and evaluation of SST algorithms for GOES-R ABI using MSG SEVIRI as a proxy. Remote Sens. Environ., 115, 3647-3658.
Price, J. F.; Weller R. A.; Pinkle, R., 1986. Diurnal cycling: observation and models of the upper ocean response to diurnal heating, cooling and wind mixing. J. Geophys. Res., 91, 8411-8427.
Richard, L.; Tong, Z., 1997. Sea surface temperatures from the GOES-8 geostationary satellite. Bull.
Amer. Meteorol. Soc., 78(9), 1971-1983.
Ronald, S. S., 2001. Accelerating Customer
Relationships – Using CRM and Relationship
Technologies, Prentice-Hall.
Sarle, W. S., 1994. Neural networks and statistical models, Proceedings of the 19th Annual SAS Users Group International Conference, Cary, NC: SAS Institute, 1538-1550.
Shoichi, K.; FutoKi, S., 1996. A new set of MCSST equations for NOAA-9/ AVHRR. J. Oceanogr., 52, 235-249.
Stark, J. D.; Donlon, C.; O’Carroll, A.; Corlett, G., 2008. Determination of AATSR Biases Using the OSTIA SST Analysis System and a Matchup Database. J. Atmos. Oceanic Technol., 25, 1208–1217.
Steinbach, M.; Tan, P.; Kumar, V.; Potter, C.;
Klooster, S.; Torregrosa, A., 2002. Data mining for the discovery of ocean climate indices. Paper presented at the Second SIAM International
Conference on Data Mining.
1 Administration Section Chief, Department of Information and Library Service, Received Date: Apr. 08, 2013 1 Hsing Wu University of Science and Technology Revised Date: Jul. 15, 2011 2 Professor, Department of Marine Environmental Informatics, National Taiwan Accepted Date: Jul. 24, 2012 2 Ocean University
*.Corresponding Author, Phone: 0910-560101, E-mail: [email protected]
Analysis of Tropical Sea Surface Temperature Using Data Mining Technique
Yung-Hsiang Lee
1*Nan-Jung Kuo
2ABSTRACT
Tropical sea surface temperature (SST) data derived from the Geostationary Operational Environmental Satellite (GOES) is analyzed by using data mining to explore the error sources of data and to further improve its accuracy. The SST data has been pre-processed into two kinds of data set, the daily mean and hourly. The root mean square error (RMSE) of daily SST estimate is reduced from 0.58 K to 0.37 K and the mean absolute percentage error (MAPE) is 1.03% by using the Back Propagation Network (BPN) algorithm. For the hourly SST estimate, its RMSE is also reduced from 0.66 K to 0.44 K and the MAPE is 1.1%. This indicates that the BPN algorithms improve the accuracy of the SST. While the proportion of cloud contamination is in different circumstances, the RMSE of retrieval satellite SST by using the BPN algorithm can be maintained below 0.38 K.
This demonstrated the efficiency ability of anti-noise analysis of the neural algorithm. The factor analysis also shows that the errors are mainly caused by air temperature and then followed by wind speed and relative humidity.