Volume16, No.4,January 2013, pp.229-243
1國立雲林科技大學環境與安全衛生工程系 講師 收到日期:民國 100 年 03 月 15 日
2國立中央大學太空科學研究所 助理教授 修改日期:民國 100 年 04 月 13 日
3國立雲林科技大學環境與安全衛生工程所 碩士 接受日期:民國 100 年 07 月 18 日
*通訊作者, 電話: 886-5-5342601 ext.4489, E-mail: [email protected]
可攜式高光譜影像儀應用於遙測空氣品質指標
施明倫
1林唐煌
2洪志豪
3*蔡廣叡
3摘 要
傳統臺灣各縣市周遭空氣品質監測站係依人口數比例架設,僅能固定單點採樣,儀器精密且維修亦 較複雜。目前遙測技術已廣泛應用於環境污染之監測,因此本研究擬開發一套可攜式高光譜影像儀 (HyCAM-I)藉以更機動性地遙測空氣污染指標(Pollutants standard index, PSI),藉由建立之空氣品質光譜估 算模式,用以即時監測任一未知區域之空氣品質。
本研究建模方法採用支撐向量機迴歸(Support Vector Regression, SVR)模式與多變量線性迴歸 (Multivariate Linear Regression, MLR)模式,並評估以 500nm, 550nm 及 600nm 波段反射率做為模式輸入變 量以估算 PSI。兩模式在驗證樣本之平均決定係數(R2)分別為 0.28 與 0.47;平均均方根誤差(RMSE)分別 為12 與 10;平均 RMSE/觀測值標準差(StDev)分別為 0.93 與 0.77;平均絕對百分比誤差(MAPE)分別為 20%與 17%。於光譜分析空氣污染指標方面,其最佳波段值約位於 500nm 及 600nm 附近。依本研究結果 顯示以可攜式高光譜影像儀用於監測空氣污染指標相當具有其可行性,可機動作為未來即時監控未設測 站區域空氣品質之工具。
關鍵詞:高光譜影像儀(HyCAM-I)、遙測(RS)、空氣污染指標(PSI)、支撐向量機迴歸(SVR)、
多變量線性迴歸(MLR)
1. 前言
1.1 研究背景
空氣是人類生活基本要素之一,而空氣品質好 壞嚴重影響到人類生活及身體健康,如O3、PM2.5、 PM10等空氣污染物。傳統之空氣品質測值均需仰 賴環保署所架設之空氣品質測站,設備較精密且維 修保養亦較複雜,有時因為機械、人為等因素造成 數據失效而不可使用,且其測站均為單點固定位置 採樣,其污染分布空間代表性較不足。因此本研究 之目的在於開發一種簡單、即時且機動性高,涵蓋 較大區域之可攜式高光譜影像儀,可隨機擷取任一 未知空氣品質區域之週遭空氣影像,俾以即時偵測 空氣品質指標,雖可能較傳統空氣品質測站實驗分
析資料精度稍差,但其涵蓋度與移動方便性應較傳 統固定或單點採樣方式更居優勢。
1.2 文獻回顧
本研究文獻探討共分為三部份,第一部份主要 參考以衛星或高光譜遙測應用於空氣污染之研究;
第二部份探討模式學習與建立;第三部份則是其他 相關參考研究。
目前遙感技術已廣泛應用於環境污染監測,林 唐煌等(2001)於航測遙測學刊中提到大氣氣膠不 僅模糊了地表資訊,亦嚴重地影響大氣環境及氣候 變遷,在地球資源之遙測與大氣環境變遷是相當重 要之參數,也因此有許多利用衛星資料求取氣膠參 數之方法陸續提出,密暗像元法及對比法則為較常 被應用之兩種方法。此外,在空氣品質監測應用最
230 航測及遙測學刊 第十六卷 第四期 民國 102 年 01 月
重要之兩個步驟包括高精度大氣氣膠光學厚度之 取得,以及具代表性之氣膠粒徑參數之建立。應用 結果證實利用衛星觀測資料檢測空氣品質具極高 之可行性,將可進一步建立台灣地區之即時空氣品 質監測系統。Gupta et al. (2006)利用衛星遙測推估 全球都市懸浮微粒及空氣品質,分析以MODIS 衛 星光譜資料中550nm 波段之大氣光學厚度(Aerosol Optical Thickness, AOT)與地面觀測站觀測之 PM2.5, 於 全 球 五 個 主 要 都 市(Hong Kong, Sydney, Switzerland, Delhi and New York),在經過適當分組 以及剔除離群值後其相關性(R)可達 96%,且雲層 覆蓋(Cloud Fraction)、相對濕度(Relative Humidity) 及大氣混合層高度(Mixing Height)皆會影響 AOT。
Wu et al. (2006) 亦以 MODIS 衛星推估之 AOT 資 料來分析2003 年南加州野火所造成之空氣污染,
並且利用Kriging, Co-Kriging 及 IDW 法內插得未 設測站區域之PM 濃度,另外也提出利用消光係數、
風速、風向及煙霧覆蓋等資訊可有效提升迴歸及內 插法準確度。Sohrabinia and Khorshiddoust (2007) 則是以MODIS 衛星推估之 AOT 資料分析 CO 並 配合地理資訊系統(GIS)將 CO 濃度分布以面化方 式呈現Tehran 地區之空氣污染。
施明倫等(2008)比較以類神經網路及支撐向 量機兩種監督式模式估算台灣河川流域水質空間 污染情況,結果顯示類神經網路最佳模式驗證精確 度平均約68%;而支撐向量機最佳模式驗證結果皆 為73%,故兩模式在估算河川水質污染分類結果皆 相當有應用之可行性。然而在參數選擇方面,類神 經網路模式較容易受初始權重設定之影響,造成相 同條件模擬下產生較大差異之估算結果,且亦會因 隱藏層結點數設定過高而可能造成過度學習,支撐 向量機模式相對比較穩定,當最佳化參數後,即不 再受其他因素影響改變其估算結果,應較具可靠 度。
邱瑞仙(2008)以 Pearson 相關係數矩陣分析桃園 縣空氣品質測站與污染物濃度相關性,結果顯示所 有測站懸浮微粒濃度及臭氧濃度受到相同污染型 態或擴散因子影響。張能復等(1986)認為區域內之 一般空氣品質變化趨勢未必與該區內局部高濃度
之現象有關,因此宜採取其他之評估標準作為分析 之依據,最常用之方式乃以區域內各不同地點濃度 變化之相關性為評估之基準,亦即以各不同點之濃 度時間序列進行相關性分析,以該區域內所有點之 相關係數最高值者所在處作為設置監測站之地點,
或以超過設定相關係數臨界值所涵蓋面積最大之 代表點為設置監測站之理想地點。
2. 研究地區及基本資料
2.1 研究區域
本研究以雲林縣斗六市之空氣品質測站為研 究之地點。斗六站架設於斗六市區旁之斗六高中,
其位於斗六火車站東邊約500 公尺。
圖1 雲林縣斗六市
2.2 空氣品質監測站
行政院環保署空氣品質監測網測站類型包括 一般空氣品質監測站、工業空氣品質監測站、交通 空氣品質監測站、國家公園空氣品質監測站、背景 空氣品質監測站、超級測站、光化學測站、逆溫測 站等。本研究選定一般空氣品質監測站斗六站作為 光譜採樣及空氣品質數據來源,其位於雲林縣斗六 市斗六高中三樓頂,採樣口離地面高約12 米,西 南方約500 公尺有一市場,早上四、五點即有居民 及菜販活動,而七、八點為交通尖峰時刻,汽機車 排放造成空氣品質較為嚴重,對於斗六市區內空氣 品質影響甚大。
2.3 空氣品質標準
我國空氣品質標準最早於民國 64 年 10 月 1 日由行政院衛生署公告,標準規範項目為懸浮微粒、
硫氧化物、氮氧化物、一氧化碳及惡臭物質等,標 準適用區域分為一般地區及工業區,工業區標準較 為寬鬆。其後經過79 年與 81 年兩次修正,現行空 氣品質標準在民國84 年由環保署公佈。
PSI 係我國參考美國環境保護署(USEPA)、環 境品質評議會(CEQ)及其他機構研擬。此指標顯示 空氣品質之好壞程度以0-500 表示。決定 PSI 值之 五個污染物分別為一氧化碳(CO)、臭氧(O3)、二氧 化氮(NO2)、二氧化硫(SO2)及懸浮微粒(PM10)來計 算。換算PSI 時是採分段線性內插方式,根據各污 染濃度對人體影響程度劃分為0-500 之副指標值,
經 求 出 每 一 種 污 染 物 濃 度 所 對 應 之 副 指 標 值 (Sub-index)後,當日之 PSI 值即為五個副指標值中 最大者,而代表PSI 值之污染物便稱為指標污染物 (Critical pollutant),如表 1。以本研究採樣時間而 言,指標污染物大部分受副指標 PM10主導,少部 份受副指標O3主導,其餘污染物則無。
表1 污染物濃度與副指標值對照表 污染物 PM10 SO2 CO O3 NO2
統計方式 24 小時 平均值
24 小時 平均值
24 小時 內最大
8 小時 平均值
24 小時 內最大 小時值
24 小時 內最大 小時值 單位 μg/m3 ppb Ppm ppb ppb
PSI 值
50 100 200 300 400 500
50 150 350 420 500 600
30 140 300 600 800 1000
4.5 9 15 20 40 50
60 120 200 400 500 600
- - 600 1200 1600 2000
3. 研究方法
隨著現代物理學、空間技術、電子技術、電腦 技術、資訊科學及環境科學等發展,遙感技術已成 為一先進且實用之綜合性探測手段。遙感(Remote Sensing, RS)是一種遠距離目標,非接觸之判定分 析性質之技術。
(1) 實驗儀器
實驗所開發之HyCAM-I 目前於國內各相關實 驗室及廠商尚無參考資料,為本研究將高光譜儀結 合影像資料所開發之儀器,加上其它輔助設備。感 測波長範圍為401nm~720nm,間距為 1nm,即 1nm 拍攝一張影像,全範圍共 320 張影像。HyCAM-I 本身由三部份結合而成,包含前端接收光源之鏡頭、
高光譜及可變波長控制盒(如圖 2)與後端供感光之 CCD,且須透過影像擷取卡將 CCD 接收到之訊號 轉換為影像呈現於電腦螢幕上,利於採樣人員進行 採樣作業,並透過軟體操控波長擷取範圍及間隔,
將影像之光譜資料儲存於電腦硬碟中(非影像檔) 再帶回實驗室進行後續資料前處理。
高 光 譜 設 備 為 液 晶 可 調 式 濾 波 器(Liquid crystal tunable filters),其原理係利用液晶偏轉特性,
使特定波長通過,其光通量約為40%,波長峰值半 高寬約為7nm。其餘輔助設備如下:腳架為固定可 攜式高光譜儀,避免儀器掉落或於拍攝圖像中儀器 晃動導致圖像模糊之情形發生;筆記型電腦可於採 樣時進行對焦、拍攝、儲存光譜資料等工作,另透 過USB 傳輸線提供可變波長控制盒及影像擷取卡 電源;白板用以採樣時將此板置於鏡頭前與目標物 一併攝入,目的在拍攝影像時為避免太陽光輻射量 不足,產生不必要之實驗誤差,故放置此白板以利 於集中收集光源。
(2) 儀器特性及輻射校正
由於HyCAM-I 係以灰度值(Digital Count, DC) 方式儲存光譜資料,每一個灰度值代表著一個該次 採樣所接收到之反射率,須先將灰度值轉換成反射 率。本研究向國內中央大學商借已知反射率之四種 標準反射板,反射率分別為20%、50%,75%及 99%,
取得四種標準反射板之灰度值後,以99%標準反射 板為參考值,將其他三種標準反射率之灰度值除以 99%標準反射板之灰度值,如公式(1):
255 Re
, 99 . 0
,
,
DC
fi DCi (1)
其中Ref 為反射率,為求方便將原始反射率介 於0~1 範圍值增揚至 0~255;i 為 0.20, 0.50, 0.75, 0.99;λ 為波長介於 401~720nm。
232
由上 此儀器與 圖3 為波 值,y 軸
(3) 實驗 本研 站本體之 之相關性 之重要因 射傳送理 正曲線,
之樣本校 無雲之前 體接近蘭 時段(09:0 採樣 現場採樣 了避免多 於減少光 約為20 分
Reflectance
上式得四組反射 與各個波段灰度 波長550nm 之 軸為增揚後之反
圖2 HyCAM 步驟 研究採用HyC 之光譜資料,並 性以建立空氣 因素為天氣,由 理論,於晴朗無 並以此為基準 校正至同一基 前提下,才可進 蘭氏面(Lambe
00~14:00)。
樣時須於固定 樣示意如圖4) 多餘之誤差出現 光圈積分時間
分鐘,拍攝3
圖3 校正
0 50 100 150 200 250
0 50
航測及
射率後,與標 度值轉反射率 之校正曲線,
反射率。
M-I 及可變波長
CAM-I 來採集 並分析該光譜 品質估算模式 由於本研究校 無雲之天氣製 準,透過此校 準下,故必須 進行採樣工作 ertian),採樣
定位置、固定角 )並固定鏡頭倍 現,於鏡頭前
,一次採樣時 320 張影像時
正曲線(λ=550
550 Ref = 1.
R2 = 0.9
100 150 DC
及遙測學刊 第
標準反射板可繪 率之校正曲線
圖中x 軸為灰
長控制盒
集斗六空氣品質 譜資料與空氣品 式。決定是否採 校正方式係利用 製作標準反射板 校正曲線將採集 須要在天氣晴朗 作;為了讓地表 樣時間多半為中
角度架設儀器 倍率進行對焦 前放置珍珠板以
時間(含架設儀 時間約2 分鐘
0nm)
1567DC + 6.9926 9992
200 250
第十六卷 第
繪出 線,如 灰度
質測 品質 採樣 用輻 板校 集到 朗且 表物 中午
器(其 焦,為 以利 儀器)
。
(4)
ERD 先以 欲萃 各P (1)換 端強 波段 (5)
率之 PSI 主要 時往 O3為 過去 本研 續採 副指 副指 PSI
3.
Vap 函數
6
四期 民國 10
影像擷取卡
可變波長 控制盒
電 腦
圖 資料前處理
本研究採樣 DAS Imagine 以ERDAS Im 萃取影像範圍 Pixels 數據萃 換算為反射率 強度較弱,容 段範圍約為4 PSI 修正方式
本研究最初 之相關性,但 I 值換算方法 要原因是環保 往回推24 小時
為以過去24 小 去24 小時內最 研究採用光譜 採集24 小時之 指標值為該小 指標值後,再以 I 值,以 PSIhr
1 支撐向
SVR 為 SV pnik, 1995),利 數如公式(2):
02 年 01 月
HyCAM-I
約50公尺 反射光
空氣微粒
圖4 現場採樣
樣所儲存檔案格 e 轉成 img 檔 magine 內建提 圍圈選後匯出 萃取並儲存,最
率。由於可見光 易有雜訊產生 80nm~675nm 式
初分析環保署公 結果較不理想 與環保署公告 保署之PSI 值以
時之平均值換 小時內最大值 最大八小時之 譜分析,無法夜
之光譜資料,故 小時之測值直接 以各副指標值
r表示之。
向量機迴
VM 進一步延 利用迴歸方法
尺
空 入射光
粒等物質
樣示意圖
格式為bsq,
檔後方可呈現 提供之影像圈
,其次利用程 最後將灰度值 光於401nm~
生,故本研究 m。
公告之 PSI 想,故本研究 告之PSI 值有
以PM10為例 換算成PSI 副 值換算之;而 之平均值換算 夜間採樣,因 故本研究所使 接線性內插換 值之最大值做
迴歸(SVR)
延伸之應用(C 法處理估算問
空氣品質 監測站
將其匯入 現圖像。首 圈選工具將 程式將圖中 值透過公式
~720nm 兩 究實際使用
值與反射 究所使用之 有所不同,
例係以該小 副指標值;
而CO 則為 算成之,但 因此無法連 使用之PSI 換算為PSI 做為該小時
)
Cortes and 問題。決策
x b x
f ( )
(2) 其中 ω 為 f(x)之複雜度(Complexity),ω 愈大表示 模式愈複雜,依結構最小化法則,模式複雜度可以 公式(3)表示
li i i
C
1 2 *
) 2 (
1
(3)i i
i
x b
y ( ) )
*( x
i b y
i
i ,
i,
i* 0
,l i 1 ,...,
其中
i與i*為離群之學習樣本;C 在此為使用者 定 義 之 成 本 參 數(Cost parameter) 或 懲 罰 參 數 (Penalty parameter),C 值愈大表誤差發生時對目標 函數影響愈大。SVR 主要函數形式為 ε 不敏感損 失函數(ε-insensitive loss function)如公式(4):
y f x otherwise
x f y x if
f
y ( ) ,
) ( ,
) 0
(
(4) 其中y 為實際值,f(x)為估算值,而 ε 為一可 容許誤差區間(ε-tube),當 y 落於誤差區間外時,
即給予懲罰,由此損失函數即可定義出y 與 f(x)之 誤差即為支撐向量。
SVR 與傳統線性迴歸所使用之最小平方法 (Least squares method)之差異在於 ε-tube,因此 SVR 僅須少量且具代表性之樣本即可建立決策函數,而 最小平方法則需所有樣本才能建立。最佳化公式(4) 可利用拉氏乘數
i,
i*, i, ,並利用拉式函數i* 求解(5),此問題之解即為公式(6)之鞍點,如公式 (5)及公式(6):) , , , , , , ,
( b
*
*
*L
l i
i i
i i l
i i i i i
l i
i i
b x y
b x y
C
1 1
1 2 *
) (
) (
) 2 (
1
∑
l
i
i i i i 1
*
* )
( (5)
, 0 -
C , 0
, 0 -
C , 0
, 0 ) (
, 0
, ) (
, 0
*
*
* 1
* 1
*
i i i
i i i
l
i i i
l i
i i i
L L b L L x
l
i
i
i i
i
,
*, ,
*, 0 , 1 ,...,
(6)將公式(6)代入公式(5),並將之換為對偶問題如公 式(7):
l
j i
j i j j i
i x x
1 ,
*
* )( )( )
2 (
1
) ( ) (
1
* 1
*
l
i i i i
l
i i i y
(7)
其 中 ( ) 0
1
*
l ii
i
, 0i C , l
i
i C , 1,...,
0* 。 將 非 零 之
i與
i*代 入
l
i
i
i x
1
*
i )
(
可得 ω。最後線性 SVR 之決策 函數如公式(8):
l
i i x xi b
x f
1 i
* )( )
( )
( (8) 而
(
i*
i) 0
所對應之資料即為支撐向量(張 逸凡,2005)。3.2 參數最佳化-網格搜尋法 (Grid Search)
參數設定上,由於 C 值與γ值無法藉由軟體 進行自動搜尋。因此在模式之建構上,需藉由手動 輸入 C 值與γ值來得到完整之模式,本研究使用 網格搜尋法加以輔助。所謂的網格搜尋法就是將輸 入參數空間分割成許多相同大小的網格,每次在網 格中取出一組輸入參數組合進行實驗,接著在所有 的實驗結果中找到極值及其對應的輸入參數值。網 格搜尋法之概念是利用界定 C 與γ的搜尋上限及 下限,並決定搜尋時每一次跳動間距以找出在此區
234 航測及遙測學刊 第十六卷 第四期 民國 102 年 01 月
間內最小誤差的參數組合。以下為搜尋步驟(如圖 5)。
(1) 依相關文獻中初步界定 C、R 初始值及其範 圍。
(2) 決定搜尋跳動間距。
(3) 記錄起始 c、γ 參數之分析結果。
(4) 將 c 增加一次跳動間距,γ 不變,紀錄其分析 結果。
(5) 將 γ 增加一次跳動間距,c 不變,紀錄其分析 結果。
(6) 將 c、γ 皆增加一次跳動間距,紀錄其分析結 果。
(7) 將目前 C+c,R+γ 之參數組合為下一個初始參 數搜尋位置。
(8) 重覆(2)~(7)步驟至搜尋達 C、R 上、下界值。
(9) 記錄最佳訓練誤差值。
(10) 將 搜 尋 出 訓 練 最 佳 參 數 組 合 代 入 驗 證 (Validation)資料計算估計值。
圖5 Grid search 演算搜尋法
3.3 多變量線性迴歸(MLR)
迴歸分析於統計分析上之應用為一種估計應 變數與一個或多個自變數或共變量間之線性關係,
目的在透過這種關係以自變數來估算應變數。由於 高光譜波段數量龐大,選擇一個不適當之波段來建 立迴歸方程式會使得迴歸係數估計值帶來不合理 之解釋。建立迴歸模式時,一方面希望包含較多波 段,以求得準確之估算;另一方面,基於模式複雜 度考量,波段數目應盡量減少。結合上述考量,理
想狀況係以較少波段,達到建立良好的迴歸估算模 式。
3.4 相關性分析(Correlation Analysis)
(1) 皮爾森相關係數
為瞭解兩組數值資料間相關性及方向與程度,
可以利用線性相關測量兩者間之強度,而皮爾森相 關係數即為測量兩變項間之線性關係,因此兩變量 間為曲線關係之情形不適用。
) 1 (
) ( )
1 (
) (
) 1 (
) )(
(
1
2
1
2 1
n y y n
x x
n
y y x x
z i
i z
i i z i
i i
XY (9)其中
XY為樣本相關係數,xi 及 yi 代表 X 群 及Y 群之樣本,x及y
則分別代表X 群及 Y 群之 平均值,n 為樣本數。(2) 決定係數
決定係數是在迴歸分析中,用來瞭解在自變數 Xi 與應變數 Y 所建立之迴歸模式中,Y 受 X 影響 多寡而決定。其應用最小平方法之概念為想找一個 估計值來代表實際值時,彼此之間具有一點偏差,
可能為正偏差或負偏差,故以最小平方法衡量誤差 之 大 小 程 度 。 其 為 相 關 係 數 的 平 方( 通 常 以 R-Square 或 R2表示)。相關係數之值區間為[-1, 1],
決定係數之值則介於[0, 1],其值愈大表示在估算 效能上愈佳。
3.5 交叉驗證(Cross Validation)
本研究以交叉驗證來比較 SVR 與 MLR 之不 確定性。一般交叉驗證方法係假設樣本數為n,取 其中一筆樣本做為驗證(Validation)之數據,其餘 n-1 個樣本供學習(Training),如此分析 n 次後即可 得知此模式之不確定性。此分析方法之結果對資料 筆數少之輸入層較為嚴謹客觀,且可以全程瞭解模 式之分析結果。
本研究之交叉驗證係以v-fold 方式進行分析,
此方式係每次將所有樣本隨機分為 v 組(本研究分 5 組),取其中一組為驗證樣本,其餘 v-1 組作為學 習或迴歸之樣本,重複v 次直至每組皆被驗證後計 算所有驗證資料估算值與觀測值的相關性與誤差,
如此循環100 次(即隨機分五組 100 次)。最後再建 立一估算空氣品質指標最佳模式,做為未來任一未 設測站區域空氣品質指標估算模式。
3.6 評估指標
本研究嘗試利用 SVR 及 MLR 以估算空氣品 質,其結果以決定係數(R2)、均方根誤差(RMSE)、
RMSE 佔觀測值標準差(Standard Deviation)之比例 (RMSE/StDev) 、 平 均 絕 對 誤 差 百 分 比 (Mean Absolute Percentage Error, MAPE)及 95%信賴區間 (Confidence Intervals, CI)作為評估比較之依據。
RMSE 值愈低則代表模式估算值與觀測值之差距 愈少,估算效果較佳,其定義如公式(10):
n Pdt Obs RMSE
n
i
i
i
1
2
其中n 為樣本數;Obsi 及 Pdti 分別為第 i 個觀測值 及估算值。
RMSE/StDev 之定義如公式(11):
n Obs Obs
n Pdt Obs
StDev
RMSE n
i i n i
i i
1
2 1
2
/
其中n 為樣本數;
Obs
i及Pdt
i分別為第i 個觀測 值及估算值;Obs
為Obs 之平均值。MAPE 為一相對數值,不受觀測值與估算值單 位與大小之影響,能夠客觀地獲得觀測值與估算值 間之差異程度,其定義如公式(12):
%
1 100
n Obs
Pdt Obs MAPE
n
i i
i i
其中n 為樣本數;
Obs
i及Pdt
i分別為第i 個觀測 值及估算值。95%信賴區間其定義如公式(13):
z n x
CI σ
2 α
%
95
其中
x
為每次驗證樣本指標之平均值;2
zα為常態
分布之臨界值(Critical Point),95%信賴區間中 α 以 0.05 代入,查表得知
2
zα為 1.96;σ 為驗證樣本指 標值之標準偏差;n 為驗證樣本數(100 次)。
3.7 模式建立
在本研究之最佳模式選取流程中,首先於學習 樣本中篩選出作為輸入變量之波段,以交叉驗證方 式導入 SVR 及 MLR 模式學習及驗證,最後各模 式學習估算結果與原始觀測值比較其R2、RMSE、
RMSE/StDev 及 MAPE,挑選出模式最佳參數值,
則該模式代表在學習上具有最佳效果,故為最佳學 習模式,再以此模式驗證後續資料。因此對於 HyCAM-I 未來所接收到之光譜影像資料能夠直接 且有效率地估算其空氣品質指標。以下針對本研究 所使用樣本誤差名稱定義如下:
(1) 學習誤差(Training error)
現場帶回之樣本經篩選後所挑選之51 筆樣本,
供初步分析其相關性及篩選變量之樣本,如依 51 筆樣本建模後之估算值與原來51 筆樣本觀測值之 差異稱為學習誤差;另於交叉驗證中,將51 筆樣 本隨機分為5 組,4 組用以模式學習建模,建模後 之估算值與原來 4 組所有樣本觀測值之差異亦稱 為學習誤差。
(2) 驗證誤差(Validation error)
於交叉驗證中,將51 筆樣本隨機分為 5 組,4 組用以模式學習,剩餘1 組作為模式估算驗證,則 該組樣本稱為驗證樣本,依4 組學習樣本建模後對 該組驗證樣本之估算值與原來該組驗證樣本觀測 值的差異稱為驗證誤差,本研究亦進一步將此分組 方式隨機重覆100 次。
(10)
(11)
(12)
(13)
236 航測及遙測學刊 第十六卷 第四期 民國 102 年 01 月
4. 結果與討論
本研究採樣時間由97 年 7 月至同年 12 月,早 上9 點至下午 2 點,期間共累積 76 筆樣本。由於 下午2 點採樣時,放置於鏡頭前之珍珠板容易被建 築物陰影遮蔽,可能導致光圈過大,單位時間內光 線進入比預期更多,造成實驗數據誤差,故將之去 除;另將環保署公告之斗六測站即時觀測值有錯誤 之該日樣本去除;另採樣當日天氣多雲時亦會使實 驗數據有嚴重誤差,最後剩餘有效處理之樣本共 51 筆。
4.1 變量篩選
相關性分析方面,單就各項污染物之觀測值及
綜合性指標PSIhr值與各波段反射率之R2分析結果,
PSIhr之R2最大值出現在500nm 及 600nm 附近,而 NO2則與綠光段(520nm~600nm)之 R2最高。整體來 說,PSIhr與反射率之R2較其他各單項污染物佳。
綜合上述「PSIhr(X 軸)、波長(Y 軸)與樣本反射率(Z 軸)之關係如圖 5」,本研究選擇 500nm 及 600nm 做為 SVR 及 MLR 之輸入變量;另取多位學者建 議以 550nm 做為分析空氣污染物之波段(Gupta et al., 2006; Wu et al., 2006; Sohrabinia and Khorshiddoust, 2007);且於有效波段範圍內,因 520nm 及 590nm 與 PSIhr相關性為次高,故一併為 輸入變量組合評估的選擇,其中 550nm 及 600nm 波段之反射率與各單項空氣污染物指標值折線圖 如圖6~圖 7。
圖5 PSIhr、波長與樣本反射率(Ref)關係圖
PSIhr
圖6 樣本反射率(Ref)(550nm)與各單項污染物觀測值折線圖
圖7 樣本反射率(600nm)與各單項污染物觀測值折線圖
4.2 兩模式學習結果
(1) 支撐向量機迴歸(SVR)學習結果
將 4.1 節 變 量 篩 選 結 果 之 500nm, 520nm, 550nm, 590nm 及 600nm,分別將其波段反射率輸 入SVR 模式,並以 PSIhr作為輸出資料。本研究所 使用之SVR 模式係內建於 STATISTICA 8 之之機 器學習(Machine Learning)模組。參數設定方面,根
據本研究團隊過往結果顯示C 值範圍在 1~1000 有 較佳分類之效果,而 γ 值依支撐向量機理論介於 0.001~10 之間較合適(施明倫,2008)。在間距設定 上,若將參數間距設定過大,可節省參數網格化程 式輸出之時間,但卻無法很明確將學習及率定參數 之最佳模式找尋出來。經由反覆測試後,C 值之設 定方面,C 值從 1~10 間距為 1;10~100 間距為 10;
100~1000 間距為 100,而 γ 值之設定從 0.001~0.01 O3:ppb
PM10、PM2.5:μg/m3 PSIhr:無單位
採樣日期 Ref
Ref O3:ppb
PM10、PM2.5:μg/m3 PSIhr:無單位
採樣日期
238 航測及遙測學刊 第十六卷 第四期 民國 102 年 01 月
間距為0.001;0.01~0.1 間距為 0.01;0.1~1 間距為 0.1;1~10 間距為 1,ε 經測試為較不敏感參數,因 此皆固定為0.1,依此 C 值與 γ 值設定下之參數網 格,可由此網格(1200 組)中挑選得到輸出之最佳化 學習結果(如表 3)。結果顯示,三變量組合之 RMSE 最佳值為6.1,RMSE/StDev 與 MAPE 亦分別為 0.46 與8%,其輸入三變量為 500nm、550nm 及 600nm,
C 值為 70,γ 為 10,該組與 520nm、550nm 及 600nm 三變量之R2均為0.79,但 520nm、550nm 及 600nm 波段組合之RMSE、RMSE/StDev 與 MAPE 均不如 500nm、550nm 及 600nm 波段組合。另以 500nm、
520nm、550nm 及 600nm 四變量為輸入組合,C 值 與γ 值分別為 100 與 10 之所有結果皆優於三變量 組合,但因其無明顯提昇,為求減少模式複雜度,
故仍以三變量組合為本研究最佳輸入變量組合。
模式複雜度方面,C 值與 γ 值愈大表示模式愈 複雜,而波段組合愈多,模式亦愈複雜,但由表中 可看出C 值與 γ 值愈大,其估算結果之相關性及誤 差均愈佳,為避免模式過度學習導致分析結果之誤 判,需進一步以交叉驗證方式驗證兩模式之能力。
(2) 多變量線性迴歸(MLR)學習結果
本研究亦以500nm, 520nm, 550nm, 590nm 及 600nm 做為篩選輸入變量組合的依據,以上節相同 方式進行多變量線性迴歸(MLR)分析。其結果如表 4 可知各組之 RMSE 均介於 9~10,RMSE/StDev 介於0.71~0.73,MAPE 則為 14%,而 R2亦穩定地 介於0.46~0.48。
表3 SVR 模式迴歸學習結果 波段(nm) R2 RMSE RMSE
/StDev MAPE
(%) 500, 520, 550 0.73 7.4 0.52 9 500, 550, 600 0.79 6.1 0.46 8 520, 550, 600 0.79 6.2 0.47 8 500, 520, 550, 600 0.81 6.2 0.43 8
表4 MLR 模式迴歸學習結果 波段(nm) R2 RMSE RMSE
/StDev
MAPE (%) 500, 520, 550 0.48 9.2 0.72 14 500, 550, 600 0.46 10.2 0.73 14 520, 550, 600 0.46 10.1 0.73 14 500, 520, 550, 600 0.48 9.4 0.71 14
4.3 交叉驗證(CV)分析結果及 綜合比較
本研究之交叉驗證每次將51 筆樣本隨機分為 5 組,其中 4 組作為學習資料而另 1 組即為驗證樣 本,故學習有40 筆樣本、驗證有 11 筆樣本,總共 隨機取樣100 次,以兩模式分析估算 PSIhr,並以 RMSE, RMSE/StDev, R2 及 MAPE 評估模式優劣。
(1) SVR 之 CV 分析結果
以SVR 模式估算 PSIhr結果如表5。參數設定 方面,根據表3 將 γ 及 ε 固定為 10 及 0.1,C 值範 圍由 50~100,間隔 1。表中 RMSE 僅摘錄誤差最 小值、中間值及最大值,並列出隨機取樣100 次之 平均值及其標準偏差,其中平均 RMSE 為 12.1,
95%信賴區間為[11.8, 12.4],其 R2, RMSE/StDev 及 MAPE 平均分別為 0.28, 0.93 及 20%,其 95%信賴 區間分別為[0.24, 0.31], [0.89, 0.98]及[19%, 21%],
除R2外皆為隨機取樣100 次中最佳值。
估 算 PSIhr 學 習 結 果(取 500nm, 550nm 及 600nm 組合之結果表 3)與交叉驗證結果(表 5)之比 較,平均 RMSE(RMSE/StDev)由 6.1(0.46)增加至 12 .9(0.93),平均 R2由0.79 降至 0.28,平均 MAPE 由 8%增加至 20%,充分顯示 SVR 模式學習結果 有過度學習之不穩定現象。
表5 SVR 模式之交叉驗證結果
R2 RMSE RMSE/StDev MAPE(%) 最小值
中間值 最大值
0.60 5.4 0.39 9 0.27 12.9 0.93 18 0.01 23.1 1.72 27 平均(100 次) 0.28 12.1 0.93 20
StDev
(100 次) 0.18 3.6 0.21 5 (2) MLR 之 CV 分析結果
以MLR 模式之 CV 估算 PSIhr結果如表6,表 中以 RMSE 排序僅摘錄誤差最小值、中間值、最 大值與隨機取樣100 次之平均值及其標準偏差,平 均RMSE, R2, RMSE/StDev 及 MAPE 分別為 10.4, 0.47, 0.77 及 17%,其 95%信賴區間分別為[10.1, 10.7], [0.46, 0.48], [0.74, 0.81]及[16%, 18%]。
估算PSIhr學習結果取500nm, 550nm 及 600nm 組 合之結果(表 4)與交叉驗證結果(表 6)之比較,平均 RMSE 由 10.1 增加至 10.4,平均 RMSE/StDev 由 0.73 增加至 0.77,平均 R2由0.46 增加至 0.47,平 均MAPE 由 14%增加至 17%,顯示驗證結果雖稍 差於學習結果,但顯著性不高。
表6 MLR 模式之交叉驗證結果
R2 RMSE RMSE
/StDev MAPE (%) 最小值 0.47 5.4 0.38 8 中間值 0.52 10.7 0.77 18 最大值 0.51 15.9 1.15 24 平均(100 次) 0.47 10.4 0.77 17 StDev(100 次) 0.06 2.6 0.17 4
4.4 SVR 及 MLR 模式比較
綜合4.3.1 及 4.3.2 節,本研究將 SVR 模式及 MLR 模式估算 PSIhr之結果(表 5 及表 6)繪出 R2及 RMSE 直方圖(圖 8~11)與散佈圖(圖 12~17)。
由圖8 及 9 可看出 SVR 模式估算 PSIhr之R2 可達0.60,但最低卻不足千分之一,而以 MLR 估 算PSIhr之R2最高及最低區間為0.3~0.6,較 SVR 模式集中且為近似常態分布(略右偏);圖 10 及圖 11 可知 MLR 模式估算 PSIhr之誤差範圍分布較 SVR 模式集中,SVR 模式與 MLR 模式最低誤差值 同為5(圖 12 及圖 15),RMSE/StDev 約為 0.4,但 SVR 模式最高誤差達到 23(圖 14),RMSE/StDev 約為1.7,MLR 模式之最高誤差值僅有 15(圖 17),
RMSE/StDev 約為 1.2,於平均 RMSE 方面,SVR 模式及MLR 模式分別為 12 及 10 (圖 13 及 16),
RMSE/StDev 分別為 0.93 及 0.77,皆以 MLR 模式 佔優勢,且較集中接近常態分布。
綜合上述結果,SVR 模式雖在學習誤差值較 小,但有可能產生過度學習的現象,使用時需小心 其風險。但 MLR 模式在多次隨機驗證估算 PSIhr
時,呈現誤差較小,穩定性亦高於SVR 模式的結 果,顯示其較不易過度學習,而使用SVR 模式時,
取樣應需要有代表性較好的學習樣本,以避免學習 誤差很好,卻可能產生極差的估算結果。
圖8 SVR 之 R2直方圖
圖9 MLR 之 R2直方圖
圖10 SVR 之 RMSE 直方圖
圖11 MLR 之 RMSE 直方圖
0 5 10 15 20 25 30
-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
R2
Frequency
0 5 10 15 20 25 30
-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
R2
Frequency
0 5 10 15 20 25 30 35
0 4 8 12 16 20 24
RMSE
Frequency
0 5 10 15 20 25 30 35
0 4 8 12 16 20 24
RMSE
Frequency
240 航測及遙測學刊 第十六卷 第四期 民國 102 年 01 月
圖12 SVR 模式交叉驗證散佈圖 (最小 RMSE=5)
圖13 SVR 模式交叉驗證散佈圖 (平均 RMSE=12)
圖14 SVR 模式交叉驗證散佈圖 (最大 RMSE=23)
圖15 MLR 模式交叉驗證散佈圖 (最小 RMSE=5)
圖16 MLR 模式交叉驗證散佈圖 (平均 RMSE=10)
圖17 MLR 模式交叉驗證散佈圖 (最大 RMSE=15)
0 20 40 60 80 100
0 20 40 60 80 100
Observed
Predicted
0 20 40 60 80 100
0 20 40 60 80 100
Observed
Predicted
0 20 40 60 80 100
0 20 40 60 80 100
Observed
Predicted
0 20 40 60 80 100
0 20 40 60 80 100
Observed
Predicted
0 20 40 60 80 100
0 20 40 60 80 100
Observed
Predicted
0 20 40 60 80 100
0 20 40 60 80 100
Observed
Predicted
5. 結論與建議
5.1 結論
總體來說,本研究以500nm, 550nm 及 600nm 波段反射率做為輸入變量可達最佳模式,若單以 550nm 做 為 輸 入 變 量 其 相 關 性 略 遜 於 520nm, 590nm 及 610nm,但配合 500nm 及 600nm 做為輸 入變量組合之分析結果仍稍優於其他單或多變量 組合,此結果與前述多位學者之文獻相互呼應,然 而單變量之誤差與本研究最佳三變量組合差異不 大,如考慮再簡化模式複雜度,亦可建議使用單一 變量模式。
在分析 PSIhr 與光譜反射率之學習結果,以 500nm, 550nm 及 600nm 做為輸入變量,MLR 模式 之R2, RMSE, RMSE/StDev 及 MAPE 分別為 0.46, 10, 0.73 及 14%,雖與實驗室在控制條件下所可能 得到高相關性略有差距,但野外量測之不確定因素 本來就較多,因此本研究結果應尚在可接受範圍。
然而在PSIhr 與光譜反射率資料之隨機抽樣多次交 叉驗證分析結果,SVR 模式(輸入變量為 500nm, 550nm 及 600nm)分析結果 RMSE(RMSE/ StDev) 最低值為5(0.39),但最高值達 23(1.72),平均 RMSE 為12;而 MLR 之 RMSE(RMSE /StDev)最低值為 5(0.38),最高值為 15(1.15),平均 RMSE 為 10,顯 示出 MLR 模式學習誤差雖較 SVR 模式稍大,但 驗證結果及穩定性卻優於SVR 模式。
5.2 建議
本研究因時間、人力因素限制,採集樣本數量 稍少,所以未來建議可以多採集樣本,可增加數據 之準確性以及代表性。又本研究選擇樣本時僅限於 當天之天氣狀況晴天無雲,於天氣狀況有些許雲量 時採集之樣本數據相關性皆為低相關性,於去除該 樣本後相關性明顯提升。建議未來除標準反射板外,
亦可利用亮點及暗點來作為當日輻射量校正的方 式,以改善環境變因及儀器特性所造成之影響。
本研究所使用之儀器就目前所知國內尚無參考資
料,而HyCAM-I 之可攜式高光譜影像儀中所採用 之光圈為自動光圈,造成實驗中光圈會因不同入射 光線強度自動調整,本研究室擬計畫裝設固定光圈 式 CCD,以期減少無法控制之變因;並可於儀器 上增設恆溫裝置,例如液態氮等,可有效減少溫度 對儀器所造成之影響;另外考慮擴大可變光譜波段 範圍,可將水氣強吸收段之 940nm 納入,應可有 效去除水氣干擾,增加數據之精確度。而目前僅利 用本實驗室現有的衛星圖資作綜合性粗略探討,未 來待資料收集更完善後,再針對單一污染物及光譜 儀敏感度分析,亦或以雷達影像作更深入的探討。
參考文獻
林唐煌,2001。利用衛星資料求取大氣氣溶膠光學 厚度之研究與應用,國立中央大學博士論文,
桃園縣。
邱瑞仙,2008。桃園地區空氣污染物濃度相關性及 地理分布,國立中央大學碩士論文,桃園縣。
施明倫、游保杉、張維欽、林珈禎、汪志達,2008。
比較支撐向量機與類神經網路模式遙測河川 污染分類之研究,環境資訊研討會頁486,台 北市。
張逸凡,2005。支撐向量機在即時河川水位預報之 應用,國立成功大學水利及海洋工程研究所碩 士論文,台南市。
張能復、鄭福田、蔡俊鴻、張晃彰、林金源、吳曉 窗,1986。台北市空氣污染偵測網選站準則之 研究,國立台灣大學環境工程研究所,台北 市。
Cortes, C., and Vapnik, V., 1995. Support vector networks, Mechine Learning, 20, 273-297, 1995.
Gupta, P., Christopher, S.A., Wang, J., Gehrig, R., Lee, Y. and Kumar, N., 2006. Satellite remote sensing of particulate matter and air quality assessment over global cities, Atmospheric Environment, 40, 5880-5892.
Sohrabinia, M. and Khorshiddoust, A.M., 2007.
Application of satellite data and GIS in studying air pollutants in Tehran, Habitat International, 31, 268-275.
242 航測及遙測學刊 第十六卷 第四期 民國 102 年 01 月
Wu, J., Winer, A.M. and Delfino, R.J., 2006.
Exposure assessment of particulate matter air pollution before, during, and after the 2003 Southern California wildfires, Atmospheric Environment, 40, 3333-3348
1Instructor, Institute of Safety, Health and Environmental Engineering, Received Date: Mar. 15, 2011
2 National Yunlin University of Science & Technology Revised Date: Apr. 13 , 2011
2 Assistant Professor, Institute of Space Science, National Central University Accepted Date: Jul. 18, 2011
3 Master, Institute of Safety, Health and Environmental Engineering,
3 National Yunlin University of Science & Technology
*.Corresponding Author, Phone: 886-5-5342601 ext. 4489 , E-mail: [email protected]
Developing A Portable Hyperspectral Camera To Monitor Air Quality Index
Min-Luen Shih
1Tang-Huan Lin
2Chih-Hao Hung
3*Guang-Ray Tsai
4ABSTRACT
Ground-based air quality monitoring stations were set up traditionally in accordance with population density.
It could only sample the air pollutants at selected stationery locations with high operation and maintenance cost.
Nowadays, remote sensing technology has been widely applied to monitor the ambient atmospheric environment, this research is intended to develop a portable hyperspectral camera (HyCAM-I) to monitor the air Pollutant Standard Index (PSI) remotely. With the establishment of an air quality estimation model from the hyperspectral data and the sampling calculated hourly PSIhr, we can measure the air quality easier in any ungaged region by mobile HyCAM-I rather than using the traditional site-specific monitoring data.
For building up the air quality index estimation model, this study adopted the supporting vector regression (SVR) model and the multivariate linear regression (MLR) model to calibrate the relationship of the measured hyperspectral data and the PSIhr index. Three bands of 500nm, 550nm and 600nm were used as the input variables to estimate the outputs of the PSIhr. Cross validation method was used to verify the model efficiency.
The results showed that the estimation of the SVR model may have over learned, and caused the estimation errors of the SVR model more unstable and greater than those of the MLR model. However, the average estimation error of the MLR model is still acceptable but need to be verified by improving the device with expanding the samples in the future to enhance the reliability.