可攜式高光譜影像儀應用於遙測空氣品質指標

(1)

Volume16, No.4,January 2013, pp.229-243

1國立雲林科技大學環境與安全衛生工程系講師收到日期:民國 100 年 03 月 15 日

2國立中央大學太空科學研究所助理教授修改日期:民國 100 年 04 月 13 日

3國立雲林科技大學環境與安全衛生工程所碩士接受日期:民國 100 年 07 月 18 日

＊通訊作者, 電話: 886-5-5342601 ext.4489, E-mail: [email protected]

可攜式高光譜影像儀應用於遙測空氣品質指標

施明倫

¹

林唐煌

²

洪志豪

^3*

蔡廣叡

³

摘要

傳統臺灣各縣市周遭空氣品質監測站係依人口數比例架設，僅能固定單點採樣，儀器精密且維修亦較複雜。目前遙測技術已廣泛應用於環境污染之監測，因此本研究擬開發一套可攜式高光譜影像儀 (HyCAM-I)藉以更機動性地遙測空氣污染指標(Pollutants standard index, PSI)，藉由建立之空氣品質光譜估算模式，用以即時監測任一未知區域之空氣品質。

本研究建模方法採用支撐向量機迴歸(Support Vector Regression, SVR)模式與多變量線性迴歸 (Multivariate Linear Regression, MLR)模式，並評估以 500nm, 550nm 及 600nm 波段反射率做為模式輸入變量以估算 PSI。兩模式在驗證樣本之平均決定係數(R²)分別為 0.28 與 0.47；平均均方根誤差(RMSE)分別為12 與 10；平均 RMSE/觀測值標準差(StDev)分別為 0.93 與 0.77；平均絕對百分比誤差(MAPE)分別為 20%與 17%。於光譜分析空氣污染指標方面，其最佳波段值約位於 500nm 及 600nm 附近。依本研究結果 顯示以可攜式高光譜影像儀用於監測空氣污染指標相當具有其可行性，可機動作為未來即時監控未設測站區域空氣品質之工具。

關鍵詞：高光譜影像儀(HyCAM-I)、遙測(RS)、空氣污染指標(PSI)、支撐向量機迴歸(SVR)、

多變量線性迴歸(MLR)

1. 前言

1.1 研究背景

空氣是人類生活基本要素之一，而空氣品質好壞嚴重影響到人類生活及身體健康，如O3、PM2.5、 PM10等空氣污染物。傳統之空氣品質測值均需仰賴環保署所架設之空氣品質測站，設備較精密且維修保養亦較複雜，有時因為機械、人為等因素造成數據失效而不可使用，且其測站均為單點固定位置採樣，其污染分布空間代表性較不足。因此本研究之目的在於開發一種簡單、即時且機動性高，涵蓋較大區域之可攜式高光譜影像儀，可隨機擷取任一未知空氣品質區域之週遭空氣影像，俾以即時偵測空氣品質指標，雖可能較傳統空氣品質測站實驗分

析資料精度稍差，但其涵蓋度與移動方便性應較傳統固定或單點採樣方式更居優勢。

1.2 文獻回顧

本研究文獻探討共分為三部份，第一部份主要參考以衛星或高光譜遙測應用於空氣污染之研究；

第二部份探討模式學習與建立；第三部份則是其他相關參考研究。

目前遙感技術已廣泛應用於環境污染監測，林唐煌等(2001)於航測遙測學刊中提到大氣氣膠不僅模糊了地表資訊，亦嚴重地影響大氣環境及氣候變遷，在地球資源之遙測與大氣環境變遷是相當重要之參數，也因此有許多利用衛星資料求取氣膠參數之方法陸續提出，密暗像元法及對比法則為較常被應用之兩種方法。此外，在空氣品質監測應用最

(2)

230 航測及遙測學刊第十六卷第四期民國 102 年 01 月

重要之兩個步驟包括高精度大氣氣膠光學厚度之取得，以及具代表性之氣膠粒徑參數之建立。應用結果證實利用衛星觀測資料檢測空氣品質具極高之可行性，將可進一步建立台灣地區之即時空氣品質監測系統。Gupta et al. (2006)利用衛星遙測推估全球都市懸浮微粒及空氣品質，分析以MODIS 衛星光譜資料中550nm 波段之大氣光學厚度(Aerosol Optical Thickness, AOT)與地面觀測站觀測之 PM2.5，於全球五個主要都市(Hong Kong, Sydney, Switzerland, Delhi and New York)，在經過適當分組以及剔除離群值後其相關性(R)可達 96%，且雲層覆蓋(Cloud Fraction)、相對濕度(Relative Humidity) 及大氣混合層高度(Mixing Height)皆會影響 AOT。

Wu et al. (2006) 亦以 MODIS 衛星推估之 AOT 資 料來分析2003 年南加州野火所造成之空氣污染，

並且利用Kriging, Co-Kriging 及 IDW 法內插得未設測站區域之PM 濃度，另外也提出利用消光係數、

風速、風向及煙霧覆蓋等資訊可有效提升迴歸及內插法準確度。Sohrabinia and Khorshiddoust (2007) 則是以MODIS 衛星推估之 AOT 資料分析 CO 並配合地理資訊系統(GIS)將 CO 濃度分布以面化方式呈現Tehran 地區之空氣污染。

施明倫等(2008)比較以類神經網路及支撐向量機兩種監督式模式估算台灣河川流域水質空間污染情況，結果顯示類神經網路最佳模式驗證精確度平均約68%；而支撐向量機最佳模式驗證結果皆 為73%，故兩模式在估算河川水質污染分類結果皆 相當有應用之可行性。然而在參數選擇方面，類神經網路模式較容易受初始權重設定之影響，造成相同條件模擬下產生較大差異之估算結果，且亦會因隱藏層結點數設定過高而可能造成過度學習，支撐向量機模式相對比較穩定，當最佳化參數後，即不再受其他因素影響改變其估算結果，應較具可靠度。

邱瑞仙(2008)以 Pearson 相關係數矩陣分析桃園縣空氣品質測站與污染物濃度相關性，結果顯示所有測站懸浮微粒濃度及臭氧濃度受到相同污染型態或擴散因子影響。張能復等(1986)認為區域內之一般空氣品質變化趨勢未必與該區內局部高濃度

之現象有關，因此宜採取其他之評估標準作為分析之依據，最常用之方式乃以區域內各不同地點濃度變化之相關性為評估之基準，亦即以各不同點之濃度時間序列進行相關性分析，以該區域內所有點之相關係數最高值者所在處作為設置監測站之地點，

或以超過設定相關係數臨界值所涵蓋面積最大之代表點為設置監測站之理想地點。

2. 研究地區及基本資料

2.1 研究區域

本研究以雲林縣斗六市之空氣品質測站為研究之地點。斗六站架設於斗六市區旁之斗六高中，

其位於斗六火車站東邊約500 公尺。

圖1 雲林縣斗六市

2.2 空氣品質監測站

行政院環保署空氣品質監測網測站類型包括一般空氣品質監測站、工業空氣品質監測站、交通空氣品質監測站、國家公園空氣品質監測站、背景空氣品質監測站、超級測站、光化學測站、逆溫測站等。本研究選定一般空氣品質監測站斗六站作為光譜採樣及空氣品質數據來源，其位於雲林縣斗六市斗六高中三樓頂，採樣口離地面高約12 米，西南方約500 公尺有一市場，早上四、五點即有居民及菜販活動，而七、八點為交通尖峰時刻，汽機車排放造成空氣品質較為嚴重，對於斗六市區內空氣品質影響甚大。

2.3 空氣品質標準

我國空氣品質標準最早於民國 64 年 10 月 1 日由行政院衛生署公告，標準規範項目為懸浮微粒、

(3)

硫氧化物、氮氧化物、一氧化碳及惡臭物質等，標準適用區域分為一般地區及工業區，工業區標準較為寬鬆。其後經過79 年與 81 年兩次修正，現行空氣品質標準在民國84 年由環保署公佈。

PSI 係我國參考美國環境保護署(USEPA)、環境品質評議會(CEQ)及其他機構研擬。此指標顯示空氣品質之好壞程度以0-500 表示。決定 PSI 值之五個污染物分別為一氧化碳(CO)、臭氧(O3)、二氧化氮(NO2)、二氧化硫(SO2)及懸浮微粒(PM10)來計算。換算PSI 時是採分段線性內插方式，根據各污染濃度對人體影響程度劃分為0-500 之副指標值，

經求出每一種污染物濃度所對應之副指標值 (Sub-index)後，當日之 PSI 值即為五個副指標值中最大者，而代表PSI 值之污染物便稱為指標污染物 (Critical pollutant)，如表 1。以本研究採樣時間而言，指標污染物大部分受副指標 PM10主導，少部份受副指標O3主導，其餘污染物則無。

表1 污染物濃度與副指標值對照表污染物 PM10 SO2 CO O3 NO2

統計方式 24 小時平均值

24 小時平均值

24 小時內最大

8 小時平均值

24 小時內最大小時值

24 小時內最大小時值單位 μg/m³ ppb Ppm ppb ppb

PSI 值

50 100 200 300 400 500

50 150 350 420 500 600

30 140 300 600 800 1000

4.5 9 15 20 40 50

60 120 200 400 500 600

- - 600 1200 1600 2000

3. 研究方法

隨著現代物理學、空間技術、電子技術、電腦技術、資訊科學及環境科學等發展，遙感技術已成為一先進且實用之綜合性探測手段。遙感(Remote Sensing, RS)是一種遠距離目標，非接觸之判定分析性質之技術。

(1) 實驗儀器

實驗所開發之HyCAM-I 目前於國內各相關實驗室及廠商尚無參考資料，為本研究將高光譜儀結合影像資料所開發之儀器，加上其它輔助設備。感測波長範圍為401nm~720nm，間距為 1nm，即 1nm 拍攝一張影像，全範圍共 320 張影像。HyCAM-I 本身由三部份結合而成，包含前端接收光源之鏡頭、

高光譜及可變波長控制盒(如圖 2)與後端供感光之 CCD，且須透過影像擷取卡將 CCD 接收到之訊號轉換為影像呈現於電腦螢幕上，利於採樣人員進行採樣作業，並透過軟體操控波長擷取範圍及間隔，

將影像之光譜資料儲存於電腦硬碟中(非影像檔) 再帶回實驗室進行後續資料前處理。

高光譜設備為液晶可調式濾波器(Liquid crystal tunable filters)，其原理係利用液晶偏轉特性，

使特定波長通過，其光通量約為40%，波長峰值半 高寬約為7nm。其餘輔助設備如下：腳架為固定可攜式高光譜儀，避免儀器掉落或於拍攝圖像中儀器晃動導致圖像模糊之情形發生；筆記型電腦可於採樣時進行對焦、拍攝、儲存光譜資料等工作，另透過USB 傳輸線提供可變波長控制盒及影像擷取卡電源；白板用以採樣時將此板置於鏡頭前與目標物一併攝入，目的在拍攝影像時為避免太陽光輻射量不足，產生不必要之實驗誤差，故放置此白板以利於集中收集光源。

(2) 儀器特性及輻射校正

由於HyCAM-I 係以灰度值(Digital Count, DC) 方式儲存光譜資料，每一個灰度值代表著一個該次採樣所接收到之反射率，須先將灰度值轉換成反射率。本研究向國內中央大學商借已知反射率之四種標準反射板，反射率分別為20%、50%，75%及 99%，

取得四種標準反射板之灰度值後，以99%標準反射板為參考值，將其他三種標準反射率之灰度值除以 99%標準反射板之灰度值，如公式(1)：

255 Re

, 99 . 0

,

,  



 DC

f_i DCⁱ (1)

其中Ref 為反射率，為求方便將原始反射率介於0~1 範圍值增揚至 0~255；i 為 0.20, 0.50, 0.75, 0.99；λ 為波長介於 401~720nm。

(4)

232

由上此儀器與圖3 為波值，y 軸

(3) 實驗 本研站本體之之相關性之重要因射傳送理正曲線，

之樣本校無雲之前體接近蘭時段(09:0 採樣現場採樣了避免多於減少光約為20 分

Reflectance

上式得四組反射與各個波段灰度波長550nm 之軸為增揚後之反

圖2 HyCAM 步驟研究採用HyC 之光譜資料，並性以建立空氣因素為天氣，由理論，於晴朗無並以此為基準校正至同一基前提下，才可進蘭氏面(Lambe

00~14:00)。

樣時須於固定樣示意如圖4) 多餘之誤差出現光圈積分時間

分鐘，拍攝3

圖3 校正

0 50 100 150 200 250

0 50

航測及

射率後，與標度值轉反射率之校正曲線，

反射率。

M-I 及可變波長

CAM-I 來採集並分析該光譜品質估算模式由於本研究校無雲之天氣製準，透過此校準下，故必須進行採樣工作 ertian)，採樣

定位置、固定角 )並固定鏡頭倍現，於鏡頭前

，一次採樣時 320 張影像時

正曲線(λ=550

550 ^{Ref = 1.}

R² = 0.9

100 150 DC

及遙測學刊第

標準反射板可繪率之校正曲線

圖中x 軸為灰

長控制盒

集斗六空氣品質譜資料與空氣品式。決定是否採校正方式係利用製作標準反射板校正曲線將採集須要在天氣晴朗作；為了讓地表樣時間多半為中

角度架設儀器倍率進行對焦前放置珍珠板以

時間(含架設儀時間約2 分鐘

0nm)

1567DC + 6.9926 9992

200 250

第十六卷第

繪出線，如灰度

質測品質採樣用輻板校集到朗且表物中午

器(其焦，為以利儀器)

。

(4)

ERD 先以欲萃各P (1)換端強波段 (5)

率之 PSI 主要時往 O3為過去本研續採副指副指 PSI

3.

Vap 函數

6

四期民國 10

影像擷取卡

可變波長控制盒

電腦

圖資料前處理

本研究採樣 DAS Imagine 以ERDAS Im 萃取影像範圍 Pixels 數據萃換算為反射率強度較弱，容段範圍約為4 PSI 修正方式

本研究最初之相關性，但 I 值換算方法要原因是環保往回推24 小時

為以過去24 小去24 小時內最研究採用光譜採集24 小時之指標值為該小指標值後，再以 I 值，以 PSIhr

1 支撐向

SVR 為 SV pnik, 1995)，利數如公式(2)：

02 年 01 月

HyCAM-I

約50公尺反射光

空氣微粒

圖4 現場採樣

樣所儲存檔案格 e 轉成 img 檔 magine 內建提圍圈選後匯出萃取並儲存，最

率。由於可見光易有雜訊產生 80nm~675nm 式

初分析環保署公結果較不理想與環保署公告保署之PSI 值以

時之平均值換小時內最大值最大八小時之譜分析，無法夜

之光譜資料，故小時之測值直接以各副指標值

r表示之。

向量機迴

VM 進一步延利用迴歸方法

尺

空入射光

粒等物質

樣示意圖

格式為bsq，

檔後方可呈現提供之影像圈

，其次利用程最後將灰度值光於401nm~

生，故本研究 m。

公告之 PSI 想，故本研究告之PSI 值有

以PM10為例換算成PSI 副值換算之；而之平均值換算夜間採樣，因故本研究所使接線性內插換值之最大值做

迴歸(SVR)

延伸之應用(C 法處理估算問

空氣品質監測站

將其匯入現圖像。首圈選工具將程式將圖中值透過公式

~720nm 兩究實際使用

值與反射究所使用之有所不同，

例係以該小副指標值；

而CO 則為算成之，但因此無法連使用之PSI 換算為PSI 做為該小時

)

Cortes and 問題。決策

(5)

 x  b x

f ( )    

(2) 其中 ω 為 f(x)之複雜度(Complexity)，ω 愈大表示模式愈複雜，依結構最小化法則，模式複雜度可以公式(3)表示







^l

i i i

C

1 2 *

) 2 (

1   

(3)

i i

i

x b

y  (    )     )

*

(   x

_i

 b  y

_i

   

_i ,



_i

, 

_i^*

 0

,

l i  1 ,...,

其中



_i^與i^*為離群之學習樣本；C 在此為使用者定義之成本參數(Cost parameter) 或懲罰參數 (Penalty parameter)，C 值愈大表誤差發生時對目標函數影響愈大。SVR 主要函數形式為 ε 不敏感損失函數(ε-insensitive loss function)如公式(4)：











 

 y f x otherwise

x f y x if

f

y ( ) ,

) ( ,

) 0

( 



 (4) 其中y 為實際值，f(x)為估算值，而 ε 為一可容許誤差區間(ε-tube)，當 y 落於誤差區間外時，

即給予懲罰，由此損失函數即可定義出y 與 f(x)之誤差即為支撐向量。

SVR 與傳統線性迴歸所使用之最小平方法 (Least squares method)之差異在於 ε-tube，因此 SVR 僅須少量且具代表性之樣本即可建立決策函數，而最小平方法則需所有樣本才能建立。最佳化公式(4) 可利用拉氏乘數



_i,



_i^*^,_i^, ，並利用拉式函數_i^* 求解(5)，此問題之解即為公式(6)之鞍點，如公式 (5)及公式(6)：

) , , , , , , ,

(  b  

^*

 

^*

 

^*

L

 





























 



 





l i

i i

i i l

i i i i i

l i

i i

b x y

C

1 1

1 2 *

) (

) 2 (

1

∑



























 ^l

i

i i i i 1

*

* )

(   (5)



















 







 







 







 







, 0 -

C , 0

, 0 -

C , 0

, 0 ) (

, 0

, ) (

, 0

*

* 1

*

i i i

l

i i i

l i

i i i

L L b L L x



 



 



 

l

i

i i

i

, 

^*

,  , 

^*

,  0 ,  1 ,...,



(6)

將公式(6)代入公式(5)，並將之換為對偶問題如公式(7)：









 ^l

j i

j i j j i

i x x

1 ,

*

* )( )( )

2 (

1    

) ( ) (

1

* 1

*



 





 ^l

i i i i

l

i i i y  

 (7)

其中 ( ) 0

1

* 



 l i

i

i 

 , 0_i C , l

i

i C , 1,...,

0^*  ^{。將非零之}



_i^與



_i^*^{代入}







 ^l

i

i x

1

*

i )

( 

 可得 ω。最後線性 SVR 之決策函數如公式(8)：











 ^l

i i x xi b

x f

1 i

* )( )

( )

(   (8) 而

( 

_i^*

 

_i

)  0

所對應之資料即為支撐向量(張逸凡，2005)。

3.2 參數最佳化-網格搜尋法 (Grid Search)

參數設定上，由於 C 值與γ值無法藉由軟體進行自動搜尋。因此在模式之建構上，需藉由手動輸入 C 值與γ值來得到完整之模式，本研究使用網格搜尋法加以輔助。所謂的網格搜尋法就是將輸入參數空間分割成許多相同大小的網格，每次在網格中取出一組輸入參數組合進行實驗，接著在所有的實驗結果中找到極值及其對應的輸入參數值。網格搜尋法之概念是利用界定 C 與γ的搜尋上限及下限，並決定搜尋時每一次跳動間距以找出在此區

(6)

間內最小誤差的參數組合。以下為搜尋步驟(如圖 5)。

(1) 依相關文獻中初步界定 C、R 初始值及其範圍。

(2) 決定搜尋跳動間距。

(3) 記錄起始 c、γ 參數之分析結果。

(4) 將 c 增加一次跳動間距，γ 不變，紀錄其分析結果。

(5) 將 γ 增加一次跳動間距，c 不變，紀錄其分析結果。

(6) 將 c、γ 皆增加一次跳動間距，紀錄其分析結果。

(7) 將目前 C+c，R+γ 之參數組合為下一個初始參數搜尋位置。

(8) 重覆(2)~(7)步驟至搜尋達 C、R 上、下界值。

(9) 記錄最佳訓練誤差值。

(10) 將搜尋出訓練最佳參數組合代入驗證 (Validation)資料計算估計值。

圖5 Grid search 演算搜尋法

3.3 多變量線性迴歸(MLR)

迴歸分析於統計分析上之應用為一種估計應變數與一個或多個自變數或共變量間之線性關係，

目的在透過這種關係以自變數來估算應變數。由於高光譜波段數量龐大，選擇一個不適當之波段來建立迴歸方程式會使得迴歸係數估計值帶來不合理之解釋。建立迴歸模式時，一方面希望包含較多波段，以求得準確之估算；另一方面，基於模式複雜度考量，波段數目應盡量減少。結合上述考量，理

想狀況係以較少波段，達到建立良好的迴歸估算模式。

3.4 相關性分析(Correlation Analysis)

(1) 皮爾森相關係數

為瞭解兩組數值資料間相關性及方向與程度，

可以利用線性相關測量兩者間之強度，而皮爾森相關係數即為測量兩變項間之線性關係，因此兩變量間為曲線關係之情形不適用。

) 1 (

) ( )

1 (

) (

) 1 (

) )(

(

1

2

1

2 1





 



  







n y y n

x x

n

y y x x

z i

i z

i i z i

i i



XY (9)

其中



_XY為樣本相關係數，xi 及 yi 代表 X 群及Y 群之樣本，x及

y

則分別代表X 群及 Y 群之平均值，n 為樣本數。

(2) 決定係數

決定係數是在迴歸分析中，用來瞭解在自變數 Xi 與應變數 Y 所建立之迴歸模式中，Y 受 X 影響多寡而決定。其應用最小平方法之概念為想找一個估計值來代表實際值時，彼此之間具有一點偏差，

可能為正偏差或負偏差，故以最小平方法衡量誤差之大小程度。其為相關係數的平方( 通常以 R-Square 或 R²表示)。相關係數之值區間為[-1, 1]，

決定係數之值則介於[0, 1]，其值愈大表示在估算效能上愈佳。

3.5 交叉驗證(Cross Validation)

本研究以交叉驗證來比較 SVR 與 MLR 之不確定性。一般交叉驗證方法係假設樣本數為n，取其中一筆樣本做為驗證(Validation)之數據，其餘 n-1 個樣本供學習(Training)，如此分析 n 次後即可得知此模式之不確定性。此分析方法之結果對資料筆數少之輸入層較為嚴謹客觀，且可以全程瞭解模式之分析結果。

(7)

本研究之交叉驗證係以v-fold 方式進行分析，

此方式係每次將所有樣本隨機分為 v 組(本研究分 5 組)，取其中一組為驗證樣本，其餘 v-1 組作為學習或迴歸之樣本，重複v 次直至每組皆被驗證後計算所有驗證資料估算值與觀測值的相關性與誤差，

如此循環100 次(即隨機分五組 100 次)。最後再建立一估算空氣品質指標最佳模式，做為未來任一未設測站區域空氣品質指標估算模式。

3.6 評估指標

本研究嘗試利用 SVR 及 MLR 以估算空氣品質，其結果以決定係數(R2)、均方根誤差(RMSE)、

RMSE 佔觀測值標準差(Standard Deviation)之比例 (RMSE/StDev) 、平均絕對誤差百分比 (Mean Absolute Percentage Error, MAPE)及 95%信賴區間 (Confidence Intervals, CI)作為評估比較之依據。

RMSE 值愈低則代表模式估算值與觀測值之差距愈少，估算效果較佳，其定義如公式(10)：

 

n Pdt Obs RMSE

n

i



i





 ¹

2

其中n 為樣本數；Obsi 及 Pdti 分別為第 i 個觀測值及估算值。

RMSE/StDev 之定義如公式(11)：

 

n Obs Obs

n Pdt Obs

StDev

RMSE n

i i n i

i i









1

2 1

2

/

其中n 為樣本數；

Obs

_i及

Pdt

_i分別為第i 個觀測值及估算值；

Obs

^為Obs 之平均值。

MAPE 為一相對數值，不受觀測值與估算值單位與大小之影響，能夠客觀地獲得觀測值與估算值間之差異程度，其定義如公式(12)：

%

1 100









n Obs

Pdt Obs MAPE

n

i i

其中n 為樣本數；

Obs

_i及

Pdt

_i分別為第i 個觀測值及估算值。

95%信賴區間其定義如公式(13)：

z n x

CI σ

2 α

%

95

  

其中

x

為每次驗證樣本指標之平均值；

2

zα^為常態

分布之臨界值(Critical Point)，95%信賴區間中 α 以 0.05 代入，查表得知

2

zα^為 1.96；σ 為驗證樣本指標值之標準偏差；n 為驗證樣本數(100 次)。

3.7 模式建立

在本研究之最佳模式選取流程中，首先於學習樣本中篩選出作為輸入變量之波段，以交叉驗證方式導入 SVR 及 MLR 模式學習及驗證，最後各模式學習估算結果與原始觀測值比較其R²、RMSE、

RMSE/StDev 及 MAPE，挑選出模式最佳參數值，

則該模式代表在學習上具有最佳效果，故為最佳學習模式，再以此模式驗證後續資料。因此對於 HyCAM-I 未來所接收到之光譜影像資料能夠直接且有效率地估算其空氣品質指標。以下針對本研究所使用樣本誤差名稱定義如下：

(1) 學習誤差(Training error)

現場帶回之樣本經篩選後所挑選之51 筆樣本，

供初步分析其相關性及篩選變量之樣本，如依 51 筆樣本建模後之估算值與原來51 筆樣本觀測值之差異稱為學習誤差；另於交叉驗證中，將51 筆樣本隨機分為5 組，4 組用以模式學習建模，建模後之估算值與原來 4 組所有樣本觀測值之差異亦稱為學習誤差。

(2) 驗證誤差(Validation error)

於交叉驗證中，將51 筆樣本隨機分為 5 組，4 組用以模式學習，剩餘1 組作為模式估算驗證，則該組樣本稱為驗證樣本，依4 組學習樣本建模後對該組驗證樣本之估算值與原來該組驗證樣本觀測值的差異稱為驗證誤差，本研究亦進一步將此分組方式隨機重覆100 次。

(10)

(11)

(12)

(13)

(8)

4. 結果與討論

本研究採樣時間由97 年 7 月至同年 12 月，早上9 點至下午 2 點，期間共累積 76 筆樣本。由於下午2 點採樣時，放置於鏡頭前之珍珠板容易被建築物陰影遮蔽，可能導致光圈過大，單位時間內光線進入比預期更多，造成實驗數據誤差，故將之去除；另將環保署公告之斗六測站即時觀測值有錯誤之該日樣本去除；另採樣當日天氣多雲時亦會使實驗數據有嚴重誤差，最後剩餘有效處理之樣本共 51 筆。

4.1 變量篩選

相關性分析方面，單就各項污染物之觀測值及

綜合性指標PSIhr值與各波段反射率之R²分析結果，

PSIhr之R²最大值出現在500nm 及 600nm 附近，而 NO2則與綠光段(520nm~600nm)之 R²最高。整體來說，PSIhr與反射率之R²較其他各單項污染物佳。

綜合上述「PSIhr(X 軸)、波長(Y 軸)與樣本反射率(Z 軸)之關係如圖 5」，本研究選擇 500nm 及 600nm 做為 SVR 及 MLR 之輸入變量；另取多位學者建議以 550nm 做為分析空氣污染物之波段(Gupta et al., 2006; Wu et al., 2006; Sohrabinia and Khorshiddoust, 2007)；且於有效波段範圍內，因 520nm 及 590nm 與 PSIhr相關性為次高，故一併為輸入變量組合評估的選擇，其中 550nm 及 600nm 波段之反射率與各單項空氣污染物指標值折線圖如圖6~圖 7。

圖5 PSIhr、波長與樣本反射率(Ref)關係圖

PSIhr

(9)

圖6 樣本反射率(Ref)(550nm)與各單項污染物觀測值折線圖

圖7 樣本反射率(600nm)與各單項污染物觀測值折線圖

4.2 兩模式學習結果

(1) 支撐向量機迴歸(SVR)學習結果

將 4.1 節變量篩選結果之 500nm, 520nm, 550nm, 590nm 及 600nm，分別將其波段反射率輸入SVR 模式，並以 PSIhr作為輸出資料。本研究所使用之SVR 模式係內建於 STATISTICA 8 之之機器學習(Machine Learning)模組。參數設定方面，根

據本研究團隊過往結果顯示C 值範圍在 1~1000 有較佳分類之效果，而 γ 值依支撐向量機理論介於 0.001~10 之間較合適(施明倫，2008)。在間距設定上，若將參數間距設定過大，可節省參數網格化程式輸出之時間，但卻無法很明確將學習及率定參數之最佳模式找尋出來。經由反覆測試後，C 值之設定方面，C 值從 1~10 間距為 1；10~100 間距為 10；

100~1000 間距為 100，而 γ 值之設定從 0.001~0.01 O3：ppb

PM10、PM2.5：μg/m³ PSIhr：無單位

採樣日期 Ref

Ref O3：ppb

PM10、PM2.5：μg/m³ PSIhr：無單位

採樣日期

(10)

間距為0.001；0.01~0.1 間距為 0.01；0.1~1 間距為 0.1；1~10 間距為 1，ε 經測試為較不敏感參數，因此皆固定為0.1，依此 C 值與 γ 值設定下之參數網格，可由此網格(1200 組)中挑選得到輸出之最佳化學習結果(如表 3)。結果顯示，三變量組合之 RMSE 最佳值為6.1，RMSE/StDev 與 MAPE 亦分別為 0.46 與8%，其輸入三變量為 500nm、550nm 及 600nm，

C 值為 70，γ 為 10，該組與 520nm、550nm 及 600nm 三變量之R²均為0.79，但 520nm、550nm 及 600nm 波段組合之RMSE、RMSE/StDev 與 MAPE 均不如 500nm、550nm 及 600nm 波段組合。另以 500nm、

520nm、550nm 及 600nm 四變量為輸入組合，C 值與γ 值分別為 100 與 10 之所有結果皆優於三變量組合，但因其無明顯提昇，為求減少模式複雜度，

故仍以三變量組合為本研究最佳輸入變量組合。

模式複雜度方面，C 值與 γ 值愈大表示模式愈複雜，而波段組合愈多，模式亦愈複雜，但由表中可看出C 值與 γ 值愈大，其估算結果之相關性及誤差均愈佳，為避免模式過度學習導致分析結果之誤判，需進一步以交叉驗證方式驗證兩模式之能力。

(2) 多變量線性迴歸(MLR)學習結果

本研究亦以500nm, 520nm, 550nm, 590nm 及 600nm 做為篩選輸入變量組合的依據，以上節相同方式進行多變量線性迴歸(MLR)分析。其結果如表 4 可知各組之 RMSE 均介於 9~10，RMSE/StDev 介於0.71~0.73，MAPE 則為 14%，而 R²亦穩定地介於0.46~0.48。

表3 SVR 模式迴歸學習結果波段(nm) R² RMSE RMSE

/StDev MAPE

(%) 500, 520, 550 0.73 7.4 0.52 9 500, 550, 600 0.79 6.1 0.46 8 520, 550, 600 0.79 6.2 0.47 8 500, 520, 550, 600 0.81 6.2 0.43 8

表4 MLR 模式迴歸學習結果波段(nm) R² RMSE RMSE

/StDev

MAPE (%) 500, 520, 550 0.48 9.2 0.72 14 500, 550, 600 0.46 10.2 0.73 14 520, 550, 600 0.46 10.1 0.73 14 500, 520, 550, 600 0.48 9.4 0.71 14

4.3 交叉驗證(CV)分析結果及綜合比較

本研究之交叉驗證每次將51 筆樣本隨機分為 5 組，其中 4 組作為學習資料而另 1 組即為驗證樣本，故學習有40 筆樣本、驗證有 11 筆樣本，總共隨機取樣100 次，以兩模式分析估算 PSIhr，並以 RMSE, RMSE/StDev, R2 及 MAPE 評估模式優劣。

(1) SVR 之 CV 分析結果

以SVR 模式估算 PSIhr結果如表5。參數設定方面，根據表3 將 γ 及 ε 固定為 10 及 0.1，C 值範圍由 50~100，間隔 1。表中 RMSE 僅摘錄誤差最小值、中間值及最大值，並列出隨機取樣100 次之平均值及其標準偏差，其中平均 RMSE 為 12.1，

95%信賴區間為[11.8, 12.4]，其 R², RMSE/StDev 及 MAPE 平均分別為 0.28, 0.93 及 20%，其 95%信賴 區間分別為[0.24, 0.31], [0.89, 0.98]及[19%, 21%]，

除R²外皆為隨機取樣100 次中最佳值。

估算 PSIhr 學習結果(取 500nm, 550nm 及 600nm 組合之結果表 3)與交叉驗證結果(表 5)之比較，平均 RMSE(RMSE/StDev)由 6.1(0.46)增加至 12 .9(0.93)，平均 R²由0.79 降至 0.28，平均 MAPE 由 8%增加至 20%，充分顯示 SVR 模式學習結果 有過度學習之不穩定現象。

表5 SVR 模式之交叉驗證結果

R² RMSE RMSE/StDev MAPE(%) 最小值

中間值最大值

0.60 5.4 0.39 9 0.27 12.9 0.93 18 0.01 23.1 1.72 27 平均(100 次) 0.28 12.1 0.93 20

StDev

(100 次) 0.18 3.6 0.21 5 (2) MLR 之 CV 分析結果

以MLR 模式之 CV 估算 PSIhr結果如表6，表中以 RMSE 排序僅摘錄誤差最小值、中間值、最大值與隨機取樣100 次之平均值及其標準偏差，平均RMSE, R², RMSE/StDev 及 MAPE 分別為 10.4, 0.47, 0.77 及 17%，其 95%信賴區間分別為[10.1, 10.7], [0.46, 0.48], [0.74, 0.81]及[16%, 18%]。

(11)

估算PSIhr學習結果取500nm, 550nm 及 600nm 組合之結果(表 4)與交叉驗證結果(表 6)之比較，平均 RMSE 由 10.1 增加至 10.4，平均 RMSE/StDev 由 0.73 增加至 0.77，平均 R²由0.46 增加至 0.47，平均MAPE 由 14%增加至 17%，顯示驗證結果雖稍 差於學習結果，但顯著性不高。

表6 MLR 模式之交叉驗證結果

R² RMSE RMSE

/StDev MAPE (%) 最小值 0.47 5.4 0.38 8 中間值 0.52 10.7 0.77 18 最大值 0.51 15.9 1.15 24 平均(100 次) 0.47 10.4 0.77 17 StDev(100 次) 0.06 2.6 0.17 4

4.4 SVR 及 MLR 模式比較

綜合4.3.1 及 4.3.2 節，本研究將 SVR 模式及 MLR 模式估算 PSIhr之結果(表 5 及表 6)繪出 R²及 RMSE 直方圖(圖 8~11)與散佈圖(圖 12~17)。

由圖8 及 9 可看出 SVR 模式估算 PSIhr之R² 可達0.60，但最低卻不足千分之一，而以 MLR 估算PSIhr之R²最高及最低區間為0.3~0.6，較 SVR 模式集中且為近似常態分布(略右偏)；圖 10 及圖 11 可知 MLR 模式估算 PSIhr之誤差範圍分布較 SVR 模式集中，SVR 模式與 MLR 模式最低誤差值同為5(圖 12 及圖 15)，RMSE/StDev 約為 0.4，但 SVR 模式最高誤差達到 23(圖 14)，RMSE/StDev 約為1.7，MLR 模式之最高誤差值僅有 15(圖 17)，

RMSE/StDev 約為 1.2，於平均 RMSE 方面，SVR 模式及MLR 模式分別為 12 及 10 (圖 13 及 16)，

RMSE/StDev 分別為 0.93 及 0.77，皆以 MLR 模式佔優勢，且較集中接近常態分布。

綜合上述結果，SVR 模式雖在學習誤差值較小，但有可能產生過度學習的現象，使用時需小心其風險。但 MLR 模式在多次隨機驗證估算 PSIhr

時，呈現誤差較小，穩定性亦高於SVR 模式的結果，顯示其較不易過度學習，而使用SVR 模式時，

取樣應需要有代表性較好的學習樣本，以避免學習誤差很好，卻可能產生極差的估算結果。

圖8 SVR 之 R²直方圖

圖9 MLR 之 R²直方圖

圖10 SVR 之 RMSE 直方圖

圖11 MLR 之 RMSE 直方圖

0 5 10 15 20 25 30

-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

R²

Frequency

0 5 10 15 20 25 30

-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

R²

Frequency

0 5 10 15 20 25 30 35

0 4 8 12 16 20 24

RMSE

Frequency

0 5 10 15 20 25 30 35

0 4 8 12 16 20 24

RMSE

Frequency

(12)

圖12 SVR 模式交叉驗證散佈圖 (最小 RMSE=5)

圖13 SVR 模式交叉驗證散佈圖 (平均 RMSE=12)

圖14 SVR 模式交叉驗證散佈圖 (最大 RMSE=23)

圖15 MLR 模式交叉驗證散佈圖 (最小 RMSE=5)

圖16 MLR 模式交叉驗證散佈圖 (平均 RMSE=10)

圖17 MLR 模式交叉驗證散佈圖 (最大 RMSE=15)

0 20 40 60 80 100

Observed

Predicted

0 20 40 60 80 100

Observed

Predicted

0 20 40 60 80 100

Observed

Predicted

0 20 40 60 80 100

Observed

Predicted

0 20 40 60 80 100

Observed

Predicted

0 20 40 60 80 100

Observed

Predicted

(13)

5. 結論與建議

5.1 結論

總體來說，本研究以500nm, 550nm 及 600nm 波段反射率做為輸入變量可達最佳模式，若單以 550nm 做為輸入變量其相關性略遜於 520nm, 590nm 及 610nm，但配合 500nm 及 600nm 做為輸入變量組合之分析結果仍稍優於其他單或多變量組合，此結果與前述多位學者之文獻相互呼應，然而單變量之誤差與本研究最佳三變量組合差異不大，如考慮再簡化模式複雜度，亦可建議使用單一變量模式。

在分析 PSIhr 與光譜反射率之學習結果，以 500nm, 550nm 及 600nm 做為輸入變量，MLR 模式之R², RMSE, RMSE/StDev 及 MAPE 分別為 0.46, 10, 0.73 及 14%，雖與實驗室在控制條件下所可能 得到高相關性略有差距，但野外量測之不確定因素本來就較多，因此本研究結果應尚在可接受範圍。

然而在PSIhr 與光譜反射率資料之隨機抽樣多次交叉驗證分析結果，SVR 模式(輸入變量為 500nm, 550nm 及 600nm)分析結果 RMSE(RMSE/ StDev) 最低值為5(0.39)，但最高值達 23(1.72)，平均 RMSE 為12；而 MLR 之 RMSE(RMSE /StDev)最低值為 5(0.38)，最高值為 15(1.15)，平均 RMSE 為 10，顯示出 MLR 模式學習誤差雖較 SVR 模式稍大，但驗證結果及穩定性卻優於SVR 模式。

5.2 建議

本研究因時間、人力因素限制，採集樣本數量稍少，所以未來建議可以多採集樣本，可增加數據之準確性以及代表性。又本研究選擇樣本時僅限於當天之天氣狀況晴天無雲，於天氣狀況有些許雲量時採集之樣本數據相關性皆為低相關性，於去除該樣本後相關性明顯提升。建議未來除標準反射板外，

亦可利用亮點及暗點來作為當日輻射量校正的方式，以改善環境變因及儀器特性所造成之影響。

本研究所使用之儀器就目前所知國內尚無參考資

料，而HyCAM-I 之可攜式高光譜影像儀中所採用之光圈為自動光圈，造成實驗中光圈會因不同入射光線強度自動調整，本研究室擬計畫裝設固定光圈式 CCD，以期減少無法控制之變因；並可於儀器上增設恆溫裝置，例如液態氮等，可有效減少溫度對儀器所造成之影響；另外考慮擴大可變光譜波段範圍，可將水氣強吸收段之 940nm 納入，應可有效去除水氣干擾，增加數據之精確度。而目前僅利用本實驗室現有的衛星圖資作綜合性粗略探討，未來待資料收集更完善後，再針對單一污染物及光譜儀敏感度分析，亦或以雷達影像作更深入的探討。

參考文獻

林唐煌，2001。利用衛星資料求取大氣氣溶膠光學厚度之研究與應用，國立中央大學博士論文，

桃園縣。

邱瑞仙，2008。桃園地區空氣污染物濃度相關性及地理分布，國立中央大學碩士論文，桃園縣。

施明倫、游保杉、張維欽、林珈禎、汪志達，2008。

比較支撐向量機與類神經網路模式遙測河川污染分類之研究，環境資訊研討會頁486，台北市。

張逸凡，2005。支撐向量機在即時河川水位預報之應用，國立成功大學水利及海洋工程研究所碩士論文，台南市。

張能復、鄭福田、蔡俊鴻、張晃彰、林金源、吳曉窗，1986。台北市空氣污染偵測網選站準則之研究，國立台灣大學環境工程研究所，台北市。

Cortes, C., and Vapnik, V., 1995. Support vector networks, Mechine Learning, 20, 273-297, 1995.

Gupta, P., Christopher, S.A., Wang, J., Gehrig, R., Lee, Y. and Kumar, N., 2006. Satellite remote sensing of particulate matter and air quality assessment over global cities, Atmospheric Environment, 40, 5880-5892.

Sohrabinia, M. and Khorshiddoust, A.M., 2007.

Application of satellite data and GIS in studying air pollutants in Tehran, Habitat International, 31, 268-275.

(14)

Wu, J., Winer, A.M. and Delfino, R.J., 2006.

Exposure assessment of particulate matter air pollution before, during, and after the 2003 Southern California wildfires, Atmospheric Environment, 40, 3333-3348

(15)

1Instructor, Institute of Safety, Health and Environmental Engineering, Received Date: Mar. 15, 2011

2 National Yunlin University of Science & Technology Revised Date: Apr. 13 , 2011

2 Assistant Professor, Institute of Space Science, National Central University Accepted Date: Jul. 18, 2011

3 Master, Institute of Safety, Health and Environmental Engineering,

3 National Yunlin University of Science & Technology

*.Corresponding Author, Phone: 886-5-5342601 ext. 4489 , E-mail: [email protected]

Developing A Portable Hyperspectral Camera To Monitor Air Quality Index

Min-Luen Shih

¹

Tang-Huan Lin

²

Chih-Hao Hung

^3*

Guang-Ray Tsai

⁴

ABSTRACT

Ground-based air quality monitoring stations were set up traditionally in accordance with population density.

It could only sample the air pollutants at selected stationery locations with high operation and maintenance cost.

Nowadays, remote sensing technology has been widely applied to monitor the ambient atmospheric environment, this research is intended to develop a portable hyperspectral camera (HyCAM-I) to monitor the air Pollutant Standard Index (PSI) remotely. With the establishment of an air quality estimation model from the hyperspectral data and the sampling calculated hourly PSIhr, we can measure the air quality easier in any ungaged region by mobile HyCAM-I rather than using the traditional site-specific monitoring data.

For building up the air quality index estimation model, this study adopted the supporting vector regression (SVR) model and the multivariate linear regression (MLR) model to calibrate the relationship of the measured hyperspectral data and the PSIhr index. Three bands of 500nm, 550nm and 600nm were used as the input variables to estimate the outputs of the PSIhr. Cross validation method was used to verify the model efficiency.

The results showed that the estimation of the SVR model may have over learned, and caused the estimation errors of the SVR model more unstable and greater than those of the MLR model. However, the average estimation error of the MLR model is still acceptable but need to be verified by improving the device with expanding the samples in the future to enhance the reliability.

Keywords:

hyperspectral camera, remote sensing, pollutants standard index, support vector machine, multivariate linear regression.

可攜式高光譜影像儀應用於遙測空氣品質指標

可攜式高光譜影像儀應用於遙測空氣品質指標

施明倫

林唐煌

洪志豪

蔡廣叡

摘 要

關鍵詞：高光譜影像儀(HyCAM-I)、遙測(RS)、空氣污染指標(PSI)、支撐向量機迴歸(SVR)、

多變量線性迴歸(MLR)

1. 前言

1.1 研究背景

1.2 文獻回顧

2. 研究地區及基本資料

2.1 研究區域

2.2 空氣品質監測站

2.3 空氣品質標準

3. 研究方法

3.

1 支撐向

向量機迴

迴歸(SVR)

)

 x  b x

f ( )    







C

) 2 (

1   

x b

y  (    )     )

(   x

 b  y

   



, 

 0

l i  1 ,...,







) , , , , , , ,

(  b  

 

 

L

 

 





∑







l

i

, 

,  , 

,  0 ,  1 ,...,



















( 

 

)  0

3.2 參數最佳化-網格搜尋法 (Grid Search)

3.3 多變量線性迴歸(MLR)

3.4 相關性分析(Correlation Analysis)











摘要

4.3 交叉驗證(CV)分析結果及綜合比較