Volume 26, No.1, 2021, pp. 1-12 DOI:10.6574/JPRS.202103_26(1).0001
1國立成功大學工業衛生學科暨環境醫學研究所 博士生 收到日期:民國 110 年 01 月 30 日
2 國立成功大學測量與空間資訊學系 副教授 修改日期:民國 110 年 02 月 22 日
3 國家衛生研究院國家環境醫學研究所 兼任助研究員 接受日期:民國 110 年 03 月 02 日
4 國立成功大學工業衛生學科暨環境醫學研究所 特聘教授
* 通訊作者, E-mail: [email protected]
結合土地利用迴歸與極限梯度提升演算法發展 高雄都會區二氧化氮之推估模型
翁佩詒
1吳治達
2,3蘇慧貞
4*摘要
暴露二氧化氮 (NO2) 會對人體造成不良健康效應,然而過去空氣污染暴露評估模式仍有高估或低估 的問題,因此使用高時空解析度之預測模型探討大範圍暴露濃度有其必要性。本研究以高雄都會區為研 究區,使用土地利用迴歸模型、並結合極限梯度提升 (Extreme Gradient Boosting, XGBoost) 演算法,發展 高時空解析度之 NO2濃度推估模型。結果顯示,土地利用迴歸結合 XGBoost 模型 R2為 0.82,均方根誤差 為 4.53 ppb,具有高度預測與解釋力,十折交叉驗證 R2為 0.82,顯示模型沒有過度擬合的問題,最後利
用此模型推估高雄都會區 NO2之時空變異情形,結果發現高值熱點出現在南高雄之工商業發達以及人口
密集處。
關鍵詞:空氣污染、二氧化氮、土地利用迴歸、極限梯度提升演算法
1. 前言
二氧化氮為高反應性氣態污染物,會對呼吸 系統造成不良的影響,主要來自於石化燃料高溫 燃 燒 , 如 汽 機 車 排 放 之 廢 氣 (Brunekreef &
Holgate, 2002、Kampa & Castanas, 2008)。暴露二 氧化氮會對人體產生不良之健康效應,過去生理 病理學研究指出,高濃度之二氧化氮會導致呼吸 系統損傷及肺功能下降等症狀 (Chauhan et al., 1998、Chen et al., 2017、Frampton et al., 1989、
Ierodiakonou et al., 2016、Wu et al., 2016),而不 管長期或短期暴露皆可能導致心血管疾病的住 院率或死亡率提高 (Peters et al., 2000)。
為了使流行病學研究能更精準地計算暴露 空氣污染與疾病之間的關係,減少二氧化氮濃度 暴露錯誤分類儼然成為一個重要的議題。過去探 討空氣污染與健康風險的研究多使用固定測站 濃度進行暴露評估,然而此方法誤差較大且無法
代表整個研究試區的暴露情形,而個人採樣器雖 然可以獲得較精確的暴露濃度,但執行所耗的人 力物力成本較高,因此使用高時空解析度之預測 模型來探討大範圍暴露濃度有其必要性。
近 年 來 以 地 理 資 訊 系 統 (Geographic Information Systems, GIS) 為基礎之土地利用迴 歸模型 (Land-Use Regression, LUR) 考慮了污染 物隨時間及空間變化的特性,納入土地利用因子 為預測變項,建立線性迴歸式以推估大範圍空氣 污染濃度分布情形,相較於僅以固定測站所得之 濃度,更適用於大型流行病學研究,此方法已廣 泛應用於探討都市內空氣污染濃度之時空變異 情形 (Beelen et al., 2013、Chan et al., 2009、
Eeftens et al., 2012、Moore et al., 2007、Young et al., 2016),土地利用迴歸模式其中一項優勢為,
可以透過逐步迴歸變數選擇的統計方法,將重要 的排放源納入模式考量中,此方法可以減少預測 變數維度對於模式結果的影響,且所選擇的變數
可做為後續空污管控的重要依據。然而以一般線 性迴歸建立之模型仍存在著不易解釋非線性趨 勢的問題,故如何改善模型對於空污及土地利用 間複雜關係之解釋能力,實為當前空污模擬的一 大挑戰。
隨著大數據分析發展至今,機器學習演算法 可以捕捉預測變數與空氣污染物之間的非線性 關係,得到更精確的濃度變異解釋能力,提供空 污推估模式一個新的選擇,其中,極限梯度提升 演 算法 (Erxtreme Gradient Boosting, XGBoost) 為梯度提升演算法中常被使用的模式,可以藉由 訓練不同的學習器以增強模型的預測能力,再將 所有學習器的預測值加權平均即可得到最終的 預測結果 (Chen & Guestrin, 2016),過去已有研 究使用此模型來推估空氣污染的時空變異情形 (Di et al., 2019、Shtein et al., 2019、Stafoggia et al., 2019、Joharestani et al., 2019),也有研究將不同 的推估模型比較後發現,XGBoost 模型的表現力 會比一般線性迴歸或其他機器學習演算法優異 (Ma et al., 2020、翁佩詒,2020)。
為了更精確的推估二氧化氮在都市內之濃 度分布情形,以分析二氧化氮對民眾之健康風險 與影響,本篇研究選擇臺灣工商業蓬勃發展之高 雄都會區為例進行前導性研究,進而探討土地利 用迴歸模型結合 XGBoost 演算法推估島內二氧 化氮濃度分布之可行性,研究成果可做為未來國 內空氣污染空間模擬之參考。
2. 材料方法
2.1 研究試區
高雄都會區 (圖 1) 面積約 2,951 km2,人口 數約有 277.3 萬人,包含 38 個行政區,為臺灣六 都之一,該地區機動車輛登記數約 294.1 萬 (輛) (中華民國統計資訊網,2019),工商條件發達,許 多重工業與科技產業皆設廠於此,根據高雄市經 濟發展局的統計資料顯示,截至 2019 年底,高 雄市工廠登記家數有 7,632 家,且公司行號之行 業別組成以製造業最多,其次為營建工程業 (高
雄市政府經濟發展局,2019),此外,高雄地區長 期為臺灣主要重工業座落地區,包含水泥業、鋼 鐵業、造船業、石化工業區以及加工出口區等,
而基於此類產業之製程與特性,所排放之空氣污 染亦不容小覷。因此本研究選定高雄都會區作為 二氧化氮濃度時空分布推估之分析區域。
圖 1 研究試區圖
2.2 研究材料
本研究之資料庫包含:(1)環保署資源資料庫、
(2)交通部運輸研究所路網數值圖、(3)國土利用調 查資料、(4)地標資料庫 (Point of Interest)、(6)衛 星環境綠蔽度資料庫、(6)數值地形模型 (Digital Terrain Model, DTM)、(7)工業區資料庫、(8)中央 氣象局資料庫、(9)環保署政府開放平台。以下分 別為各個資料庫之詳述:
(1) 環保署環境資源資料庫
環保署於高雄地區設有 12 個空氣品質監測 站 (圖 1),依據污染源分布、類型及污染物濃度 分布、地形、地勢及氣象條件、人口分布及交通 狀況等考量,將測站分為一般空氣品質監測站、
工業空氣品質監測站、交通空氣品質監測站以及 背景空氣品質監測站。本研究蒐集 2000-2016 年
之 NO2、PM10、CO、O3、SO2等空氣污染物之日 平均濃度值,共有 71,669 筆資料進行分析。
(2) 交通部運輸研究所路網數值圖
路網資料使用 2006、2015 年交通部運輸研 究所提供之全島 1/5000 比例尺 GIS 路網數值圖,
此資料圖層分為 8 類,包含國道、省道、縣道、
鄉道、都市道路等,本研究欲利用此資料庫以獲 取全臺道路分布圖,並將道路分為三大類:包含 主要道路 (國道、省道、縣道、省道快速道路以 及市區快速道路)、當地道路 (市區道路 (路、街)、
市區道路 (巷、弄) 鄉鎮道路以及產業道路)和所 有道路,計算全島道路長度、面積等,作為交通 流量的替代指標。
(3) 國土利用調查資料
本研究採用內政部國土測繪中心建立之第 二次及第三次國土利用調查資料,進一步獲取 2000-2016 年之土地利用分布狀態,此資料系統 為階層式樹狀結構,共分 3 級,以第二次國土利 用調查資料為例,第一級包含農業、森林、交通 利用、建築、公共、遊憩、礦鹽及其他土地使用 等 9 大類,第二級進一步細分為 41 類,第三級 再基於前者細分為 103 類。本研究使用水體、住 宅區、綠地和農業土地使用資料等作為模型中之 空間變項。
(4) 地標資料庫 (Point of Interest)
地標資料庫來自於勤崴國際科技股份有限 公司所建立的 Point of Interest (POI)資料庫,該資 料庫亦被 Google Earth 以及 Google Map 選用,
做為表示地圖上之地標特徵。POI 資料庫每季均 會進行更新,其內之分類主要包含三個階層,分 別為主分類、次類別以及細項別,本研究為配合 監測時間,選用 2008 年以及 2010 年之資料庫 為研究材料,其中主分類包含政府機關、公用事 業、金融證券等 12 以及 14 大項,進一步又可分 為 119 和 160 項,以及 920 和 1,350 項之細項別。
本研究使用資料庫中寺廟、中式餐廳以及製造業 之地標資料進行後續分析。
(5) 衛星環境綠蔽度資料庫
美 國 太 空 總 署 (National Aeronautics and
Space Administration, NASA) 透過遙測及衛星技 術建立地球觀測系統 (Earth Observing System, EOS),以長期監測地球之大氣圈、水圈、生物圈、
及植群等地表參數之變化情形 ,此資料基於 MODIS (Moderate Resolution Imaging Spectroradiometer) 衛 星 影 像 之 紅 光 (645- nanometers) 與近紅外光 (858-nanometers) 波段 為基礎進行 NDVI 植生指標演算,其空間解析度 為 250 m × 250 m,相關資料經美國地質調查所 (The U.S. Geological Survey, USGS) 整理後,提 供給全世界的專家學者進行學術研究之用。本研 究將採用 2000-2016 年間,每 16 天一幀之 NDVI 圖幅,作為研究中的綠度指標,表示當時植生情 況。
NDVI=
... (1)
其中,NIR 為近紅外光;R 為紅光。
(6) 數值地形模型 (Digital Terrain Model, DTM) 數值地形模型係將臺灣之區域細分為許多 規整化之網格後,於每個網格上記錄該點位之海 拔高度,並儲存於 GIS 系統中以供分析之用。本 研究採用行政院農委會農林航空測量最新釋出 之 20 m × 20 m 解析度之全島數值地形模型資 料,以獲取測站周圍之海拔、坡度、坡向等地形 資訊供研究分析使用。
(7) 工業區資料庫
經濟部工業局始成立於 1970 年,其主要工 作在於掌管並推動全國工業之發展,內容包含工 業發展政策之擬定、工業區開發管理以及工業污 染防治等相關事宜。而本研究納入工業局 2010 年 全臺加工出口區以及科學園區之 GIS 資料,以獲 取工業區分布資訊進行後續分析。
(8) 中央氣象局資料庫
中央氣象局於臺灣設有 484 個觀測站進行氣 象資料量測,包含地面觀測站、自動氣象站以及 雨量站,其中紫外線指數僅部分有人氣象站實行 觀測。本研究採用 2000-2016 年間氣壓、氣溫、
相對溼度、風速、風向、降水量等氣象參數之日 平均值,以進行後續分析。
(9) 環保署政府開放平台
行政院環境保護署為配合行政院開放資料 (Open Data) 政策,自 2013 年起陸續推動將環境 資源數據資料彙整開放給民眾加值再利用,建置
「環境資源資料開放平台」。本研究採用平台所 公告之焚化爐煙囪、垃圾掩埋場位置、工業區、
工業用汙水廠、家庭用汙水廠之點位置資料,作 為後續建模的空間預測變項。
2.3 研究方法
圖 2 為研究流程圖,本研究利用空間資訊技 術,將上述空間濃度預測變數,以 ArcGIS 10.5 版 軟體計算空氣品質測站方圓 50、150、250、500、
750、1000、1250、1500、1750、2000、2500、3000、
4000、5000 m,共 14 項環域範圍內空間排放源 之分佈狀況以及測站與變數間之距離等資訊,以 進行後續二氧化氮推估模型建立。
在土地利用迴歸模型方面,首先以 Spearman 相關性分析檢視各預測變數與二氧化氮之相關 性,將相關方向不符合預期之預測變數剔除,接 著將剩餘的變數以監督式逐步變數選擇法,搭配 納入及排除標準分別為 p<0.1 及 p<0.3 之標準逐 步選取納入模型中之預測變數,同時以變異數膨 脹係數因子 (Variance Inflation Factor, VIF)< 3 之 共線性標準,檢驗模型中所有變數,將不符合之 變數從模型中剔除 (Wu et al., 2017),建立最終之 土地利用迴歸模型,上述方法統計分析以 SPSS 22.0 及 R 3.5.2 版完成。
在土地利用迴歸模型建立完成後,研究利用 篩選之重要預測變數建立機器學習 XGBoost 演 算 法 , 此 法 為 以 決 策 樹 為 基 礎 之 梯 度 提 升 (Gradient Boosting) 演算法,透過提升 (Boosting) 的方式賦予學習器不同權重,而每個學習器都有
其損失函數,因此 XGBoost 即為以最小化損失函 數 (Loss Function) 為目標,將損失函數做泰勒展 開到二階,來提升模型的預測能力,最後將不同 學習器的預測值加權平均後即得出最終的空氣 污染推估濃度,此方法之主要調整參數為深度 (Depth) 以及決策樹的數量 (Estimator),本研究 試誤後設定之最佳參數為深度 6 層、250 棵樹的 組合,上述機器學習演算法以 python 3.7.6 於 Jupyter Notebook 平台完成。
本研究使用兩種方式檢視模型是否有過擬 合的問題,其一為 80%資料建立模型,20%資料 驗證模型,其二為十折交叉驗證,此方法係將資 料切分為十等分,利用其中九等分資料建立模型,
以剩餘之一等份資料驗證模型,如此將每一等分 的資料加以驗證;爾後以 R2、校正後 R2檢視模 型的預測能力,並以均方誤差 (Mean Squared Error, MSE) 、 均 方 根 誤 差 (Root Mean Square Error, RMSE) 以 及 平 均 絕 對 誤 差 (Mean Absolute Error, MAE) 計算觀測值與預測值之間 的誤差,其中十折交叉驗證之模型評估指標為十 次驗證之平均值。
3. 結果
3.1 NO
2濃度之敍述統計
圖 3 為高雄市 12 個空氣品質測站之二氧化 氮平均濃度,結果顯示靠近山區之美濃測站濃度 最低 (9.89 ppb),而屬於交通測站之復興站其二 氧化氮濃度最高 (27.88 ppb);圖 4 為高雄地區二 氧化氮於 2000 年至 2016 年之年平均濃度,整體 來說,高雄地區二氧化氮濃度呈現逐年下降的趨 勢,由 2000 年之 25.09 ppb 下降至 2016 年之 16.41 ppb。
圖 2 研究流程圖
圖 3 高雄市各類型空氣品質測站於 2000 年至 2016 年之平均二氧化氮濃度
圖 4 高雄市空氣品質測站於 2000 年至 2016 年之年平均二氧化氮濃度
3.2 模型分析結果
表 1 為以土地利用迴歸模型篩選之重要預測 變數,被選入之變數包含 SO2、PM10、UV、風速 等污染物以及氣象變數,其中 SO2與 PM10為正 相關,表示當 SO2與 PM10濃度越高時,NO2濃 度會隨之上升,而 UV 與風速則呈現負相關,表 示 UV 與風速越強,NO2濃度會隨之減少;另一 方面,被選入之土地利用型態包含環域範圍 5,000 m 內之工商混合住宅、2,500 m 內之土石採 用地以及 150 m 內之當地道路面積,上述之土地 利用型態皆與 NO2濃度呈現正相關,表示在特定 環域範圍內,工商業混合住宅、土石採取用地以 及當地道路面積之土地使用情形越多,NO2濃度 越高。
表 1 以土地利用迴歸模型篩選之重要預測變數 土地利用迴歸 係數 Partial R2 VIF
(截距) 13.84 - -
SO2 1.21 0.26 1.47
PM10 0.08 0.16 1.71
工商業混和住宅5000m 9.03 0.16 1.13
UV -0.97 0.13 1.36
冬季 4.49 0.09 1.31
風速 -1.81 0.07 1.10
土石採取用地2500m 1.34 0.06 1.07 當地道路面積150m 0.01 0.03 1.06
表 2 為土地利用迴歸模型與土地利用迴歸結 合 XGBoost 演算法之模型結果,由模型 R2可知,
傳 統 土 地 利 用 迴 歸 模 型 之 解 釋 力 已 達 74%
0 25 50 75
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 年份
NO2ppb
(RMSE=5.37 ppb),而再進一步經由結合 XGBoost 機器學習演算法後,模型解釋力可提升至 82%
(RMSE=4.53),由此結果可知,經由結合機器學 習演算法後,模型對於 NO2濃度時空變異的解釋 力可提升 8%,且 RMSE 可降低 0.58 ppb;將資 料切分為訓練及測試資料,以及 10 折交叉驗證 的部分,可以發現傳統土地利用迴歸模型與土地 利用迴歸結合 XGBoost 演算法之模型之 R2與 RMSE 皆與原模型之數值相近,由此可知本研究 所建立之兩種模型並無過擬合的問題,具有高度 的模型推估效益。
3.3 高雄都會區 NO
2濃度空 間變異模擬結果
圖 5 為以土地利用迴歸結合 XGBoost 演算 法推估之高雄都會區二氧化氮濃度時空分佈圖,
圖 5 (a) 至 (l) 代表研究期間 1 月至 12 月之二氧 化氮平均濃度。由圖可知,在時間變異上,二氧 化氮濃度在冬季較高 (12 月至 2 月),夏季較低 (6 月至 8 月),在空間變異上,二氧化氮高值之熱 點則出現在南高雄之工商業發達以及人口密集 處,而低濃度則出現在靠近山脈之地區。
表 2 土地利用迴歸與土地利用迴歸結合 XGBoost 演算法之模型結果
模型評估指標 LUR LUR-XGBoost
整體模型表現
R2 0.74 0.82
Adjusted R2 0.74 0.82
MSE 28.80 20.55
RMSE 5.37 4.53
MAE 4.12 3.48
過擬合測試
訓練資料 (80%之資料)
R2 0.75 0.82
Adjusted R2 0.74 0.82
MSE 28.79 19.89
RMSE 5.37 4.46
MAE 4.12 3.43
測試資料 (20%之資料)
R2 0.74 0.79
Adjusted R2 0.74 0.79
MSE 28.86 23.21
RMSE 5.37 4.82
MAE 4.14 3.71
十折交叉驗證
R2 0.74 0.82
Adjusted R2 0.74 0.82
MSE 28.83 23.76
RMSE 5.37 4.87
MAE 4.13 3.73
模型運算時間 - 3.60 s
圖 5 以土地利用迴歸結合 XGBoost 演算法推估高雄都會區二氧化氮濃度時空分佈圖:(a)至(l)代表研究 期間 1 月至 12 月之二氧化氮平均濃度
4. 討論
本研究利用土地利用迴歸模型結合機器學 習之 XGBoost 演算法,針對臺灣工商發達之高雄 都會區,進行二氧化氮濃度時空分布的模擬推估,
整體而言,土地利用迴歸可篩選出影響空污濃度 之重要變數,進一步結合機器學習演算法後可提 升 8%之模型解釋力,整體可解釋 82%之二氧化 氮濃度變異,透過本研究可知,結合大數據分析 之機器學習演算法可提升傳統土地利用迴歸之 模型表現,而可能原因為相較於傳統線性迴歸模 式,XGBoost 經由許多學習器訓練而成,並透過 將誤差函數最小化的方式,使機器學習法之結果 優於傳統土地利用迴歸方式。
在模型使用之重要變數的部分,土地利用之 環域範圍 5,000 m 內之工商混合住宅、2,500 m 內 之土石採取用地以及 150 m 內之當地道路面積皆 與二氧化氮濃度呈現正相關 ,其中環域範圍
5,000 m 內之工商混合住宅變數之 partial R2最高,
可解釋 16%之 NO2濃度之變異情形,此結果與過 去研究相符,Liu 等人指出工商業密集處與住宅 用地之二氧化氮排放濃度較多 (Liu et al., 2016),
因此若要降低民眾暴露二氧化氮,應將工商業活 動與純住宅分區設置。
在氣象因子部分,UV、風速與二氧化氮濃度 呈現負相關,此現象可能的原因為 O3與 NO2之 間的光化學反應作用,當 UV 強度越強,NO2越 容易被光化反應為 NO 及 O,進而產生 O3,而過 去研究指出,在風速越高的地區,空氣污染擴散 速率越快,進而降低二氧化氮濃度,因此風速與 二氧化氮濃度呈現負相關 (Kenagy et al., 2016)。
本研究建立之模型已達到 82%之解釋力,同 時研究亦面臨部分限制,因受限於資料上之限制,
並未納入交通流量等相關因子,未來研究可加入 此項資料分析,此外,受限於國土利用調查次數,
本研究僅能假設在一段時間內的土地利用型態 沒有太大波動,若後續能取得更新之資料,可能
對於模型準確度有所幫助,而國外學者在建立空 氣污染推估模型時亦將衛星影像資料納入考量,
然而受限於衛星影像易受雲霧等天氣型態影響,
臺灣又屬於多雲氣候的海島國家,因此衛星影像 缺值比例高,所得之影像將不適用於模型建立。
整體來說,本研究建立之推估模型可推估高雄地 區之二氧化氮濃度時空分布,所篩選之重要變數 可作為後續政府制定相關防治政策之參考依據。
5. 結論
本研究利用土地利用模型結合 XGBoost 演 算法,發展高時空解析度之二氧化氮推估模型。
研究結果顯示,傳統土地利用迴歸模型約可解釋 74%之污染物濃度時空變異情形,然而結合機器 學習 XGBoost 演算法後,模型解釋力提升到 82%,
且工商業混合住宅為影響高雄地區二氧化氮濃 度之土地利用因子,此模型推估之二氧化氮濃度 可提供後續暴露評估研究之參考,地方政府亦可 考量相關影響因子作為空污管控之依據。
參考文獻
中華民國統計資訊網,2019。縣市重要指標查詢
系 統 ,
https://statdb.dgbas.gov.tw/pxweb/Dialog/statf ile9.asp,引用2019/11/01。[National tatistics, R.O.C. Taiwan, 2019. Statistical Database,
Available at:
https://statdb.dgbas.gov.tw/pxweb/Dialog/statf ile9.asp, Accessed November 1, 2019. (in Chinese)]
翁佩詒,2020。結合土地利用迴歸與機械學習演 算法發展二氧化氮之高時空解析度推估模 型,國立成功大學環境醫學研究所碩士論文。
[Wong, P.Y., 2020. Development of an integrated model for NO2 variation prediction using land-use regression and machine learning algorithms, Master Thesis, National Cheng Kung University.(in Chinese)]
高雄市政府經濟發展局,2019。108年經濟發展局
經 濟 統 計 指 標 分 析 ,
https://edbkcg.kcg.gov.tw/News_Content.aspx
?n=EF82FB4C787DDDDF&sms=DC9A0919 651A331D&s=23BDFDE5862C716A , 引 用 2019/11/01。[Economic Development Bureau, Kaohsiung City, R.O.C. Taiwan, 2019. 2019 nian jing ji fa jan jiu jing ji tung ji jr biau fen shi, Available at:
https://edbkcg.kcg.gov.tw/News_Content.aspx
?n=EF82FB4C787DDDDF&sms=DC9A0919 651A331D&s=23BDFDE5862C716A, Accessed November 1, 2019. (in Chinese)]
Beelen, R., Hoek, G., Vienneau, D., Eeftens, M., Dimakopoulou, K., Pedeli, X., Tsai, M.-Y., Künzli, N., Schikowski, T., Marcon, A., Eriksen, K.T., Raaschou-Nielsen, O., Stephanou, E., Patelarou, E., Lanki, T., Yli- Tuomi, T., Declercq, C., Falq, G., Stempfelet, M., Birk, M., Cyrys, J., von Klot, S., Nador, G., Varro, M.J., Dedele, A., Grazuleviciene, R., Molter, A., Lindley, S., Madsen, C., Cesaroni, G., Ranzi, A., Badaloni, C., Hoffmann, B., Nonnemacher, M., Kraemer, U., Kuhlbusch, T., Cirach, M., de Nazelle, A., Nieuwenhuijsen, M., Bellander, T., Korek, M., Olsson, D., Stromgren, M., Dons, E., Jerrett, M., Fischer, P., Wang, M., Brunekreef, B., and de Hoogh, K., 2013. Development of NO2 and NOx land use regression models for estimating air pollution exposure in 36 study areas in Europe–The ESCAPE project, Atmospheric Environment, 72: 10-23.
Brunekreef, B., and Holgate, S.T., 2002. Air pollution and health. The Lancet, 360(9341), 1233-1242.
Chan, T.C., Chen, M.L., Lin, I.F., Lee, C.H., Chiang, P.H., Wang, D.W., and Chuang, J.H., 2009.
Spatiotemporal analysis of air pollution and
asthma patient visits in Taipei, Taiwan, International Journal of Health Geographics, 8(1): 26.
Chauhan, A.J., Krishna, M.T., Frew, A.J., and Holgate, S.T., 1998. Exposure to nitrogen dioxide (NO2) and respiratory disease risk, Reviews on Environmental Health, 13(1–2):
73-90.
Chen, R.J., Yin, P., Meng, X., Liu, C., Wang, L.J., Xu, X.H., Ross, J.A., Tse, L.A., Zhao, Z.H., Kan, H.D., and Zhou, M.G., 2017. Fine particulate air pollution and daily mortality. A nationwide analysis in 272 Chinese cities, American Journal of Respiratory and Critical Care Medicine, 196(1): 73-81.
Chen, T., and Guestrin, C., 2016. Xgboost: A scalable tree boosting system, in proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, pp.785–794.
Di, Q., Amini, H., Shi, L., Kloog, I., Silvern, R., Kelly, J., Sabath, M. B., Choirat, C., Koutrakis, P., Lyapustin, A., Wang, Y.J., Mickley, L.J., and Schwartz, J., 2019. Assessing NO2
concentration and model uncertainty with high spatiotemporal resolution across the contiguous United States using ensemble model averaging, Environmental Science & Technology, 54(3) : 1372-1384.
Eeftens, M., Beelen, R., deHoogh, K., Bellander, T., Cesaroni, G., Cirach, M., Declercq, C., Dedele, A., Dons, E., deNazelle, A., Dimakopoulou, K., Eriksen, K., Falq, G., Fischer, P., Galassi, C., Grazuleviciene, R., Heinrich, J., Hoffmann, B., Jerrett, M., Keidel, D., Korek, M., Lanki, T., Lindley, S., Madsen, C., Molter, A., Nador, G., Nieuwenhuijsen, M., Nonnemacher, M., Pedeli, X., Raaschou-Nielsen, O., Patelarou, E., Quass, U., Ranzi, A., Schindler, C., Stempfelet, M.,
Stephanou, E., Sugiri, D., Tsai, M.Y., Yli- Tuomi, T., Varro, M.J., Vienneau, D., von Klot, S., Wolf, K., Brunekreef, B., adn Hoek, G. 2012.
Development of land use regression models for PM2.5, PM2.5 absorbance, PM10 and PMcoarse in 20 European study areas; Results of the ESCAPE project, Environmental Science Technology, 46(20): 11195–11205.
Frampton, M.W., Smeglin, A.M., Roberts, N.J., Finkelstein, J.N., Morrow, P.E., and Utell, M.J., 1989. Nitrogen dioxide exposure in vivo and human alveolar macrophage inactivation of influenza virus in vitro, Environmental Research, 48(2): 179-192.
Ierodiakonou, D., Zanobetti, A., Coull, B.A., Melly, S., Postma, D.S., Boezen, H.M., Vonk, J.M., Williams, P.V, Shapiro, G.G., McKone, E.F., Hallstrand, T.S., Koenig, J.Q., Schildcrout, J.S., Lumley, T., Fuhlbrigge, A.N., Koutrakis, P., Schwartz, J., Weiss, S.T., and Gold, D.R., 2016.
Ambient air pollution, lung function, and airway responsiveness in asthmatic children, Journal of Allergy Clinical Immunology, 137(2): 390-399.
Joharestani, M.Z., Cao, C.X., Ni, X.L., Bashir, B., and Talebiesfandarani, S., 2019. PM2.5
prediction based on random forest, XGBoost, and deep learning using multisource remote sensing data, Atmosphere, 10(7): 373.
Kampa, M., and Castanas, E., 2008. Human health effects of air pollution, Environmental Pollution, 151(2): 362–367.
Kenagy, H.S., Lin, C., Wu, H., and Heal, M.R., 2016.
Greater nitrogen dioxide concentrations at child versus adult breathing heights close to urban main road kerbside, Air Quality, Atmosphere &
Health, 9(6): 589–595.
Liu, C., Henderson, B. H., Wang, D., Yang, X., and Peng, Z., 2016. A land use regression
application into assessing spatial variation of intra-urban fine particulate matter (PM2.5) and nitrogen dioxide (NO2) concentrations in City of Shanghai, China, Science of The Total Environment, 565: 607–615.
Ma, J., Cheng, J.C.P., Xu, Z.R., Chen, K.Y., Lin, C., and Jiang, F., 2020. Identification of the most influential areas for air pollution control using XGBoost and Grid Importance Rank, Journal of Cleaner Production, 274: 122835.
Moore, D.K., Jerrett, M., Mack, W.J., and Künzli, N., 2007. A land use regression model for predicting ambient fine particulate matter across Los Angeles, CA, Journal of Environmental Monitoring, 9(3): 246–252.
Peters, A., Liu, E., Verrier, R.L., Schwartz, J., Gold, D.R., Mittleman, M., Baliff, J., Oh, J.A., Allen, G., Monahan, K., and Dockery, D.W., 2000.
Air pollution and incidence of cardiac arrhythmia, Epidemiology, 11(1): 11-17.
Shtein, A., Kloog, I., Schwartz, J., Silibello, C., Michelozzi, P., Gariazzo, C., Viegi, G., Forastiere, F., Karnieli, A., Just, A.C., and Stafoggia, M., 2019. Estimating daily PM2.5
and PM10 over Italy using an ensemble model, Environmental Science & Technology, 54(1):
120-128.
Stafoggia, M., Bellander, T., Bucci, S., Davoli, M., DeHoogh, K., De’Donato, F., Gariazzo, C.,
Lyapustin, A., Michelozzi, P., Renzi, M., Scortichini, M., Shtein, A., Viegi, G., Kloog, I., and Schwartz, J., 2019. Estimation of daily PM10 and PM2.5 concentrations in Italy, 2013- 2015, using a spatiotemporal land-use random- forest model, Environment International, 124:
170-179.
Wu, C.D., Chen, Y.C., Pan, W.C., Zeng, Y.T., Chen, M.J., Guo, Y.L., and Lung, S.C.C., 2017. Land- use regression with long-term satellite-based greenness index and culture-specific sources to model PM2.5 spatial-temporal variability, Environmental Pollution, 224: 148-157.
Wu, S.W., Ni, Y., Li, H.Y., Pan, L., Yang, D., Baccarelli, A.A., Deng, F.R., Chen, Y.H., Shima, M., and Guo, X.B., 2016. Short-term exposure to high ambient air pollution increases airway inflammation and respiratory symptoms in chronic obstructive pulmonary disease patients in Beijing, China, Environment International, 94: 76-82.
Young, M.T., Bechle, M.J., Sampson, P.D., Szpiro, A.A., Marshall, J.D., Sheppard, L., and Kaufman, J.D., 2016. Satellite-based NO2 and model validation in a national prediction model based on universal kriging and land-use regression, Environmental Science Technology, 50(7): 3686-3694.
1 Ph.D. Student, Department of Environmental and Occupational Health, Received Date: Jan. 30, 2021 National Cheng Kung University Revised Date: Feb. 22, 2021
2 Associate Professor, Department of Geomatics, National Cheng Kung University Accepted Date: Mar. 02, 2021
3 Adjunct Research Fellow, National Institute of Environmental Health Sciences, National Health Research Institutes
4 Distinguished Professor, Department of Environmental and Occupational Health, National Cheng Kung University
* Corresponding Author, E-mail: [email protected]
Development of an Integrated Model for NO
2Variation Prediction in Kaohsiung Metropolis Using Land-Use
Regression and XGBoost
Pei-Yi Wong
1Chih-Da Wu
2,3Huey-Jen Su
4*Abstract
Exposing to Nitrogen Dioxide (NO2) may cause adverse health effects. Previous air pollution estimating models still face overfitting or underfitting problems. Thus, using estimation model with high spatial and temporal resolution to assess NO2 exposure is important. This study utilized Land-Use Regression (LUR) coupled with Extreme Gradient Boosting (XGBoost) algorithm to feature NO2 concentration distribution in Kaohsiung metropolis. The results showed that R2 value for LUR integrated XGBoost model was 0.82, RMSE was 4.53 ppb, which had highly explanatory ability. Besides, 10-fold cross validation R2 for the proposed model was 0.82, which showed that the model did not encounter overfitting issue. Finally, this study used the model to depict estimation maps for NO2 concentration variation in Kaohsiung. The results showed that higher polluted regions were clustered in south Kaohsiung where industries were well developed and population was densely distributed.