第二章 水庫內優養化趨勢分析方法
5. 第五項特性是非常態分布型態,環境品質之分布型態並非對稱於平均值之鐘 型分布,而是具有偏斜特性(skewness),因此利用環境資料建立特有之分布
型態是環境資料統計分析處理上很重要的一項工作。
環境品質資料的複雜性和特異性非常高,同時又涉及在採樣分析階段之可能 誤差,因此在環境統計學上亦發展一些方法來進行資料處理確認和分析展現,得 使環境數據具有正確性、合理性、完整性和代表性,因此檢視數據,特別是原始 數據之查核確認步驟是環境水質系統工作中很重要的一環,嚴格而言,檢測結果 須通過數據檢定後始可納入水質資料庫,以作為展現、說明、分析環境水體水質 之正式結果。由檢測單位所提交之環境水質數據(即採樣分析結果)在程序控管上 是劃歸為原始資料(raw data),該資料必須先經檢定確認符合正確性、合理性與 代表性之準則後,使得正式做為環境水質資料,為監測資料系統接受,並可執行 後續之統計處理,資料展現與環境分析。
1990 年開始美國環保署彙編一批有關環境資料分析之準則與手冊,主要包 括”Statistical Methods for the Analysis of Lake water Quality Trends (EPA/841-R-93-003)”、 ”Statistical Training Course for Groundwater Monitoring Data Analysis (EPA/530-93-003)”、”Guidance for Data Quality Objectives Process, QA/G-4 (EPA/600/R-96/055)”和 ”Guidance for Data Quality Assessment: Practical Methods for Data Analysis, QA/G-9, QA 96 Version (EPA-600/R-96-084)”,其中 Data Quality Assessment 這本指導手冊更 是將相關可茲應用之統計方法作系統化的整理說明。此外美國環保署亦在同時應 用源於探礦之地理統計學(Geostatistics)於環境科學特別在土壤污染和地下水污 染,其主要之報告為:Geostatistics for the Environmental sciences 和 GEO-EAS 1.2.1 (EPA600/8-91/008)。在相關書籍方面,美國化學學會曾出現 Principles of environmental sampling,書中就環境樣品之採樣規劃,QA/QC 與資料分析均 有詳細之討論。最近幾年來,環境統計方法逐漸受到環境科學與環境工程學門之 重視,在學門領域較為常用之書籍有:Statistical Methods for Environmental Pollution Monitoring (Gilbert, 1987)和 Statistics for Environmental Engineers (Berthouex and Brown, 1994)。
統計方法具有描述、推論和預測三項主要功能,以下茲就數據描述、處理與 檢定確認常用及數據表示之統計方法說明。
一、資料數據之分布型態
資料處理的第一項工作是分析資料之分布型態(當然環境水質數據必須先予 檢定確認),一個常數的分布可以告知該變數的可能值,有哪些及其發生的頻繁 程度,表達一變數的分布,最常用的方法是繪製直方圖(Historgram),直方圖由 分組數據組成,橫軸表示變數的組區間,縱軸表示該變數分組的發生頻率,由變 數的分布可以審視其一般型態,以及有異於一般型態的顯著偏差或是落在圖形一 般型態之外的離群值。在統計學上由真實世界觀測結果所發展的分布模式良多,
其 中 以 常 態 分 布 (Normal distribution) 和 統 計 常 態 分 布 (Lognormal distribution)、Weibull 分布、Gamma 分布和 Beta 分布較為環境學門所討論與 應用。常態分布屬對稱型態又稱之為高斯分布,其餘則性屬偏斜非對稱性分布。
常態分布的定義較為簡單,由母體(population)之參數(parameters)平均值 (mean)和變異數(variance)即可決定一常態分布模式,至於其他三種分布型態之 參數,則分別在表2.1.3-1 與表 2.1.3-2 予以說明。
通常母體分布的參數是無法獲得,是故利用樣本空間之統計量(Statistics)估 計平均值(Sample average)和變異數(Sample variance)。在應用上由實際觀測資 料來推估參數和選擇分布型態,再利用該參數和分布模式做推論和計算以為決策 之依據。
表 2.1.3-1 常態與對數常態分布之參數特性
表 2.1.3-2 各種分布之機率密度函數以模擬環境污染物濃度之變異性
二、常態分布型態之檢測
常態(高斯)分布是統計學上最為普遍廣用之分布模式,假若資料是趨向常態 分布,則該資料之描述、推論與預測都可以轉換成制式處理。檢測資料是否屬高 斯分布的方法良多,美國環保署之建議方法與應用條件如表 2.1.3-3。表 2.1.3-3 中之Shapiro Wilk W 測試法是 EPA 建議使用方法之一,其為檢測資料與常態分 布機率圖間的線性關係,若線性程度愈高則常態分布屬性愈高,該方法近似”常 態機率圖法(Normal Probability Plot)”,又可稱之為Q-Q 圖法(quantile quantile plot)。其步驟為:
將觀測值依序由小自大排列
設定其秩值(Rank,I)由 1 至 n,n 為總樣本數
計算各觀測值之統計機率,
n Pi i0.5
計算相對應Pi之常態分數 (Normal Score)
繪在常態機率紙上,以xi值作y 軸,Pi值或normal score 值作 x 軸
檢視其線性程度
此外亦可利用直方圖(Histogram)與繪製累積機率分布圖來判定,前者呈鐘 型對稱分布,而後者呈S 型之曲線才是趨向常態分布。
環境數據資料大都呈非常態之偏斜分布,某些可劃歸為對數常態分布,雖可 經對數轉換成常態分布,然已盡失環境之物理真實意義,因此常態分布構成之理 論 較 不 適 用 在 環 境 資 料 , 惟 有 建 立 所 謂 之 特 定”背 景 分 布 (background distribution) ”,才能建立數據處理、檢定與推論之基礎。
表 2.1.3-3 常態分布的檢測方法
檢測方法 數據數量 備 註
Shapiro Wilk W test ≦50 Filliben’s Statistic ≦100
Coefficient of Variation Test 不限 僅限用於快速判斷常態分佈 Skewness and Kurtosis Tests >50 對數據量大的較為實用
Geary’s Test >50 當其他方法不適用時建議使用 Studentized Range Test ≦100
Chi-Square Test 大量數據 Lilliefors Kolmogorov-Smirnoff test >50 資料來源:
1. U.S EPA, Guidance for Data Quality Assessment;Practical Methods for Data Analysis, QA96 Version, 1996。
2. 環 保 署 水質 監 測整 合應 用 計 畫, 子 題 (一 )監 測 數 據處 理 技術 手冊 , EPA-86-L104-09-08。
三、數據小於偵測極限之分析
統計學上嚴重偏離中位的數據,稱之為離群值或異常值,在資料處理上都是 需要較審慎。如果檢測數值很低,小於偵測極限(Limit of Detection) (美國 EPA 及環檢所均有規範之MDL),此種狀況稱之為 censored data。數據報告上如以 ND 表示皆會造成後續數據處理之困擾,針對該一問題,美國 EPA 建議的方法 有 : Substitution method 、 Cohen’s adjustment、 Trimmed mean 及 Winsorization。
(3) Winsorized mean 為使用次一位極值來取代觀測數據之兩端數值。例如共有 20 個觀測值,其中有 4 個小於 MDL,今將之依小而大排列,將 4 個小於 MDL 觀測值以第五順位之觀測值取代,將第 17 至 20 個觀測值(即 4 個最大 值) 以第 16 順位觀測值取代。其後計算平均值和Sw S
n1 v1,n 為總樣本數,v 為未被取代之觀測數,在此例中為 20-4-4=12。Winsorized 值
20%,n-2np=20-20×2×0.2=12,Trimmed mean 會降低平均值之偏差,但亦 會低估變異數。
五、數據篩檢-異常值分析(outlier test)
異常值或稱為離群值(outliner)指樣本空間中,某些數據與其他數據遠離之 觀測值,異常值可能是採樣分析與登錄過程出錯的結果,也許是真實的結果,反 應環境污染的事實。由於異常值可能對檢定統計量產生重大的影響,是故在正式 接受之前必須進行資料確認。在回歸分析上,異常值乃指該數據之存在會造成回 歸參數值之顯著差異,而產生不同之模式,在測試方法上有:內Studentized 殘 差法、外Studentized 殘差法、Cook’s距離法及修正 Cook’s距離法(DFFITS)。
美國 EPA 曾建議異常值之處理原則:定出可能之差異值,應用統計方法再 以測試(test),以科學觀點統計分析異常值,分析測試統計異常值與不具統計異 常值。異常值的處理的確有其效益,可能找出系統錯誤,特別在採樣與分析方法 的問題,或者確認無誤,它是一件獨立之污染問題。要由原始數據標定出異常值,
可以利用Box and Whisker plot (長鬚圖)、秩資料圖(ranked data plot)、常態機 率圖或時間序列圖,及無參數檢定方法,此外,亦可利用水化學理論法則作篩檢。
至於在認定之統計測試方法上,美國環保署建議方法如表2.1.3-4。
由於環境資料大都為非常態分布,因此表 2.1.3-4 中似乎僅有 Walsh’s test 才得符合架設條件之要求。事實上,利用背景分布、建立時間與空間的分布型態,
再應用無參數分析法則以建立LCL 及 UCL 的控制區間(control interval),或許 是另一種可以在國內推廣應用之資料篩檢與確認的方法。
表 2.1.3-4 美國環保署建議之異常值統計測試方法
樣本數 統計測試方法 分布型態 異常值數量
N≦25 Extreme Value Test 常態分布 不限
N≦50 Discordance Test 常態分布 單一
n≧25 Rosner’s Test 常態分布 不限
n≧50 Walsh’s Test 非常態分布 不限
資料來源:
1. U.S EPA, Guidance for Data Quality Assessment;Practical Methods for Data Analysis, QA96 Version, 1996。