第五項特性是非常態分布型態，環境品質之分布型態並非對稱於平均值之鐘型分布，而是具有偏斜特性(skewness)，因此利用環境資料建立特有之分布

第二章水庫內優養化趨勢分析方法

5. 第五項特性是非常態分布型態，環境品質之分布型態並非對稱於平均值之鐘型分布，而是具有偏斜特性(skewness)，因此利用環境資料建立特有之分布

型態是環境資料統計分析處理上很重要的一項工作。

環境品質資料的複雜性和特異性非常高，同時又涉及在採樣分析階段之可能誤差，因此在環境統計學上亦發展一些方法來進行資料處理確認和分析展現，得使環境數據具有正確性、合理性、完整性和代表性，因此檢視數據，特別是原始數據之查核確認步驟是環境水質系統工作中很重要的一環，嚴格而言，檢測結果須通過數據檢定後始可納入水質資料庫，以作為展現、說明、分析環境水體水質之正式結果。由檢測單位所提交之環境水質數據(即採樣分析結果)在程序控管上是劃歸為原始資料(raw data)，該資料必須先經檢定確認符合正確性、合理性與代表性之準則後，使得正式做為環境水質資料，為監測資料系統接受，並可執行後續之統計處理，資料展現與環境分析。

1990 年開始美國環保署彙編一批有關環境資料分析之準則與手冊，主要包括”Statistical Methods for the Analysis of Lake water Quality Trends (EPA/841-R-93-003)”、 ”Statistical Training Course for Groundwater Monitoring Data Analysis (EPA/530-93-003)”、”Guidance for Data Quality Objectives Process, QA/G-4 (EPA/600/R-96/055)”和 ”Guidance for Data Quality Assessment: Practical Methods for Data Analysis, QA/G-9, QA 96 Version (EPA-600/R-96-084)”，其中 Data Quality Assessment 這本指導手冊更是將相關可茲應用之統計方法作系統化的整理說明。此外美國環保署亦在同時應用源於探礦之地理統計學(Geostatistics)於環境科學特別在土壤污染和地下水污染，其主要之報告為：Geostatistics for the Environmental sciences 和 GEO-EAS 1.2.1 (EPA600/8-91/008)。在相關書籍方面，美國化學學會曾出現 Principles of environmental sampling，書中就環境樣品之採樣規劃，QA/QC 與資料分析均有詳細之討論。最近幾年來，環境統計方法逐漸受到環境科學與環境工程學門之重視，在學門領域較為常用之書籍有：Statistical Methods for Environmental Pollution Monitoring (Gilbert, 1987)和 Statistics for Environmental Engineers (Berthouex and Brown, 1994)。

統計方法具有描述、推論和預測三項主要功能，以下茲就數據描述、處理與檢定確認常用及數據表示之統計方法說明。

一、資料數據之分布型態

資料處理的第一項工作是分析資料之分布型態(當然環境水質數據必須先予檢定確認)，一個常數的分布可以告知該變數的可能值，有哪些及其發生的頻繁程度，表達一變數的分布，最常用的方法是繪製直方圖(Historgram)，直方圖由分組數據組成，橫軸表示變數的組區間，縱軸表示該變數分組的發生頻率，由變數的分布可以審視其一般型態，以及有異於一般型態的顯著偏差或是落在圖形一般型態之外的離群值。在統計學上由真實世界觀測結果所發展的分布模式良多，

其中以常態分布 (Normal distribution) 和統計常態分布 (Lognormal distribution)、Weibull 分布、Gamma 分布和 Beta 分布較為環境學門所討論與應用。常態分布屬對稱型態又稱之為高斯分布，其餘則性屬偏斜非對稱性分布。

常態分布的定義較為簡單，由母體(population)之參數(parameters)平均值 (mean)和變異數(variance)即可決定一常態分布模式，至於其他三種分布型態之參數，則分別在表2.1.3-1 與表 2.1.3-2 予以說明。

通常母體分布的參數是無法獲得，是故利用樣本空間之統計量(Statistics)估計平均值(Sample average)和變異數(Sample variance)。在應用上由實際觀測資料來推估參數和選擇分布型態，再利用該參數和分布模式做推論和計算以為決策之依據。

表 2.1.3-1 常態與對數常態分布之參數特性

表 2.1.3-2 各種分布之機率密度函數以模擬環境污染物濃度之變異性

二、常態分布型態之檢測

常態(高斯)分布是統計學上最為普遍廣用之分布模式，假若資料是趨向常態分布，則該資料之描述、推論與預測都可以轉換成制式處理。檢測資料是否屬高斯分布的方法良多，美國環保署之建議方法與應用條件如表 2.1.3-3。表 2.1.3-3 中之Shapiro Wilk W 測試法是 EPA 建議使用方法之一，其為檢測資料與常態分布機率圖間的線性關係，若線性程度愈高則常態分布屬性愈高，該方法近似”常態機率圖法(Normal Probability Plot)”，又可稱之為Q-Q 圖法(quantile quantile plot)。其步驟為：

 將觀測值依序由小自大排列

 設定其秩值(Rank，I)由 1 至 n，n 為總樣本數

 計算各觀測值之統計機率，

n P_i i0.5

 計算相對應Pⁱ之常態分數 (Normal Score)

 繪在常態機率紙上，以xⁱ值作y 軸，Pⁱ值或normal score 值作 x 軸

 檢視其線性程度

此外亦可利用直方圖(Histogram)與繪製累積機率分布圖來判定，前者呈鐘型對稱分布，而後者呈S 型之曲線才是趨向常態分布。

環境數據資料大都呈非常態之偏斜分布，某些可劃歸為對數常態分布，雖可經對數轉換成常態分布，然已盡失環境之物理真實意義，因此常態分布構成之理論較不適用在環境資料，惟有建立所謂之特定”背景分布 (background distribution) ”，才能建立數據處理、檢定與推論之基礎。

表 2.1.3-3 常態分布的檢測方法

檢測方法數據數量備註

Shapiro Wilk W test ≦50 Filliben’s Statistic ≦100

Coefficient of Variation Test 不限僅限用於快速判斷常態分佈 Skewness and Kurtosis Tests ＞50 對數據量大的較為實用

Geary’s Test ＞50 當其他方法不適用時建議使用 Studentized Range Test ≦100

Chi-Square Test 大量數據 Lilliefors Kolmogorov-Smirnoff test ＞50 資料來源：

1. U.S EPA, Guidance for Data Quality Assessment；Practical Methods for Data Analysis, QA96 Version, 1996。

2. 環保署水質監測整合應用計畫，子題 (一 )監測數據處理技術手冊， EPA-86-L104-09-08。

三、數據小於偵測極限之分析

統計學上嚴重偏離中位的數據，稱之為離群值或異常值，在資料處理上都是需要較審慎。如果檢測數值很低，小於偵測極限(Limit of Detection) (美國 EPA 及環檢所均有規範之MDL)，此種狀況稱之為 censored data。數據報告上如以 ND 表示皆會造成後續數據處理之困擾，針對該一問題，美國 EPA 建議的方法有： Substitution method 、 Cohen’s adjustment、 Trimmed mean 及 Winsorization。

(3) Winsorized mean 為使用次一位極值來取代觀測數據之兩端數值。例如共有 20 個觀測值，其中有 4 個小於 MDL，今將之依小而大排列，將 4 個小於 MDL 觀測值以第五順位之觀測值取代，將第 17 至 20 個觀測值(即 4 個最大值) 以第 16 順位觀測值取代。其後計算平均值和S_w S

  

n1 v1，n 為總

樣本數，v 為未被取代之觀測數，在此例中為 20－4－4＝12。Winsorized 值

20％，n－2np＝20－20×2×0.2＝12，Trimmed mean 會降低平均值之偏差，但亦會低估變異數。

五、數據篩檢－異常值分析(outlier test)

異常值或稱為離群值(outliner)指樣本空間中，某些數據與其他數據遠離之觀測值，異常值可能是採樣分析與登錄過程出錯的結果，也許是真實的結果，反應環境污染的事實。由於異常值可能對檢定統計量產生重大的影響，是故在正式接受之前必須進行資料確認。在回歸分析上，異常值乃指該數據之存在會造成回歸參數值之顯著差異，而產生不同之模式，在測試方法上有：內Studentized 殘差法、外Studentized 殘差法、Cook’s距離法及修正 Cook’s距離法(DFFITS)。

美國 EPA 曾建議異常值之處理原則：定出可能之差異值，應用統計方法再以測試(test)，以科學觀點統計分析異常值，分析測試統計異常值與不具統計異常值。異常值的處理的確有其效益，可能找出系統錯誤，特別在採樣與分析方法的問題，或者確認無誤，它是一件獨立之污染問題。要由原始數據標定出異常值，

可以利用Box and Whisker plot (長鬚圖)、秩資料圖(ranked data plot)、常態機率圖或時間序列圖，及無參數檢定方法，此外，亦可利用水化學理論法則作篩檢。

至於在認定之統計測試方法上，美國環保署建議方法如表2.1.3-4。

由於環境資料大都為非常態分布，因此表 2.1.3-4 中似乎僅有 Walsh’s test 才得符合架設條件之要求。事實上，利用背景分布、建立時間與空間的分布型態，

再應用無參數分析法則以建立LCL 及 UCL 的控制區間(control interval)，或許是另一種可以在國內推廣應用之資料篩檢與確認的方法。

表 2.1.3-4 美國環保署建議之異常值統計測試方法

樣本數統計測試方法分布型態異常值數量

N≦25 Extreme Value Test 常態分布不限

N≦50 Discordance Test 常態分布單一

n≧25 Rosner’s Test 常態分布不限

n≧50 Walsh’s Test 非常態分布不限

資料來源：

1. U.S EPA, Guidance for Data Quality Assessment；Practical Methods for Data Analysis, QA96 Version, 1996。

在文檔中以生態工法淨化水庫水質控制優養化研究計畫 (頁 45-54)

第五項特性是非常態分布型態，環境品質之分布型態並非對稱於平均值之鐘 型分布，而是具有偏斜特性(skewness)，因此利用環境資料建立特有之分布

第二章 水庫內優養化趨勢分析方法

5. 第五項特性是非常態分布型態，環境品質之分布型態並非對稱於平均值之鐘 型分布，而是具有偏斜特性(skewness)，因此利用環境資料建立特有之分布

  

第五項特性是非常態分布型態，環境品質之分布型態並非對稱於平均值之鐘型分布，而是具有偏斜特性(skewness)，因此利用環境資料建立特有之分布

第二章水庫內優養化趨勢分析方法

5. 第五項特性是非常態分布型態，環境品質之分布型態並非對稱於平均值之鐘型分布，而是具有偏斜特性(skewness)，因此利用環境資料建立特有之分布