• 沒有找到結果。

水文資訊案例統計分析流程說明

在文檔中 中 華 大 學 (頁 68-79)

第四章 案例探討-以台灣水文資訊為例

4.2 根據 Benford 定律對台灣之水文資訊進行案例探討

4.2.1 水文資訊案例統計分析流程說明

本節將以北區流量資訊為例,詳細說明流量與雨量資訊的統計分析步驟。

首先進入水利署(2008)水文水資源資料管理供應系統網站,並選取流量水文資訊 路徑,如圖 4.1 所示。然後在網頁左側的進階查詢表單中,將年份欄調至 2007 年,並依照水資源區分選項點選北區,如圖 4.2 所示之畫面所示。依此步驟,其 蒐尋結果有「三峽(2)」、「橫溪」、「五堵」、「秀朗」、「屈尺」、「翡翠谷」、「寶橋」、

「坪林」、「魚逮魚堀」、…等 63 個測站,如圖 4.3 所示,在此擬以「三峽(2)」測 站 2007 年之流量觀測為例加以說明。點選「三峽(2)」測站,即可得到該測站之 水文資訊與測站之站況資料,如圖 4.4 所示。

圖 4.1 水資源資料管理供應系統網站(1/2)

圖 4.2 水資源資料管理供應系統網站(2/2)

圖 4.3 水資源資料管理供應系統網站-流量測站

圖 4.4 「三峽(2)」流量測站之站況

水文資訊之統計分析過程可分為兩階段,第一階段為水文資訊之第一位數 (1~9)的出現頻率之統計分析,第二階段為第一二位數(10~99)之出現頻率的統計 分析,並分別與 Benford 定律之理論值進行比較。

1. 第一位數出現頻率之統計分析步驟

首先進入 2007 年之測站資料,選擇河川流量測站資料,即可獲得該測站之 該年度的流量數據,如圖 4.5 所示;之後即可將該測站之所有年度的流量數據匯 入 Microsoft Excel 2003 之試算表上,如圖 4.6 所示之結果。

圖 4.5 水資源資料管理供應系統網站-2007 年「三峽(2)」測站之流量數據

圖 4.6 分析程序-將圖 4.5 之數據匯入 Excel 中

本文於研究過程中發現,若為了避免遺漏部分數據,而將所有數據皆乘以 100,則將會造成部分數字之出現次數有異常增加的現象,故本文將引用原始資 料進行統計分析。研究過程中會利用 Excel 試算表中之特定位數選取功能(LEFT)

擷取流量數據之第一位數,其程式語法為“=LEFT(B6,1)",其中 LEFT 為設定 左側為擷取資料起點,B6 為所要擷取資料之儲存格代號,而 1 代表所要擷取的 位數。基於此,即可直接針對流量數據進行第一位數之擷取,其結果如圖 4.7 所 示。

圖 4.7 分析程序-直接擷取圖 4.6 之數據第一位數之結果

藉由圖 4.7 所示之水文資訊第一位數擷取結果,再利用試算表程式中之計次 功能(COUNTIF)進行計算第一位數(1~9)中之各數字出現次數的統計分析,茲以 第 一 位 數 是 數 字 1 為 例 , 說 明 相 關 細 節 如 下 。 試 算 表 程 式 上 是 以

“ =COUNTIF($AH$6:$AS$60000,AX$4) " 進 行 第 一 位 數 之 擷 取 動 作 , 其 中 COUNTIF 為計次功能,而“$AH$6:$AS$60000"是代表所要進行統計分析之數 據的儲存格代號範圍,由於 Excel 試算表功能直列的儲存格的最大值為 65,536 筆,故在運算式上將統一設為 60,000,“AX$4"則表示所要計算的數字之儲存 格代號。經試算表程式計算後可得首位數字 1 的出現次數為 129,584 次,並可依 次統計出 2 至 9 各個首位數字之出現次數。最後藉由試算表程式中之加總功能

用試算表程式中之函數功能(ROUND)及加總功能(SUM),即能計算出流量數據 中 1 至 9 各首位數字的出現次數及頻率的總和,如圖 4.8 所示。

圖 4.8 分析程序-統計分析圖 4.7 中第一位數之出現次數

由圖 4.8 的分析結果可得流量數據中首位數為 1 至 9 的實際出現頻率,然後 引用試算表程式中之絕對值功能(ABS)與式(2.6),計算流量之實際出現頻率與理 論值之平均絕對誤差率,最後利用試算表程式中之加總功能(SUM),即可得出流 量實際出現頻率與理論值之平均絕對誤差率為 8.399%,如圖 4.9 所示。基於此,

在考慮乾旱週期、台灣分區、個別流域之流量與雨量之統計分析時,均採用此 一方式進行第一位數之統計分析。

圖 4.9 分析程序-統計分析圖 4.8 中實際出現頻率與 Benford 定律之平均誤差

2. 第一二位數出現頻率統計分析步驟

關於流量及雨量數據之第一二位數出現頻率的統計分析步驟,亦與第一位 數之出現頻率的統計分析流程類似,故可參照圖 4.5 與圖 4.6,進行第一二位數 之統計分析。

為避免統計分析結果出現異常的現象,本文將不考慮將水文數據乘上 100。

研究中將利用試算表程式中之特定位數選取功能(LEFT),直接針對流量數據進 行第一二位數之擷取,如圖 4.10 所示。

圖 4.10 分析程序-根據圖 4.6 擷取流量之第一二位數之結果

經由使用特定位數選取功能(LEFT)選取水文數據之第一二位數後,可繼續 引用試算表程式中之函數功能(ROUND)及計次功能(COUNTIF),分別統計出第 一二位數之出現次數及機率,如圖 4.11 與 4.12 所示。基於以上所述分析流程,

台灣北區流域之流量的第一二位數為 10 的出現次數是 12,883 次,其出現頻率為 7.79%;第一二位數為 11 的出現次數為 11,615 次,其出現頻率為 7.19%;第一 二位數為 13 的出現次數是 9,989 次,其出現頻率為 6.18%。以此類推可得出所 有水文資訊之第一二位數的出現次數及出現頻率,最後根據 Benford 定律之理論 值,並藉由試算表程式中之絕對值功能(ABS)、總和功能(SUM)與式(2.6),即能 計算出流量數據中第一二位數分別為 10 至 99 的平均絕對誤差率,如圖 4.12 所 示。

圖 4.11 分析程序-統計分析圖 4.10 中第一二位數之出現次數

圖 4.12 分析程序-統計分析圖 4.11 中第一二位數之誤差及平均誤差

經由上述之第一位數及第一二位數之分析流程後,即可獲得台灣北區水資 源各類型統計數據及相關圖表,為使各項統計分析結果能清楚呈現,因此將其 結果繪製成圖表,如表 4.1 與圖 4.13、圖 4.14 所示。

表 4.1 台灣北區水文資訊之 Benford 定律出現頻率統計表

區域 北區

資料類型 流量 雨量

量測時間 1936-2007 1900-2007

測站總數 63 57

全部水文資訊筆數 452,413 346,894 扣除 1996-2007 水文資訊筆數 317,782 261,270 基本資料

1996-2007 水文資訊筆數 134,631 85,624 全部水文資訊之誤差率 8.23% 15.00%

實際水文資訊統計筆數 396,357 319,255 扣除 1996-2007 水文資訊之誤差率 8.26% 14.10%

實際水文資訊統計筆數 281,876 234,382 1996-2007 水文資訊之誤差率 8.54% 17.49%

根據 Benford 定 律率定水文資訊 之第一位數(1-9) 出現頻率與平均 絕對誤差率值

實際水文資訊統計筆數 114,481 84,873 全部水文資訊之誤差率 45.09% 43.85%

實際水文資訊統計筆數 161,535 143,492 扣除 1996-2007 水文資訊之誤差率 44.08% 45.39%

實際水文資訊統計筆數 115,545 105,654 1996-2007 水文資訊之誤差率 47.64% 40.04%

根據 Benford 定 律率定水文資訊 之第一二位數 (10-99)出現頻率 與平均絕對誤差

率值 實際水文資訊統計筆數 45,990 37,838

0 5 10 15 20 25 30 35 40

1 2 3 4 5 6 7 8 9

數字

出現頻率

全部流量資訊統計

扣除1996-2007流量資訊統計 1996-2007流量資訊統計 全部雨量資訊統計

扣除1996-2007雨量資訊統計 1996-2007雨量資訊統計 Benford's law

圖 4.13 以 Benford 定律率定台灣北區水文資訊之第一位數統計圖

0 1 2 3 4 5 6 7 8

10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95

數字

出現頻率

Benford's law 全部流量資訊統計

扣除1996-2007流量資訊統計 1996-2007流量資訊統計 全部雨量資訊統計

扣除1996-2007雨量資訊統計 1996-2007雨量資訊統計

圖 4.14 以 Benford 定律率定台灣北區水文資訊之第一二位數統計圖

在文檔中 中 華 大 學 (頁 68-79)

相關文件