• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
152
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

Benford 定律與資料探勘在淡水河流域水文資訊上之 應用研究

系 所 別:土木與工程資訊學系碩士班 學號姓名:M09304021 任 克 泰 指導教授:呂 志 宗 博士

中 華 民 國 九 十 五 年 六 月

(2)
(3)
(4)
(5)
(6)
(7)

誌 謝

本論文承蒙恩師 呂志宗博士,於學生研究期間給予細心指導與 指正,使學生在觀念的啟發、專業知識與論文撰寫之觀念上獲益匪 淺,而在論文撰寫期間給予仔細地批閱與指正,使本論文得以順利完 成,並得到口試委員的肯定,學生在此致上最高的敬意,師恩浩瀚學 生將永銘於心。

本論文於發表審查期間,承蒙中興大學 壽克堅博士及本校 李 煜舲博士於百忙之中撥冗指正,給予諸多寶貴意見,使論文更臻完 善,在此深表謝意。同時亦感謝本校 吳淵旬博士及 楊朝平博士,

於求學期間給予的教誨及協助,使學生有更豐富的專業知識,以完成 本論文,在此至感銘謝。

感謝學長姐雪蘭、宜興、安琪、君平、紀賢、名宏、翔鴻、育箖、

銘鋒、維凱、伯偉、育嘉、宏志、振華等人經驗傳承。感謝同儕柏領、

彥佃、凱文、姿 、怡伶、逸泓、禎瑩、政儒、偉哲、季霖、士中、

照俊、保旭、胤傑等人於課業上互相支持與鼓勵。也感謝學弟妹家宇、

志浩、仲謙、逸瑜、俊傑、寬益、小童、振宏、樺姿、玟玲、英達、

文彥、嘟嘟等人的熱心幫忙及關心,在此一併致謝。

最後感謝我摯愛的家人,感謝您們對我無微不至的照顧,讓我無 後顧之憂順利完成學業,您們的關心與支持是我最大的精神支柱。僅 將論文成果獻給我最愛的親人、朋友與恩師,感謝您們!

克泰謹識 中華民國九十五年六月于新竹 中華大學

(8)

摘要

影響水資源之因子有河川流量、蒸發量、溫度等。其中河川流量 及雨量此二因子的影響頗深,且此兩因子所測得之數據較為完整,故 本文擬以 Benford 定律及資料探勘為工具,以並淡水河流域為研究目 標,探討淡水河流域之流量及雨量數據,檢驗其與 Benford 定律間之 相關性,據以研判流量及雨量數據間之關係,且以資料探勘技術對流 量進行預測。由流量及雨量數據研討得知,淡水河流域之流量及雨量 數據確實與 Benford 定律有關;而資料探勘技術,則可成功對流量進 行預測。

關鍵字:Benford 定律、資料探勘、XLMiner、迴歸分析

(9)

目 錄

摘 要……… I 目 錄……… II 圖 目 錄……… V 表 目 錄……… XIII

第一章 緒論……… 1

1.1 研究背景……… 1

1.2 研究動機與目的……… 2

1.3 論文架構……… 3

1.4 論文流程……… 4

第二章 文獻回顧……… 5

2.1 前言……… 5

2.2 影響水資源之參數……… 5

2.2.1 氣候的定義……… 6

2.2.2 降雨……… 6

2.2.3 降雨觀測……… 7

2.2.4 平均雨量……… 8

2.2.5 流量……… 8

2.2.6 逕流……… 10

2.2.7 歷線……… 10

2.2.8 降雨與河川流量之基本關係……… 11

2.2.9 水文資訊相關研究……… 12

2.3 淡水河流域……… 13

2.3.1 流域之水文特性……… 14

(10)

2.3.2 淡水河流域水庫概況……… 16

2.4 Benford 定律……… 19

2.4.1 Benford 定律的定義……… 19

2.4.2 Benford 定律之應用……… 21

2.5 資料探勘( Data Mining )技術……… 22

2.5.1 資料探勘的發展……… 22

2.5.2 資料探勘的定義……… 24

2.6 結語……… 25

第三章 資料分析系統架構……… 26

3.1 前言……… 26

3.2 Benford 定律……… 26

3.2.1 資料的選擇……… 27

3.2.2 第一位數的選擇……… 30

3.2.3 首位數的出現機率統計分析……… 32

3.3 資料探勘(Data Mining) ……… 34

3.3.1 資料探勘軟體……… 34

3.3.2 資料探勘軟體種類……… 35

3.4 結語……… 38

第四章 案例探討-以淡水河流域為例……… 39

4.1 前言……… 39

4.2 根據 Benford 定律對淡水河流域之水文資訊進行案例 探討……… 39

4.2.1 流量資訊案例探討……… 39

4.2.2 流量資訊案例探討之結果……… 55

4.2.3 雨量資訊案例探討……… 55

(11)

4.2.4 雨量資訊案例探討之結果……… 70

4.2.5 石門水庫建造前後對流量之影響探討……… 70

4.2.6 水文資訊案例探討之分析結果……… 73

4.3 淡水河流域水文資訊之資料探勘(Data Mining)案例探討.. 78

4.3.1 資料之選擇……… 78

4.3.2 分析方法……… 78

4.3.3 實際案例分析……… 79

4.3.4 分析結果……… 106

4.4 結語……… 107

第五章 結論與建議……… 108

5.1 結論……… 108

5.2 建議……… 109

參考文獻……… 111

附錄……… 114

附錄 A 颱風路徑類別圖……… 115

附錄 B 歷年有警報颱風資料表……… 116

(12)

圖 目 錄

圖 1.1 研究流程圖……… 4

圖 2.1 淡水河流域圖……… 14

圖 2.2 「三峽」測站 2003 年平均雨量……… 16

圖 2.3 Benford 定律所計算首位數字出現之機率曲線圖……… 20

圖 3.1 水文水資源資料管理供應系統- 水資源資料……… 27

圖 3.2 水文水資源資料管理供應系統- 河川流量資料進階查詢 (1/2)……… 28

圖 3.3 水文水資源資料管理供應系統- 河川流量資料進階查詢 (2/2)……… 28

圖 3.4 水文水資源資料管理供應系統- 「牛鬥(1)」流量測站站 況資料……… 29

圖 3.5 水文水資源資料管理供應系統- 「牛鬥(1)」河川流量測 站資料(1/2)……… 29

圖 3.6 水文水資源資料管理供應系統- 「牛鬥(1)」河川流量測 站資料(2/2)……… 30

圖 3.7 2005 年「牛鬥(1)」測站之河流流量原始數據……… 31

圖 3.8 將圖 3.7 中之河流流量數據乘以 100 後之結果……… 31

圖 3.9 圖 3.8 中河流流量數據之第一位數……… 32

圖 4.1 水資源資料管理供應系統網站(1/2)……… 40

圖 4.2 水資源資料管理供應系統網站(2/2)……… 40

圖 4.3 水資源資料管理供應系統網站-流量測站……… 40

圖 4.4 「五堵」測站流量測站站況……… 41 圖 4.5 水資源資料管理供應系統網站-「五堵」測站於 2005 年

(13)

之流量數據……… 42

圖 4.6 分析程序-將圖 4.5 之數據匯入 Excel 中……… 42

圖 4.7 分析程序-將圖 4.6 中之數據乘以 100……… 43

圖 4.8 分析程序-選取圖 4.7 中每筆數據之首位數……… 44

圖 4.9 分析程序-統計分析圖 4.8 中首位數之出現次數………… 44

圖 4.10 分析程序-統計數據圖 4.9 中之首位數出現機率統計分析.. 45

圖 4.11 「五堵」測站流量資料之首位數出現機率與 Benford 定 律比較圖(長條圖)……… 46

圖 4.12 「五堵」測站流量資料之首位數出現機率與 Benford 定 律比較圖(折線圖)……… 46

圖 4.13 「橫溪」測站流量資料之首位數出現機率與 Benford 定 律比較圖(長條圖)……… 48

圖 4.14 「橫溪」測站流量資料之首位數出現機率與 Benford 定 律比較圖(折線圖)……… 48

圖 4.15 「秀朗」測站流量資料之首位數出現機率與 Benford 定 律比較圖(長條圖)……… 49

圖 4.16 「秀朗」測站流量資料之首位數出現機率與 Benford 定 律比較圖(折線圖)……… 49

圖 4.17 「三鶯橋」測站流量資料之首位數出現機率與 Benford 定律比較圖(長條圖)……… 50

圖 4.18 「三鶯橋」測站流量資料之首位數出現機率與 Benford 定律比較圖(折線圖)……… 50

圖 4.19 「屈尺」測站流量資料之首位數出現機率與 Benford 定 律比較圖(長條圖)……… 51 圖 4.20 「屈尺」測站流量資料之首位數出現機率與 Benford 定

(14)

律比較圖(折線圖)……… 51 圖 4.21 「介壽橋」測站流量資料之首位數出現機率與 Benford

定律比較圖(長條圖)……… 52 圖 4.22 「介壽橋」測站流量資料之首位數出現機率與 Benford

定律比較圖(折線圖)……… 52 圖 4.23 「寶橋」測站流量資料之首位數出現機率與 Benford 定

律比較圖(長條圖)……… 52 圖 4.24 「寶橋」測站流量資料之首位數出現機率與 Benford 定

律比較圖(折線圖)……… 53 圖 4.25 「上龜山橋」測站流量資料之首位數出現機率與 Benford

定律比較圖(長條圖)……… 54 圖 4.26 「上龜山橋」測站流量資料之首位數出現機率與 Benford

定律比較圖(折線圖)……… 54 圖 4.27 水文水資源資料管理供應系統網站中之雨量測站示意圖.. 56 圖 4.28 「石碇(2)」測站雨量資料之首位數出現機率與 Benford

定律比較圖(長條圖)……… 57 圖 4.29 「石碇(2)」測站雨量資料之首位數出現機率與 Benford

定律比較圖(折線圖)……… 57 圖 4.30 「碧湖」測站雨量資料之首位數出現機率與 Benford 定

律比較圖(長條圖)……… 58 圖 4.31 「碧湖」測站雨量資料之首位數出現機率與 Benford 定

律比較圖(折線圖)……… 58 圖 4.32 「火燒寮」測站雨量資料之首位數出現機率與 Benford

定律比較圖(長條圖)……… 59 圖 4.33 「火燒寮」測站雨量資料之首位數出現機率與 Benford

(15)

定律比較圖(折線圖)……… 59 圖 4.34 「大豹」測站雨量資料之首位數出現機率與 Benford 定

律比較圖(長條圖)……… 60 圖 4.35 「大豹」測站雨量資料之首位數出現機率與 Benford 定

律比較圖(折線圖)……… 60 圖 4.36 「三峽」測站雨量資料之首位數出現機率與 Benford 定

律比較圖(長條圖)……… 61 圖 4.37 「三峽」測站雨量資料之首位數出現機率與 Benford 定

律比較圖(折線圖)……… 61 圖 4.38 「瑞芳(2)」測站雨量資料之首位數出現機率與 Benford

定律比較圖(長條圖)……… 62 圖 4.39 「瑞芳(2)」測站雨量資料之首位數出現機率與 Benford

定律比較圖(折線圖)……… 62 圖 4.40 「中正橋」測站雨量資料之首位數出現機率與 Benford

定律比較圖(長條圖)……… 63 圖 4.41 「中正橋」測站雨量資料之首位數出現機率與 Benford

定律比較圖(折線圖)……… 63 圖 4.42 「竹子湖(2)」測站雨量資料之首位數出現機率與

Benford 定律比較圖(長條圖)……… 64 圖 4.43 「竹子湖(2)」測站雨量資料之首位數出現機率與

Benford 定律比較圖(折線圖)……… 64 圖 4.44 「福山(3)」測站雨量資料之首位數出現機率與 Benford

定律比較圖(長條圖)……… 65 圖 4.45 「福山(3)」測站雨量資料之首位數出現機率與 Benford

定律比較圖(折線圖)……… 65

(16)

圖 4.46 「大桶山」測站雨量資料之首位數出現機率與 Benford 定律比較圖(長條圖)……… 66 圖 4.47 「大桶山」測站雨量資料之首位數出現機率與 Benford

定律比較圖(折線圖)……… 66 圖 4.48 「坪林(4)」測站雨量資料之首位數出現機率與 Benford

定律比較圖(長條圖)……… 67 圖 4.49 「坪林(4)」測站雨量資料之首位數出現機率與 Benford

定律比較圖(折線圖)……… 67 圖 4.50 「五堵」測站雨量資料之首位數出現機率與 Benford 定

律比較圖(長條圖)……… 68 圖 4.51 「五堵」測站雨量資料之首位數出現機率與 Benford 定

律比較圖(折線圖)……… 68 圖 4.52 「石門(3)」測站雨量資料之首位數出現機率與 Benford

定律比較圖(長條圖)……… 69 圖 4.53 「石門(3)」測站雨量資料之首位數出現機率與 Benford

定律比較圖(折線圖)……… 69 圖 4.54 「高義」測站於石門水庫建造前流量資料之首位數統計

結果(長條圖)……… 71 圖 4.55 「高義」測站於石門水庫建造前流量資料之首位數統計

結果(折線圖)……… 71 圖 4.56 「高義」測站於石門水庫建造後流量資料之首位數統計

結果(長條圖)……… 72 圖 4.57 「高義」測站於石門水庫建造後流量資料之首位數統計

結果(折線圖)……… 72 圖 4.58 所有測站之流量資料第一位數統計結果與 Benford 定律

(17)

之比較圖(長條圖)……… 75 圖 4.59 所有測站之流量資料第一位數統計結果與 Benford 定律

之比較圖(折線圖)……… 75 圖 4.60 所有測站之雨量資料第一位數統一結果與 Benford 定律

之比較圖(長條圖)……… 77 圖 4.61 所有測站之雨量資料第一位數統一結果與 Benford 定律

之比較圖(折線圖)……… 77 圖 4.62 XLMiner 實作- 「高義」測站 1989~2003 年 1 月份流

量數據……… 80 圖 4.63 XLMiner 實作- 對圖 4.62 進行資料分割……… 80 圖 4.64 XLMiner 實作- 根據圖 4.63 進行迴歸分析……… 81 圖 4.65 XLMiner 實作- 「高義」測站 1989~2003 年 1 月份流

量迴歸分鐘預測值與實際值之比較結果……… 82 圖 4.66 XLMiner 實作- 「高義」測站 1989~2003 年 2 月份流

量迴歸分析預測值與實際值之比較結果……… 83 圖 4.67 XLMiner 實作- 「高義」測站 1989~2003 年 3 月份流

量迴歸分析預測值與實際值之比較結果……… 84 圖 4.68 XLMiner 實作- 「高義」測站 1989~2003 年 4 月份流

量迴歸分析預測值與實際值之比較結果……… 85 圖 4.69 XLMiner 實作- 「高義」測站 1989~2003 年 5 月份流

量迴歸分析預測值與實際值之比較結果……… 86 圖 4.70 XLMiner 實作- 「高義」測站 1989~2003 年 6 月份流

量迴歸分析預測值與實際值之比較結果……… 87 圖 4.71 XLMiner 實作- 「高義」測站 1989~2003 年 7 月份流

量迴歸分析預測值與實際值之比較結果……… 88

(18)

圖 4.72 XLMiner 實作- 「高義」測站 1989~2003 年 8 月份流

量迴歸分析預測值與實際值之比較結果……… 89 圖 4.73 XLMiner 實作- 「高義」測站 1989~2003 年 9 月份流

量迴歸分析預測值與實際值之比較結果……… 90 圖 4.74 XLMiner 實作- 「高義」測站 1989~2003 年 10 月份流

量迴歸分析預測值與實際值之比較結果……… 91 圖 4.75 XLMiner 實作- 「高義」測站 1989~2003 年 11 月份流

量迴歸分析預測值與實際值之比較結果……… 92 圖 4.76 XLMiner 實作- 「高義」測站 1989~2003 年 12 月份流

量迴歸分析預測值與實際值之比較結果……… 93 圖 4.77 XLMiner 實作- 「寶橋」測站 1991~2005 年 1 月份流

量迴歸分析預測值與實際值之比較結果……… 94 圖 4.78 XLMiner 實作- 「寶橋」測站 1991~2005 年 2 月份流

量迴歸分析預測值與實際值之比較結果……… 95 圖 4.79 XLMiner 實作- 「寶橋」測站 1991~2005 年 3 月份流

量迴歸分析預測值與實際值之比較結果……… 96 圖 4.80 XLMiner 實作- 「寶橋」測站 1991~2005 年 4 月份流

量迴歸分析預測值與實際值之比較結果……… 97 圖 4.81 XLMiner 實作- 「寶橋」測站 1991~2005 年 5 月份流

量迴歸分析預測值與實際值之比較結果……… 98 圖 4.82 XLMiner 實作- 「寶橋」測站 1991~2005 年 6 月份流

量迴歸分析預測值與實際值之比較結果……… 99 圖 4.83 XLMiner 實作- 「寶橋」測站 1991~2005 年 7 月份流

量迴歸分析預測值與實際值之比較結果……… 100 圖 4.84 XLMiner 實作- 「寶橋」測站 1991~2005 年 8 月份流

(19)

量迴歸分析預測值與實際值之比較果……… 101

圖 4.85 XLMiner 實作- 「寶橋」測站 1991~2005 年 9 月份流 量迴歸分析預測值與實際值之比較結果……… 102

圖 4.86 XLMiner 實作- 「寶橋」測站 1991~2005 年 10 月份流 量迴歸分析預測值與實際值之比較結果……… 103

圖 4.87 XLMiner 實作- 「寶橋」測站 1991~2005 年 11 月份流 量迴歸分析預測值與實際值之比較結果……… 104

圖 4.88 XLMiner 實作- 「寶橋」測站 1991~2005 年 12 月份流 量迴歸分析預測值與實際值之比較結果……… 105

圖 4.89 「高義」測站 1957~2003 年流量曲線圖……… 106

圖 4.90 「寶橋」測站 1987~2005 年流量曲線圖……… 107

圖 A.1 颱風路徑類別圖……… 115

(20)

表 目 錄

表 2.1 翡翠水庫資訊列表……… 17

表 2.2 石門水庫資訊列表……… 18

表 2.3 Benford 定律所計算出之首位數字出現機率……… 20

表 2.4 資料探勘技術的發展史……… 24

表 3.1 測站「牛鬥(1)」2005 年之完整河流流量數據……… 33

表 3.2 測站「牛鬥(1)」2005 年之第一位數出現次數統計結果… 34 表 3.3 測站「牛鬥(1)」2005 年之第一位數出現頻率統計結果… 34 表 4.1 「五堵」測站 1962~2005 年流量資料之第一位數出現機 率統計資料(共 12,114 筆)……… 46

表 4.2 「橫溪」測站 1958~2005 年流量資料之第一位數出現機 率統計資料(共 16,697 筆)……… 48

表 4.3 「秀朗」測站 1970~2005 年流量資料之第一位數出現機 率統計資料(共 11,523 筆)……… 49

表 4.4 「三鶯橋」測站 1979~2003 年流量資料之第一位數出現 機率統計資料(共 11,959 筆)……… 50

表 4.5 「屈尺」測站 1970~2005 年流量資料之第一位數出現機 率統計資料(共 9,938 筆)……… 51

表 4.6 「介壽橋」測站 1981~2004 年流量資料之第一位數出現 機率統計資料(共 8,459 筆)……… 52

表 4.7 「寶橋」測站 1987~2005 年流量資料之第一位數出現機 率統計資料(共 6,894 筆)……… 53

表 4.8 「上龜山橋」測站 1996~2003 年流量資料之第一位數出 現機率統計資料(共 2,745 筆)……… 54

(21)

表 4.9 「石碇(2)」測站 1968~2005 年雨量資料之第一位數出

現機率統計資料(共 6,956 筆)……… 57 表 4.10 「碧湖」測站 1971~2005 年雨量資料之第一位數出現機

率統計資料(共 7,230 筆)……… 58 表 4.11 「火燒寮」測站 1956~2005 年雨量資料之第一位數出現

機率統計資料(共 10,478 筆)……… 59 表 4.12 「大豹」測站 1974~2005 年雨量資料之第一位數出現機

率統計資料(共 5,356 筆)……… 60 表 4.13 「三峽」測站 1965~2004 年雨量資料之第一位數出現機

率統計資料(共 5,673 筆)……… 61 表 4.14 「瑞芳(2)」測站 1962~2005 年雨量資料之第一位數出

現機率統計資料(共 8,179 筆)……… 62 表 4.15 「中正橋」測站 1977~2005 年雨量資料之第一位數出現

機率統計資料(共 3,633 筆)……… 63 表 4.16 「竹子湖(2)」測站 1977~2005 年雨量資料之第一位數

出現機率統計資料(共 4,758 筆)……… 64 表 4.17 「福山(3)」測站 1977~2005 年雨量資料之第一位數出

現機率統計資料(共 4,876 筆)……… 65 表 4.18 「大桶山」測站 1977~2005 年雨量資料之第一位數出現

機率統計資料(共 5,621 筆)……… 66 表 4.19 「坪林(4)」測站 1977~2005 年雨量資料之第一位數出

現機率統計資料(共 4,959 筆)……… 67 表 4.20 「五堵」測站 1977~2005 年雨量資料之第一位數出現機

率統計資料(共 7,748 筆)……… 68 表 4.21 「石門(3)」測站 1977~2005 年雨量資料之第一位數出

(22)

現機率統計資料(共 3,589 筆)……… 69 表 4.22 「高義」測站於石門水庫建造前流量資料之第一位數統

計結果(共 2,556 筆)……… 71 表 4.23 「高義」測站於石門水庫建造後流量資料之第一位數統

計結果(共 12,784 筆)……… 72 表 4.24 所有流量測站之第一位數統計資料結果(共 80,329 筆)… 74 表 4.25 所有雨量測站之第一位數統計資料結果(共 79,056 筆)… 76

(23)

第一章 緒論

1.1 研究背景

台灣年平均雨量為 2,500 公釐,約為全球平均值 834 公釐的四 倍,但每人可獲得的水量卻僅及全球平均值的四分之一。地形陡峭,

降雨時空分佈不均,且三分之二的雨量直接逕流入海,這些都是水量 難以利用的原因。台灣人口密度排名世界第二,缺水排行名列世界第 十八,因此如何妥善貯存又有效運用有限的水資源,是當前最重要的 課題之一。近年來,因受聖嬰現象及溫室效應等的影響,氣候似較四、

五十年前不穩定,每年之總降雨量雖無明顯變化,但降雨強度明顯增 加。造成旱季時缺水成旱,暴雨時洪水成災,此一現象對水資源之利 用已造成重大之影響。

氣候包含雨量及氣溫兩大特性,台灣因山多且高,地形起伏大,

所以河短流急。當降雨來臨時,若是雨量過大,超過土層所能儲蓄之 水量,即容易發生洪災及土石流等災害,並造成人民生命財產之損 失。災害發生前,若能適時地對人民發出預警,則可減輕因自然災害 所帶來之損失。以目前台灣之技術及人力,預測長期之氣候變化幾不 可能。但短期之氣候變化,則可藉由觀測各種相關氣候之資訊,達到 一定程度之預測。

由需求方面來看,台灣每人每日用水量,已由 250 公升增加至 350 公升。加上消防用水及日常生活中之漏水等水量,每人每日用水 量預估可達與美國接近之 570 公升,高於日、韓等國。用水不當及用 水量過高,已成為台灣水資源利用之一大隱憂。

(24)

1.2 研究動機與目的

近年來,由於氣候變化異常之影響,在全球各地已造成許多災 害,如美國及東南亞各國出現異常嚴重之旱災、中國及歐洲出現大洪 水、台灣近年來的桃芝及納莉颱風等,皆對人民甚至是國家產生了重 大的影響。有鑑於氣候異常造成之災害,常於人們不知覺之情況下發 生,因此當災害來臨時,人們往往來不及對災害做防範及躲避。如何 在與氣候相關之資訊的基礎下,取得有用之資訊,對氣候變化作一分 析、研究,建立一套有系統之氣候預警系統,以適時地在災害前提出 警示,達到降低災害以及維護人民生命財產之安全,致為重要。

台灣因地勢陡峭,河流陡且急,每當降雨時,若是發生瞬間雨勢 過大之情況,則常會引起洪災及土石流,而造成重大的災害。此時,

若是能針對河流之各種水文數據加以研究、分析,探討其中之相關 性,應有助於偵測出氣候異常之前兆,以做好水資源之儲蓄及規劃等 工作。

本研究擬以 Benford 定律以及資料探勘軟體 XLMiner,對淡水河 流域水文資訊之流量及雨量進行一初步之研究、分析,找出彼此間之 相關性,或能有助於往後水資源之相關規劃與利用。

(25)

1.3 論文架構

第一章 緒論:依序論述本研究之研究背景、動機與目地、論文 架構等內容,並對本論文進行一初步之介紹。

第二章 文獻回顧:針對本研究引用內容所牽涉之前人的相關研 究、內容,作一簡述。

第三章 資料分析系統架構:介紹本研究所使用之 Benford 定律 及資料探勘(Data Mining)之方法,並簡介處理數據時之 步驟、程序。

第四章 案例探討:實際利用淡水河之流量及雨量數據進行統計 分析,並比較其與 Benford 定律間之相關性。也利用資 料探勘之技術,進行流量之預測分析。

第五章 結論與建議:闡述本研究實際分析案例後之結果,並對 後續之相關研究方向提出建議。

(26)

1.4 論文流程

圖 1.1 研究流程圖

Benford 定律與資料探勘在淡水河 流域水文資訊上之應用

文獻回顧

資料探勘 Benford 定律

淡水河流域水文資 料之運用現況

資料分析系統架構

分析方法

淡水河案例探討

結論與建議

(27)

第二章 文獻回顧

2.1 前言

氣候為天氣的統計特性,是大氣圈、水圈、冰雪圈、地圈、以及 生物圈等五大系統交互作用下,呈現在大氣的狀態。過去數十年來,

台灣的自然環境快速惡化,對氣候變化的自然調節能力明顯減弱。氣 候變化對我國所帶來之災害主要為旱災、洪災等,其對於人民之生 命、財產,常造成重大的影響。

陳嘉榮(2000)指出,洪水為國內重要天然災害之一,為減輕此災 害損失,適時的洪水預警有其重要性。台灣之河川多急流且坡度陡,

一般小集水區對雨量之反應快速,往往使集流時間甚為短促。

因此,無論就減災、環境保護、甚至提高國家競爭力而言,提高 我國的氣候預報準確度確實有其必要性。台灣為一多山之島嶼,河流 遍佈整個島內,與人民的生活息息相關。淡水河流域位於台灣北部,

流域內包括台北縣、台北市、基隆市、桃園縣等。並有石門、翡翠水 庫以及其他攔河堰,提供整個北部地區水資源的應用。

本章擬先介紹氣候之定義、形成條件和淡水河流域之地理位置及 地域特性;再說明 Benford 定律的定義、應用及發展;並說明資料探 勘的技術、發展與意義;最後再說明 Benford 定律和資料探勘所需之 條件及假設。

2.2 影響水資源之參數

行政院環境保護署(2006)在溫室氣體資料庫網站中提到,影響水 資源的水文因子包括河川流量、蒸發量、溫度等,而河川流量與降雨 量有最明顯的關係。因此,欲探討氣候變遷對水資源的影響,必須先

(28)

了解氣候變遷對降雨量、河川流量及水文循環等的影響。

2.2.1 氣候的定義

著名氣候學家 Monin 定義氣候為「在長達數十年期間,大氣- 海洋-陸地系統狀態的統計系集(statistical ensemble)」(魏國彥、許晃 雄,2006)。氣候的自然變化為大氣圈、水圈、冰雪圈、岩石圈及生 物圈五大成分間交互作用的結果。大氣圈是整個氣候系統的溫度計,

是氣候變化的表徵。舉凡大氣成分、地形、植被、冰雪覆蓋面的變動,

大氣與海洋的交互作用,大氣、生物圈、陸地之間的交互作用,甚至 雲量的多寡及分布等,都造成大氣環流的變動。這些影響因子存在於 地球本身,而且與大氣的運作發生交互作用。

2.2.2 降雨

陳晉琪(1999)提到,以台灣地區而言,降雨是水份的主要來源。

姜承吾(1996)指出降水(precipitation)為水由大氣降落地面之一段路 程,為水文循環作用之起源。其量之多寡及時間分佈對灌溉、給水、

防洪、水力發電與水資源之開發利用的影響頗深。凡落於地面之水,

不論其為液態或固態,統稱為降水。降水包括雨、雪、霜、露、冰雨 及雹等。其中雨在不同型式之降水中為量最多。

降水起源於大氣中所含之水汽飽和所引致,但降水現象並非僅與 空氣中之水汽含量多寡有關,另有其他因素綜合促成,如氣流、風向、

氣溫、氣壓及流域高程等因子皆是。大氣冷卻為降雨必經之步驟,冷 卻發生之原因可能起因於下列四種方式:

1. 動冷卻(dynamic cooling):大氣由壓力高處移向壓力低處,大氣移 向低處後體積因膨脹而冷卻。

(29)

2. 輻射冷卻:地面於白晝時所接收之熱能,於夜晚時輻射至高空,

因此地面發生冷卻,影響地面上之大氣亦同樣冷卻。

3. 傳導冷卻:帶有水氣之大氣經過低溫之地面,因為熱傳導而使大 氣發生冷卻。

4. 兩氣團發生相混作用時:氣團普通為單獨行動,不易發生混合,

但在氣團上升由動冷卻成為雨時,雨滴由不同溫度穿過冷氣團,

即為氣團混合之一種。在冷熱氣團夾替中,易發生廣大範圍之混 合作用。

2.2.3 降雨觀測

一般觀測雨量所使用之基本單位為毫米(mm),雨量之觀測有以 下幾種方式:

1. 普通雨量計觀測:普通雨量計可分為(1)非自記式雨量計、(2)自記 式雨量計。自記式雨量計又可分為(A)傾倒式、(B)稱重式、(C)浮 筒式等。

2. 雷達降水觀測:雷達原係應用於軍事,近年來亦多有應用於觀測 空中之降雨量。雷達發射電磁波,如遇空中有雲層或是降水核,

將可反射回雷達。返回雷達之能量稱為目標信號(target signal),

其反射量為迴歸功率(returned power),其反應於雷達屏幕上即為 回波(echo),其回波亮度即為回波強度,表示迴歸功率之大小,

可視為水滴之雷達反射率(radar reflectivity)。一般來說,降雨越強 烈,其雷達反射率越大,通常由雷達放射出之放射波至雷達屏幕 上回波出現所需之時間稱為界程(range),可用以量測降水目標與 雷達間之距離。

3. 氣象衛星降雨估測:以人造氣象衛星環繞地球,拍攝天候照片發

(30)

回地球收集站以研判氣象情況。美國曾於 1972、1975 年發射地 球探測衛星 1 號、2 號,每 18 天繞行地球一周,定時拍攝影片,

對全球之資源、軍事、氣象提供許多資料。氣象衛星可估算地球 上廣泛地區之氣象變化趨勢,以推求更長時期之氣象變動情況。

利用人造衛星並不能直接量測降雨,須推求何種雲層種類及數量 與降雨之影響,再利用類型判別(pattern recognition)以推估可能降 雨之大小、強度及延時等。

2.2.4 平均雨量

平均雨量之計算方法有以下五種:

1. 算術平均法(average rainfall) 2. 集扇多邊型法(Thiessen method) 3. 等雨量線法(isohyetal line)

4. 百分數面積法(percent-of-mean method) 5. 平均雨量計算法

2.2.5 流量

姜承吾(1996)指出河川流量為水文之重要記錄。流量為單位時間 內通過某斷面之水容積,以每秒立方公尺(cms)或每秒立方英呎(cfs) 表示,流量難由一次之測取而獲得。流量為流速與斷面之乘積,河川 斷面與流速隨時變動,因此兩項變數須在同一時間測取,方可求得正 確之流量。

流量測定之方法甚多,小流量可直接量容積,或由稱重換算流 量,天然河道適合使用斷面流速法。其他尚有許多測定流量之方法,

說明如下:

(31)

1. 直接量計流量法:用一容器承接水流,記錄經過時間,由容器中 水之容量除以時間,所得即為某時間內之平均流量。

2. 斷面流速測量法:通過某一河渠之流量 Q,根據水力學原理,其 流速 v 與斷面積 A 之乘積即為流量,亦即 Q = vA。

3. 水面坡降面積法:以水面坡降面積法測流量乃根據水力學理論間 接計算流速,再乘以水流面積,而得流量。

4. 水工結構物測流量法:依據渠道中水工結構物之特性,應用合適 理論以計算出流量。

5. 控制斷面測流量法:明渠渠底坡降變化段,如上游坡降平緩而下 游陡峭,以致水流由不等速流變為射流,其間必經過一臨界水深 斷面,此即為控制斷面。河溪中灘險處往往成為天然斷面,可用 來計算流量。其公式如下:

w g A Q

3

(2.1)

式中Q =流量( cms );

G=重力加速度,9.81

m

sec2 A=流水斷面處面積(

m

2);

w=水面寬( m )。

6. 化學溶劑測流量法:溶劑測量法為在河流上端某一處投入化學溶 劑,於下游某適當地點採取水樣,測定該溶化物之含量以推定河 川之總流量。採用之溶劑可分為三類:(1)化學品;(2)染色劑;(3) 放射性同性素。

(32)

2.2.6 逕流

徐義人(2003)指出,流域係由諸多斜面與河川網所構成。其中,

斜面為雨水降落之主要場所。落於斜面與河溪之雨水成為河川水路之 逕流(runoff),最後流至出水口(outlet)。降於流域之雨水,並非全部成 為河川逕流。成為河川逕流之部份中,有的在降雨後以較快速度流入 河道,或在降雨停止後,經長時間後才變為河川流量。

姜承吾(1996)提到,逕流可分為三部份:第一為地表逕流(surface runoff),係流經地表,起初為薄膜流,再來為漫地流,最後集中於溪、

谷、河渠流至流域出口之逕流,地表逕流主要起因於強度大之暴雨。

第二為地表下逕流(subsurface runoff),亦稱伏流,為降水之一部份滲 入地表下土壤內形成側流流入河川,流速雖緩,但於持續之中度降雨 時,地表下逕流量可能較多。第三為地下水逕流(groundwater runoff),

亦稱地下水水流,即入滲之雨水經深層滲漏流入地下水層,形成地下 水之蓄水量。

2.2.7 歷線

蔡光雄(1990)指出,歷線為一連續圖形,可顯示河川流量特性對 時間之關係。由水位對時間關係的連續記錄資料求得的歷線,再應用 率定曲線將其轉變成流量歷線。一條歷線含有下列四個基本分量:(1) 直接地表逕流量;(2)中間流;(3)地水量或基流;(4)渠道降水量。一 條歷線的上升部份,稱為集流曲線,下降部份稱為退水曲線。尖峰附 近之曲線稱為峰段。一條歷線的形狀與降水類型特性,與流域本身的 特性有關。

(33)

2.2.8 降雨與河川流量之基本關係

徐義人(2003)指出,水文模式廣泛的說,係指各種水文現象之模 式,其中以降雨-逕流模式最為重要。利用流域內之雨量推算流域集 流點之流量歷線的過程,稱為降雨-逕流解析,此為水文學上極為重 要之一環。降雨-逕流解析之主要目的如下:

1. 流量衍生:從事河川或水庫興建計劃時,有必要了解河川之流量 資料,但河川之流量記錄往往不足,甚至只有幾年的資料。雨量 資料與流量資料一般較為豐富,因此可利用雨量、流量記錄期間 皆有之資料進行逕流解析,推求適於流域之逕流模式,再將雨量 代入逕流模式,以推估出缺測期間的流量。

2. 洪水預測:水工計劃時,事前若能預測出洪水或低流量(非洪水期 之流量),則有利於行使各種防災對應策略。尤以河川與水庫之流 量預測最為重要,對於防洪之操作更為重要。

3. 流域若干水文特性之探討:流域內所產生之流量歷線的型態,受 流域水文與地文特性影響頗大。因此,流域內一些水文或地文特 性值,可借用降雨-逕流解析加以了解。

蔡光雄(1990)指出,一般對降水與逕流兩方面合在一起討論的研 究,可由降水對逕流的關係圖中得知,只須求得圖中斜線之坡度,即 可將降水變成逕流之百分比估測出。其方程式如下:

Q = P P

b

s

1 (2.2)

式中 s = 斜線坡度(

P Q

),

P

=最大降水量-最小降水量, Q = 最大逕流量-最小逕流量;

P

b=低於 Q 時的基本雨量值;Q 與 P 分別 為逕流量與年降水量。

(34)

2.2.9 水文資訊相關研究

Nigel(1999)曾經利用 Hadley Centre 氣候模擬方案(HadCM1、

HadCM2、HadCM3)所計算出來的結果,來分析氣候改變和水資源間 的變化關係。

蔡松家(2002)指出,利用地理資訊系統軟體 ArcView 為核心,配 合 Microsoft Virtual Basic 程式並結合 GSM(Group Special Mobile)無線 傳輸水位接收系統,藉由即時傳輸之雨量及河川水位觀測資料進行建 模與預測,已可於將軍溪建立一套洪水預警系統。

楊雅梅(2001)曾嘗試將國內水庫集水區已有之傳統指標、永續指 標與生物指標結合,建立一整合性之水庫集水區指標系統。此指標系 統除可反應水源水質且能及時掌握水質狀況做污染防制與預防,更能 反應並維護集水區生態之永續性。

賴承農(2002)以台灣纓口鰍為對象,研究當纓口鰍溯游特性隨水 位差與單寬流量變化條件改變時,推估溯游所須之基流量。

吳偉健(2002)以地理資訊系統為資料處理、分析及展示工具,高 程資料為數值地型模型之研究資料主軸,進行淡水河口海岸陸域區與 海岸海域區之地形特徵的整合分析,並加上沿岸實地採樣作為沉積物 之相關分析的基礎。

李淑惠(2004)以現有潮波分析之理論,對潮波進入河道後,認為 所引起之非線性波之運動效應,為淡水河存在之可能影響因子,故深 入了解感潮河川內潮波的變化規律,進而研究是否可利用線性相加之 調和分析方法,於淡水河內進行潮位預報。

王 安 得 (2004) 以 電 腦 數 值 模 擬 為 基 礎 , 使 用 數 值 模 擬 程 式 NETSTARS,模擬淡水河於各時間序列下各流量之推移載(bed load)、

河床質載(bed material load)等之輸砂量(sediment content),並結合經濟

(35)

部水利署之懸移質實測記錄,推估淡水河口之年輸砂量及淡水河口之 年侵蝕率。

李詩茜(2003)利用模擬演算法及缺水指標等,針對翡翠水庫之操 作規線進行評估,對於乾旱的預防或改善找出一套明確之用水因應方 案。

陳明業(2001)嘗試以永續發展之角度,檢視過去針對淡水河流域 之水資源需求,預測所提出之各項水資源規劃方案,並針對可行性較 高之幾項水資源規劃方案,進行模擬評估,亦考慮氣候變遷對水資源 所可能造成的影響,找出較符合永續發展理念之水資源操作方式。

2.3 淡水河流域

經濟部水利署網站(2006)中提到,淡水河水系(如圖 2.1)位於台灣 北部,大約三萬年前,自桃園入海的大漢溪及基隆入海的基隆河改道 流進台北盆地,匯集形成淡水河流域。

李同立(2006)在大河戀網站指出,淡水河流域其主要支流有大漢 溪、新店溪、基隆河三條支流,匯流成為台北盆地的大動脈。淡水河 為本省第三大河川,幹流長度一五八.七0公里,流域面積廣達二七 二六平方公里,流域內人口在民國八十五年約有六百一十七萬,佔台 灣人口約 30%左右,流域內縣市主要包括台北市、台北縣、基隆市及 部份桃園縣。流域內有淡水河、大漢溪、新店溪、基隆河等河川,及 石門與翡翠水庫和眾多攔河堰,提供流域內各類水資源用途及水域活 動使用。自清初移民拓殖於此地後,淡水河流域便成為台灣最重要之 河川流域,其為供應台北盆地大部份之飲用水源,為台灣北部地區最 重要的一條河川。

(36)

圖 2.1 淡水河流域圖( Lin,2006 )

2.3.1 流域之水文特性

經濟部水利署網站(2006)中提到,淡水河流域之水文特性如下。

氣象:淡水河流域包括台北市、台北縣、基隆市、桃園縣、新竹

(37)

縣等轄區,流域內包括洪泛平原地區、丘陵地區及流域上游之高山地 地區,氣象條件因地而異,流域內之主要氣象站有台北、基隆、淡水、

新竹等站,該等氣象資料可作為流域內之氣象特性的描述。

雨量:淡水河流域為台灣地區最重要之流域,流域內歷經數十年

防洪治理,對流域內之各項水文因子均已有完善之記錄。各項水文因 子資料,可由經濟部水利署水文水資源資料管理供應系統取得。由圖 2.2(經濟部水利署,2006)之雨量統計資料得知,流域內主要降雨集中 在 4-5 月之梅雨季及 7-9 月之颱風雨,流域內之降雨以平地向山區遞 增,且迎風面雨較背風面雨大。

流量:依據流量資料顯示,流量與雨量之分佈有直接之關係,並 顯示出豐枯流量之差異為 67:33(假設 5-10 月為豐水期,11-4 月為枯 水期),此一統計資料可作為流域內水資源運用之參考。

土地使用:淡水河所流經之鄉、市、鎮的土地使用型態大部份均 已都市化,根據台北市及台北縣之土地使用分區面積統計資料顯示,

其面積共有二千三百二十四點三七平方公里,而都市土地佔總面積之 45.5%,其中台北市二百七十一點八平方公里均為都市化土地。由於 近十年來台北市都市化及工業化發展結果,目前台北市可發展空間極 為有限,另台北縣目前土地使用複雜,住商工混合,居住環境品質較 低。近年來台北縣土地發展型態係以發展工業區為最,現今在都市計 劃擴張的影響下,許多尚未發展之土地,已成為台北縣當前主要發展 對象。

社經發展:淡水河流域自先民拓墾迄今,已有數百年歷史,伴隨 著大台北區域的發展,整個流域內之社會、經濟、環境均與時變遷,

淡水河早已今非昔比。

回顧以往淡水河流域內人口成長、經濟發展與社會變遷趨勢,均

(38)

與淡水河有密不可分的關係,早期發展出來的航運功能,曾使得淡水 河流域的艋舺、大稻埕等成為商業匯集之部落,而在廿世紀末的大台 北都會區,也漸漸發展成台灣島內的政治、金融、人文等之中心。以 台北市為例,人口成長率已漸趨緩和,平均人口密度每平方公里約為 2,500 人,而農業區在流域內僅佔 11%強,都在在顯示淡水河流域已 成為一個高度開發的區域。

圖 2.2 「三峽」測站 2003 年平均雨量(經濟部水利署網站,2006)

2.3.2 淡水河流域水庫概況 翡翠水庫:

為了解決大台北地區長期民生用水的問題,於是台北市政府選定 在新店溪支流北勢溪下游興建一座水庫,預計建成後之蓄水量將達四 億六百萬立方公尺,可滿足大台北地區未來五十年的用水需求。翡翠

(39)

水庫於民國 68 年開始興建,民國 76 年 6 月完工。供水區域涵蓋了台 北市以及台北縣三重、新店、永和、中和、淡水、三芝等地區,初期 蓄水量為 406,000,000 立方公尺(表 2.1),已成為台北地區公共給水的 長期水源。

表 2.1 翡翠水庫資訊列表(國立臺灣海洋大學河海工程研究所,2006) 集水區面積 303 平方公里

水庫面積(水位 170 公尺) 10.24 平方公里 最高常水位 標高 170 公尺

初期總容量(水位 170 公尺) 406,000,000 立方公尺 有效容量(淤積 50 年後) 327,000,000 立方公尺 最大可能洪水位 標高 171 公尺

最大可能洪水 10 立方公尺/秒

石門水庫:

石門水庫位於桃園縣境淡水河最大支流大漢溪上,行政區跨大 溪、龍潭、復興三鄉鎮,於民國 45 年 7 月開始興建,民國 56 年 6 月 完工。初期蓄水量為 240,000,000 立方公尺(表 2.2),原建庫之主要目 的為灌溉與防洪,目前以調節供應公共給水之功能為重。

(40)

表 2.2 石門水庫資訊列表(國立臺灣海洋大學河海工程研究所,2006) 集水區面積 763.4 平方公里

水庫面積(水位 245 公尺) 8.00 平方公里 最高常水位 標高 245 公尺

初期總容量(水位 245 公尺) 240,000,000 立方公尺 有效容量(民國 77 年測量) 235,669,000 立方公尺 最大可能洪水位 標高 249.5 公尺

最大可能洪水 114 立方公尺/秒

(41)

2.4 Benford 定律

天文學家 Newcomb 於 1881 年首先發現所謂的「第一位數現象」, 他發現圖書館所收藏的計算用對數表在一開始的幾頁最髒,而這幾頁 的頁碼正是以 1 或 2 開始的數字,愈往後則愈乾淨。其他的書籍也有 此類似的現象,這反映出以 1 或 2 開始的數字出現之機率較為頻繁。

Newcomb 在觀察到這個現象之後,他採取了更進一步的研究,結果 他找出了一個明確的公式,可用以計算出以某個數字開頭的數據出現 之機率。但是 Newcomb 將研究的成果發表後,並未受到當時人們的 注意,直到物理學家 Benford(1938)再次獨立發現這個定律。Benford 以大範圍的數據作測試,發現所有的數據都會與公式所得的結果相符 合,因此這個現象就被稱為「Benford 定律」。Benford 定律與數據間 並無直接之相關性,但可找出 Benford 定律與數據間存在之一種規律 性。

2.4.1 Benford 定律的定義

假設數字 1、2、3、…、9 為 D,根據 Benford 的研究,在一群 自然形成的數字中,第一位數為 D 的出現機率為 P,可由以下公式算 出:

P D 1

1

log

10 (2.3)

上述公式即為 Benford 定律所稱之「第一位數現象」的計算公式。由 公 式 (2.3)可 計 算 出 在一堆自然形成的數字中,以 1 開 頭 的 機 率 是 30.1%, 以 2 開 頭 的 機 率 是 17.6%, 以 3 開 頭 的 機 率 是 12.5%,以 4 開 頭 的 機 率 是 9.7%,以 5 開 頭 的 機 率 是 7.9%,

(42)

以 6 開 頭 的 機 率 是 6.7%, 以 7 開 頭 的 機 率 是 5.8%, 以 8 開 頭 的 機 率 是 5.1%,以 9 開 頭 的 機 率 是 4.6%。其 中 以 數 字 1、

2、3 開 頭 的 機 率 約 佔 60.2%。許 多 自然形成的數字均 具 有 類 似 的 數 字 屬 性 。以 Benford 定律所計算首位數字出現之機率如表 2.3 所示。

表 2.3 Benford 定律所計算出之首位數字出現機率

數字 1 2 3 4 5 6 7 8 9 出現

機率 30.1% 17.6% 12.5% 9.7% 7.9% 6.7% 5.8% 5.1% 4.6%

以 Benford 定律所計算出之首位數字出現機率曲線圖,如圖 2.3 所示:

0 5 10 15 20 25 30 35

1 2 3 4 5 6 7 8 9

首位數字

機率

圖 2.3 Benford 定律所計算首位數字出現之機率曲線圖

Johnson(2005)則指出,Benford 定律並不適用於所有的數據。在 資料的選擇和樣本的考慮上,必須考慮以下幾項因素:

(43)

1、 樣本數量要夠多

2、 樣本數據須為隨機產生 3、 樣本數據須有上下限值 4、 樣本數據須為自然產生

2.4.2 Benford 定律之應用

Benford 定律於 1930 年代被提出,但直到 1994 年經過 Nigrini 之 研究後,才開始應用在審計領域,也逐漸被實務界應用在商業界的資 料分析與管理調查上,並已印證 Benford 定律在審計領域查核上的實 用性。

Benford 定律常應用以檢驗數字之正確性,其在資料管理以及審 計領域上已有不少應用,可據以研判有問題之數字資訊。Benford 定 律在審計領域的應用,是根據第一位數出現的頻率,分析會計資料中 的交易金額的第一(或第二、三、…)位數(digits)出現頻率是否遵循 Benford 定律的頻率。

Johnson(2005)曾經以 Benford 定律檢驗愛爾蘭在生意上帳目因為 詐欺和私吞所發生的錯誤,以減少每年在生意上達 5%的營業額之損 失。

Hans-Andreas 等人(2003)也提到,在一些不同的系統裡發現,符 合 Benford 定律的數據樣本可以是河流長度、市場每日的庫存量、零 售價目、物理常數等等。一些數學級數,像是 Fibonacci 級數或是 prime-number 級數等,也被證實會遵守 Benford 定律。

朱毓仁(2004)指出,Benford 定律雖然能夠檢驗數據,但在使用 上仍是有其先天上的限制,其僅能夠稱作是一個分析程序,可以有效

(44)

的協助審計人員找出非自然的經濟交易,例如可能的錯誤、潛在的舞 弊行為、人為的偏差與無效率或不正常的經濟行為等。但是根據 Benford 定律所完成的分析結果仍須要依賴專業的判斷,才能正確判 斷統計數據中是否確實存在錯誤或舞弊。因此,Benford 定律雖然不 能直接斷定資料的正確性,但由於其能夠協助審計人員有效的找出可 能的錯誤、潛在的舞弊行為、人為的偏差與無效率或不正常的經濟行 為,指導審計人員查核的方向,降低審計的風險,增加審計工作的效 率與效果,故 Benford 定律已被實務界相當推崇與採用。

2.5 資料探勘(Data Mining)技術

陳彥良(2003)提到,現今是一個資訊爆炸的時代,隨著各種組織 機構的全面電腦化,加上網際網路的蓬勃發展,資料的產生及流動皆 快速地成長。如何從這些龐大的資料量中,快速且有效的找出有用的 資訊並加以利用,已成為管理者當前的重要課題。使用者很難從資料 庫中大量的資料找到可以利用的隱含資訊,為挖掘資料間關聯規則的 演算法,故有必要引用資料探勘技術加以研究。關聯規則的挖掘,是 在龐大的資料中,找出不同資料項目間的相關性,以下詳細加以介紹。

2.5.1 資料探勘的發展

自資料庫於 1960 年代發明之後,企業界開始發現使用資料庫之

益處,於是資料庫正式被大量地使用在商業管理、行銷、科學及工程 資料的管理等領域。1980 年代後期,隨著資訊科技計算能力的提升 以及資料蒐集之便利性的增加,企業界已將日常營運中的資料儲放在 資料庫內,如商店條碼的使用、信用卡的消費資料、手機用戶大量增 加所需之資料建檔等。資料庫現已不敷商業所須,企業界更需要具有

(45)

智慧或能自動產生資訊的技術或工具來應付業務上之需求,於是結合 統計、資訊等資料探勘的技術便應運而生。

葉怡成(2005)指出,資料探勘是一門相當新的理論,在 1987 年 以前不曾出現這個名詞,1990 年之前雖然有這一類的期刊論文,但 數量很少。雖然資料探勘這名詞很晚出現,但其發展卻極為迅速。且 很多領域都陸續使用這種技術,其已廣泛的被應用在企業界及科學研 究上。資料探勘興起於 1990 年代,但它的三大支柱:資料庫、統計 方法、人工智慧(機器學期、類神經網路)等早已分別發展茁壯。這些 相關技術的發展如下。

1960 年代 網路式資料模式、通用問題求解器 1970 年代 關聯式資料模式、決策支援系統

1980 年代 高等資料模式、應用導向 DBMS(Database Management System)、專家系統

1990 年代 資料倉儲、多媒體資料庫、機器學習、類神經網路、資 料探勘

2000 年代 高等資料之資料探勘、應用導向資料探勘

資料探勘技術的發展史如表 2.4 所示:

(46)

表 2.4 資料探勘技術的發展史

1989 舉 辦 IJCAI(International Joint Conferences on Artificial Intelligence ) Workshop on Knowledge Discovery in Database。

1991-1994 舉辦 Workshop on Knowledge Discovery in Database。

1995-1998 舉 辦 International Conferences on Knowledge Discovery in Database and Data Mining(KDD ’95-’98)。

1997 創辦 Journal of Data Mining and Knowledge Discovery。

1998 以後 舉辦許多研討會(ACM SIGKDD、PAKDD、PKDD、SAIM-Data Mining、ICDM 等)。

2000 麻省理工學院 2000 年元月號「科技評論(Technology Review)」

預測,未來會改變世界的十大新興科技中,資料探勘名列第四。

2000 國人第一套自行研發資料探勘之演算法及核心技術正式誕生。

2002 第六屆亞太知識發現/資料探勘大會(PAKDD,Pacific-Asia Conf.

on Knowledge Discovery and Data Mining )在台北舉辦。

2.5.2 資料探勘的定義

Clifton 與 Thuraisingham(2001)指出,資料探勘是一選出樣本的過 程,以及從大量引起疑問的資料中預測趨勢(先前未知的)。數十年 來,不同的組織均曾使用統計軟體來進行分析,且使用類神經網路和 人工智慧技術,預測趨勢和選出樣本。近年來,透過資料庫管理系統,

管理大量數據,結合統計、人工智慧和資料庫管理,已發展成為一個 新的領域,叫做資料探勘。

葉怡成(2005)指出,資料探勘在發展的歷史上雖然較短,但自 1990 年代以來,發展的速度很快,因其為一綜合許多學科的產物,

故目前尚未有一完整的定義。目前人們已為資料探勘下了許多種定 義,如以下所示:

在大量資料中,有價值的資訊或知識的蒐尋,稱為資料探勘。

從大型資料庫中,預測知識的自動擷取,稱為資料探勘。

(47)

從大型資料庫的資料中,有興趣的模式或樣式的擷取,稱為資料 探勘。

資料探勘是從資料中,識別有效的、新奇的、有用的、和能理解 的樣式之過程。

資料探勘是一種知識發現過程。

資料探勘是快速的統計學。

2.6 結語

本章係先介紹氣候之定義、形成條件和淡水河流域之地理位置及 地域特性等,再說明 Benford 定律的定義、應用及發展,並介紹資料 探勘的技術、發展與意義等。最後再說明 Benford 定律和資料探勘所 需之條件及假設,以作為後續論文相關章節之研究基礎。

(48)

第三章 資料分析系統架構

3.1 前言

本章節是擬對本研究所使用之 Benford 定律與資料探勘兩項技術 的使用時機和統計分析步驟,作一詳細的說明。本研究統計分析資料 之計算過程主要分為四個階段,說明如下。

第一階段:尋找所須計算之數據資料,並將之匯入 Excel 試算表 中,經計算之後,得到該批數據資料之所有首位數(第一位數)出現之 機率。

第二階段:將得到之該批數據的所有首位數出現之機率,和 Benford 定律之首位數出現機率作相互的比較、分析,以觀察是否符 合 Benford 定律,或是從中探討數據是否對其他方面有所影響。

第三階段:尋找所須計算之數據資料,將之匯入資料探勘軟體 XLMiner 中,並以該軟體進行數據之計算、分析。

第四階段:分析計算所得之數據資料,並進行數據間的相關性和 影響性探討。

3.2 Benford 定律

本節旨在說明如何進行首位數分析。首先自經濟部水利署(2006)

水文水資源資料管理供應系統的資料庫中,取得進行首位數分析所需 的資料,再擷取數據中所有首位數出現之次數,計算出首位數分別為 1、2、3、…、9 的出現機率,並與 Benford 定律所計算出之首位數出 現的機率作比較,據以判斷其與 Benford 定律間之相關性。

(49)

3.2.1 資料的選擇

(1)目的:選擇所需要的資料,進行首位數分析。

(2)執行方式:蒐尋、了解與氣候相關之資料,找出進行數位分析所 需要之資料表,並將資料擷取出來。

(3)範例說明:由經濟部水利署(2006)水文水資源資料管理供應系統網 站,進入水資源資料中找出如圖 3.1 所示之流量資料。進入流量資 料後,由左方之河川流量資料進行進階查詢,譬如可選擇 2005 年 以及第一河川局,如圖 3.2 所示。

蒐尋並隨機選取測站「牛鬥(1)」如圖 3.3 所示。進入「牛鬥(1)」

後,選取 2005 年,可得如圖 3.4 所示之流量測站的站況資料;測站

「牛鬥(1)」之流量統計圖表資料及河川流量測站資料如圖 3.5 所示。

選取河川流量測站資料後,即可得測站「牛鬥(1)」2005 年之每日河 川流量資料,如圖 3.6 所示。河川流量資料等數據,即為所需探討之 首位數出現機率的關鍵數據資料。

圖 3.1 水文水資源資料管理供應系統- 水資源資料 (經濟部水利署,2006)

(50)

圖 3.2 水文水資源資料管理供應系統- 河川流量資料進階查詢(1/2) (經濟部水利署,2006)

圖 3.3 水文水資源資料管理供應系統- 河川流量資料進階查詢(2/2) (經濟部水利署,2006)

(51)

圖 3.4 水文水資源資料管理供應系統-

「牛鬥(1)」流量測站站況資料(經濟部水利署,2006)

圖 3.5 水文水資源資料管理供應系統-

「牛鬥(1)」河川流量測站資料(1/2) (經濟部水利署,2006)

(52)

圖 3.6 水文水資源資料管理供應系統-

「牛鬥(1)」河川流量測站資料(2/2) (經濟部水利署,2006)

3.2.2 第一位數的選擇

(1)目的:取出河流流量資料的首位數(第一位數)。

(2)執行方式:以 Benford 定律進行分析,是以河流流量數據的某一位 數作為分析的目標,可採第一數位、第二數位、或第一、二數位等 分析方式。本研究採用第一數位進行分析,係以河流流量數據的第 一位數作為分析目標。

(3)範例說明:先將河流流量數據取出,並安置於 Excel 表格中,如圖 3.7 所示,因河流流量數據中有部份小於 1,所以需先將所有數據 皆乘以 100,如圖 3.8 所示,以方便後續之相關計算。

接著即可取出每筆數據之第一位數,如圖 3.9 所示。茲以「牛鬥 (1)」河川流量測站 2005 年 1 月 1 日之河流流量數據加以說明。如圖 3.7 所示,該日之流量數據為 0.31,因 0.31 小於 1,所以將之乘以 100,

(53)

成為 31,如圖 3.8 所示,然後即可取出數據 31 之第一位數 3,如圖 3.9 所示。

圖 3.7 2005 年「牛鬥(1)」測站之河流流量原始數據

圖 3.8 將圖 3.7 中之河流流量數據乘以 100 後之結果

(54)

圖 3.9 圖 3.8 中河流流量數據之第一位數

3.2.3 首位數的出現機率統計分析

(1)目的:此步驟是計算河流流量數據中之第一位數實際的出現頻率。

(2)執行方式:Benford 定律是以分析數據中之首位數為主,先計算出 所有數據中之首位數(1、2、3、…、9)出現的次數,然後即可探討 該首數位之實際出現頻率。

(3)範例說明:茲以如表 3.1 所示之測站「牛鬥(1)」2005 年的完整河 川流量數據為例,計算第一位數分別為 1、2、3、…、9 所出現之 頻率。經過計算後,其結果如表 3.2 所示。其中第一位數為 1 出現 之次數為 82 次,2 出現之次數為 58 次,3 出現之次數為 95 次,…,

9 出現之次數為 38 次等。

總計共有 365 筆數據,而第一位數為 1 之出現次數有 82 次,因 此其出現之頻率為 22.5% (82/365);同理,第一位數為 2 出現之次數 有 58 次,所以出現之頻率為 15.9% (58/365)。由以上方法可算出所有 第一位數出現之頻率,第一位數出現之頻率計算結果如表 3.3 所示。

(55)

表 3.1 測站「牛鬥(1)」2005 年之完整河流流量數據

測站

牛鬥(1) 2005 年

月/日 1 2 3 4 5 6 7 8 9 10 11 12

1 0.31 0.28 19.66 4.01 2.98 14.7 1.28 29.56 328.59 198.34 23.79 11.39 2 0.32 0.32 27.29 3.48 3.04 6.45 1.26 32.47 205.84 370.72 22.93 10.92 3 0.33 0.35 46.09 3.47 3.08 5.87 1.24 33.55 168.4 173.8 20.02 10.8 4 0.37 0.36 38.34 3.19 3.09 4.35 1.2 135.97 137.53 137.03 15.13 10.13 5 0.48 0.36 30.77 3.24 3.02 2.98 1.18 304.36 112.65 97 14.61 14.15 6 0.52 0.34 25.64 3.25 3.03 2.91 1.16 168.69 105.19 83.59 14.56 15.12 7 0.58 0.35 17.2 3.29 2.88 3.13 1.17 135.97 100.63 64.02 15.44 10.6 8 0.52 0.34 14.19 3.26 2.96 3.23 1.28 96.28 94.7 91.34 15.66 11.36 9 0.45 0.33 11.69 3.23 2.99 3.29 1.27 51.02 96.07 133.35 14.55 10.39 10 0.45 0.29 8.28 3.2 3.16 3.42 1.19 33.55 96.33 69.04 9.29 9.67 11 0.46 0.27 6.34 3.17 7.35 5.76 1.15 24.33 97.66 50.66 9.15 9.94 12 0.43 0.3 6.09 3.19 8.65 7.9 1.14 23.63 97.82 41.17 9.18 9.87 13 0.48 0.35 8.51 3.05 4.28 14.62 1.13 44.58 96.57 34.74 9.17 9.6 14 0.51 0.38 7.49 3.18 4.13 15.64 1.1 89.72 98.1 31.66 9.07 9.75 15 0.48 0.34 6.91 3.16 4.19 10.65 1.1 72.09 97.97 25.03 9.1 9.83 16 0.47 0.36 3.3 3.1 4.12 11.67 1.11 47.87 97.57 23.92 9.05 9.16 17 0.48 0.34 3.4 3.18 4.05 10.18 86.33 34.96 96.16 24.22 10.17 9.57 18 0.5 0.37 6.65 3.16 4.16 5.85 755.4 29.94 95.9 29.11 21.25 9.36 19 0.49 0.62 3.72 3.13 4.34 4.12 347.47 29.27 96.56 25.91 22.25 9.59 20 0.48 0.55 3.69 3.07 4.27 2.71 125.03 26.69 96.92 25.7 15.24 9.53 21 0.48 0.63 3.79 3.14 4.25 1.84 56.73 24.61 125.77 25.91 20.29 9.68 22 0.46 0.7 3.74 3.13 4.16 1.71 43.14 23.22 305.86 24.5 29.36 8.49 23 0.42 0.66 3.6 3.06 4.12 1.63 42.87 21.17 280.51 21.85 33.46 8.39 24 0.42 0.63 3.53 3.1 4.16 1.56 42.43 25.33 202.69 20.59 27.15 8.38 25 0.41 3.38 3.42 3.21 4.13 1.5 42.55 32.38 203.68 17.42 17.72 8.87 26 0.4 7.48 3.47 3.19 4.24 1.43 59.04 31.51 204.17 10.78 17.93 9.5 27 0.39 14.36 3.48 3.17 4.29 1.39 64.67 28.18 203.68 13.92 18.7 9.58 28 0.38 23.67 3.5 3.16 6.36 1.58 55.28 27.16 202.86 19.98 11.86 9.43 29 0.37 3.55 3.11 20.13 1.36 45.71 24.58 200.48 22.68 11.96 8.99 30 0.35 5.25 3.03 21.32 1.32 38.6 23.25 198.01 25.65 11.99 8.71 31 0.31 12.99 12.72 38.1 111.09 26.72 7.9

(56)

表 3.2 測站「牛鬥(1)」2005 年之第一位數出現次數統計結果 首數位 1 2 3 4 5 6 7 8 9 出現次數 82 58 95 44 15 13 8 12 38

表 3.3 測站「牛鬥(1)」2005 年之第一位數出現頻率統計結果 首位數 1 2 3 4 5 6 7 8 9 出現次數

百分比(%) 22.5 15.9 26.0 12.1 4.1 3.6 2.2 3.3 10.4

3.3 資料探勘(Data Mining)

本節旨在說明本研究如何使用資料探勘技術對水文數據做一分 析。葉怡成(2005)指出,資料探勘可將資料中隱藏的資訊挖掘出來,

幫助使用者從資料庫中擷取出有用的知識,再利用這些知識預測資料 庫裡的實體會產生怎樣的結果。這些過程,是建立在一有系統的資料 庫紀錄中,再經由歸納得到規則,然後透過推演得到結果,因此是屬 於一歸納分析之過程。

3.3.1 資料探勘軟體

目前企業界大部份採用軟體廠商提供之資料探勘系統工具,這些 工具可提供研究人員將各種固定分析模組應用於不同之產業。不同產 業間商品樣式與推廣方式各有不同,商品差異性也大,因此造成研究 人員套用此類分析工具時,常有選擇上之困難。葉怡成(2005)指出,

資料探勘軟體的選擇因素包含:

作業系統:即軟體可在何種作業系統上執行?是否為主從架構?

(57)

需留意其以何種方式整合資料探勘與資料倉儲?

資料型態:需了解資料探勘軟體可處理何種資料?如 ASCII 文字 檔、關聯式資料庫、交易資料、空間資料、時間資料、文字資料、

聲音資料、影像資料、或網路資料等。

探勘方法:

1、 探勘工具的類型:可執行何種探勘工作?如敘述探勘、聚勘探 勘、分類探勘、迴歸探勘、關聯探勘等。

2、 探勘工作的工具:每一種探勘工作可使用何種探勘方法?可執行 何 種視 覺化 資料探 勘工 具? 可執行 何種 資料 探勘語 言 (Data Mining Query Language, DMQL)?

3、 探勘工作的尺度:探勘方法可處理多大尺度的探勘工作?一般而 言,大量的變數比大量的記錄更難處理。

3.3.2 資料探勘軟體種類

資料探勘軟體來源可分為以下幾類:

資料分析工具型:從統計或人工智慧軟體的提供切入資料探勘市 場,如 SAS 公司所開發的 Enterprise Miner、SPSS 公司所開發的 Clementine。

資料庫管理系統型:從資料庫管理系統的提供切入資料探勘市 場,如微軟公司所開發的 SQL Server 2005、IBM 公司所開發的 Intelligent Miner。

企業應用軟體型:從企業應用軟體的提供切入資料探勘市場,如 SAP 公司。SAP 不只專精於 ERP(Enterprise Resource Planning)的 領域,過去幾年來,SAP 加入預測方面的技術,將其架上 ERP 加以發展資料探勘。

(58)

以下將介紹幾種主要之資料探勘軟體:

SPSS 公司的 Clementine 資料探勘軟體:

Clementine 是 SPSS 所開發的一種資料探勘工具,其中結合了多 種資料探勘方法,說明如下:

聚類探勘(segmentation) 分類探勘(classification) 迴歸探勘(prediction) 關聯探勘(association)

Clementine 提供容易使用之視覺化程式環境來執行這些探勘方 法,使用圖形像徵之方法來建構一個資料探勘流程,亦即使用者可利 用滑鼠自模板(pallet)拖拉合適的「節點」到螢幕上,再加以「連結」,

系統即自動形成一流程。這些結點提供了以下之功能。

資料擷取(data access)

資料處理(data manipulation) 資料視化(data visualization) 機器學習(machine learning) 模型分析(model analysis)

SAS 公司的 Enterprise Miner 資料探勘軟體:

Enterprise Miner 是 SAS 所發行之一種資料探勘工具,其具有強 大的資料整合分析能力、資料庫管理以及支援多種作業平台與各式關 聯式資料庫的功能,且透過圖型化使用介面,提供簡單且視覺化的前 端處理環境,讓沒有統計背景的技術人員,也可以簡易之方式進行資 料探勘。

Enterprise Miner 擁有 SAS 統計模組的許多功能,並增加了許多

(59)

的資料探勘演算法,包括決策樹、神經網路等。它的資料探勘流程採 用了 SEMMA(sample,explore,modify,model,assess)的方法論,

內容包括:

資料的取樣(sample data) 資料的探索(explore data) 資料的修改(modify data) 知識的建模(model data) 知識的評價(access data)

微軟公司的 SQL Server 2005 軟體:

微 軟 SQL Server 2005 是 一 完 整 的 商 業 智 慧 (Business Intellegence,BI)平台。除了 SQL Server 2000 已有的聚類、決策樹、

關聯規則外,現在更增加了新的演算法,包括序列聚類、關聯規則、

神經網路、迴歸樹、樸素貝式方類與時間數列。SQL Server 內建資料 探勘的功能,打破資料探勘為大型企業量身訂作的情況,讓中小企業 也可以合理之價格來運用此種技術。

XLMiner:

XLMiner 是一套由 Resampling Stats 公司建構在 Excel 上的資料 探勘軟體,其優點為使用方式簡易,價格便宜,且有試用版可免費下 載供使用者模擬練習。缺點為缺少複雜之功能,如時間序列。XLMiner 為本研究所使用之資料探勘軟體。XLMiner 所包含之功能如下:

資料分割 資料處理 資料視化 聚類探勘

(60)

分類探勘 迴歸探勘 關聯探勘

3.4 結語

本章已對本研究所使用之 Benford 定律與資料探勘兩項技術,作 一詳細之說明。本研究統計分析資料之計算過程主要分為四個階段,

包括:(1)尋找所須計算之數據資料,並將之匯入 Excel 試算表中。(2) 將得到之該批數據的所有首位數出現之機率,和 Benford 定律之首位 數出現機率作相互的比較、分析,以觀察是否符合 Benford 定律。(3) 尋找所須計算之數據資料,將之匯入資料探勘軟體 XLMiner 中,並 以該軟體進行數據之計算、分析。(4)分析計算所得之數據資料,並 進行數據間的相關性和影響性探討。

參考文獻

相關文件

,非地之道,人之所以道也。」(〈儒效〉)因 此,「君子理天地」係指君子於天地間理成「人

以某種特定規則形成之統計邏輯,這些統計邏輯可用於檢測各種不同類型資料 之特徵。在計量學方面以 Bradford 定律及 Zipf 定律影響最為深遠,故本節將針

粒子所具有之初始動量較大,因此,在流場改變時,粒子受到流場的

工作二中若 R4 斷路,則在 R3 與 R4 之間所測得之波形與 B 點所測有 何不同?試簡單說明其原因。.3. 第二章 整流與穩壓電路

域更新的方式反映在各 Slave 的費洛蒙路徑上,也因此 Slave 之間不需要傳輸 大量費洛蒙資訊亦可分享其他 Slave

其模擬實驗結果圖形與動態之結果相似。其中圖 4-14 至圖 4-16 為在不同 MC 節點比例的環境下,比較群播成員比例對群播會議的波長使用量之影 響,由圖

本實驗是為了量測在光源波長 193nm 的條件下,液體折射率的 數值 ; 但由於波長 193nm 的光源不是可見光,因此本實驗先以波長 633nm 的 HeNe laser 當作測試光源,並以 BK7 prism

分別取 105 筆訓練範例與 46 筆測試範例,做為 O.K.與 ANN 兩種方 法之研究與分析,其中「平均值(mm)」該組欄位是以該雨量站從設 立至 2004