• 沒有找到結果。

Benford 定律

在文檔中 中 華 大 學 (頁 44-49)

第二章 文獻回顧

2.5 定律介紹

2.5.3 Benford 定律

1881 年天文學家 Newcomb 首先發現所謂的「第一位數現象」,Newcomb 發 現圖書館所收藏的計算用對數表紙在一開始的幾頁最髒,因為數學家運用前幾 位數字(1、2、3)做運算的頻率較多,而在這幾頁的頁碼正是以 1 或 2 開始的數 字,越往後則越乾淨;相對的,後幾位數字(7、8、9)被運用的頻率較小。在其 他的書籍上也有發現相同的現象,而這也反映出以 1 或 2 開始的數字之出現頻 率較為頻繁。在觀察到此現象之後,Newcomb 進行了更進一步的研究,因此推 導出一個明確的公式,可用以計算出以某個數字開頭的數據之出現頻率。

Newcomb 將研究成果發表之後,並未受到當時相關學者的注意,直到物理學家 Benford(1938) 重 新 再 次 發 現 第 一 位 數 現 象 , 發 表 了 一 篇 文 章 「 The law of

anomalous numbers」,此一現象方才受到各界重視。Benford 在文章中以大範圍 的數據作測試,如河川面積及各地區的人口等,總共針對 20 種不同類型資料共 計 20,229 筆數據進行統計分析,他發現在這些數據的第一位數出現頻率都會與 公式所計算的結果相同,因此這一現象就被稱之為「Benford 定律」。Benford 定 律與數據間並無直接之關聯性,但可以找出 Benford 定律與數據間存在ㄧ種特殊 之規律性。

假設數字 1、2、3、…、9 為

D

,根據 Benford 的研究,在一群自然形成的 數字中,第一位數為

D

的出現頻率為

P

,可由下列公式計算出:

10

log 1 1

P D

⎛ ⎞

= ⎜ ⎝ + ⎠ ⎟

(2.5)

上述公式即為 Benford 定律所說的「第一位數現象」之計算公式。由公式(2.5) 可計算出在一自然形成的數據集合中,第一位數為 1~9 之出現頻率,許多自然 形成的數字均具有類似的數字出現頻率屬性。以 Benford 定律所計算出之第一位 數字的出現頻率如表 2.2 所示,以 Benford 定律所計算出之第一位數出現頻率曲 線圖如圖 2.6 所示。

表 2.2 Benford 定律所計算出之第一位數字出現頻率

數字 1 2 3 4 5 6 7 8 9 出現頻率 30.1% 17.6% 12.5% 9.7% 7.9% 6.7% 5.8% 5.1% 4.6%

0 5 10 15 20 25 30 35

1 2 3 4 5 6 7 8 9

數字

出現頻率(%)

圖 2.6 Benford 定律所計算第一位數出現頻率之曲線圖

本文於研究中亦將進行第一二位數出現頻率之統計分析,根據公式(2.5)亦可 計算出以數字 10 至 99 出現之第一二位數的出現頻率,如表 2.3 所示,並可依據 Benford 定律繪出第一二位數出現頻率之曲線圖,如圖 2.7 所示。

本文擬以平均絕對誤差率(Mean Absolute Percentage Error,

MAPE

)探討統計 分析結果之誤差,若

f

i與 分別表第

i

個變數之計算值與實際值,

n

為統計數量,

則平均絕對誤差率

MAPE

是定義為:

a

i

1

1 n i i

i i

f a MAPE n = a

=

− 。 (2.6)

表 2.3 根據 Benford 定律所計算出之第一二位數出現頻率

第一二位數 10 11 12 13 14 15 16 17 18 19 出現頻率(%) 4.14 3.78 3.48 3.22 3.00 2.80 2.63 2.48 2.35 2.23

第一二位數 20 21 22 23 24 25 26 27 28 29 出現頻率(%) 2.12 2.02 1.93 1.85 1.77 1.70 1.64 1.58 1.52 1.47

第一二位數 30 31 32 33 34 35 36 37 38 39 出現頻率(%) 1.42 1.38 1.34 1.30 1.26 1.22 1.19 1.16 1.13 1.10

第一二位數 40 41 42 43 44 45 46 47 48 49 出現頻率(%) 1.07 1.05 1.02 1.00 0.98 0.95 0.93 0.91 0.90 0.88

第一二位數 50 51 52 53 54 55 56 57 58 59 出現頻率(%) 0.86 0.84 0.83 0.81 0.80 0.78 0.77 0.76 0.74 0.73

第一二位數 60 61 62 63 64 65 66 67 68 69 出現頻率(%) 0.72 0.71 0.69 0.68 0.67 0.66 0.65 0.64 0.63 0.62

第一二位數 70 71 72 73 74 75 76 77 78 79 出現頻率(%) 0.62 0.61 0.60 0.59 0.58 0.58 0.57 0.56 0.55 0.55

第一二位數 80 81 82 83 84 85 86 87 88 89 出現頻率(%) 0.54 0.53 0.53 0.52 0.51 0.51 0.50 0.50 0.49 0.49

第一二位數 90 91 92 93 94 95 96 97 98 99 出現頻率(%) 0.48 0.47 0.47 0.46 0.46 0.45 0.45 0.45 0.44 0.44

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95

數字

出現頻率(%)

圖 2.7 根據 Benford 定律所計算第一二位數出現頻率之曲線圖

Johnson(2005)指出,Benford 定律並不適用於所有的數據。在資料的選擇和 樣本的考慮上,必須考慮以下幾項因素:

1. 樣本數量要夠多

2. 樣本數據不能以類似彩卷號碼的方式隨機產生 3. 樣本數據不能被限制於某一上下限值中

4. 樣本數據須為自然產生

在文檔中 中 華 大 學 (頁 44-49)

相關文件