第二章 文獻回顧
2.5 定律介紹
2.5.3 Benford 定律
1881 年天文學家 Newcomb 首先發現所謂的「第一位數現象」,Newcomb 發 現圖書館所收藏的計算用對數表紙在一開始的幾頁最髒,因為數學家運用前幾 位數字(1、2、3)做運算的頻率較多,而在這幾頁的頁碼正是以 1 或 2 開始的數 字,越往後則越乾淨;相對的,後幾位數字(7、8、9)被運用的頻率較小。在其 他的書籍上也有發現相同的現象,而這也反映出以 1 或 2 開始的數字之出現頻 率較為頻繁。在觀察到此現象之後,Newcomb 進行了更進一步的研究,因此推 導出一個明確的公式,可用以計算出以某個數字開頭的數據之出現頻率。
Newcomb 將研究成果發表之後,並未受到當時相關學者的注意,直到物理學家 Benford(1938) 重 新 再 次 發 現 第 一 位 數 現 象 , 發 表 了 一 篇 文 章 「 The law of
anomalous numbers」,此一現象方才受到各界重視。Benford 在文章中以大範圍 的數據作測試,如河川面積及各地區的人口等,總共針對 20 種不同類型資料共 計 20,229 筆數據進行統計分析,他發現在這些數據的第一位數出現頻率都會與 公式所計算的結果相同,因此這一現象就被稱之為「Benford 定律」。Benford 定 律與數據間並無直接之關聯性,但可以找出 Benford 定律與數據間存在ㄧ種特殊 之規律性。
假設數字 1、2、3、…、9 為
D
,根據 Benford 的研究,在一群自然形成的 數字中,第一位數為D
的出現頻率為P
,可由下列公式計算出:10
log 1 1
P D
⎛ ⎞
= ⎜ ⎝ + ⎠ ⎟
(2.5)上述公式即為 Benford 定律所說的「第一位數現象」之計算公式。由公式(2.5) 可計算出在一自然形成的數據集合中,第一位數為 1~9 之出現頻率,許多自然 形成的數字均具有類似的數字出現頻率屬性。以 Benford 定律所計算出之第一位 數字的出現頻率如表 2.2 所示,以 Benford 定律所計算出之第一位數出現頻率曲 線圖如圖 2.6 所示。
表 2.2 Benford 定律所計算出之第一位數字出現頻率
數字 1 2 3 4 5 6 7 8 9 出現頻率 30.1% 17.6% 12.5% 9.7% 7.9% 6.7% 5.8% 5.1% 4.6%
0 5 10 15 20 25 30 35
1 2 3 4 5 6 7 8 9
數字
出現頻率(%)
圖 2.6 Benford 定律所計算第一位數出現頻率之曲線圖
本文於研究中亦將進行第一二位數出現頻率之統計分析,根據公式(2.5)亦可 計算出以數字 10 至 99 出現之第一二位數的出現頻率,如表 2.3 所示,並可依據 Benford 定律繪出第一二位數出現頻率之曲線圖,如圖 2.7 所示。
本文擬以平均絕對誤差率(Mean Absolute Percentage Error,
MAPE
)探討統計 分析結果之誤差,若f
i與 分別表第i
個變數之計算值與實際值,n
為統計數量,則平均絕對誤差率
MAPE
是定義為:a
i1
1 n i i
i i
f a MAPE n = a
=
∑
− 。 (2.6)表 2.3 根據 Benford 定律所計算出之第一二位數出現頻率
第一二位數 10 11 12 13 14 15 16 17 18 19 出現頻率(%) 4.14 3.78 3.48 3.22 3.00 2.80 2.63 2.48 2.35 2.23
第一二位數 20 21 22 23 24 25 26 27 28 29 出現頻率(%) 2.12 2.02 1.93 1.85 1.77 1.70 1.64 1.58 1.52 1.47
第一二位數 30 31 32 33 34 35 36 37 38 39 出現頻率(%) 1.42 1.38 1.34 1.30 1.26 1.22 1.19 1.16 1.13 1.10
第一二位數 40 41 42 43 44 45 46 47 48 49 出現頻率(%) 1.07 1.05 1.02 1.00 0.98 0.95 0.93 0.91 0.90 0.88
第一二位數 50 51 52 53 54 55 56 57 58 59 出現頻率(%) 0.86 0.84 0.83 0.81 0.80 0.78 0.77 0.76 0.74 0.73
第一二位數 60 61 62 63 64 65 66 67 68 69 出現頻率(%) 0.72 0.71 0.69 0.68 0.67 0.66 0.65 0.64 0.63 0.62
第一二位數 70 71 72 73 74 75 76 77 78 79 出現頻率(%) 0.62 0.61 0.60 0.59 0.58 0.58 0.57 0.56 0.55 0.55
第一二位數 80 81 82 83 84 85 86 87 88 89 出現頻率(%) 0.54 0.53 0.53 0.52 0.51 0.51 0.50 0.50 0.49 0.49
第一二位數 90 91 92 93 94 95 96 97 98 99 出現頻率(%) 0.48 0.47 0.47 0.46 0.46 0.45 0.45 0.45 0.44 0.44
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
數字
出現頻率(%)
圖 2.7 根據 Benford 定律所計算第一二位數出現頻率之曲線圖
Johnson(2005)指出,Benford 定律並不適用於所有的數據。在資料的選擇和 樣本的考慮上,必須考慮以下幾項因素:
1. 樣本數量要夠多
2. 樣本數據不能以類似彩卷號碼的方式隨機產生 3. 樣本數據不能被限制於某一上下限值中
4. 樣本數據須為自然產生