• 沒有找到結果。

誤差論與最小平方法

N/A
N/A
Protected

Academic year: 2022

Share "誤差論與最小平方法"

Copied!
11
0
0

加載中.... (立即查看全文)

全文

(1)

誤差 論與最小平方法

蔡聰明

科學有實驗的一面, 也有理論的一面, 分 別反應科學知識具有 「感官經驗」 與 「邏輯論 證」 之內涵, 兩者不可或缺。

實驗這一面離不開觀測度量, 觀測度量 就得到一些數據 (data), 數據免不了就會有 誤差 (errors)。 數據是我們叩問自然所得到 的回音, 回音伴有 「雜訊」(noise), 導致誤差。

雜訊包括有人為的與隨機的兩個因素, 前者 如儀器不精、 度量技術不佳等等, 後者如溫 度變化、 一陣風吹、 重力變化等等。 它們所產 生的誤差分別叫做系統性誤差 (Systematic error) 與隨機性誤差 (random error); 前者 可以改進, 後者只能任其自然 。 因此, 誤差 恆在 ! 誤差論就是研究隨機誤差之機率理論。

物理學家 M.Born 說 [1]:

機率概念在科學活動的第一步就 滲進來, 因為沒有觀測是絕對精 確的。 我認為機率概念比因果關係 更基本, 理由是因果關係的成立與 否, 只能運用機率法則於觀測上才 能判斷。

Gauss(1777-1855) 為了利用天文觀測數據 來決定行星運行的軌道, 發展出最小平方法 (the least square method) 及誤差論。

自然現象的背後有規律, 泛稱為自然律。

令人驚奇的是, 誤差居然也有規律可循, 叫做 誤差律 (the law of errors)。 誤差律是什麼 呢? 它是如何追尋出來的? 這些是本文所要 探討的問題。

誤差律的追尋是展示數學探索過程的一 個絕佳範例, 它將機率、 統計學與科學方法論 揉合起來, 在機率論與統計學的發展史上佔 有核心的地位。

一、 平均律之謎

我們經常在使用平均律 (the law of av- erages) 的常識性法則, 有時甚至 「不知亦能 行」。 因此, 它又稱為 「木匠法則」 或 「黃金法 則」 (the Golden rule)。 讓我們觀察一些例 子。

在記述統計學 (Descriptive statistics) 中, 算術平均 (簡稱為平均) 是最常用來表 現母群體 (population) 的代表值。 例如, 考 試過後, 除了關心自己考幾分之外, 一般總是 還要問全班平均得幾分。 換言之, 若全班成績 為 x

1

, x

2

, . . . , x

n

, 那麼就用算術平均 x¯ =

1 n

P n k=1

x

k

一個數字來代表全班的概況。

在機率論中,「丟一個公正銅板出現正面 的機率為

1

2

」 的意思是指: 獨立地重複丟此

3

(2)

銅板, 得到一個隨機序列 ξ

1

, ξ

2

, ξ

3

, . . .(取值 0 或 1), 那麼平均值

1 n P n

k=1

ξ

k

會越來越 「接 近」 於

1

2

(當 n → ∞ ), 這叫大數法則。

假設某物理量的真值為 θ, 這是一個未 知數, 我們要用度量來估計它。 由於誤差不可 避免, 故只度量一次並不保險, 直覺常識告訴 我們要多度量幾次, 得到 θ

1

, θ

2

, . . . , θ

n

, 再 取其算術平均 ¯θ =

1 n P n

k=1

θ

k

來當作 θ 的估 計, 這樣會比較可靠。

在統計學課堂上, 有人作過一個實驗:

老師在黑板上劃一線段, 然後要求每位同學 用眼睛估計其長度, 從 53公分到 84公分都大 有人在。 老師將全班作平均得到 61

1 8

公分, 而實際度量的結果是 61

1 4

公分, 因此平均的 估計相當好。 這是平均的妙用, 所謂 「三個臭 皮匠勝過諸葛亮」(Several heads are better than one.)

遍歷論 (ergodic theory) 裡, 談物理 量對空間的平均以及對時間的長期平均。 機 率論裡的期望值更是一種平均值。 音樂的樂 理也有十二平均律。

在日常生活中, 我們時常遇到 「平均」。

例如: 國民的平均所得; 追求一個均富的社 會,「不患貧而患不均」, 等等, 好像 「平均」 是 一個美麗的理想遠景,「平均」 就是天堂!但不 要忘了, 熱力學的均溫狀態是一個大家都 「熱 死」(heat death) 的死寂世界。

我們要提防 「平均」 的誤用。 有一個笑 話說: 有兩桶水, 溫度分別是 80

o

C 與 10

o

C, 你將左、 右手各放入一桶水之中, 你可以感受 到平均 45

o

C 之溫度, 舒服極了。 另外, 我們 偶而也可以聽到政客誇口說:「 我要每一個人 的所得皆超過國民的平均所得。」

為什麼算術平均這麼有用? 平均 的魅力十足, 其道理何在?

為了揭開平均律之謎, 解讀其背後的意義與 道理, 發展出了許多的數學。 例如, 利用平均 律追究機率意義, 我們發現了大數法則與中 央極限定理, 奠下數學機率論的發展, 參見 [5]。

本文我們要追究平均律對誤差現象的意 義, 這導致誤差律以及一些重要的統計概念 與方法的誕生。

二、 三合一又三合一

由於追尋 「平均律」 背後的意義, 數學 家展開了誤差論的研究, 這是十九世紀初的 成就。 為了敘述方便, 我們先介紹較現代的機 率論術語。

隨機現象的機率模型是機率空間 (Ω, F, P )。 它是由樣本空間 (Sample space) Ω, 事件全體所成的 σ 代數 (σ -algebra) 以及 機率測度 (porbability measure) P , 三者 所組成的三合一體。 進一步, 機率空間, 隨機 變數 (random variable) X 以及機率分佈 µ= P ◦ X

−1

又是一個三合一體 (trinity), 圖解如下:

(Ω, F, P )

X µ = P ◦ X −1

...

(R, B)

... .. . .. . .. .. .. . ..

整個合起來, 我們簡稱為機率論的 「三合一又 三合一」 之理論架構。 這是經過長期的試誤 (trial and error)、 演化, 在 1933 年由俄國 偉大數學家 Kolmogorov(1903-1987) 年提 出來的。 欲進入隨機現象的領域作研究, 這是 必經的 「方便之門」。

(3)

在上述中: B 是實數軸

R

的Borel 體 (Borel field), 即由開集所生成的最小 σ 代 數; 隨機變數 X : Ω →

R

就是一個 可測映射(measurable mapping), 即滿足 X

−1

(B) ∈ F, ∀B ∈ B; µ 定義為 µ(B) = P(X

−1

(B)), ∀B ∈ B, 叫做 X 的機率分佈 (probability distribution)。

(Ω, F, P) 是所有機率演算 (Calculus of probabilities) 之地基。 就研究隨機變數 X 而言, 機率分佈 µ 已含有所有的機率資訊。

µ 是集函數(set function)。 當 X 的值域為

R

的情形, 改用較容易掌握的點函數(point function) 往往很方便: 定義 F 為

F(x) = P (−∞ < X ≤ x) (1) 則 F 滿足

(i) F 為一個遞增函數;

(ii) F (−∞) = 0, F (+∞) = 1

(iii) 對每一點 x ∈

R

, F 右連續且左極限存 在。

我們稱 F 為 X 的累積分佈函數, 簡稱為分 佈函數 (distribution function )。 進一步, 如果 µ 相對於 Lebesgue 測度是絕對連續 (absolutely continuous), 那麼由微積分根 本定理 (Radon-Nikodym 定理) 知, 存在 一個點函數 p :

R

R

滿足:

(i) p(x) ≥ 0, ∀x ∈

R

; (ii)

R −∞

p(x)dx = 1;

(iii) µ(B) =

R B

p(x)dx, ∀B ∈ B, 特別地 F(x) =

R −∞ x

p(u)du。

我們稱 p 為 X 的機率密度函數 (probabil- ity density function, p.d.f.)。 這些都是作 機率演算時, 必備的工具。

三、 誤差律的追尋

假設有個物理量的真值是 θ (未知數), 我們對它度量 n 次得到 θ

1

, θ

2

, . . ., θ

n

, 於 是誤差 (error) 為

θ

1

− θ, θ

2

− θ, . . . , θ

n

− θ (2) 在理論上, 由於 θ 是未知數, 故 (2) 式中的 數都是未知的, 只有 θ

1

r

,. . .,θ

n

是已知的。

自古以來, 按直覺常識 (良知良能) 都採 用

θ¯= 1 n

n

X

k=1

θ

k

(3) 來估計 θ, 即所謂的平均律法則。 這樣做有什 麼道理呢?

面對觀測 (抽樣) 數據 θ

1

, θ

2

, . . . , θ

n

, 統計學要做的工作是: 先作記述統計的處理, 對數據作整理、 歸類並且作統計圖表; 其次把 數據精煉成一些代表值; 最後解讀數據背後 的意義, 這是推理統計學的核心工作, 需要透 過機率模型來完成。

算術平均只是代表值的一種, 我們還可 以有幾何平均、 調和平均、 加權平均、 中位 數、 眾數, . . ., 等等。 在諸代表值中, 我們獨 鍾於算術平均, 初步的理由是它具有下列兩 個優點:

定理 1:

(i) 使總偏差

f(θ) =

n

X

k=1

k

− θ)

等於 0 的點是算術平均 ¯θ 。

(4)

(ii) 使總平方偏差 g(θ) =

n

X

k=1

k

− θ)

2

取最小值的點, 也是算術平均 ¯θ 。 這兩個理由只是普通常識而已。 更深刻 的理由是 Gauss 提出來的:

算術平均 ¯θ 是最佳可能值 (the most probable value)。

什麼是 「最佳」 呢? 在數學中, 這當然 需要作明確的定義。 也許我們可以先用一個 類比來幫助了解:Leibniz 由我們生活所在的 這個世界, 思及所有可能的世界, 然後再用哲 學來論證, 這個世界是所有可能世界中最佳 的世界, (the best of all possible worlds)。

因此,Leibniz 被 Voltaire (伏爾泰) 諷刺為

「所有可能世界中的最佳先生」(Mr. the best of all possibe worlds.) 這給我們很大的啟 示: 機率論的思考方式恰好是由眼見的現實 (realization) ω, 思及所有可能結果 Ω , 並 且 ω 只是 Ω 中的一個元素。 由於對物理量 θ 的觀測度量可得到各種不同的值, 這促使我 們從 「現實」 提昇到 「所有可能」, 把 「觀測度 量」 想像成一個隨機變數Θ, 定義在某個機率 空間上面 (這一步的飛躍是關鍵):

(Ω, F, P )

Θ

... . .. . .. . .. .. .. ..

.

...

θ

...

k

...

R

.

θ

.. .. .. . .. . . .. . .. .. . .. . . .. . .. .. . .. . . .. . .. .. . .. . . .. . .. .. . .. . . .. . .. .. . .. . .

或等價地, 考慮平移, 令 X = Θ − θ, 這就 是誤差的隨機變數, 它的 n 次觀測值為

x

1

= θ

1

−θ, x

2

= θ

2

−θ, . . . , x

n

= θ

n

−θ

(Ω, F, P ) X

... . .. . .. . .. .. .. . .

...x...

k

...

R

0

.. .. . .. . .. .. .. .. . .. . .. .. .. .. . .. . .. .. .. .. . .. . .. .. .. .. . .. . .. .. .. .. . .. . .. ..

因此, 我們得到 「三合一又三合一」 之機率模 型。 但是萬事俱備只欠機率分佈, 這是我們所 要追尋的。

明確地說, 我們要找出誤差隨機變數 X 的機率密度函數 p(x) 。 當然 p(x) 不會憑空 掉下來。 對於 p(x) 我們已知什麼? 可以假設 什麼?

由於 p(x) 是機率密度函數, 天然地滿 足:

(i) p(x) ≥ 0, ∀x ∈

R

; (4) (ii)

R −∞

p(x)dx = 1 。

再加上對誤差的直觀了解, 我們可以合理地 假設:

(iii) p 為一個二階連續可微分函數 (平滑 性);

(iv) p(x) = p(−x), 即對稱原點 (對稱性);

(v) lim

x→±∞

p(x) = 0(漸近性)。

· · · ·(5) 這些性質還是不能唯一決定 p(x), 至少正規 分佈 y =

1

e

−x

2

/2

與 Cauchy 分佈 y =

1 π

1

1+x

2 都滿足上述五個條件。

真正捕捉到 p(x) 的是 Gauss, 他的手 法如下:

對於隨機變數 Θ 作 n 次獨立的觀測, 得到 n 個 「現實」 θ

1

, θ

2

, . . . , θ

n

。 從而, 在 理論上我們就得到 X 的 n 個觀測值

x

1

= θ

1

−θ,x

2

= θ

2

−θ, . . . ,x

n

= θ

n

−θ (6) 由 「現實」 提昇到 「所有可能」,(6) 式是 n 次 獨立觀測:

X

1

,X

2

, . . . ,X

n

(5)

所實現出來的 「現實」:

X

1

= x

1

,X

2

= x

2

, . . . ,X

n

= x

n

(7) 其中 X

1

, X

2

, . . . , X

n

是 X 的 n 個抄本 (copies), 它們互相獨立並且每一個都跟 X 具有相同的機率分佈 (i.i.d.)。

在此理論架構下,Gauss 提出一個深具 洞察力的基本假設:

算術平均 ¯θ =

1 n P n

k=1

θ

k

是未知數 θ 的 最佳可能值。 這個假設的精確意思如下:

在相同條件下, 對 X 作 n 次獨立的觀 測得到 (7) 式, 其聯合機率密度函數為

L(θ; θ

1

, θ

2

,. . ., θ

n

)

= p(x

1

)p(x

2

)· · ·p(x

n

)

= p(θ

1

− θ)p(θ

2

− θ) · · · p(θ

n

− θ) (8) 這叫做似然函數 (Likelikood function)。

Gauss 的想法是: 既然 (7) 式之事件已發 生, 理應找 θ 使得 (8) 式取最大值。 那麼上 述 Gauss 的基本假設就是說:

θ = ¯θ為(8) 式的最大點 (9) 註: 後來統計學家 R. A. Fisher (1890- 1962 年, 現代統計學的創立者之一) 所提出 的最大似然法 (the maximum likelihood method), 其實是起源於 Gauss 的這個想 法。

Gauss 在 1809 年由 (9) 式之假設, 推 導出 p(x) 必為正規分佈 (由 θ = ¯θ 之最佳 果反推出因), 如下:

由 (9) 式知 d

dθL(θ; θ

1

n

)

θ=¯ θ

= 0

或者, 更方便地, d

dθln L(θ; θ

1

, . . . , θ

n

)

θ=θ

= 0 亦即

X

i

p

i

− ¯θ)

p(θ

i

− ¯θ) = 0 (10) 其中 p

(x) 表示 p(x) 的微分。 換言之, p(x) 滿足微分方程 (10), 如何求解呢?

這需要運用一點兒技巧。 令 u

i

= θ

i

− ¯θ 且 ϕ(u) = ln p(u), 則 (10) 式變成

X

i

ϕ

(u

i

) = 0 (11) 顯然有

X

i

u

i

= 0 (12) 我們要找 ϕ

使其對所有滿足 (12) 式之 u

1

, u

2

, . . .,u

n

, 都使 (11) 式成立, 這是一個函數 方程 (functional equation) 的問題, 仍然不 容易求解。

如果能夠求出 ϕ

(x), 就可求出 ϕ(x), 從而求出 p(x)。 為此, 我們來推導 ϕ(x) 所 應滿足的微分方程, 然後求解之。

在 (12) 式中, 想像 u

3

, u

4

, . . . , u

n

皆 固定, 只讓 u

1

與 u

2

變動, 但保持 (12) 式成 立。 變動的兩個數可令其為 u

1

+ ε 與 u

2

−ε, 其中 ε 為任意實數; 代入 (11) 式得到 ϕ

(u

1

+ ε) + ϕ

(u

2

− ε) = ϕ

(u

1

) + ϕ

(u

2

) 於是

1

ε(ϕ

(u

1

+ε)−ϕ

(u

1

))=1

ε(ϕ

(u

2

)−ϕ

(u

2

−ε)) 令 ε → 0, 得到

d

duϕ

(u)

u

1 = d

duϕ

(u)

u

2

(6)

因為 u

1

與 u

2

是獨立變動的, 故得

ϕ

′′

(u) = c,(常數) (13) 這就是 ϕ 所滿足的微分方程。

解 (13) 式得

ϕ

(u) = c · u + c

1

其中 c

1

為常數。 由 (11) 式知, c

1

= 0 。 於是

ϕ

(u) = c · u (14) 積分之, 得到

ϕ(u) = 1

2c· u

2

+ c

2

(15) 其中 c

2

為常數。 由 ϕ(u) = ln p(u) 得

p(u) = exp(1

2c· u

2

+ c

2

) = ke12

c·u

2 (16) 今因 |u| → ∞ 時, p(u) ↓ 0, 故 c 必是負 數, 令其為 −α

2

, 亦即

p(u) = ke

12

α

2

u

2,(α > 0)

再由

R −∞

p(u)du = 1, 得到 K =

α

。 從 而

p(x) = α

√2πe

α2 x2

2 (17)

通常寫成下形:

p(x) = 1

√2πσe

x2

2σ2 (18)

其中 σ =

α 1

。 這樣就得到世界上最重要的

「正規分佈」, 又叫做 「誤差曲線」。

因此, 誤差隨機變數 X 具有正規分佈 (又叫常態分佈), 期望值 E(X) = 0, 變異 數 E[(X − E(X))

2

] = σ

2

, 記成 X ∼

N(0, σ

2

) 。 從而, 度量 θ 之隨機變數 Θ = X+ θ 遵循正規分佈 N(θ, σ

2

) 亦即 Θ 的機 率密度函數為

q(x) = 1

√2πσe−(

x−θ)2

2σ2 (19)

記成 Θ ∼ N(θ, σ

2

) 。 容易驗知, 期望值 E(Θ) = θ, 變異數 Var (Θ) = E(Θ−θ)

2

= σ

2

定理 2: (Gauss 誤差律, 1809年) 設物理量的真值為 θ (未知參數), 度量 θ 之隨機變數為Θ, 誤差隨機變數 X = Θ − θ 的機率密度函數 p(x; θ) 滿足 (5) 式。 對 Θ 作 n 次獨立觀測得 Θ

1

= θ

1

, Θ

2

= θ

2

, . . ., Θ

n

= θ

n

。 如果平均值 ¯θ =

1 n P n

k=1

θ

k

為 θ 之最佳可能值, 即 ¯θ 為似然函數 L(θ; θ

1

, . . ., θ

n

= p(θ

1

; θ) · · · p(θ

n

; θ) 之最大點, 則 p(x; θ) 依從正規分佈 N(0, σ

2

), 某 σ > 0 。 從而 Θ ∼ N(θ, σ

2

)。

所謂 「誤差律」 就是指誤差的隨機變數 X 或度量 θ 之隨機變數Θ 遵循正規分佈的 機率法則。

定義: 如果一個隨機變數 Y 的機率密度 函數為 (19) 式, 那麼我們就說 Y 依從 (或具 有) 正規分佈 N(θ, σ

2

) 。 特別地, 當 θ = 0, σ

2

= 1 時, 叫做標準正規分佈。

「正規分佈」(normal distribution) 名 稱的由來是這樣的: 因為 Laplace 是法國人, 故在法國叫做 Laplace 分佈; 而 Gauss 是德 國人, 故在德國叫做 Gauss 分佈。 事實上, 應 該叫做 De Moivre 分佈才對。 後來法國偉大 數學家 Poincar´e(1854-1912) 建議改用 「正 規分佈」 之中立名詞, 他還補充說:

(7)

正規分佈律很神秘, 物理學家相信 它, 理由是因為他們相信數學家已 證明了它的邏輯必然性; 而數學家 相信它, 是因為他們相信物理學家 在實驗室裡已驗證過它。

因為 Gauss 的名氣太大, 目前數學界通行的 用語是 「正規分佈」 與 「Gauss 分佈」, 兩者 並用。

另一方面, 定理 2之逆也成立。

定理 3: 假設隨機變數 Θ 遵循正規分佈 N(θ, σ

2

), 其中 θ 為未知參數; 對 Θ 作 n 次 獨立觀測得 Θ

1

= θ

1

, . . ., Θ

n

= θ

n

。 那麼 θ 之最佳可能值為 ¯θ =

n 1 P n

k=1

θ

k

, 即 ¯θ 為似 然函數 L(θ; θ

1

, . . . , θ

n

) 之最大點。

證明: 似然函數為

L(θ; θ

1

,. . .,θ

n

)=( 1

√2πσ)

n

e

1 2σ2

n

P

i=1

i

−θ)

2

(20) 對 θ 求此函數的最大值: 由

d

dθln L(θ; θ

1

2

, . . . ,θ

n

) = 0 得到

θ= ¯θ = 1 n

n

X

i=1

θ

i

(21) 進一步, 利用二階微分可以驗證, ¯θ 確實是 L 的最大點。 換言之, 算術平均 ¯θ 為 θ 之最佳 可能值。 證畢。

註: 其它機率分佈不見得具有這個性質。

定義: 使似然函數 L(θ; θ

1

, . . . , θ

n

) 取 最大值的點ˆθ = ˆθ(θ

1

, . . . , θ

n

) 叫做θ 的

最大似然推估值 (the maximum likeli- hood estimate)。 提昇到 「所有可能」, ˆΘ = θ(Θˆ

1

2

, . . . ,Θ

n

) 叫做 θ 的最大似然推估 子 (the maximum likelihood estimator)。

問題: 如定理 3 之假設, 求 σ 之最大似 然推估子。

上述定理 2 與定理 3 合起來構成正規分 佈的一種刻劃。 在文獻上, 我們還可以看到其 他各式各樣的刻劃。

對於誤差律的推導, 我們也可直觀地來 看: 因為誤差隨機變數 X 可以看作是無窮 多個獨立的微小基本誤差之代數和; 這些基 本誤差都相同, 並且取值正、 負之機會均等, 有如公正銅板; 所以由 De Moivre-Laplace 的中央極限定理知道 X 遵循正規分佈。

例子: (捉、 放、 捉) 如何估計池塘中魚 的尾數 N ?

我們先捉 N

a

條活魚上來, 作記號, 放回 池中。過些時再任意捉 n 條魚, 其中有 n

a

條 是有記號的。 根據這些數據我們可以估計 N 的值。

(i) 按比例的想法:

N : N

a +

n : n

a

所以

N

+

n n

a

· N

a

(ii) 根據大數法則的想法:

設隨機變數 Y 表示第二度捉魚, 每捉出 一條觀察的結果:

Y =

1, 若有記號, 機率為

N N

a 0, 若無記號, 機率為 1 −

N N

a

(8)

對 Y 作 n 之獨立觀測 (抽樣) 得到 Y

1

,Y

2

,. . .,Y

n

, 它們獨立且同佈 (i.i.d.) 於是 S

n

= Y

1

+ · · · +Y

n

表示第二度捉 n 條魚 中, 有記號的魚數。 由大數法則知

S n

n 收歛到 E(Y ) =

N N

a, 而

n n

a

S

n

n

的一個實現值, 故

n

a

n + N

a

N

, 從而 N

+ n n

a · N

a

。 (iii) 最大似然的想法

P(S

n

= n

a

) =

n

C

n

a(N

a

N )

n

a(1 − N

a

N )

n−n

a

表示第二度捉 n 條魚中, 出現 n

a

條有記 號之機率。 這是未知參數 N 的函數, 令其為 L(N) 。 事實上, L(N) 是第二度捉魚的似然 函數。 今求 L(N) 之最大點, 令 L

(N) = 0, 解得

N = n n

a

· N

a

這是 N 的最大似然推估值。

例如, 在下圖中, 我們得到的數據為

N

a

= 100, n = 120, n

a

= 8,

所以

N

+

n

n

a

N

a

= 1500。

100 條

作記號

120 條中 8 條有記號

四、 最小平方法及其機率意義

統計學史家 Stigler 在他的 「統計學史」

一書 [2]中, 開宗明義就說:

最小平方法是十九世紀統計學的 主題曲。 從許多方面來看, 它之於 統計學就相當於十八世紀的微積 分之於數學。

假設對一個現象或母群體的兩個變量 x 與 y 觀測 n 次, 得到數據

x x

1

, x

2

, · · · , x

n

y y

1

, y

2

, · · · , y

n

(22) 我們要找一個函數y = f (x) 來適配 (fits) (22) 之數據。 最常見且有用的辦法是找 f 使

n

X

i=1

(y

i

− f(x

i

))

2

(23)

(9)

取最小值。這就是所謂的最小平方法。

但是函數太寬廣多樣, 光是這樣我們無 從找起。 通常需要從其它方面 (或理論上) 作 考慮, 限定 f 的類型, 例如限定 f 為一次函 數或 m 次多項函數等等, 於是只需決定係數, 這就容易做了。

最小平方法似乎也如 「平均律」 一樣, 是 直觀的 「木匠法則」 而已。 但是, 如果我們從 誤差律這個不尋常的角度來觀察它, 卻可得 到下面的結果:

我們這樣解釋 (22) 之數據: 在 x

i

之下, 觀測 y 得到 y

i

, 這跟實際的真值 f (x

i

) 就有 個誤差

z

i

= y

i

− f(x

i

), i = 1, 2, . . . , n (24) 今由誤差律知道誤差的隨機變數 Z 遵循正規 分佈 N (0, σ

2

)。 (24) 式就是觀測 Z 所得到 的 n 個 「現實」:

Z

1

= z

1

,Z

2

= z

2

,Z

n

= z

n

(25) 於是似然函數為

L(f ; z

1

,z

2

, . . . ,z

n

)

= 1 (√

2π)

n

σ

n

e

1 2σ2

n

P

i=1

(y

i

−f(x

i

))

2

(26) 定理 4: 在上述假設下, 即誤差遵循正規 分佈, 則 f 使 L 取最大值 ⇐⇒ f 使 (23) 式取最小值。

換言之, 最大似然推估法等價於最小平 方法。

Legendre (在 1805 年) 與 Gauss (在 1809 年) 兩人都是因為要由天文觀測數據

以決定行星運行的軌道, 而發展出最小平方 法;Gauss 更進一步得到誤差的正規分佈律。

Gauss 的這件工作可比美於他後來在微分 幾何的偉大傑作:「曲面的一般研究」 (Gen- eral investigations of curved surfaces, 1827年)。 他在1821年到1825年之間測量過 Hanover 王國的土地, 這個 「實務」 工作激 發他發展出微分幾何的曲面理論, 開局部方 法與研究內稟幾何 (intrinsic geometry) 之 先河。經驗與理論密切結合是 Gauss 研究工 作的特色。

五、 正規分佈律為什麼 「鶴立雞群」 ?

正規分佈的機率法則兩度出現在數學舞 台: 第一次是作為銅板序列的和 (再作標 準化) 之極限分佈 (limiting distribution) (De Moivre,1718年, 與 Laplace, 1801年), 參見 [5]; 第二次是作為觀測度量的誤差律 (Gauss, 1809年)。 對於兩個很不同的研究對 象, 居然出現相同的正規分佈律, 這絕非偶然

! 通常數學家碰到這種情形都會很興奮, 馬上 意識到背後必有一個廣闊的機率天地等待探 索。

正規分佈律經過 Gauss的大力提倡, 開 始暢行於天下。 比利時的統計學家 Quetelet (1796 -1874) 將它廣泛地應用到人文社會現 象之研究。 他把前人著重在天文現象的研究 轉移到地面人間現象之研究, 並且認為追求 社會人文現象之機率與統計規律就好像是物 理家之追求物理定律一樣 。 他發現人類的種 種屬性, 如身高、 體重、 能力等等, 都遵循正 規分佈律。 理由是所有的人好像都是同一個

(10)

窯子燒出來一樣, 女媧造人本欲造出理想的

「平均人」 (the average man,Quetelet 之 創造語), 不料在創生的過程中發生誤差, 導 致人類社會的多樣與變異 (variations) 不過 由於誤差律適用, 而呈現出正規分佈。

達爾文 (Darwin,1809-1882) 的表弟 Galton(1822-1911) 研究生物統計學、 實驗 心理學、 人體測量學、 優生學。 他對正規分佈 律更是推崇與讚美, 他說:「 我幾乎不曾見過 像“誤差呈正規分佈”這麼美妙而激發人無窮 想像的宇宙秩序。 如果古希臘人知道這條曲 線, 想必會給予人格化乃至神格化。 它以澄澈 統治混亂, 消解混亂。 暴民越多, 無政府狀態 越顯現, 它就統治得越完美。 它是無理性世界 中的最高法律。 當我們從混沌中抽出大量的 樣本時, 按大小加以排列整理, 那麼總是有一 個不可逆料且最漂亮的規律潛伏在其中。」

當代兩位偉大的機率學家 L´evy(1886- 1971) 與 Kac(1914-1985) 都曾說過, 正規 分佈律是他們切入機率論的 「初戀情人」, 具 有無窮的魅力。 機率學家 Lo`eve 說: 「如果 我們要抽取 L´evy 的機率中心思想, 那麼我 們可以這樣說, 自從 1919 年之後, 他的研究 主題曲就是正規分佈律。 他一而再, 再而三地 以它為出點, 並且堅決地又回到它。· · · 他是 帶著隨機時鐘沿著隨機過程的樣本路徑作旅 行的人, 因此他經常在極短的時間內就會遭 遇到無窮多的機運現象, 從而有“L´evry de- mon” 之美稱。」

美國國家標準局的顧問 W. J. Youden (1900-1971) 更用一段文字說明正規分佈律 的重要性及其泛應用, 以打字的方式排成標 準正規分佈的圖形, 妙趣橫生, 如下圖:

意思是說:「誤差的正規分佈律在人類的經驗 中具有“鶴立雞群”的地位, 為自然哲學最廣 含的推廣之一。 它是各方面研究的指南, 如物 理學、 社會科學、 醫學、 農業及工程等等。 對 於由測與度量所得的基本數據之解釋, 它是 不可或缺的工具。」

欲明正規分佈律更深刻的特性及重要 性, 需涉及高深一點的機率論, 在此我們不預 備介紹。

六、 結語 : 科學方法論簡介

本文討論的兩個主題是, 誤差現象以及 由觀測數據找函數關係。

觀測度量含有誤差, 這是人類的普遍經 驗。 在常識作法上, 克服誤差的辦法是多作幾 次度量, 然後用 「算術平均」 來估計真值。 這 是我們所能做到的 「最佳」 結果。

其次, 假設一個現象的兩個變量 x, y 它 們具有函數關係 y = f (x), 但是我們不知道 f 。 我們想探求 f 。 這當然有許多辦法, 端視 我們對 f 能夠擁有什麼樣的部分資訊 (par- tial informations) 而定。 例如, 如果我們知 道 f 在某一點的取值 (初期條件) 以及 f 的 導函數 f

(變化機制, 通常由物理定律給出), 那麼由微積分的 Newton-Leibniz 公式就可 以求出 f 。 這是常微分方程 (O.D.E.) 的主 題。 另外, 如果我們直接叩問自然, 得到 (22)

(11)

式之觀測數據, 那麼常識性的做法是找f, 使 (23) 式取最小值 (最小平方法)。

面對這些常識性的作法 (可能很好, 也 可能似是而非或錯誤), 科學要進一步追究

「為什麼」? 換言之, 科學要將常識經驗加以 精煉, 提煉出理論來說明 「為什麼」。 事實上, 人類因追究 「為什麼」 而進步。

科學的探索步驟, 歸結起來, 我們不妨稱 之為 「三層樓」 觀點:

(一) 就一個有趣的問題或現象, 收集資 料或數據; 在統計學上, 叫做抽樣; 在自然科 學上, 叫做實驗。 這是科學的經驗基礎。

(二) 資料或數據的整理、 歸類、 化約、

分析、 表現、 作圖表、 找尋關係與規律等等, 這是記述統計學的內容, 必要的準備工作。

(三) 提出一套理論來解讀資料與數據背 後的意義。 用理論來適配 (fits) 既知, 並且 預測 (predicts) 或探索未知。 理論是我們的

「新眼睛」, 用它來普照經驗世界的山河大地。

這比美於釋迦牟尼悟道後所說的:「眼睛長出 來了, 光明生出來了。」

這三層樓的求知活動, 不見得是由一個 人單獨完成, 許多時候是分工合作的結果。 例 如行星運動的研究, Tycho Brahe 與 Ke- pler 分別完成第一、 二層樓的工作, 接著牛 頓提出萬有引力定律才完成第三層樓的建構。

又如, Darwin(1809-1882) 的進化論, 基本 上是他一個人完成的。 自從 1831 年到 1836 年之間參加 Beagle 號全球環遊的調查航行 (他說這是心智上的真正教育與歷練), 他開始 蒐集動植物標本、 地質資料,. . . 等等, 長達十 七年之久; 接著是整理、 分類、 分析工作; 最

後在 1859年出版 「物種源始」 (the origin of species), 提出他的物種進化理論。

Gauss 對誤差論及最小平方法的研究, 也都經歷這三層樓的發展。 這裡尤其涉及到 機率論與統計學的方法論。 機率論是演譯的、

綜合的、 由上而下的, 即由隨機現象的機率 模型 (三合一又三合一), 計算出有趣的複雜 事件之機率, 並且推導出種種機率法則與必 然的邏輯結論。 統計學則反其道而行, 在機 率模型中含有某個未知, 例如機率密度函數 未知或機率密度函數的型態雖已知但其中含 有未知參數, 我們要透過抽樣數據來猜測未 知。 講究這個猜測的藝術 (the art of con- jecturing) 之學問就是統計學。 因此, 統計 學是分析的、 歸納的、 由下而上的。 統計學是 數據的物理學 (Statistics is the Physics of numbers)。 機率論與統計學恰好形成了一 個互補而圓足的研究迴路, 統治著機運王國 (the empire of chance)。 但是, 作為探索 未知的科學方法, 非常寬廣多樣, 統計方法只 是其中的一種而已。

參考文獻

1. Born, M. : Natural Philosophy of Cause and Chance, Clarendon Press, Oxford, 1948.

2. Stigler, S. M. : The History of Statis- tics, The measurement of Uncertainty be- fore 1900, Harvard Univ. Press, 1986.

3. Maistrov, L. E. : Probability theory, A His- torical Sketch, Academic Press, 1974.

4. Popper, K. R. : Conjectures and Refuta- tions, the growth of scientific knowledge, Routledge and Kegan Paul, London, 1963.

5.

蔡聰明

:

什麼是機率與機率法則

?

數學傳播

,

十九卷第一期

, 1995.

本文作者任教於國立台灣大學數學系

參考文獻

相關文件

加工誤差定義:1.尺寸誤差 零件加工後的實際尺寸與理想尺寸之差 2.幾何形狀誤差 零件的幾何形狀誤差分為三種 (1)宏觀幾何形狀誤差. (2)微觀幾何形狀誤差

最小條件:是指被測實際要素相對於理想要素的最大變動量為最小,此時,對被測實際要素評定的誤差值

在非絕熱空間, , , ,溫度的誤差會很多 溫度的誤差會很多

已知一長 30 公分,寬 20 公分的長方形紙張,依圖示方式疊在桌面上,則疊完 15 張後,桌面上

[r]

[r]

[r]

這個實驗助教所配的氯化鈉水溶液之重 量百分濃度為 30.0%,不過我們實際操作 後的計算是 36.0%,誤差滿大的,仔細檢