• 沒有找到結果。

什麼是機率與機率法則

N/A
N/A
Protected

Academic year: 2022

Share "什麼是機率與機率法則"

Copied!
16
0
0

加載中.... (立即查看全文)

全文

(1)

什麼是機率與機率法則 ?

蔡聰明

機率是機率論中的一個核心概念, 深奧 而難纏。 丟一個公正銅板, 出現正面的機率是 1/2: 這絕不是說丟兩次銅板必出現一次正 面, 也不是丟 10 次銅板必出現 5 次正面。 甚 至也不是說: 當 n 越來越大時, 丟 n 次銅 板必會出現 n/2 次正面。 大家都聽過一則笑 話: 醫生 對患有癌症的病人說, 「我替病人 開刀成功的機率是 1/10, 但是在你之前已有 9 位病人被我刀到命除, 你是幸運的第 10 位, 因此你開刀必然成功」。 這是對機率作錯誤的 解釋。

為了說明方便起見, 我們用隨機變數

ξ =

(

1 正面, 機率

1 2

0 反面, 機率

1 2

來表現丟一個公正銅板的實驗。 丟出正面就 報 1, 丟出反面就報 0, 此地 0 與 1 完全是為了 點算正面的次數而設定的。 今將此銅板獨立 地一次接著一次丟下去, 令 ξ

n

表示第 n 次 的可能結果, 於是就得到銅板序列 (ξ

n

) 。 這 是獨立且同佈 (i.i.d.) 的一列隨機變數, 它 們都是 ξ 的抄本 (copies), 定義在某個機率 空間 (Ω, F, P) 上。 這裡有兩個基本的問題:

問題1: 銅板序列 (ξ

n

) 存在嗎? 說得更 具體一點, 能否建構一個機率空間 (Ω, F, P) 並且在其上定義一列獨立、 同佈的隨機變數 (ξ

n

), 使得滿足

P (ξ

n

= 1) = 1

2 = P (ξ

n

= 0), ∀n ∈ N?

問題2: 機率論為何要採用 「機率空間」

(Ω, F, P ) 之理型? 即為何 F 要取為 σ 代 數 ( σ-algebra), 不取為較接近常識的代數 (algebra), 而 P 要取為具有可列加性 (σ- additivity), 不取為具有有窮加性 (finite- additivity)?

銅板序列的存在性是沒有問題的, 而第二個 問題更深刻。 本文我們不預備討論它們。

令 S

n

=

P n k=1

ξ

k

, 這是一個隨機變數, 表示丟 n 次銅板中出現正面的次數。 它具有 二項分佈

P (S

n

= k) =

n

C

k

(1 2)

k

(1

2)

n−k

. 在 「談 Stirling 公式」 一文中 [5], 我們證 明過: 將 「機率 1/2」 解釋為 「在丟 n 次銅 板中出現正面的次數“差不多”佔有一半, 即 使當 n → ∞ 時也不成, 因為對任意實數 a > 0 , 恆有

n→∞

lim P (−a ≤ S

n

− n

2 ≤ a) = 0

1

(2)

即以區間 [

n 2

− a,

n 2

+ a] 來網接 S

n

散佈過 來的機率, 當 n → ∞ 時, 仍然為0。

.

... .

.. . ..

. .. . .. ..

. .. .. .. . . .. .. . .. . .. . .. . .. . . .. . . . .. . . . .. . . . . .. . . . . . . . .. . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . .. . . .. . . . .. . . .. . . .. .. . . .. ..

. ... .. . .. .. .. . .. .. .

n

2

−a

n 2 n 2

+a (Ω, F, P )

S

n

R

上述都是對於 「機率 1/2」 作負面的斷 言。 不過我們應注意對偶的作用: 當我們知 道夠多的負面斷言後, 對於正面的斷言就逐 漸可以掌握。 另外, 知道負面的斷言, 往往就 已經很有用, 例如熱力學的定律皆斷言某些 事情辦不到, 存在五次方程式沒有根式解, 幾 何三大難題無法尺規作圖, 否定的解決也是 解決。

本文我們要來追尋 「什麼是機率」 的正 面答案, 乃至進一步的 「機率法則」 這個看似 矛盾的概念。 機率現象是說不準的, 居然有機 率法則可循, 這不是既矛盾又神奇嗎?

一 .Bernoulli 的弱大數法則

理想彼岸的 「機率 1/2」(Plato 理念世 界) 與現實此岸的正面次數之 「相對頻率

S n

n」 (經驗世界), 我們有很強的直覺相信它們具 有密切的關係, 其間的橋樑是什麼呢? 這就 是 James Bernoulli (1654-1705) 要解決的 問題。 他積 20年的辛苦工作 (比美於 Tycho Brahe 20年的天文觀測, 提供數據讓 Kepler 發現行星運動三大定律), 終於有了突破性的 發現, 得到機率論的第一個極限定理, 今日叫 做 Bernoulli 的弱大數法則。

這個重要發現是如何得到的呢? 讓我們 解說於下。

根據上述, 既然用任何有限長度的區間 [−a, a] 在 n → ∞ 時都網不到 S

n

n 2

的 任何機率, 自然就想到改用跟 n 有關的變動 長度之區間。 我們的目標是要網到所有的機 率 1。 這樣的區間是什麼形式呢? n 的等級 (order) 是什麼?

首先觀察到下列事件都是等價的鐵定事 件 (sure event):

0 ≤ S

n

≤ n

⇔ | S

n

− n 2 |≤ n

2

⇔ | S

n

n −1 2 |≤ 1

2

即它們的機率皆為 1。 由此看出, 只要取 l ≥

1

2

, 則區間 [−ln, ln] 就可網接 S

n

n 2

的所 有機率, 即 P (|

S n

n

1 2

| ≤ l) = 1 , 此時根 本不必用到 n → ∞ (即不必訴諸無窮)。 不 過這只是一句大而無當的空話 (tautology), 相當於說 「白馬是馬」。

顯然 l 越小越好。 配合訴諸 n → ∞ , 可否將 「 l ≥

1 2

」 作精進呢? 這是整個問題 的關鍵, 也是困難的所在。

從對二項分佈的澈底研究中, Bernoulli 發現 「 l ≥

1 2

」 可精進為 「 l > 0 」。 這雖只 是一小步, 但是在機率論史上卻是一大步! 一 個偉大的時刻 (a great moment)!

一個好的圖解往往勝過千言萬語, 直指 本心地反應出事物的本質。 讓我們來觀察隨 機變數 S

n

S

n

n

散佈機率的圖像 (picture):

(3)

.

...

.

... .

. .. . . .. . . .. . . . .. . . . . .. . . . . . .. . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . . . . . . .. . . . . . .. . . . . .. . . . .. . . .. . . .. . .. . . .. . .. . .. . .. . .. . .. . .. .. . .. .. . .. .. .. . .. .. .. . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . .. .. .. .. .. .. . .. .. .. . .. .. .. . .. .. . .. .. .. . .. .. ..

... . . . . . . . . ...

.. .. . .. .. .. .. .. .. . .. .. .. .. .. .. .. .. . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . .. .. .. .. .. .. .. . .. .. .. .. .. . .. .. .. . .. .. .. . .. . .. .. . .. .. . .. .. . .. .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . . .. . .. . . .. . . .. . .. . . . .. . .. . . . .. . . .. . . . . .. . . . . .. . . . . .. . . . . . . .. . . . . . . .

.. ... .. .. .. .. .. . .. .. . .. .. .. . .. . . . ...

. .. . .. .. . .. .. . .. .. . .. .. . ..

.. .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. .. . .. .. . .. ..

.. .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. . .. .. .. . .. . .. .. . .. .. .. . .. . .. .. . .. .. .. . .. . .. .. . .. .. .

.. .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. . .. .. .. . .. . .. .. . .. .. .. . .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. . .. .. .. . .. .

.. .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. . .. .. .. . .. . .. .. . .. .. .. . .. . .. .. . .. .. .. . .. . .. .. . .. .. .

.. .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. .. . .. .. . .. ..

. .. . .. .. . .. .. . .. .. . .. .. . ..

.. .. ..

. . ...

. . ...

.. . .. . .. .. . .. .. . .. .. . .. . . . .. . .. .. . .. .. .. . .. . .. .. ...

. .. . .. .. .. . .. . .. .. . .. .. .. . ...

. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. . .. .. .. . .. .. . .. .

. .. . .. .. .. . .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .

. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. . .. .. .. . .. . .. .. . .. .. .. . .. . .. .. . .. .. . .. .

. .. . .. .. .. . .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .

. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. . .. .. .. . .. .. . .. .

. .. . .. .. .. . .. . .. .. . .. .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ...

. .. . .. . .. .. . .. .. . .. .. . .. .. . .. . . . .. . .. .. . .. .. .. . .. . .. .. . ...

. . ...

(Ω, F, P ) S

n

S

n

n

圖 1

圖 2

n → ∞

n

0 1

2

0

壓 擠

1

2

1

我們知道 S

n

S

n

n

都具有二項分佈, 其圖形 是左右對稱的, 中心點分別為 n/2 與1/2, 而 且最大項的等級為

1

πn

→ 0 , 當 n → ∞ 時。

從 S

n

的眼光來看, 它將全部的機率 1, 散佈得越來越寬廣。 當 n → ∞ 時, 流佈於 N = {0, 1, 2, . . .} 之上, 但是每一點 n ∈ N

。 所分得的機率越來越小, 而趨近於0, 此圖不 易看出機率逐漸聚集於哪一個範圍的趨勢。

改從調整過尺度的

S

n

n

之眼光來看,

S n

n 將全部機率 1 散佈在 [0, 1] 之中, 當 n → ∞ 時有越來越密集於 1/2 點附近的趨勢, 而分 在兩側的機率越來越被擠壓而消失掉 (參見 圖 2)。

在這個觀察基礎下, Bernoulli 猜測到 上述 「 l ≥

1 2

」 可以改成 「 l > 0 」: 即對任 意 ε > 0 , 當 n → ∞ 時, 區間 [

1 2

−ε,

1 2

+ε]

可以網接

S

n

n

散佈過來的所有機率。 更精鍊地 說:

對任意 ε > 0, lim

n→∞

P (|S

n

n −1

2| ≤ ε)=1.

換言之, 無窮 (n → ∞) 像一根魔杖, 透過

S

n

n

將機率全部趕入網羅 [

1 2

− ε,

1 2

+ ε] 之 中。 值得注意的是, 微積分的求面積與求切線 兩難題也是訴諸無窮才解開謎底的。

如果當初的銅板, 出現正面與反面的機 率各為 p 與 q , 其中 0 < p < 1 且 q = 1−p , 那麼上述的猜測可稍作推廣成為:

對任意ε > 0, lim

n→∞

P (|S

n

n − p| ≤ ε) = 1.

(1) 如何證明這個猜測呢? 當初 Bernoulli 是對二項分佈作估計, 而證出 (1) 式。 這個 證明, 不論是從歷史或數學或方法論的觀點 來看, 都深具興味。

我們只需證明

n→∞

lim P (|S

n

n − p| > ε) = 0 (2) 就好了。 這又等價於兩個 「尾巴部份」 (tail parts) 之證明:

n→∞

lim P (S

n

> np + nε) = 0 (3) 與 lim

n→∞

P (S

n

< np − nε) = 0 (4) 我們只需證明 (3) 式, 因為將 p 與 q 的角色 對調, (4) 式就同理可證。

現在證明 (3) 式:

P (S

n

> np + nε) (5)

=

X

k>np+nε

P

k

= P

k

0 + P

k

0

+1

+ · · · + P

n

其中 P

k

=

n

C

k

P

k

q

n−k

, 並且 k

0

為第一個滿 足 k > np + nε 之自然數 k 。 我們要來估計 (5) 式。 顯然 P

k

0, P

k

0

+1

, . . . , P

n

, 不是一個 等比數列, 但是可以用一個等比數列來控制。

為此, 考慮比值:

(4)

P

k

P

k−1

=

n

C

k

p

k

q

n−k

n

C

k−1

p

k−1

q

n−k+1

= 1 +(n + 1)p − k

kq (6)

P

k+1

P

k

= 1 + (n + 1)p − (k + 1) (k + 1)q (7) 由此看出, 當 k > (n + 1)p 時,

1 > P

k

P

k−1

> P

k+1

P

k

> · · · > P

n

p

n−1

> 0 (8) 因為我們考慮的是 n → ∞ 的情形, 故可取 足夠大的 n , 使得 np + nε > (n + 1)p 。 因 此, 當 k > np+nε 時, 也滿足 k > (n+1)p

。 參見下面圖 3。

.

... ..

.. . .. .. . ..

.. .. . .. .. . ..

.. .. . .. .. . ..

np (n+1)p nε

np+nε k

0

k

0

−np

.. . .. .. .. .. . .. . .. . .. . . .. . . .. . . . .. . . . .. . . . . .. . . . . . .. . . . . . .. . . . . . . . . . .. . . . . .

.. . .. ...

.. . .. .. . .. .. . .. .. .. . .. .. .. .. .. . . .. .. .. .. .. .. .. . .. .. .. . .. .. . .. . .. . .. .. . .. . .. . .. . . .. . .. . . .. . .. . . .. . .. . . . .. . . .. . . .. . . . .. . . . .. . . . . .. . . . .. . . .

.. . .. .. . .. .. .

...

圖 3 特別地

1 > P

k

0

P

k

0

−1

> P

k

0

+1

P

k

0

> · · · > P

n

p

n−1

> 0 (9) 令 α = 1 +

np−k k

0

0

q

, 則 0 < α < 1 且 α ≥ 1 +(n + 1)p − (k

0

+ 1)

(k

0

+ 1)q = P

k

0

+1

P

k

0

(10) 由 (9) 式知

P

k

0

+1

< αP

k

0

P

k

0

+2

< αP

k

0

+1

< α

2

P

k

0

...

P

n

< αP

n−1

< · · · < α

n−k

0P

k

0

因此, 由 (5) 式得

P (S

n

> np + nε)

≤ P

k

0(1 + α + α

2

+ . . . + α

n−k

0)

< P

k

0 · 1

1 − α = P

k

0

k

0

q

k

0

− np (11)

現在估計 P

k

0 : 在區問 [np, k

0

] 內的自 然數之個數小於等於 k

0

− np 個, 其上的機 率皆大於等 P

k

0 故

1 ≥ P (S

n

∈ [np, k

0

]) ≥ (k

0

− np)P

k

0 從而

P

k

0 ≤ 1

k

0

− np (12) 代入 (11) 式得

P (S

n

> np+nε) ≤ k

0

q

[k

0

− np]

2

< n [k

0

− np]

2

(13) 今因 k

0

− np > nε (參見圖3), 故得

P (S

n

> np + nε) (14)

< n

(nε)

2

= 1

2

→ 0, 當 n → ∞。

這樣我們就證明了 (1) 式。 M. Kac 對 Bernoulli 的這個證明評論說:「它並不難, 但 也不頂容易。」(It is not hard but not very easy either!)

定理1 (Bernoulli 的弱大數法則, 1713 年):

對任意 ε > 0, lim

n→∞

P (|

S n

n−p| ≤ ε) = 1 對於這個重要結果, 我們再介紹另一種 簡潔而利於推廣的證法: 首先我們注意到, 期

(5)

望值 E(S

n

) = np , 另外由 (ξ

n

) 之獨立性 可得變異數, Var (S

n

) = npq 。 因此

P (|S

n

n − p| > ε) = P (|S

n

− np| > nε)

=

X

k:|k−np|>nε

P (S

n

= k)

≤ 1 n

2

ε

2

X

k:|k−np|>nε

(k − np)

2

· P (S

n

= k)

= 1

n

2

ε

2

Var (S

n

) = pq

2

→ 0, 當 n → ∞

上述證明中的不等式就是所謂的 Cheby- shev 不等式。 比較起來, Bernoulli的證法美 妙是美妙, 但只適用於二項分佈, 而無法推展 到一般的分佈; Chebyshev 不等式的證法, 不但簡單明快, 而且可以推展到一般分佈的 情形。 A. Weil 說:「更一般與更簡潔是結伴 同行的」(Greater generality and greater simplicity go hand in hand.) 這裡是一 個例證。

經濟學家 Keynes 在 1921 年出版的

「A treatise on probability」 一書裡稱讚 Berno- ulli 為 「數學機率論的真正創立者」

(The real founder of mathematical prob- ability)。 俄國在 1913 年於聖彼得堡 (St.

Petersburg, 後來改為列寧格勒, 現在又改 回原名) 慶祝 Bernoulli 定理誕生 200 周年 紀念, 由 J.V. Uspensky 將 Bernoulli 的原 著: Ars conjectandi(1713) (即 「猜測的藝 術」, The art of conjecturing) 從拉丁文翻 譯成俄文。 一條重要的數學定理比人間任何 帝國的基業還要天長地久, 今日蘇聯已崩解!

Einstein 說: 「政治是短暫的, 方程式是永恆 的。」

Bernoulli稱 他 所 發 現 的 定 理 為

「Golden Theorem」(黃金定理), 可見其珍 惜與寶貴。 利用這個定理來解釋 「丟一個公 正銅板出現正面的機率為 1/2」 就是: 對任 意 ε > 0, 丟 n 次銅板出現正面的相對頻 率

S

n

n

會落在 1/2左右 ε 範圍內的機率 , 當 n → ∞ 時, 會趨近於1。 這才是機率的正解 之一。 Bernoulli 認為機率代表一個事件的

「明確度」 (degree of certainty), 這恰是日 文的 「確率」 之來源。

Bernoulli說: 「經過了 20 多年的深思, 才得到這個定理, 我決定把它發表。 它不但新 奇、 具有大用, 而且難度高。 它的份量與價值 超過全書其它所有章節。 它對我深具意義, 遠 比方圓問題 (幾何三大難題之一) 的解決更有 意義, 因為即使解決方圓問題, 也是沒有什麼 用處的」。

他又說: 「對某件事作猜測就相當於 度量它的機率。 因此猜測的藝術或隨機的藝 術可以定義為儘可能準確地度量事件的機率, 使得我們作判斷與行動的時候, 可以採取較 佳的策略。 讓我們更深思熟慮, 而得到較安全 與滿意的結果。 只有在此中, 我們才見出哲學 家的智慧與政治家的謀略。 即使是最愚笨的 人, 根據良知良能也知道, 觀測越多, 偏離真 理的危險越小。 如果對任何事件都可作永恆 長觀, 那麼機率就化成明確, 並且我們可以發 現世界上所有事情皆按一定的原因與規律來 發生。」

Belnoulli定理標誌著機運 (chance) 初 步被馴服, 這個意義非凡, 因為如此善變而 說不準的機運都可被馴服, 還有什麼不可馴 服的呢? 更重要的是它打開了機運的大門,

(6)

讓其後的數學家發現了美麗的機率天地 (花 園)。

二 .De Moiver - Laplace 的中央極限定理

對於公正銅板的情形, Bernoulli 定理 可以改述為: 對任意 ε > 0 ,

n→∞

lim P



S

n

∈ [n

2 − εn,n 2 + εn]



= 1 這表示以 n/2 為中心, 左右 εn 的區間 [

n 2

− εn ,

n 2

+ εn] , 在 n → ∞ 時, 可以捕捉到 S

n

散佈的所有機率 1。 由於 Bernoulli 所用 的區間是以 n 的等級來伸展, 非常快速, 故只 要作粗略的估計就可證得它網到所有的機率。

二項分佈最大項的等級 (漸近相等式) 為

1

πn

, 因此以 n 為等級的區間可以捕捉到 所有的機率, 這是順理成章的事。 De Moivre (1667-1754) 的偉大貢獻是將 n 改為小一點 的 √n , 即用區間 [

n 2

− ε√

n ,

n 2

+ ε√ n] 來 捕捉 S

n

所散佈的機率。 這 「看似尋常」, 其 實是 「最奇絕」, De Moivre 計算出了, 在 n → ∞ 時, 此區間所網到的機率。 他說: 「這 是機運所能提出的最艱難的問題。」 因此 De Moivre 的工作真的是 「成如容易卻艱辛。 」 他採用 √

n 而不採用 n

1/3

或 n

2/3

等, 這是 關鍵要害。

De Moivre 做的是 p =

1 2

的特例, 即 公正銅板, 後來 Laplace 考慮一般 p 的情形, 0 < p < 1 。 下面我們要帶著現代的眼光重 走一趟 De Moivre 與 Laplace 的探險之旅。

先從公正銅板的特例 (p =

1 2

) 思考起。

此時 S

n

的期望值與變異數分別為

E(S

n

) = n

2 與 Var (S

n

) = n 4, 而標準偏差為

q

Var (S

n

) =

√n 2 我們注意到, 事件

n 2 − ε√

n ≤ S

n

≤ n 2 + ε√

n 與事件

−2ε ≤ S

n

n 2

√n/2 ≤ 2ε

是相同的。 令 S

n

=

S

n

n/2

n2 , 其中將 S

n

減去 期望值

n

2

的操作叫做無偏化 (即平移, 此時 期望值變成 0, 但變異數不變), 再除以標準偏 差

n

2

得到 S

n

叫做規範化 (即尺度伸縮, 此 時 S

n

的期望值為 0, 變異數為 1)。 將一個隨 機變數作無偏化再作規範化的操作叫做標準 化。 換言之, 我們將 S

n

標準化為 S

n

我們的偉大目標就是要計算

n→∞

lim P (−2ε ≤ S

n

≤ 2ε) =?

或更一般的

n→∞

lim P (a ≤ S

n

≤ b) =?

為此, 我們觀察下圖:

(7)

.

...

.

... .

. . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . .. . . . . . .. . . . .. . . . .. . . .. . . .. . . .. . .. . .. . .. . .. .. . .. . .. .. . .. .. . .. .. .. .. . .. .. .. .. .. .. .. . .. . .. .. .. .. .. .. .. .. .. .. . .. .. .. .. .. . .. .. .. . .. .. .. . .. .. .. . .. .. .

... . . . . . . . . ...

.. .. . .. .. .. .. .. .. . .. .. .. .. .. .. .. .. . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . .. .. .. .. .. .. .. . .. .. .. .. .. . .. .. .. . .. .. .. . .. . .. .. . .. .. . .. .. . .. .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . . .. . .. . . .. . . .. . .. . . . .. . .. . . . .. . . .. . . . . .. . . . . .. . . . . .. . . . . . . .. . . . . . . .

.. ... .. .. .. .. .. . .. .. . .. .. .. . .. . .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. .. ... .. .. . .. .. .. . .. .

.. . ...

. .. . .. .. . .. .. . .. .. . .. . .. .. .. . .. .. .

. .. . .. .. . .. .. . .. .. . .. . .. .. . .. .. . .. .. . .. . .. .. . .

. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. .

. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. . .. .. . .

. .. . .. .. . .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. . .. .. . ..

. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. . .. .. . .

. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. .

. .. . .. .. . .. .. . .. .. . .. . .. .. . .. .. . .. .. . .. . .. .. . .

. .. . .. .. . .. .. . .. .. . .. . .. .. .. . .. .. .

. .. . .. . .. .. . . .. .

. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. . .. .. .. . .. .. . .. .

. .. . .. .. .. . .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .

. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. . .. .. .. . .. . .. .. . .. .. .. . .. . .. .. . .. .. . .. .

. .. . .. .. .. . .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .

. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. . .. .. .. . .. .. . .. .

. .. .. . .. .. .. . .. . .. .. . .. .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. . .. .. . .. .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. . . .. ... . .. .. . .. .. . .. ..

. .. .. . .. . .. .. . .. .. . .. .. . .. . .. .. .. . .. ... .. .. . .. .. . .. .. . .

..

...

(Ω, F, P ) S

n

S

n

圖 4

圖 5 機

a = b =

x

nk

=

k−n/2 n/2

n

2

−ε√n

n 2

+ε√n

→ +∞ → +∞

n 2

k

−2ε0 2ε 在圖 4中, 區間 [

n 2

− ε√

n,

n 2

+ ε√

n] 按√ n 的等級來張開以捕捉 S

n

所散佈的機率。 此 時不易感覺到終究 (n → ∞) 捕捉到多少機 率以及這個機率有何規律可尋。 但是我們改 觀察圖 5時, 情形就改變了。 令 x

nk

=

k− n/2

n2 , 當 n 越來越大時, S

n

在固定區間 [−2ε, 2ε]

上所下的 「機率雨」, 其間隔 ∆X

nk

=

n/2 1

漸小, 即機率雨越下越細密, 而 「雨點」 越來 越小。 有如 「大雨稀疏, 細雨密密。」 我們簡直 可以感覺得到, 在 n → ∞ 時, 機率雨的減 少與增加終究會達於適度的平衡: 機率不全 落在 [−2ε, 2ε] 之中, 也不完全流失掉。 有了 這麼美妙的感覺, [−2ε, 2ε] 終究捕捉到多少 機率, 其計算我們相信應該是有規律可尋的。

我們再用著名的 Galton 盤 (或叫機率 盤) 來模擬 S

n

所下的 「機率雨」 之分佈情 形 (參見圖 6 )。 從漏斗中輸入許多小球進 到直立的盤箱中。 盤中的黑點表示釘子, 球在 落下的過程中, 會碰到釘子 (或球與球之間相 撞) 而偏向左邊或右邊。 在底部有許多相同大 小的隔間, 用來收集落球。 中間的地方收集得

較多, 越向兩側收集得越少。 從這個實驗中, 也反應出 「機率雨」 似乎是按某個美妙的規 律來降落的。

圖 6

有了規律感 (sense of order) 之後, 接 著就是找尋規律。

現在開始做苦工。 我們考慮一般 p(0 <

p < 1) 的情形。 此時 q = 1 − p , 期望值 E(S

n

) = np , 變異數 Var (S

n

) = npq , 標 準偏差

q

Var (S

n

) = √npq , 而 S

n

的標準化為

S

n

= S

n

− np

√npq 我們要對任意有限區間 [a,b], 計算

n→∞

lim P (a ≤ S

n

≤ b)

(8)

令 X

nk

= k − np

√npq , k = 0, 1, . . . , n (15) 我們要考慮 n 越來越大 (n → ∞) , 但是 x

nk

滿足 a ≤ x

nk

≤ b。 因此 k 亦隨 n 而 變, 由 (15) 式知

k = np+√npqx

nk

且 n−k = nq−√npqx

nk

(16) 所以當 n → ∞ 時

k ∼ np 且 n − k ∼ nq (17) 其中記號 a

n

∼ b

n

表示 lim

n→∞ a b

nn = 1 , 即 (a

n

) 與 (b

n

) 漸近地相等。 因此當 n → ∞ 時, k 與 n − k 也都趨近於無窮大。

為了求算

P (a ≤ S

n

≤ b) =

X

k:a≤x

nk

≤b

n

C

k

p

k

q

n−k

在 n → ∞ 時之極限, 我們先找尋 「局部」 一 項

n

C

k

p

k

q

n−k

的漸近相等式。 換言之, 我們 要估算

P (S

n

= k) = P (S

n

= x

nk

)

=

k!(n−k)! n!

p

k

q

n−k

由 Stirling 公式知

n!

k!(n − k)!p

k

q

n−k

=

√2πnn

n

e

−n

p

k

q

n−k

√2πkk

k

e

−k q

2π(n−k)(n−k)

n−k

e

−(n−k)

= 1

√2π

√n

q

k(n − k)



np k

 k 

nq n − k

 n−k

∼ 1

√2π

√npq1



np k

 k 

nq n − k

 n−k

(由(17)式) (18)

接著探尋

 np

k

 k  nq

n−k

 n−k

之漸近相等 式。 由 (16) 式知

np k = 1−

√npq

k x

nk

, nq

n − k = 1+

√npq n − kx

nk

(19) 其次, 由 Taylor 展式

ln(1 + x) = x − x

2

2 +x

3

3 − · · · +(−1)

n+1

x

n

n + · · · , |x| < 1, (20) 可知, 對任意 0 < A < 1 , 當 |x| < A 時, 恆有

ln(1 + x) − (x − x

2

2)

X ∞ n=3

|x|

n

n ≤ 1

3

X ∞ n=3

|x|

n

= 1 3

|x|

3

1 − |x| ≤ 1

3

|x|

3

1 − A

= 1

3K · |x|

3

(21) 其中 K =

1−A 1

, 並且

ln



np k

 k

= k ln 1 −

√npq k x

nk

!

= k −

√npq

k x

nk

− npq 2k

2

x

2 nk

−(npq)

3/2

3k

3

x

3 nk

− · · ·

!

(22)

ln



nq n − k

 n−k

= (n − k) ln 1 +

√npq n − kx

nk

!

= (n − k)

√npq

n − kx

nk

− npq 2(n − k)

2

x

2 nk

(9)

+ (npq)

3/2

3(n − k)

3

x

3 nk

− · · ·

!

(23) 注意到, 由 (17) 式及 a ≤ x

nk

≤ b 可 知, 當 n 夠大時, 可以使

√npq k x

nk

< 1 與

√npq n − kx

nk

< 1。

因此(22) 與 (23) 兩式之收斂不成問題。

(22)+(23) 得到

ln

" 

np k

 k 

nq n − k

 n−k #

= −n

2

pq 2k(n − k)x

2 nk

+

"

(npq)

3/2

3(n − k)

2

−(npq)

3/2

3k

2

!

x

3 nk

+ · · ·

#

(24)

令 R(x) =

 (npq) 3(n−k)

3/22 −

(npq) 3k

23/2



x

3 nk

+ · · ·。

只要 n 夠大就有

√npq k x

nk

< A < 1 且

√npq n − kx

nk

< A < 1,

於是由 (21) 式得到

|R(x)| ≤ 1

3K (npq)

3/2

(n−k)

2

+(npq)

3/2

k

2

!

|x

nk

|

3

≤ 1

3K n

3/2

(n − k)

2

+n

3/2

k

2

!

· M

3

其中我們用到了pq < 1且M = max(|a|, |b|), 再由 (17) 式得知, 當 n → ∞ 時, 上式右項

趨近於 0。 從而 (24) 式可以改寫成 ln

"



np k

 k 

nq n − k

 n−k #

∼ −n

2

pq 2k(n − k)x

2 nk

∼ −1

2x

2 nk

, (由(17)式), (25) 亦即



np k

 k 

nq n − k

 n−k

∼ e

12

x

2nk (26) 代回 (18) 式就得到

P (S

n

= k) = P (S

n

= x

nk

)

∼ 1

√2π

√npq1 e

12

x

2nk (27)

這真是一個艱苦而漂亮的估計過程。 上式對 於使得 x

nk

落在 [a, b] 中的所有 k 皆成立。

換言之, (27) 式對 k 是均勻收斂的。

進一步, 我們注意到 ∆x

nk

=

√ npq 1

, 故 (27) 式可改寫成

P (S

n

= x

nk

) ∼ 1

√2πe

12

x

2nk · ∆x

nk

從而

P (a ≤ S

n

≤ b) =

X

k:a≤x

nk

≤b

P (S

n

= x

nk

)

∼ 1

√2π

X

k:a≤x

nk

≤b

e

−x

2nk

/2

· ∆x

nk

這是定積分

R a b1

e

−x

2

/2

dx 的 Riemann 和, 故

n→∞

lim P (a ≤ S

n

≤ b) = 1

√2π

Z b

a

e

−x

2

/2

dx (28) 這樣我們就發現了 S

n

在任何有限區間 [a, b] 中落下 「機率雨」 在 n → ∞ 時之計算

(10)

規則。 更令人驚奇的是這個規則可由世界上 最重要的一條曲線

Φ(x) = 1

√2πe

−x

2

/2

(29) 來給出, 它叫做標準常態分佈(standard normal distribution)。

總結上述, 我們得到一個美妙而重要的 定理:

定理2 (De Moivre - Laplace 的中央極限 定理): 設 0 < p < 1, q = 1 − p, 且 S

n

=

S √

n

−np npq

,

x

nk

= k − np

√nqp , k = 0, 1, · · · , n。

(i)De Moivre 的局部極限定理 (1733 年):

當 n → ∞ 時, 對於使得 x

nk

落在任 何有限區間 [a, b] 中的 k 而言,

P (S

n

= x

nk

) ∼ 1

√2π

√npq1 e

−x

2nk

/2

並且對 k 為均勻收斂。

(ii)Laplace 的積分極限定理 (1812 年):

n→∞

lim P (a ≤ S

n

≤ b) = 1

√2π

Z b

a

e

−x

2

/2

dx 標準常態分佈 (又叫標準正規分佈), 它的圖 形如下:

.. .. . .. . .. .. .. . .. .. . .. . .. .. .. . .. .. . .. .. . .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. . .. .. . .. ... .. . .. .. . .. .. .. .

...

0 x

Φ(x) =

1

e

−x

2

/2

...

圖 7

我們也可以利用電腦作出更美麗的圖:

對於這條神奇而迷人的曲線, Laplace (1749-1827) 曾比喻說: 「正規分佈律就 好像是天體力學中的萬有引力定律一樣, 佔 有核心的地位。 只要是由無窮多個無窮小 的獨立隨機因子所湊成的一個隨機變量就會 遵循正規分佈律。」 一個有趣的對照: 積分

R b

a

f (x)dx 可以看成是由無窮多個無窮小的 矩形之連續求和。 「玉山不辭細土, 故能成其 壯美。」

在上述中央極限定理中

n→∞

lim P (a ≤ S

n

≤ b) = 1

√2π

Z b

a

e

−x

2

/2

dx (30) 這個收斂很特別, 並不是隨機變數 S

n

的機率 密度函數收斂到 Φ(x) 。 事實上, 它是分析學 中更根本而奧妙的“測度弱收斂”概念, 上式 是這個概念的胚芽 (germ)。

如果當初我們用 ξ =

(

+1 正面, 機率

1 2

−1 反面, 機率

1 2

來表 現 丟 一 個 公 式 銅 板 的 實 驗, 那 麼 E(S

n

) = 0, Var (S

n

) = n , 於是 S

n

=

S

n

n

, 從而(30) 式變成

n→∞

lim P (a ≤ S

n

√n ≤ b) = 1

√2π

Z b

a

e

−x

2

/2

dx (31) 因此中央極限定理有時又叫做“ n 的平方根 定律”(the law of square root n )。

(11)

中央極限定理是一個典型例子, 在計算 式中同時出現 π 、 e 這兩個經常涉及宇宙奧 密的偉大常數。 有人問 H. Steimhaus(1887 - 1972) 說, 為何在機率論中到處會出現 π ? 他回答得很妙: 「機運是風水輪流轉 的」(Fortune moves in circle)。 如果是物 理學家 R. Feynman, 他會問: 「圓在哪裡?

」(Where is the circle? ) 我們可以回答說:

「 π 出自 Stirling 公式, Stirling 公式又出 自 Wallis 公式, 而 Wallis 公式源自 Wallis 之求圓的面積。」

中央極限定理比 Bernoulli 的估計更精 細, 因此可用來重新推導出 Bernoulli 定理, 這是順理成章的事:

n→∞

lim P



S

n

n − p

≤ ε



= lim

n→∞

P −ε√

√pqn ≤ S

n

≤ ε√

√pqn

!

= 1

√2π

Z

−∞

e

−x

2

/2

dx = 1

此地我們用到了機率積分

Z

−∞

e

−x

2

/2

dx =√

2π (32) 這是微積分的一個好習題。 因此, 中央極限定 理是兩面刃, 一面砍下 Bernoulli 定理, 另 一面砍中了機率論中最重要的正規分佈, 將 理想的 p 跟現實的

S n

n 連繫得更緊密、 更好。

正規分佈的出現, 讓人首次深刻感受到, 在機運的混沌中出現了秩序 (order out of chaos), 如蓮之出污泥。 這比自古以來從自 然現象中看出規律 (laws), 更令人震撼。 從

此, 人們有了“機率法則”(probability law or the law of chance) 的概念, 這是機率 要成為一門數學的先決條件。 英國數學家兼 哲學家 A.N. Whitehead(1861-1947, B.

Russell 在劍橋大學三一學院的老師及合作 者) 說得好 (參見 [6]): 「活生生的科學是 無法產生的, 除非人們對於事物存在有規律, 特別地, 自然存在有規律具有普遍而近乎直 覺的信仰。」(There can be no living sci- ence unless there is a widespread instinc- tive conviction in the existence of an Order of Things, and, in particular, of an Order of Nature.) 英國 Bedford 地 方有一個中學, 校園內的標語寫著 「自然含妙 理, 等待著你去追尋。」 劍橋大學 Cavendish 實驗室的座右銘更標舉出: 「造物者的工作 是偉大的, 追尋出他的所有傑作令人樂在其 中。」(The works of the Lord are great, sought out of all them that have plea- sure there in.) 這些都非常振奮、 鼓舞人 心。

如何找尋、 猜測到規律? 這是求知、

思考活動的核心, 較深刻 (profound) 而有 趣。 當我們猜測到規律後, 要加以證明或否證 (proof or refutation), 通常是平凡 (ordi- nary) 而順理成章的。 注意到, 只有數學才 有證明! 偉大數學家 Poincar´e(1854-1912) 說: 「我們利用邏輯來證明, 但是我們透過直 覺來發明。」(It is by logic we prove, but by intuition that we invent.) Leib- niz 把規律與秩序看成是自然的一種先定和 諧 (a pre-estabilished harmony)。「欲窺探

(12)

此先定和諧的願望, 是支持科學家工作的永 不止息的耐力與恆心之泉源」, Einstein如是 道出他的寶貴經驗。

三 . 機率的各種解釋

什麼是機率? 長久以來數學家與哲學家 爭論不休。 各門各派的人對機率提出了各種 不同的解釋, 這恰好反應出機率概念的深刻, 滑溜而不易把捉。 比美於歐氏幾何中的點: 什 麼是點? 點有多大?

每個人對機率都有一些常識概念, 但是 細思起來又常會出現漏洞或矛盾。 正如 St.

Augustine 所說的: 「什麼是時間? 如果沒 有人問我, 我是清楚明白的; 如果我要解釋給 問我的人聽, 我就迷惑了。」

機率論具有廣泛而豐富的應用: 在研究 大自然方面, 「自然的真正理路在於機率的演 算」(The true logic of Nature is in the Calculus of Probability. J.C. Maxwell 之 名言); 在日常事物方面, 「機率更是生活的指 南」(Probability is the very guide of life.

J. Butler 之名言。 ) 為了應用機率, 就迫切 需要給予解釋, 以便跟直觀常識連結起來。 歷 來對機率的解釋不下十餘種, 我們只選擇五 種重要而有代表性者來介紹。

甲 . 機會均等說 (Equiprobability theory)

這一派又叫做古典的觀點或 Laplace 的觀點, 主要的提倡者有 Pascal、 Fermat、

D’Alembert、 Laplace 等人。 他們首次嘗試 給機率定量化以及一些基本的演算規則。 我 們分成四項來敘述:

(I) 基本假設

對於一個隨機實驗的所有可能出現結 果, 在沒有理由來預期或偏好某一結果時, 每 一個結果的地位都相同, 皆應視為機會均等 (equi- probable)。 在文獻上, 這通常叫做 不充足理由原理 (Principle of insufficient reason) 或無差別原理 (Principle of indif- ference) 或對稱性原理。

(II) 機率的定義與演算規則

我們採用現代集合記號。 設 Ω 表示一 個隨機實驗的所有可能結果, 叫做樣本空間 (Sample space)。 A ⊂ Ω 表示一個事件 (event), #A 表示集合 A 的元素個數。

(1) 當 #Ω < ∞ 時, 我們定義事件 A 的機 率為

P (A) = #A

#Ω (33)

(2) 當 #Ω = ∞ 時, 若 Ω 可表現為幾何空 間的領域, 則定義

P (A) = m(A)

m(Ω) (34) 其中m(A) 表示 A 的長度、 面積或體 積等等。 (34) 式就是所謂的幾何機率 (geometric probability)。

至 於 機 率 的 演 算 規 則 (Calculus of probabilities), 這 不 外 是 四 則 運 算 (+, −, ×, ÷) :

(i) 加法: 若A,B 兩事件互斥, 即 A ∩B = φ

(13)

, 則 A 或 B 發生的機率為

P (A ∪ B) = P (A) + P (B) (35) (ii) 減法: 若 A

c

= Ω \ A 表示 A 的補事件,

P (A

c

) = 1 − P (A) (36) (iii) 乘法: 若A,B 互相獨立, 則 A 與 B 同

時發生的機率為

P (A ∩ B) = P (A) · P (B) (37) (iv) 除法: 若 P (B) > 0 , 則在 B 發生下重

估 A 發生的機率為

P (A|B) = P (A ∩ B)

P (B) (38) 這叫做 A 對 B 的條件機率

(conditional probability)。

(v) 0 或 1 之機率: 不可能事件 φ 的機率為 0, 鐵定事件 Ω 的機率為 1

P (φ) = 0, P (Ω) = 1 (39)

(III) 優點

在機會均等的假設下所定義的機率, 其 計算只是排列與組合之點算。 因此它的優點 有

(1) 直觀易懂、 簡潔、 實用。 我們對機率 的直觀常識皆起源於此。

(2) 適用於日常生活的賭局 (games of chance) 以及一些科學的領域。 今日初等的

「點算機率」 仍然通行。

(IV) 缺點

(1) 當 #Ω = ∞ 時, (33) 式的定義失 效。

(2) 無法作為統計學的基礎, 因為統計 學時時會涉及 #Ω = ∞ 的情形。

(3) 對於有些情況, 不易確認 「機會均 等」 所要施展的樣本空間, 因而容易產生一些 詭論 (paradoxes), 例如著名的 Bertrand 詭論: 在單位圓的內部任意劃一弦, 這弦的 長度大於圓內接正三角形邊長的機率可以是 1/2,1/3與 1/4。 又如在統計力學中, 我們考 慮 r 個粒子置於 n 個袋子的問題, 其樣本空 間有各種情形, 如下表:

球可分辨 球不可分辨

袋子可重複置球 n

r n

H

r

=

n+r−1

C

r

Maxwell-Boltzmann統計 Bose-Einstein 統計 袋子不可重複置球

n

P

r

, (r ≤ n)

n

C

r

, (r ≤ n)

Fermi-Dirac統計

(14)

因此要對於哪個樣本空間施展 「機會均 等」 的假設, 並不是自明的。 理論與經驗之間 的關係往往很微妙而複雜。

(4) 容易對於機率產生誤解, 例如 D’Al- embert 就說:「一件事情 A 只有發生 與不發生, 故 P (A) =

1 2

。」 又如將丟一個公 正銅板出現正面的機率是 1/2 解釋為丟 2 次 就出現 1 次正面等等。

古典的機率理論, 首次嘗試給機率建立 嚴格的數學基礎。 雖然不完美, 有許多缺點, 但是平心而論, 若沒有它, 就產生不出往後的 更豐富而美麗的新理論。 正如 Galileo 是在 批判 (破)Aristotle 物理學的錯誤之下, 才逐 漸立下新物理學。

乙 . 公理化的觀點 (Axiomatic approach)

從 純 數 學 的 眼 光 來 看, 自 從 1933 年 Kolmogorov 提出機率論的公理系統 (Hilbert在 1900 年提出著名的 23 個問題, 其 中第 6 個問題就是機率論的公理化問題), 對 一個隨機現象採用機率空間 (Ω, F, P ) 的理 型來描述, 那麼機率只不過是一個可列加的 ( σ -additive) 測度 P , 總測度為 P (Ω) = 1 , 或者乾脆看作是公理系統中的一個無定義 名詞 (undefined term)。 這種不解釋機率是 什麼, 只管機率的演算規則的辦法, 不失為是 一個高招, 相當於 「無言」 或 「留白」 的妙用,

「天何言哉, 四時行焉, 百物生焉。」 比較起來, 歐氏 (Euclid) 反而是有點畫蛇添足, 他定義 點只佔有位置而沒有大小, 但從來沒有用到

它。 因為有困難: 點沒有長度, 如何累積出有 長度的線段?

機 率 空 間 的 理 型 是 經 過 長 期 的 試 誤 (trial and error), 演化才創造出來的。 在 機率空間的模型下, 我們可以推導出大數法 則, 用來連結一個事件的機率與可經驗的相 對頻率。 這是機率的頻率說的發源地。

數學之公理的、 形式的終究本質 (ulti- mate reality) 由 Hilbert 完全揭露, 他發 現在歐氏幾何中將點、 線、 面改為椅子、 桌 子、 茶杯並不影響整個體系。 機率論當然也不 例外。這種由公理出發的演繹體系, 完全是空 架性的, 只是一種傳遞真值 (truth value) 的邏輯網路: 如果由源頭輸入的是真值, 那 麼真理就會流佈於整個系統。 一切都非常清 澈與明確, 自我完足。 但是, 數學所付出的代 價就是羅素 (B.Russell) 所說的一句嚴肅的 俏皮話: 「數學是這樣的一門學問, 我們永遠 不知所云, 也不知道我們所說的是否為真。」

(Mathematics is the subject in which we never know what we are talking about nor what we are talking about is true.) 因為要對最初輸入的東西 (即公理) 作解釋, 跟自然世界連結, 並且確定其為真, 這些並不 是數學份內的事, 而是應用數學 (包括理論物 理學) 的工作。 從哲學知識論的觀點來看, 這 個工作並不容易, 是產生爭論與不確定之源。

愛因斯坦 (Einstein) 說得好: 「當數學定律 指涉到實體世界時, 它們就不是確定的; 當它 們是確定時, 它們就不指涉到實體世界。」(As far as the laws of mathematics refer to reality, they are not certain; and as far

(15)

as they are certain, they do not refer to reality.) 追求確定不移的知識是人類的 渴望, 但是擁抱自然卻要付出得不到完全確 定的代價。 由於科學理論之 「天地不全」, 故 需不斷破舊立新, 而產生科學革命。

將機率視為公理系統中的無定義名詞是 公理化機率論的優點。 如果要問什麼是機率, 那麼就透過大數法則, 由相對頻率來偷窺一 下機率的影子。 這可以說是大多數數學家對 機率所採取的態度。

丙 . 頻率說 (Frequency theory)

這 又 叫 做 機 率 的 統 計 觀 點 或 經 驗 觀 點, 主要的提倡者有 Venn(1886), Von Mises(1928), Reichenbach(1935) 等人。

這一派的主要論點: 機率是自然世界客 觀的一個屬性, 像質量、 距離或其它物理一 樣, 必須透過觀測與度量來揭露。 機率由自然 世界的特性唯一決定, 只能後驗地 (a pos- teriori) 得知; 在相同狀況下作大量的觀測, 經由相對頻率來反應。 對一個事件作觀測, 當 觀測越長期, 其次數越大時, 相對頻率漸趨穩 定, 其極限值就是該事件的機率。 機率論是描 述自然的一部分, 或至少是物理理論架構的 一部分。

頻率說的優點是注重經驗, 適合於壽險 精算與統計學的用途。 但是它的主要缺點有 三:

(1) 對於不能重複作實驗觀測的事件無 法賦予機率。 不過我們仍然可以說: 明天下雨 的機率是1/3, 民主黨大選獲勝的機率是5/9,

某生考上大學的機率是 4/7, 而頻率說無能為 力。

(2) 人生有涯, 我們的經驗是有窮的, 不 是無窮的, 我們只能作有窮多次而無法作無 窮多次的實驗觀測。 因此純靠觀測經驗無法 掌握機率。

(3) 相對頻率的極限值不見得存在。

丁 . 邏輯關係說 (Logical rela- tion theory)

這一派又叫做機率的先驗說 (A priori theory of probability), 主要的提倡者有 Key- nes(1921), Jeffreys(1948), Koop- man(1940) 以及 Carnap(1950) 等人。

他們的主要論點如下: 機率是先驗決定 的, 而不是靠純經驗得知的。 機率是從定命事 件 (或敘述) 的恆真或恆假 (機率為 1 或 0) 延拓成有時真有時假的事件, 即在恆真與恆 假之間作連續插值。 機率是敘述之間的邏輯 關係, 永遠相對於給定的資訊來說的。 因此, 機率就是度量給定資訊 (證據、 知識) 對一個 事件的邏輯支持程度。 當給定的資訊改變時, 相應地一個事件的機率也跟著改變。 例如, 當 我們知道某人是英國人, 其餘一無所知, 在這 個證據下, 他很可能右眼是藍色的, 但是當我 們進一步知道他的左眼是藍色時, 原先的機 率就完全改變。 這使得歸納邏輯 (inductive logic) 以及從經驗 (或錯誤) 中學習變成可 能。 這一派企圖用機率手法來解決科學哲學 中深刻的歸納問題。

(16)

戊 . 機率的主觀說 (The suljec- tivistic theory of probability)

這 一 派 的 主 要 提 倡 者 有 Ramsey (1931), De Finetti(1937) 以及 Sav- age(1954) 等人。 他們的論點如下:

每一個人對任何事件都持有信仰度 (de- gree of belief), 機率就是一個人對一個事 件信仰度的表白。 欲知一個人對一個事件所 持的機率最好是考察他的行為, 尤其是他在 打賭行為中願冒的風險。 世界上並無客觀的 機率, 或至少客觀機率是較不重要的一種機 率概念。 一個事件並無唯一的機率, 每一個人 在邏輯上都有自由選取自己的機率。 合理的 信仰度必跟機率的演算規則一致。 這一派為 Bayes 觀點的統計決策論提供了基礎。

四 . 結語

以上對機率的五種解釋, 基本上已含蓋 了我們平常對機率概念的各層面之理解。 「無 尚妙趣, 了悟之樂。」

不過, 我們還是沒有完全抓住機率, 它仍 然在 「忽隱忽現」 之中, 我們有點像是瞎子摸 象。 每一次我們加以捕捉, 起先以為捉住了, 後來又發現給溜了。 事實上, 機率就像命運、

機運一樣, 也許永遠說不清, 因為它們都生存

在無窮遠處的理想彼岸, 有如鏡花水月, 可望 不可即, 但卻形成一個永恆的引力中心, 引人 入勝。

雖然我們對機率無法求得甚解。 但這並 不影響我們對它的數學研究。 機率論就是要 把機運可用數學說出的部分說清楚, 如此而 已。

參考文獻

1. J.M Keynes: A treatise on probability, MacMillan And Co. Ltd London, 1921.

2. R. Weatherford: Philosophical Founda- tions of probability theory, Routledge

& Kegan Paul Ltd, 1982.

3. A. Hald: A History of probability and statistics and their applications before 1750, John Wiley and Sons, 1990.

4. Y.G. Sinai: Probability theory, An Introductory Course, Springer- Verlag,1991.

5. 蔡聰明: 談 Stirling 公式, 數學傳播, 十七 卷二期, 1993.

6. A.N. Whitehead: Science and the mod- ern world, MacMillan, 1925.

7. S.M. Stigler: The History of Statistics, The Measurement of Uncertainty be- fore 1900, Harvard Univ. press, 1986.

本文作者任教於台灣大學數學系

參考文獻

相關文件

L´evy 認為與其將 它們各別處理, 還不如先由泛函分析著手, 再 引入上述機率論一系列的研究中而觀其所扮 演的角色, 一方面可更展現其輝煌的一面, 同

隨機微分方程式等之名乎。 另一方面, 機率 論之應用層面亦大有進展; 豈不見隨機微 分方程在金融之應用乎。 在此短文中, 筆者 簡略談些機率論與函數論的一些關連。 雖是

Spencer, The Probabilistic Method, Third Edition, with an appendix on the life and work of Paul Erd˝os, Wiley-Interscience Series in Discrete Math.. Radziszowski, Small Ramsey

年才由俄國偉大數學家 Kolmogorov(1903- 1987 年) 完成機率論的公理化 (幾乎跟 Von Neumann 的量子力學公理化同時完成), 提 出機率空間的理型作為機率論的基礎。 從此

Cauchy, Gauss, Laplace, Poisson (from left to right) Cauchy, Gauss, Laplace, Poisson (from left to right)... Poisson and Poisson Process Poisson and

[r]

大約分成三個層次:宿命論、因果律、機率論。其中,機率論可以看為廣義的因

Given a sample space  and an event  in the  sample space  , let