• 沒有找到結果。

如何找出劣幣

N/A
N/A
Protected

Academic year: 2022

Share "如何找出劣幣"

Copied!
10
0
0

加載中.... (立即查看全文)

全文

(1)

如何找出劣幣 ?

—簡介訊息與熵的概念

蔡聰明

機率、 訊息、 熵、 混沌與碎形是現代資 訊革命所產生之新的科學典範 (paradigm)。

作為將要邁入 21 世紀的現代人, 很有必要去 掌握這些概念。

本文我們僅輕輕觸及 「機率、 訊息、 熵」

這一面, 作最初步的淺介。

一、 一個益智問題

在益智遊戲裡, 有這樣一個問 題:

給 27 個外表完全相同的硬幣, 其中恰有一個的重量跟其它的不 同, 叫做劣幣, 要利用天平把它秤 出來, 問應如何秤法? 最少要秤幾 次?

這是施展分析法與實驗試誤法的好問題, 求 得解答並不困難。 表面上看起來, 這個問 題只是作為 「茶餘飯後」 的益智談論, 但 是如果認真追根究柢, 它的背後卻涉及到

「熵」(entropy) 的概念、 訊息理論 (informa- tion theory)、 遍歷理論 (ergodic theory) 等等, 這些就非常重要了。

因此, 這是一個好例子, 足以引動好奇 心, 產生追尋過程, 進入一個美麗的天地。 換 言之, 這個 「特例」 具有推展到 「一般理論」

的妙趣。

二、 已知劣幣是輕或重

不妨假設劣幣較輕 (較重的情形同理可 求解)。 首先將 27 枚硬幣均分成 A, B, C 三 堆, 每一堆都含有 9 枚, 再按下面三個步驟就 可以找到劣幣:

第一步: 任選兩堆, 例如 A 與 B, 分別 置於天平的兩邊, 得到三種可能的結果:

....A...B (1) ∆

...

A

B (2) ∆

...

A

∆ B (3)

我們由 (1),(2),(3) 可知, 劣幣分別在 C, B 或 A 這一堆。

第二步: 將含劣幣這一堆, 再均分成 D, E, F 三堆, 每一堆都含有 3 枚, 再仿第一

26

(2)

步的辦法, 任取兩堆, 例如 D 與 E, 分別置 於天平的兩邊, 得到三種可能結果:

....D...E (4) ∆

...

D

E (5) ∆

...

D

∆ E (6)

對應於 (4),(5),(6) 三種情形, 可知劣幣分 別在 F, E 或 D 這一堆, 令其三枚硬幣為 a, b, c。

第三步: 從 a, b, c 中任取兩枚, 例如 a 與 b, 分別置於天平兩邊, 得到三種可能結果:

...

a b

(7) ∆

...

a b

(8) ∆

...

a

∆ b (9)

由此立知, 對應於 (7),(8),(9) 三種情形, 劣 幣分別為 c 或 b 或 a。

結論: 秤三次必可找出劣幣, 並且秤法 如上所述。

三、 不知劣幣是輕或重

這種情形必須多秤一次, 即總共要秤四 次, 如下:

若第一次秤的結果是 (2), 則知 C 堆皆 是良幣。 取 A 與 C 秤第二次:

(i) 如果平衡, 則知劣幣在 B 堆之中且較 輕;

(ii) 如果 A 重 C 輕, 則知劣幣在 A 堆之 中且較重。

注意, A 輕 C 重的情形不可能發生。

接著不妨考慮 (i) 的情形。 將 B 堆等 分成 D, E, F 三堆, 每堆皆含三枚硬幣。 任 取 D 與 E 兩堆秤第三次: 如果平衡, 則劣 幣在 F 堆且較輕; 如果 D 重 E 輕, 則劣幣 在 E 堆且較輕; 如果 D 輕 E 重, 則劣幣在 D 堆且較輕。

假設劣幣在 F = {a, b, c} 這一堆, 任 取 a 與 b 兩枚硬幣秤第四次: 如果平衡, 則 劣幣為 c 且較輕; 如果 a 重 b 輕, 則劣幣為 b 且較輕; 如果 a 較 b 重, 則劣幣為 a 且較 輕。

結論: 秤四次必可找出劣幣, 並且知道 劣幣是較重或較輕。

四、 更多的疑惑

數學的美妙之一就是, 當我們解決一個 問題時, 往往會生出更多的問題, 好像是神話 故事中的怪蛇, 每砍斷一個頭, 立刻又長出三 個頭。 數學家的主要興趣在於, 由特殊問題引 出一大類問題, 然後一舉解決整類問題。 在解 決問題的過程中, 特殊問題通常扮演著引導 與照亮暗路的燈光。

在上述問題中, 27 枚硬幣, 秤 3 次或 4 次, 這些數字是偶然的嗎? 它們有什麼關連?

如果改為 12枚或 30枚又如何? 一般而言, N 枚硬幣需秤幾次? 如果允許秤5次, 最少與最 多可鑑定幾枚硬幣? 秤 n 次呢?

(3)

對於這一整類問題, 欲求得一個全盤的 解決辦法, 這就是訊息理論所要研究的一個 論題。 事實上, 這只是訊息理論的一個簡單應 用。

在 N 枚硬幣中, 含有一枚劣幣, 但不 知是哪一枚。 這表示我們對此系統有某種程 度的 「無知」(ignorance), N 越大無知的程 度也越大。 當我們得知劣幣是哪一枚時, 就獲 得了 「訊息」(information), 從 「無知」 變成

「知」。

我們用天平每秤一次, 就得到一些 「訊 息」, 把 「無知」 的程度減少一點。 逐步秤就 逐次累積 「訊息」, 終至把無知完全消除。

對於 「訊息」 每個人都有或多或少的直 觀了解 (正如對美醜有所了解一樣), 但是我 們要的是 「定量」(quantitative) 的掌握。 從 直觀的 「定性」(qualitative) 描述走到精確 的 「定量」 刻劃, 乃是科學探索的發端, 然後 定量與定性迴旋交互運用。 因此, 我們的問題 是:

如何度量一個事件的 「訊息」 ?

由此可展開一個驚心動魄的 「觀念探險」(ad- ventures of an idea) 之旅。

五、 事件的局部訊息

解讀 「自然之書」(the Book of Na- ture) 是科學求知活動最重要且最有趣的主 題。 大自然像古羅馬 Janus 神一樣有許多面, 甚至是無窮多面。 機率論 (probability the- ory) 就是解讀大自然的反覆無常 (caprice)、

說不準 (uncertainty) 這一面而發展出來的 數學理論。

自然或人文現象大致可分成定命的 (deterministic) 與隨機的兩個範疇 (cate- gories)。 前者說得準, 即在給定條件或原因 之下, 鐵定會得到某個果 (具有一定的因果關 係), 所謂 「種瓜得瓜, 種豆得豆」; 而後者在 給定條件下, 可能得到這個果, 也可能得到那 個果, 即有種種可能的結果 (outcomes)。

對一個隨機現象作實驗觀測, 就叫做

「隨機實驗」(random experiment)。 我們對

「實驗」 採取廣義的解釋, 它可以是天然發生 的或人為設計的, 例如丟一個骰子, 觀測生男 或生女, 預測明天的天氣, 一個袋子含有27枚 硬幣從中任取出一枚, 這些都隨機實驗。

令 Ω 表示一個隨機實驗所有可能出現 的結果, 叫做樣本空間 (sample space)。 例 如丟一枚硬幣時,Ω = {H, T }; 丟兩個骰子 時,

Ω = {(1, 1), · · · , (1, 6), · · · , (6, 6)}。

樣本空間的一個子集 A ⊂ Ω 就叫做一個事 件 (an event)。 我們用 P (A) 表示事件 A 發生的機率 (probability), 它是介於 0 與 1 之間的一個數。

當我們觀測到或聽到一個事件發生時, 就得到了一些 「訊息」。 例如考慮下面兩個事 件:

「太陽從東邊出來」 與 「人咬狗」。

第一句話幾乎是必然事件, 機率為 1, 我們聽 到它發生, 一點都不覺得驚訝 (surprise), 沒 有得到 「訊息」。 第二句話是稀有事件, 機率 很小, 我們聽到它發生, 覺得很驚訝, 得到很 多 「訊息」。 因此, 訊息的多寡跟機率很有關 係, 一個事件的機率越小, 但發生了, 我們就

(4)

得到越多的訊息。 換言之, 一個事件的訊息是 其機率的函數。

一般而言, 作一個隨機實驗, 令事件 A 的機率P (A) = p, 今觀測到 A 發生, 我們得 到訊息

I = f (p) 問題: f 是什麼函數呢?

通常要追尋一個函數並不容易, 好在

「大自然」 會透露一些線索, 提供我們有關 f 的一些訊息, 由此常可唯一決定出 f 。 例 如, 當 A 為一個必然事件 (sure event), 即P (A) = 1 時, A 發生我們沒有得到訊息。

換言之,

(i) f (1) = 0

其次, 當 p 越小時, f (p) 越大, 即 (ii) f 為一個遞減函數

進一步, 因為當 p 微小改變時, 只導致訊息的 微小改變, 故我們可以假設

(iii) f 為一個連續函數 這是欲作數學討論的一個起碼要求。

這三個條件能唯一決定 f 嗎? 不能! 因 為

f (p) = α(1 − p)

n

, α > 0, n ∈

N

f (p) = −k log p, k > 0

f (p) = 1 − e

p−1

顯然都滿足上述三個條件。 事實上, 有無窮多 個函數滿足 (i) 至 (iii) 的條件。 要唯一決定 f 的形式, 還需要其它條件。

一個隨機實驗通常並不是單純的如丟一 個銅板或一個骰子, 而是由許多小實驗合成

的, 例如丟 n 次銅板的隨機實驗就是由丟一 個銅板的小實驗獨立地作 n 次整個合起來 的。 這當然也可以看成是幾個相同的銅板丟 一次的隨機實驗。

今考慮一個複合的隨機實驗。 設 A 與 B 為兩個事件, 則 A ∩ B 表示 A 與 B 都 發生的事件。 如果

P (A ∩ B) = P (A)P (B)

則稱 A 與 B 是獨立的 (independent)。 獨 立性的概念在機率論與統計學中佔有核心的 地位, 在重覆獨立的實驗中, 才浮現出 「機運」

的規律性。

假設 A, B 是兩個獨立事件, 今 p = P (A), q = P (B), 則 P (A ∩ B) = pq。

A 發生並且 B 又發生, 我們得到 f (pq) 的 訊息。 那麼 f (pq) 與 f (p), f (q) 是什麼關係 呢?

A 發生, 我們得到訊息 f (p)。 由於 A, B 是獨立的, 故 A 發生後 B 再發生, 我 們又得到訊息 f (q), 完全跟 p 無關, 兩者合 起來就得到 f (pq)。 換言之,

(iv) f (pq) = f (p) + f (q)

這個條件大大地局限了 f 的可能性。 事 實上, (i)-(iv) 唯一決定 f 的形式, 這就是下 面的結果:

定理1: 如果函數 f : (0, 1] → [0, ∞) 滿足上述 (i)-(iv) 的條件, 則 f 必形如

f (p) = −K log

2

p, K > 0.

證明: 由 (iv) 知

f (p

2

) = f (p) + f (p) = 2f (p).

(5)

由數學歸納法可知

f (p

m

) = mf (p), ∀m ∈

N

(1) 從而, 對任意自然數n, 我們有

f (p) = f (p

1 /n

. . . p

1 /n

) = nf (p

1 /n

) 於是

f (p

1 /n

) = 1

nf (p) (2) 由 (1) 與 (2) 兩式得知, 對任意非負有理數r f (p

r

) = rf (p) (3) 再由 f 的連續性知, 對任意非負實數 x, 恆 有

f (p

x

) = xf (p) (4) 今對任意實數p, 0 < p ≤ 1, 令x =

− log

2

p, 則p = (

1 2

)

x

。 由 (4) 式知 f (p) = f



(1

2)

x 

= xf (1 2)

= −K log

2

p (5) 其中K = f (

1 2

) 並且由 (i) 與 (ii) 知

K = f (1

2) > f (1) = 0 至此證明完畢。

通常取 K = f (

1 2

) = 1, 這意指取定 一個度量單位, 此時度量出的訊息單位叫做 bit(位元, binary digit)。 從而公式 (5) 變 成

f (p) = − log

2

p bits (6) 假設事件 A 的機率為 p, 那麼得知 A 發 生所得到的訊息為 − log

2

p bits, 這叫做事 件 A 的局部訊息量 (local information)。 丟

一個公正銅板, 正面與反面出現的機率各

1 2

, 當我們得知出現正面時, 就得到 1 bit 之局 部訊息量。

六、 一個機率分佈的熵

我們先考慮下面三個例子:

甲. 在賽馬場上, 兩匹勢均力敵的馬, 不易預 測其結果; 但是兩匹相差懸殊的馬, 幾可 預知其結果。

乙. 丟一個骰子比丟一個銅板的不確定性更 大。

丙. 丟一個公正銅板比丟一個有偏銅板 (如出 現正、 反面的機率分別為 0.8與0.2) 更讓 人捉摸不定。

這些大家都 「直觀地」 承認, 但是我們的 問題是:

如何衡量一個隨機實驗的不確 定性程度?

機率空間 (Ω, F, P ) 是隨機實驗所含資 訊的精簡與理想化, 是一切機率演算的基礎。

但是, 這並不夠, 我們還需要隨機變數 (ran- dom variable) 的概念

X : Ω →

R

使我們更自由靈活地探討機率問題。 隨機變 數可以解釋成賭徒的輪贏金額, 對事件的重 新改訂, 一種出象機制, 一種觀測度量,. . .等 等。

一般而言, 觀察一個隨機實驗, 其結果 是一個隨機變數X。 假設 X 只取有限多個值

(6)

x

1

, x

2

, . . . , x

n

, 令事件 A

k

= {X = x

k

} 的 機率為 p

k

。 顯然

p

k

≥ 0, k = 1, 2, . . . , n 並且

n

X

k=1

p

k

= 1 我們稱 (p

1

, p

2

, . . . , p

n

) 為隨機變數X的機 率分佈 (probability distribution)。 於是我 們的問題變成:

如何衡量隨變數 X 或機率分 佈 (p

1

, . . . , p

n

) 的不確定性程度?

機率論對初學者構成困擾的原因之一, 就是沒有分清楚 「已然」 與 「未然」、 「現實」

與 「可能」。 在隨機實驗未作之前有各種可能 結果, 但是作了實驗之後, 出現一個結果, 就 叫做一個 「現實」(a realization)。 只有在未 作實驗之前的 「未然的」 與 「可能的」 世界, 才有機率可言。

今作一個隨機實驗, 報告說事件 A

k

發生了, 我們得到的驚訝量或局部訊息為

− log

2

p

k

。 可是在未然的世界, 我們只知道 可能發生 A

1

, 也可能發生 A

2

, . . ., 等等, 這 是說不準的。 由於發生 A

k

的機率是 p

k

, 我們 自然應該考慮期望值, 將 − log

2

p

k

乘以 p

k

, 再對 k 求和得到

S(p

1

, . . . , p

n

) = S(X) = −

n

X

k=1

p

k

log

2

p

k

(7) 其中若出現0 log

2

0就定義為lim

p→0

p log

2

p

= 0。 S(p

1

, . . . , p

n

) 或 S(X) 就是局部訊 息量的期望值 (expectation) 或平均值, 我 們又稱之為 X 或機率分佈 (p

1

, . . . , p

n

) 的 熵(entropy), 這是夏農 (Shannon) 在1948 年引進的一個重要的概念。

熵是對整個隨機實驗, 表現為機率分佈 (p

1

, . . . , p

n

), 所呈現出的不確定性或混亂程 度之度量。 由長期觀點來看, 每作一次隨機 實驗, 我們從 「無知」 到 「知」, 平均就得到 S(p

1

, . . . , p

n

) 的訊息量。

注意到, 在訊息論中, 隨機變數不重要, 它的取值也不重要, 重要的是它的機率分佈。

事實上, 熵只跟機率分佈 (p

1

, . . . , p

n

) 的組 合有關, 而跟其排列順序無關。 作為度量 「不 確定性」, 熵比機率分佈更模糊, 因為可以有 各種不同的機率分佈對應相同的熵。

如果機率分佈是均勻分佈, 即 p

k

= 1

n, k = 1, 2, . . . , n 則它的熵為

H(1

n, . . . , 1

n) = log

2

n (8) 此式叫做 Hartley 公式, 因為 Hartley 在 1928 年首度建議採用對數函數作為度量訊息 的工具。

我們可以想像有一個資訊源 (an in- formation source), 可能出現的結果是 x

1

, x

2

, . . . , x

n

並且機率均等:

... ... ...

x 1 x 2 .. . x n

資 訊 源

那麼它的熵就是 log

2

n, 這恰好也等於 觀察到任何一個值 x

k

所得的局部訊息, 兩者 合一。

例1: 一張身份證的號碼含有多少訊息?

目前台灣約有 21,000,000 人, 每個人一 個號碼, 機率均等, 故訊息量為

log

2

(21000000) = 24.3238 bits

(7)

例2: 觀看電視的一個畫面, 得到多少訊 息?

一個畫面由許多小光點組成, 例如假設 畫面分成 500 行與 600 列, 一共有 500 × 600 = 300, 000 個光點, 再假設每一個 光點有 10 種可分辨的顏色選擇, 於是總共有 10

300 ,000

種可能的畫面, 機率都相等。 因此, 觀看一個畫面的訊息量為

300, 000 log

2

10

+

10

6

bits

我們不妨作一個比較: 從收音機收聽到 1000 個字的廣播, 得到多少訊息? 假設常用 字有 10,000 個, 從中任意選取出 1000 個字, 總共有 (10000)

1000

種取法, 並且機率均等, 所以收聽到 1000個字所得的訊息量為

1000 log

2

10000

+

1.3 × 10

4

bits 這正好應驗一句諺語: 「一個圖勝過千言萬 語」 (One picture is worth a thousand words.)

問題: 考試卷上, 一個是非題的訊息是 多少? 一個 「五選一」 的選擇題, 其訊息是多 少? 一個有五個選項的多重選擇題, 其訊息 是多少?

我們要強調, 訊息論不作價值判斷, 要談

「一句話的訊息量」 決不能談這句話是好消息 或壞消息。 例如, 一位男士問他的女朋友: 你 喜歡吃牛肉麵嗎? 你嫁給我好嗎? 假設回答 Yes 或 No 的機率皆為 0.5, 那麼不論是得到 什麼答案, 這兩句話的訊息量都是 1 bit。 但 是, 若考慮價值判斷, 後一句話的答案顯然重 要得多。

這也警告我們, 數學的訊息並不是唯一 重要的考量。 我們常聽說: 寫文章要 「言之有 物」, 不要 「言之無物」; 好的文章每一句都恰 到好處, 而又有難以預期的驚訝; 詩比散文含 有更多的訊息。 這些都很重要, 但不是訊息論 所能完全掌握。

總之, 有不確定性或渾沌不明就有機率 分佈, 有機率分佈就有訊息或熵。

七、熵的性質與刻劃

根據 (7) 式的定義, 我們容易驗得熵具 有下列性質:

(A

1

) S(p

1

, . . . , p

n

) ≥ 0 並且等號成立 ⇔ 存在某個 p

k

= 1。

這表示不確定性恆為非負數並且當隨機 性不存在時, 等於 0。

(A

2

) S(p

1

, . . . , p

n

, 0) = S(p

1

, . . . , p

n

) (A

3

) S(

n 1

, . . . ,

1 n

) ≤ S(

n+1 1

, . . . ,

n+1 1

) (A

4

) S(p

1

, . . . , p

n

) 為一個連續的且對稱的

函數。

(A

5

) S(p

1

, . . . , p

n

) ≤ H(

n 1

, . . . ,

1 n

) 這表示機率是均勻分佈時, 有最大熵。

證明: Jensen 不等式告訴我們: 如果 f 為定義在 [a, b] 上的一個凸函數 (convex function), 則對於任意 x

1

, . . . , x

n

∈ [a, b]

以及 λ

k

≥ 0,

P n k=1

λ

k

= 1, 恆有 f (

n

X

k=1

λ

k

x

k

) ≤

n

X

k=1

λ

k

f (x

k

) (9)

今因 f (x) = −x log

2

x 為一個凹函數, 取 a = 0, b = 1, x

k

= p

k

, λ

k

= 1

n

(8)

則得

n

X

k=1

1

np

k

log

2

p

k

≤ −(

n

X

k=1

1

np

k

) log

2

(

n

X

k=1

1 np

k

) 從而

S(p

1

, . . . , p

n

) ≤ log

2

n = S(1

n, . . . , 1 n) 證畢。

其次, 我們考慮兩個隨機實驗複合成一 個大實驗之訊息量。 假設兩個實驗之觀測值 分別是隨機變數 X 與 Y , 那麼複合實驗之 觀測值是隨機變數 Z = (X, Y ), 令其機率 分佈為 (r

ij

)。 再令

p

i

=

X

j

r

ij

, q

j

=

X

i

r

ij

i = 1, . . . , n, j = 1, . . . , m,

則 (p

i

) 與 (q

j

) 分別是 X 與 Y 的機率分佈。

考慮 (r

ij

) 的訊息量 S(Z) = S(r

ij

), 這 又可以看成是兩個步驟之和: 先作實驗 X, 得到訊息量 S(X) = S(p

i

); 然後如果知 道 X = x

i

, 則 Y = y

j

的條件機率為

i

π

j

= r

ij

/p

i

, 故已知 X = x

i

時, Y 的

「條件訊息」 為 S(

i

π

1

,

i

π

2

, . . . ,

i

π

m

), 整個合 起來, 已知 X 時, Y 的 「條件訊息」 為

S(Y |X) =

n

X

i=1

p

i

S(

i

π

1

, . . . ,

i

π

m

) (10) 從而, 我們有

(A

6

) S(Z) = S(X) + S(Y |X)

特別地, 當 X 與 Y 獨立時, 即 r

ij

= p

i

· q

j

, 有 S(Y |X) = S(Y ) 並且

S(Z) = S(X) + S(Y )。

由Jensen 不等式也可證得 S(Y |X) ≤ S(Y )

反過來, 一個函數 H 若滿足 (A

1

) 至 (A

6

) 的條件, 則 H 必形如

H(p

1

, . . . , p

n

) = −

n

X

k=1

p

k

log

2

p

k

bits 其中 1 bit= H(

1 2

,

1 2

)。 我們省略掉證明。

因此, 我們可以採用公理化的手法來定 義熵。 所謂一個機率分佈的熵是指滿足 (A

1

) 至 (A

6

) 的函數。

八、熵與劣幣的找尋

找尋劣幣的問題, 有了熵的概念, 使我們 看得更清楚, 心中有數。

天平秤一次 (即作一次隨機實驗) 得到 多少訊息?

因為天平兩端必須置同數的硬幣, 故只 能是下列兩種情形:

(i) 將硬幣等分成兩堆: 但這限於總硬幣數為 偶數, 並且秤一次只可能是 「左輕右重」

或 「左重右輕」, 故最多可得 1 bit 之訊息 量。

(ii) 將硬幣分成三堆, 其中至少有兩堆的硬幣 數相等, 秤一次的可能結果是 「平衡」、「左 輕右重」 或 「左重右輕」, 故最多可得 log

2

3 bits 之訊息量。

對照起來, 分成三堆的情形, 可得較多的 訊息。

現在回到 27枚硬幣的問題。 將硬幣分成 A, B, C三堆, 各含有 n, n 及 27 − 2n 枚硬

(9)

幣, 取 A 與 B 兩堆來秤。 由於每一枚的機率 均等, 故

平衡的機率為 27 − 2n 27 左輕右重的機率為 n

27 左重右輕的機率為 n

27

欲得最大訊息 log

2

3, 則必須三者的機率相 等

n 27 = n

27 = 27 − 2n 27 = 1

3

從而, n = 9。 因此, 最好的秤硬幣的方式是:

等分成三堆, 然後任取兩堆在天平上作比較。

其次考慮總共需秤幾次的問題。 27枚硬 幣的訊息量是多少? 我們仍然分成兩種情形 討論:

(a) 已知劣幣是輕或重的情形。

因為 27枚硬幣的機率均等, 故總訊息量 (或熵) 為 log

2

27 bits。 又知秤 n 次最多可 得 n log

2

3 之訊息量。 若欲

n log

2

3 ≥ log

2

27 則必 n ≥ 3。 因此, 最少需秤3次。

(b) 不知劣幣是輕或重的情形

因為每一枚硬幣可能是輕或重, 故總共 有 2 × 27 = 54 種可能, 且機率均等, 從而 總訊息量為 log

2

54。 若欲

n log

2

3 ≥ log

2

54 則必 n ≥ 4。 因此, 最少需秤4次。

事實上, 我們實際秤量的結果, 前者秤 3 次, 後者秤 4 次, 就可以找到劣幣, 且知較輕 或較重。

最後考慮秤 n 次最多可鑑定幾枚硬幣的 問題。 假設我們不知道所含的劣幣是較輕或 較重。

根據上述的討論, 如果最多可鑑定 N

n

枚, 則

n log

2

3 ∼ log

2

2N

n

亦即

N

n

∼ 3

n

2 (11)

這只是初步的估計。

為了求得精確公式。 我們採用歸納法。

首先觀察特例, 容易驗知:

(i) 當 n = 2 時, N

2

= 3 = 3

1

(ii) 當 n = 3 時, N

3

= 12 = 3

1

+ 3

2

(iii) 當 n = 4 時, N

4

= 39 = 3

1

+ 3

2

+ 3

3

由此我們猜測, 對於一般 n,

N

n

= 3

1

+3

2

+· · ·+3

n−1

= 3

n

2 −3

2 (12) 如何證明呢? 物理學家戴森 (F. J. Dynson) 利用三進位法證明了 (12) 式, 參見 [6]。

至此有關找尋劣幣的問題完全解決。 例 如, 由 (12) 式知, 秤 5 次可鑑定硬幣數的範 圍是 40到 120枚。

九、熵的歷史演化

熵的概念最初發源於熱力學, 這是 Cla- usius 在 1864 年引入的一個重要概念。 Bo- ltzmann 在 1896 年強調熱力學的熵與機率 具有密切關係。 1928 年 Hartley 將 Boltz- mann 的想法引進訊息論中, 得到 Hartley 公式 [即 (8) 式]。 1948年 Shannon 再推廣 成 Shannon 公式 [即 (7) 式]。 Kolmogorov

(10)

在 1958年將 Shannon 熵的公式引入動力系 統, 用來研究兩個動力系統的同構問題。 今日 熵的概念已遍及科學、 數學, 甚至人文、 藝術 的領域, 變成日常生活的用語。

古希臘哲學家柏拉圖 (Plato, 427-347 B.C.) 非常重視幾何學, 他說:

(i) 不懂幾何學的人不得進入此門 (柏拉圖學 院的門)。

(ii) 不知道正方形的邊與對角線是不可共度 ( 即√

2 不是有理數) 者愧生為人。

隨著文明的進展, 到了近代, 邏輯哲學家 羅素 (B. Russell, 1872-1970) 說:

不懂牛頓如何從刻卜勒 (Kepler) 定律推導出萬有引力定律的人是 沒有受過教育的。

現代物理學家惠勒 (Wheeler) 改述為:

在過去, 只有當一個人了解 熵的概念後, 才能說是受過科學 教育。 在將來, 如果一個人不懂碎 形(fractal), 則會被認為是科學文 盲。

不確定性與混沌, 表現為機率分佈, 一方 面讓我們不可預期, 甚至困惑, 另一方面也讓 我們得到驚訝與啟示。 只有機運能夠對我們 說話, 從中我們解讀出豐富的含義。 然而, 機 運仍然是一個謎。 莎士比亞 (Shakespeare, 1564-1616) 問得好:

如果你能洞穿時間的種子, 並 且知道哪一粒會發芽, 哪一粒不 會, 那麼請告訴我吧! (If you can look into the seeds of time and say which grain will grow and which will not. Speak then to me!)

參考資料

1. G. Raisbeck, Information Theory, The M.I.T. Press, 1965.

2. G. Caglioti, The Dynamics of Ambigu- ity, Springer-Verlag, 1992.

3. A. Renyi, A Diary on Information The- ory, John Wiley and Sons, 1984.

4. L. Brillouin, Science and Information Theories, Academic Press, 1956.

5. J. D. Beasley, The Mathematics of Games, Oxford Univ. Press, 1990.

6. F. J. Dyson, The problem of pennies, Mathematical Gazette, 231-234, 1946.

7. J. D. Fast, Entropy, the significance of the concept of entropy and its ap- plications in science and technology, Macmillan, 1982。

8. P. Walters, An Introduction to Ergodic Theory, Springer-Verlag, 1982.

9. R. K. Guy and R. J. Nowakowski, Coin- weighing problems, American Math.

Monthly, 164-167, 1995.

本文作者任教於台灣大學數學系

參考文獻

相關文件

曾經,迷失在它的迷宮中,找不到出 口,它是如此遼闊,如此耀眼。從踏進 這裡的第一步起,內心就因滿足而微 笑。我站在巨人的肩膀上,探究不一樣

關於人為何老化,教材中提出「程式論」與「隨機錯誤理論」兩種類別的理論,就此二者請各舉 出該類別中的一種理論加以說明。 (第十三章

概念, 1858 年發表了關於這個課題的第一篇重要文章 hh矩陣論的研究報告ii , 系統地闡述了 關於矩陣的理論。 他在文中定義了矩陣的相等、 矩陣的運算法則、 矩陣的轉置、 零矩陣、 單位矩

除此之外, Kaluza 對大自然的理論模型做出非常重要的貢獻 (Klein 後來參與研究, 該 理論現稱 Kaluza-Klein 理論)。 Kaluza 是一位數學家。 他在平坦的 Minkowski 四維時空上

例如中央處理器、晶片、插卡等,這些電子元件在使用過程中,皆會產生熱

“這裡有一個奇特的小問題, 它使我想 起了我們在好幾個時候討論過的, Euclid幾 何的某些性質。 在同一平面上安排十七條直 線, 假設這些直線可以無限伸延且無三線共 點, 那麼,

液體、 彈性體、 電漿、 星雲、· · ·等。 守恆律方 程組發展的目標是一套具普遍性的數學理論, 比如非線性波理論、 計算方法理論、 宏觀極 限理論等。 其發展過程常是經由深入研究許

Greiner 教授說: 是許多有意思, 有代表性的例子, 研究者計算例子, 全盤了 解 例子, 從中找到結構, 演繹歸納出理論; 抽象的理論應以對例子徹底的了解做基 礎, 而早在 1707 年牛頓就說過 “In learn-