如何找出劣幣 ?
—簡介訊息與熵的概念
蔡聰明
機率、 訊息、 熵、 混沌與碎形是現代資 訊革命所產生之新的科學典範 (paradigm)。
作為將要邁入 21 世紀的現代人, 很有必要去 掌握這些概念。
本文我們僅輕輕觸及 「機率、 訊息、 熵」
這一面, 作最初步的淺介。
一、 一個益智問題
在益智遊戲裡, 有這樣一個問 題:
給 27 個外表完全相同的硬幣, 其中恰有一個的重量跟其它的不 同, 叫做劣幣, 要利用天平把它秤 出來, 問應如何秤法? 最少要秤幾 次?
這是施展分析法與實驗試誤法的好問題, 求 得解答並不困難。 表面上看起來, 這個問 題只是作為 「茶餘飯後」 的益智談論, 但 是如果認真追根究柢, 它的背後卻涉及到
「熵」(entropy) 的概念、 訊息理論 (informa- tion theory)、 遍歷理論 (ergodic theory) 等等, 這些就非常重要了。
因此, 這是一個好例子, 足以引動好奇 心, 產生追尋過程, 進入一個美麗的天地。 換 言之, 這個 「特例」 具有推展到 「一般理論」
的妙趣。
二、 已知劣幣是輕或重
不妨假設劣幣較輕 (較重的情形同理可 求解)。 首先將 27 枚硬幣均分成 A, B, C 三 堆, 每一堆都含有 9 枚, 再按下面三個步驟就 可以找到劣幣:
第一步: 任選兩堆, 例如 A 與 B, 分別 置於天平的兩邊, 得到三種可能的結果:
....A...B (1) ∆
...
A
B (2) ∆
...
A
∆ B (3)
我們由 (1),(2),(3) 可知, 劣幣分別在 C, B 或 A 這一堆。
第二步: 將含劣幣這一堆, 再均分成 D, E, F 三堆, 每一堆都含有 3 枚, 再仿第一
26
步的辦法, 任取兩堆, 例如 D 與 E, 分別置 於天平的兩邊, 得到三種可能結果:
....D...E (4) ∆
...
D
E (5) ∆
...
D
∆ E (6)
對應於 (4),(5),(6) 三種情形, 可知劣幣分 別在 F, E 或 D 這一堆, 令其三枚硬幣為 a, b, c。
第三步: 從 a, b, c 中任取兩枚, 例如 a 與 b, 分別置於天平兩邊, 得到三種可能結果:
...
a b
(7) ∆
...
a b
(8) ∆
...
a
∆ b (9)
由此立知, 對應於 (7),(8),(9) 三種情形, 劣 幣分別為 c 或 b 或 a。
結論: 秤三次必可找出劣幣, 並且秤法 如上所述。
三、 不知劣幣是輕或重
這種情形必須多秤一次, 即總共要秤四 次, 如下:
若第一次秤的結果是 (2), 則知 C 堆皆 是良幣。 取 A 與 C 秤第二次:
(i) 如果平衡, 則知劣幣在 B 堆之中且較 輕;
(ii) 如果 A 重 C 輕, 則知劣幣在 A 堆之 中且較重。
注意, A 輕 C 重的情形不可能發生。
接著不妨考慮 (i) 的情形。 將 B 堆等 分成 D, E, F 三堆, 每堆皆含三枚硬幣。 任 取 D 與 E 兩堆秤第三次: 如果平衡, 則劣 幣在 F 堆且較輕; 如果 D 重 E 輕, 則劣幣 在 E 堆且較輕; 如果 D 輕 E 重, 則劣幣在 D 堆且較輕。
假設劣幣在 F = {a, b, c} 這一堆, 任 取 a 與 b 兩枚硬幣秤第四次: 如果平衡, 則 劣幣為 c 且較輕; 如果 a 重 b 輕, 則劣幣為 b 且較輕; 如果 a 較 b 重, 則劣幣為 a 且較 輕。
結論: 秤四次必可找出劣幣, 並且知道 劣幣是較重或較輕。
四、 更多的疑惑
數學的美妙之一就是, 當我們解決一個 問題時, 往往會生出更多的問題, 好像是神話 故事中的怪蛇, 每砍斷一個頭, 立刻又長出三 個頭。 數學家的主要興趣在於, 由特殊問題引 出一大類問題, 然後一舉解決整類問題。 在解 決問題的過程中, 特殊問題通常扮演著引導 與照亮暗路的燈光。
在上述問題中, 27 枚硬幣, 秤 3 次或 4 次, 這些數字是偶然的嗎? 它們有什麼關連?
如果改為 12枚或 30枚又如何? 一般而言, N 枚硬幣需秤幾次? 如果允許秤5次, 最少與最 多可鑑定幾枚硬幣? 秤 n 次呢?
對於這一整類問題, 欲求得一個全盤的 解決辦法, 這就是訊息理論所要研究的一個 論題。 事實上, 這只是訊息理論的一個簡單應 用。
在 N 枚硬幣中, 含有一枚劣幣, 但不 知是哪一枚。 這表示我們對此系統有某種程 度的 「無知」(ignorance), N 越大無知的程 度也越大。 當我們得知劣幣是哪一枚時, 就獲 得了 「訊息」(information), 從 「無知」 變成
「知」。
我們用天平每秤一次, 就得到一些 「訊 息」, 把 「無知」 的程度減少一點。 逐步秤就 逐次累積 「訊息」, 終至把無知完全消除。
對於 「訊息」 每個人都有或多或少的直 觀了解 (正如對美醜有所了解一樣), 但是我 們要的是 「定量」(quantitative) 的掌握。 從 直觀的 「定性」(qualitative) 描述走到精確 的 「定量」 刻劃, 乃是科學探索的發端, 然後 定量與定性迴旋交互運用。 因此, 我們的問題 是:
如何度量一個事件的 「訊息」 ?
由此可展開一個驚心動魄的 「觀念探險」(ad- ventures of an idea) 之旅。
五、 事件的局部訊息
解讀 「自然之書」(the Book of Na- ture) 是科學求知活動最重要且最有趣的主 題。 大自然像古羅馬 Janus 神一樣有許多面, 甚至是無窮多面。 機率論 (probability the- ory) 就是解讀大自然的反覆無常 (caprice)、
說不準 (uncertainty) 這一面而發展出來的 數學理論。
自然或人文現象大致可分成定命的 (deterministic) 與隨機的兩個範疇 (cate- gories)。 前者說得準, 即在給定條件或原因 之下, 鐵定會得到某個果 (具有一定的因果關 係), 所謂 「種瓜得瓜, 種豆得豆」; 而後者在 給定條件下, 可能得到這個果, 也可能得到那 個果, 即有種種可能的結果 (outcomes)。
對一個隨機現象作實驗觀測, 就叫做
「隨機實驗」(random experiment)。 我們對
「實驗」 採取廣義的解釋, 它可以是天然發生 的或人為設計的, 例如丟一個骰子, 觀測生男 或生女, 預測明天的天氣, 一個袋子含有27枚 硬幣從中任取出一枚, 這些都隨機實驗。
令 Ω 表示一個隨機實驗所有可能出現 的結果, 叫做樣本空間 (sample space)。 例 如丟一枚硬幣時,Ω = {H, T }; 丟兩個骰子 時,
Ω = {(1, 1), · · · , (1, 6), · · · , (6, 6)}。
樣本空間的一個子集 A ⊂ Ω 就叫做一個事 件 (an event)。 我們用 P (A) 表示事件 A 發生的機率 (probability), 它是介於 0 與 1 之間的一個數。
當我們觀測到或聽到一個事件發生時, 就得到了一些 「訊息」。 例如考慮下面兩個事 件:
「太陽從東邊出來」 與 「人咬狗」。
第一句話幾乎是必然事件, 機率為 1, 我們聽 到它發生, 一點都不覺得驚訝 (surprise), 沒 有得到 「訊息」。 第二句話是稀有事件, 機率 很小, 我們聽到它發生, 覺得很驚訝, 得到很 多 「訊息」。 因此, 訊息的多寡跟機率很有關 係, 一個事件的機率越小, 但發生了, 我們就
得到越多的訊息。 換言之, 一個事件的訊息是 其機率的函數。
一般而言, 作一個隨機實驗, 令事件 A 的機率P (A) = p, 今觀測到 A 發生, 我們得 到訊息
I = f (p) 問題: f 是什麼函數呢?
通常要追尋一個函數並不容易, 好在
「大自然」 會透露一些線索, 提供我們有關 f 的一些訊息, 由此常可唯一決定出 f 。 例 如, 當 A 為一個必然事件 (sure event), 即P (A) = 1 時, A 發生我們沒有得到訊息。
換言之,
(i) f (1) = 0
其次, 當 p 越小時, f (p) 越大, 即 (ii) f 為一個遞減函數
進一步, 因為當 p 微小改變時, 只導致訊息的 微小改變, 故我們可以假設
(iii) f 為一個連續函數 這是欲作數學討論的一個起碼要求。
這三個條件能唯一決定 f 嗎? 不能! 因 為
f (p) = α(1 − p)
n
, α > 0, n ∈N
f (p) = −k log p, k > 0f (p) = 1 − e
p−1
顯然都滿足上述三個條件。 事實上, 有無窮多 個函數滿足 (i) 至 (iii) 的條件。 要唯一決定 f 的形式, 還需要其它條件。
一個隨機實驗通常並不是單純的如丟一 個銅板或一個骰子, 而是由許多小實驗合成
的, 例如丟 n 次銅板的隨機實驗就是由丟一 個銅板的小實驗獨立地作 n 次整個合起來 的。 這當然也可以看成是幾個相同的銅板丟 一次的隨機實驗。
今考慮一個複合的隨機實驗。 設 A 與 B 為兩個事件, 則 A ∩ B 表示 A 與 B 都 發生的事件。 如果
P (A ∩ B) = P (A)P (B)
則稱 A 與 B 是獨立的 (independent)。 獨 立性的概念在機率論與統計學中佔有核心的 地位, 在重覆獨立的實驗中, 才浮現出 「機運」
的規律性。
假設 A, B 是兩個獨立事件, 今 p = P (A), q = P (B), 則 P (A ∩ B) = pq。
A 發生並且 B 又發生, 我們得到 f (pq) 的 訊息。 那麼 f (pq) 與 f (p), f (q) 是什麼關係 呢?
A 發生, 我們得到訊息 f (p)。 由於 A, B 是獨立的, 故 A 發生後 B 再發生, 我 們又得到訊息 f (q), 完全跟 p 無關, 兩者合 起來就得到 f (pq)。 換言之,
(iv) f (pq) = f (p) + f (q)
這個條件大大地局限了 f 的可能性。 事 實上, (i)-(iv) 唯一決定 f 的形式, 這就是下 面的結果:
定理1: 如果函數 f : (0, 1] → [0, ∞) 滿足上述 (i)-(iv) 的條件, 則 f 必形如
f (p) = −K log
2
p, K > 0.證明: 由 (iv) 知
f (p
2
) = f (p) + f (p) = 2f (p).由數學歸納法可知
f (p
m
) = mf (p), ∀m ∈N
(1) 從而, 對任意自然數n, 我們有f (p) = f (p
1 /n
. . . p1 /n
) = nf (p1 /n
) 於是f (p
1 /n
) = 1nf (p) (2) 由 (1) 與 (2) 兩式得知, 對任意非負有理數r f (p
r
) = rf (p) (3) 再由 f 的連續性知, 對任意非負實數 x, 恆 有f (p
x
) = xf (p) (4) 今對任意實數p, 0 < p ≤ 1, 令x =− log
2
p, 則p = (1 2
)x
。 由 (4) 式知 f (p) = f(1
2)
x
= xf (1 2)= −K log
2
p (5) 其中K = f (1 2
) 並且由 (i) 與 (ii) 知K = f (1
2) > f (1) = 0 至此證明完畢。
通常取 K = f (
1 2
) = 1, 這意指取定 一個度量單位, 此時度量出的訊息單位叫做 bit(位元, binary digit)。 從而公式 (5) 變 成f (p) = − log
2
p bits (6) 假設事件 A 的機率為 p, 那麼得知 A 發 生所得到的訊息為 − log2
p bits, 這叫做事 件 A 的局部訊息量 (local information)。 丟一個公正銅板, 正面與反面出現的機率各
1 2
, 當我們得知出現正面時, 就得到 1 bit 之局 部訊息量。六、 一個機率分佈的熵
我們先考慮下面三個例子:
甲. 在賽馬場上, 兩匹勢均力敵的馬, 不易預 測其結果; 但是兩匹相差懸殊的馬, 幾可 預知其結果。
乙. 丟一個骰子比丟一個銅板的不確定性更 大。
丙. 丟一個公正銅板比丟一個有偏銅板 (如出 現正、 反面的機率分別為 0.8與0.2) 更讓 人捉摸不定。
這些大家都 「直觀地」 承認, 但是我們的 問題是:
如何衡量一個隨機實驗的不確 定性程度?
機率空間 (Ω, F, P ) 是隨機實驗所含資 訊的精簡與理想化, 是一切機率演算的基礎。
但是, 這並不夠, 我們還需要隨機變數 (ran- dom variable) 的概念
X : Ω →
R
使我們更自由靈活地探討機率問題。 隨機變 數可以解釋成賭徒的輪贏金額, 對事件的重 新改訂, 一種出象機制, 一種觀測度量,. . .等 等。
一般而言, 觀察一個隨機實驗, 其結果 是一個隨機變數X。 假設 X 只取有限多個值
x
1
, x2
, . . . , xn
, 令事件 Ak
= {X = xk
} 的 機率為 pk
。 顯然p
k
≥ 0, k = 1, 2, . . . , n 並且n
X
k=1
p
k
= 1 我們稱 (p1
, p2
, . . . , pn
) 為隨機變數X的機 率分佈 (probability distribution)。 於是我 們的問題變成:如何衡量隨變數 X 或機率分 佈 (p
1
, . . . , pn
) 的不確定性程度?機率論對初學者構成困擾的原因之一, 就是沒有分清楚 「已然」 與 「未然」、 「現實」
與 「可能」。 在隨機實驗未作之前有各種可能 結果, 但是作了實驗之後, 出現一個結果, 就 叫做一個 「現實」(a realization)。 只有在未 作實驗之前的 「未然的」 與 「可能的」 世界, 才有機率可言。
今作一個隨機實驗, 報告說事件 A
k
發生了, 我們得到的驚訝量或局部訊息為
− log
2
pk
。 可是在未然的世界, 我們只知道 可能發生 A1
, 也可能發生 A2
, . . ., 等等, 這 是說不準的。 由於發生 Ak
的機率是 pk
, 我們 自然應該考慮期望值, 將 − log2
pk
乘以 pk
, 再對 k 求和得到S(p
1
, . . . , pn
) = S(X) = −n
X
k=1
p
k
log2
pk
(7) 其中若出現0 log
2
0就定義為limp→0
p log2
p= 0。 S(p
1
, . . . , pn
) 或 S(X) 就是局部訊 息量的期望值 (expectation) 或平均值, 我 們又稱之為 X 或機率分佈 (p1
, . . . , pn
) 的 熵(entropy), 這是夏農 (Shannon) 在1948 年引進的一個重要的概念。熵是對整個隨機實驗, 表現為機率分佈 (p
1
, . . . , pn
), 所呈現出的不確定性或混亂程 度之度量。 由長期觀點來看, 每作一次隨機 實驗, 我們從 「無知」 到 「知」, 平均就得到 S(p1
, . . . , pn
) 的訊息量。注意到, 在訊息論中, 隨機變數不重要, 它的取值也不重要, 重要的是它的機率分佈。
事實上, 熵只跟機率分佈 (p
1
, . . . , pn
) 的組 合有關, 而跟其排列順序無關。 作為度量 「不 確定性」, 熵比機率分佈更模糊, 因為可以有 各種不同的機率分佈對應相同的熵。如果機率分佈是均勻分佈, 即 p
k
= 1n, k = 1, 2, . . . , n 則它的熵為
H(1
n, . . . , 1
n) = log
2
n (8) 此式叫做 Hartley 公式, 因為 Hartley 在 1928 年首度建議採用對數函數作為度量訊息 的工具。我們可以想像有一個資訊源 (an in- formation source), 可能出現的結果是 x
1
, x2
, . . . , xn
並且機率均等:... ... ...
x 1 x 2 .. . x n
資 訊 源那麼它的熵就是 log
2
n, 這恰好也等於 觀察到任何一個值 xk
所得的局部訊息, 兩者 合一。例1: 一張身份證的號碼含有多少訊息?
目前台灣約有 21,000,000 人, 每個人一 個號碼, 機率均等, 故訊息量為
log
2
(21000000) = 24.3238 bits例2: 觀看電視的一個畫面, 得到多少訊 息?
一個畫面由許多小光點組成, 例如假設 畫面分成 500 行與 600 列, 一共有 500 × 600 = 300, 000 個光點, 再假設每一個 光點有 10 種可分辨的顏色選擇, 於是總共有 10
300 ,000
種可能的畫面, 機率都相等。 因此, 觀看一個畫面的訊息量為300, 000 log
2
10+
106
bits我們不妨作一個比較: 從收音機收聽到 1000 個字的廣播, 得到多少訊息? 假設常用 字有 10,000 個, 從中任意選取出 1000 個字, 總共有 (10000)
1000
種取法, 並且機率均等, 所以收聽到 1000個字所得的訊息量為1000 log
2
10000+
1.3 × 104
bits 這正好應驗一句諺語: 「一個圖勝過千言萬 語」 (One picture is worth a thousand words.)問題: 考試卷上, 一個是非題的訊息是 多少? 一個 「五選一」 的選擇題, 其訊息是多 少? 一個有五個選項的多重選擇題, 其訊息 是多少?
我們要強調, 訊息論不作價值判斷, 要談
「一句話的訊息量」 決不能談這句話是好消息 或壞消息。 例如, 一位男士問他的女朋友: 你 喜歡吃牛肉麵嗎? 你嫁給我好嗎? 假設回答 Yes 或 No 的機率皆為 0.5, 那麼不論是得到 什麼答案, 這兩句話的訊息量都是 1 bit。 但 是, 若考慮價值判斷, 後一句話的答案顯然重 要得多。
這也警告我們, 數學的訊息並不是唯一 重要的考量。 我們常聽說: 寫文章要 「言之有 物」, 不要 「言之無物」; 好的文章每一句都恰 到好處, 而又有難以預期的驚訝; 詩比散文含 有更多的訊息。 這些都很重要, 但不是訊息論 所能完全掌握。
總之, 有不確定性或渾沌不明就有機率 分佈, 有機率分佈就有訊息或熵。
七、熵的性質與刻劃
根據 (7) 式的定義, 我們容易驗得熵具 有下列性質:
(A
1
) S(p1
, . . . , pn
) ≥ 0 並且等號成立 ⇔ 存在某個 pk
= 1。這表示不確定性恆為非負數並且當隨機 性不存在時, 等於 0。
(A
2
) S(p1
, . . . , pn
, 0) = S(p1
, . . . , pn
) (A3
) S(n 1
, . . . ,1 n
) ≤ S(n+1 1
, . . . ,n+1 1
) (A4
) S(p1
, . . . , pn
) 為一個連續的且對稱的函數。
(A
5
) S(p1
, . . . , pn
) ≤ H(n 1
, . . . ,1 n
) 這表示機率是均勻分佈時, 有最大熵。證明: Jensen 不等式告訴我們: 如果 f 為定義在 [a, b] 上的一個凸函數 (convex function), 則對於任意 x
1
, . . . , xn
∈ [a, b]以及 λ
k
≥ 0,P n k=1
λk
= 1, 恆有 f (n
X
k=1
λ
k
xk
) ≤n
X
k=1
λ
k
f (xk
) (9)今因 f (x) = −x log
2
x 為一個凹函數, 取 a = 0, b = 1, xk
= pk
, λk
= 1n
則得
−
n
X
k=1
1
np
k
log2
pk
≤ −(
n
X
k=1
1
np
k
) log2
(n
X
k=1
1 np
k
) 從而S(p
1
, . . . , pn
) ≤ log2
n = S(1n, . . . , 1 n) 證畢。
其次, 我們考慮兩個隨機實驗複合成一 個大實驗之訊息量。 假設兩個實驗之觀測值 分別是隨機變數 X 與 Y , 那麼複合實驗之 觀測值是隨機變數 Z = (X, Y ), 令其機率 分佈為 (r
ij
)。 再令p
i
=X
j
r
ij
, qj
=X
i
r
ij
i = 1, . . . , n, j = 1, . . . , m,
則 (p
i
) 與 (qj
) 分別是 X 與 Y 的機率分佈。考慮 (r
ij
) 的訊息量 S(Z) = S(rij
), 這 又可以看成是兩個步驟之和: 先作實驗 X, 得到訊息量 S(X) = S(pi
); 然後如果知 道 X = xi
, 則 Y = yj
的條件機率為i
πj
= rij
/pi
, 故已知 X = xi
時, Y 的「條件訊息」 為 S(
i
π1
,i
π2
, . . . ,i
πm
), 整個合 起來, 已知 X 時, Y 的 「條件訊息」 為S(Y |X) =
n
X
i=1
p
i
S(i
π1
, . . . ,i
πm
) (10) 從而, 我們有(A
6
) S(Z) = S(X) + S(Y |X)特別地, 當 X 與 Y 獨立時, 即 r
ij
= pi
· qj
, 有 S(Y |X) = S(Y ) 並且S(Z) = S(X) + S(Y )。
由Jensen 不等式也可證得 S(Y |X) ≤ S(Y )
反過來, 一個函數 H 若滿足 (A
1
) 至 (A6
) 的條件, 則 H 必形如H(p
1
, . . . , pn
) = −n
X
k=1
p
k
log2
pk
bits 其中 1 bit= H(1 2
,1 2
)。 我們省略掉證明。因此, 我們可以採用公理化的手法來定 義熵。 所謂一個機率分佈的熵是指滿足 (A
1
) 至 (A6
) 的函數。八、熵與劣幣的找尋
找尋劣幣的問題, 有了熵的概念, 使我們 看得更清楚, 心中有數。
天平秤一次 (即作一次隨機實驗) 得到 多少訊息?
因為天平兩端必須置同數的硬幣, 故只 能是下列兩種情形:
(i) 將硬幣等分成兩堆: 但這限於總硬幣數為 偶數, 並且秤一次只可能是 「左輕右重」
或 「左重右輕」, 故最多可得 1 bit 之訊息 量。
(ii) 將硬幣分成三堆, 其中至少有兩堆的硬幣 數相等, 秤一次的可能結果是 「平衡」、「左 輕右重」 或 「左重右輕」, 故最多可得 log
2
3 bits 之訊息量。對照起來, 分成三堆的情形, 可得較多的 訊息。
現在回到 27枚硬幣的問題。 將硬幣分成 A, B, C三堆, 各含有 n, n 及 27 − 2n 枚硬
幣, 取 A 與 B 兩堆來秤。 由於每一枚的機率 均等, 故
平衡的機率為 27 − 2n 27 左輕右重的機率為 n
27 左重右輕的機率為 n
27
欲得最大訊息 log
2
3, 則必須三者的機率相 等n 27 = n
27 = 27 − 2n 27 = 1
3
從而, n = 9。 因此, 最好的秤硬幣的方式是:
等分成三堆, 然後任取兩堆在天平上作比較。
其次考慮總共需秤幾次的問題。 27枚硬 幣的訊息量是多少? 我們仍然分成兩種情形 討論:
(a) 已知劣幣是輕或重的情形。
因為 27枚硬幣的機率均等, 故總訊息量 (或熵) 為 log
2
27 bits。 又知秤 n 次最多可 得 n log2
3 之訊息量。 若欲n log
2
3 ≥ log2
27 則必 n ≥ 3。 因此, 最少需秤3次。(b) 不知劣幣是輕或重的情形
因為每一枚硬幣可能是輕或重, 故總共 有 2 × 27 = 54 種可能, 且機率均等, 從而 總訊息量為 log
2
54。 若欲n log
2
3 ≥ log2
54 則必 n ≥ 4。 因此, 最少需秤4次。事實上, 我們實際秤量的結果, 前者秤 3 次, 後者秤 4 次, 就可以找到劣幣, 且知較輕 或較重。
最後考慮秤 n 次最多可鑑定幾枚硬幣的 問題。 假設我們不知道所含的劣幣是較輕或 較重。
根據上述的討論, 如果最多可鑑定 N
n
枚, 則
n log
2
3 ∼ log2
2Nn
亦即
N
n
∼ 3n
2 (11)
這只是初步的估計。
為了求得精確公式。 我們採用歸納法。
首先觀察特例, 容易驗知:
(i) 當 n = 2 時, N
2
= 3 = 31
(ii) 當 n = 3 時, N3
= 12 = 31
+ 32
(iii) 當 n = 4 時, N4
= 39 = 31
+ 32
+ 33
由此我們猜測, 對於一般 n,N
n
= 31
+32
+· · ·+3n−1
= 3n
2 −32 (12) 如何證明呢? 物理學家戴森 (F. J. Dynson) 利用三進位法證明了 (12) 式, 參見 [6]。
至此有關找尋劣幣的問題完全解決。 例 如, 由 (12) 式知, 秤 5 次可鑑定硬幣數的範 圍是 40到 120枚。
九、熵的歷史演化
熵的概念最初發源於熱力學, 這是 Cla- usius 在 1864 年引入的一個重要概念。 Bo- ltzmann 在 1896 年強調熱力學的熵與機率 具有密切關係。 1928 年 Hartley 將 Boltz- mann 的想法引進訊息論中, 得到 Hartley 公式 [即 (8) 式]。 1948年 Shannon 再推廣 成 Shannon 公式 [即 (7) 式]。 Kolmogorov
在 1958年將 Shannon 熵的公式引入動力系 統, 用來研究兩個動力系統的同構問題。 今日 熵的概念已遍及科學、 數學, 甚至人文、 藝術 的領域, 變成日常生活的用語。
古希臘哲學家柏拉圖 (Plato, 427-347 B.C.) 非常重視幾何學, 他說:
(i) 不懂幾何學的人不得進入此門 (柏拉圖學 院的門)。
(ii) 不知道正方形的邊與對角線是不可共度 ( 即√
2 不是有理數) 者愧生為人。
隨著文明的進展, 到了近代, 邏輯哲學家 羅素 (B. Russell, 1872-1970) 說:
不懂牛頓如何從刻卜勒 (Kepler) 定律推導出萬有引力定律的人是 沒有受過教育的。
現代物理學家惠勒 (Wheeler) 改述為:
在過去, 只有當一個人了解 熵的概念後, 才能說是受過科學 教育。 在將來, 如果一個人不懂碎 形(fractal), 則會被認為是科學文 盲。
不確定性與混沌, 表現為機率分佈, 一方 面讓我們不可預期, 甚至困惑, 另一方面也讓 我們得到驚訝與啟示。 只有機運能夠對我們 說話, 從中我們解讀出豐富的含義。 然而, 機 運仍然是一個謎。 莎士比亞 (Shakespeare, 1564-1616) 問得好:
如果你能洞穿時間的種子, 並 且知道哪一粒會發芽, 哪一粒不 會, 那麼請告訴我吧! (If you can look into the seeds of time and say which grain will grow and which will not. Speak then to me!)