概率與資訊中的分析引理 及相關定理證明
一一兼談中國大陸一道高考壓軸題的數學背景
徐瀝泉 · 張建良
0. 引言
概率論與資訊學中導出某些隨機變量的重要的分佈函數時屢次要用到數學分析中的結論。
本文將詳細而嚴格地論證兩條分析引理, 它們是產生卜瓦松 (Poisson) 分佈, 常態分佈 (N(x, σ)) 和熵與資訊中申農定理 (1948 年由美國工程師 C. E. Shannon 的開創性論文 A mathe- matical theory of communication, Bell System Tech., 27(1948), 379-423, 623-656 發 表後確立) 的重要機制。 兼談 2001年中國數學高考壓軸題 (大陸卷) 的數學背景。
1. 引理 I — 產生卜瓦松分佈和常態分佈的重要機制
1.1. 引理 I 與卜瓦松分佈
引理I: 若 f (x) 是嚴格單調函數和連續函數且 ∀x, y ∈ R, f(x) · f(y) = f(x + y) 成立, 則 f (x) = ax, a > 0 且 a 6= 1。
證明: f (x) = f
x 2 +x2
= f
x 2· f
x 2= f2
x 2≥ 0, 同理 f (2x) = f2(x), f (3x) = f3(x), . . ., f (nx) = fn(x), n ∈ N。
令 x = 1
n 得 f (1) = fn
1 n即 fn1(1) = f
1 n或 f
1 n= fn1(1)。
設 f (1) = a ⇒ f
1n
= an1 顯然 a ≥ 0, 下面我們來詳細討論 a 的取值範圍:
∵
f (0) = f (0 + 0) = f2(0),∴
f (0) = 0 或 f (0) = 1。若 f (0) = 0 引理的結論成立, 則有 a0 = 0 這樣的 a 不存在, 故 f (0) 6= 0;
若 f (0) = 1 引理的結論成立, 則有 a0 = 1, 則 a 可取 0 以外的任何數。 但由題設中的單
80
調性, 當 f (x) 是增函數時
∵
1 > 0,∴
f (1) > f (0) 即 a > 1; 當 f (x) 是減函數時∵
1 > 0,∴
f (1) < f (0) 即 a < 1, 由此可以確定 a > 0 且 a 6= 1。從上可知 ∀m ∈ N, f
m · n1 = fm
1n
即 f
mn
= amn。
由 m 和 n 的任意性可知對一切有理數 α, f (α) = aα 成立, 再利用單調性和連續性可證 對無理數也成立, 從而引理 I 獲證。
下面我們來看所謂的卜瓦松分佈或常態分佈。 若研究對象滿足:
(1) 過程的平穩性 (即它的概率規律不隨時間的推移而改變);
(2) 獨立增量性 (無後效性, 即在互不相交的時間間隔內過程進行的相互獨立性);
(3) 普通性 (在同一時間瞬間事件出現有兩次或兩次以上的情形實際上是不可能的) 則這些隨機變量皆服從卜瓦松分佈:
pk(x) = (λx)kx
k! e−λx, k = 0, 1, 2, . . .
其中 x 為時間間隔, k 為在區間 [x0, x0+ x] 內事件出現的次數, 證略 (詳見參考文獻 [2], pp.
97-100), 其初始值: 上式中 k = 0 時 p0(x) = e−λx 的由來必須要用到引理 I, 限於篇幅這裡 也不再詳述 (請參見文 [1]) 。
作為引理 I 的一個系 (Corollary), 接著我們來看 2001 年中國大陸高考數學試卷的一道 壓軸題 (第 22題) 表述:
設 f (x) 是定義在 R 上的偶函數, 其圖像關於直線 x = 1 對稱, ∀x1, x2 ∈
h
0,12i
都有 f (x1+ x2) = f (x1) · f(x2) 且 f (1) = a > 0。(1) 求 f
12
及 f
14
; (2) 證明 f (x) 是周期函數;
(3) 記 an= f
2n + 21n
求 lim(ln an)。
事實上, 在指數函數 y = ax 的圖像上我們截取 x ∈ [0, 1] 的一段, 再作出關於 y 軸和直線 x = 1 都對稱的圖像, 因為它定義在 R 上, 如此反復構作下去, 就是把 y = a|x|, x ∈ [−1, 1], 的圖像以 2為周期延拓到整個上半平面上。
這就是該試題的高等數學背景。
1.2. 引理 I 的推廣與常態分佈
對於指數函數的運算性質 ax · ay = ax+y 這是人所共知的, 但是反過來具有此運算性質 的函數是否也一定是指數函數, 這正是引理 I 所解決的問題。 引理 I 還具有下面推廣了的形式:
引理 I 的推廣: 若 f (x) 和 g(y) (x ≥ 0, y ≥ 0) 是不恆等於零的連續函數, 且
∀x, y, f(x)g(y) = h(x + y) 成立 (∆) 則 f (x) = kax, 這裡 a > 0 及 k 都是常數。
證明: 用反證法易知 f (0) 6= 0, g(0) 6= 0, 在 (∆) 中分別令 x = z, y = 0 和 y = z, x = 0 可得 f (z)g(0) = f (0)g(z) = h(z) 兩邊同除以 f (0)g(0) 得
f (z)
f (0) = g(z)
g(0) = h(z)
f (0)g(0) = p(z) 這裡我們把它們的比值記為 p(z), 則可推得
f (x) = f (0)p(x), g(y) = g(0)p(y), h(x + y) = f (0)g(0)p(x + y) 把它們代入 (∆) 得 p(x)p(y) = p(x + y) 由引理知 p(x) = ax,
∴
f (x) = f (0)ax 證畢。它正是導出常態分佈密度函數 p(x) = √1
2πσe−12(xσ)2 必須要用到的重要條件之一。 我們 來看一個實例:
射擊問題中彈落點的分佈: 在射擊問題中, 以射擊目標中心為原點, 作平面直角坐標系, 則 射擊過程中彈落點的座標 (x, y) 是一個二維隨機變量。 假設它滿足:
(i) x 和 y 具有連續的密度函數 p1(x) 和 p2(y);
(ii) x 和 y 相互獨立;
(iii) (x, y) 的密度函數在點 (x, y) 的值僅與它到原點的距離 r = √
x2+ y2 有關, 則由此引 理可證 x 和 y 均服從常態分佈, 證明過程如下:
證明: 記 (x, y) 的密度函數為 p(x, y), 由假設 (iii) 知 p(x, y) = q
√
x2+ y2
又由 (i) 與 (ii) 知 p(x, y) = p1(x)p2(y) = q
√
x2+ y2
, 令 p1(x) = f (x2), p2(y) = g(y2), q
√
x2+ y2
= h (x2+ y2), 則有 f (x2)g(y2) = h(x2+ y2), 故由上述引理可得 f (x2) = kax2。 由於 p1(x) 是 (−∞, +∞) 上的密度函數, 不妨設 a = 1
e
1 2σ21
(σ1 > 0), 由
Z
+∞−∞ p1(x)dx = 1 ⇒
Z
+∞−∞ ke−12(xσ)2 = k ·√
2πσ1 = 1 ⇒ k = 1
√2πσ1
於是 p1(x) = 1
√2πσ1
e−
1 2
x σ1 2; 同理 p2(y) = 1
√2πσ2
e−
1 2
y σ2 2。
這就證明了 x 與 y 皆服從常態分佈 (詳見 [2]第 141頁 line -4 至第 142頁 line-8)。
2. 引理 II 與申農定理
由上述引理 I 和它的推廣及其應用, 我們自然會聯想到對數函數是否也有類似的結果呢?
無獨有偶, 我們先看下面的引理 II, 它是用來證明申農定理的基礎。
2.1. 引理 II
若 f (x) 是單調函數或連續函數, 且 ∀x, y ∈ R+ 成立 f (xy) = f (x) + f (y); 則 f (x) = c logax, a > 0, a 6= 1, c > 0
其中 a、 c 是常數。
證明與引理 I 相似, 讀者不妨自行練習一下。
2.2. 申 農定理的直覺與證明
定理: 若用 h(α) 表示隨機試驗 α 的不肯定性程度之大小, α 只有有限個不相容的結果 Ai(i = 1, 2, · · · , n), 其相應的概率為 p(Ai), 為方便起見有時也簡記為 pi, 則當且僅當:
(1) h(α) 是 p(Ai) 的連續函數;
(2) 對有 n 個等可能性結果的試驗, h(α) 是 n 的單調上升函數;
(3) 一個試驗可分解為兩個相繼的試驗, 且未分之前的 h(α) 是既分之後的 h(α) 的加權和。 則 h(α) 具有下列形式:
h(α) = −c
n
X
i=1
p(Ai) logap(Ai), 其中 c > 0 委為常數
定理中的係數 c 的選擇取決於度量單位, 常用的度量單位有二進位和十進位兩種, 前者取以 2 為底的對數, 後者取常用對數。 其單位分別叫做“比特”和“哈特利”; 也有取自然對數的, 其單位 稱之為“奈特”。 我們稱
h(α) = −
X
p(Ai) lg p(Ai) 為某隨機事件的熵, 這裡約定用十進位單位。比如有三位射手, 他們的射擊情況分別用 αi(i = 1, 2, 3) 來描述:
α1 :
A1 A1
0.5 0.5
α2 :
A2 A2
0.9 0.1
α3 :
A3 A3
0.7 0.3
其中 A 表示擊中目標, A 表示未擊中目標, 下面的數是相應的概率。 則由申農定理, 甲、 乙、 丙 三人射擊試驗相應的熵分別為:
h(α1) = −0.5 lg 0.5 − 0.5 lg 0.5 ≈ 0.3010
h(α2) = −0.9 lg 0.9 − 0.1 lg 0.1 ≈ 0.1412 h(α3) = −0.7 lg 0.7 − 0.3 lg 0.3 ≈ 0.2653 擊中目標的不肯定性程度甲最大, 丙次之, 乙最小, 完全與直觀相符。
在我們正式證明定理之前, 讓我們對定理中的題設條件再作一些直觀的說明與解釋。 條件 (1) 說明 p(Ai) 的微小變化不會引起 h(α) 巨大變化, 同時也只有連續函數才便於數學上的處 理; 條件 (2) 說明我們考慮的試驗是一種特殊的試驗, 這種試驗只有 n 個結果, 且每一個結果 出現的概率均為 1/n, 我們把這種試驗稱之為有 n 個等概結果的試驗, 在這種試驗中 h(α) 只 是關於 n 的函數, 並且當 n 增大時, 也即試驗有更多個可能的結果時, 其相應的不肯定性程度 也隨之增大; 條件 (3) 則比較難以理解, 它涉及到把一個試驗分解為兩個試驗, 這時未分之前的 h(α) 是既分之後的 h(α) 的加權和。 還是先讓我們來看一個具體的例子:
考慮有 6個等概結果的試驗
α :
Ai
p(Ai)
, p(Ai) = 16, i = 1, 2, . . . 6
即 α :
A1 A2 A3 A4 A5 A6 1
6 1 6
1 6
1 6
1 6
1 6
其不肯定性程度 h(α) =
h
16 16 16 16 16 16i
不妨簡記為 h(6)。(注: 對 n 個等概結果的試驗, 其不肯定性程度也可簡記為 h(n))。 我們認為它也可以先通過試 驗 α0 :
A1∪ A2∪ A3 A4∪ A5∪ A6
1 2
1 2
把 α 分解為 2 個有 3 個等概結果的試驗 α1 :
A1 A2 A3 1
6/12 16/12 16/12
α2 :
A4 A5 A6 1
6/12 16/12 16/12
即 α1 :
A1 A2 A3 1
3 1 3
1 3
α2 :
A4 A5 A6 1
3 1 3
1 3
其相應的不肯定性程度為h(α0) =
12,12
, h(α1) =
13,13,13
= h(α2), 並分別簡記為 h(2), h(3), h(3)。 顯然 α0 出 現的概率是 1, α1 和 α2 出現的概率都是 1/2, 故
h(α) = h(α0) + 1
2h(α1) + 1
2h(α2), h(6) = h(2 · 3) = h(2) + 2 · 1 2h(3).
當然, 我們也可以把試驗 α 分解為另兩個相繼的試驗。 第一個試驗以 4/6 的概率出現 t1 =
4
[
i=1
Ai, 和以 2/6 的概率出現 t2 =
6
[
i=5
Ai; 而第二個試驗則是在出現結果 t1 的基礎上考察它出
現 A1 ∼ A4 中的哪一個, 或在出現 t2 的基礎上到底出現 A5 ∼ A6 中的哪一個, 即
α′0 :
t1 =
4
[
i=1
Ai t2 =
6
[
i=5
Ai 4
6
2 6
α1′ :
A1 A2 A3 A4 1
6/46 14 14 14
α′2 :
A5 A6 1 6/26 12
,其中 α1′ 出現的概率是 4/6, α′2 出現的概率是 2/6, 當然 α′0 出現的概率仍為 1。 故 h(α) = h
4 6,26
+4
6h(α′1) +2
6h(α′2), 即 h
1 6,16,1 6,1
6,1 6,1
6
= h
4 6,26
+4 6h
1 4,14,1 4,1
4
+2 6h
1 2,12
或簡記為 h(6) = h
4 6,26
+4
6h(4) + 2
6h(2)。 由此可求得 h
4 6,26
= h(6) − 4
6h(4) − 2 6h(2).
這後面的一個關係式正是我們所需要的。 有了這些直觀的解釋和印象之後, 我們不難完成下面 申農定理的證明。
證明: 首先證有 n 個等概結果的試驗 α :
A1 A2 · · · An
1 n
1
n · · · n1
記 h(α) = h
1n 1n· · ·n1
或簡記為 h(n), 它表示隨機試驗 α 的不肯定性程度之大小, 由題設它是關於 n 的單調上升函數。
現對於有 mn 個等概結果的試驗, 可以把它分解為有 m 個有 n 個等概結果的試驗, 若滿 足條件 (3) 應有 h(mn) = h(m) + m · m1h(n) = h(m) + h(n), 由引理 II
h(n) = h
1 n1 n· · ·1
n
= c logan (∗)
其次, 當 p(ti) 是 (0, 1] 中的任何有理數時, 即隨機試驗 A0 只有有限個不相容的結果 ti, 它們 分別以概率 p(ti) (簡記為 pi) 出現。
A0 :
t1 t2 · · · tn p1 p2 · · · tn
(注: 對應於上述直觀例子中的
t1 t2 4 6
2 6
) 其中 pi(i = 1, 2, . . . , n) 為 (0, 1] 中的任何有理數, 不妨記 pi =P
nnii=1ni。 由概率定義 pi ∈ (0, 1] 且
P
ni=1pi = 1, 因此上式的定義是合理的。 如所知, 任一有理數皆可化為分數 mn(m, n ∈ N)。 現在的情形下 m ≥ n, 不妨設 m − n = k(k = 0, 1, . . .), 則 mn = n+kn 。 現取 n = ni, k =P
ni=1ni, 考慮一個有P
ni=1ni 個 (上述直觀例子中有 n1 + n2 = 4 + 2 = 6 個) 等概結 果的試驗 A, 而這個試驗又可以看作兩個相繼的試驗, 其中第一個試驗以概率 pi (上面直觀例子中的 p1 = 46, p2 = 26) 出現結果 ti (上述直觀例子中的 t1 和 t2); 第二個試驗則是在出現 ti
的基礎上, 考察它出現 ni (上面直觀例子中的 n1 = 4, n2 = 2) 個等概結果中的哪一個 (上面 直觀例子中 n1 = 4 個等概結果
4
[
i=1
Ai 或 n2 = 2 個等概結果
6
[
i=5
Ai 中的哪一個)。 因此按條 件 (3) 應有 h(A) = h(p1, p2, . . . , pn) +
n
X
i=1
pih(Ai) 其中
h(A) = h 1
P
n i=1ni, 1
P
n i=1ni, . . . , 1
P
n i=1ni!
h(A0) = h(p1, p2, . . . , pn) = h n1
P
n i=1ni, n1
P
n i=1ni, . . . , n1
P
n i=1ni!
n
X
i=1
pih(Ai) = n1
P
n i=1nih
1 n1, 1 n1
, . . . , 1 n1
+ n2
P
n i=1nih
1 n2, 1 n2
, . . . , 1 n2
+ · · · + nn
P
n i=1nih
1 nn, 1 nn
, . . . , 1 nn
其中, 1
ni
= 1
P
n i=1nipi
= 1
P
n i=1ni·P
n i=1nini 。 由 (∗) 得 c loga
n
X
i=1
ni = h(p1, p2, . . . , pn) + c
n
X
i=1
pilogani。 於是
h(p1, p2, . . . , pn) = c loga
n
X
i=1
ni− c
n
X
i=1
pilogani = c loga
n
X
i=1
ni−
n
X
i=1
pilogani
!
= c
"
nX
i=1
pi loga
n
X
i=1
ni− logani·
!#
= c
"
nX
i=1
pi loga
P
n i=1nini
!#
= c
"
nX
i=1
pi(loga(pi)−1)
#
= −c
n
X
i=1
pilogapi
即, h(p1, p2, . . . , pn) = −c
n
X
i=1
pilogapi
最後, 對任意的 pi 可用有理數來逼近它, 這由條件 (1) 可以確保, 從而申農定理獲證。
參考文獻
1. 徐瀝泉, 略論隨機性, 「數學傳播」, 第 25 卷 4 期, 民 90 年 12 月。
2. 復旦大學編, 概率論, 第一冊, 高等教育出版社, 1979 年 4 月第一版。
—本文作者任職於中國無錫市教育研究中心—