談談概率論與其它學科的若干交叉

(1)

談談概率論與其它學科的若干交叉

陳木法

摘要:近一二十年以來, 概率論獲得了很大發展, 特別是與其他學科交叉融合, 形成了一些新的學科分支和學科生長點。我們首先從 2002 年國際數學家大會 (ICM2002) 所反映的情況予以說明。作為這種交融的一個側面, 也概述我們研究群體的三項成果。最後介紹取得這些成果的一種數學工具及其與線性規劃和非線性偏微分方程等學科的聯繫。

關鍵詞: 概率論; ICM2002; 隨機算法; 自由概率; 滲流; 特徵值; 遍歷理論; 最優運輸。

1. 從 ICM2002 看概率論

1.1. _概述

在 ICM2002 的開幕式上, 就可以感受到概率論的氣息. 作為 Nevalinna 獎的獲獎人, M. Sudan¹ 的兩項主要貢獻中的第一項就是關於 NP 類的概率特徵的刻畫。

在 20 個一小時報告中, 有六個涉及概率論的。名單及所代表的領域列表如下:

N. Alon² 離散數學 L. A. Caﬀarelli³ 偏微分方程 U. Haagerup⁴ 算子代數 S. Goldwasser⁵ 計算機科學 H. Kesten⁶ 概率 D. Mumford⁷ 認知科學

感謝陳木法教授同意本刊刊載他原刊登於《數學進展》2005 年 12 月第 34 卷第 6 期 661-672 頁的文章, 並於刊出前特意為此文寫了補充, 見文末。本文下方註解為本刊所加, 非原稿所有, 希望方便讀者閱讀。

1Madhu Sudan (1966∼), 印度裔美籍電腦科學家, 對理論電腦科學有重要貢獻。

2Noga Alan (1956∼), 以色列數學家, 已在組合學和理論電腦科學的貢獻最為人所知。

3Luis A. Caﬀarelli (1948∼), 阿根廷數學家, 請詳第 32 卷第 3 期「有朋自遠方來」專訪。

4Uﬀe Haagerup (1949∼), 丹麥數學家, 主要研究領域為算子代數。

5Shaﬁ Goldwasser (1958∼), 以色列裔美籍科學家, 2012 年圖靈獎 (Turing Award) 得主, 研究領域包含密碼學及計算數論等。

6Harry Kesten (1931∼), 美國數學家, 以在機率方面的工作最為人所知。

7David Bryant Mumford (1937∼), 英國數學家, 1974 年菲爾茲獎, 2006 年邵逸夫獎, 2008 年沃爾夫獎得主, 原為哈佛大學教授, 1980 年代起將興趣轉移到思維模式、視覺等, 1995 年起執教 Brown 大學應用數學系。

16

(2)

第一個報告介紹兩種方法, 其一是概率方法 (隨機圖論), 另一是代數方法。最後一個報告貫穿了概率方法。我們將在本文之末說明第二個報告與概率論之間的聯繫。對於其他三個報告, 將在這一部分的隨後幾節中予以說明。

在 19 組 45 分鐘報告中, 除數學教育、數學普及和概率統計 3 組外, 有 6 組都涉及概率論。其中“計算機科學中的數學”一組, 六個報告中有五個與概率論有關, 而“算子代數與泛函分析”一組, 六個報告中有兩個“自由概率”, 一個“高斯測度不等式”, 即有三個報告是概率論的交叉學科方向。

1.2. 概率與隨機算法和計算複雜性

NP 問題的典型例子是

貨郎擔問題: 給定全國 144 個城市, 找出一條經過所有城市而又不迂回的最短閉路。

總共 144 個城市, 這個數字並不大, 但它經組合起來的閉路則有 143! 條。即使是每秒計算一億億 (100⁹)條路的計算機, 也需要 100¹¹¹ 年, 因而是一個典型的 NP 問題。在組合最優化領域裡, 存在大量的這類問題。

如何處理 NP 問題, 自然是一個嚴峻的挑戰! 似乎無路可循。正是在這個人們以為“山窮水盡疑無路”的地方, 隨機的思想給我們帶來了 “柳暗花明又一村”。想法是: 如果允許算法以小概率犯錯誤, 則可將一些 NP 問題轉化為 P 多項式問題。針對貨郎擔問題, 有一種模擬退火算法 (又稱為馬可夫鏈 Monte-Carlo 方法)。目標是求一個函數的最小值。其原理為

(1) 依函數值的大小確定一個概率分布 µ: 函數值越小, 取值越大。此即是 Gibbs 分布原理。

(2) 構造一馬可夫鏈, 以 µ 為極限分布 (limit distribution), 即當時間趨於無窮大時, 這個馬 可夫鏈趨於取值為 µ 的分布。

留心通常的算法是“那裡小就往那裡走”, 因而容易掉進局部陷阱。此法的特點是要到處看看。

當然, 仍然有一些細節需要處理。例如, 需要“退火”, 即隨時間的發展, µ 越來越集中於於 整體最小值等等。對於上述貨郎擔問題, 利用這種方法找到一條長為 30421 公里的閉路。這與

(3)

目前所知的最好結果 30380 公里相差無幾。而真正的全局最優解依然是人們力所不能及的^[4]。 我們指出, 這種算法的有效性取決於馬可夫鏈收斂於平穩分布 µ 的速度。這個速度由馬可 夫鏈轉移概率矩陣的第一個非平凡特徵值所決定。更詳細的內容可參考 R. Kannan⁸ 的 45 分鐘報告⁹。

人們常說, 概率論是研究大量偶然現象中的必然性規律。然而, 這裡的研究對象卻完全是確定性的, 毫無隨機性可言。 “隨機性”思想的主動出擊, 在這裡得以充分體現。這也是現代概率論研究的典型特徵之一。

1.3. _{自由概率論} (Free Probability)

U. Haagerup 的一小時報告的題目是“Random matrices, free probability and the invariant subspace problem relative to a von Neumann algebra”. 我們先從隨機矩陣談 起. 設 AN = (a^{(N )}_ij ) 是 N 階 Hermite 方陣, 假定

(

a

^{(N )}_ii

)

i

,

(√

2 Re a^{(N )}_ij )

i<j

,

(√

2 Im a^{(N )}_ij )

i<j

為獨立同分布隨機變量, 服從均值為零、方差為 ^√¹_N 的正態分布。命

σ(x, A

_N) = 1

N ♯ {特徵值 (可重複) ≤ x},

則有優美的 E. Wigner¹⁰半圓律 (1955∼1965): 隨機變量 σ(x, AN) 弱收斂於一個非隨機的 函數 σW(x), 其密度為

σ

_W^′ (x) =



 1 2π

√

4

− x

²

,

若 |x| ≤ 2, 0, 若 |x| > 2.

隨機矩陣理論有兩個重要來源, 一是矩陣力學, 另一是多元統計。我國概率統計的前輩許寶騄先生是這一理論的早期開拓者之一 (1939)。這個理論甚至緊密聯繫於 Riemann 猜想。

若將複共軛視為 ∗ 運算, 則隨機矩陣自然構成典型的 C^∗ 代數。欲將上述半圓律拓廣到

C

^∗ 代數上, 首先需定義 C^∗ 代數上的獨立性。這就引進了自由概率的概念: 換言之, 這裡的“自由”即是通常概率論中的“獨立性”。這個概念“自由熵”等首先由 D. Voiculescu¹¹ (1985)引入 (獲 2004 年美國國家科學院獎), 並成功地應用於 von Neumann 代數的分類問題, 導出了“若

8Ravindran Kannan (1953∼), 印度電腦科學家, 研究領域包含理論電腦科學和離散數學等。

9R. Kannan, Rapid Mixingin Markov Chains, ICM 2002, vol. III, 673-683, http://arxiv.org/pdf/math/0304470 .pdf

10Eugene Paul “E. P.” Wigner (1902∼1995), 匈牙利籍美裔理論物理學與數學家, 1963 年獲頒諾貝爾物理獎, 以研究原子核結構等研究而為人所知。

11Dan-Virgil Voiculescu (1949∼), 數學家, 研究領域包含 von Neumann 代數和自由概率論等。

(4)

干革命性成果”, 引發了大量的研究。矩陣論作為非交換數學的基本工具是天然的。然而隨機矩陣論作為算子代數的基本工具則多少令人吃驚。

1.4. _{概率論與物理}

40年來, 概率論與物理 (特別是統計物理) 的交融匯合, 產生出若干新的分支學科。最具代表性的有隨機埸、交互作用粒子系統、滲流理論和測度值隨機過程。

(1) 滲流理論 (Percolation Theory)

1982 年, H. Kesten 出版了專著“Percolation Theory for Mathematicians”, 從數學上系統總結了已有的 (特別是物理學家) 所取得的成果。自此以後, 滲流理論成為概率學家的一個專門的發展領域。上世紀末, 滲流理論作為一個基本工具, 解決了交互作用粒子系統的一個著名難題。

滲流理論特別象數論, 問題很好懂、但卻很難做。還是從一個基本模型開始。

考慮 d 維的格子圖。給定每條邊開的概率為 p (閉的概率為 1 − p)。各邊開或閉相互獨 立。如果一條路的依次相互連接的邊都是開的, 則稱為一個開串。顯然, 若 p = 1, 則所有的邊 都是開的, 因而存在無限長的開串。反之, 若 p = 0, 則不存在開串。這就引出臨界值 pc 的定義

p

_c= inf

{p : 存在包含原點的無窮開串的概率大於零}。

對於二維 (d = 2) 情形, 已知 pc = ¹₂。但當 d ≥ 3 時, pc 卻是至今無人能夠確定的。若把邊的開、閉換成格點的開、閉, 則上述邊模型就變成點模型。此時, 僅當兩頂點均開時, 所聯結的 邊才是開的。對於二維三角形點滲流, 己知 pc也等於 ¹₂。通常, 物理學家知道得更多。例如, 他 們不僅知道三角形點滲流的 pc = ¹₂, 而且還知道下式

當 p ↓ pc 時, 原點屬於無窮開串的概率 = (p − pc)^α

中的臨界指數 α = ₃₆⁵ + o(1)。這是一種統計物理所研究的普通常數 (universal constant)。

然而, 長時期以來, 數學家對普通常數束手無策, 研究狀況處於完全真空的狀態。直到 2001年, 才由 S. Smirnov¹² 取得突破 (解決了物理學家 J. L. Cardy¹³(1992) 基於共形埸論的猜想)。

他於同年榮獲 Clay 研究獎 (頒布百萬美元獎金的 7 大數學難題的研究所)。所使用的工具是布朗運動與共形映照。這一點又很像解析數論, 使用複分析 (連續) 來處理數論問題 (離散)。這是 H. Kesten 的一小時報告和 G. F. Lawler¹⁴的 45分鐘報告的主題。

12Stanislav Konstantinovich Smirnov (1970∼), 俄羅斯數學家, 2010 年獲頒菲爾茲獎, 研究領域包含複分析、動力系統和機率論。

13John Lawrence Cardy (1947∼), 英國理論物理學家, 以在理論凝聚態物理學與統計力學的研究而為人所知。

14Gregory Francis Lawler (1955∼), 美國數學家, 研究領域包含機率論。

(5)

(2) 研究相變的一種新方法

相變現象是統計物理的中心課題之一。作為無窮維的數學, 研究相變現象的數學工具並不多。十幾年來, 逐步形成了一種新方法, 即以第一 (非平凡) 特徵值來刻畫相變。例如對格氣模型 (Ising 模型), 一維情形無相變。事實上, 對於算子

Lf (σ) =

∑

x∈Z^d

c(x, σ)

[

f (σ

^x)

− f(σ)

]

, σ ∈ {−1, 1}

^Z^d

,

其中 σ^x 表示在 x 處的自旋,

c(x, σ) =

1

{

1 + exp [

βσ(x)

∑

|x−y|=1

σ(y)

]},

x ∈ Z

^d

, σ ∈ {−1, 1}

^Z^d

,

而 β > 0 為反溫度, R. A. Minlos¹⁵和 A. G. Trishch (1994) 甚至算出了第一特徵值的精確 值 1 − tanh β > 0。文章只有兩頁, 但使用了第二量子化的漂亮技術, 構造此模型的 L² 空間 與圓周上的 L² 空間所生成的反對稱 Fock 空間之間的酉同構。

對於高維情形, 隨著溫度的下降, 人們普遍認為第一特徵值應由正變為零。目前已證出: 當溫度足夠高時, 第一特徵值為正; 而當溫度足夠低時, 第一特徵值為零。關於後者, 事實上知道 得更多。當溫度充分低時, 邊長為 L 的正方體的格子區域內的 Ising 模型, 當 L 趨於無窮時, 其第一特徵值有漸近式 exp[−c(β)L^d⁻¹], 其中 c(β) 是與維數 d 無關的常數^{[5, 7, 8]}.

從這一節可以看出物理學對於當代概率論的深刻影響。

2. 特徵值估計與遍歷性

眾所周知, 譜理論在數學各分支和物理學中均有重要地位。第一特徵值乃是譜的主階, 因而無疑有重要價值。上述的隨機算法和相變刻畫, 也已顯示其重要性。

2.1. _{問題與難度}

考慮如下無限矩陣

Q = (q

ij) =







−b

0

b

₀ 0 0 . . .

a

₁

−(a

1 + b₁)

b

₁ 0 . . . 0

a

₂

−(a

2 + b₂) b₂

. . .

... . .. . .. . ..







15Robert Adol’fovich Minlos (1931∼), 俄羅斯數學家, 對泛函分析、機率論和數學物理有重要貢獻。

(6)

其中 ak

, b

k

> 0 (k = 0, 1, 2, . . .)

。因為僅有處於對角線附近的三條線的元素非零, 故稱為 三對角陣。有限情形是計算數學處理矩陣特徵值計算的最主要對象。注意矩陣 Q 的每一行和為 零, 因此它與元素粧為 1 的常值列向量 1 的乘積為元素粧為零的列向量 0: Q1 = 0 = 0 · 1。

即矩陣 Q 有平凡特徵值 λ0 = 0. 其次, 若考慮它的前 n 階子矩陣 Qn, 則 −Qn 有 n 個特徵 值: 0 = λ0

< λ

₁

≤ · · · ≤ λ

n−1。我們所關心的是 λ1, 即第一個非平凡特徵值。

為使大家對於此問題的難度有點具體的感受, 讓我們看看一些簡單例子。先看四階情形 (Q₃), 此時有 6 個參數: b0

, b

₁

, b

₂

, a

₁

, a

₂

, a

₃。第一特徵值是

λ

₁ =

D

3

− C

3

× 2

¹³ + 2¹³ (3 B

− D

²) 3 C

,

其中 D, B, C 三個量的表達式並不複雜:

D = a

₁+ a₂+ a₃+ b₀+ b₁+ b₂

,

B = a

₃

b

₀+ a₂ (a₃+ b₀) + a₃

b

₁+ b₀

b

₁+ b₀

b

₂+ b₁

b

₂+ a₁ (a₂+ a₃+ b₂) ,

C =

(

A +

√

4(3 B

−D

²)³+ A² )¹₃

,

但

A = −2 a

³1

− 2 a

³2

− 2 a

³3 + 3 a²₃

b

₀+ 3 a₃

b

²₀

− 2 b

³0+ 3 a²₃

b

₁

− 12 a

3

b

₀

b

₁+ 3 b²₀

b

₁ +3 a₃

b

²₁+ 3 b₀

b

²₁

− 2 b

³1

− 6 a

²3

b

₂+ 6 a₃

b

₀

b

₂+ 3 b²₀

b

₂+ 6 a₃

b

₁

b

₂

− 12 b

0

b

₁

b

₂ +3 b²₁

b

₂

− 6 a

3

b

²₂+ 3 b₀

b

²₂+ 3 b₁

b

²₂

− 2 b

³2+ 3 a²₁ (a₂+ a₃

− 2 b

0

− 2 b

1+ b₂) +3 a²₂ [a₃+ b₀

− 2 (b

1+ b₂)]

+3 a2

[

a

²₃+ b²₀

− 2 b

²1

− b

1

b

2

− 2 b

²2

− a

3(4 b0

− 2 b

1+ b2) + 2 b0(b1+ b2)]

+3 a₁[

a

²₂+ a²₃

− 2 b

²0

− b

0

b

₁

− 2 b

²1

− a

2(4 a₃

− 2 b

0+ b₁

− 2 b

2) +2 b₀

b

₂+ 2 b₁

b

₂ + b²₂+ 2 a₃(b₀+ b₁+ b₂)]

.

這樣, 諸參數對於 λ1 的貢獻就完全糊塗了。當然, 對於 6 階或 6 階以上的情形 (因 λ0 = 0 而 多一階), 根據伽羅瓦理論, 根本不可能寫出顯式解。因此, 不可能指望把 λ1 準確地算出來。

既然如此, 我們退而求其次, 即當試估計 λ1. 現在考慮無限矩陣。以 Degree(g) 表示 λ1的 特徵向量 g 的主階 (如 g 為多項式)。下表的三個例子顯示了 λ1 和 Degree(g) 的攝動情況。

(7)

b

i(i

≥ 0)

b b

_ii(i(i

≥ 0) ≥ 0) a a a

i_ii(i(i(i

≥ 1) ≥ 1) ≥ 1) λ λ λ

1₁1

Degree (g) Degree (g) Degree (g)

i + c (c > 0)

2i 1 1

i + 1

2i + 3 2 2

i + 1

2i +( 4 +

√

2)

3 3

表中的第一行是著名的線性模型, λ1 = 1 而與常數 c > 0 無關, 相應的特徵向量 g 是一次多 項式函數。其次, 保持 bi = i + 1不變。那麼, 當 ai 從 2i 變到 2i + 3 再變到 2i + 4 +

√

2時,

λ

₁ 依次從 1 跳到 2 再跳到 3。更奇妙的是特徵向量依次從一次跳到二次再跳到三次多項式。

至於 ai 取值介於 2i, 2i + 3 和 2i + 4 +

√

2 之間時, 情況更糟, 我們根本不知道 λ1 為何值, 因為此時特徵向量 g 並非多項式而不知如何計算。這樣, 在一般情況下, λ1 及其特徵向量都是 極為敏感的, 要估計 λ1 也是極端艱難的。

2.2. _{特徵值估計}

很幸運, 我們能夠在此專題上取得一些進展。為陳述三對角矩陣情形的主要結果, 需引進幾個記號。命

µ

₀= 1,

µ

_i =

b

₀

· · · b

i−1

a

₁

· · · a

i

, i ≥ 1, Z :=

∑

i≥0

µ

_i

, W

^′′=

{w : w

0 = 0, w_i 為 i 的嚴格增函數},

W

^′=

{w : w

0 = 0,存在 k : 1 ≤ k ≤ ∞ 使得 wi = w_min_{{i, k}}且 w 在 [0, k] 上嚴格增},

I

_i(w) = 1

µ

_i

b

_i(w_i+1

− w

i)

∑∞ j=i+1

µ

_j

w

_j

,

這裡本質上只有兩個記號 W ^′′和 I(w), W^′只是將 W ^′′ 中的函數 (數列) 從後面拉平。記 ¯

w

_i =

w

_i

−

∑

i≥0

µ

_i

w

_i

/Z, i ≥ 0。那麼, 我們有如下結果:

定理 (陳:1996–2001) 假定半群唯一:

∑∞ k=0

1

b

_k

µ

_k

∑k i=0

µ

_i =

∞ 以及 Z =

∑∞ i=0

µ

_i

< ∞.

則有

(1) 對偶變分公式: infw∈W^′ sup_i_≥1

I

_i( ¯

w)

⁻¹ = λ₁ = sup_w_∈W′′ inf_i_≥0

I

_i( ¯

w)

⁻¹。 (2) 顯式估計: Zδ⁻¹

≥ λ

1

≥ (4δ)

⁻¹,其中 δ = supi≥1

∑

j≤i−1(µ_j

b

_j)⁻¹∑

j≥i

µ

_j。

(3) 逼近程序: 可構造出顯式序列 {η^′n

} 和 {η

n^′′

} 使得 η

n^′−1

↓ ≥ λ

1

≥ η

n^′′−1

↑ ≥ (4δ)

⁻¹。

(8)

容易看出, 第一條中 λ1 的左、右兩端分別用於上、下界估計: 對於每一個嚴格增的正數列 wi

(w₀ = 0),代入 (1) 式的右端, 便可得出 λ1的一個下界估計 infi≥0

I

_i( ¯

w)

⁻¹。這就是 “變分”一 詞的含義。 “對偶”一詞意指: 若交換 “sup” 和 “inf”, 則上、下界的表達式互換, 只是 W^′ 和

W

^′′ 略有差別。留意此公式與古典變分公式

λ

₁ = inf{ ∑

i≥0

µ

_i

b

_i(f_i+1

− f

i)² :∑

i≥0

µ

_i

f

_i = 0, ∑

i≥0

µ

_i

f

_i² = 1 }

完全不同, 因而先前從未出現過。 “顯式”一詞意指表達式只依賴於係數 ak 和 bk。將此定理與上面所討論的例子作一對比, 很難想象能夠得到這樣簡潔和徹底的解答。

對於直線上的橢圓算子, 結果是平行的。下界變分公式也通用於高維情形。作為一個代表, 這裡陳述緊黎曼流形情形的一個結果。分別以 d, D, K表流形的維數、直徑和 Ricci 曲率的下 界, 則 Laplace 算子的第一特徵值的下界有如下

變分公式 (陳、王鳳雨:1997)

λ

₁

≥ 4 sup

f∈F inf

r∈(0,D)

f (r)

∫r

0

C(s)

⁻¹ds∫D

s

f (u)C(u)du ,

這裡用到兩個記號: C(r)=

( cosh

[

r

2

√

−K d − 1

])d−1

,

F 為[0, D]上正的連續函數的全體。

此公式不僅統一了、而且把幾何學家 (包括 A. Lichnerowicz¹⁶和丘成桐¹⁷等在內) 40 年 來所得到的八種著名估計 (五種是最優的) 全部改進。例如取 f(r) = sin

(

rπ

2D

)

便可改進 Li- Yau 估計和鍾家慶–楊洪範最佳估計

π

²

D

²

18. 我們還確定了最佳線性下界:

π

²

D

² +

K

2 (K任意)

19。我們的所有結果都通用於帶邊界流形。但對於後者, 即使是鍾–楊估計也未被證明, 更不用說新估計了。

這個變分公式是使用概率方法證明的。這可視為概率論對於譜理論的應用。我們將在第三部分以分析的語言介紹所使用的數學工具. 在以下兩小節, 先簡要介紹一下兩個進一步的研究課題和進展。

16Andr´e Lichnerowicz (1915∼1998), 法國數學家與數學物理學家, 「新數學」運動的推手之一。

17Shing-Tung Yau丘成桐 (1949∼), 華裔美籍數學家, 1982 年獲頒菲爾茲獎, 主要研究領域為微分幾何。

18丘成桐獲 Fields 獎的六項成就中的第四項是給出了第一特徵值的 Li-Yau 下界估計 π²

2D²,後經鍾家慶和楊洪範改進為 π² D² (當 曲率 K = 0 時達到最優)。後者是公認的精深結果, 也是鍾獲首屆陳省身獎的兩項主要成果之一。使用變分公式再改進為 π²

D² + max

{π 4d, 1−2

π }

K (均指 K ≥ 0 情形).

19陳、 E. Scacciatelli 和姚亮: 2001。

(9)

2.3. _{遍歷性關係圖}

考慮一般的概率空間 (E, E , µ), 以 L^p(µ) 表通常的實 L^p 空間, 其範數記為 ∥ · ∥p。我 們需要用到對稱型 (D(f), D(D))。對於流形 M 上的拉氏算子, 對稱型是

D(f ) := D(f, f ) =

∫

M

∥∇f∥

²

, f ∈ C

^∞(M ).

一般的 D(f, g) 由四邊形法則給出: D(f, g) = ^{D(f +g)}^−D(f−g)₄ 。對於歐氏空間 R^d 中的自共 軛二階橢圓算子 (二階係數為 a(x)), 對稱型是

D(f ) =

∫

R^d

a |∇f|

²

dµ, f ∈ C

K^∞

(R^d)

.

而對於對稱測度 J(dx, dy), 我們有稱分算子的對稱型

D(f ) =

1

2

∫

E×E

J (dx, dy)

(

f (y) − f(x)

)2

, f ∈ L

²(µ).

第一特徵值 λ1 的古典變分公式可改寫成下述的 Poincar´e 不等式,

∥f − µ(f)∥

²2

≤ CD(f), f ∈ L

²(µ), 其中 µ(f) =∫

f dµ,

最佳常數 Cmin = _λ¹

1. 這樣, 自然要研究其他重要不等式。於是我們就進入了一個範圍更廣的研究層次。首先是比上式更強些的 L. Gross²⁰(1976) 的對數 Sobolev 不

等式 ∫

E

f

²log

f

²

∥f∥

²2

dµ ≤ CD(f), f ∈ L

²(µ).

這是通常的 Sobolev 不等式在無窮維空間的替代物, G. Perelman²¹ 在他的著名論文 (2002, arXiv: math.DG/0211159) 中也用到。其次是著名的 J. Nash²² (1958) 不等式

∥f − µ(f)∥

²2

≤ CD(f)

¹^p

∥f∥

1¹^q

,

1

p

+1

q

= 1,

f ∈ L

²(µ).

我們使用幾何方法 (拓廣的 Cheeger 不等式、等周不等式等) 研究了這些不等式的最佳常數的估計。

20Leonard Gross,數學家, 研究領域包含泛函分析和建構性量子場論。

21Grigori Yakovlevich Perelman(1966∼), 俄羅斯數學家, 2006 年提出 Poincar´e 猜想的證明, 2006 年獲頒菲爾茲獎, 2010 年獲頒 Millennium Problems Prize。

22John Forbes Nash, Jr. (1928∼), 美國數學家, 1994 年獲頒諾貝爾經濟學獎, 研究領域包含賽局理論、微分幾何學和偏微分方程。

(10)

這些不等式的重要性在於: 它們刻畫了相應的馬可夫半群的某種遍歷性。例如, 若對稱型 對應於半群 {Tt

}

t≥0, 則 Poincar´e 不等式等價於 L² 指數式收斂性 (ε2 = λ₁, C₂ = 1):

L

^p 指數式收斂性:

∥T

t

f − µ(f)∥

p

≤ C

p

∥f − µ(f)∥

p

e

^−ε^p^t

, t ≥ 0, f ∈ L

^p(µ).

由此進入更廣的研究層次, 即研究馬可夫半群 (過程) 的各種遍歷性. 在傳統的馬可夫過程理論的研究中, 有以下三種遍歷性.

通常遍歷性 : lim

t→∞

∥p

t(x,

·) − π∥

var = 0,

指數遍歷性 : ∥pt(x,

·) − π∥

var

≤ C(x)e

^−αt

, α > 0,

強遍歷性 : lim

t→∞sup

x

∥p

t(x,

·) − π∥

var = 0

⇐⇒ lim

t→∞

e

^βtsup

x

∥p

t(x,

·) − π∥

var = 0, β > 0,

此處 pt(x, dy) 是馬可夫過程的轉移概率函數, 而 ∥ · ∥var 是全變差範數。問題是: 所有這些收斂性和遍歷性之間有何聯繫? 下述結果給出了完整的解答。

定理 (陳: 1999, 2002; 毛永華: 2002) 考慮對稱(細致平衡) 馬可夫過程, 若其轉移概率函數關於對稱概率分布有密度, 則下述蘊涵關係成立。此圖是完備的。有反例表明, 所有單方向的蘊涵關係都不可逆, 而無蘊涵關係者不可比較。

Nash不等式

px jjjjjjj jjjjjjj &.TTTTTTTTTTTTTT

對數 Sobolev 不等式

L

¹ 指數式收斂

⇓ ∥

依相對熵指數式收斂

µ-a.s.

強遍歷性

⇓ ⇓

Poincar´e 不等式 ^ks ⁺³

µ-a.s.

指數遍歷性

⇓ L

² 代數式收斂

⇓

通常遍歷性

此圖的價值是顯然的。例如利用等價關係, 可由 Poincar´e 不等式的判別準則得出指數遍歷性準則, 還可以得出遍歷性速度估計, 後者先前所知的結果甚少。另一方面, 利用等同性, 可由強 遍歷性推出關於 L¹ 指數式收斂的各種性質, 後者是 Banach 空間, 其譜性質不易直接處理。

(11)

2.4. _判別準則 ( _{與顯式估計} )

接下來的問題是: 對於這些遍歷性 (不等式), 能否給出判別準則? 下面僅就三對角陣情形, 將 10 個顯式判別準則列表如下。記 µ[i, k] =∑

i≤j≤k

µ

_j。

性質判別準則

唯一性 ∑

n≥0

1

µ

n

b

n

µ[0, n] = ∞ (∗)

常返性 ∑

n≥0

1

µ

n

b

n

=

∞

遍歷性 (

∗) & µ[0, ∞) < ∞

指數遍歷

L

² 指數式收斂 (

∗) & sup

n≥1

µ[n, ∞)

∑

j≤n−1

1

µ

j

b

j

< ∞

離散譜 (

∗) & lim

n→∞ sup

k≥n+1

µ[k, ∞)

∑

n≤j≤k−1

1

µ

_j

b

_j = 0 對數 Sobolev 不等式 (

∗) & sup

n≥1

µ[n, ∞) log[µ[n, ∞)

⁻¹] ∑

j≤n−1

1

µ

_j

b

_j

< ∞

強遍歷

L

¹ 指數式收斂 (

∗) &

∑

n≥0

1

µ

_n

b

_n

µ[n + 1, ∞) =

∑

n≥1

µ

_n ∑

j≤n−1

1

µ

_j

b

_j

< ∞

Nash 不等式 (

∗) & sup

n≥1

µ[n, ∞)

^(q^{−2)/(q−1)} ∑

j≤n−1

1

µ

j

b

j

< ∞

表中的 “(∗) & · · · ” 表示笫一行中的唯一性條件加上條件 “· · · ”。

此表的前三個結果是經典的, 其餘都是新的 (陳:2000–2002; S.G. Bobkov 和 F. G¨otze:

1999; 毛永華:2002; L. Miclo: 1999; 張餘輝:2001), 解決了長期未果難題。這裡的“離散譜”意指譜集僅有有限重的特徵值。此表得益於調和分析中的加權 Hardy 不等式。類似結果通用於一維橢圓算子。使用容度理論, 我們也給出了高維情形的判別準則 (可惜常常非顯式)。使用 Orlicz 空間理論, 還可給出更為廣泛的、統一的判別準則。

3. 一個數學工具: 概率距離與耦合方法

這一部分介紹得出上述第一特徵值變分公式的數學工具以及與線性規劃、偏微分方程等學科的聯繫。

(12)

3.1. _定義

給定距離空間 (E, ρ)上的兩個概率測度 µ1和 µ2, 可構造一個概率空間上的兩個隨機變 量 ξ1 和 ξ2 使得 ξi 的分布為 µi(i = 1, 2). 於是可定義 ξ1 和 ξ2 的通常的 L^p (p

≥ 1) 距離:

(Eρ(ξ1

, ξ

₂)^p)¹^p。上述構造概率空間的手續實質上就是選擇 ξ1 和 ξ2 的一個聯合分布, 即 µ1 和

µ

₂ 的一種耦合 ˜µ, 它是乘積空間上的概率測度, 兩個邊緣分別是 µ1 和 µ2: 對於一切可測集

B,

有 ˜µ(B × E) = µ1(B), ˜

µ(E × B) = µ

2(B) (最簡單的是獨立乘積 ˜µ = µ1

× µ

2)。為脫離參考標架 (概率空間), 自然取 inf, 即定義

W

p(µ1

, µ

2) = inf

˜ µ

( ∫

E×E

ρ(x

1

, x

2)^p

µ(dx

˜ 1

, dx

2) )¹

p

,

其中 ˜µ 跑遍 µ1 和 µ2 的耦合, 當 p = 1 時, 稱 W1 為 Wasserstein 距離。這是 L. N.

Wasserstein 在研究隨機埸時提出來的 (1969)。

3.2. _概率論

上述距離是 R. L. Dobrushin²³ 於 1970 年命名的。他還詳細研究了這種距離的拓撲性質 (完備性、可分性和緊性) 及與弱收斂拓撲之間的關係等。對於概率學家, 這個概率距離已經使用了 35 年。

這個距離擁有內在的幾何特徵。例如在歐氏空間 R^d中, 取 ξ2 為 ξ1 的平移: ξ2 = ξ₁+ a, 那麼兩者分布的 Wp 距離恰好等於平移的長度 |a|。

3.3. _線性規劃

大約 10 年之後 (1980 前後), 人們發現若將 ρ 改為費用函數, 那麼這個距離就變成 L. Kantorovich²⁴ (1942) 所提出的最優運輸問題, 他給出了強有力的對偶表示並和 G. Sh.

Rubinshtein²⁵ (1957) 作過深入研究, 只是限於緊空間情形。因此, 有時也將上述距離稱為 Kantorovich-Rubinshtein-Wasserstein 距離。大家知道, 基於對線性規劃所作出的貢獻, L.

Kantorovich獲 1975 年度 Nobel 經濟學獎。其實, Kantorovich 本人 (1948) 已經注意到, 他的問題可以追溯到 G. Monge²⁶ (1781)。 Monge 的目標是尋求運輸映射 Φ : R^d

→ R

^d,使 得 µ2 = µ₁

◦ Φ

⁻¹ 及運費達到最小

infΦ

∫

R^d

|x − Φ(x)|µ

1(dx).

23Roland Lvovich Dobrushin (1929∼1995), 數學家, 對機率論、數學物理和資訊理論都有重要貢獻。

24Leonid Vitaliyevich Kantorovich (1912∼1986), 蘇聯數學家和經濟學家, 1975 年獲頒諾貝爾經濟學獎。

25Gennadii Shlemovich Rubinshtein (1923-2004),俄羅斯數學家。

26Gaspard Monge (1746∼1818), 法國數學家, 投影幾何的提出者與微分幾何之父, 協助創建巴黎綜合理工學院 ´Ecole Polytech- nique。

(13)

這裡的 Φ 若存在, 此即化為 Wasserstein 距離。但一般情況下可能不存在。換言之, Monge 問題乃是 Kantorovich 問題的加強形式。百年之後 (1885), 巴黎科學院曾設獎徵求 Monge 問題的解答。特殊情形由 P. Appell²⁷ (1887) 解決。然而, 即使對於 W1, 其解答也只是在 200 年之後由 V. N. Sudakov²⁸ (1979) 完成 (長達 178 頁的論文)。

3.4. _{偏微分方程}

1990 年前後, 對於 E = R^d

, p = 2

情形, 下述數學家 Y. Brenier²⁹ (1987, 1991),

S. T. Rachev³⁰ 和 L. R¨uschendorf³¹ (1990, 1995), C. Smith³² 和 M. Knott (1987)。

獨立地證明了在適當的條件下, 存在凸函數 Ψ (常常非唯一), 使得運輸映射 Φ = DΨ (常常 幾乎處處唯一)。

更進一步, L. C. Evans³³ 和 W. Gangbo³⁴ (1999)證明了 Φ 滿足下述的非線性 Monge- Amp`ere 方程 (弱解) f2(DΨ)detD²Ψ = f₁, 其中 fi 為 µi 關於 Lebesgue 測度的分布 密度函數 (假定存在)。等價地, f2(Φ)detDΦ = f₁. 形式上看, 這只是“體積元”的變量替 換 (x → Φ(x)) 公式。我們回到了原始的 Monge 問題. 這些新發展引發了大量文獻, 也構成 了 L. A. Caﬀarelli 的一小時報告和 L. Ambrosio 的 45 分鐘報告的主要內容。

現在, 人們常常把這一研究專題統稱為 Monge-Kantorovich (運輸) 問題, 而依然把 W1

稱為 Wasserstein 距離。

3.5. _統計

耦合 (coupling) 方法對於統計也有廣泛的應用。已出版專著 R. B. Nelsen³⁵ (1999)³⁶。統計學家也常常使用“copulas” 代替 “coupling”。

27Paul ´Emile Appell (1855∼1930), 法國數學家, 阿佩爾序列 Appell polynomials 就是以他為名。

28V. N. Sudakov,俄羅斯數學家, 任職於 Steklov Mathematical Institute。

29Yann Brenier (1957∼), 法國數學家, 研究領域包含偏微分方程、數值分析、最佳化運輸理論等。

30Svetlozar (Zari) Todorov Rachev (1951∼), 俄羅斯數學家, 研究領域包含資產負債管理、風險管理等。

31Ludger R¨uschendorf,數學家, 研究領域包含金融數學、隨機分析演算等。

32C. Smith and M. Knott, On the optimal transportation of distributions, J. Optim. Theory Appl., 52 (1987), 323-329.

33Lawrence Craig Evans (1949∼), 美國數學家, 研究領域包含非線性偏微分方程。

34Wilfrid Gangbo,數學家, EcoAfrica 的創建者, 研究領域包含非線性分析, 偏微分方程, 泛函分析等。

35Roger B. Nelsen,數學家, 研究領域包含機率論等。

36Roger B. Nelsen, An Introduction to Copulas, New York: Springer, (1999), ISBN 0-387-98623-5

(14)

3.6. _動態系統

至今為止, 所討論的都是靜態系統, 即不含時間 t。然而, 我們所走的是另一條路線, 研究 動態系統, 即由某種算子生成的動態系統。這裡, 已知的是所給定的算子 (例如行和為零、非對 角線元素非負的矩陣或二階橢圓算子等)。問題是: 對於給定的兩個算子 L1 和 L2,如何定義它 們之間的 Wasserstein 距離? 結果是, “距離”失去意義, 但卻可以定義最優耦合。設 Lk 為 Ek

上的算子 (k = 1, 2)。一個乘積空間 E1

× E

2 上的算子 ˜L 稱為 L1 和 L2 的耦合, 如果將單變 量 (有界) 函數 f(x1)視為雙變量函數 ˜

f (x

₁

, x

₂) = f (x₁),則對於一切 x1

∈ E

1 和 x2

∈ E

2, 有 ˜L ˜

f (x

₁

, x

₂) = L₁

f (x

₁)。簡記為 ˜L ˜

f = L

₁

f

。類似地, ˜L ˜

f = L

₂

f

。一個耦合算子 ¯L 稱為 ρ 最優 (陳:1994), 如果 ¯Lρ = infL˜

Lρ,

˜ 此處 ˜L 跑遍一切 L1 和 L2 的耦合。

有了這一概念之後, 便可陳述第一特徵值下界估計的耦合方法: 若存在耦合算子 ˜L, 距離

¯

ρ

和常數 α ≥ 0 使得 ˜L¯ρ ≤ −α¯ρ, 則第一特徵值 ≥ α (陳、王鳳雨:1994)。由此可見 ρ 最優 耦合算子 ¯L 給出相對於 ρ 的最優估計。我們完成了若干最優耦合算子的具體構造。這是第一特 徵值變分公式證明的第一個要點。另一個要點是需要變換距離 ¯ρ (事實上使用了一族距離), 因 為收斂速度和 Wasserstein 距離都不是拓撲概念, 自然非常依賴於距離的選取。

結束語一方面, 隨機數學是在其它數學分支 (特別是分析) 的哺育下成長壯大的。最近一個歷史時期的代表性工作有 P. Malliavin³⁷ (1977) 的 Malliavin 分析, S. Smale³⁸ (1981) 等的概率計算複雜性和上述 D. Voiculescu (1985) 的自由概率論等。這些原創者均非概率論出身。另一方面, 人們常常誤認為只是在說不清楚的地方才需要使用隨機數學。上面所介紹的幾個方面, 展示了隨機數學有時比決定性數學更精細, 也顯示出隨機性思想的重要性和威力。概率論對於其他領域有重要影響的工作有大家比較熟悉的狄氏型理論, 還有關於完全非線性方程的 N.

V. Krylov³⁹和 M. V. Safonov⁴⁰(1979)估計, 關於期權定價的 F. Black⁴¹和 M. Scholes⁴² (1973) 公式, 等等。隨機數學與其他學科之間的廣泛的交叉滲透, 是一種很健康的現象, 不足為怪。因為從理論上講, 哲學的三大要素 (對立統一, 量變質變, 偶然與必然) 之一、物理學的兩大理論 (相對論和量子論) 之一都包含隨機性; 從實踐中看, 如同許多人都深有感觸地說, 數學的各分支和理論物理乃是一個統一的整體。

37Paul Malliavin (1925∼2010), 法國數學家, 研究領域包含機率論, 調和分析等。

38Stephen Smale (1930∼), 美國數學家, 1966 年獲頒菲爾茲獎, 2007 年獲頒沃爾夫獎, 1998 年列出了 21 世紀的 18 道數學問題。

39Nicolai Vladimirovich Krylov (1941∼), 俄羅斯數學家, 研究領域包含偏微分方程。

40Mikhail V. Safonov,數學家, 研究領域包含非線性分析和機率論。

41Fischer Sheﬀey Black (1938-1995),美國經濟學家, 研究領域包含經濟學和數學金融, 和 Scholes 一起發展的 Black-Scholes 模型提供計算選擇權價值的基本概念, 並且已經成為全球金融市場的標準模型。

42Myron Samuel Scholes (1941∼), 加拿大裔美籍金融經濟學家, 1997 年獲頒諾貝爾經濟學獎, 和 Black 一起發展的 Black- Scholes模型提供計算選擇權價值的基本概念, 並且已經成為全球金融市場的標準模型。

(15)

補充

這篇文章寫於 2004 年, 當年我們無法想像在 9 年的時間裏, 概率論會取得那麼多的進步。

這裏著重談談概率論走上成熟的若干標誌。

補充 1. _{概率論成熟的若干標誌}

這期間, 數學界給予概率學家許多榮譽。

(1) ICM 2010。在此次會議上, 4 個 Fields 得獎人中有第 1.4 節中所談到的 S. Smirnov, 也有第 3.3 節和 3.4 節中所談到的最優輸運的研究者 C´edric Villani⁴³ (法國)。

(2) 2007 年 Abel Prize 授予 Srinivasa S.R. Varadhan⁴⁴ (印度裔美國數學家, 1940∼)。

表彰他的“Fundamental contributions to probability theory and in particular for creating a uniﬁed theory of large deviations.”

Srinivasa S.R. Varadhan 當年的 IMU 主席 John Ball 將 Gauss 獎證書送到正在住院的伊藤清

(3) ICM 2006。在此次數學家大會上, 將首屆 Gauss Prize 授予日本概率學家 Kiyoshi Itˆo⁴⁵ (1915

∼2008)。頒獎詞稱“The prize honors his achievements in stochastic analysis,

a ﬁeld of mathematics based essentially on his groundbreaking work.”

(4) 同樣在 ICM 2006 會上, 4 個 Fields 獎獲獎人及工作方向分別為:

• Andrei Okounkov

⁴⁶: 概率論 + 表示論 + 代數幾何。

43C´edric Villani (1973∼), 法國數學家, 2010 年獲頒菲爾茲獎, 主要研究領域為偏微分方程和數學物理。

44Srinivasa S.R. Varadhan (1940∼), 印度裔美籍數學家, 詳《數學傳播》第 32 卷第 1 期「有朋自遠方來」專訪。

45伊藤清 (Kiyoshi Itˆo, 1915∼2008), 日本數學家, 被視為隨機分析的創立者, 除了對數學的貢獻, 對社會科學已有很大的影響, 1987 年的沃爾夫獎得主, 1998 年的京都基礎科學獎得主, 2006 年第一屆高斯獎得主。

46Andrei Okounkov (1969∼), 俄羅斯數學家, 2006 年菲爾茲獎得主, 研究領域包含表現理論與其在代數幾何、數學物理、機率論、

特殊函數的應用。

(16)

• Wendelin Werner

⁴⁷: 二維布朗運動的幾何和共形映照。

• Grigori Perelman: Ricci 流的分析和幾何結構。

• Terence Tao

⁴⁸: PDE、組合、調和分析及堆壘數論、隨機矩陣。

顯然他們大多與概率論相關。即使是解決純拓撲難題 Poinca´e conjecture 的 G. Perel- man, 如第 2.3 節所述, 也與概率相關。難怪 J. Ball⁴⁹ 說: 「Probability swept most of the award」, 「2.5 of them, to be exact」。須知這是概率學家第一次獲得此項殊榮。

這些榮譽之所以難能可貴, 是因為概率論是一個相對年輕的學科。它正式成為數學家族的成員應當是 1933 年, 當年 Kolmogorov⁵⁰ 提出了第一個概率論的公理系統。

Andrei Nikolaevich Kolmogorov William Feller’s vivid lecturing

(1903

∼1987)

at IBM

W. Feller⁵¹ (1906

∼1970) 曾寫過兩卷本 “An Introduction to Probability Theory and

its Applications”. 在兩書的序言中分別寫到: “WHEN THIS BOOK WAS FIRST CON- CEIVED (MORE THAN 25 YEARS AGO) few mathematicians outside of the So- viet Union recognized probability as legitimate branch of mathematics.” (1967); “AT THE TIME THE FIRST VOLUME OF THIS BOOK WAS WRITTEN (BETEEN 1941 AND 1948) the interest in probability was not yet widespread” (1965).

這樣, 概率論從出道到成熟, 走過大約 60∼70 年的歷程。

47Wendelin Werner (1968∼), 德裔法籍數學家, 2006 年菲爾茲獎得主, 主要研究興趣是機率論, 尤其是自迴避隨機遊走和平面布朗運動。

48Terence Tao陶哲軒 (1975∼), 澳洲數學家, 2006 年菲爾茲獎得主, 主要研究調和分析、偏微分方程、組合數學、解析數論和表示論。

49Sir John Macleod Ball (1948∼), 數學家, 研究領域包含彈性 (物理學), 變分法等。

50Andrey Nikolaevich Kolmogorov (1903∼1987), 俄國數學家, 詳《數學傳播》第 31 卷 3 期「有朋自遠方來」專訪。

51William “Vilim” Feller (1906∼1970), 克羅埃西亞裔美籍數學家, 對近代機率論的發展作出了卓越的貢獻, 是 20 世紀最偉大的機率學家之一。

(17)

補充 2. _{穩定性速度估計}

文中的第二部分討論的是遍歷性速度估計及其相關課題。近年來, 我們同時開展了衰減速度估計等課題 (兩者合起來統稱為“穩定性速度估計”), 使得第二部分的內容不僅有相當的擴充, 而且有整體的改觀 (包括幾何部分)。關於這些新進展, 請參考拙文 “雙邊 Hardy 不等式及其幾何應用”, 數學傳播 2013 年第 37 卷第 2 期, 第 12-32 頁。

參考資料

為節省篇幅, 凡文集 [1]已包含的文獻不再列入。

1. Proceedings of “ICM 2002” I, II, III [M]. Higher Education Press, Beijing: 2002.

2. Chen, Mufa(陳木法). Eigenvalues, Inequalities, and Ergodic Theory [M]. Springer, Lon- don: 2005.

3. Conrey, J. B. The Riemann hypothesis [J]. Notices of AMS, 2003, 50(3): 341–353.

4. 康立山等著. 非數值並行算法 (第一冊) [M]. 北京: 科學出版社, 1994.

5. Martinelli F. Lectures on Glauber dynamics for discrete spin models [J]. LNM, 1999, 1717: 93–191. (Springer–Valerg).

6. Minlos, R. A. and Trishch, A. G., Complete spectral decomposition of the generator for one-dimensional Glauber dynamics (in Russian) [J]. Uspekhi Matem. Nauk, 1994, 49: 209–211.

7. Schonmann, R. H., Slow drop-driven relaxation of stochastic Ising models in the vicinity of the phase coexistence region [J]. Commun. Math. Phys., 1994, 161: 1-49.

8. Sokal, A. D. and Thomas, L. E., Absence of mass gap for a class of stochastic contour models [J]. J. Statis. Phys., 1988, 51(5/6): 907–947.

9. Wang, Fengyu( 王鳳雨). Functional Inequalities, Markov Processes, and Spectral Theory [M]. 北京: 科學出版社, 2005.

—

本文作者任教北京師範大學數學科學學院

^—

談談概率論與其它學科的若干交叉