簡介蓋、舒爾凸函數與

(1)

簡介蓋、舒爾凸函數與 _Karamata 不等式

陳柏宇 · ^張福春

摘要: 本文主要介紹 Karamata 不等式, 它與不等式理論中最多產的蓋及舒爾凸函數相關, 並考慮它在基本對稱函數、樣本變異數、熵及生日問題上的應用。

1. 前言

本文介紹的 Karamata 不等式是延森不等式 (Jensen’s Inequality) 的一種推廣, 又稱做蓋不等式或 Hardy-Littlewood 不等式。延森不等式通常只能提供凸函數或凹函數的其中一個極值(極大值或極小值), 而 Karamata 不等式則能在某些情況下, 同時給出兩個極值。如同延森不等式, Karamata 不等式涵蓋的層面很廣, 尤其在不等式及極值問題的領域上更是運用廣泛的技巧。

早期, 在不同的領域裡, 蓋理論常被以不同的名稱重複的介紹, 例如, 在經濟學上稱之為羅倫斯優勢 (Lorenz dominance)。這不僅使得研究者在研究相關議題時難以確認蓋理論既存的結果, 也使得很多的研究學者並未發現蓋理論在各領域中被廣泛運用的程度。直到 Marshall and Olkin (1979) 將 Karamata 不等式做了系統化的整理, 才正式的慢慢將蓋理論推展開來。有興趣的讀者, 也可參考 Steele (2004), 書中對於 Karamata 不等式有著詳盡的介紹。

另外在 Arnold (2007) 中也提到了在 Marshall and Olkin (1979) 的書出版後將近三十年間, 此書及 Karamata 不等式對學術界的影響, 除此之外也介紹了很多 Karamata 不等式在各個領域的應用, 最新版的書是 Marshall, Olkin and Arnold (2009)。

本文的安排如下: 第 2 節說明蓋、雙重隨機矩陣及凸包之間的等價關係, 第 3 節討論舒爾美國數學會 2010 年分類索引主要 26D.

關鍵詞: 伯克霍夫定理、凸包、雙重隨機矩陣、羅倫斯曲線、蓋、舒爾凸函數、舒爾準則、Karamata 不等式、相異代表系。

56

(2)

凸函數及舒爾準則, 並考慮在基本對稱函數、樣本變異數、熵上的應用。第 4 節介紹 Karamata 不等式, 並以生日問題為例子作說明。

2. 蓋

蓋的起源來自於人們從以前就很好奇有關於兩個向量間, 有沒有所謂其中某一個向量較為分散, 或是較為平均的現象。如果有的話, 該如何做比較呢? 這樣子的議題, 在各個領域中被研究著。

在二十世紀初, 經濟學家開始對衡量收入或財富的不等式感興趣, 為了要去衡量這件事情, 希望能夠說明在收入或財富的分佈上, 何謂一個收入 (財富) 的分佈較另一個平均。最早針對此議題所發展出的理論為 Lorenz (1905) 所提出的羅倫斯曲線 (Lorenz curve), 其他還有許多不同解釋的角度, 最著名的便是蓋的觀念了。

首先, 定義一個新的符號:

定義1: 給定 n 維向量 a = (a1, a2, . . . , an), 定義 a[j], 1 ≤ j ≤ n 為此 n 維向量中對各分量由大至小做排序後的第 j 項, 亦即 a_[1] ≥ a[2] ≥ · · · ≥ a[n], 並定義 a↓ = (a[1], a[2], . . . , a[n])。

定義 2 (蓋 (majorization)): 給定兩組向量 α = (α1, α2, . . . , αn), β = (β1, β2, . . . , βn) ∈ Rⁿ, 若滿足條件

(i) α[1]+ α[2]+ · · · + α[j]≤ β[1]+ β[2]+ · · · + β[j], 1 ≤ j < n (ii) α[1]+ α[2]+ · · · + α[n]= β[1]+ β[2]+ · · · + β[n]

則稱 α 被 β 蓋住, 記做 α ≺ β 或 β ≻ α。

為了更瞭解關於”蓋”的定義, 以下舉一個簡單的例子:

(1, 1, 1, 1) ≺ (2, 1, 1, 0) ≺ (3, 1, 0, 0) ≺ (4, 0, 0, 0) (1) 式 (1) 可經由簡單的計算得到。又因為 α ≺ β 的關係只與 α 與 β 排序後的向量有關, 故 (1) 也可寫成

(1, 1, 1, 1) ≺ (0, 1, 1, 2) ≺ (0, 1, 3, 0) ≺ (0, 4, 0, 0)

定理3(蓋的遞移性): 設 α, β, γ ∈ Rⁿ, 若有 α ≺ β, β ≺ γ, 則有 α ≺ γ。

證明: 因為

(3)

(i) α[1]+ α[2]+ · · · + α[j]≤ β[1]+ β[2]+ · · · + β[j] ≤ γ[1]+ γ[2]+ · · · + γ[j], 1 ≤ j < n (ii) α[1]+ α[2]+ · · · + α[n]= β[1]+ β[2]+ · · · + β[n]= γ[1]+ γ[2]+ · · · + γ[n]

故得證。

了解蓋的定義後, 底下介紹一個在蓋觀念中十分重要的等價關係。首先, 介紹凸包的先備知識。

定義4: 在一個實數向量空間 V 中, 對於給定集合 X, 所有包含 X 的凸集合的交集 S := \

XjKjV

K, K 是凸集合

被稱為 X 的凸包 (convex hull)。

例如在二維空間中, 任意三點所形成的凸包, 即為連接此三點所成的三角形, 任意 n 點所形成的凸包, 則為能包含此 n 點的最小 k 多邊形 (k ≤ n)。

給定任意 n 維向量 α = (α₁, α2, . . . , αn) 及 β = (β1, β2, . . . , βn), 考慮 α 落在由

βτ(1), βτ(2), . . . , βτ(n) | τ ∈ Sn 所組成的凸包 H(β) 中, 記作 α ∈ H(β), 其中 Sn 代表集合 {1, 2, . . . , n} 中元素的 n! 種排列所成的集合, τ (i), i = 1, 2, . . ., n 表示集合 Sn 之中元素的第 i 個分量。例如在 n = 3 的情況下,

S3 = {(1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1)}

即為集合 {1, 2, 3} 的所有可能排序, 考慮其中元素 (2, 3, 1), 其 τ (1) = 2, τ (2) = 3, τ (3) = 1。

接著說明對於兩向量 α, β ∈ Rⁿ 中, α ∈ H(β) 與 α ≺ β 間的關係, 以進一步瞭解蓋的觀念。

定理5: 設向量 α, β ∈ Rⁿ, 且 α ∈ H(β), 則 α ≺ β。

證明: 對於 α ∈ H(β), α 可表達為

(α1, α2, . . . , αn) = X

τ∈Sn

pτ βτ(1), βτ(2), . . . , βτ(n)

其中P

τ∈Snpτ = 1, pτ ≥ 0。若只考慮第 j 個分量, 則有以下等式 αj = X

τ∈Sn

pτβτ(j) =

n

X

k=1

X

τ:τ (j)=k

pτ

βk =

n

X

k=1

djkβk (2)

(4)

式 (2) 中, 為了簡化式子, 令

djk= X

τ:τ (j)=k

pτ

此處, 可發現 djk ≥ 0, 且因為對 djk 的任意下標求和皆相當於 Sn 中所有 pτ 的總和, 故有

n

X

j=1

djk = 1,

n

X

k=1

djk = 1 (3)

對一個非負實係數的矩陣 D = {djk} 若能滿足 (3), 則稱此矩陣為雙重隨機矩陣 (doubly stochastic matrix)。因此, 若將 α, β 視為行向量, 則由 (2) 有

α ∈ H(β) ⇒ α = Dβ 因此, 接下來只需證明 α = Dβ ⇒ α ≺ β。

因為 α ∈ H(β) 及 α ≺ β 皆不受 α, β 向量內排序的影響, 因此不失一般性可假設 α1 ≥ α2 ≥ · · · ≥ αn 且 β1 ≥ β2 ≥ · · · ≥ βn。接著, 將 (2) 對 j 做加總, 可得

k

X

j=1

αj =

k

X

j=1 n

X

t=1

djtβt=

n

X

t=1

ctβt 其中 ct 定義=

k

X

j=1

djt (4)

因為 ct 為 D 中第 t 行的前 k 個元素的加總, 且 D 為雙重隨機矩陣, 所以 0 ≤ ct ≤ 1, 1 ≤ t ≤ n 且 c1+ c2+ · · · + cn = k 最後, 根據蓋的定義, 觀察以下等式

∆k =

k

X

j=1

αj −

k

X

j=1

βj =

n

X

j=1

cjβj−

k

X

j=1

βj + βk

k −

n

X

j=1

cj

=

k

X

j=1

(βk− βj) (1 − cj) +

n

X

j=k+1

cj(βj− βk)

因為當 1 ≤ j ≤ k 時, βj ≥ βk, 而當 k < j ≤ n 時, βj ≤ βk, 所以有 ∆k≤ 0, 1 ≤ k < n, 且由 (4) 可知 ∆n= 0, 滿足蓋的定義, 故 α ≺ β 得證。如同之前提到蓋的起源與經濟學上的關係, 一個有趣的例子是假設觀察甲與乙兩個國家的人民收入狀況, 設定 α1 為甲國前 10% 收入者的收入占甲國全國總收入的比例, α2 則為接下來 10% 收入者的收入占甲國全國總收入的比例, 依此類推, α10 為甲國最後 10% 收入者的收入占甲國全國總收入的比例。接著以 β1, . . ., β10對乙國做相同的定義。則 α ≺ β 在經濟學上可被視為乙國的人民收入分佈比甲國來得不平均。

(5)

很直覺的, 可聯想到是否 α ≺ β 也可逆推回 α = Dβ 使得乙國人民的收入分佈能藉由雙重隨機矩陣的轉換慢慢的與甲國類似。也有人將這樣的觀念聯想到羅賓漢–劫富濟貧的故事。

定理6: 設向量 α, β ∈ Rⁿ, 且 α ≺ β 則存在一雙重隨機矩陣 D 使得 α = Dβ。

證明: 首先, 考慮最簡單的情況, 當 n = 2 時, 令 α = (α1, α2) = (ρ + σ, ρ − σ) 且 β = (β1, β2) = (ρ+τ, ρ−τ )。不失一般性, 可假設 α1 ≥ α2, β1 ≥ β2, 且 α1+α2 = β1+β2。因此, 若 σ ≤ τ , 則相當於說明 α ≺ β, 因此, 剩下的工作只需找出一雙重隨機矩陣 D 使得 α = Dβ, 利用分點公式求 D 可得

Dβ =

"

τ+σ 2τ

τ−σ 2τ τ−σ

2τ τ+σ

2τ

# "

ρ + τ ρ − τ

#

=

"

ρ + σ ρ − σ

#

= α (5)

故此定理在 n = 2 的情況成立。

雖然上述的情況很簡單, 但可以利用上述的結果, 推廣到 n 維的情況, 並且說明 n × n 的雙重隨機矩陣 D 為由有限個每次改變兩個分量的轉換累積相乘而得。

考慮向量 α, β 有 α ≺ β, 且 α₁ ≥ α2 ≥ · · · ≥ αn, β1 ≥ β2 ≥ · · · ≥ βn, 已知其中有 N 個分量不相等。考慮 N ≥ 2, 則根據蓋的定義可知, 必定存在整數 1 ≤ j < k ≤ n, 使得

βj > αj, βk < αk, 且 βs = αs, ∀j < s < k (6)

|

• • | |

|

•

• | |

|

ρ + σ ρ− σ

αk αj α₂ α₁

αn

β_j=ρ + τ

βk=ρ− τ β₂ β₁

βn

β^′ 值 β 值

α 值

| {z }

ρ

ρ− σ ρ ρ + σ σ

圖1: 做一次轉換為 β^′

考慮類似 n = 2 的情況, 取 ρ = (βj+ βk) /2, τ = βj− ρ, 故 βj = ρ + τ , βk = ρ − τ ,

(6)

接著取 σ = max{|αk− ρ|, |αj− ρ|}, 如圖 1。然後令 T 為能將 β = (β1, β2, . . . , βn) 送到 β^′ = (β₁^′, β₂^′, . . . , β_n^′) 的 n × n 的雙重隨機矩陣, 其中 β^′ 滿足

β_k^′ = βk+ τ − σ, β_j^′ = βj− τ + σ, β_t^′ = βt, ∀t 6= j, t 6= k

T 的表示式可將 n = 2 時所推導出的雙重隨機矩陣的係數分別對應放置於矩陣 T 的 (j, j), (j, k), (k, j), (k, k) 四個點上, 接著將對角線上的空位補滿 1, 其他空位則補滿 0, 如 (7)。值得注意的是, 轉換後的 β^′ 滿足 β^′ ≺ β。





 1

. ..

1

τ+σ

2τ · · · ^τ−σ_2τ ... ...

τ−σ

2τ · · · ^τ+σ_2τ 1

. ..

1







(7)

利用簡單的觀察及計算可以檢查 α ≺ β^′, 因此, 藉由矩陣 T 將 β 轉換成 β^′, 可將 α 與 β^′ 間不相等的分量縮小為至多 N − 1 個。最後, 利用歸納法, 假設存在雙重隨機矩陣 D^′ 使得 α = D^′β^′, 因為 β^′ = T β, 故有 α = D^′(T β) = (D^′T )β, 且知兩個雙重隨機矩陣的乘積依然

為雙重隨機矩陣, 故得證。

α∈ H(β) α= Dβ α≺ β

α = T₁T₂· · · Tnβ

(1) (2)

(4) (3) 伯克霍夫定理

(5)

圖 2: 蓋與凸包的關係

觀察圖 2, 其中 (1) 與 (2) 已經在定理 5 說明, 而 (3) 跟 (4) 的證明則可由定理 6 得到, 若能證明最後一件事情, 即 α = Dβ ⇒ α ∈ H(β), 則可瞭解 α ≺ β 與 α ∈ H(β) 兩件事為等價的。要證明 (5), 需要證明伯克霍夫定理, 這個定理又被稱為是雙重隨機矩陣的基本定理。此處採用一個較有趣的證明方式, 更詳細的介紹可參考 Steele (2004)。

(7)

定理 7 (結婚問題): 設 S1, S2, . . ., Sn ⊂ S, 則對一集合 R = {x1, x2, . . . , xn} ⊂ S, 若其中元素皆不相同且 xk ∈ Sk, k = 1, 2, . . ., n, 則稱 R 為一相異代表系 (system of distinct representatives) (又稱 SDR)。證明 SDR 存在若且唯若滿足以下條件

|A| ≤

[

j∈A

Sj

其中 A ⊂ {1, 2, . . . , n} (8) 此處符號 |C| 代表集合 C 中的元素個數。

這個問題來自 Weyl (1949) 的文章。原本的題目為考慮一群男孩及一群女孩, 若每個女孩只能嫁給自己認識的男孩, 則順利將所有女孩嫁出若且唯若可得任意 k 個女孩至少認識 k 個男孩。

證明: 明顯可知, 若 SDR 存在, 則條件必定滿足。考慮另一個方向的證明, 利用 Weyl 的題意, 即第 j 個女孩認識的男孩為集合 Sj, 所以給定女孩的集合 A, 則集合 S

j∈ASj 中的男孩必定有某個 A 中的女孩認識。考慮下列兩種狀況:

情形一: 假設 (8) 中的不等號為嚴格小於( 即無等號成立的情況發生), 且已知 |A| < n。將第 n 個女孩配對給她所認識的任一個男孩 b。因為條件 (8) 依然在集合 A ⊂ {1, 2, . . . , n−

1} 及每個 Sj, 1 ≤ j ≤ n − 1 皆被替換成 Sj\{b} 的情況下成立( 須再重新判斷其為情況一或情況二), 因此其餘的女孩可依相同的方法配對給其餘的男孩們。

情形二: 假設對某個集合 A0 考慮條件 (8), 發現等號成立, 且已知 |A0| < n。令 B = [

j∈A0

Sj 且 S_j^′ = Sj\B 對所有 j ∈ A^c₀

則根據歸納法, A0 中的女孩必可配對給 B 中的男孩, 因此只需證明在 A^c₀ 中的女孩也可適當的配對給 B^c 中的男孩。取任意的 A ⊂ A^c₀ 可發現

[

j∈A0∪A

Sj

≥ |A0∪ A| = |A| + |A0| 且下列等式恆成立

[

j∈A0∪A

Sj

=

[

j∈A0

Sj

[

j∈A

S_j^′

= |A0| +

[

j∈A

S_j^′ 因此, 可發現對所有 A ⊂ A^c₀ 皆可導出

[

j∈A

S_j^′

≥ |A|

即對任意 A^c₀ 中取 k 個女孩的集合皆至少認識 k 個 B^c 中的男孩。根據數學歸納法, 可知 A^c₀ 中的女孩必可適當的配對給 B^c 中的男孩。

(8)

定理 8 (伯克霍夫定理 (Birkhoff Theorem)): 給定排列 σ ∈ Sn, 對應 σ 的置換矩陣為一 n × n 的矩陣 Pσ = (Pσ(j, k)), 1 ≤ j, k ≤ n 其中元素為

Pσ(j, k) =







1 若 σ(j) = k 0 其他

證明若 D 為一 n × n 的雙重隨機矩陣, 則存在非負權重 {wσ : σ ∈ Sn} 使得 X

σ∈Sn

wσ = 1 且 X

σ∈Sn

wσPσ = D

即所有的雙重隨機矩陣皆可表示為置換矩陣的加權平均。

證明: 此處, 利用定理 7 結婚問題的結果推導伯克霍夫定理。給定雙重隨機矩陣 D, 考慮 1 ≤ j ≤ n, 令 Sj 為能使得 djk> 0 的所有 k 所成的集合, 則對任意集合 A ⊂ {1, 2, . . . , n} 必有

|A| =X

j∈A

X

k∈Sj

djk ≤ X

k∈∪j∈ASj

X

1≤j≤n

djk =

[

j∈A

Sj

根據定理 7, 必存在 {S1, S2, . . . , Sn} 的 SDR, 所以我們可以定義排列 σ 藉由設定 σ(j) 為 Sj 中的代表值 (representative), 以 Weyl 的例子說明則相當於將向量中的第 j 個分量取為第 j 個女生所配對到的男生。接下來, 令 Pσ 為 σ 的置換矩陣並令 α = min djσ(j) > 0。可知, 若 α = 1 則 D 為一置換矩陣, 故得證。但若 α < 1, 則考慮定義一個新的矩陣 D^′ = (1 − α)⁻¹(D − αPσ), 可改寫為

D = αPσ+ (1 − α)D^′

觀察可知 D^′ 依然為一雙重隨機矩陣, 且矩陣中含有比 D 中更多的 0。最後, 可利用數學歸納

法完成此定理的證明。

定理 9 (蓋的稠密性): 設向量 α, β ∈ Rⁿ, α ≺ β, 且 α↓ 6= β↓, 則必定存在 γ ∈ Rⁿ, 使得 α ≺ γ ≺ β。

證明: 不失一般性考慮向量 α, β 有 α ≺ β, 且 α1 ≥ α2 ≥ · · · ≥ αn, β1 ≥ β2 ≥ · · · ≥ βn, 假設其中有 N 個分量不相等。考慮 N ≥ 2, 則根據蓋的定義可知, 必定存在整數 1 ≤ j <

k ≤ n, 使得

βj > αj, βk < αk, 且 βs = αs, ∀j < s < k (9) 考慮類似定理 6 的證明方式, 取 ρ = (βj + βk) /2, τ = βj − ρ, 故 βj = ρ + τ ,

(9)

βk= ρ − τ , 接著取 σ = max{|αk− ρ|, |αj − ρ|}, 如圖 1。接著取 γ 滿足

γk= βk+ c(τ − σ), γj = βj − c(τ − σ), γt= βt, t 6= j, t 6= k 其中 c ∈ (0, 1), 故 γ 6= α, γ 6= β。接著驗證此 γ 是否符合我們的需求

t

X

i=1

αi ≤

t

X

i=1

γi =

t

X

i=1

βi, 1 ≤ t < j

t

X

i=1

αi ≤

t

X

i=1

γi ≤

t

X

i=1

βi, j ≤ t < k

t

X

i=1

αi ≤

t

X

i=1

γi =

t

X

i=1

βi, k ≤ t < n

n

X

i=1

αi =

n

X

i=1

γi =

n

X

i=1

βi

故有 α ≺ γ ≺ β, 得證。

3. 舒爾凸函數

要清楚的了解 Karamata 不等式, 除了熟悉蓋的觀念外, 由於 Karamata 不等式為舒爾凸函數的一個重要特例, 因此, 底下從較為廣義的舒爾凸函數談起。

定義10: 設 f : D → R, D ⊆ Rⁿ, α, β ∈ D, 且 α ≺ β, 若函數 f 滿足 (i) f (α) ≤ f (β), 稱 f 為在 D 上的舒爾凸函數 Schur convex function。

(ii) f (α) ≥ f (β), 稱 f 為在 D 上的舒爾凹函數 Schur concave function。

首先介紹一個可用舒爾凸函數得到的不等式。

例 1 (1971 American Mathematical Monthly problem E2284): 設 a, b, c 為正實數, x = b + c − a, y = a + c − b, z = a + b − c, 且 x, y, z ≥ 0, 試證

1 a +1

b +1 c ≤ 1

x+ 1 y +1

z

證明: 因為對稱性, 故不失一般性, 假設 a ≤ b ≤ c, 則可觀察到有 a ≤ b + c − a = x, a + b ≤ 2c = x + y, 且 a + b + c = x + y + z, 所以可以得到 (a, b, c) ≺ (x, y, z)。接著, 若可以得到 f (t1, t2, t3) = _t¹₁ +_t¹₂ +_t¹₃ 為一舒爾凸函數, 則欲求的不等式便可利用定義 10 輕鬆

得到。但問題是, 要如何說明一給定函數為舒爾凸函數呢?

(10)

以下介紹判斷一函數是否為舒爾凸函數最常用的一個方法–舒爾準則。這個方法是由 Schur (1923) 提出, 但直至今日, 它依舊是判斷舒爾凸函數最常用的工具。

定理 11 (舒爾準則 (Schur Criterion)): 給定一對稱且連續可微的函數 f : (a, b)ⁿ → R, 此函數 f 為舒爾凸函數若且唯若對於 1 ≤ j < k ≤ n 及 x ∈ (a, b)ⁿ 滿足

0 ≤ (xj − xk) ∂f (x)

∂xj

− ∂f (x)

∂xk

若滿足的不等式為此不等式的變號, 則稱函數 f 為舒爾凹函數。

在證明舒爾準則之前, 先介紹一個符號, 以簡化證明的過程。

定義12: 設 w = (w1, w2, . . . , wn) 為 n 維向量, 且 w1 ≥ w2 ≥ · · · ≥ wn, 定義

˜

wj = w1+ w2 + · · · + wj, j = 1, 2, . . . , n 並定義

˜

w= ( ˜w1, ˜w2, . . . , ˜wn)

從上述的定義可觀察到, 對任意兩組 n 維向量 x ≺ y 成立, 若且唯若 ˜xj ≤ ˜yj, 1 ≤ j <

n, 且 ˜xn= ˜yn。

證明: 根據假設 f 為對稱函數, 可知 f 在 (a, b)ⁿ 上為舒爾凸函數若且唯若其在 B = (a, b)ⁿ∩ D 也為舒爾凸函數, 其中 D = {(x1, x2, . . . , xn) | x1 ≥ x2 ≥ · · · ≥ xn}。設集合 ˜B = {˜x: x∈ B}, 則可定義新的函數 ˜f : ˜B → R, 其中對於所有的 ˜x ∈ ˜B 有 ˜f (˜x) = f (x)。

注意對 x, y ∈ B, 當 x ≺ y 時, f (x) ≤ f (y) 成立若且唯若對 ˜x, ˜y ∈ ˜B 有 ˜f (˜x) ≤ f (˜˜y)。換句話說, f 在 B 上為舒爾凸函數若且唯若 ˜f 的前 n − 1 個分量在 ˜B 上為一非遞減函數。又因為 f 為連續可微函數, 所以 f 為舒爾凸函數若且唯若在 ˜B 內的每一個 ˜x 皆有

0 ≤ ∂ ˜f (˜x)

∂ ˜xj

, 1 ≤ j < n (10)

更明確的說, 因為 ˜f (˜x) = f (˜x₁, ˜x₂− ˜x₁, . . . , ˜xn− ˜x_n−1), 可根據鏈鎖律 (chain rule) 將 (10) 改寫為

0 ≤ ∂ ˜f (˜x)

∂ ˜xj

= ∂f (x)

∂xj

− ∂f (x)

∂x_j+1, 1 ≤ j < n (11) 所以, 若將 (11) 中的下標 j 由 1 ≤ j < k ≤ n 做加總, 則可得到

0 ≤ ∂f (x)

∂xj

−∂f (x)

∂xk

, x∈ B (12)

(11)

最後, 根據 f 在 (a, b)ⁿ 上的對稱性, (12) 的條件等價於 0 ≤ (xj− xk) ∂f (x)

∂xj

− ∂f (x)

∂xk

, x∈ (a, b)ⁿ (13)

故得證。

有了舒爾準則, 再回頭討論例 1, 取函數 f (t₁, t2, t3) = _t¹₁ + _t¹₂ + _t¹₃。對此函數, 考慮舒爾準則, 可得對 1 ≤ j < k ≤ n

(tj− tk) ∂f (t)

∂tj

− ∂f (t)

∂tk

= (tj − tk) −t⁻²_j + t⁻²_k ≥ 0 所以 f (t1, t2, t3) = _t¹

1 + _t¹

2 + _t¹

3 為一舒爾凸函數, 故例 1 得證。

例2: 設 x, y, z 為正實數, 試證 xyz ≤x

2 + y 3+ z

6

x 3 + 2y

3

x 6 + 5z

6

證明: 觀察欲證之不等式, 首先令 (a, b, c) 滿足下述等式





 a b c





=







1 2

1 3

1 6 1

3 2

3 0

1

6 0 ⁵₆











 x y z







根據定理 5 可知 (a, b, c) ≺ (x, y, z)。取函數 f (t1, t2, t3) = t1t2t3, t1, t2, t3 > 0, 考慮舒爾準則, 可得對 1 ≤ j < k ≤ 3

(tj − tk) ∂f (t)

∂tj

− ∂f (t)

∂tk

= (tj− tk) Y

i=1,2,3;i6=j

ti− Y

i=1,2,3;i6=k

ti

!

= (tj− tk) t1t2t3

tj

− t1t2t3

tk

≤ 0

所以當 t1, t2, t3 > 0 時, f (t1, t2, t3) = t1t2t3 為一舒爾凹函數, 最後將 (a, b, c), (x, y, z) 代回函數 f

f (x, y, z) ≤ f (a, b, c)

⇒ xyz ≤x 2 +y

3+ z 6

x 3 + 2y

3

x 6 + 5z

6

故得證。

(12)

例3: 設 x, y, z 為正實數, 試證

2 y + z

5

+

6

3x + y + 2z

5

+

6

3x + 2y + z

5

≤ 1 x⁵ + 1

y⁵ + 1 z⁵

證明: 觀察欲證之不等式, 首先令 (a, b, c) 滿足下述等式





 a b c





=







0 ¹₂ ¹₂

1 2

1 6

1 3 1 2

1 3

1 6











 x y z







根據定理 5 可知 (a, b, c) ≺ (x, y, z)。取函數 f (t1, t2, t3) = 1 t⁵₁ + 1

t⁵₂ + 1

t⁵₃, t1, t2, t3 > 0, 考慮舒爾準則, 可得對 1 ≤ j < k ≤ 3

(tj− tk) ∂f (t)

∂tj

− ∂f (t)

∂tk

= (tj − tk) 5t⁻⁶_k − 5t⁻⁶_j ≥ 0 所以當 t₁, t2, t3 > 0 時, f (t1, t2, t3) = _t¹⁵

1 + _t¹⁵

2 + _t¹⁵

3

為一舒爾凸函數, 最後將 (a, b, c),

(x, y, z) 代回函數 f 即可得證。

在介紹下一個例子前, 需要先定義一個新的函數。

定義13: 對任意實數 x1, x2, . . ., xn, 考慮多項式

P (t) = (t−x1)(t−x2) · · · (t−xn) = tⁿ− e1(x)tⁿ⁻¹+· · ·+(−1)^kek(x)t^n−k+· · ·+(−1)ⁿen(x) 稱 ei, i = 1, 2, . . ., n 為 n 變數 x1, x2, . . ., xn 的 i 階基本對稱函數 (elementary symmetric functions), 其中

ek(x) = ek(x1, x2, . . . , xn) = X

1≤i1<i2<···<ik≤n

xi1xi2· · · xik

例如:

e1(x1, x2, x3, x4) = x1+ x2+ x3+ x4

e2(x1, x2, x3, x4) = x1x2+ x1x3+ x1x4+ x2x3+ x2x4 + x3x4

e3(x1, x2, x3, x4) = x1x2x3+ x1x2x4+ x1x3x4+ x2x3x4

e4(x1, x2, x3, x4) = x1x2x3x4

例4: 證明 ek(x) 對 x ∈ [0, ∞)ⁿ 為一舒爾凹函數。

(13)

證明: 觀察基本對稱函數, 已知其微分可寫成

∂ek(x)

∂xs

= ek−1(x1, x2, . . . , xs−1, xs+1, . . . , xn) (14) 接著觀察舒爾準則

(xs− xt) ∂ek(x)

∂xs

− ∂ek(x)

∂xt

= (xs− xt) (ek−1(x1, . . . , xs−1, xs+1, . . . , xn) − ek−1(x1, . . . , xt−1, xt+1, . . . , xn))

= −(xs− xt)²e_k−2(x₁, . . . , x_s−1, x_s+1, . . . , x_t−1, x_t+1, . . . , xn) ≤ 0

可發現 ek(x) 在 x ∈ [0, ∞)ⁿ 為舒爾凹函數。

例5: 用來測量資料離散程度的方式有很多, 舉例來說, 在統計上通常使用樣本變異數 s(x) = 1

n − 1

n

X

j=1

(xj− ¯x)²

此處 ¯x = (x1 + x2+ · · · + xn)/n, x ∈ Rⁿ, n ≥ 2。而在資訊理論中, 使用熵 (entropy) h(p) = −

n

X

k=1

pklog pk

來測量機率分佈 (p1, p2, . . . , pn) 的離散程度, 此處 pk≥ 0 且 p1+ p2+ · · · + pn= 1。試證樣本變異數 s(x) 為舒爾凸函數而熵 h(p) 為舒爾凹函數。

證明: 對樣本變異數 s(x) 觀察舒爾準則 (xj− xk) ∂s(x)

∂xj

− ∂s(x)

∂xk

= 2(xj− xk)²/(n − 1) ≥ 0 可知樣本變異數 s(x) 為舒爾凸函數。接著對函數熵 h(p) 觀察舒爾準則, 有

(pj− pk) hpj(p) − hpk(p) = (pj− pk) (log pk− log pj) ≤ 0

故知熵 h(p) 為舒爾凹函數, 故得證。

4. Karamata 不等式

舒爾凸函數在不等式的題目裡, 有相當廣泛的應用, 但其中最有名的一個特例, 即為 Kara- mata 不等式。

(14)

定理14: (Karamata 不等式 (Karamata Inequality)) 對函數 φ : (a, b) → R, 定義函數 f : (a, b)ⁿ → R 為

f (x1, x2, . . . , xn) =

n

X

k=1

φ(xk) 則對任意 α, β ∈ (a, b)ⁿ 且 α ≺ β 有

n

X

k=1

φ(αk) ≤

n

X

k=1

φ(βk), 當 φ : (a, b) → R 為凸函數

n

X

k=1

φ(αk) ≥

n

X

k=1

φ(βk), 當 φ : (a, b) → R 為凹函數若 φ 為嚴格凸( 凹) 函數, 則等號成立若且唯若 α↓ = β↓。

證明: 此處證明當 φ 為凸函數的情況, 凹函數同理可證。首先考慮函數 φ 的可微性。

情形一: φ 為可微函數

觀察函數 f (x), 利用舒爾準則可得到 (xj−xk) ∂f (x)

∂xj

−∂f (x)

∂xk

= (xj−xk) (φ^′(xj)−φ^′(xk)) ≥ 0 (因為 φ 為凸函數) 故 f (x) 為一舒爾凸函數, 又 α ≺ β, 所以有

n

X

k=1

φ(αk) = f (α) ≤ f (β) =

n

X

k=1

φ(βk)

若 φ 為嚴格凸函數, 則等號成立若且唯若 α↓ = β↓。情形二: φ 不為可微函數

由於 α ≺ β, 故根據定理 6 可知存在一雙重隨機矩陣 D = {djk}, 使得 α = Dβ, 或寫成

αj =

n

X

k=1

djkβk

接著應用延森不等式在凸函數 φ 上, 得 φ(αj) ≤

n

X

k=1

djkφ(βk) (15) 最後, 對 (15) 中的下標 j 做加總, 發現

n

X

j=1

φ(αj) ≤

n

X

j=1 n

X

k=1

djkφ(βk) =

n

X

k=1

( φ(βk)

n

X

j=1

djk

)

=

n

X

k=1

φ(βk)

(15)

即為 Karamata 不等式的結果。若 φ 為嚴格凸函數, 則等號成立若且唯若 α↓ = β↓。之前提到過, 延森不等式通常只能提供關於凸函數或凹函數的其中一個極值(極大值或極小值), 而 Karamata 不等式則能在某些情況下, 同時給出兩個極值。觀察 Karamata 不等式的定理, 可發現 Karamata 不等式的大小關係與給定的兩向量 α, β 彼此之間的蓋 ”≺” 有十分密切的關係。

觀察下面的式子, 雖然利用蓋的定義可以輕易得到, 但卻是在 Karamata 不等式中十分重要的結果。

1 n,1

n, . . . , 1 n

≺

1

n − 1, . . . , 1 n − 1, 0

≺ · · ·

≺ 1 2,1

2, 0, . . . , 0

≺ (1, 0, . . . , 0)

或者, 更廣義的來說, 給定一組 n 維向量 α = (α1, α2, . . . , αn), 若 α1+ α2+ · · · + αn = s, αi > 0, i = 1, 2, . . ., n, 則必有

s n, s

n, . . . , s n

≺ (α1, α2, . . . , αn) ≺ (s, 0, . . . , 0)

因此在總量固定, 且各分量皆不為負數的情況下, 所能造出最集中的向量即為將總量集中在某一分量上的向量, 而最分散的向量, 為將各分量取平均的向量。套用在 Karamata 不等式上, 即為 Karamata 不等式中所能求得的最大值及最小值。

最後要介紹延森不等式, 延森不等式為 Karamata 不等式的一個特例。若取 α = (¯x,

¯

x, . . . , ¯x), β = (x1, x2, . . . , xn), 其中 ¯x = ^x¹^+x²^+···+x_n ⁿ, 則因為 (¯x, ¯x, . . . , ¯x) ≺ (x1, x2, . . ., xn), 故此時的 Karamata 不等式可寫成

nφ(¯x) ≤

n

X

i=1

φ(xi)

即為延森不等式。

例6: 對銳角三角形 ABC, 試證

1 < cos A + cos B + cos C ≤ 3 2 等號何時成立?

證明: 不失一般性, 假設 A ≥ B ≥ C, 則有 A ≥ ^π₃ 且 C ≤ ^π₃。因為 ^π

2 ≥ A ≥ ^π₃ 且 π ≥ A + B = π − C ≥ ^2π₃ , 所以 ^π₂,^π₂, 0 ≻ (A, B, C) ≻ ^π₃,^π₃,^π₃。取函數 f(x) = cos x,

(16)

因為 f^′′(x) = − cos x ≤ 0, x ∈ [0,^π₂], 故在區間 0,^π₂ 中 f(x) = cos x 為凹函數, 故根據 Karamata 不等式, 有

1 = cosπ

2 + cosπ

2 + cos 0 ≤ cos A + cos B + cos C

≤ cosπ

3 + cosπ

3 + cosπ 3 = 3

2

考慮第一個不等式, 等號不會成立, 因為三角形中, 不會同時出現兩個直角。第二個不等式中,

等號成立若且唯若此三角形為正三角形。

例7: 設 x, y, z ∈ (0, 1) 且 max(x, y, z) ≤ ^x+y+z₂ ≤ 1, 試證

1 + x 1 − x

1 + y 1 − y

1 + z 1 − z

≤

1 + ¹₂(x + y + z) 1 − ¹₂(x + y + z)

²

證明: 令 s = ^x+y+z₂ , 則根據題意有 (x, y, z) ≺ (s, s, 0)。接著取 φ(t) = log 1 + t

1 − t

且因 φ^′′(t) = _(t2−1)^4t ² > 0, 0 < t < 1, 故知 φ(t) 在 (0, 1) 區間中為凸函數。最後, 利用 Karamata 不等式

log 1 + x 1 − x

+ log 1 + y 1 − y

+ log 1 + z 1 − z

≤ log 1 + s 1 − s

+ log 1 + s 1 − s

log 1 + x

1 − x· 1 + y

1 − y · 1 + z 1 − z

≤ log 1 + s

1 − s · 1 + s 1 − s

1 + x 1 − x

1 + y 1 − y

1 + z 1 − z

≤ 1 + s 1 − s

2

=

1 + ^x+y+z₂ 1 −^x+y+z₂

²

故得證。

例8 (生日問題): 隨機給定 n 個人, 且其生日視為在集合 {1, 2, . . . , 365} 上獨立的均勻分佈, 試證明若 n ≥ 23, 則其中有兩個或兩個以上的人生日相同的機率至少為 1/2。

考慮更廣義的情況, 若在沒有均勻假設的條件下, 試證明若 n ≥ 23, 則其中有兩個或兩個以上的人生日相同的機率依舊至少為 1/2。

證明: 首先, 假設此問題中考慮的一年皆為 365 天, 不考慮閏年。在均勻分配的假設下, 給定任意 23 人, 則有兩個或兩個以上的人生日相同的機率為 1 − (1 − 1/365) · (1 − 2/365) · · · (1 − 22/365) ≈ 0.5079。考慮更一般的情況, 若沒有均勻分佈的假設, 令 pk 為一隨機抽取的人生

(17)

日落在第 k 天的機率, 且 p₁ + p2 + · · · + p365 = 1。考慮機率 1 − e23(p1, p2, . . . , p365), 又

1

365,₃₆₅¹ , . . . ,₃₆₅¹ ≺ (p1, p2, . . . , p365), 根據例 4 基本對稱函數為一舒爾凹函數, 故有 e23(p1, p2, . . . , p365) ≤ e23

1 365, 1

365, . . . , 1 365

所以

1 − e23(p1, p2, . . . , p365) ≥ 1 − e23

1 365, 1

365, . . . , 1 365

故得證。關於此問題, 詳細的討論可參考 Clevenson and Watkins (1991) 和 Joag-Dev and

Proschan (1992)。

參考文獻

Arnold, B.C. (2007). Majorization: Here, there and everywhere. Statistical Science 22 (3): 407.

Clevenson, M.L. and Watkins, W. (1991). Majorization and the birthday inequality. Mathematics

Magazine 64

(3): 183-188.

Joag-Dev, K. and Proschan, F. (1992). Birthday problem with unlike probabilities. Amer. Math.

Monthly 99

(1): 10-12.

Lorenz, M.O. (1905). Methods of measuring the concentration of wealth. Publications of the Amer-

ican Statistical Association 9

(70): 209-219.

Marshall, A.W. and Olkin, I. (1979). Inequalities: Theory of Majorization and Its Applications. New York: Academic Press.

Marshall, A.W., Olkin, I. and Arnold, B. (2009). Inequalities: Theory of Majorization and Its

Applications, 2nd edition. Springer, New York.

Schur, I. (1923). ¨Uber eine Klasse von Mittelbildungen mit Anwendungen die Determinanten-Theorie Sitzungsber. Berlin. Math. Gesellschaft 22, 9-20. Issai Schur Collected Works (A. Brauer and H. Rohrbach, eds.) Vol. II. pp. 416-427. Berlin: Springer-Verlag, 1973.

Steele, J.M. (2004). The Cauchy-Schwarz Master Class: An Introduction to the Art of Mathematical

Inequalities. Cambridge: Cambridge University Press.

Weyl, H. (1949). Almost periodic invariant vector sets in a metric vector space. Amer. J. Math. 71, 178-205.

—

本文作者陳柏宇任教新北市三多國中, 張福春任教中山大學應用數學系

—

台北表現理論研討會 IV

日期 : 2013 年 12 月 20 日 (星期五) ∼ 2013 年 12 月 23 日 (星期一) 地點 : 台北市大安區羅斯福路四段1號天文數學館

詳見中研院數學所網頁 http://www.math.sinica.edu.tw

簡介蓋、 舒爾凸函數與