Chapter 8
Diagonalizable
Matrices and Their Applications
在這一章中, 我們探討 n× n matrix 對角化的問題以及其相關應用.
8.1. Diagonalizability
我們曾經提過, 當 A∈ Mn×n(F) 若存在 Fn 的一組 basis v1, . . . , vn 其中每個 vi 皆為 A 的 eigenvector, 則稱 A 為 diagonalizable. 另一方面當 V 是一個 vector space overF 且 T :V →V 是一個 linear operator. 若 V 中存在一組 basis v1, . . . , vn其中每個 vi 皆為 T 的 eigenvectors, 則稱 T 為 diagonalizable. 在這一節中我們將探討如何判斷一個方陣或一個 linear operator 是否是 diagonalizable.
要如何知道 A∈ Mn×n(F) 是否為 diagonalizable 呢? 從其定義, 我們知道它必須要有夠 多的 eigenvectors. 以下我們要看一種特殊的情況可以確保 A 有夠多的 eigenvectors, 從而 得到 A 為 diagonalizable. 首先要有夠多的 eigenvectors 就表示要有夠多的 eigenvalues, 所 以我們假設 A 的 characteristic polynomial 可以在F 中完全分解. 也就是存在λ1, . . . ,λk∈ F 皆相異且滿足 pA(t) = (−1)n(t−λ1)m1···(t −λk)mk. 依定義對於 i = 1, . . . , k, mi 就是 λi 的 algebraic multiplicity 而且因 pA(t) 的次數為 n, 我們有 m1+···+mk= n. 等一下我們會證明 對於每個 eigenvalue, 其 geometric multiplicity 會小於等於其 algebraic multiplicity. 所以這 裡 A 的 eigenvectors 要夠多, 最好的狀況就是每一個 eigenvalue 其 geometric multiplicity 等 於其 algebraic multiplicity. 所以這裡我們假設對於 i = 1, . . . , k,λi 的 geometric multiplicity 等於其 algebraic multiplicity, 亦即 dim(EA(λi)) = mi. 此時我們令 vi,1, . . . , vi,mi 為 EA(λi) 的 一組 basis. 將這 k 組 vectors 收集在一起後, 我們要說明它們 v1,1, . . . , v1,m1, . . . , vk,1, . . . , vk,mk 是 linearly independent. 因為當它們是 linearly independent 時再加上它們是在 Fn 中且共 有 m1+··· + mk= n 個向量, 所以由 Corollary 3.6.10, 知它們是 Fn 中的一組 basis. 又因為 它們皆為 A 的 eigenvectors, 所以可知此時 A 為 diagonalizable.
195
要說明 eigenvector 之間的線性關係, 我們先探討兩個 eigenvectors 的情況. 當 v 為 A 的 eigenvector, 若其 eigenvalue 為 λ, 則和 v 平行的 nonzero vector 皆為 eigenvalue 為 λ 的 eigenvector (參見 Proposition 7.2.3 (1)). 也因此若 v, w 為 A 的 eigenvectors 而他們所對應 的 eigenvalue 是相異時, 則 v, w 不可能平行. 也就是說 v, w 為 linearly independent. 這個 結果可推廣到更一般的狀況.
Proposition 8.1.1. 假設 A 為 n×n matrix 且 v1, . . . , vk 為 A 的 eigenvectors. 若 v1, . . . , vk 所對應的 eigenvalues 皆相異, 則 v1, . . . , vk 為 linearly independent.
Proof. 我們利用數學歸納法證明. 前面已知 k = 2 的情形成立, 接著我們假設有 k− 1 個 eigenvectors 的情形也成立. 現考慮 k 個 eigenvectors 的情形. 假設 v1, . . . , vk 為 A 的 eigenvectors 且其對應的 eigenvalue 分別為λ1, . . . ,λk (亦即 Avi=λivi, for i = 1, . . . , n). 依歸 納法之假設 v1, . . . , vk−1 為 linearly independent. 現用反證法, 假設 v1, . . . , vk−1, vk 為 linearly dependent. 依 Lemma 3.5.4, 這表示 vk ∈ Span(v1, . . . , vk−1). 也就是說存在 c1, . . . , ck−1∈ F 使得
vk= c1v1+··· + ck−1vk−1 (8.1) 利用 eigenvector 的定義我們得
λkvk= Avk= A(c1v1+··· + ck−1vk−1) = c1Av1+··· + ck−1Avk−1= c1λ1v1+···ck−1λk−1vk−1. (8.2) 將式子 (8.1) 乘上 λk 與式子 (8.2) 相減得
c1(λk−λ1)v1+··· + ck−1(λk−λk−1)vk−1= 0. (8.3) 由於 vk ̸= 0, 我們知 c1, . . . , ck−1 不全為 0. 而由 eigenvalue 皆相異, 我們知對任意 i = 1, . . . , k− 1, 皆有λk−λi̸= 0. 因此 c1(λk−λ1), . . . , ck−1(λk−λk−1) 為不全為 0 的實數. 換句 話說, 式子 (8.3) 告訴我們 v1, . . . , vk−1 為 linearly dependent, 此與歸納之假設相矛盾, 得證
本定理.
如何說明 v1,1, . . . , v1,m1, . . . , vk,1, . . . , vk,mk 是 linearly independent 呢? 照慣例, 我們先假設 v1,1, . . . , v1,m1, . . . , vk,1, . . . , vk,mk 是 linearly dependent. 亦即存在不全為 0 的 c1,1, . . . , c1,m1, . . . , ck,1, . . . , ck,mk∈ F 使得
c1,1v1,1+··· + c1,m1v1,m1+··· + ck,1vk,1+··· + ck,mkvk,mk= 0.
此 時 對 任 意 i∈ {1,...,k}, 我們令 wi = ci,1vi,1+··· + ci,mivi,mi. 因 此 由 於 vi,1, . . . , vi,mi 為 linearly independent, 如 果 ci,1, . . . , ci,mi 不 全 為 0, 可 得 wi ̸= 0. 但由於 wi ∈ EA(λi), 故 此時 wi 為 eigenvalue 為 λi 的 eigenvector. 也就是說, 若存在某些 ci, j̸= 0, 則對於那 些 i, wi 會是 eigenvalue 為 λi 的 eigenvectors 滿足 w1+··· + wk= 0. 此與 Proposition 8.1.1 所述, 不同 eigenvalue 的 eigenvectors 之間是 linearly independent 的結果相矛盾, 故得證 v1,1, . . . , v1,m1, . . . , vk,1, . . . , vk,mk 是 linearly independent. 我們因此證得了當 A 的 characteristic polynomial 可以在 F 中完全分解且 A 的每一個 eigenvalue 的 geometric multiplicity 等於其 algebraic multiplicity, 則 A 為 diagonalizable.
8.1. Diagonalizability 197
其實反過來也是對的, 也就是說若 A∈ Mn×n(F) 為 diagonalizable, 則 A 的 characteristic polynomial 可以在F 中完全分解而且 A 的每一個 eigenvalue 的 geometric multiplicity 等於 其 algebraic multiplicity. 不過在證明之前我們先證明前面提過的一般來說一個 eigenvalue 的 geometric multiplicity 會小於等於其 algebraic multiplicity.
Proposition 8.1.2. 假設 A∈ Mn×n(F). 若 λ ∈ F 為 A 的一個 eigenvalue 且其 geometric multiplicity 為 d 以及 algebraic multiplicity 為 m, 則 d≤ m.
Proof. 依 假 設 dim(EA(λ)) = d, 故令 v1, . . . , vd 為 EA(λ) 的一組 basis. 由於 v1, . . . , vd
為 linearly independent, 我們可以將之 拓展成 Fn 中的一組 basis v1, . . . , vd, vd+1, . . . , vn. 令 C 為 i-th column 為 vi 的 n× n invertible matrix. 此時利用矩陣乘法可得 AC = CE 其中 E =
[ λId M1
0 M2 ]
. 由於 E− tIn=
[ (λ −t)Id M1
0 M2−tIn−d
]
, 我們可得 det(E− tIn) = (λ −t)ddet(M2−tIn−d). 換言之, E 的 characteristic polynomial 可以被 (t−λ)d 所整除. 然 而 A 和 E 為 similar (因為 E = C−1AC), 所以它們有相同的 characteristic polynomial (參見 Proposition 7.2.10), 因此得 (t−λ)d 可整除 pA(t). 然而λ 的 algebraic multiplicity 為 m, 表 示 m 為 t−λ 可以整除 pA(t) 的最高次數, 因此得證 d≤ m. 利用 Proposition 8.1.2 可以得到一個有趣的結果. 由於 A 的 eigenvalueλ 的 geometric multiplicity 必大於 0 (因對應 λ 的 eigenvector 必存在) 且其值必小於等於其 algebraic multiplicity (Proposition 8.1.2). 因若λ 是 A 的 characteristic polynomial 的單根 (即 λ 的 algebraic multiplicity 為 1), 其 geometric multiplicity 一定等於其 algebraic multiplicity (皆 為 1).
現假設 n× n matrix A 是 diagonalizable. 依定義令 v1,1, . . . , v1,d1, . . . , vk,1, . . . , vk,dk 是 Fn 的一組 basis, 且對任意 i∈ {1,...,k}, vi,1, . . . , vi,di 為 A 以 λi 為 eigenvalue 的 eigenvector, 其中 λ1, . . . ,λk 皆相異. 由於 vi,1, . . . , vi,di ∈ EA(λi) 且為 linearly independent, 我們知 λi 的 geometric multiplicity dim(EA(λi))≥ di. 現又假設每個λi 的 algebraic multiplicity 為 mi, 由 Proposition 8.1.2 我們有
mi≥ dim(EA(λi))≥ di,∀i = 1,...,k. (8.4) 由於 m1+··· + mk 表示 A 的 characteristic polynomial pA(t) 根的個數 (含重根), 其值會小 於等於 pA(t) 的次數 n. 而 m1+··· + mk 表示 Fn 的 dimension, 即 n. 因此將式子 (8.4) 中 i = 1, . . . , k 加起來可得
n≥ m1+··· + mk≥ dim(EA(λi)) +··· + dim(EA(λk))≥ d1+··· + dk= n.
因此得知上式中 “≥” 應為 “=” (否則有一項為不等會造成 n > n 之矛盾). 也就是說 n = m1+··· + mk (這表示 pA(t) 可以在實數中完全分解) 以及 mi= dim(EA(λi)),∀i = 1,...,k (這表示每個 eigenvalue 的 geometric multiplicity 等於其 algebraic multiplicity). 綜合以上 的討論我們有以下的結論.
Theorem 8.1.3. 假設 A∈ Mn×n(F). 以下敘述是等價的.
(1) Fn 中存在一組 basis 是由 A 的 eigenvectors 所組成.
(2) 存在一個 invertible matrix C∈ Mn×n(F) 使得 C−1AC 為 diagonal matrix.
(3) A 的 characteristic polynomial 可 在 F 中完全分解且 A 的每個 eigenvalue 的 geometric multiplicity 等於其 algebraic multiplicity.
Example 8.1.4. 我們考慮矩陣 A =
0 3 1
−1 3 1 0 1 1
, B =
−1 4 2
−1 3 1
−1 2 2
. 經計算可得它們有 相同的 characteristic polynomial −(t − 1)2(t− 2). 也因此 A,B 的 eigenvalue 1 其 algebraic multiplicity 皆為 2, 而 eigenvalue 2 的 algebraic multiplicity 皆為 1. 由於 eigenvalue 2 的 algebraic multiplicity 為 1, 我們知其 geometric multiplicity 亦為 1, 所以我們僅要檢查 eigenvalue 1 的 geometric multiplicity 即可.
矩陣 A 對於 eigenvalue 1 的 eigenspace, 即 A− I3=
−1 3 1
−1 2 1 0 1 0
的 null space. 經由
elementary row operations, 可化為 echelon form
1 0 −1 0 1 0 0 0 0
. 可得 EA(1) = Span(
1 0 1
).
也就是說 A 對於 eigenvalue 為 1 的 eigenvector 就是那些和
1 0 1
平行的 nonzero vector, 我 們也得到 A 對於 eigenvalue 1 的 geometric multiplicity 為 1. 因其 geometric multiplicity 不等於 algebraic multiplicity, 可得 A 不是 diagonalizable matrix. 回顧在 Example 7.3.2 中 我們計算過 B 在 eigenvalue 1 和 eigenvalue 2 的 geometric multiplicity 皆等於其 algebraic multiplicity, 所以 B 為 diagonalizable matrix. 我們看如何將 B 對角化.
由於 B 對於 eigenvalue 為 1 和 2 的 eigenspace 分別為 EB(1) = Span(
2 1 0
,
1 0 1
) 和
EB(2) = Span(
2 1 1
), 可得
2 1 0
,
1 0 1
,
2 1 1
就是一組由 B 的 eigenvectors 所形成的 R3 的
basis. 因此若令 C =
2 1 2 1 0 1 0 1 1
以及 D =
1 0 0 0 1 0 0 0 2
, 則
BC =
−1 4 2
−1 3 1
−1 2 2
2 1 2 1 0 1 0 1 1
=
2 1 4 1 0 2 0 1 2
=
2 1 2 1 0 1 0 1 1
1 0 0 0 1 0 0 0 2
= CD.
再由 C 為 invertible, 得 C−1BC = D.
依照 diagonalizable matrix 的定義, 我們可以將 Theorem 8.1.3 中任一項當成檢驗矩陣 是否為 diagonalizable 的方法.
Question 8.1. 假設 A 為 n×n matrix. 試利用 Theorem 8.1.3 (2) 說明 A 為 diagonalizable 若且唯若 At 為 diagonalizable.
8.1. Diagonalizability 199
由 Proposition 7.2.11 我們知道 A 和 At 有相同的 characteristic polynomial 所以他們 有相同的 eigenvalue 而且這些 eigenvalue 在 A 和 At 的 algebraic multiplicity 會相同. 而 Question 8.1 似乎暗示這對 geometric multiplicity 也成立, 事實上我們有以下的結果.
Proposition 8.1.5. 假設 A 為 n× n matrix 且λ ∈ R 為 A 的一個 eigenvalue. 則 λ 對於 A 的 geometric multiplicity 與 λ 對於 At 的 geometric multiplicity 相等.
Proof. 我們要說明 dim(EA(λ)) = dim(EAt(λ)), 亦即 dim(N(A − λIn)) = dim(N(At−λIn)).
由 Theorem 3.7.14 我們知 dim(N(A−λIn)) = nullity(A−λIn) = n− rank(A −λIn), 同理由 A∈ Mn×n 得 dim(N(At−λIn)) = n−rank(At−λIn). 因為 At−λIn= (A−λIn)t 以及 rank((A− λIn)t) = rank(A−λIn) (Proposition 3.7.15),得證 dim(N(A−λIn)) = dim(N(At−λIn)). Question 8.2. 假設 A 為 n×n matrix. 試利用 Theorem 8.1.3 (3) 說明 A 為 diagonalizable 若且唯若 At 為 diagonalizable.
前 一 節 我 們 提 過, 對 於 linear operator 的 eigenvalue, eigenvector 和 其 表 現 矩 陣 的 eigenvalue, eigenvector 之間的關係, 換言之一個 linear operator 是否為 diagonalizable 取 決於其表現矩陣是否為 diagonalizable. 所以 Theorem 8.1.3 對於 linear operator 也是對的, 因此我們有以下結果.
Theorem 8.1.6. 假設 V 為 vector space over F 且 T : V → V 為 linear operator. 以下敘 述是等價的.
(1) V 中存在一組 basis 是由 T 的 eigenvectors 所組成.
(2) 存在一個 V 的 ordered basis β 使得 [T]ββ 為 diagonal matrix.
(3) T 的 characteristic polynomial 可在 F 中完全分解且 T 的每個 eigenvalue 的 geometric multiplicity 等於其 algebraic multiplicity.
最後我們再次強調在檢查一個矩陣是否為 diagonalizable 時, 對於 algebraic multi- plicity 為 1 的 eigenvalue 我們就不必檢查其 geometric multiplicity 了. 舉例來說, 若 A 的 characteristic polynomial 可在 F 中完全分解且其根皆為單根 (無重根), 則 A 一定為 diagonalizable. 另外還有一種矩陣不必檢查就知道一定是 diagonalizable, 就是 symmetric matrix. 下一節我們將會證明所有的 symmetric matrix 皆為 diagonalizable.
假設 A∈ Mn×n(F) 為 diagonalizable, 我們知存在 invertible matrix Q 使得 Q−1AQ 為 diagonal matrix D. 換言之, 我們可以將 A 寫成 A = QDQ−1. 也因此我們可得
A2= (QDQ−1)(QDQ−1) = QD2Q−1.
同理對任意 m∈ N, 我們有 Am= QDmQ−1. 寫成這樣有什麼好處呢? 因為 D 為對角矩陣
λ1 0 . ..
0 λn
, 我們很可以容易算出 Dm, 即
λ1m 0 . ..
0 λnm
. 因此只要知道 Q 和 Q−1,
我們就可以很輕易算出 Am (即 QDmQ−1), 而不必真正將 A 乘到 m 次方了.
Example 8.1.7. 考慮實矩陣 B =
−1 4 2
−1 3 1
−1 2 2
. 在 Example 8.1.4 我們算出 Q−1BQ = D,
其中 Q =
2 1 2 1 0 1 0 1 1
以及 D =
1 0 0 0 1 0 0 0 2
. 由於 Q−1=
1 −1 −1 1 −2 0
−1 2 1
, 我們得
B5= QD5Q−1=
2 1 2 1 0 1 0 1 1
1 0 0 0 1 0 0 0 32
1 −1 −1 1 −2 0
−1 2 1
=
−61 124 62
−31 63 31
−31 62 32
.
8.2. The Spectral Theorem
在這一節中我們要探討 symmetric matrix. 我們將證明 symmetric matrix 皆為 diagonaliz- able, 更重要的是它們都是所謂的 orthogonal diagonalizable. 這個結果在數學和物理方面都 有很重要的應用, 不過我們不會深入探討它的應用, 而著重於說明如何將 symmetric matrix 對角化.
首先我們來看 2× 2 symmetric matrix 的情形. 假設 A =
[ a b b c
]
,其中 b̸= 0 (因為若 b = 0, 此時 A 已為 diagonal matrix 不必對角化). 此時 A 的 characteristic polynomial 為 PA(t) = t2−(a+c)t +(ac−b2). 由於 pA(t) 的判別式 (a + c)2−4(ac−b2) = (a−c)2+ 4b2> 0, 我們得 PA(t) = 0 有兩相異實根 λ1,λ2. 也就是說λ1,λ2 為 A 的兩相異 eigenvealue, 故知 A 為 diagonalizable. 事實上若令 v1=
[ b λ1− a
]
, 我們有
Av1= [ a b
b c
][ b λ1− a
]
=
[ λ1b b2+λ1c− ac
]
=λ1
[ b λ1− a
]
=λ1v1.
注意這裡我們用到了λ12−(a+c)λ1+ (ac−b2) = 0. 由於 b̸= 0, 我們知 v1̸= 0, 故 v1 是 A 的 eigenvector 其 eigenvalue 為λ1. 同理令 v2=
[ b λ2− a
]
, 我們可得 v2 為 A 的 eigenvector 其 eigenvalue 為λ2. 重要的是, 我們有⟨v1, v2⟩ = b2+λ1λ2−a(λ1+λ2) + a2. 利用根與係數關係, 即λ1λ2= ac− b2 以及 λ1+λ2= a + c, 我們得⟨v1, v2⟩ = 0. 也就是說 v1, v2 這組R2 的 basis 不只是由 A 的 eigenvectors 所組成, 而且它們倆倆互相垂直. 這種比一般 diagonalizable 更 強的條件我們便稱之為 orthogonal diagonalizable. 其正式的定義如下.
Definition 8.2.1. 假設 A∈ Mn×n, 若存在一組 Rn 的 orthogonal basis v1, . . . , vn 其中每個 vi 皆為 A 的 eigenvectors, 則稱 A 為 orthogonal diagonalizable.
當然了, 在 Definition 8.2.1 中若令 ui= ∥v1
i∥vi 則 u1, . . . , un 為 Rn 的一組 orthonormal basis 且皆為 A 的 eigenvectors. 所以 A 為 orthogonal diagonalizable 也等同於Rn中有一組 orthonormal basis 是由 A 的 eigenvector 所組成. 此時若 ui 所對應的 eigenvalue 為λi 且令 Q =
u 1 u2 ··· un
則可得 AQ = QD 其中 D 為 (i,i)-th entry 為 λi 的 diagonal matrix, 也就是說我們可以將 A 對角化成 Q−1AQ = D. 一般由 eigenvectors 所形成的 basis 都可以 達到這個對角化的目的, 為何特別考慮 u1, . . . , un 為 orthonormal basis 的情形呢? 這是因
8.2. The Spectral Theorem 201
為當 u1, . . . , un 為 Rn 的 orthonormal basis 時, 我們會有 QtQ = In, 也因此由 inverse matrix 的唯一性, 我們知 Qt= Q−1. 也就是說當 Q 的 column vectors 為 Rn 的 orthonormal basis 時, 我們可以馬上得知 Q−1= Qt. 就因為這個特性, 當一個 n× n matrix 其 column vectors 是由 Rn 的 orthonormal basis 所組成時, 我們特別稱之為 orthogonal matrix (注意不是稱 為 orthonormal matrix). 也因此我們可以將 A 對角化成 QtAQ = D, 故稱 A 為 orthogonal diagonalizable.
Question 8.3. 假設 Q∈ Mn×n, 是否 Q−1= Qt 即表示 Q 為 orthogonal matrix?
反之, 若存在 Q 為 n× n orthogonal matrix 以及 D =
λ1
. ..
為 n × n diagonal
matrix 使得 QtAQ = D. 此時由 AQ = QD, 知 Q 的 i-th column 為 A 的 eigenvalue 為λi 的 eigenvector, 也因此由 Q 的 column vectors 形成Rn 的 orthonormal basis, 我們有以下之結 果.
Proposition 8.2.2. 假設 A∈ Mn×n. 則 A 為 orthogonal diagonalizable 若且唯若存在 n×n 的 orthogonal matrix Q 使得 QtAQ 為 diagonal matrix.
利用 Proposition 8.2.2, 我們知當 A 為 orthogonal diagonalizable 時存在 Q, D∈ Mn×n
其中 Q 為 orthogonal matrix, D 為 diagonal matrix 使得 A = QDQt. 此時 At= (QDQt)t= (Qt)tDtQt. 由於 (Qt)t= Q 且 Dt= D (因為 D 為 diagonal matrix), 我們得 At= QDQt= A, 亦即 A 為 symmetric. 得證了以下結果.
Corollary 8.2.3. 假設 A∈ Mn×n 為 orthogonal diagonalizable, 則 A 為 symmetric matrix.
所謂 Spectral Theorem 指的就是 Corollary 8.2.3 的反向也是對的. 也就是說我們要證 明當 A 為 symmetric 時, A 必為 orthogonal diagonalizable. 首先我們需要知道 symmetric matrix 和內積之間的關係.
Lemma 8.2.4. 假設 A∈ Mn×n 為 symmetric, 則對於任意 v, w∈ Rn 皆有⟨Av,w⟩ = ⟨v,Aw⟩.
Proof. 回顧一下, 若將內積寫成矩陣乘法的形式, 對於任意 v, w∈ Rn 我們有 ⟨v,w⟩ = vtw (注意此處 v, w 皆視為 n× 1 matrix). 因此得
⟨Av,w⟩ = (Av)tw = (vtAt)w = vt(Atw) =⟨v,Atw⟩.
最後由 At= A 之假設得證⟨Av,w⟩ = ⟨v,Aw⟩.
一個 n× n matrix 是否為 diagonalizable 第一個要檢查的條件就是其 characteristic polynomial 須 在 實 數 中 完 全 分 解. 接 下 來 我 們 便 是 要 說 明 一 個 symmetric matrix 其 characteristic polynomial 確實可以在實數中完全分解.
Lemma 8.2.5. 假設 A∈ Mn×n 為 symmetric, 則 A 的 characteristic polynomial pA(t) 的 根皆為實根.
Proof. 假設 λ = a + bı (此處 ı 為虛數滿足 ı2=−1) 為 pA(t) 的一個虛根, 即 a, b∈ R 且
b̸= 0. 接下來我們要考慮複數矩陣, 極其 entry 為複數的矩陣. 要注意複述矩陣的運算以及
行列式和實數矩陣有相同的規則. 所以依 a + bı 為 pA(t) 的一根, 矩陣 A− (a + bı)In 的行列 式值為 0. 現將矩陣 A− (a + bı)In 和矩陣 A− (a − bı)In 相乘得
(A− (a + bı)In)(A− (a − bı)In) = A2− 2aA + (a2+ b2)In.
注意由於 a, b∈ R 以及 A 為實數矩陣, 所以 A2− 2aA + (a2+ b2)In 亦為實數矩陣. 另外由於 det(A− (a + bı)In) = 0, 故有
det(A2− 2aA + (a2+ b2)In) = det(A− (a + bı)In) det(A− (a − bı)In) = 0.
也就是說 A2− 2aA + (a2+ b2)In 為 singular, 亦即存在 v∈ Rn 且 v̸= 0 使得 (A2− 2aA + (a2+ b2)In)v = A2v− 2aAv + (a2+ b2)v = 0.
然而
⟨A2v− 2aAv + (a2+ b2)v, v⟩ = ⟨A2v, v⟩ − 2a⟨Av,v⟩ + a2⟨v,v⟩ + b2⟨v,v⟩.
又利用 A 為 symmetric, Lemma 8.2.4 告訴我們⟨A2v, v⟩ = ⟨A(Av),v⟩ = ⟨Av,Av⟩, 故得
⟨Av − av,Av − av⟩ + b2⟨v,v⟩ = ⟨A2v, v⟩ − 2a⟨Av,v⟩ + a2⟨v,v⟩ + b2⟨v,v⟩, 亦即
∥Av − av∥2+ b2∥v∥2=⟨A2v− 2aAv + (a2+ b2)v, v⟩ = ⟨0,v⟩ = 0.
因為 ∥Av − av∥ ≥ 0, ∥v∥ > 0, 我們得 b = 0. 此與當初假設 b ̸= 0 相矛盾, 故知 pA(t) = 0 沒
有虛根, 即所有的根都是實根.
知道一個 symmetric matrix 的 characteristic polynomial 的根皆為實根, 我們便可以 證明 symmetric matrix 皆為 orthogonal diagonalizable. 這裡我們要用數學歸納法, 也就 是因為已證得 2× 2 symmetric matrix 皆為 orthogonal diagonalizable. 現假設 (n − 1) × (n− 1) symmetric matrix 皆為 orthogonal diagonalizable. 我們要利用此證明當 A 為 n × n symmetric matrix 時亦為 orthogonal diagonalizable. 首先由 Lemma 8.2.5 知存在實數 λ 為 A 的一個 eigenvalue. 令 u1 為 A 對於λ 的 eigenvector 且 ∥u1∥ = 1. 利用 Gram-Schmidt process, 我們可以將 u1 拓展成 Rn 的一組 orthonormal basis u1, . . . , un. 現考慮 orthogonal matrix Q =
u 1 u2 ··· un
, 對於 j = 1,...,n 若 Auj= c1 ju1+···+cn jun, 則依舉陣乘法定 應我們有 AQ = QC, 其中 C = [ci j]. 因 Q 為 orthogonal matrix, 我們得 C = Q−1AQ = QtAQ.
因此再由 A 為 symmetric 得 Ct= QtAQ = C, 亦即 C 亦為 symmetric. 另一方面依假設
Au1=λu1, 我們知 C 的 1-st column 為
λ
0 ... 0
, 故由 C 為 symmetric 知 C 的 1-st row 為
8.2. The Spectral Theorem 203
[λ 0 ··· 0]. 也就是說 C 可以寫成以下的形式
C =
λ 0 ··· 0 0
... B 0
.
由於 C 為 symmetric, 這裡 B 是 (n− 1) × (n − 1) symmetric matrix. 依歸納假設, 我們知 B 為 orthogonal diagonalizable, 亦即存在 w1, . . . , wn−1 為 Rn−1 的一組 orthonomal basis 且為 B 的 eigenvectors. 此時令 R =
w 1 w2 ··· wn−1
, 我們得 R 為 (n − 1) × (n − 1) orthogonal matrix 且存在 (n− 1) × (n − 1) digonal matrix D 滿足 RtBR = D. 現在令 P =
1 0 ··· 0 0
... R 0
.依矩陣乘法, 我們有
PtCP =
λ 0 ··· 0 0... RtBR 0
=
λ 0 ··· 0 0... D 0
.
也就是說 PtCP 為 diagonal matrix, 也因此得 (QP)tA(QP) = Pt(QtAQ)P = PtCP 為 diagonal matrix. 注意由於 Q, P 皆為 orthogonal matrix, (QP)t(QP) = Pt(QtQ)P = PtP = In, 也就是說 QP 亦為 orthogonal matrix. 因此由 Proposition 8.2.2, 得 A 為 orthogonal diagonalizable, 也因此證明了 Spectral Theorem.
Theorem 8.2.6 (Spectral Theorem). 假設 A 為 n×n symmetric matrix, 則 A 為 orthogonal diagonalizable.
接下來我們來探討, 給定一個 n× n symmetric matrix A, 如何找到 orthogonal matrix Q 使得 QtAQ 為 diagonal matrix. 當然了, 我們可以如 Theorem 8.2.6 的證明, 利用數學歸納 法一步一步地將 Q 找到. 不過這要重複做好幾次的 Gram-Schmidt process, 頗為複雜. 利用 以下的 Proposition, 我們可以將步驟簡化許多.
Proposition 8.2.7. 假設 A 為 n× n symmetric matrix. 若 v,w ∈ Rn 為 A 的 eigenvectors 且其對應的 eigenvalue 為相異實數, 則⟨v,w⟩ = 0.
Proof. 假設 v, w 所對應的 eigenvalue 分別為 λ,λ′. 也就是說 Av =λv,Aw = λ′w. 考慮
⟨Av,w⟩ = ⟨λv,w⟩ = λ⟨v,w⟩. 同理我們有 ⟨v,Aw⟩ = λ′⟨v,w⟩. 然而 Lemma 8.2.4 告訴我們
⟨Av,w⟩ = ⟨v,Aw⟩, 故得 (λ − λ′)⟨v,w⟩ = 0. 因此由題設λ ̸= λ′ 推得⟨v,w⟩ = 0. 當 A 為 n× n symmetric matrix, 我們簡單說明一下如何找到一組 A 的 eigenvectors 形 成Rn的 orthonormal basis. 首先我們列出 A 的所有相異的 eigenvaluesλ1, . . . ,λk, 然後求出 它們所對應的 eigenspace EA(λ1), . . . , EA(λk). 若我們將每個 EA(λi) 的 basis 放在一起, 由於
A 為 diagonalizable 它們會是 Rn 的一組 basis. 雖然 Proposition 8.2.7 告訴我們, 當 λi̸=λj
時, EA(λi)和 EA(λj)之間的向量是相互垂直的. 不過 EA(λi) 本身的那一組 basis 之間的向量 未必倆倆相互垂直. 所以我們必須利用 Gram-Schmidt process 分別找到 A 每個 eigenspace EA(λi) 的一組 orthonormal basis. 再將這些 eigenspace 的 basis 放在一起它們自然兩兩互 相垂直, 也因此它們就是由 A 的 eigenvectors 所組成的 Rn 的一組 orthonormal basis. 我們 看以下的例子.
Example 8.2.8. (1) 考慮 symmetric matrix A =
0 1 1 1 1 0 1 0 1
. 我們有 A 的 characteristic polynomial 為 pA(t) =−(t + 1)(t − 1)(t − 2). 所以 A 有三個相異的 eigenvalues, −1,1,2. 知 道 A 必能對角化, 而且由 Proposition 8.2.7 知它們所對應的 eigenvector 會倆倆互相垂直.
事實上我們可求出對應到−1,1,2 的 eigenvector 分別為
v1=
−2 1 1
, v2=
0
−1 1
, v3=
1 1 1
.
很容易檢查它們確實倆倆互相垂直. 此時對於 i = 1, 2, 3 令 ui=∥v1
i∥vi, 我們得
u1= 1
√6
−2 1 1
, u2= 1
√2
0
−1 1
, u3= 1
√3
1 1 1
為 R3 的一組 orthonromal basis. 故可將 A 對角化成
−√26 √16 √16 0 −√12 √12
√1 3
√1 3
√1 3
0 1 1 1 1 0 1 0 1
−√26 0 √1
1 3
√6 −√12 √13
√1 6
√1 2
√1 3
=
−1 0 0 0 1 0 0 0 2
.
(2) 考慮 symmetric matrix B =
5 −4 −2
−4 5 −2
−2 −2 8
. 我們有 B 的 characteristic poly-
nomial 為 pB(t) =−t(t − 9)2. 所 以 B eigenvalues 為 0, 9. 知 道 B 必 能 對 角 化, 我 們 知 dim(EB(0)) = 1, dim(EB(9)) = 9. 事實上 v1=
2 2 1
為 EB(0) = N(B) 的 basis, 而 v2=
−1 1 0
,v3=
−1 0 2
為 EB(9) 的 basis. 而且由 Proposition 8.2.7 知⟨v1, v2⟩ = ⟨v1, v3⟩ = 0, 事 實上很容易檢查它們確實成立. 不過⟨v2, v3⟩ = 1 ̸= 0, 我們必須利用 Gram-Schmidt process 將 v2, v3 換成 EB(9) 的一組 orthogonal basis. 令 w2= v2 且
w3= v3− Projw2v3=
−1 0 2
−1 2
−1 1 0
= 1 2
−1
−1 4
.
8.3. Application: Conics and Quadric Surfaces 205
此時令 u1=∥v1
1∥v1, u2=∥w1
2∥w2, u3=∥w1
3∥w3 我們得
u1= 1
√3
2 2 1
, u2= 1
√2
−1 1 0
, u3= 1 3√
2
−1
−1 4
為 R3 的一組 orthonromal basis. 故可將 B 對角化成
2 3
2 3
1
−√12 √12 03
−3√12 −3√12 3√42
5 −4 −2
−4 5 −2
−2 −2 8
2
3 −√12 −3√12
2 3
√1
2 −3√12
1
3 0 4
3√ 2
=
0 0 0 0 9 0 0 0 9
.
8.3. Application: Conics and Quadric Surfaces
我們將利用 symmetric matrix 是 orthogonal diagonalizable 的特性將坐標平面上的二次曲 線以及坐標空間上的二次曲面的方程式化成標準式, 以方便我們判別它們是哪一類的圖形.
一般來說我們是利用平移和旋轉的方法將二次曲線和二次曲面的方程式化成標準式. 其 中旋轉的部分牽涉到對角化, 我們首先利用 quadratic form 來談對角化的問題. 所謂 n 個變 數的 quadratic form 指的就是形如
∑
n i, j=1ai jxixj
這樣的二次式. 例如 x2+ 3xy− y2, 3x2+ y2− z2+ 5xy + xz + 3yz 就是分別是兩個變數和三 個變數的 quadratic form. 令 x =
x1
... xn
, 所有 n 個變數的 quadratic form 都可以用矩陣
表示成 xtAx 的形式, 其中 A 為 n× n symmetric matrix. 例如兩個變數的 quadratic form ax21+ bx1x2+ cx22 就可以寫成
ax21+ bx1x2+ cx22=[
x1 x2 ][ a b/2 b/2 c
][x1 x2 ]
.
而三個變數的 quadratic form ax21+ bx22+ cx23+ rx1x2+ sx1x3+ tx2x3 就可以寫成
ax21+ bx22+ cx23+ rx1x2+ sx1x3+ tx2x3=[
x1 x2 x3
]
a r/2 s/2 r/2 b t/2 s/2 t/2 c
x1
x2
x3
.
將 quadratic form 寫成這樣的矩陣表示的好處是因為 A 是 symmetric, 故存在 orthogonal matrix Q 使得 QtAQ 為 diagonal matrix
λ1
. ..
λn
. 因此如果我們將變數 x =
x1
... xn
變換成 t =
t1
... tn
其中 t = Qtx (注意因 Qt= Q−1, 這等同於令 x = Q t), 則
xtAx = (Q t)tA(Q t) = tt(QtAQ) t =[
t1 ··· tn
]
λ1
. ..
λn
t1
... tn
= λ1t12+··· +λntn2.
也就是說, 我們可以藉由變換變數將一個 quadratic form 變成只有平方項. 我們看以下的例 子.
Example 8.3.1. 考慮 quadratic form x21+ 4x1x2− 2x22. 我們先寫下其矩陣形式 x21+ 4x1x2− 2x22=[
x1 x2
][ 1 2 2 −2
][x1 x2
] .
由於
[ 1 2 2 −2
]
為 symmetric matrix, 故為 orthogonal diagonalizable, 事實上我們有 [ 2/√
5 1/√ 5
−1/√
5 2/√ 5
][ 1 2 2 −2
][ 2/√
5 −1/√ 5 1/√
5 2/√ 5
]
=
[ 2 0 0 −3
] .
因此若令 [t1
t2
]
=
[ 2/√
5 1/√ 5
−1/√
5 2/√ 5
][x1
x2
] 則 [ x1 x2
][ 1 2 2 −2
][x1
x2
]
=[ t1 t2
][ 2 0 0 −3
][t1
t2
]
= 2t12− 3t22. 對於 quadratic form x22+ x23+ 2x1x2+ 2x1x3, 其矩陣形式為
x22+ x23+ 2x1x2+ 2x1x3=[
x1 x2 x3
]
0 1 1 1 1 0 1 0 1
x1
x2
x3
.
我們曾在 Example 8.2.8 計算過 Qt
0 1 1 1 1 0 1 0 1
Q =
−1 0 0 0 1 0 0 0 2
其中 Q 為 orthogonal
matrix
−√26 0 √1 1 3
√6 −√12 √13
√1 6
√1 2
√1 3
. 因此若令
t1
t2
t3
=
−√26 √16 √16 0 −√12 √12
√1 3
√1 3
√1 3
x1
x2
x3
則
[ x1 x2 x3 ]
0 1 1 1 1 0 1 0 1
x1 x2 x3
= [ t1 t2 t3 ]
−1 0 0 0 1 0 0 0 2
t1 t2 t3
= −t12+ t22+ 2t32.
現在我們回到二次曲線的情況. 對於坐標平面上的二次曲線其一般的通式為 ax2+ bxy + cy2+ dx + ey + f = 0. 我們可以將此式表為矩陣形式, 即
[ x y ][ a b/2 b/2 c
][x y ]
+[
d e ][x y ]
+ f = 0. (8.5) 假設 symmetric matrix A =
[ a b/2 b/2 c
]
可對角化成 QtAQ =
[ λ1 0 0 λ2
]
. 此時考慮變換 變數
[x y ]
= Qt [x
y ]
(也就是 [x
y ]
= Q [x
y ]
), 則式子 (8.5) 可寫成 [ x y ][ λ1 0
0 λ2
][x y ]
+[
d e ] Q
[x y ]
+ f = 0.
寫回方程式的樣子就是
λ1x2+λ2y2+ d′x + e′y + f = 0, (8.6) 其中[
d′ e′ ]
=[
d e ] Q.
8.3. Application: Conics and Quadric Surfaces 207
首先我們考慮λ1,λ2 皆不為 0 的情形, 此時可以利用配方法將式子 (8.6) 改寫成 λ1(x− h)2+λ2(y− k)2= f′.
我們分成下面幾種情形討論.
(A)λ1,λ2 同號:
(1) f′ 與 λ1,λ2 同號: 此時圖形為 ellipse (橢圓). 注意當 λ1=λ2 時會是圓, 不過這裡 我們將之視為橢圓的一種.
(2) f′= 0: 此時很容易看出圖形為 (x, y) = (h, k) 這一點.
(3) f′ 與 λ1,λ2 異號: 此時很容易看出圖形為空集合.
(B) λ1,λ2 異號:
(1) f′̸= 0: 此時圖形為 hyperbola (雙曲線).
(2) f′= 0: 此時圖形為兩相交直線.
Example 8.3.2. 考慮二次曲線方程式 2xy +√ 2x +√
2y = 1. 此方程式可用矩陣表示成 [ x y ][ 0 1
1 0 ][x
y ]
+[ √ 2 √
2 ][x y ]
= 1.
由於 [
1/√
2 1/√ 2
−1/√
2 1/√ 2
][ 0 1 1 0
][ 1/√
2 −1/√ 2 1/√
2 1/√ 2
]
=
[ 1 0 0 −1
]
考慮變數變換 [x
y ]
= [ 1/√
2 −1/√ 2 1/√
2 1/√ 2
][x y ]
, 我們得 [ x y ][ 1 0
0 −1 ][x
y ]
+[ √ 2 √
2 ][ 1/√
2 −1/√ 2 1/√
2 1/√ 2
][x y ]
= 1.
因此此曲線用新的變數其方程式為 x2− y2+ 2x = 1. 利用配方法得 (x + 1)2− y2= 2, 故其圖 形為雙曲線.
同理若原方程式為 2xy +√ 2x +√
2y =−1, 變換變數後的方程式為 (x + 1)2− y2= 0 其圖 形便會是兩相交直線 x + y + 1 = 0 和 x− y + 1 = 0.
另一種情況是 λ1,λ2 其中有一個為 0. 注意 λ1,λ2 不可能同時為 0, 否則會是一次方程 式. 不失一般性, 我們假設 λ1̸= 0,λ2= 0 的情形. 此時可以利用配方法將式子 (8.6) 改寫成
λ1(x− h)2+ e′y = f′. 我們分成下面幾種情形討論.
(C)λ1,λ2 其中有一個為 0 (不失一般性假設 λ1̸= 0,λ2= 0):
(1) e′̸= 0: 此時圖形為 parabola (拋物線).
(2) e′= 0 且 λ1, f′ 同號: 此時圖形為兩平行直線 (與直線 x = 0 平行).
(3) e′= 0 且 f′= 0: 此時圖形為一直線 x = h.
(4) e′= 0 且 λ1, f′ 異號: 此時圖形為空集合.
Example 8.3.3. 考慮二次曲線方程式 x2− 2xy + y2+ 4√
2x = 4. 此方程式可用矩陣表示成 [ x y ][ 1 −1
−1 1 ][x
y ]
+[ 4√
2 0 ][x y ]
= 4.
由於 [
1/√
2 −1/√ 2 1/√
2 1/√ 2
][ 1 −1
−1 1
][ 1/√
2 1/√ 2
−1/√
2 1/√ 2
]
=
[ 2 0 0 0
]
考慮變數變換 [x
y ]
=
[ 1/√
2 1/√ 2
−1/√
2 1/√ 2
][x y ]
, 我們得 [ x y ][ 2 0
0 0 ][x
y ]
+[ 4√
2 0 ][ 1/√
2 1/√ 2
−1/√
2 1/√ 2
][x y ]
= 4.
因此此曲線用新的變數其方程式為 2x2+ 4x + 4y = 4. 利用配方法得 2(x + 1)2+ 4y = 6, 故其 圖形為拋物線.
總而言之, 我們可以從二次曲線的 quadratic form 部分得到其 eigenvalue λ1,λ2, 然後由 λ1,λ2 的正負號判斷此二次曲線應歸類於哪一種曲線. 若λ1,λ2 同號, 則為橢圓類; 而 λ1,λ2
異號, 則為雙曲線類; 而若λ1,λ2 有一個為 0, 則為拋物線類. 不過最後我們還是得經由配方 法求得其一次項與常數項, 這樣才能確認此曲線是否為 degenerated (退化) 的情形 (即直線, 點或空集合).
Question 8.4. 假設二次曲線方程式的 quadratic form 的部分可表成 [
x y ] A
[x y ]
, 中 A 為 2× 2 symmetric matrix. 試問是否可由 det(A) 來判斷此曲線是橢圓類, 雙曲線類還是拋 物線類 (不考慮退化情形)?
對於坐標空間的二次曲面我們也是用同樣方法處理. 首先寫成矩陣的形式 [ x y z ]
A
x y z
+ [ c d e ]
x y z
+ f = 0,
其中 A 為 3× 3 symmetric matrix. 再將 A 對角化然後變換變數成
λ1x2+λ2y2+λ3z2+ c′x + d′y + d′z + f = 0. (8.7) 二次曲面的分類頗為複雜, 大家不必記下這些分類. 不過為了完整性, 我們還是列出這些分 類供同學參考. 由於此處無法利用圖形來解釋, 建議有興趣的同學參考課本上的圖形.
首先我們考慮λ1,λ2,λ3 皆不為 0 的情形, 此時可以利用配方法將式子 (8.7) 改寫成 λ1(x− h)2+λ2(y− k)2+λ3(z− l)2= f′.
我們分成下面幾種情形討論.
(A)λ1,λ2,λ3 同號:
(1) f′ 與 λ1,λ2,λ3 同號: 此時曲面為有界的, 且與 x = h, y = k 和 z = l 三個平面所 交的圖形為橢圓. 曲面有點像橄欖球表面一樣, 我們稱之為 ellipsoid. 注意當 λ1=λ2=λ3 時會是球面, 不過這裡我們將之視為 ellipsoid 的一種.
8.3. Application: Conics and Quadric Surfaces 209
(2) f′= 0: 此時很容易看出圖形為 (x, y, z) = (h, k, l) 這一點.
(3) f′ 與 λ1,λ2,λ3 異號: 此時很容易看出圖形為空集合.
(B) λ1,λ2,λ3 異號 (不失一般性假設λ1,λ2 同號):
(1) f′ 與 λ1,λ2 同號: 此時曲面與 z = l 所交的圖形為橢圓, 而分別和 x = h, y = k 所交 的圖形為雙曲線. 因為曲面整體上只有一片, 我們稱之為 hyperboloid of one sheet.
(2) f′ 與 λ1,λ2 異號: 此時曲面與平面 z = l 不相交, 不過若將平面往上或往下移動夠 多的話會交出橢圓. 此曲面分別和 x = h, y = k 所交的圖形為雙曲線. 因為曲面整 體上有兩片, 我們稱之為 hyperboloid of two sheets.
(3) f′= 0: 此時曲面與平面 z = l 交於一點, 不過若將平面往上或往下移的話會交出橢 圓. 此區面分別和 x = h, y = k 所交的圖形為兩相交直線. 圖形有點像甜筒, 我們稱 之為 elliptic cone.
另一種情況是λ1,λ2,λ3 其中有一個為 0. 注意λ1,λ2,λ3 不可能皆為 0, 否則會是一次方 程式. 不失一般性, 我們假設λ1̸= 0. 我們又可分成下面幾種情形討論.
(C)λ2,λ3 僅有一個為 0 (不失一般性假設λ2̸= 0): 此時可以利用配方法將式子 (8.6) 改寫成 λ1(x− h)2+λ2(y− k)2+ e′z = f′.
(1) e′̸= 0 且λ1,λ2 同號: 此曲面會完全在平面 e′z = f′ 之上方或下方, 不過若將平面往 上或往下移動會交出橢圓. 而此曲面分別與 x = h, y = k 所交的圖形為凹向一致的 拋物線. 我們稱之為 elliptic paraboloid.
(2) e′̸= 0 且λ1,λ2 異號: 此曲面與平面 e′z = f′ 交於兩相交直線, 不過若將平面往上或 往下移動會交出雙曲線. 此曲面分別與 x = h, y = k 所交的圖形為凹向相反的拋物 線. 我們稱之為 elliptic paraboloid. 此曲面上的一點 (x, y, z) = (h, k, f′/e′)就是所謂 的 saddle point (鞍點).
(3) e′= 0 且 λ1,λ2, f′ 同號: 此時曲面與任何的水平平面 z = s 所交的圖形為橢圓. 圖 形像橢圓柱面, 稱為 elliptic cylinder.
(4) e′= 0 且λ1,λ2異號又 f′̸= 0: 此時曲面與任何的水平平面 z = s 所交的圖形為雙曲 線. 圖形像雙曲柱面, 稱為 hyperbolic cylinder.
(5) e′= 0 且 λ1,λ2 同號但與 f′ 異號: 此時是空集合.
(6) e′= 0 且 λ1,λ2 同號又 f′= 0: 此時曲面與任何的水平平面 z = s 僅交於一點. 圖形 為一鉛直線.
(7) e′= 0 且 λ1,λ2 異號又 f′= 0: 此時曲面與任何的水平平面 z = s 交於兩相交直線.
圖形為兩相交平面.
(D)λ2,λ3 皆為 0: 此時可以利用配方法將式子 (8.6) 改寫成 λ1(x− h)2+ d′y + e′z = f′.
(1) d′, e′ 不全為 0: 此時令 r =√
(d′)2+ (e′)2 利用變換變數
x y z
=
1 0 0
0 d′/r −e′/r 0 e′/r d′/r
t1
t2 t3
我們又可將上式改寫成
λ1(t1− h)2+ rt2= f′.
此曲面與任何的水平平面 t3= s 所交的圖形為拋物線. 圖形像拋物柱面, 稱為 parabolic cylinder.
(2) d′= e′= 0 且 f′ 與 λ1 同號: 此時圖形為兩平行平面 (與 x = 0 平行).
(3) d′= e′= 0 且 f′= 0: 此時圖形為平面 x = h.
(4) d′= e′= 0 且 f′ 與 λ1 異號: 此時為空集合.
Example 8.3.4. 考慮坐標空間中曲面 5x2+ 5x2+ 8z2− 8xy − 4xz − 4yz + 2x + 2y + z = 9. 寫 成矩陣形式為
[ x y z ]
5 −4 −2
−4 5 −2
−2 −2 8
x y z
+ [ 2 2 1 ]
x y z
= 9.
由於
−1√ 2
√1
2 0
−1 3√ 2
−1 3√
2 4 3√ 2 2
3 2 3
1 3
5 −4 −2
−4 5 −2
−2 −2 8
−1√ 2
−1 3√
2 2 3
√1 2
−1 3√
2 2 3
0 4
3√ 2
1 3
=
9 0 0 0 9 0 0 0 0
(請參考 Example 8.2.8 (2)). 考慮變數變換
x y z
=
−1√ 2
−1 3√
2 2 3
√1 2
−1 3√
2 2 3
0 4
3√ 2
1 3
x y z
, 我們得
[ x y z ]
9 0 0 0 9 0 0 0 0
x y z
+ [ 2 2 1 ]
√−1 2
−1 3√ 2
2 3
√1 2
−1 3√ 2
2 3
0 4
3√ 2
1 3
x y z
= 9.
因此此曲面用新的變數其方程式為 9x2+ 9y2+ 3z = 9, 為前面列出的 (C)(1) 這個情形, 故知 其為 elliptic paraboloid.
Question 8.5. 空間中曲面 5x2+ 5x2+ 8z2− 8xy − 4xz − 4yz + 2x + 2y + z = 0 會是怎樣的圖 形?
8.4. Application: Markov Processes
當 A∈ Mn×n 為 diagonalizable 時, 對於 k∈ N 我們可以利用對角舉陣很容易求出 Ak. 進而 對於任意 v∈ Rn, 推算出 Akv. 其實還有一種情況 (即使不是 diagonalizable), 當 k 很大時我 們也能 “估計” Akv 大約為何. 這就是本節要探討的課題.
8.4. Application: Markov Processes 211
首先我們看 A∈ Mn×n 為 diagonalizable 的情形. 此時由於存在 diagonal matrix D =
λ1
. ..
λn
以及 invertible matrix P ∈ Mn×n 使得 D = P−1AP, 因此 A = PDP−1. 依此我
們可以推得
A2= (PDP−1)(PDP−1) = PD(P−1P)DP−1= PD2P−1= P
λ12
. ..
λn2
P−1,
然後用數學歸納法推得
Ak= P
λ1k
. ..
λnk
P−1.
Example 8.4.1. 我們利用 Fibonacci sequence 0, 1, 1, 2, 3, 5, 8, 13, . . . , 來說明如何利用對角 化. Fibonacci sequence 是一組滿足 Fk+1= Fk+ Fk−1 的遞迴數列, 其中 F0= 0, F1= 1. 我們 令 A =
[1 1 1 0 ]
且對任意 k≥ 1 令 vk= [ Fk
Fk−1 ]
, 則
Avk= [1 1
1 0 ][ Fk
Fk−1
]
=
[Fk+ Fk−1
Fk
]
= [Fk+1
Fk
]
= vk+1.
因此我們有 vk+1= Akv1. 也就是說對於任意 k≥ 1, 我們只要能算出 Akv1, 就能求出 Fk+1 為何. 然而 A 的 characteristic polynomial 為 PA(t) = t2− t − 1, 故得 A 的 eigenvalues 為 λ1= (1−√
5)/2, λ2= (1 +√
5)/2. 因 A 是 2× 2 matrix, 所以由 A 兩個相異的 eigenvalues 得 A 為 diagonalizable. 事實上 A 對於 λ1,λ2 的 eigenvector 分別為 v1=
[λ1
1 ]
, λ2= [λ2
1 ]
. 因此若令 P =
[λ1 λ2
1 1 ]
, 我們有
P = [1−√
5 2
1+√ 5 2
1 1
]
, P−1= 1
√5
[−1 1+2√5 1 −1+2√5
] .
因此將 A 對角化得 A = P
[λ1 0 0 λ2
]
P−1, 也因此求出對任意 k∈ N,
Ak= P
[λ1k 0 0 λ2k
]
P−1= 1
√5
[λ1 λ2
1 1
][λ1k 0 0 λ2k
][−1 λ2
1 −λ1
]
=1 5
[λ2k+1−λ1k+1 λ2k−λ1k
λ2k−λ1k λ2k−1−λ1k−1
] .
所以由 v1= [F1
F2
]
= [1
0 ]
, 我們得
vk+1= [Fk+1
Fk
]
= Akv1= Ak [1
0 ]
= 1
√5
[λ2k+1−λ1k+1 λ2k−λ1k
] , 故得
Fk+1= 1
5(λ2k+1−λ1k+1) =1 5
( (1 +√
5
2 )k+1− (1−√ 5 2 )k+1
) .
接下來我們要探討的是, 有時即使 A 不是 diagonalizable, 但我們仍能估計 Akv. 這裡要 探討的情況是所謂 Markov Peocesses, 是機率統計上的課題. 由於我們僅專注於線性代數的 部分, 在這裡就不多談它的由來和例子, 直接切入主題.
Definition 8.4.2. 對於一 Rn 上的 vector v =
c1
... cn
, 若 c1+··· + cn= 1 且對於所有 i =
1, . . . , n, 皆有 ci≥ 0, 則稱 v 為 probability vector. 若 A ∈ Mn×n 且其每一個 column vector 皆為 probability vector, 則稱 A 為 stochastic matrix. 另外一個 stochastic matrix A 若存在 r∈ N 使得 Ar 的每個 entry 皆為正實數, 則稱 A 為 regular.
Example 8.4.3. A =
[1/2 1 1/2 0 ]
和 I2= [1 0
0 1 ]
皆為 stochastic matrix. 而且 A 為 regular, 因為 A2=
[3/4 1/2 1/4 1/2 ]
, 每個 entry 皆為正. 然而 I2 不是 regular, 因為對於任意 r∈ N 皆有 I2n= I2 (除了對角線, 其他位置的 entry 皆為 0).
接下來我們看幾個有關 stochastic matrix 的性質.
Lemma 8.4.4. 假設 A∈ Mn×n 為 stochastic matrix 且 v∈ Rn 為 probability vector. 則 Av 亦為 probability vector. 另外若 A 的每一個 entry 皆為正實數, 則 Av 的每個 entry 亦皆為 正實數.
Proof. 令 A =
a1 ··· an
, v =
c1
... cn
, 則 Av = c1a1+··· + cnan. 因此 Av 所有 entries
之和就是 c1a1+··· + cnan 所有 entries 之和. 這等同於個別算出每個 ciai 的所有 entries 之和再全部加起來. 然而因 ai 為 probability vector, ciai 的所有 entries 之和為 ci, 所以 c1a1+··· + cnan 所有 entries 之和為 c1+··· + cn= 1. 又因為 c1, . . . , cn 以及 v1, . . . , vn 中的 每個 entry 皆為非負實數, 所以 c1a1+··· + cnan 的每個 entry 皆為非負實數. 得證 Av 為 probability vector.
另外若 A 的每一個 entry 皆為正實數, 即 a1, . . . , an 的每一個 entry 皆為正實數, 此時由 於 c1, . . . , cn 為非負實數, 故有 Av = c1a1+··· + cnan 的每個 entry 皆大於等於 ciai 所相對應 的 entry. 因 c1, . . . , cn 不全為 0, 故若 ci> 0, 則 ciai 的每個 entry 皆為正實數, 因此得證 Av
的每個 entry 亦皆為正實數.
現若 A =
a1 ··· an
為 stochastic matrix, 則依矩陣乘法定義 A2 的 i-th column
為 Aai, 故由 Lemma 8.4.4 知, A2 的每個 column 皆為 probability vector, 亦即 A2 亦為 stochastic matrix. 同理對任意 k≥ 2, Ak 的 i-th column 為 Ak−1ai, 因此利用數學歸納法以 及 Lemma 8.4.4, 我們得證 Ak 亦為 stochastic matrix. 同樣的利用數學歸納法以及 Lemma 8.4.4, 我們可以證明若 Ar的每一個 entry 皆為正實數, 則對於所有 k∈ N, Ar+k= Ar+k−1A 的 每個 entry 亦皆為正實數. 因此有以下的定理 (證明從略).
8.4. Application: Markov Processes 213
Proposition 8.4.5. 假設 A∈ Mn×n為 stochastic matrix, 則對所有 k∈ N, Ak亦為 stochastic matrix. 又若 A 為 regular 且 Ar 的每個 entry 皆為正實數, 則對所有 k∈ N, Ar+k 的每個 entry 亦皆為正實數.
接下來我們要談論 stochastic matrix 的 eigenvalues 以及 eigenvectors. 不像前面的情 況, 由於我門探討的是一般的 stochastic matrix 而不是具體的矩陣, 所以我們無法從它的 characteristic polynomial 來處理. 這裡我們需要特定的技巧, 首先我們從轉置矩陣出發.
Lemma 8.4.6. 假設 A∈ Mn×n 為 stochastic matrix. 則 1 為 At 的一個 eigenvalue 且 v =
1
... 1
為其 eigenvector. 另外若 A 的每個 entry 皆為正實數, 則對於 At, 其 eigenvalue 1
的 geometric multiplicity 為 1.
Proof. 由於 A 為 stochastic matrix, A 每一個 column vector ai 皆為 probability vector, 亦即 ⟨ai, v⟩ = 1. 因此我們有 Atv =
⟨a1, v⟩
...
⟨an, v⟩
=
1
... 1
= v. 得證 v 為 At 的 eigenvector 且其
eigenvalue 為 1.
現假設 A 的每個 entry 皆為正實數且 w =
c1
... cn
為 eigenvalue 為 1 的 eigenvector. 注
意 w̸= 0, 因此不失一般性, 我們可假設 c1, . . . , cn 的最大值不為 0 (因為若最大值為 0, 表示 每個 ci≤ 0, 故此時考慮 −w, 其仍為 At 的一個 eigenvalue 為 1 的 eigenvector 且此時 −w 每個 entry 的最大值為正實數). 假設 cj 為 c1, . . . , cn 的最大值. 考慮 Aw 的 j-th entry, 依定 義其值為⟨aj, w⟩ = aj 1c1+··· + aj ici+··· + aj ncn. 因為 aj 1, . . . , aj n 皆為正實數且 cj > 0 為 c1, . . . , cn 的最大值, 我們有
aj 1c1+···+aj ici+···+aj ncn≤ aj 1cj+···+aj icj+···+aj ncj= (aj 1+···+aj n)cj= cj. (8.8) 由於依假設 Atw = w, 所以 At 的 j-th entry 應為 cj, 也就是說式子 (8.8) 中的小於等於的 符號應為等號, 也因此證得了 c1=··· = cj=··· = cn= r. 這說明了 w = rv, 亦即所有 At 的 eigenvalue 為 1 的 eigenvector 皆在 Span(v) 中. 因此得證 At 其 eigenvalue 1 的 geometric
multiplicity 為 1
回顧 Proposition 7.2.11 和 Proposition 8.1.5 告訴我們 A 和 At 有相同的 eigenvalues 而 且每個 eigenvalue 對於 A 和 At 的 geometric multiplicity 相同. 因此我們有以下的結果.
Proposition 8.4.7. 假設 A∈ Mn×n 為 stochastic matrix. 則 1 為 A 的一個 eigenvalue. 另 外若 A 為 regular, 則對於 A, 其 eigenvalue 1 的 geometric multiplicity 為 1.
Proof. 因 A 為 stochastic matrix, 由 Lemma 8.4.6 知 1 為 At 的一個 eigenvalue. 故由 Proposition 7.2.11 知 1 亦為 A 的一個 eigenvalue. 另外, 若 A 為 regular 且假設 r∈ N 使 得 Ar 的每個 entry 皆為正實數, 則由 Lemma 8.4.6 知 (Ar)t 的 eigenvalue 1 其 geometric