8.2. The Spectral Theorem

(1)

Chapter 8

Diagonalizable

Matrices and Their Applications

在這一章中, 我們探討 n× n matrix 對角化的問題以及其相關應用.

8.1. Diagonalizability

我們曾經提過, 當 A∈ Mn×n(F) 若存在 Fⁿ 的一組 basis v₁, . . . , vn 其中每個 v_i 皆為 A 的 eigenvector, 則稱 A 為 diagonalizable. 另一方面當 V 是一個 vector space overF 且 T :V →V 是一個 linear operator. 若 V 中存在一組 basis v₁, . . . , vn其中每個 v_i 皆為 T 的 eigenvectors, 則稱 T 為 diagonalizable. 在這一節中我們將探討如何判斷一個方陣或一個 linear operator 是否是 diagonalizable.

要如何知道 A∈ Mn×n(F) 是否為 diagonalizable 呢? 從其定義, 我們知道它必須要有夠 多的 eigenvectors. 以下我們要看一種特殊的情況可以確保 A 有夠多的 eigenvectors, 從而 得到 A 為 diagonalizable. 首先要有夠多的 eigenvectors 就表示要有夠多的 eigenvalues, 所 以我們假設 A 的 characteristic polynomial 可以在F 中完全分解. 也就是存在λ1, . . . ,λk∈ F 皆相異且滿足 p_A(t) = (−1)ⁿ(t−λ1)^m¹···(t −λk)^m^k. 依定義對於 i = 1, . . . , k, m_i 就是 λi 的 algebraic multiplicity 而且因 p_A(t) 的次數為 n, 我們有 m₁+···+mk= n. 等一下我們會證明 對於每個 eigenvalue, 其 geometric multiplicity 會小於等於其 algebraic multiplicity. 所以這 裡 A 的 eigenvectors 要夠多, 最好的狀況就是每一個 eigenvalue 其 geometric multiplicity 等 於其 algebraic multiplicity. 所以這裡我們假設對於 i = 1, . . . , k,λi 的 geometric multiplicity 等於其 algebraic multiplicity, 亦即 dim(E_A(λi)) = m_i. 此時我們令 v_i,1, . . . , v_i,m_i 為 E_A(λi) 的 一組 basis. 將這 k 組 vectors 收集在一起後, 我們要說明它們 v_1,1, . . . , v_1,m₁, . . . , v_k,1, . . . , v_k,m_k 是 linearly independent. 因為當它們是 linearly independent 時再加上它們是在 Fⁿ 中且共 有 m₁+··· + mk= n 個向量, 所以由 Corollary 3.6.10, 知它們是 Fⁿ 中的一組 basis. 又因為 它們皆為 A 的 eigenvectors, 所以可知此時 A 為 diagonalizable.

195

(2)

要說明 eigenvector 之間的線性關係, 我們先探討兩個 eigenvectors 的情況. 當 v 為 A 的 eigenvector, 若其 eigenvalue 為 λ, 則和 v 平行的 nonzero vector 皆為 eigenvalue 為 λ 的 eigenvector (參見 Proposition 7.2.3 (1)). 也因此若 v, w 為 A 的 eigenvectors 而他們所對應 的 eigenvalue 是相異時, 則 v, w 不可能平行. 也就是說 v, w 為 linearly independent. 這個 結果可推廣到更一般的狀況.

Proposition 8.1.1. 假設 A 為 n×n matrix 且 v1, . . . , v_k 為 A 的 eigenvectors. 若 v₁, . . . , v_k 所對應的 eigenvalues 皆相異, 則 v₁, . . . , v_k 為 linearly independent.

Proof. 我們利用數學歸納法證明. 前面已知 k = 2 的情形成立, 接著我們假設有 k− 1 個 eigenvectors 的情形也成立. 現考慮 k 個 eigenvectors 的情形. 假設 v₁, . . . , v_k 為 A 的 eigenvectors 且其對應的 eigenvalue 分別為λ1, . . . ,λk (亦即 Avi=λiv_i, for i = 1, . . . , n). 依歸納法之假設 v₁, . . . , v_k₋₁ 為 linearly independent. 現用反證法, 假設 v₁, . . . , v_k₋₁, v_k 為 linearly dependent. 依 Lemma 3.5.4, 這表示 vk ∈ Span(v1, . . . , vk−1). 也就是說存在 c₁, . . . , ck−1∈ F 使得

v_k= c1v₁+··· + ck−1v_k−1 (8.1) 利用 eigenvector 的定義我們得

λkv_k= Av_k= A(c₁v₁+··· + ck−1v_k₋₁) = c₁Av₁+··· + ck−1Av_k₋₁= c₁λ1v₁+···ck−1λk−1v_k₋₁. (8.2) 將式子 (8.1) 乘上 λk 與式子 (8.2) 相減得

c1(λk−λ1)v1+··· + ck−1(λk−λk−1)v_k−1= 0. (8.3) 由於 v_k ̸= 0, 我們知 c1, . . . , ck−1 不全為 0. 而由 eigenvalue 皆相異, 我們知對任意 i = 1, . . . , k− 1, 皆有λk−λi̸= 0. 因此 c1(λk−λ1), . . . , c_k₋₁(λk−λk−1) 為不全為 0 的實數. 換句話說, 式子 (8.3) 告訴我們 v₁, . . . , vk−1 為 linearly dependent, 此與歸納之假設相矛盾, 得證

本定理.

如何說明 v_1,1, . . . , v1,m1, . . . , vk,1, . . . , vk,mk 是 linearly independent 呢? 照慣例, 我們先假設 v_1,1, . . . , v_1,m₁, . . . , v_k,1, . . . , v_k,m_k 是 linearly dependent. 亦即存在不全為 0 的 c_1,1, . . . , c_1,m₁, . . . , ck,1, . . . , c_k,m_k∈ F 使得

c1,1v_1,1+··· + c1,m1v_1,m₁+··· + ck,1v_k,1+··· + ck,mkv_k,m_k= 0.

此時對任意 i∈ {1,...,k}, 我們令 wi = c_i,1v_i,1+··· + ci,miv_i,m_i. 因此由於 v_i,1, . . . , v_i,m_i 為 linearly independent, 如果 ci,1, . . . , ci,mi 不全為 0, 可得 wi ̸= 0. 但由於 wi ∈ EA(λi), 故此時 w_i 為 eigenvalue 為 λi 的 eigenvector. 也就是說, 若存在某些 c_{i, j}̸= 0, 則對於那 些 i, w_i 會是 eigenvalue 為 λi 的 eigenvectors 滿足 w₁+··· + wk= 0. 此與 Proposition 8.1.1 所述, 不同 eigenvalue 的 eigenvectors 之間是 linearly independent 的結果相矛盾, 故得證 v_1,1, . . . , v_1,m₁, . . . , v_k,1, . . . , v_k,m_k 是 linearly independent. 我們因此證得了當 A 的 characteristic polynomial 可以在 F 中完全分解且 A 的每一個 eigenvalue 的 geometric multiplicity 等於其 algebraic multiplicity, 則 A 為 diagonalizable.

(3)

8.1. Diagonalizability 197

其實反過來也是對的, 也就是說若 A∈ Mn×n(F) 為 diagonalizable, 則 A 的 characteristic polynomial 可以在F 中完全分解而且 A 的每一個 eigenvalue 的 geometric multiplicity 等於 其 algebraic multiplicity. 不過在證明之前我們先證明前面提過的一般來說一個 eigenvalue 的 geometric multiplicity 會小於等於其 algebraic multiplicity.

Proposition 8.1.2. 假設 A∈ Mn×n(F). 若 λ ∈ F 為 A 的一個 eigenvalue 且其 geometric multiplicity 為 d 以及 algebraic multiplicity 為 m, 則 d≤ m.

Proof. 依假設 dim(EA(λ)) = d, 故令 v1, . . . , vd 為 E_A(λ) 的一組 basis. 由於 v1, . . . , vd

為 linearly independent, 我們可以將之拓展成 Fⁿ 中的一組 basis v₁, . . . , v_d, v_d+1, . . . , v_n. 令 C 為 i-th column 為 v_i 的 n× n invertible matrix. 此時利用矩陣乘法可得 AC = CE 其中 E =

[ λId M1

0 M₂ ]

. 由於 E− tIn=

[ (λ −t)Id M1

0 M₂−tIn−d

]

, 我們可得 det(E− tIn) = (λ −t)^ddet(M₂−tIn−d). 換言之, E 的 characteristic polynomial 可以被 (t−λ)^d 所整除. 然 而 A 和 E 為 similar (因為 E = C⁻¹AC), 所以它們有相同的 characteristic polynomial (參見 Proposition 7.2.10), 因此得 (t−λ)^d 可整除 p_A(t). 然而λ 的 algebraic multiplicity 為 m, 表 示 m 為 t−λ 可以整除 pA(t) 的最高次數, 因此得證 d≤ m. 利用 Proposition 8.1.2 可以得到一個有趣的結果. 由於 A 的 eigenvalueλ 的 geometric multiplicity 必大於 0 (因對應 λ 的 eigenvector 必存在) 且其值必小於等於其 algebraic multiplicity (Proposition 8.1.2). 因若λ 是 A 的 characteristic polynomial 的單根 (即 λ 的 algebraic multiplicity 為 1), 其 geometric multiplicity 一定等於其 algebraic multiplicity (皆為 1).

現假設 n× n matrix A 是 diagonalizable. 依定義令 v1,1, . . . , v_1,d₁, . . . , v_k,1, . . . , v_k,d_k 是 Fⁿ 的一組 basis, 且對任意 i∈ {1,...,k}, vi,1, . . . , v_i,d_i 為 A 以 λi 為 eigenvalue 的 eigenvector, 其中 λ1, . . . ,λk 皆相異. 由於 v_i,1, . . . , v_i,d_i ∈ EA(λi) 且為 linearly independent, 我們知 λi 的 geometric multiplicity dim(EA(λi))≥ di. 現又假設每個λi 的 algebraic multiplicity 為 m_i, 由 Proposition 8.1.2 我們有

mi≥ dim(EA(λi))≥ di,∀i = 1,...,k. (8.4) 由於 m₁+··· + mk 表示 A 的 characteristic polynomial p_A(t) 根的個數 (含重根), 其值會小 於等於 p_A(t) 的次數 n. 而 m₁+··· + mk 表示 Fⁿ 的 dimension, 即 n. 因此將式子 (8.4) 中 i = 1, . . . , k 加起來可得

n≥ m1+··· + mk≥ dim(EA(λi)) +··· + dim(EA(λk))≥ d1+··· + dk= n.

因此得知上式中 “≥” 應為 “=” (否則有一項為不等會造成 n > n 之矛盾). 也就是說 n = m₁+··· + mk (這表示 p_A(t) 可以在實數中完全分解) 以及 m_i= dim(E_A(λi)),∀i = 1,...,k (這表示每個 eigenvalue 的 geometric multiplicity 等於其 algebraic multiplicity). 綜合以上的討論我們有以下的結論.

Theorem 8.1.3. 假設 A∈ Mn×n(F). 以下敘述是等價的.

(4)

(1) Fⁿ 中存在一組 basis 是由 A 的 eigenvectors 所組成.

(2) 存在一個 invertible matrix C∈ Mn×n(F) 使得 C⁻¹AC 為 diagonal matrix.

(3) A 的 characteristic polynomial 可在 F 中完全分解且 A 的每個 eigenvalue 的 geometric multiplicity 等於其 algebraic multiplicity.

Example 8.1.4. 我們考慮矩陣 A =



 0 3 1

−1 3 1 0 1 1



, B =



 −1 4 2

−1 3 1

−1 2 2



. 經計算可得它們有相同的 characteristic polynomial −(t − 1)²(t− 2). 也因此 A,B 的 eigenvalue 1 其 algebraic multiplicity 皆為 2, 而 eigenvalue 2 的 algebraic multiplicity 皆為 1. 由於 eigenvalue 2 的 algebraic multiplicity 為 1, 我們知其 geometric multiplicity 亦為 1, 所以我們僅要檢查 eigenvalue 1 的 geometric multiplicity 即可.

矩陣 A 對於 eigenvalue 1 的 eigenspace, 即 A− I3=



 −1 3 1

−1 2 1 0 1 0



 的 null space. 經由

elementary row operations, 可化為 echelon form



 1 0 −1 0 1 0 0 0 0



. 可得 E_A(1) = Span(



1 0 1



).

也就是說 A 對於 eigenvalue 為 1 的 eigenvector 就是那些和



1 0 1



 平行的 nonzero vector, 我 們也得到 A 對於 eigenvalue 1 的 geometric multiplicity 為 1. 因其 geometric multiplicity 不等於 algebraic multiplicity, 可得 A 不是 diagonalizable matrix. 回顧在 Example 7.3.2 中 我們計算過 B 在 eigenvalue 1 和 eigenvalue 2 的 geometric multiplicity 皆等於其 algebraic multiplicity, 所以 B 為 diagonalizable matrix. 我們看如何將 B 對角化.

由於 B 對於 eigenvalue 為 1 和 2 的 eigenspace 分別為 EB(1) = Span(



2 1 0



,



1 0 1



) 和

EB(2) = Span(



2 1 1



), 可得



2 1 0



,



1 0 1



,



2 1 1



 就是一組由 B 的 eigenvectors 所形成的 R³ 的

basis. 因此若令 C =



 2 1 2 1 0 1 0 1 1



 以及 D =



 1 0 0 0 1 0 0 0 2



, 則

BC =



 −1 4 2

−1 3 1

−1 2 2







 2 1 2 1 0 1 0 1 1



 =



 2 1 4 1 0 2 0 1 2



 =



 2 1 2 1 0 1 0 1 1







 1 0 0 0 1 0 0 0 2



 = CD.

再由 C 為 invertible, 得 C⁻¹BC = D.

依照 diagonalizable matrix 的定義, 我們可以將 Theorem 8.1.3 中任一項當成檢驗矩陣是否為 diagonalizable 的方法.

Question 8.1. 假設 A 為 n×n matrix. 試利用 Theorem 8.1.3 (2) 說明 A 為 diagonalizable 若且唯若 A^t 為 diagonalizable.

(5)

8.1. Diagonalizability 199

由 Proposition 7.2.11 我們知道 A 和 A^t 有相同的 characteristic polynomial 所以他們 有相同的 eigenvalue 而且這些 eigenvalue 在 A 和 A^t 的 algebraic multiplicity 會相同. 而 Question 8.1 似乎暗示這對 geometric multiplicity 也成立, 事實上我們有以下的結果.

Proposition 8.1.5. 假設 A 為 n× n matrix 且λ ∈ R 為 A 的一個 eigenvalue. 則 λ 對於 A 的 geometric multiplicity 與 λ 對於 A^t 的 geometric multiplicity 相等.

Proof. 我們要說明 dim(EA(λ)) = dim(EA^t(λ)), 亦即 dim(N(A − λIn)) = dim(N(A^t−λIn)).

由 Theorem 3.7.14 我們知 dim(N(A−λIn)) = nullity(A−λIn) = n− rank(A −λIn), 同理由 A∈ Mn×n 得 dim(N(A^t−λIn)) = n−rank(A^t−λIn). 因為 A^t−λIn= (A−λIn)^t 以及 rank((A− λIn)^t) = rank(A−λIn) (Proposition 3.7.15),得證 dim(N(A−λIn)) = dim(N(A^t−λIn)). Question 8.2. 假設 A 為 n×n matrix. 試利用 Theorem 8.1.3 (3) 說明 A 為 diagonalizable 若且唯若 A^t 為 diagonalizable.

前一節我們提過, 對於 linear operator 的 eigenvalue, eigenvector 和其表現矩陣的 eigenvalue, eigenvector 之間的關係, 換言之一個 linear operator 是否為 diagonalizable 取決於其表現矩陣是否為 diagonalizable. 所以 Theorem 8.1.3 對於 linear operator 也是對的, 因此我們有以下結果.

Theorem 8.1.6. 假設 V 為 vector space over F 且 T : V → V 為 linear operator. 以下敘 述是等價的.

(1) V 中存在一組 basis 是由 T 的 eigenvectors 所組成.

(2) 存在一個 V 的 ordered basis β 使得 [T]^β_β 為 diagonal matrix.

(3) T 的 characteristic polynomial 可在 F 中完全分解且 T 的每個 eigenvalue 的 geometric multiplicity 等於其 algebraic multiplicity.

最後我們再次強調在檢查一個矩陣是否為 diagonalizable 時, 對於 algebraic multi- plicity 為 1 的 eigenvalue 我們就不必檢查其 geometric multiplicity 了. 舉例來說, 若 A 的 characteristic polynomial 可在 F 中完全分解且其根皆為單根 (無重根), 則 A 一定為 diagonalizable. 另外還有一種矩陣不必檢查就知道一定是 diagonalizable, 就是 symmetric matrix. 下一節我們將會證明所有的 symmetric matrix 皆為 diagonalizable.

假設 A∈ Mn×n(F) 為 diagonalizable, 我們知存在 invertible matrix Q 使得 Q⁻¹AQ 為 diagonal matrix D. 換言之, 我們可以將 A 寫成 A = QDQ⁻¹. 也因此我們可得

A²= (QDQ⁻¹)(QDQ⁻¹) = QD²Q⁻¹.

同理對任意 m∈ N, 我們有 A^m= QD^mQ⁻¹. 寫成這樣有什麼好處呢? 因為 D 為對角矩陣





λ1 0 . ..

0 λn



, 我們很可以容易算出 D^m, 即





λ₁^m 0 . ..

0 λn^m



. 因此只要知道 Q 和 Q⁻1,

我們就可以很輕易算出 A^m (即 QD^mQ⁻¹), 而不必真正將 A 乘到 m 次方了.

(6)

Example 8.1.7. 考慮實矩陣 B =



 −1 4 2

−1 3 1

−1 2 2



. 在 Example 8.1.4 我們算出 Q⁻¹BQ = D,

其中 Q =



 2 1 2 1 0 1 0 1 1



 以及 D =



 1 0 0 0 1 0 0 0 2



. 由於 Q⁻¹=



 1 −1 −1 1 −2 0

−1 2 1



, 我們得

B⁵= QD⁵Q⁻¹=



 2 1 2 1 0 1 0 1 1







 1 0 0 0 1 0 0 0 32







 1 −1 −1 1 −2 0

−1 2 1



 =



 −61 124 62

−31 63 31

−31 62 32



.

8.2. The Spectral Theorem

在這一節中我們要探討 symmetric matrix. 我們將證明 symmetric matrix 皆為 diagonaliz- able, 更重要的是它們都是所謂的 orthogonal diagonalizable. 這個結果在數學和物理方面都 有很重要的應用, 不過我們不會深入探討它的應用, 而著重於說明如何將 symmetric matrix 對角化.

首先我們來看 2× 2 symmetric matrix 的情形. 假設 A =

[ a b b c

]

,其中 b̸= 0 (因為若 b = 0, 此時 A 已為 diagonal matrix 不必對角化). 此時 A 的 characteristic polynomial 為 PA(t) = t²−(a+c)t +(ac−b²). 由於 p_A(t) 的判別式 (a + c)²−4(ac−b²) = (a−c)²+ 4b²> 0, 我們得 P_A(t) = 0 有兩相異實根 λ1,λ2. 也就是說λ1,λ2 為 A 的兩相異 eigenvealue, 故知 A 為 diagonalizable. 事實上若令 v₁=

[ b λ1− a

]

, 我們有

Av₁= [ a b

b c

][ b λ1− a

]

=

[ λ1b b²+λ1c− ac

]

=λ1

[ b λ1− a

]

=λ1v₁.

注意這裡我們用到了λ₁²−(a+c)λ1+ (ac−b²) = 0. 由於 b̸= 0, 我們知 v1̸= 0, 故 v1 是 A 的 eigenvector 其 eigenvalue 為λ1. 同理令 v₂=

[ b λ2− a

]

, 我們可得 v₂ 為 A 的 eigenvector 其 eigenvalue 為λ2. 重要的是, 我們有⟨v1, v2⟩ = b²+λ1λ2−a(λ1+λ2) + a². 利用根與係數關係, 即λ1λ2= ac− b² 以及 λ1+λ2= a + c, 我們得⟨v1, v₂⟩ = 0. 也就是說 v1, v₂ 這組R² 的 basis 不只是由 A 的 eigenvectors 所組成, 而且它們倆倆互相垂直. 這種比一般 diagonalizable 更 強的條件我們便稱之為 orthogonal diagonalizable. 其正式的定義如下.

Definition 8.2.1. 假設 A∈ Mn×n, 若存在一組 Rⁿ 的 orthogonal basis v₁, . . . , v_n 其中每個 v_i 皆為 A 的 eigenvectors, 則稱 A 為 orthogonal diagonalizable.

當然了, 在 Definition 8.2.1 中若令 u_i= _∥v¹

i∥v_i 則 u₁, . . . , u_n 為 Rⁿ 的一組 orthonormal basis 且皆為 A 的 eigenvectors. 所以 A 為 orthogonal diagonalizable 也等同於Rⁿ中有一組 orthonormal basis 是由 A 的 eigenvector 所組成. 此時若 ui 所對應的 eigenvalue 為λi 且令 Q =



 u ₁ u₂ ··· un



 則可得 AQ = QD 其中 D 為 (i,i)-th entry 為 λi 的 diagonal matrix, 也就是說我們可以將 A 對角化成 Q⁻¹AQ = D. 一般由 eigenvectors 所形成的 basis 都可以 達到這個對角化的目的, 為何特別考慮 u₁, . . . , u_n 為 orthonormal basis 的情形呢? 這是因

(7)

8.2. The Spectral Theorem 201

為當 u₁, . . . , u_n 為 Rⁿ 的 orthonormal basis 時, 我們會有 Q^tQ = I_n, 也因此由 inverse matrix 的唯一性, 我們知 Q^t= Q⁻¹. 也就是說當 Q 的 column vectors 為 Rⁿ 的 orthonormal basis 時, 我們可以馬上得知 Q⁻¹= Q^t. 就因為這個特性, 當一個 n× n matrix 其 column vectors 是由 Rⁿ 的 orthonormal basis 所組成時, 我們特別稱之為 orthogonal matrix (注意不是稱 為 orthonormal matrix). 也因此我們可以將 A 對角化成 Q^tAQ = D, 故稱 A 為 orthogonal diagonalizable.

Question 8.3. 假設 Q∈ Mn×n, 是否 Q⁻¹= Q^t 即表示 Q 為 orthogonal matrix?

反之, 若存在 Q 為 n× n orthogonal matrix 以及 D =



 λ1

. ..



 為 n × n diagonal

matrix 使得 Q^tAQ = D. 此時由 AQ = QD, 知 Q 的 i-th column 為 A 的 eigenvalue 為λi 的 eigenvector, 也因此由 Q 的 column vectors 形成Rⁿ 的 orthonormal basis, 我們有以下之結果.

Proposition 8.2.2. 假設 A∈ Mn×n. 則 A 為 orthogonal diagonalizable 若且唯若存在 n×n 的 orthogonal matrix Q 使得 Q^tAQ 為 diagonal matrix.

利用 Proposition 8.2.2, 我們知當 A 為 orthogonal diagonalizable 時存在 Q, D∈ Mn×n

其中 Q 為 orthogonal matrix, D 為 diagonal matrix 使得 A = QDQ^t. 此時 A^t= (QDQ^t)^t= (Q^t)^tD^tQ^t. 由於 (Q^t)^t= Q 且 D^t= D (因為 D 為 diagonal matrix), 我們得 A^t= QDQ^t= A, 亦即 A 為 symmetric. 得證了以下結果.

Corollary 8.2.3. 假設 A∈ Mn×n 為 orthogonal diagonalizable, 則 A 為 symmetric matrix.

所謂 Spectral Theorem 指的就是 Corollary 8.2.3 的反向也是對的. 也就是說我們要證 明當 A 為 symmetric 時, A 必為 orthogonal diagonalizable. 首先我們需要知道 symmetric matrix 和內積之間的關係.

Lemma 8.2.4. 假設 A∈ Mn×n 為 symmetric, 則對於任意 v, w∈ Rⁿ 皆有⟨Av,w⟩ = ⟨v,Aw⟩.

Proof. 回顧一下, 若將內積寫成矩陣乘法的形式, 對於任意 v, w∈ Rⁿ 我們有 ⟨v,w⟩ = v^tw (注意此處 v, w 皆視為 n× 1 matrix). 因此得

⟨Av,w⟩ = (Av)^tw = (v^tA^t)w = v^t(A^tw) =⟨v,A^tw⟩.

最後由 A^t= A 之假設得證⟨Av,w⟩ = ⟨v,Aw⟩.

一個 n× n matrix 是否為 diagonalizable 第一個要檢查的條件就是其 characteristic polynomial 須在實數中完全分解. 接下來我們便是要說明一個 symmetric matrix 其 characteristic polynomial 確實可以在實數中完全分解.

Lemma 8.2.5. 假設 A∈ Mn×n 為 symmetric, 則 A 的 characteristic polynomial p_A(t) 的 根皆為實根.

(8)

Proof. 假設 λ = a + bı (此處 ı 為虛數滿足 ı²=−1) 為 pA(t) 的一個虛根, 即 a, b∈ R 且

b̸= 0. 接下來我們要考慮複數矩陣, 極其 entry 為複數的矩陣. 要注意複述矩陣的運算以及

行列式和實數矩陣有相同的規則. 所以依 a + bı 為 p_A(t) 的一根, 矩陣 A− (a + bı)In 的行列 式值為 0. 現將矩陣 A− (a + bı)In 和矩陣 A− (a − bı)In 相乘得

(A− (a + bı)In)(A− (a − bı)In) = A²− 2aA + (a²+ b²)I_n.

注意由於 a, b∈ R 以及 A 為實數矩陣, 所以 A²− 2aA + (a²+ b²)In 亦為實數矩陣. 另外由於 det(A− (a + bı)In) = 0, 故有

det(A²− 2aA + (a²+ b²)I_n) = det(A− (a + bı)In) det(A− (a − bı)In) = 0.

也就是說 A²− 2aA + (a²+ b²)I_n 為 singular, 亦即存在 v∈ Rⁿ 且 v̸= 0 使得 (A²− 2aA + (a²+ b²)In)v = A²v− 2aAv + (a²+ b²)v = 0.

然而

⟨A²v− 2aAv + (a²+ b²)v, v⟩ = ⟨A²v, v⟩ − 2a⟨Av,v⟩ + a²⟨v,v⟩ + b²⟨v,v⟩.

又利用 A 為 symmetric, Lemma 8.2.4 告訴我們⟨A²v, v⟩ = ⟨A(Av),v⟩ = ⟨Av,Av⟩, 故得

⟨Av − av,Av − av⟩ + b²⟨v,v⟩ = ⟨A²v, v⟩ − 2a⟨Av,v⟩ + a²⟨v,v⟩ + b²⟨v,v⟩, 亦即

∥Av − av∥²+ b²∥v∥²=⟨A²v− 2aAv + (a²+ b²)v, v⟩ = ⟨0,v⟩ = 0.

因為 ∥Av − av∥ ≥ 0, ∥v∥ > 0, 我們得 b = 0. 此與當初假設 b ̸= 0 相矛盾, 故知 pA(t) = 0 沒

有虛根, 即所有的根都是實根.

知道一個 symmetric matrix 的 characteristic polynomial 的根皆為實根, 我們便可以證明 symmetric matrix 皆為 orthogonal diagonalizable. 這裡我們要用數學歸納法, 也就是因為已證得 2× 2 symmetric matrix 皆為 orthogonal diagonalizable. 現假設 (n − 1) × (n− 1) symmetric matrix 皆為 orthogonal diagonalizable. 我們要利用此證明當 A 為 n × n symmetric matrix 時亦為 orthogonal diagonalizable. 首先由 Lemma 8.2.5 知存在實數 λ 為 A 的一個 eigenvalue. 令 u₁ 為 A 對於λ 的 eigenvector 且 ∥u1∥ = 1. 利用 Gram-Schmidt process, 我們可以將 u1 拓展成 Rⁿ 的一組 orthonormal basis u₁, . . . , un. 現考慮 orthogonal matrix Q =



 u ₁ u₂ ··· un



, 對於 j = 1,...,n 若 Au_j= c_{1 j}u₁+···+cn ju_n, 則依舉陣乘法定 應我們有 AQ = QC, 其中 C = [c_{i j}]. 因 Q 為 orthogonal matrix, 我們得 C = Q⁻¹AQ = Q^tAQ.

因此再由 A 為 symmetric 得 C^t= Q^tAQ = C, 亦即 C 亦為 symmetric. 另一方面依假設

Au1=λu1, 我們知 C 的 1-st column 為





 λ

0 ... 0





, 故由 C 為 symmetric 知 C 的 1-st row 為

(9)

8.2. The Spectral Theorem 203

[λ 0 ··· 0]. 也就是說 C 可以寫成以下的形式

C =







λ 0 ··· 0 0

... B 0





.

由於 C 為 symmetric, 這裡 B 是 (n− 1) × (n − 1) symmetric matrix. 依歸納假設, 我們知 B 為 orthogonal diagonalizable, 亦即存在 w1, . . . , w_n₋₁ 為 Rⁿ⁻¹ 的一組 orthonomal basis 且為 B 的 eigenvectors. 此時令 R =



 w ₁ w₂ ··· wn−1



, 我們得 R 為 (n − 1) × (n − 1) orthogonal matrix 且存在 (n− 1) × (n − 1) digonal matrix D 滿足 R^tBR = D. 現在令 P =







1 0 ··· 0 0

... R 0





.依矩陣乘法, 我們有

P^tCP =







λ 0 ··· 0 0... R^tBR 0





=







λ 0 ··· 0 0... D 0





.

也就是說 P^tCP 為 diagonal matrix, 也因此得 (QP)^tA(QP) = P^t(Q^tAQ)P = P^tCP 為 diagonal matrix. 注意由於 Q, P 皆為 orthogonal matrix, (QP)^t(QP) = P^t(Q^tQ)P = P^tP = In, 也就是說 QP 亦為 orthogonal matrix. 因此由 Proposition 8.2.2, 得 A 為 orthogonal diagonalizable, 也因此證明了 Spectral Theorem.

Theorem 8.2.6 (Spectral Theorem). 假設 A 為 n×n symmetric matrix, 則 A 為 orthogonal diagonalizable.

接下來我們來探討, 給定一個 n× n symmetric matrix A, 如何找到 orthogonal matrix Q 使得 Q^tAQ 為 diagonal matrix. 當然了, 我們可以如 Theorem 8.2.6 的證明, 利用數學歸納 法一步一步地將 Q 找到. 不過這要重複做好幾次的 Gram-Schmidt process, 頗為複雜. 利用 以下的 Proposition, 我們可以將步驟簡化許多.

Proposition 8.2.7. 假設 A 為 n× n symmetric matrix. 若 v,w ∈ Rⁿ 為 A 的 eigenvectors 且其對應的 eigenvalue 為相異實數, 則⟨v,w⟩ = 0.

Proof. 假設 v, w 所對應的 eigenvalue 分別為 λ,λ^′. 也就是說 Av =λv,Aw = λ^′w. 考慮

⟨Av,w⟩ = ⟨λv,w⟩ = λ⟨v,w⟩. 同理我們有 ⟨v,Aw⟩ = λ^′⟨v,w⟩. 然而 Lemma 8.2.4 告訴我們

⟨Av,w⟩ = ⟨v,Aw⟩, 故得 (λ − λ^′)⟨v,w⟩ = 0. 因此由題設λ ̸= λ^′ 推得⟨v,w⟩ = 0. 當 A 為 n× n symmetric matrix, 我們簡單說明一下如何找到一組 A 的 eigenvectors 形 成Rⁿ的 orthonormal basis. 首先我們列出 A 的所有相異的 eigenvaluesλ1, . . . ,λk, 然後求出 它們所對應的 eigenspace E_A(λ1), . . . , E_A(λk). 若我們將每個 E_A(λi) 的 basis 放在一起, 由於

(10)

A 為 diagonalizable 它們會是 Rⁿ 的一組 basis. 雖然 Proposition 8.2.7 告訴我們, 當 λi̸=λj

時, E_A(λi)和 E_A(λj)之間的向量是相互垂直的. 不過 E_A(λi) 本身的那一組 basis 之間的向量 未必倆倆相互垂直. 所以我們必須利用 Gram-Schmidt process 分別找到 A 每個 eigenspace E_A(λi) 的一組 orthonormal basis. 再將這些 eigenspace 的 basis 放在一起它們自然兩兩互 相垂直, 也因此它們就是由 A 的 eigenvectors 所組成的 Rⁿ 的一組 orthonormal basis. 我們看以下的例子.

Example 8.2.8. (1) 考慮 symmetric matrix A =



 0 1 1 1 1 0 1 0 1



. 我們有 A 的 characteristic polynomial 為 pA(t) =−(t + 1)(t − 1)(t − 2). 所以 A 有三個相異的 eigenvalues, −1,1,2. 知 道 A 必能對角化, 而且由 Proposition 8.2.7 知它們所對應的 eigenvector 會倆倆互相垂直.

事實上我們可求出對應到−1,1,2 的 eigenvector 分別為

v₁=



−2 1 1



, v₂=



 0

−1 1



, v₃=



1 1 1



.

很容易檢查它們確實倆倆互相垂直. 此時對於 i = 1, 2, 3 令 u_i=_∥v¹

i∥v_i, 我們得

u₁= 1

√6



−2 1 1



, u₂= 1

√2



 0

−1 1



, u₃= 1

√3



1 1 1





為 R³ 的一組 orthonromal basis. 故可將 A 對角化成





−^√²₆ ^√¹₆ ^√¹₆ 0 −^√¹₂ ^√¹₂

√1 3







 0 1 1 1 1 0 1 0 1









−^√²₆ 0 ^√¹

1 3

√6 −^√¹₂ ^√¹₃

√1 6

√1 2

√1 3



 =



 −1 0 0 0 1 0 0 0 2



.

(2) 考慮 symmetric matrix B =



 5 −4 −2

−4 5 −2

−2 −2 8



. 我們有 B 的 characteristic poly-

nomial 為 p_B(t) =−t(t − 9)². 所以 B eigenvalues 為 0, 9. 知道 B 必能對角化, 我們 知 dim(E_B(0)) = 1, dim(E_B(9)) = 9. 事實上 v₁=



2 2 1



 為 E_B(0) = N(B) 的 basis, 而 v₂=



−1 1 0



,v₃=



−1 0 2



 為 E_B(9) 的 basis. 而且由 Proposition 8.2.7 知⟨v1, v₂⟩ = ⟨v1, v₃⟩ = 0, 事 實上很容易檢查它們確實成立. 不過⟨v2, v₃⟩ = 1 ̸= 0, 我們必須利用 Gram-Schmidt process 將 v₂, v₃ 換成 E_B(9) 的一組 orthogonal basis. 令 w₂= v₂ 且

w₃= v₃− Projw2v₃=



−1 0 2



 −1 2



−1 1 0



 = 1 2



−1

−1 4



.

(11)

8.3. Application: Conics and Quadric Surfaces 205

此時令 u₁=_∥v¹

1∥v₁, u₂=_∥w¹

2∥w₂, u₃=_∥w¹

3∥w₃ 我們得

u₁= 1

√3



2 2 1



, u₂= 1

√2



−1 1 0



, u₃= 1 3√

2



−1

−1 4





為 R³ 的一組 orthonromal basis. 故可將 B 對角化成





2 3

1

−^√¹₂ ^√¹₂ 03

−₃^√¹₂ −₃^√¹₂ ₃^√⁴₂







 5 −4 −2

−4 5 −2

−2 −2 8









2

3 −^√¹₂ −₃^√¹₂

2 3

√1

2 −₃^√¹₂

1

3 0 ⁴

3√ 2



 =



 0 0 0 0 9 0 0 0 9



.

8.3. Application: Conics and Quadric Surfaces

我們將利用 symmetric matrix 是 orthogonal diagonalizable 的特性將坐標平面上的二次曲線以及坐標空間上的二次曲面的方程式化成標準式, 以方便我們判別它們是哪一類的圖形.

一般來說我們是利用平移和旋轉的方法將二次曲線和二次曲面的方程式化成標準式. 其 中旋轉的部分牽涉到對角化, 我們首先利用 quadratic form 來談對角化的問題. 所謂 n 個變 數的 quadratic form 指的就是形如

∑

n i, j=1

a_{i j}x_ix_j

這樣的二次式. 例如 x²+ 3xy− y², 3x²+ y²− z²+ 5xy + xz + 3yz 就是分別是兩個變數和三 個變數的 quadratic form. 令 x =



 x1

... xn



, 所有 n 個變數的 quadratic form 都可以用矩陣

表示成 x^tAx 的形式, 其中 A 為 n× n symmetric matrix. 例如兩個變數的 quadratic form ax²₁+ bx₁x2+ cx²₂ 就可以寫成

ax²₁+ bx₁x₂+ cx²₂=[

x₁ x₂ ][ a b/2 b/2 c

][x₁ x₂ ]

.

而三個變數的 quadratic form ax²₁+ bx²₂+ cx²₃+ rx1x2+ sx1x3+ tx2x3 就可以寫成

ax²₁+ bx²₂+ cx²₃+ rx1x2+ sx1x3+ tx2x3=[

x1 x2 x3

]

 a r/2 s/2 r/2 b t/2 s/2 t/2 c







x1

x2

x3



.

將 quadratic form 寫成這樣的矩陣表示的好處是因為 A 是 symmetric, 故存在 orthogonal matrix Q 使得 Q^tAQ 為 diagonal matrix



 λ1

. ..

λn



. 因此如果我們將變數 x =



 x₁

... xn





變換成 t =



 t1

... t_n



 其中 t = Q^tx (注意因 Q^t= Q⁻¹, 這等同於令 x = Q t), 則

x^tAx = (Q t)^tA(Q t) = t^t(Q^tAQ) t =[

t1 ··· tn

]



 λ1

. ..

λn







 t₁

... t_n



 = λ¹t₁²+··· +λnt_n².

(12)

也就是說, 我們可以藉由變換變數將一個 quadratic form 變成只有平方項. 我們看以下的例子.

Example 8.3.1. 考慮 quadratic form x²₁+ 4x1x2− 2x²₂. 我們先寫下其矩陣形式 x²₁+ 4x₁x2− 2x²₂=[

x1 x2

][ 1 2 2 −2

][x₁ x2

] .

由於

[ 1 2 2 −2

]

為 symmetric matrix, 故為 orthogonal diagonalizable, 事實上我們有 [ 2/√

5 1/√ 5

−1/√

5 2/√ 5

][ 1 2 2 −2

][ 2/√

5 −1/√ 5 1/√

5 2/√ 5

]

=

[ 2 0 0 −3

] .

因此若令 [t1

t2

]

=

[ 2/√

5 1/√ 5

−1/√

5 2/√ 5

][x1

x2

] 則 [ x1 x2

][ 1 2 2 −2

][x1

x2

]

=[ t1 t2

][ 2 0 0 −3

][t1

t2

]

= 2t₁²− 3t₂². 對於 quadratic form x²₂+ x²₃+ 2x₁x₂+ 2x₁x₃, 其矩陣形式為

x²₂+ x²₃+ 2x₁x₂+ 2x₁x₃=[

x1 x2 x3

]

 0 1 1 1 1 0 1 0 1







x1

x2

x₃



.

我們曾在 Example 8.2.8 計算過 Q^t



 0 1 1 1 1 0 1 0 1



Q =



 −1 0 0 0 1 0 0 0 2



 其中 Q 為 orthogonal

matrix





−^√²₆ 0 √¹ 1 3

√6 −^√¹₂ ^√¹₃

√1 6

√1 2

√1 3



. 因此若令



t1

t2

t3



 =





−^√²₆ ^√¹₆ ^√¹₆ 0 −^√¹₂ ^√¹₂

√1 3







x1

x2

x3



 則

[ x₁ x₂ x₃ ]

 0 1 1 1 1 0 1 0 1







x₁ x₂ x3



 = [ t₁ t₂ t₃ ]

 −1 0 0 0 1 0 0 0 2







t₁ t₂ t3



 = −t1²+ t₂²+ 2t₃².

現在我們回到二次曲線的情況. 對於坐標平面上的二次曲線其一般的通式為 ax²+ bxy + cy²+ dx + ey + f = 0. 我們可以將此式表為矩陣形式, 即

[ x y ][ a b/2 b/2 c

][x y ]

+[

d e ][x y ]

+ f = 0. (8.5) 假設 symmetric matrix A =

[ a b/2 b/2 c

]

可對角化成 Q^tAQ =

[ λ1 0 0 λ2

]

. 此時考慮變換變數

[x y ]

= Q^t [x

y ]

(也就是 [x

y ]

= Q [x

y ]

), 則式子 (8.5) 可寫成 [ x y ][ λ1 0

0 λ2

][x y ]

+[

d e ] Q

[x y ]

+ f = 0.

寫回方程式的樣子就是

λ1x²+λ2y²+ d^′x + e^′y + f = 0, (8.6) 其中[

d^′ e^′ ]

=[

d e ] Q.

(13)

首先我們考慮λ1,λ2 皆不為 0 的情形, 此時可以利用配方法將式子 (8.6) 改寫成 λ1(x− h)²+λ2(y− k)²= f^′.

我們分成下面幾種情形討論.

(A)λ1,λ2 同號:

(1) f^′ 與 λ1,λ2 同號: 此時圖形為 ellipse (橢圓). 注意當 λ1=λ2 時會是圓, 不過這裡我們將之視為橢圓的一種.

(2) f^′= 0: 此時很容易看出圖形為 (x, y) = (h, k) 這一點.

(3) f^′ 與 λ1,λ2 異號: 此時很容易看出圖形為空集合.

(B) λ1,λ2 異號:

(1) f^′̸= 0: 此時圖形為 hyperbola (雙曲線).

(2) f^′= 0: 此時圖形為兩相交直線.

Example 8.3.2. 考慮二次曲線方程式 2xy +√ 2x +√

2y = 1. 此方程式可用矩陣表示成 [ x y ][ 0 1

1 0 ][x

y ]

+[ √ 2 √

2 ][x y ]

= 1.

由於 [

1/√

2 1/√ 2

−1/√

2 1/√ 2

][ 0 1 1 0

][ 1/√

2 −1/√ 2 1/√

2 1/√ 2

]

=

[ 1 0 0 −1

]

考慮變數變換 [x

y ]

= [ 1/√

2 −1/√ 2 1/√

2 1/√ 2

][x y ]

, 我們得 [ x y ][ 1 0

0 −1 ][x

y ]

+[ √ 2 √

2 ][ 1/√

2 −1/√ 2 1/√

2 1/√ 2

][x y ]

= 1.

因此此曲線用新的變數其方程式為 x²− y²+ 2x = 1. 利用配方法得 (x + 1)²− y²= 2, 故其圖形為雙曲線.

同理若原方程式為 2xy +√ 2x +√

2y =−1, 變換變數後的方程式為 (x + 1)²− y²= 0 其圖 形便會是兩相交直線 x + y + 1 = 0 和 x− y + 1 = 0.

另一種情況是 λ1,λ2 其中有一個為 0. 注意 λ1,λ2 不可能同時為 0, 否則會是一次方程式. 不失一般性, 我們假設 λ1̸= 0,λ2= 0 的情形. 此時可以利用配方法將式子 (8.6) 改寫成

λ1(x− h)²+ e^′y = f^′. 我們分成下面幾種情形討論.

(C)λ1,λ2 其中有一個為 0 (不失一般性假設 λ1̸= 0,λ2= 0):

(1) e^′̸= 0: 此時圖形為 parabola (拋物線).

(2) e^′= 0 且 λ1, f^′ 同號: 此時圖形為兩平行直線 (與直線 x = 0 平行).

(3) e^′= 0 且 f^′= 0: 此時圖形為一直線 x = h.

(4) e^′= 0 且 λ1, f^′ 異號: 此時圖形為空集合.

(14)

Example 8.3.3. 考慮二次曲線方程式 x²− 2xy + y²+ 4√

2x = 4. 此方程式可用矩陣表示成 [ x y ][ 1 −1

−1 1 ][x

y ]

+[ 4√

2 0 ][x y ]

= 4.

由於 [

1/√

2 −1/√ 2 1/√

2 1/√ 2

][ 1 −1

−1 1

][ 1/√

2 1/√ 2

−1/√

2 1/√ 2

]

=

[ 2 0 0 0

]

考慮變數變換 [x

y ]

=

[ 1/√

2 1/√ 2

−1/√

2 1/√ 2

][x y ]

, 我們得 [ x y ][ 2 0

0 0 ][x

y ]

+[ 4√

2 0 ][ 1/√

2 1/√ 2

−1/√

2 1/√ 2

][x y ]

= 4.

因此此曲線用新的變數其方程式為 2x²+ 4x + 4y = 4. 利用配方法得 2(x + 1)²+ 4y = 6, 故其 圖形為拋物線.

總而言之, 我們可以從二次曲線的 quadratic form 部分得到其 eigenvalue λ1,λ2, 然後由 λ1,λ2 的正負號判斷此二次曲線應歸類於哪一種曲線. 若λ1,λ2 同號, 則為橢圓類; 而 λ1,λ2

異號, 則為雙曲線類; 而若λ1,λ2 有一個為 0, 則為拋物線類. 不過最後我們還是得經由配方法求得其一次項與常數項, 這樣才能確認此曲線是否為 degenerated (退化) 的情形 (即直線, 點或空集合).

Question 8.4. 假設二次曲線方程式的 quadratic form 的部分可表成 [

x y ] A

[x y ]

, 中 A 為 2× 2 symmetric matrix. 試問是否可由 det(A) 來判斷此曲線是橢圓類, 雙曲線類還是拋 物線類 (不考慮退化情形)?

對於坐標空間的二次曲面我們也是用同樣方法處理. 首先寫成矩陣的形式 [ x y z ]

A



x y z



 + [ c d e ]



x y z



 + f = 0,

其中 A 為 3× 3 symmetric matrix. 再將 A 對角化然後變換變數成

λ1x²+λ2y²+λ3z²+ c^′x + d^′y + d^′z + f = 0. (8.7) 二次曲面的分類頗為複雜, 大家不必記下這些分類. 不過為了完整性, 我們還是列出這些分類供同學參考. 由於此處無法利用圖形來解釋, 建議有興趣的同學參考課本上的圖形.

首先我們考慮λ1,λ2,λ3 皆不為 0 的情形, 此時可以利用配方法將式子 (8.7) 改寫成 λ1(x− h)²+λ2(y− k)²+λ3(z− l)²= f^′.

我們分成下面幾種情形討論.

(A)λ1,λ2,λ3 同號:

(1) f^′ 與 λ1,λ2,λ3 同號: 此時曲面為有界的, 且與 x = h, y = k 和 z = l 三個平面所 交的圖形為橢圓. 曲面有點像橄欖球表面一樣, 我們稱之為 ellipsoid. 注意當 λ1=λ2=λ3 時會是球面, 不過這裡我們將之視為 ellipsoid 的一種.

(15)

(2) f^′= 0: 此時很容易看出圖形為 (x, y, z) = (h, k, l) 這一點.

(3) f^′ 與 λ1,λ2,λ3 異號: 此時很容易看出圖形為空集合.

(B) λ1,λ2,λ3 異號 (不失一般性假設λ1,λ2 同號):

(1) f^′ 與 λ1,λ2 同號: 此時曲面與 z = l 所交的圖形為橢圓, 而分別和 x = h, y = k 所交 的圖形為雙曲線. 因為曲面整體上只有一片, 我們稱之為 hyperboloid of one sheet.

(2) f^′ 與 λ1,λ2 異號: 此時曲面與平面 z = l 不相交, 不過若將平面往上或往下移動夠 多的話會交出橢圓. 此曲面分別和 x = h, y = k 所交的圖形為雙曲線. 因為曲面整 體上有兩片, 我們稱之為 hyperboloid of two sheets.

(3) f^′= 0: 此時曲面與平面 z = l 交於一點, 不過若將平面往上或往下移的話會交出橢 圓. 此區面分別和 x = h, y = k 所交的圖形為兩相交直線. 圖形有點像甜筒, 我們稱 之為 elliptic cone.

另一種情況是λ1,λ2,λ3 其中有一個為 0. 注意λ1,λ2,λ3 不可能皆為 0, 否則會是一次方程式. 不失一般性, 我們假設λ1̸= 0. 我們又可分成下面幾種情形討論.

(C)λ2,λ3 僅有一個為 0 (不失一般性假設λ2̸= 0): 此時可以利用配方法將式子 (8.6) 改寫成 λ1(x− h)²+λ2(y− k)²+ e^′z = f^′.

(1) e^′̸= 0 且λ1,λ2 同號: 此曲面會完全在平面 e^′z = f^′ 之上方或下方, 不過若將平面往 上或往下移動會交出橢圓. 而此曲面分別與 x = h, y = k 所交的圖形為凹向一致的 拋物線. 我們稱之為 elliptic paraboloid.

(2) e^′̸= 0 且λ1,λ2 異號: 此曲面與平面 e^′z = f^′ 交於兩相交直線, 不過若將平面往上或 往下移動會交出雙曲線. 此曲面分別與 x = h, y = k 所交的圖形為凹向相反的拋物 線. 我們稱之為 elliptic paraboloid. 此曲面上的一點 (x, y, z) = (h, k, f^′/e^′)就是所謂的 saddle point (鞍點).

(3) e^′= 0 且 λ1,λ2, f^′ 同號: 此時曲面與任何的水平平面 z = s 所交的圖形為橢圓. 圖 形像橢圓柱面, 稱為 elliptic cylinder.

(4) e^′= 0 且λ1,λ2異號又 f^′̸= 0: 此時曲面與任何的水平平面 z = s 所交的圖形為雙曲 線. 圖形像雙曲柱面, 稱為 hyperbolic cylinder.

(5) e^′= 0 且 λ1,λ2 同號但與 f^′ 異號: 此時是空集合.

(6) e^′= 0 且 λ1,λ2 同號又 f^′= 0: 此時曲面與任何的水平平面 z = s 僅交於一點. 圖形 為一鉛直線.

(7) e^′= 0 且 λ1,λ2 異號又 f^′= 0: 此時曲面與任何的水平平面 z = s 交於兩相交直線.

圖形為兩相交平面.

(D)λ2,λ3 皆為 0: 此時可以利用配方法將式子 (8.6) 改寫成 λ1(x− h)²+ d^′y + e^′z = f^′.

(16)

(1) d^′, e^′ 不全為 0: 此時令 r =√

(d^′)²+ (e^′)² 利用變換變數



x y z



 =



 1 0 0

0 d^′/r −e^′/r 0 e^′/r d^′/r







t1

t₂ t₃





我們又可將上式改寫成

λ1(t1− h)²+ rt2= f^′.

此曲面與任何的水平平面 t₃= s 所交的圖形為拋物線. 圖形像拋物柱面, 稱為 parabolic cylinder.

(2) d^′= e^′= 0 且 f^′ 與 λ1 同號: 此時圖形為兩平行平面 (與 x = 0 平行).

(3) d^′= e^′= 0 且 f^′= 0: 此時圖形為平面 x = h.

(4) d^′= e^′= 0 且 f^′ 與 λ1 異號: 此時為空集合.

Example 8.3.4. 考慮坐標空間中曲面 5x²+ 5x²+ 8z²− 8xy − 4xz − 4yz + 2x + 2y + z = 9. 寫 成矩陣形式為

[ x y z ]

 5 −4 −2

−4 5 −2

−2 −2 8







x y z



 + [ 2 2 1 ]



x y z



 = 9.

由於 



−1√ 2

√1

2 0

−1 3√ 2

−1 3√

2 4 3√ 2 2

3 2 3

1 3







 5 −4 −2

−4 5 −2

−2 −2 8









−1√ 2

−1 3√

2 2 3

√1 2

−1 3√

2 2 3

0 ⁴

3√ 2

1 3



 =



 9 0 0 0 9 0 0 0 0





(請參考 Example 8.2.8 (2)). 考慮變數變換



x y z



 =





−1√ 2

−1 3√

2 2 3

√1 2

−1 3√

2 2 3

0 ⁴

3√ 2

1 3







x y z



, 我們得

[ x y z ]

 9 0 0 0 9 0 0 0 0







x y z



 + [ 2 2 1 ]





√−1 2

−1 3√ 2

2 3

√1 2

−1 3√ 2

2 3

0 ⁴

3√ 2

1 3







x y z



 = 9.

因此此曲面用新的變數其方程式為 9x²+ 9y²+ 3z = 9, 為前面列出的 (C)(1) 這個情形, 故知 其為 elliptic paraboloid.

Question 8.5. 空間中曲面 5x²+ 5x²+ 8z²− 8xy − 4xz − 4yz + 2x + 2y + z = 0 會是怎樣的圖 形?

8.4. Application: Markov Processes

當 A∈ Mn×n 為 diagonalizable 時, 對於 k∈ N 我們可以利用對角舉陣很容易求出 A^k. 進而對於任意 v∈ Rⁿ, 推算出 A^kv. 其實還有一種情況 (即使不是 diagonalizable), 當 k 很大時我 們也能 “估計” A^kv 大約為何. 這就是本節要探討的課題.

(17)

8.4. Application: Markov Processes 211

首先我們看 A∈ Mn×n 為 diagonalizable 的情形. 此時由於存在 diagonal matrix D =



 λ1

. ..

λn



 以及 invertible matrix P ∈ Mⁿ×n 使得 D = P⁻¹AP, 因此 A = PDP⁻¹. 依此我

們可以推得

A²= (PDP⁻¹)(PDP⁻¹) = PD(P⁻¹P)DP⁻¹= PD²P⁻¹= P



 λ₁²

. ..

λn²



P⁻¹,

然後用數學歸納法推得

A^k= P



 λ₁^k

. ..

λn^k



P⁻¹.

Example 8.4.1. 我們利用 Fibonacci sequence 0, 1, 1, 2, 3, 5, 8, 13, . . . , 來說明如何利用對角 化. Fibonacci sequence 是一組滿足 F_k+1= Fk+ Fk−1 的遞迴數列, 其中 F₀= 0, F1= 1. 我們 令 A =

[1 1 1 0 ]

且對任意 k≥ 1 令 vk= [ F_k

F_k₋₁ ]

, 則

Avk= [1 1

1 0 ][ Fk

Fk−1

]

=

[Fk+ Fk−1

Fk

]

= [Fk+1

Fk

]

= vk+1.

因此我們有 v_k+1= A^kv₁. 也就是說對於任意 k≥ 1, 我們只要能算出 A^kv₁, 就能求出 F_k+1 為何. 然而 A 的 characteristic polynomial 為 P_A(t) = t²− t − 1, 故得 A 的 eigenvalues 為 λ1= (1−√

5)/2, λ2= (1 +√

5)/2. 因 A 是 2× 2 matrix, 所以由 A 兩個相異的 eigenvalues 得 A 為 diagonalizable. 事實上 A 對於 λ1,λ2 的 eigenvector 分別為 v₁=

[λ1

1 ]

, λ2= [λ2

1 ]

. 因此若令 P =

[λ1 λ2

1 1 ]

, 我們有

P = [1−√

5 2

1+√ 5 2

1 1

]

, P⁻¹= 1

√5

[−1 ¹⁺₂^√⁵ 1 ⁻¹⁺₂^√⁵

] .

因此將 A 對角化得 A = P

[λ1 0 0 λ2

]

P⁻¹, 也因此求出對任意 k∈ N,

A^k= P

[λ1^k 0 0 λ2^k

]

P⁻¹= 1

√5

[λ1 λ2

1 1

][λ1^k 0 0 λ2^k

][−1 λ2

1 −λ1

]

=1 5

[λ2^k+1−λ1^k+1 λ2^k−λ1^k

λ2^k−λ1^k λ2^k−1−λ1^k−1

] .

所以由 v₁= [F1

F2

]

= [1

0 ]

, 我們得

v_k+1= [Fk+1

Fk

]

= A^kv₁= A^k [1

0 ]

= 1

√5

[λ₂^k+1−λ₁^k+1 λ2^k−λ1^k

] , 故得

Fk+1= 1

5(λ₂^k+1−λ₁^k+1) =1 5

( (1 +√

5

2 )^k+1− (1−√ 5 2 )^k+1

) .

(18)

接下來我們要探討的是, 有時即使 A 不是 diagonalizable, 但我們仍能估計 A^kv. 這裡要 探討的情況是所謂 Markov Peocesses, 是機率統計上的課題. 由於我們僅專注於線性代數的 部分, 在這裡就不多談它的由來和例子, 直接切入主題.

Definition 8.4.2. 對於一 Rⁿ 上的 vector v =



 c1

... cn



, 若 c¹+··· + cn= 1 且對於所有 i =

1, . . . , n, 皆有 ci≥ 0, 則稱 v 為 probability vector. 若 A ∈ Mn×n 且其每一個 column vector 皆為 probability vector, 則稱 A 為 stochastic matrix. 另外一個 stochastic matrix A 若存在 r∈ N 使得 A^r 的每個 entry 皆為正實數, 則稱 A 為 regular.

Example 8.4.3. A =

[1/2 1 1/2 0 ]

和 I₂= [1 0

0 1 ]

皆為 stochastic matrix. 而且 A 為 regular, 因為 A²=

[3/4 1/2 1/4 1/2 ]

, 每個 entry 皆為正. 然而 I2 不是 regular, 因為對於任意 r∈ N 皆有 I₂ⁿ= I₂ (除了對角線, 其他位置的 entry 皆為 0).

接下來我們看幾個有關 stochastic matrix 的性質.

Lemma 8.4.4. 假設 A∈ Mn×n 為 stochastic matrix 且 v∈ Rⁿ 為 probability vector. 則 Av 亦為 probability vector. 另外若 A 的每一個 entry 皆為正實數, 則 Av 的每個 entry 亦皆為 正實數.

Proof. 令 A =



 a₁ ··· an



, v =



 c₁

... c_n



, 則 Av = c¹a₁+··· + cna_n. 因此 Av 所有 entries

之和就是 c₁a₁+··· + cna_n 所有 entries 之和. 這等同於個別算出每個 c_ia_i 的所有 entries 之和再全部加起來. 然而因 a_i 為 probability vector, c_ia_i 的所有 entries 之和為 c_i, 所以 c₁a₁+··· + cna_n 所有 entries 之和為 c₁+··· + cn= 1. 又因為 c₁, . . . , c_n 以及 v₁, . . . , v_n 中的 每個 entry 皆為非負實數, 所以 c₁a₁+··· + cna_n 的每個 entry 皆為非負實數. 得證 Av 為 probability vector.

另外若 A 的每一個 entry 皆為正實數, 即 a₁, . . . , an 的每一個 entry 皆為正實數, 此時由 於 c₁, . . . , c_n 為非負實數, 故有 Av = c₁a₁+··· + cna_n 的每個 entry 皆大於等於 c_ia_i 所相對應 的 entry. 因 c₁, . . . , c_n 不全為 0, 故若 ci> 0, 則 c_ia_i 的每個 entry 皆為正實數, 因此得證 Av

的每個 entry 亦皆為正實數.

現若 A =



 a₁ ··· an



 為 stochastic matrix, 則依矩陣乘法定義 A² 的 i-th column

為 Aa_i, 故由 Lemma 8.4.4 知, A² 的每個 column 皆為 probability vector, 亦即 A² 亦為 stochastic matrix. 同理對任意 k≥ 2, A^k 的 i-th column 為 A^k⁻¹a_i, 因此利用數學歸納法以 及 Lemma 8.4.4, 我們得證 A^k 亦為 stochastic matrix. 同樣的利用數學歸納法以及 Lemma 8.4.4, 我們可以證明若 A^r的每一個 entry 皆為正實數, 則對於所有 k∈ N, A^r+k= A^r+k⁻¹A 的 每個 entry 亦皆為正實數. 因此有以下的定理 (證明從略).

(19)

8.4. Application: Markov Processes 213

Proposition 8.4.5. 假設 A∈ Mn×n為 stochastic matrix, 則對所有 k∈ N, A^k亦為 stochastic matrix. 又若 A 為 regular 且 A^r 的每個 entry 皆為正實數, 則對所有 k∈ N, A^r+k 的每個 entry 亦皆為正實數.

接下來我們要談論 stochastic matrix 的 eigenvalues 以及 eigenvectors. 不像前面的情況, 由於我門探討的是一般的 stochastic matrix 而不是具體的矩陣, 所以我們無法從它的 characteristic polynomial 來處理. 這裡我們需要特定的技巧, 首先我們從轉置矩陣出發.

Lemma 8.4.6. 假設 A∈ Mn×n 為 stochastic matrix. 則 1 為 A^t 的一個 eigenvalue 且 v =



 1

... 1



 為其 eigenvector. 另外若 A 的每個 entry 皆為正實數, 則對於 A^t, 其 eigenvalue 1

的 geometric multiplicity 為 1.

Proof. 由於 A 為 stochastic matrix, A 每一個 column vector ai 皆為 probability vector, 亦即 ⟨ai, v⟩ = 1. 因此我們有 A^tv =





⟨a1, v⟩

...

⟨an, v⟩



 =



 1

... 1



 = v. 得證 v 為 A^t 的 eigenvector 且其

eigenvalue 為 1.

現假設 A 的每個 entry 皆為正實數且 w =



 c1

... cn



 為 eigenvalue 為 1 的 eigenvector. 注

意 w̸= 0, 因此不失一般性, 我們可假設 c1, . . . , c_n 的最大值不為 0 (因為若最大值為 0, 表示 每個 c_i≤ 0, 故此時考慮 −w, 其仍為 A^t 的一個 eigenvalue 為 1 的 eigenvector 且此時 −w 每個 entry 的最大值為正實數). 假設 c_j 為 c₁, . . . , c_n 的最大值. 考慮 Aw 的 j-th entry, 依定 義其值為⟨aj, w⟩ = aj 1c1+··· + aj ici+··· + aj ncn. 因為 aj 1, . . . , a_{j n} 皆為正實數且 c_j > 0 為 c1, . . . , cn 的最大值, 我們有

aj 1c1+···+aj ici+···+aj ncn≤ aj 1cj+···+aj icj+···+aj ncj= (a_{j 1}+···+aj n)c_j= c_j. (8.8) 由於依假設 A^tw = w, 所以 A^t 的 j-th entry 應為 c_j, 也就是說式子 (8.8) 中的小於等於的 符號應為等號, 也因此證得了 c₁=··· = cj=··· = cn= r. 這說明了 w = rv, 亦即所有 A^t 的 eigenvalue 為 1 的 eigenvector 皆在 Span(v) 中. 因此得證 A^t 其 eigenvalue 1 的 geometric

multiplicity 為 1

回顧 Proposition 7.2.11 和 Proposition 8.1.5 告訴我們 A 和 A^t 有相同的 eigenvalues 而 且每個 eigenvalue 對於 A 和 A^t 的 geometric multiplicity 相同. 因此我們有以下的結果.

Proposition 8.4.7. 假設 A∈ Mn×n 為 stochastic matrix. 則 1 為 A 的一個 eigenvalue. 另 外若 A 為 regular, 則對於 A, 其 eigenvalue 1 的 geometric multiplicity 為 1.

Proof. 因 A 為 stochastic matrix, 由 Lemma 8.4.6 知 1 為 A^t 的一個 eigenvalue. 故由 Proposition 7.2.11 知 1 亦為 A 的一個 eigenvalue. 另外, 若 A 為 regular 且假設 r∈ N 使 得 A^r 的每個 entry 皆為正實數, 則由 Lemma 8.4.6 知 (A^r)^t 的 eigenvalue 1 其 geometric