Linear Operators

(1)

Linear Operators

在這一章中, 我們探討特別的一種但很常用的 linear transformation, 稱為 linear operator.

它是定義域與對應域相同的 linear transformation. 這一章我們介紹其基本性質，下一章再更進一步探討對角化問題。

7.1. Change of Basis

在這一節中, 我們介紹 change of basis 的概念, 了解到一個 linear operator 換了 ordered basis 後其表現矩陣的關係. 這個概念能幫助我們以後處理矩陣對角化的問題.

我們知道一個 linear transformation, 當我們用不同的 ordered bases 所得的 matrix representation 會不同. 假設β,β^′ 為 V 的兩組 ordered bases, 而γ,γ^′ 為 W 的兩組 ordered basis. 對於 linear transformation T : V → W, 其對應於這兩對 ordered bases 的 matrix representations [T ]^γ_β 和 [T ]^γ_β^′_′ 之間會有甚麼關係呢? 首先我們考慮 identity map id : V → V.

注意雖然是 identity map, 但其 matrix representation 未必會是 identity matrix. 事實上, 當我們定義域和對應域都選同一組 ordered basisβ = {v1, . . . , vn}, 則由於 id(vi) = vi, 故其 matrix representation 是 identity matrix. 但若定義域是使用 β 這一組 ordered basis, 而對應域選的是 β^′={v^′₁, . . . , v^′_n} 這一組 ordered basis, identity map 對應於 β,β^′ 的 matrix representation [id]^β_β^′ 其 i-th column 雖然仍和 id(v_i) = v_i 有關, 不過卻是要將 v_i 寫成以 {v^′₁, . . . , v^′_n} 為 ordered basis 的坐標表示法 [vi]_β′. 所以當β 和 β^′ 相異時, [id]^β_β^′ 不是 identity matrix. 現對任意 v∈ V, 因 v 對於β 的坐標表示法為 [v]β, 依 matrix representation 的性質 (Proposition 6.3.14) 可得

[id]^β_β^′[v]_β= [id(v)]_β′ = [v]_β′.

也就是說, 矩陣 [id]^β_β^′ 可以將 V 中元素對於 β 的坐標表示轉換成對於 β^′ 的坐標表示, 也因此我們稱 [id]^β_β^′ 為 change-of-basis matrix.

173

(2)

要注意 id : V→ V 是 isomorphism, 所以由 Theorem 6.3.19 (3), 我們得 [id]^β_β^′ 為 invertible 且

([id]^β_β^′)⁻¹= [id⁻¹]^β_β_′ = [id]^β_β_′ (7.1) 也就是說將 β 的坐標表示轉換成對於 β^′ 的坐標表示的 change-of-basis matrix 的 inverse 就是β^′ 的坐標表示轉換成對於 β 的坐標表示的 change-of-basis matrix.

我們回到原先的問題, 假設 T : V → W 為 linear transformation 且 β,β^′ 為 V 的兩組 ordered bases, 而γ,γ^′ 為 W 的兩組 ordered basis. 我們要探討 [T ]^γ_β 和 [T ]^γ_β^′_′ 之間的關係. 由於 idV : V → V, T : V → W 和 idW : W → W 之合成 idW◦ T ◦ idV : V → W 仍為 T : V → W, 所 以由 Theorem 6.3.19 (2) 得

[id_W]^γ_β^′[T ]^γ_β[id_V]^β_β_′ = [T ]^γ_β^′_′. 這就是所謂的 change-of basis formula, 我們將之完整敘述如下.

Theorem 7.1.1 (Change-of-basis Formula). 假設 T : V → W 為 linear transformation 且 β,β^′ 為 V 的兩組 ordered bases, 而γ,γ^′為 W 的兩組 ordered basis, 則存在 invertible matrix P, Q 使得 [T ]^γ_β^′_′ = Q ([T ]^γ_β) P, 其中 P 為將 β^′ 的坐標表示轉換成 β 的坐標表示的 change-of- basis matrix [idV]^β_β_′, 而 Q 為將γ 的坐標表示轉換成 γ^′ 的坐標表示的 change-of-basis matrix [id_W]^γ_γ^′.

Example 7.1.2. 在 Example 6.3.13 中我們考慮 linear transformation T : P₂(R) → P3(R), 其中 T (p(x)) = (x + 1)p(x− 1), ∀ p(x) ∈ P2(R). 另外我們考慮 P2(R) 的兩組 ordered bases ε = (x², x, 1),β = (p1(x), p₂(x), p₃(x)) 其中

p1(x) = 1

2(x²− x), p2(x) =−x²+ 1, p3(x) = 1

2(x²+ x)

以及 P₃(R) 的兩組 ordered basesε^′= (x³, x², x, 1),β^′= (q₁(x), q₂(x), q₃(x), q₄(x)) 其中 q₁(x) = −x³+ 3x²− 2x

6 , q₂(x) = x³− 2x²− x + 2

2 , q₃(x) = −x³+ x²+ 2x

2 , q₄(x) = x³− x 6 . 在 Example 6.3.13 中我們得到

[T ]^ε_ε^′=







1 0 0

−1 1 0

−1 0 1 1 −1 1





, [T]^β^β^′ =







0 0 0 1 0 0 0 2 0 0 0 3





.

因 [p₁(x)]_ε=



 1/2

−1/2 0



, [p₂(x)]_ε =



−1 0 1



, [p₃(x)]_ε =



1/2 1/2 0



 依定義 β 到 ε 的 change-of-basis

matrix 為 [id_P₂₍_R)]^ε_β=



 1/2 −1 1/2

−1/2 0 1/2

0 1 0



. 另外若 x³= c1q1(x) + c2q2(x) + c3q3(x) + c4q4(x), 則因 q₁(−1) = 1,q2(−1) = q3(−1) = q4(−1) = 0, 將 x = −1 代入前式得 c1=−1, 同理我們

可得 c₂= 0, c3= 1, c4= 8, 亦即 [x³]_β′=







−1 0 1 8





. 用同樣方法求 x², x, 1 對於 β^′ 的坐標表示法,

(3)

我們得ε^′ 到 β^′ 的 change-of-basis matrix 為 [id_P₃₍_R)]^β_ε′^′ =







−1 1 −1 1 0 0 0 1 1 1 1 1 8 4 2 1





. 我們也可以

先寫下 β^′ 到 ε^′ 的 change-of-basis matrix [id_P₃₍_R)]^ε_β^′_′ =







−1/6 1/2 −1/2 1/6 1/2 −1 1/2 0

−1/3 −1/2 1 −1/6

0 1 0 0





 再

取 inverse 得 [id_P₃₍_R)]^β_ε_′^′. 最後我們驗算

[id_P₃₍_R)]^β_ε_′^′[T ]^ε_ε^′[id_P₂₍_R)]^ε_β=







−1 1 −1 1 0 0 0 1 1 1 1 1 8 4 2 1













1 0 0

−1 1 0

−1 0 1 1 −1 1











1

2 −1 ¹₂

−12 0 ¹₂ 0 1 0



 = [T]^β_β^′.

前面提過, 我們經常談論的一種 linear transformation 是其定義域及對應域為相同的 vector space. 這樣的 linear transformation 我們特別稱之為 linear operator. 關於 linear operator 我們通常對於定義域及對應域會選同樣的一組 ordered basis. 此時利用 Theorem 7.1.1, 我們得以下之結果.

Corollary 7.1.3. 假設 T : V → V 為 linear transformation 且 β,β^′ 為 V 的兩組 ordered bases. 則存在 invertible matrix P 使得 [T ]^β_β^′_′ = P⁻¹([T ]^β_β) P, 其中 P 為將 β^′ 的坐標表示轉換成 β 的坐標表示的 change-of-basis matrix [idV]^β_β_′.

Proof. 考慮 Theorem 7.1.1 其中 W = V ,γ = β 以及 γ^′=β^′ 的情形. 此時 Q = [idV]^β_β^′ 由式 子 (7.1), 知 Q = ([idV]^β_β_′)⁻¹= P⁻¹, 得證本定理. 給定一個 n× n matrix A 我們知道它可以代表某一個 dimension 為 n 的 vector space V 上的 linear operator T : V → V, 對於 V 的某一組 ordered basis 的 matrix representation.

若 P 為 n× n invertible matrix, 則我們稱 B = P⁻¹AP 和 A 為 similar. 意味著我們也可將 B 視為 T : V → V 的一個 matrix representation 只是選取 V 不同的 ordered basis 而已.

有時一個 linear operator, 若選取夠好的一組 ordered basis, 我們可以得到更好的 matrix representation 以至於更容易了解這個 linear transformation. 例如 Orthonormal basis 也 可幫助我們處理 linear operator 的問題. 考慮 T : V → V 為 linear operator. 當我們給定 β = (v1, . . . , v_n)為 V 的 ordered basis, 我們便可得到 T 對β 的表現矩陣 A = [T]_β.其中 A 的 j-th column, 就是 T (v_j)用β 寫下的坐標. 也就是說若 T(vj) = c₁v₁+···+cnv_n, 則 A 的 j-th column 就是



 c1

... cn



. 特別的, 當 v¹, . . . , v_n是 V 的一組 orthonormal basis, 我們很容易將 T (v_j)

寫成 v₁, . . . , vn 的線性組合, 事實上 Proposition 4.3.6 告訴我們 T (v_j) = c1v₁+··· + cnv_n, 其 中 c_i=⟨T(vj), v_i⟩ = ⟨vi, T (v_j)⟩. 也就是說 A 的 j-th column 其 i-th entry 為 ci=⟨vi, T (v_j)⟩, 因此 [T ]_β 的 (i, j)-th entry 就是 ⟨vi, T (v_j)⟩.

(4)

Proposition 7.1.4. 假設 V 為 inner product space 且 v₁, . . . , v_n 為 V 的一組 orthonormal basis. 若 T : V → V 為 linear operator 且考慮 V 的 ordered basis β = (v1, . . . , v_n), 則 T 用 β 所得的 matrix representation [T]_β 其 (i, j)-th entry 為 ⟨vi, T (vj)⟩.

Question 7.1. 在 Proposition 7.1.4 中若 ordered basis β = (v1, . . . , vn) 是由 orthogonal basis 所形成, 則 [T ]_β 的 (i, j)-th entry 應為何?

另外有的 linear operator 可以找到好的基底使其 matrix representation 為對角矩陣. 有關於這個課題, 等以後談到對角化時我們再進一步探討. 我們先看一個簡單的例子.

Example 7.1.5. 考慮 linear operator T :R²→ R² 定義為 T ( [x

y ]

) = ₂₅¹

[9x + 12y 12x + 16y

] . 若利用標準基底 ε = (

[1 0 ]

, [0

1 ]

) 我們得 [T ]^ε_ε = ₂₅¹

[ 9 12 12 16

]

. 然而若用 β = ( [3

4 ]

, [−4

3 ]

) 這組 ordered basis 可由 T (

[3 4 ]

) = [3

4 ]

, T ( [−4

3 ]

) = [0

0 ]

, 得 [T ]^β_β=

[ 1 0 0 0

]

. 我們很容易由

[T◦ T]^β_β = ([T ]^β_β)([T ]^β_β) =

[ 1 0 0 0

]2

=

[ 1 0 0 0

]

= [T ]^β_β

推得 T◦ T = T. 事實上從 β 這組 ordered basis 我們很容易看出 T 就是將 R² 上的向量對 [3

4 ]

的投影. 另外令 P = [id]^ε_β=

[ 3 −4 4 3

]

, 我們得 [ 1 0

0 0 ]

= [T ]^β_β= ([id]^β_ε)([T ]^ε_ε)([id]^ε_β) = P⁻¹( 1 25

[ 9 12 12 16

] )P, 所以

[ 1 0 0 0

] 和 ₂₅¹

[ 9 12 12 16

]

為 similar.

Corollary 7.1.3 告訴我們，一個 linear operator 選取不同的 ordered basis, 其表現矩 陣會有 similar 的關係. 反過來, 當給定 A∈ Mn×n(F), 我們可以考慮 LA:Fⁿ→ Fⁿ, 其定義 為 L_A(v) = Av, ∀v ∈ Fⁿ 這一個 linear operator. 此時 L_A 對 Fⁿ 的 standard ordered basis ε = (e1, . . . , en) 的表現矩陣 [L_A]^ε_ε 就是 A. 現若 B∈ Mn×n(F) 且 B 和 A similar, 亦即存在 invertible matrix U 滿足 B = U⁻¹AU . 現考慮 ordered basisβ = (v1, . . . , v_n),其中 v_i 是 U 的 i-th column, 則依定義 U = [id_Fⁿ]^ε_β, 也因此由 Corollary 7.1.3 知 B 是 LA 用β 所得的表現矩 陣, 即 B = [L_A]^β_β. 從這裡我們知道, 以後要探討兩個相似矩陣的問題, 我們都可以將之視為是同一個 linear operator 利用不同的 ordered basis 所得的表現矩陣.

7.2. Characteristic Polynomial

給定 A∈ Mn×n(F), 以及 v ∈ Fⁿ, 在數學上常會探討 A^kv 其中 k 為任意正整數的問題.

例如 Fibonacci sequence F₁, F2, . . . . 是一組滿足 F_k+1= F_k+ F_k−1 的遞迴數列. 若我們令 A =

[1 1 1 0 ]

且對任意 k≥ 2 令 vk= [ F_k

F_k₋₁ ]

, 則

Av_k= [1 1

1 0 ][ F_k

F_k₋₁ ]

=

[F_k+ F_k−1 F_k

]

= [F_k+1

F_k ]

= v_k+1.

(5)

因此我們有 v₃= Av₂, v₄= Av₃= A(Av₂) = A²v₂, . . . ,這樣一直下去可得 v_k+1= A^k⁻¹v₂. 也就 是說對於任意 k≥ 2, 我們只要能算出 A^k−1v₂, 就能求出 Fk+1 為何.

一搬來說當 k 越大時, 計算 A^kv 就越困難. 不過在一種特殊其況, 即當存在 λ ∈ R 使 得 Av =λv 時, 我們有 A²v = A(Av) = A(λv) = λ(Av) = λ²v. 同理我們會有 A³v =λ³v, . . . , A^kv =λ^kv. 也就是說在這種情況之下, 就很容易計算出 A^kv. 因此我們對於怎樣的 v 會存在 λ ∈ R 使得 Av = λv 特別有興趣. 所以有以下的定義.

Definition 7.2.1. 假設 A∈ Mn×n(F). 若對於非零向量 v ∈ Fⁿ, 存在 λ ∈ F 使得 Av = λv, 則 稱 v 為 A 的一個 eigenvector, 而此λ 稱為 A 的一個 eigenvalue.

注意, 依定義 A 的 eigenvector 一定是非零向量. 又若 v 是 A 的一個 eigenvector, 且 λ,λ^′∈ R 滿足 Av =λv = λ^′v, 則由 (λ −λ^′)v = 0 以及 v̸= 0, 可得λ = λ^′. 因此對於 A 的一 個 eigenvector v 一定有也僅有一個實數λ 會滿足 Av = λv. 此時我們稱 eigenvector v 所對 應的 eigenvalue 為λ.

Question 7.2. 假設 A∈ Mn×n(F), v ∈ Fⁿ 為非零向量滿足 Av = 0. 是否 v 為 eigenvector?

其所對應的 eigenvalue 為何?

Example 7.2.2. 考慮 A =

[1 3 4 2 ]

, v1= [ 1

−1 ]

, v2= [3

4 ]

, v3= [4

3 ]

. 我們有

Av1= [1 3

4 2 ][ 1

−1 ]

= [−2

2 ]

=−2 [ 1

−1 ]

=−2v1. 所以 v₁ 是 A 的一個 eigenvector, 而 −2 是其對應的 eigenvalue. 同樣的

Av₂= [1 3

4 2 ][3

4 ]

= [15

20 ]

= 5 [3

4 ]

= 5v₂. 所以 v₂ 是 A 的一個 eigenvector, 而 5 是其對應的 eigenvalue. 然而

Av₃= [1 3

4 2 ][4

3 ]

= [13

22 ]

̸∈ Span(

[4 3 ]

).

所以 v₃ 不是 A 的一個 eigenvector.

首先我們看一些 eigenvector 和 eigenvalue 的性質.

Proposition 7.2.3. 假設 A∈ Mn×n(F), v ∈ Fⁿ 是 A 的 eigenvector 且其 eigenvalue 為 λ.

(1) 若 c∈ F 且 c ̸= 0, 則 cv 亦為 A 的一個 eigenvalue 為 λ 的 eigenvector.

(2) 若 v^′∈ Fⁿ 亦為 A 的一個 eigenvalue 為 λ 的 eigenvector 且 v+v^′̸= 0, 則 v+v^′ 亦 為 A 的一個 eigenvalue 為 λ 的 eigenvector.

Proof. 依假設我們知道 v̸= 0 且 Av =λv.

(6)

(1) 令 w = cv, 由於 c̸= 0 且 v ̸= 0, 我們知 w ̸= 0. 現考慮 Aw = A(cv) = c(Av) = c(λv) = λ(cv) = λw.

得證 w = cv 為 A 的一個以λ 為 eigenvalue 的 eigenvector.

(2) 令 u = v + v^′. 依假設 Av^′=λv^′ 且 u̸= 0. 現考慮

Au = A(v + v^′) = Av + Av^′=λv + λv^′=λ(v + v^′) =λu.

得證 u = v + v^′ 為 A 的一個以λ 為 eigenvalue 的 eigenvector.

Question 7.3. 假設 A∈ Mn×n(F) 且 v1, v₂ ∈ Fⁿ 皆為 A 的一個以 eigenvalue 為 λ 的 eigenvector. 證明若 w∈ Span(v1, v₂) 且 w̸= 0, 則 w 也是 A 的一個以 eigenvalue 為 λ 的 eigenvector.

要注意, Question 7.3 並不是說任意兩個 eigenvector 的線性組合仍為 eigenvector. 必須是它們所對應的 eigenvalue 是一樣的才會對. 例如在 Example 7.2.2 中雖然 v₁, v2 都是 A 的 eigenvector, 但 v₃= v₁+ v₂ 就不是 A 的 eigenvector.

在 Example 7.2.2 中 A∈ M2×2(R), 而 v1, v₂ 不平行, 所以 v₁, v₂ 形成 R² 的一組 basis.

另一方面 v₁, v₂ 都是 A 的 eigenvector. 這樣的矩陣 A 是很特別的, 我們對有這樣特點的 matrix 給了以下的定義.

Definition 7.2.4. 假設 A∈ Mn×n(F). 若存在 Fⁿ 的一組 basis v₁, . . . , v_n 其中每個 v_i 皆為 A 的 eigenvectors, 則稱 A 為 diagonalizable (可對角化).

為甚麼稱為 diagonalizable 呢? 這是因為若 v₁, . . . , v∈ Fⁿ是Fⁿ的一組 basis 且皆為 A 的 eigenvectors, 又假設它們所對應的 eigenvalues 分別為λ1, . . . ,λn. 亦即 Av₁=λ1v₁, . . . , Av_n= λnv_n.此時由矩陣乘法的定義我們有

A



 v₁ v₂ ··· vn



 =



 Av1 Av2 ··· Avn



 =





λ1v₁ λ2v₂ ··· λnv_n



.

另一方面若考慮 (i, i)-th entry 為 λi 的 n× n diagonal matrix D(即對角線第 i 個位置為 λi

而對角線外其餘位置皆為 0), 則我們有



 v ₁ v₂ ··· vn



D =



 v ₁ v₂ ··· vn











λ1 0 ··· 0 0 λ2 ··· 0 ... ... . .. ...

0 0 0 λn





=





λ1v₁ λ2v₂ ··· λ3v_n



.

因此若令 C =



 v ₁ v₂ ··· vn



, 則我們有 AC = CD. 現又因 C 的 column 之間為 linearly independent 且有 n 個 column, 我們得 C 的 rank 為 n, 因此由 C 為 n× n matrix 得知 C 為 invertible (參見 Theorem 2.5.2). 因此我們可將 AC = CD 改寫成 D = C⁻¹AC. 反之,

(7)

若存在一個 n× n invertible matrix 使得 C⁻¹AC 為 diagonal matrix D, 則因 C 為 n× n invertible matrix, 所以 C 的 n 個 column vectors 形成 Fⁿ 的一組 basis. 又因為 AC = CD, 由上面矩陣乘法的性質知 C 的 i-th column 就會是 A 以 D 的 (i, i)-th entry 為 eigenvalue 的 eigenvector. 所以 C 的 column vectors 就是 Fⁿ 的一組 basis 且為 A 的 eigenvectors, 也就是說 A 為 diagonalizable. 前面曾經提過, 形如 U⁻¹AU (其中 U 為 n× n invertible matrix) 這樣的 matrix 就稱為和 A 為 similar 的 matrix. 因此由這裡的討論, 我們知道 A 為 diagonalizable 就等同於 A 和一個 diagonal matrix 是 similar. 這也就是 diagonalizable 這個名稱的原因.

Example 7.2.5. 考慮 Example 7.2.2 中 A =

[1 3 4 2 ]

, v1= [ 1

−1 ]

, v2= [3

4 ]

.

由於 v₁, v₂ 為 A 的 eigenvectors 且可形成R² 的一組 basis, 我們知 A 為 diagonalizable. 事 實上若令 C =

[ 1 3

−1 4 ]

, 則由

AC = [1 3

4 2

][ 1 3

−1 4 ]

=

[−2 15 2 20 ]

=

[ 1 3

−1 4

][−2 0 0 5 ]

= C

[−2 0 0 5 ]

. 故得 C⁻¹AC =

[−2 0 0 5 ]

為 diagonal matrix.

要如何找到一個 n× n matrix 的 eigenvector 及其對應的 eigenvalue 呢? 其實一般的 找法是先找到 eigenvalue, 然後再找出與其對應的 eigenvector. 首先觀察若 λ ∈ F 是 A 的 eigenvalue, 表示存在一個非零向量 v∈ Fⁿ 使得 Av =λv. 由於 Inv = v, 所以看成矩陣的運算 λv = (λIn)v. 因此 Av =λv 就等同於 (A − λIn)v = 0. 換言之, λ 是 A 的 eigenvalue 等同於 由 n× n matrix A −λIn 所對應的 linear system (A−λIn)x = 0 有 nontrivial solution x = v.

由 Theorem 2.5.9, 這又等同於 A−λIn 不是 invertible, 再由 Theorem 5.2.6(1) 知這也等同 於 det(A−λIn) = 0. 總言之, 要找到 A 的 eigenvalueλ 就是要找到 λ 滿足 det(A − λIn) = 0.

要怎樣找到 λ 滿足 det(A − λIn) = 0 呢? 假設 A = [a_{i j}], 若我們將 t 視為變數, 考慮 det(A−tIn). 由於

A−tIn=







a_{1 1}−t a_{1 2} ··· a_{1 n} a_{2 1} a_{2 2}−t ··· a_{2 n} ... ... . .. ... a_{n 1} a_{n 2} ··· an n−t







利用數學歸納法, 我們可以證明 det(A−tIn)會是一個以 t 為變數的 n 次實係數多項式. 而若 t =λ 為此多項式的一實數根, 則 λ 就會滿足 det(A−λIn) = 0, 也就是說λ 就會是 A 的一個 eigenvalue. 反之, 若 λ 就會是 A 的一個 eigenvalue, 就表示 t = λ 會是多項式 det(A −tIn) 的一個根. 由此可知多項式 det(A−tIn)可以讓我們完全掌握 A 的 eigenvalue, 我們因而給它 一個特別的定義.

Definition 7.2.6. 假設 A∈ Mn×n(F), 考慮以 t 為變數的多項式 pA(t) = det(A−tIn). 我們 稱 p_A(t) 為 A 的 characteristic polynomial (特徵多項式)..

(8)

從上面的討論我們知道λ ∈ F 為 characteristic polynomial pA(t) 的一個根若且唯若λ 為 A 的 eigenvalue. 這裡要注意要談論 eigenvalue 是必須強調在哪一個 field 的 eigenvalue. 例 如當 A∈ Mn×n(R), 其 characteristic polynomial pA(t) 是一個實係數多項式, 不過 pA(t) 有可 能有非實數的虛根. 此時這個虛根不會是 A 在Rⁿ中的 eigenvector 所對應的 eigenvalue. 事實上如果λ ∈ C\R 是 pA(t) 的一個虛根, 此時假設存在 v∈ Rⁿ 使得 Av =λv. 由於 Av ∈ Rⁿ, 但 λv ̸∈ Rⁿ, 所以 Av =λv 不可能成立. 不過依前面的探討我們知道一定會有 w ∈ Cⁿ 滿 足 Aw =λw. 在這個課程裡, 當我們探討矩陣 A ∈ Mn×n(F) 的 eigenvalue 時, 若沒有特別說明, 都僅討論在 F 的 eigenvalue. 例如當我們討論實矩陣時, 我們考慮 eigenvalue 僅考慮 characteristic polynomial 的實根.

Example 7.2.7. 考慮 B =



 −1 4 2

−1 3 1

−1 2 2



, 此時 A 的 characteristic polynomial 為

pB(t) = det(B−tI3) = det



 −1 −t 4 2 1 3−t 1

−1 2 2−t



.

對第一個 row 降階求行列式得 p_A(t) = (−1 −t)det

[ 3−t 1 2 2−t

]

− 4det

[ −1 1

−1 2 −t ]

+ 2 det

[ −1 3 −t

−1 2 ]

.

化簡可得 p_A(t) =−(t − 1)²(t− 2). 也因此 t = 1 和 t = 2 為 A 的 characteristic polynomial 的二實根, 也因此得 A 有兩個 eigenvalues 1, 2.

接下來我們說明當 A∈ Mn×n(F) 時, 其 characteristic polynomial det(A − tIn) 確實是 t 的多項式. 首先觀察當我們在利用降階求 determinant 時, 其實是一些乘積之和. 利用數學歸納法可得這些乘積是由每一個 column 中的某個元素相乘而得而且它們都不會在同一個 row. 例如當我們計算 2×2 matrix

[ a b c d

]

的 characteristic polynomial det

[ a−t b c d−t

]

時不難發現會貢獻 t 的最高次項乘積的是 (a− t)(d − t) 而另一個乘積 bc 就僅影響到常 數項, 因此其最高次項 t² 與次高次項 t 的係數就完全由 (a−t)(d −t) 的 t² 與 t 的係數即 at²− (a + d)t 所決定. 現考慮 3 × 3 matrix A =



 a b c d e f g h i



 的 characteristic polynomial.

利用對第一個 row 降階的方式我們有 det



 a−t b c d e−t f g h i−t



 = (a −t)det[

e−t f h i−t

]

− bdet

[ d f g i−t

] + c det

[ d e−t g h

] .

從前面 2× 2 的情形我們看出 det

[ e−t f h i−t

]

的 t² 與次高次項 t 的係數就完全由 (e− t)(i − t) 的 t² 與 t 的係數所決定, 因此 (a− t)(e − t)(i − t) 貢獻出 t³ 和 t² 的係數. 而 det

[ d f g i−t

] 和 det

[ d e−t

g h

]

最多僅有 t 的一次出現, 因此得 det(A− tI3) 的 t³ 和 t² 的係數完全由 (a−t)(e −t)(i −t) 所決定. 也就是說 A 的 chacteristic polynomial pA(t) 為 3 次多項式且其最高次的兩項為 (−1)³t³+ (−1)²(a + e + i)t². 這裡 a, e, i 為 A 的 diagonal

(9)

entries, 它們之和 a + e + i 我們稱為 A 的 trace, 用 tr(A) 來表示. 利用數學歸納法, 我們 可得當 A = [a_{i j}]為 n× n matrix 時, A 的 characteristic polynomial pA(t) = det(A−tIn) 為 t 的 n 次實係數多項式, 且其最高次的兩項是由 (a1 1−t)(a2 2−t)···(an n−t) 所貢獻因此為 (−1)ⁿtⁿ+ (−1)ⁿ⁻¹(a_{1 1}+··· + an n)tⁿ⁻¹. 由於 A 的 diagonal entries 之和 a_{1 1}+··· + an n 我們 定為 tr(A), 因此有以下之結論.

Proposition 7.2.8. 假設 A∈ Mn×n(F). 則 A 的 characteristic polynomial 為 t 的 n 次實 係數多項式. 其 tⁿ 項係數為 (−1)ⁿ, tⁿ⁻¹ 項係數為 (−1)ⁿ⁻¹tr(A) 而常數項係數為 det(A).

Proof. 令 pA(t) = det(A−tIn), 由前面的討論我們僅剩討論 p_A(t) 的常數項. 由於 pA(t) 是 多項式所以它的常數項是 p_A(0) = det(A− 0In) = det(A). Question 7.4. 假設 A∈ Mn×n(F). 試問 A 最多會有幾個相異的 eigenvalues?

Example 7.2.9. 考慮 Example 7.2.2 中 A = [1 3

4 2 ]

的 characteristic polynomial p_A(t). 由 於 tr(A) = 1 + 2 = 3 以及 det(A) = 2− 12 = −10, 利用 Proposition 7.2.8 可得

p_A(t) = (−1)²t²+ (−1)3t + (−10) = t²− 3t − 10.

事實上利用 characteristic polynomial 的定義直接計算可得 p_A(t) = det

[1−t 3 4 2−t

]

= (1−t)(2 −t) − 12 = t²− 3t − 10.

分解後可得−2,5 為 A 的 eigenvalues.

接下來我們介紹一個和 eigenvalue 有關的定義. 若λ ∈ F 是 A 的 eigenvalue. 由於 t = λ 會是 A 的 characteristic polynomial p_A(t) = det(A−tIn) 的一個根. 由因式定理知 t−λ 會 整除 p_A(t). 若 (t−λ)^m 可整除 p_A(t), 但 (t−λ)^m+1 不能整除 p_A(t), 則我們稱 eigenvalue λ 的 algebraic multiplicity (代數重根數) 為 m. 當然了當 t =λ 是 pA(t) 的一個單根, 我們就 說 λ 的 algebraic multiplicity 為 1. 例如 Example 7.2.7 中 B 有兩個 eigenvalue 1 和 2, 其 中 eigenvalue 1 的 algebraic multiplicity 為 2, 而 eigenvalue 2 的 algebraic multiplicity 為 1. 而 Example 7.2.9 中 A 的兩個 eigenvalue −2,5 其 algebraic multiplicity 皆為 1. 有關 algebraic multiplicity 的性質, 以後我們還會進一步討論.

Question 7.5. Identity matrix In 的 eigenvalue 有哪些? 其 algebraic multiplicity 為何?

最後我們介紹一些和 characteristic polynomial 有關的性質. 一般來說兩個 n× n matrices 的 characteristic polynomial 可能不相同. 不過在一種特殊情況之下, 它們的 characteristic polynomial 會一樣. 前面提過當 A, B 為 n× n matrices, 若存在 n × n 的 invertible matrix U, 使得 B = U⁻¹AU , 則我們稱 A, B 為 similar (關於這個定義的原因我們 以後會再詳述). 此時我們可得 A 和 B 的 characteristic polynomial 是相同的.

Proposition 7.2.10. 假設 A, B 為 n×n matrices 且存在 n×n 的 invertible matrix U 滿足 B = U⁻¹AU . 則 A 和 B 有相同的 characteristic polynomial.

(10)

Proof. 依假設 B 的 characteristic polynomial 為 det(B−tIn) = det(U⁻¹AU−tIn). 然而依矩陣乘法性質

U⁻¹(A−tIn)U = U⁻¹AU−U⁻¹(tIn)U = U⁻¹AU−tU⁻¹InU = U⁻¹AU−tIn. 因此再由 determinant 的性質 (Theorem 5.2.6) 得

det(B−tIn) = det(U⁻¹(A−tIn)U ) = det(U⁻¹) det(A−tIn) det(U ) = det(A−tIn).

得證 A 和 B 有相同的 characteristic polynomial.

另一個會有相同的 characteristic polynomial 的情況就是 A 和 A^t有相同的 characteristic polynomial.

Proposition 7.2.11. 假設 A∈ Mn×n(F), 則 A 和 A^t 有相同的 characteristic polynomial Proof. 利用 trnaspose 的性質 (A− tIn)^t= A^t− tIn^t = A^t− tIn (Proposition 2.2.4), 故利用 Theorem 5.2.6 (3), 我們有

P_A^t(t) = det(A^t−tIn) = det((A−tIn)^t) = det(A−tIn) = PA(t).

Question 7.6. 試說明 A 和 A^t 有相同的 eigenvalues 且對每個 eigenvalue 其在 A 和 A^t 的 algebraic multiplicity 也相同.

7.3. Eigenspace 和 Eigenvector

我們了解了如何找到一個 n× n matrix 的 eigenvalue 之後, 接下來便是要找出這些 eigen- value 所對應的 eigenvectors.

假設 A∈ Mn×n(F) 且 λ ∈ F 為 A 的一個 eigenvalue. 由於 det(A − λIn) = 0, 我們知聯立 方程組 (A−λIn)x = 0 存在非零的 nontrivial solution. 現假設 v∈ Fⁿ 為非零向量且 x = v 為 (A−λIn)x = 0 的一組解. 此即表示 v 滿足 (A−λIn)v = 0, 亦即 Av =λv. 故此時 v 為 A 的一個以λ 為 eigenvalue 的 eigenvector. 反之, 若 v 為 A 的一個以 λ 為 eigenvalue 的 eigenvector, 則 x = v 必為 (A−λIn)x = 0 的一組 nontrivial solution. 因此我們只要掌握 n× n matrix A −λIn的 nullspace (即{v ∈ Fⁿ| (A −λIn)v = 0}) 中的非零向量就會是 A 相對於 λ 的 eigenvector. 由於 nullspace 是 vector space, 因此我們有以下的定義.

Definition 7.3.1. 假設 A∈ Mn×n(F) 且 λ ∈ F 為 A 的一個 eigenvalue. 則 A − λIn 的 nullspace 稱為 A 對於 eigenvalueλ 的 eigenspace. 我們用 EA(λ) 來表示.

要注意對於λ 的 eigenspace 並不是由以 λ 為 eigenvalue 的 eigenvectors 所組成. 這是因為零向量 0 不是 eigenvector, 但 vector space 必須包含 0. 所以對於λ 的 eigenspace 應該是由所有以λ 為 eigenvalue 的 eigenvectors 和 0 所組成. 那為什麼要讓它形成 vector space 呢? 因為 vector space 有其方便性, 例如有了 vector space 我們就可以利用 dimension 來知 道它的大小. 因此我們定義 E_A(λ) 的 dimension 為 eigenvalue λ 的 geometric multiplicity

(11)

(幾何重根數). 要注意 eigenvalue λ 的 algebraic multiplicity 無法讓我們知道 λ 所對應的 eigenvectors 的多寡, 而是 λ 的 geometric multiplicity 可以提供這一個訊息. 有關於 Eigenspace 以及

Example 7.3.2. 考慮 A =

[ 1 3 4 2

] , B =



 −1 4 2

−1 3 1

−1 2 2



. 由前面 Example 7.2.7, Example 7.2.9 我們已計算出 A 和 B 的 characteristic polynomial 分別為 p_A(t) = (x + 2)(x− 5), pB(t) =−(t − 1)²(t− 2). 接下來我們分別計算 A 和 B 的 eigenspace.

首先考慮 A 對於 eigenvalue −2 的 eigenspace, 亦即找出 A − (−2I2) =

[ 3 3 4 4

] 6 的 null space. 經由 elementary row operations, 可化為 echelon form

[ 1 1 0 0

]

. 可得 EA(1) = Span(

[ 1

−1 ]

). 也就是說 A 對於 eigenvalue 為 −2 的 eigenvector 就是那些和 [ 1

−1 ]

平行 的 nonzero vector. 由於 dim(EA(−2)) = 1, 我們也得到 A 對於 eigenvalue −2 的 geometric multiplicity 為 1. 至於 A 對於 eigenvalue 5 的 eigenspace, 亦即找出 A− 5I2=

[ −4 3 4 −3

]

的 null space. 經由 elementary row operations, 可化為 echelon form

[ −4 3 0 0

]

. 因此得 E_A(5) = Span(

[3 4 ]

). 也就是說 A 對於 eigenvalue 為 5 的 eigenvector 就是那些和 [3

4 ]

平行的 nonzero vector, 我們也得到 A 對於 eigenvalue 5 的 geometric multiplicity 為 1. 在 Example 7.2.2 中我們舉出 A 的 eigenvector 的例子其實是這樣得到的.

接著考慮 B 對於 eigenvalue 1 的 eigenspace, 亦即找出 B− I3 =



 −2 4 2

−1 2 1



 的

null space. 經由 elementary row operations, 可化為 echelon form



 1 −2 −1 0 0 0 0 0 0



. 可得

EB(1) = Span(



2 1 0



,



1 0 1



). 也就是說 B 對於 eigenvalue 為 1 的 eigenvector 就是那些由



2 1 0





和



1 0 1



 的 linear combination 所得的 nonzero vector. 例如 v =



4 1 2



 =



2 1 0



 + 2



1 0 1



 就滿足

Bv =



 −1 4 2

−1 3 1

−1 2 2







4 1 2



 =



4 1 2



 = v.

由於 dim(E_B(1)) = 2, 我們也得到 B 對於 eigenvalue 1 的 geometric multiplicity 為 2. 至 於 B 對於 eigenvalue 2 的 eigenspace, 亦即找出 B− 2I3 =



 −3 4 2

−1 1 1

−1 2 0



 的 null space.

經由 elementary row operations, 可化為 echelon form



 1 −2 0 0 1 −1 0 0 0



. 因此得 E_B(2) =

(12)

Span(



2 1 1



). 也就是說 B 對於 eigenvalue 為 2 的 eigenvector 就是那些和



2 1 1



 平行的 nonzero vector, 我們也得到 B 對於 eigenvalue 2 的 geometric multiplicity 為 1.

在 Proposition 7.2.3 中我們知道兩個有相同 eigenvalue 的 eigenvectors 其線性組合只 要不是 0, 就會是有同樣 eigenvalue 的 eigenvector. 所以一般在探討一個 n× n 矩陣的 eigenvector 時, 我們只要寫下其 eigenspace 的一組基底即可.

以前我們提過有關 matrix 的問題都可以轉換成 linear transformation 的問題, 反之亦 然. 回顧一下當 V 是 over F 的 vector space, 則一個 linear transformation T : V → V, 稱 為一個 linear operator. 特別地當 dim_F(V ) = n, 且 β 是 V 的一組 ordered basis, 則 T 利 用這組 ordered basis 所得的 matrix representation [T ]_β 會是一個 n× n matrix. 注意這裡 因為定義域和對應域都是 V 所以兩邊是選同樣的 ordered basis, 因此我們將原本 matrix representation 的表示法 [T ]^β_β 省略寫成 [T ]_β. 方陣 [T ]_β 的 eigenvalue 和 eigenvector 會 和 T 有甚麼關係呢? 假設 β = (v1, . . . , v_n), 而



 c₁

... cn



 ∈ Fⁿ 是 [T ]_β 的一個 eigenvector 且其

eigenvalue 為λ, 此時我們有

[T ]_β



 c₁

... c_n



 = λ



 c₁

... c_n



 =



 λc1

... λcn



.

若令 v = c₁v₁+··· + cnv_n, 回顧一下在 Proposition 6.3.14 中告訴我們這表示 T (v) 用β 這組 ordered basis 的坐標表示應該是



 λc1

... λcn



. 也就是說

T (v) =λc1v₁+··· +λcnv_n=λ(c1v₁+··· + cnv_n) =λv.

反之, 若 v = c₁v₁+··· + cnv_n∈ V 滿足 T(v) =λv, 則由 Proposition 6.3.14 知



 c1

... cn



 ∈ Fⁿ 是

[T ]_β 的一個 eigenvector 且其 eigenvalue 為 λ. 也因此我們有以下的定義.

Definition 7.3.3. 假設 V 是一個 vector space overF 且 T : V → V 是一個 linear operator.

若對 v∈ V, 存在 λ ∈ F 滿足 T(v) = λv, 則稱 v 為 T 的一個 eigenvector, 且 λ 為其 eigenvalue.

Example 7.3.4. 考慮 Linear operator T : P₂(R) → P2(R) 定義為 T ( f (x)) = f (x) + (x + 1) f^′(x), ∀ f (x) ∈ P2(R).

此時令 g(x) = x²+ 2x + 1, 則

T (g(x)) = (x²+ 2x + 1) + (x + 1)(2x + 2) = 3(x²+ 2x + 1) = 3g(x).

故 x²+ 2x + 1 是 T 的一個 eigenvector 且其 eigenvalue 為 3.

(13)

在 Proposition 7.2.3, 我們提到關於方陣的 eigenvalue 和 eigenvector 的性質. 事實上這性質對 linear operator 也是對的, 我們有以下的性質. 由於證明方法和矩陣的情形一致, 我們就不再證明了.

Proposition 7.3.5. 假設 V 是一個 vector space over F 且 T : V → V 是一個 linear operator. 又假設 v1, v2 為 T 的 eigenvectors 且其 eigenvalue 皆為 λ ∈ F. 若 c1, c2∈ F 且 c₁v₁+ c₂v₂̸= 0, 則 c1v₁+ c₂v₂ 也會是 T 的一個以 λ 為 eigenvalue 的 eigenvector.

回顧一下在 M_n×n(F) 的情形, 我們有所謂 diagonalizable matrix, 也就是說這樣的矩陣可以在 Fⁿ 找到一組由 eigenvectors 所組成的 basis. 同樣的對於 linear operator, 我們也有以下的定義.

Definition 7.3.6. 假設 V 是一個 vector space overF 且 T : V → V 是一個 linear operator.

若 V 中存在一組 basis v₁, . . . , v_n其中每個 v_i皆為 T 的 eigenvectors, 則稱 T 為 diagonalizable (可對角化).

為何這樣子的 linear operator 會稱為 diagonalizable 呢? 其原因比矩陣的情況更容易讓人理解. 事實上如果β = (v1, . . . , v_n) 是 V 的一組 ordered basis 且 v_i 皆為 T 的 eigenvector.

假設λi 就是 v_i 所對應的 eigenvalue, 亦即 T (v_i) =λiv_i,∀i ∈ {1,...,n}. 此時考慮 T 利用 β 所得的 matrix representation [T ]_β. 回顧一下 [T ]_β 的 1-st column 是 T (v₁) =λ1用β 寫下的

坐標表示, 即





 λ1

0 ... 0





=λ1e₁. 而對一般的 i∈ {1,...,n}, [T]_β 的 i-th column 就是 T (v_i) =λiv₁

用 β 寫下的坐標表示, 即 λie_i. 也因此 [T ]_β 就是







λ1 0 ··· 0 0 λ2 ··· 0 ... ... . .. ...

0 0 0 λn





 這樣的 diagonal

matrix.

要怎樣找一個 linear operator T : V→ V 的 eigenvalue 和 eigenvector 呢? 從前面一開 始的說明可以知道, 任取 V 的一組 ordered basisβ, 只要考慮其 matrix representation [T]β

的 eigenvalue 和 eigenvector 就可以還原成 T 的 eigenvalue 和 eigenvector 了, 我們看以下 的例子.

Example 7.3.7. 考慮 Example 7.3.4 中的 linear operator T : P₂(R) → P2(R), 以及 P2(R) 的 standard basis ε = (1,x,x²). 由於依定義 T (1) = 1, T (x) = 2x + 1, T (x²) = 3x²+ 2x, 我 們得 [T ]_ε =



1 1 0 0 2 2 0 0 3



. 因為 [T]_ε 是上三角矩陣, 很容易求得其 characteristic polynomial 為 (1− t)(2 − t)(3 − t). 得知 [T]_ε 的 eigenvalue 為 1, 2, 3 (事實上這也是 T 的 eigenvalue).

接下來我們利用解 [T ]_ε 的 eigenspace 得 [T ]_ε 的 eigenvectors. 對於 eigenvalue 1 所得的 eigenspace 就是



0 1 0 0 1 2 0 0 2



 的 null space, 即 Span(



1 0 0



). 然而



1 0 0



 是 1 在 P₂(R) 利用ε 所

(14)

得的坐標表示. 故知 Span(1) 中的非 0 元素是 T 的 eigenvector 且其 eigenvalue 為 1. 事實 上我們有 T (1) = 1, 對於 [T ]_ε 的 eigenvalue 2 所得的 eigenspace 就是



−1 1 0 0 0 2 0 0 1



 的 null

space, 即 Span(



1 1 0



). 然而



1 1 0



 是 x+1 在 P₂(R) 利用ε 所得的坐標表示. 故知 Span(x +1)

中的非 0 元素是 T 的 eigenvector 且其 eigenvalue 為 2. 事實上我們有 T (x + 1) = 2(x + 1), 對 於 [T ]_ε 的 eigenvalue 3 所得的 eigenspace 就是



−2 1 0 0 −1 2 0 0 0



 的 null space, 即 Span(



1 2 1



).

然而



1 2 1



 是 x²+ 2x + 1 在 P₂(R) 利用 ε 所得的坐標表示. 故知 Span(x²+ 2x + 1) 中的 非 0 元素是 T 的 eigenvector 且其 eigenvalue 為 3. 事實上在 Example 7.3.4 中我們算過 T (x²+ 2x + 1) = 3(x²+ 2x + 1),

因為{1,x+1,x²+ 2x + 1} 是 T 的 eigenvectors 且是 P2(R) 的一組 basis, 所以我們知 T 是 diagonalizable. 事實上若考慮 ordered basisβ = (1,x + 1,x²+ 2x + 1), 則 [T ]_β=



1 0 0 0 2 0 0 0 3



.

最後我們要強調, 在求 linear operator T : V → V 的 eigenvalue 和 eigenvector 時, 不必 擔心選取 V 的 ordered basis 為何. 這是因為 eigenvalue 和 eigenvector 的定義和 T 有關, 而和 V 的 ordered basis 無關. 所以即使選取 V 的 ordered basis 不同會造成不同的矩陣表 示, 所得的 eigenvalue 和 eigenvector 都可得到同樣 T 的 eigenvalue 和 eigenvector. 事實 上我們知道, 當 V 選取不同的 ordered basis β,β^′, 雖然 [T ]_β 和 [T ]_β′ 會不同, 但它們會是 similar, 所以它們會有同樣的 characteristic polynomial (Proposition 7.2.10), 因此有同樣的 eigenvalues. 最後要提醒的是, 在選取 V 的 ordered basis 使用表現矩陣來求 eigenvalue 和 eigenvector 時, 定義域和對應域都要使用同樣的 ordered basis, 否則這樣的表現矩陣所求得 的 eigenvalue 和 eigenvector 和 T 的 eigenvalue 和 eigenvector 的定義是不吻合的.

基於上面的探討, 我們可以定義一個 linear operator T : V→ V 的 characteristic poly- nomial PT(t). 其定義的方法就是任取一個 V 的 ordered basis β, 若 A = [T]^β_β, 則定義 P_T(t) = P_A(t). 注意這樣定義出來的 characteristic polynomial 和 β 的選取無關. 主要的原 因是若取 V 的另一組 ordered basis, 其表現矩陣會和 A 是 similar. 所以利用 Proposition 7.2.10 知, similar matrix 的 characteristic polynomial 是一樣的, 所以 P_T(t) 不會因遠取 的 ordered basis 不同而有所不同. 注意, 前面我們提過, T 的 eigenvalue 就是其表現矩 陣 A 的 characteristic polynomial 的根, 所以依此定義我們也可以說 T 的 eigenvalue 就是 T 的 characteristic polynomial 的根. 這裡唯一要注意的是 T 的 eigenvector 並不是 A 的 eigenvector. 事實上 T 的 eigenvector 並需用 ordered basisβ 寫成 Fⁿ 上的坐標表示法後, 才會是 A 的 eigenvector.

(15)

7.4. Cayley-Hamilton Theorm

在這節中我們將介紹 Cayley-Hamilton Theorem. 首先我們先介紹 linear operator 的 invariant subspace, 再利用 invariant subspace 的概念證明 linear operator 的 Cayley-Hamilton Theorem, 再因此推得矩陣的 Cayley-Hamilton Theorem.

在探討函數的理論時, 通常當定義域很大時, 我們可以透過所謂的 restriction 將函數限 制在較小的範圍來了解該函數. 給定一個函數 f : X→ Y, 以及 X 中的子集合 S, 所謂 f 的 restriction on S, 用 f|S 表示, 就是將 f 的定義域縮小到 S, 其他對於 f 的映射方式都沒有改 變. 也就是說 f|S 是一個定義域為 S 的函數 f|S: S→ Y, 且對於任意 s ∈ S, f |S(s) = f (s), 不 過若 x∈ X 但 x ̸∈ S, 則 f |S(x) 是無定義的. 現若 T : V → V 是 linear operator, W 為 V 的 subspace, 則 T|W 依然會是一個 linear transformation (只是定義域在 W 上). 不過 T|W 未 必會是一個 linear operator, 因為 T 未必會將 W 中的元素映射到 W . 如此一來, 我們就不 能將過去探討 linear operator 的理論運用在 T|W 上了. 為了達到 T|W 仍為 linear operator 的目的, 我們必須選有特殊性質的 W (即 T 會將 W 的元素映射到 W ), 這樣就能套用 linear operator 的理論了. 因此我們有以下的定義.

Definition 7.4.1. 假設 V 是一個 vector space overF 且 T : V → V 是 linear operator. 若 W 是 V 的 subspace 且滿足 T (W )⊆ W (即 T(w) ∈ W, ∀w ∈ W), 則稱 W 為一個 T-invariant subspace.

要注意當 T : V → V 是 linear operator„ Definition 7.4.1, 告訴我們 W 是 T-invariant, 表 示 T (W )⊆ W, 並不是說 T(W) = W, 也不是說 T(w) = w, ∀w ∈ W. 請大家不要誤解. 也就是 說要檢查 V 的 subspace W 是否為 T -invariant subspace, 我們僅要檢查是否所有 W 的元素 w 經由 T 的映射 (即 T (w)) 依然在 W 中. 當然了, 因 T 為 linear operator, 對任意 v∈ V, 皆有 T (v)∈ V, 故 V 本身是 T-invariant. 還有因為 T 是 linear tansformation, 我們知道 T (0) = 0, 所以 zero space{0} 也是 T-invariant. 另外若λ ∈ F 是 T 的 eigenvector, 則 λ 所 對應的 eigenspace E_T(λ) = {v ∈ V | T(v) = λv} 也會是 T-invariant subspace. 這是因為若 v∈ ET(λ), 則 T(v) = λv. 由於 ET(λ) 是 V 的 subspace 且 v ∈ ET(λ), 自然有 λv ∈ ET(λ), 亦即 T (v)∈ ET(λ). 故 ET(λ) 亦為 T-invariant. 另外我們過去熟悉的 T 的 range R(T), 也是 T -invariant, 這是因為對任意 v∈ V, 自然有 T(v) ∈ T(V) = R(T). 當然當 v ∈ R(T), 由於 T : V→ V 是 linear operator, 故 R(T) ⊆ V, 因此我們依然有 T(v) ∈ R(T). T 的 null space N(T ) 也是 T -invariant. 這是因為對任意 v∈ N(T), 由於 T(v) = 0 且 0 ∈ N(T) (別忘 了 T (0) = 0), 故 T (v)∈ N(T).

除了前面舉的幾個例子外, 還有哪些 T -invariant subspace 呢? 前面提過考慮 T -invariant subspace 就是想將 T 的定義域縮小. 所以給定 v∈ V, 我們很想知道甚麼是包含 v 最小的 T -invariant subspace. 假設 W 是包含 v 的 T -invariant subspace. 當然了, 我們有 v∈ W.

不過由 W 是 T -invariant, 我們自然要有 T (v)∈ W (因 v ∈ W). 再由 T(v) ∈ W 以及 W 是 T -invariant, 我們有 T (T (v)) = T²(v)∈ W. 如此一直下去我們知 T^m(v)∈ W, ∀m ∈ N. 由此我 們知, 若 W 是包含 v 的 T -invariant subspace, 則 W 必須包含{v,T(v),T²(v), . . . , T^m(v), . . .}

(16)

這個集合 (即 {Tⁱ(v)| i ∈ N}) 中所有的元素. 不過 W 是 subspace, 所以也必須包含所有這 些元素所 span 的 subspace, 所以我們有以下的定義.

Definition 7.4.2. 假設 T : V→ V 是 linear operator. 對任意 v ∈ V, 令 C(T, v) = Span{v,T(v),T²(v), . . . , T^m(v), . . .}.

我們稱 C(T, v) 為 the T -cyclic space generated by v.

要注意若令 S ={v,T(v),T²(v), . . . , T^m(v), . . .}, 雖然 S 中可能有無窮多個元素, 不過 依 span 的定義, C(T, v) = Span(S) 中的元素是 S 中有限多個元素的線性組合. 因此若 w∈ C(T,v) = Span(S), 表示存在 c0, c1, . . . , cm∈ F 使得 w = c0v + c₁T (v) +··· + cmT^m(v) (其 中可能有些 c_i= 0). 故得 T (w) = c₀T (v) + c₁T²(v) +··· + cmT^m+1(v)∈ Span(S) = C(T,v). 也 因此得證 c(T, v) 是 T -invariant subspace. 前面提過包含 v 的 T -invariant subspace 必包含 S, 故我們得到下面的定理.

Proposition 7.4.3. 假設 T : V → V 是 linear operator 且 v ∈ V. 則 C(T,v) 是包含 v 最小 的 T -invariant subspace.

Question 7.7. 假設 V 是 vector space over F, T : V → V 是 linear operator 且 v ∈ V.

證明對任意 w∈ C(T,v), 皆存在係數在 F 的多項式 f (x) 使得 w = f (T)(v). 依此得 C(T, v) ={ f (T)(v) | f (x) ∈ F[x]}.

當 V 是 finite dimensional vector space overF, C(T,v) 為其 subspace, 故 C(T,v) 也是 finite dimensional. 如何知道 C(T, v) 的維度呢? 當然了, 若 v = 0, 則 Tⁱ(v) = Tⁱ(0) = 0,

∀i ∈ N, 故此時 C(T,v) = {0}, 即 dim(C(T,v)) = 0. 因此我們僅考慮 v ̸= 0 的情況. 首先 我們考慮 v, T (v) 是否為 linearly independent. 若 v, T (v) 不是 independent, 由於 v̸= 0, 故知存在 c∈ F 使得 T(v) = cv. 由此知 Tⁱ(v) = cⁱv∈ Span(v), ∀i ∈ N. 因此得 C(T,v) = Span(v), 即 dim(C(T, v)) = 1. 而若 v, T (v) 為 independent, 則我們考慮 v, T (v), T²(v) 是否為 independent. 若它們不是 independent, 則由 v, T (v) 為 independent 知 T²(v)∈ Span(v,T(v)) (Lemma 3.5.4). 因此存在 c, d∈ F 使得 T²(v) = cv + dT (v). 此時

T³(v) = T (T²(v)) = cT (v) + dT²(v) = cT (v) + d(cv + dT (v)) = dcv + (c + d²)T (v).

因此得 T³(v)∈ Span(v,T(v)). 再利用數學歸納法, 我們可以證明 Tⁱ(v)∈ Span(v,T(v)),

∀i ∈ N, 因此知此時 C(T,v) = Span(v,T(v)), 即 dim(C(T,v)) = 2. 我們可以一直這樣探討下 去得到以下的定理.

Proposition 7.4.4. 假設 V 是 vector space overF, T :V →V 是 linear operator 且 v ∈V. 則 dim(C(T, v)) = m 若且唯若 m 是最大的 i 使得 v, T (v), . . . , Tⁱ⁻¹(v) 為 linear independent: 也 就是說 v, T (v), . . . , T^m⁻¹(v) 是 linear independent 但 v, T (v), . . . , T^m⁻¹(v), T^m(v) 不是 linearly independent.

事實上若 dim(C(T, v)) = m, 則 v, T (v), . . . , T^m⁻¹(v) 是 C(T, v) 的一組 basis.

(17)

Proof. 首先我們用數學歸納法證明若 T^m(v)∈ Span(v,T(v),...,T^m⁻¹(v)), 則 Tⁱ(v)∈ Span(v,T(v),...,T^m−1(v)),∀i ∈ N.

由於已知 i≤ m 成立, 我們直接歸納假設 T^k(v)∈ Span(v,T(v),...,T^m−1(v)) 成立. 現考 慮 T^k+1(v). 由於 T^k(v)∈ Span(v,T(v),...,T^m⁻¹(v)), 存在 c0, c1, . . . , cm−1∈ F 使得 T^k(v) = c₀v + c₁T (v) +··· + cm−1T^m⁻¹(v). 故

T^k+1(v) = T (T^k(v)) = c₀T (v) + c₁T²(v) +··· + cm−2T^m−1(v) + c_m₋₁T^m(v).

由於 T (v), . . . , T^m−1(v) 和 T^m(v) 皆屬於 Span(v, T (v), . . . , T^m−1(v)), 得證 T^k+1(v)∈ Span(v,T(v),...,T^m⁻¹(v)).

也因此證明了 Tⁱ(v)∈ Span(v,T(v),...,T^m⁻¹(v)),∀i ∈ N. 因而得知 C(T, v) = Span(v, T (v), . . . , T^m⁻¹(v)).

現假設 dim(C(T, v)) = m, 我們先說明 v, T (v), . . . , T^m−1(v) 是 linearly independent. 若它 們不是 independent, 表示存在 k≤ m − 1 使得 T^k(v)∈ Span(v,T(v),...,T^k⁻¹(v)), 依前面討 論, 此表示 C(T, v) = Span(v, T (v), . . . , T^k⁻¹(v)), 亦即 C(T, v) 是由 v, T (v), . . . , T^k⁻¹(v) 這 k 個 向量所展成. 然而 k≤ m − 1, 此與 dim(C(T,v)) = m 的假設相矛盾, 故知 v,T(v),...,T^m⁻¹(v) 是 linearly independent. 既然 v, T (v), . . . , T^m⁻¹(v) 是 independent 又可展成 C(T, v), 故知 它們形成 C(T, v) 的一組 basis. 然而 T^m(v)∈ C(T,v), 故知 v,T(v),...,T^m−1(v), T^m(v) 不是 linearly independent.

反之, 假設 v, T (v), . . . , T^m⁻¹(v) 是 linearly independent, 但 v, T (v), . . . , T^m⁻¹(v), T^m(v) 不 是 linearly independent. 由 Lemma 3.5.4, 我們知 T^m(v)∈ Span(v,T(v),...,T^m⁻¹(v)). 因 此再由前面討論得 C(T, v) = Span(v, T (v), . . . , T^m⁻¹(v)). 亦即 v, T (v), . . . , T^m⁻¹(v) 不只是 independent 且可展成 C(T, v). 故 v, T (v), . . . , T^m⁻¹(v) 形成 C(T, v) 的一組 basis, 得證

dim(C(T, v)) = m.

Question 7.8. 證明 dim(C(T, v)) = 1 若且唯若 v 是 T 的 eigenvector.

既然 C(T, v) 是 T -invariant, 我們知 T|C(T,v): C(T, v)→ C(T,v) 是 linear operator. 那麼 T|C(T,v)的 characteristic polynomial 會是甚麼呢? 要求 T|C(T,v)的 characteristic polynomial, 我們要先找到 T|C(T,v) 的定義域 C(T, v) 的一組 ordered basis, 在利用這組 ordered basis 得 到 T|C(T,v) 的表現矩陣, 再求該矩陣的 characteristic polynomial. 根據 Proposition 7.4.4, 若 dim(C(T, v)) = m, 我們很自然的選 (v, T (v), . . . , T^m⁻¹(v)) 這一組 C(T, v) 的 ordered basis.

接著我們來看 T|C(T,v) 用 β = (v,T(v),...,T^m−1(v)) 這一組 ordered basis 其表現矩陣 [T|C(T,v)]_β 為何? 首先 [T|C(T,v)]_β 的 1-st column 是 β 的第一個向量 (即 v) 經由 T 映射 後所得的向量 (即 T (v)) 用 ordered basis β 所得的坐標表示. 由於 T(v) 恰好是 β 的

第二個向量, 故其坐標表示為 e₂=





 0 1 ... 0





. 同理得 [T|C(T,v)]_β 的 i-th column 為 e_i+1, 其中

(18)

1≤ i ≤ m − 1. 至於 [T|C(T,v)]_β 的最後一個 column, 應該是 β 的最後一個向量 (即 T^m⁻¹(v)) 經由 T 映射後所得的向量 (即 T (T^m−1(v)) = T^m(v)) 用 ordered basisβ 所得的坐標表示. 然 而 T^m(v)∈ Span(v,T(v),...,T^m⁻¹(v)), 若假設 T^m(v) = c0v + c₁T (v) +··· + cm−1T^m⁻¹(v), 其

中 c₀, c₁, . . . , c_m₋₁∈ F, 則 [T|C(T,v)]_β 的最後一個 column 就是





 c0

c1

... cm−1





. 因此得

[T|C(T,v)]_β =







0 0 ··· 0 c0

1 0 ··· 0 c1

... ... ... ... 0 0 ··· 0 cm−2

0 0 ··· 1 cm−1





 .

如何求這樣的矩陣的 characteristic polynomial 呢? 我們首先考慮 2× 2 矩陣的情形. 若 A₂=

[0 c₀ 1 c₁ ]

, 直接計算可得 A₂ 的 characteristic polynomial 為

det(A₂−tI2) = det

[−t c₀ 1 c₁−t

]

= t²− c1t− c0.

而若 A₃=



0 0 c₀ 1 0 c₁ 0 1 c2



, 考慮矩陣 A₃−tI3=



−t 0 c₀ 1 −t c₁ 0 1 c2−t



 的 determinant, 由於我們可 以用數學歸納法處理, 所以不直接計算而是採用降階的方式處理. 對 A₃−tI3 的 1-st row 降階求 determinant 得

det(A3−tI3) = (−t)det

[−t c1

1 c2−t ]

+ c0det

[1 −t 0 1

] .

其中第一個矩陣是前面 2× 2 的情況可得其 determinant 為 t²− c2t− c1, 而第二個矩陣式上三角矩陣故其 determinant 為 1. 因此可得

det(A3−tI3) = (−t)(t²− c2t− c1) + c₁=−(t³− c2t²− c1t− c0).

利用數學歸納法我們可以得到以下之結果.

Proposition 7.4.5. 假設 V 是 vector space overF, T : V → V 是 linear operator 且 v ∈ V.

若 dim(C(T, v)) = m 且 T^m(v) = c0v + c₁T (v) +···+cm−1T^m⁻¹(v), 則 T|C(T,v)的 characteristic polynomial 為

(−1)^m(t^m− cm−1t^m⁻¹− ··· − c1t− c0).

Proof. 我們繼續剛才的討論, 利用數學歸納法求 m× m 矩陣

[T|C(T,v)]_β =







0 0 ··· 0 c0

1 0 ··· 0 c₁ ... ... ... ... 0 0 ··· 0 cm−2

0 0 ··· 1 cm−1





 .

(19)

的 characteristic polynomial. 對 1-st row 展開得

det







−t 0 ··· 0 c₀ 1 −t ··· 0 c₁ ... ... ... ... 0 0 ··· −t c_m₋₂ 0 0 ··· 1 c_m₋₁−t







=

(−t)det







−t 0 ··· 0 c₁ 1 −t ··· 0 c₂ ... ... ... ... 0 0 ··· −t c_m₋₂ 0 0 ··· 1 c_m₋₁−t







+ (−1)^m+1c0det







1 −t ··· 0 0 0 1 ··· 0 0 ... ... ... ... 0 0 ··· 1 −t 0 0 ··· 0 1





 .

注意等式右邊的矩陣都是降階後的 (m− 1) × (m − 1) matrix. 其中第一個是歸納假設成立的 (m− 1) × (m − 1) matrix, 所以其 determinant 為 (−1)^m⁻¹(t^m⁻¹− cm−1t^m⁻²− ··· − c2t− c1).

而第二個矩陣式對角線為 1 的 upper triangular matrix 故其 determinant 為 1. 因此得證其 characteristic polynomial 為 (−1)^m(t^m− cm−1t^m⁻¹− ··· − c2t²− c1t− c0).

利用 Proposition 7.4.5, 我們馬上可得以下結論.

Corollary 7.4.6. 假設 T : V → V 為 linear operator 且 v ∈ V 為非零向量. 令 g(x) 為 T|C(T,v): C(T, v)→ C(T,v) 的 characteristic polynomial. 則 g(T)(v) = 0.

Proof. 假設 dim(C(T, v)) = m 且 T^m(v) = c₀v + c₁T (v) +···+cm−1T^m⁻¹(v). Proposition 7.4.5 告訴我們 T|C(T,v)的 characteristic polynomial 為 g(x) = (−1)^m(x^m−cm−1x^m−1−···−c1x−c0).

因此

g(T )(v) = (−1)^m(T^m− cm−1T^m⁻¹− ··· − c1T− c0id_C(T,v))(v)

= (−1)^m(T^m(v)− cm−1T^m⁻¹(v)− ··· − c1T (v)− c0v) = 0.

Question 7.9. 假設 T : V→ V 為 linear operator 且 v ∈ V 為非零向量. 令 g(x) 為 T|C(T,v)

的 characteristic polynomial. 證明 g(T )|C(T,v)= 0.

Linear operator 限制在較小的 T -invariant subspace 基本上和原來的 operator 是相同 的, 因此它們的 characteristic polynomial 之間應該有關係. 接下來, 我們便是要探討它們 之間的關係. 假設 T : V → V 是 linear operator, 且 W 為 T-invariant subspace. 要討論 T 和 T|W 的 characteristic polynomial, 我們需找 W 和 V 的 ordered basis, 然後得到相對應 的表現矩陣, 再得到它們的 characteristic polynomial. 因為 W 是 V 的 subspace, 我們又 期待它們之間的 characteristic polynomial 相關. 自然的, 我們可以先找 W 的一組 ordered basisβ = (w1, . . . , w_k) 再將 β 擴大成 V 的一組 ordered basis γ = (w1, . . . , w_k, w_k+1, . . . , w_n).

現假設 A = [T|W]_β, 注意 A 的 i-th column 就是 T (w_i) 用 β 所得的坐標表示 (即 F^k 中的向 量). 現考慮 T 用 ordered basis γ 所得的矩陣表示 [T]γ. 要注意當 1≤ i ≤ k 時, [T]_γ 的 i-th column 和 A 的 i-th column 一樣是 T (w_i),不同的是它應該是 T (v_i)用γ 的坐標表示 (即 Fⁿ