Matrix Chapter3

(1)

Chapter 3

Matrix

在上一章我們僅利用矩陣來表示一個聯立方程組, 這種表示法不只有其方便性其實是有另一層的意義. 在這一章中我們將介紹有關矩陣的運算, 利用矩陣的運算我們對聯立方程組將有另一種看法. 利用這新的看法, 我們對聯立方程組的解可以有更進一步的了解.

3.1. 矩陣的運算

在本節中我們將簡單地回顧有關於矩陣的定義. 一般來說一個矩陣是由數個 (橫) 列 (row) 以及 (直) 行 (column) 的數組成. 若一矩陣由 m 個 row 和 n 個 column 的數所組 成, 我們便稱該矩陣為一個 m× n matrix. 特別的, 一個 n × n matrix (即 row 的個數等於 column 的個數), 我們稱之為 square matrix. 在本講義中, 我們用Mm×n 來表示所有 m× n 的矩陣所成的集合. 通常我們會用大寫的英文字母來表示一個矩陣. 例如若

A =



 1 0 2 3 0 1 5 8 2 1 1 0



, (3.1)

則 A 為一個 3× 4 matrix, 即 A ∈ M3×4. 當我們要抽象地描述一個矩陣時, 我們也常用 A = [a_{i j}]這樣的方法來描述. 這種表示法意指 A 中在第 i 個 row 和 j 個 column 的位置我 們用 a_{i j} 來表示, 並稱之為此矩陣的 (i, j)-th entry. 因此當我們說 A = [a_{i j}] 為 m× n 矩陣, 這表示 1≤ i ≤ m 且 1 ≤ j ≤ n. 例如對於式子 (3.1) 中的矩陣 A, 若 A = [ai j],則

a_{1 1}= 1, a_{1 2}= 0, a_{1 3}= 2, a_{1 4}= 3, a_{2 1}= 0, a_{2 2}= 1, a_{2 3}= 5, a_{2 4}= 8, a3 1= 2, a3 2= 1, a3 3= 1, a3 4= 0.

另外為了方便起見, 我們也會將矩陣 A 的每一個 row 和 column 用向量的方法來表示, 這些稱為 A 的 row vectors 和 column vectors. 在本講義我們會將矩陣 A = [a_{i j}]第 i 個 row 所成的 row vector 用 _ia 來表示, 而第 j 個 column 所成的 column vector 用 a_j 來表示. 例 如對於式子 (3.1) 中的矩陣 A, 我們有

1a =[

1 0 2 3] , ₂a[

0 1 5 8]

, ₃a =[

2 1 1 0]

47

(2)

以及

a₁=



 1 0 2



, a₂=



 0 1 1



, a₃=



 2 5 1



, a₄=



 3 8 0



.

注意由於我們也想將向量看成是一個矩陣, 這裡的 row vector 和 column vector 們都用矩陣的形式呈現.

我們想給矩陣一個運算, 既然要談運算就會牽涉相等的概念. 所以我們要先定義何謂矩陣的相等 (就如同我們曾定義Rⁿ 中向量的相等).

Deﬁnition 3.1.1. 假設 A = [a_{i j}] 為一個 m× n matrix 且 A^′= [a^′_{i j}] 為一個 m^′× n^′ matrix.

我們定義 A = A^′ 若且唯若 m = m^′, n = n^′ 且對所有的 1≤ i ≤ m 以及 1 ≤ j ≤ n 皆有 ai j= a^′_{i j}. 很容易看出矩陣的相等的定義是向量相等的延伸. 在向量中只有同在Rⁿ 的向量我們才談是否相等, 且兩個 Rⁿ 中的向量相等表示這兩個向量在每一個相同位置的數皆相等. 同樣的只有同在Mm×n 的矩陣才談是否相等, 且兩個 Mm×n 中的矩陣相等表示這兩個矩陣在每一個相同位置的數皆相等.

我們也延伸向量加法與係數積的定義來定義矩陣的加法與係數積. 也就是說只有同為 Mm×n 的矩陣我們才定義它們之間的加法, 且兩矩陣相加表示將這兩個矩陣在相同位置的數加起來. 而一個實數乘上一個矩陣即為將該矩陣每一個位置上的數乘上該實數. 具體來說我們有以下的定義.

Deﬁnition 3.1.2. 假設 A = [ai j], B = [bi j]皆為 m× n matrix. 定義 A + B = [ci j],其中對所有的 1≤ i ≤ m 以及 1 ≤ j ≤ n 皆有 ci j= a_{i j}+ b_{i j}. 對任意實數 r, 我們定義 rA = [d_{i j}] 其中對所有的 1≤ i ≤ m 以及 1 ≤ j ≤ n 皆有 di j= rai j.

Deﬁnition 3.1.2 告訴我們若

A =







a_{1 1} a_{1 2} ··· a1 n

a2 1 a2 2 ··· a2 n

... ... . .. ... a_{m 1} a_{m 2} ··· am n





, B =







b_{1 1} b_{1 2} ··· b1 n

b2 1 b2 2 ··· b2 n

... ... . .. ... b_{m 1} b_{m 2} ··· bm n







則

A + B =







a_{1 1}+ b_{1 1} a_{1 2}+ b_{1 2} ··· a1 n+ b_{1 n} a_{2 1}+ b_{2 1} a_{2 2}+ b_{2 2} ··· a2 n+ b_{2 n}

... ... . .. ... a_{m 1}+ b_{m 1} a_{m 2}+ b_{m 2} ··· am n+ b_{m n}







且

rA =







ra_{1 1} ra_{1 2} ··· ra1 n

ra_{2 1} ra_{2 2} ··· ra2 n

... ... . .. ... ra_{m 1} ra_{m 2} ··· ram n







既然矩陣的加法與係數積的定義是由向量的加法與係數積延伸而來, 我們可以預期矩陣的加法與係數積應有和向量的加法與係數積相同的性質. 事實上我們確有以下的性質, 這些性質的證明和向量的情形相同 (用到實數相對應的性質), 我們就不再重複了.

(3)

3.1. 矩陣的運算 49

Proposition 3.1.3. 對於Mm×n 上的矩陣, 我們有以下的性質:

(1) 對任意 A, B∈ Mm×n, 皆有 A + B = B + A.

(2) 對任意 A, B,C∈ Mm×n, 皆有 (A + B) +C = A + (B +C).

(3) 存在一矩陣 O∈ Mm×n 滿足對任意 A∈ Mm×n 皆有 O + A = A.

(4) 對任意 A∈ Mm×n 皆可找到 A^′∈ Mm×n 滿足 A + A^′= O.

(5) 對任意 r, s∈ R 以及 A ∈ Mm×n, 皆有 r(sA) = (rs)A.

(6) 對任意 r, s∈ R 以及 A ∈ Mm×n, 皆有 (r + s)A = rA + sA.

(7) 對任意 r∈ R 以及 A,B ∈ Mm×n 皆有 r(A + B) = rA + rB.

(8) 對任意 A∈ Mm×n, 皆有 1A = A.

接著我們定義矩陣間的乘法. 首先回顧在 Chapter 1 我們曾說明 (1, 2, 3)∈ R³ 是否屬 於 Span((1,−1,2),(2,1,−2)) 的問題, 等同於是否存在 x1, x2∈ R 滿足 (1,2,3) = x1(1,−1,2)+

x₂(2, 1,−2). 若將它們寫成 column vector 的形式, 即 x₁



 1

−1 2



 + x₂



 2 1

−2



 =



1 2 3



,

可看出此又等同於聯立方程組

x1 +2x₂ = 1

−x1 +1x2 = 2 2x1 −2x2 = 3 是否有解的問題. 而這樣的聯立方程組, 我們又把它寫成



 1 2

−1 1 2 −2



[ x1

x₂ ]

=



1 2 3



.

所以若我們定義矩陣



 1 2

−1 1 2 −2



 和[ x1

x₂ ]

的乘法為



 1 2

−1 1 2 −2



[ x₁ x₂ ]

= x₁



 1

−1 2



 + x₂



 2 1

−2





那麼聯立方程組與矩陣的關係就不只是為了列式方便而已, 聯立方程組和矩陣的運算產生了緊密的關係.

從這個角度出發, 我們有以下定義.

Deﬁnition 3.1.4. 設 A = [ai j] 為 m× n matrix 以及 b = [bj] 為 n× 1 matrix (即 Rⁿ 中的 column vector). 若 a_i 表示 A 的 i-th column 則定義

Ab =







a_{1 1} a_{1 2} ··· a1 n

a_{2 1} a_{2 2} ··· a2 n

... ... . .. ... a_{m 1} a_{m 2} ··· am n











 b₁ b₂ ... b_n





= b1a₁+ b2a₂+··· + bna_n.

(4)

注意依此定義, 必需 A∈ Mm×n 的 column 的個數 n 等於 b∈ Mn×1 的 row 的個數 n, 才能定義 Ab 且此時 Ab 會是 m× 1 matrix (即 R^m 中的 column vector). 觀察此 column vector, 我們有

Ab = b1





 a11

a₂₁ ... a_m1





+ b₂





 a12

a₂₂ ... a_m2





+··· + bn





 a1n

a_2n ... a_mn





=







b1a11+ b2a12+··· + bna1n

b₁a₂₁+ b₂a₂₂+··· + bna_2n ...

b₁a_m1+ b₂a_m2+··· + bna_mn





. (3.2)

特別的, 當 a =[

a₁ a₂ ··· an

]為 1×n matrix 而 b =





 b1

b₂ ... bn





為 n×1 matrix, 依 Deﬁnition

3.1.4 的矩陣乘法定義

a b =[

a₁ a₂ ··· an

]





 b1

b2

... bn





= b₁a₁+ b₂a₂+··· + bna_n. (3.3)

也就是說此時若將 a, b 看成 Rⁿ 中的 vector, 則 ab 就是 a, b 的內積. 依此看法, 由式子 (3.2), 我們可將 Ab 寫成

Ab =







1a b

2a b ...

ma b





. (3.4)

也就是說 Ab 這一個 m×1 matrix 的 i-th entry 為ia b 也就是 A 的 i-th row_ia 和 b 的內積.

Remark 3.1.5. 注意式子 (3.3) 是說當 a, b 為Rⁿ 上的向量, 若將 a 寫成 row vector 的形 式, b 寫成 column vector 的形式, 那麼我們可以將 a, b 看成矩陣, 即 a∈ M1×n, b∈ Mn×1. 此時由矩陣相乘的定義 a b 就是一個 1× 1 的矩陣 (即實數) 且其值就是 a,b 視為 Rⁿ 上的向量後取內積. 也就是說, 當看成向量的內積時, 我們不管兩向量是寫成 column vector 或 row vector. 但若看成矩陣的乘法時, 我們就必需說清楚哪一個是 column vector 哪一個是 row vector 了. 絕不能說由於向量內積是可交換的, 便認為 b∈ Mn×1, a∈ M1×n 看成矩陣相乘所得的 b a 也會等於 a 和 b 看成Rⁿ 上的向量後取內積. 下面我們定義更一般矩陣的乘法 時, 便會知道看成矩陣的乘法時 a b 和 b a 是不同的 (b a 會是一個 n× n matrix).

現在我們將矩陣乘法推廣到更一般的情況, 當 A = [a_{i j}] 是一個 m× n matrix, B = [bj k] 是一個 n× l matrix. 由於對 B 的每一個 column vector bk∈ Mn×1, 1≤ k ≤ l, 我們已定義了 Ab_k 為何, 現在我們定義 AB 為 m× l matrix, 其中 AB 的 k-th column vector 為 Abk. 我們大致上有以下的圖示.

A



 b₁ b₂ ··· bl



 =



 Ab1 Ab2 ··· Abl





由於 Ab_k 為 m× 1 matrix, 依此定義確實 AB 為 m × l matrix. 現在我們來看正式的定義.

(5)

3.1. 矩陣的運算 51

Deﬁnition 3.1.6. 設 A = [a_{i j}] 為 m× n matrix 以及 B = [bjk] 為 n× l matrix, 則定義 AB = C = [cik]為 m× l matrix, 其中對於 1 ≤ k ≤ l, C 的 k-th column ck 為

c_k= Ab_k=







a1 1 a1 2 ··· a1 n

a2 1 a2 2 ··· a2 n

... ... . .. ... am 1 am 2 ··· am n











 b1 k

b_{2 k} ... bn k





= b_{1 k}a₁+ b_{2 k}a₂+··· + bn ka_n. (3.5)

由此定義, 我們知對於 1≤ i ≤ m, 1 ≤ k ≤ l, AB 的 (i,k)-th entry 應為其 k-th column (即 Ab_k) 從上往下算的第 i 個 entry. 由式子 (3.4) 我們知此即 A 的 i-th row _ia 和 B 的 k-th column bk 看成Rⁿ 上的向量後取內積. 換言之, 若 AB = [c_{i k}], 則 AB 的 (i, k)-th entry c_{i k} 為

c_{i k}=ia b_k= ai 1b_{1 k}+ ai 2b_{2 k}+··· + ai nb_{n k}=

∑

n j=1

ai jb_{j k}. (3.6) 再次強調一次, 並不是任取兩個矩陣都可以定義乘法, 必須是左邊矩陣的 column 個數和右邊矩陣的 row 個數相同才能相乘.

Example 3.1.7. 令

A =



−2 4 3 6 2 2



,B =[

4 −1 2 5 3 0 1 1 ]

考慮矩陣乘法 AB. 依定義矩陣 AB 的 3-rd column 為 Ab3=



−2 4 3 6 2 2



[ 2 1 ]

= 2a1+ 1a2= 2



−2 3 2



 + 1



4 6 2



 =



0 12

6



.

所以 AB 的 (2, 3) entry 為 12 等於 A 的 2-nd row 和 B 的 3-rd column 看成R² 中的向量所 得的內積, 即 (3, 6)· (2,1) = 12. 事實上我們有

AB =



−2 4 3 6 2 2



[

4 −1 2 5 3 0 1 1 ]

=



4 2 0 −6 30 −3 12 21 14 −2 6 12



.

Question 3.1. 設 a, b 為 Rⁿ 上的向量, 若將 a 寫成 row vector 的形式, b 寫成 column vector 的形式, 且將 a, b 看成矩陣, 即 a∈ M1×n, b∈ Mn×1. 試問依矩陣乘法定義 ba 應為 何種矩陣? 它和 a, b 看成 Rⁿ 上的向量後取內積有關嗎?

大部分的書都會用式子 (3.6) 當成矩陣乘法的定義. 我們選用式子 (3.5) 的用意, 主要是它較能描繪當初矩陣乘法定義的用意. 另外它是由 column 來描繪矩陣的乘法, 在證明或推導有關矩陣乘法性質時, 有時比式子 (3.6) 利用 entry 來看方便多了. 例如我們有以下的性質.

Proposition 3.1.8. 假設 A, A^′∈ Mm×n, B, B^′∈ Mn×l. 我們有以下的性質.

(1) A(B + B^′) = AB + AB^′. (2) (A + A^′)B = AB + A^′B.

(6)

Proof. 首先注意因 A + A^′ 仍為 m× n 矩陣且 B + B^′ 為 n× l 矩陣, 所以這些矩陣的階數 是符合矩陣乘法的規定. 我們假設 A = [a_{i j}], A^′= [a^′_{i j}], B = [b_{j k}], B = [b^′_{j k}], 其中 1≤ i ≤ m, 1≤ j ≤ n 以及 1 ≤ k ≤ l.

(1) 我們證明當 1≤ k ≤ l 時, A(B + B^′) 的 k-th column 會等於 AB + AB^′ 的 k-th column.

依定義 A(B + B^′) 的 k-th column 為 A 的右邊乘上 B + B^′ 的 k-th column. 然而由矩陣加法 定義, B + B^′ 的 k-th column 為 b_k+ b^′_k, 即 B 的 k-th column 加上 B^′ 的 k-th column. 因此 我們有 A(B + B^′) 的 k-th column 為

A(bk+ b^′_k) = A







b_1k+ b^′_1k b_2k+ b^′_2k

... b_nk+ b^′_nk





= (b1k+ b^′_1k)a1+ (b2k+ b^′_2k)a2+··· + (bnk+ b^′_nk)an. (3.7)

另一方面, AB + AB^′ 的 k-th column 為 AB 的 k-th column 加上 AB^′ 的 k-th column, 因此 AB + AB^′ 的 k-th column 為

A





 b1k

b2k

... bnk





+ A





 b^′_1k b^′_2k ... b^′_nk





= (b_1ka₁+ b_2ka₂+··· + bnka_n) + (b^′_1ka₁+ b^′_2ka₂+··· + b^′nka_n). (3.8)

由 Proposition 1.2.3 向量加法相關性質, 我們得證式子 (3.7) 和式子 (3.8) 相等.

(2) 我們證明當 1≤ k ≤ l 時, (A + A^′)B 的 k-th column 會等於 AB + A^′B 的 k-th column.

依定義 (A + A^′)B 的 k-th column 為 A + A^′ 的右邊乘上 B 的 k-th column. 然而由矩陣加法 定義, 當 1≤ j ≤ n 時, A+A^′ 的 j-th column 為 a_j+ a^′_j, 即 A 的 j-th column 加上 A^′ 的 j-th column. 因此我們有 (A + A^′)B 的 k-th column 為

(A + A^′)bk= (A + A^′)





 b_1k b_2k ... b_nk





= b1k(a1+ a^′₁) + b2k(a2+ a^′₂) +··· + bnk(an+ a^′_n). (3.9)

另一方面, AB + A^′B 的 k-th column 為 AB 的 k-th column 加上 A^′B 的 k-th column, 因此 AB + A^′B 的 k-th column 為

A





 b_1k b2k

... b_nk





+ A^′





 b_1k b2k

... b_nk





= (b_1ka₁+ b_2ka₂+··· + bnka_n) + (b_1ka^′₁+ b_2ka^′₂+··· + bnka^′_n). (3.10)

再次由 Proposition 1.2.3 向量加法相關性質, 我們得證式子 (3.9) 和式子 (3.10) 相等. 矩陣乘法和 scalar multiplication (係數積) 也有以下關係

Proposition 3.1.9. 設 r∈ R, A ∈ Mm×n, B∈ Mn×l. 則 r(AB) = (rA)B = A(rB).

(7)

3.1. 矩陣的運算 53

Proof. 假設 A = [a_{i j}], B = [b_{j k}], 其中 1≤ i ≤ m, 1 ≤ j ≤ n 以及 1 ≤ k ≤ l. r(AB) 的 k-th column 為 r 乘上 AB 的 k-th column, 故為

r(b_{1 k}a₁+ b_{2 k}a₂+··· + bn ka_n). (3.11) 而當 1≤ j ≤ n 時, (rA) 的 j-th column 為 raj. 故 (rA)B 的 k-th column 為

b1 k(ra₁) + b_{2 k}(ra₂) +··· + bn k(ra_n). (3.12) 最後由於 rB 的 k-th column 為 



 rb1k

rb_2k ... rbnk





,

故 A(rB) 的 k-th column 為

(rb_{1 k})a₁+ (rb_{2 k})a₂+··· + (rbn k)a_n. (3.13) 再次由 Proposition 1.2.3 向量相關性質, 我們得證 (3.11), (3.12), (3.13) 三個式子皆相

等.

由 Proposition 3.1.8 和 Proposition 3.1.9 的證明我們可以看出, 有些矩陣乘法性質的推導可以簡化成右邊的矩陣是一個 column 的情形處理. 其實利用 row 來看矩陣的乘法也很很有用, 不過這個留待下一節介紹矩陣的 transpose (轉置) 後會更清楚.

利用矩陣乘法定義, 也可推得乘法具有結合律的性質 (即 (AB)C = A(BC)). 這裡要注意 A, B, C 的階數必須要有限制 (AB)C 和 A(BC) 才會有意義.

Proposition 3.1.10. 假設 A∈ Mm×n, B∈ Mn×l,C∈ Ml×k, 則 (AB)C = A(BC).

Proof. 依定義 AB∈ Mm×l, 故 (AB)C∈ Mm×k. 而 BC∈ Mn×k, 故 A(BC)∈ Mm×k 與 (AB)C 同階.

對於 1≤ j ≤ k, 我們要證明 (AB)C 和 A(BC) 的 j-th column 相等. 令 cj 為 C 的 j-th column 依定義 (AB)C 的 j-th column 為 (AB)cj. 至於 A(BC) 的 j-th column, 依定義為 A 右邊乘上 (BC) 的 j-th column (即 Bc_j). 所以我們僅要說明 (AB)c_j= A(Bc_j), 就可證得結合律.

由於 c_j 只有一個 column, 為了方便考量, 我們將 c_j 用單一足碼表達, 即令 c_j=



 c1

... c_l



.

現對任意 i = 1, . . . , l, 令 AB 的 i−th column 為 pi, 則

(AB)c_j=



 p₁ ··· pl







 c₁

... c_l



 = c¹p₁+··· + clp_l.

然而若 b_i 為 B 的 i-th column, 依定義 p_i 為 AB 的 i-th column 故得 p_i= Abi. 因此我們得 (AB)c_j= c₁(Ab₁) +··· + cl(Ab_l). (3.14)

(8)

另一方面

A(Bcj) = A(



 b₁ ··· bl







 c₁

... c_l



) = A(c¹b₁+··· + clb_l).

注意這裡我們將 b_i 視為 n× 1 matrix, 故套用 Proposition 3.1.8 和 Proposition 3.1.9 可得 A(c₁b₁+···+clb_l) = A(c₁b₁) +···+A(clb_l) = c₁(Ab₁) +···+cl(Ab_l). 所以結合式子 (3.14) 得

證 (AB)c_j= A(Bcj).

有了矩陣乘法的結合律 (Proposition 3.1.10), 以後我們談多個矩陣相乘時, 為了方便起 見, 我們會捨去括號例如直接用 ABC 表示. 特別的, 當 A 為方陣時, 既然 (AA)A = A(AA), 我 們就用 A³ 來表示. 同理, 當 n 個 A 相乘時, 我們就用 Aⁿ 來表示.

最後我們要強調的是矩陣乘法雖具有許多和實數乘法類似的性質, 但它卻沒有交換律.

事實上有可能 A 乘以 B 有定義, 但 B 卻不能乘以 A, 例如 A∈ M2×3, B∈ M3×4 的情形. 也 有可能即使 A 乘以 B 和 B 乘以 A 都有定義, 但由於乘了以後階數不同, 仍會使得 AB̸= BA, 例如 A∈ M2×3, B∈ M3×2 的情形. 僅有在 A, B 為同階方陣時, 才有可能使得 AB 和 BA 的階 數相同. 但此時仍有可能 AB̸= BA, 例如

A = [a b

c d ]

, B = [1 0

0 −1 ]

, AB =

[a −b c −d ]

, BA =

[ a b

−c −d ]

,

這種情形只有在 b = c = 0 時, 才會使得 AB = BA. 所以在處理矩陣乘法時要特別小心. 例 如當 A, B 為同階方陣時由 Proposition 3.1.8 和 Proposition 3.1.9 可推得 (A− B)(A + B) = A²− AB + BA − B², 但由於可能 AB̸= BA, 我們不見得會有 (A − B)(A + B) = A²− B².

當然了, 仍然有許多方陣會和所有的同階方陣相乘是可交換的. 一個常見的就是 zero matrix (零矩陣) O (即 O = [a_{i, j}] 滿足每一個 entry a_{i, j}= 0). 很容易驗證若 O 是一個 n× n square matrix, 則對任意 A∈ Mn×n, 皆有 OA = AO = O. 另一個常見的便是所謂的 identity matrix. 通常 n× n 階的 identity matrix, 我們會用 In 來表示. I_n 的 i-th column 為 e_i, 其中 e₁, e₂, . . . , e_n 就是我門曾提過Rⁿ 的 standard basis (寫成 column vector). 例如

I₃=



1 0 0 0 1 0 0 0 1



,I₄=







1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1





.

利用矩陣乘法的定義, 很容易知道對任意 A∈ Mm×n, B∈ Mn×l 我們皆有 AI_n= A, InB = B. 特 別的, 當 A 為 n× n matrix, 我們有 AIn= I_nA = A.

Question 3.2. 假設 A∈ Mn×n, 是否 (A− 2In)²= A²− 4A + 4In 為對?

Question 3.3. 試證明 I_n 是唯一的 n× n 滿足對任意 A ∈ Mm×n 皆滿足 AI_n= A.

一個 n× n 的 square matrix 其 (i,i)-th entry 稱為 diagonal entry. 若除了 diagonal entries 以外, 其他的 entry 皆為 0, 我們便稱之為 diagonal matrix. Identity matrix 就是一 個 diagonal matrix. 因為它的 diagonal entry 皆為 1, 其他的 entry 皆為 0. 另外, 對於任意

(9)

3.2. Transpose Operation 55

r∈ R, rIn 亦為 diagonal matrix. 因為它 diagonal entry 皆為 r, 其他 entry 皆為 0. 對於任 意 A∈ Mm×n, B∈ Mn×l 我們很容易驗證 rA = A(rI_n), rB = (rI_n)B.

Question 3.4. 試利用 Proposition 3.1.9 驗證對任意 n× n square matrix A, 皆有 (rIn)A = A(rIn).

要注意, 並不是所有 n× n 的 diagonal matrix 都會和 n × n 的 square matrix 相乘可交 換. 前面曾給過例子

[1 0 0 −1

]

就不能和所有的 2× 2 相乘可交換.

3.2. Transpose Operation

這一節中我們將介紹矩陣取 transpose (即轉置矩陣) 的概念, 即其相關性質. 最後利用它來探討如何從 row 的角度來看矩陣相乘.

Deﬁnition 3.2.1. 對任意 m× n matrix A = [ai j]. 我們定義 A 的 transpose 為一個 n× m matrix, 記為 A^T, 滿足對任意 1≤ i ≤ n, 1 ≤ j ≤ m, A^T的 (i, j)-th entry 為 A 的 ( j, i)-th entry.

首先我們看看此定義是否為 well-deﬁned, 也就是說給定一個 m× n matrix A, 我們是否 真的可以得到一個 n× m matrix A^T. 依定義對任意 1≤ i ≤ n, 1 ≤ j ≤ m, 在 A^T 的 i-th row 和 j-th column 位置的數應為 A 的 j-th row 和 i-th column 位置的數. 因為 A 的 row 和 column 的個數分別為 m 和 n, 而 j, i 又分別滿足 1≤ j ≤ m, 1 ≤ i ≤ n, 所以我們真的可以在 A 中找到此 entry 放到 A^T 的 i-th row 和 j-th column 的位置. 可知此定義是沒問題的. 我 們看以下的例子.

Example 3.2.2. 令

A =

[ 1 2 3

−1 −2 −3 ]

, 依定義 A^T 應為 3× 2 matrix. 設其為

A^T=



x_{1 1} x_{1 2} x_{2 1} x_{2 2} x_{3 1} x_{3 2}



.

依定義 A^T 的 (1, 1)-th entry x1 1 應為 A 的 (1, 1)-th entry, 即 1. A^T的 (2, 1)-th entry x2 1 應 為 A 的 (1, 2)-th entry, 即 2, 再來 A^T 的 (3, 1)-th entry x3 1 應為 A 的 (1, 3)-th entry, 即 3.

同理可得 x_{1 2}=−1, x2 2=−2, x3 2=−3, 故知 A^T=



1 −1 2 −2 3 −3



.

可看出 A^T 的 1-st column 就是將 A 的 1-st row 寫成 column 而得, 且 A^T 的 2-nd column 就是將 A 的 2-nd row 寫成 column 而得. 而 A^T的 1-st, 2-nd 和 3-rd row 就是將 A 的 1-st, 2-nd 和 3-rd column 寫成 row 而得.

由於我們希望整體的看一個矩陣的 row 和 column, 所以我們需要探討 A 和 A^T 它們的 row 與 column 之間的關係.

(10)

Lemma 3.2.3. 假設 A 為 m× n matrix. 對於 1 ≤ i ≤ n, A^T 的 i-th row 就是將 A 的 i-th column 寫成 row vector. 對於 1≤ j ≤ m, A^T 的 j-th column 就是將 A 的 j-th row 寫成 column vector.

Proof. 依定義 A^T為 n×m matrix. 設 A = [ak l], A^T= [a^′_{i j}]. 對於 1≤ i ≤ n, A^T的 i-th row 為 [a^′_{i 1} a^′_{i 2} ··· a^′_{i m}]

.

依定義 a^′_{i 1}= a_{1 i}, a^′_{i 2}= a_{2 i}, . . . , a^′_{i m}= a_{m i}, 所以 A^T 的 i-th row 為 [a1 i a2 i ··· am i

],

就是 A 的 i-th column 



 a1 i

a2 i

... am i







寫成 row vector 的形式. 同理可得, 對於 1≤ j ≤ m, A^T 的 j-th column 就是將 A 的 j-th

row 寫成 column vector.

現在我們來看矩陣取 transpose 的基本性質.

Proposition 3.2.4. 假設 A, B 為 m× n matrix, C 為 n × l matrix. 我們有以下之性質.

(1) (A^T)^T= A.

(2) (A + B)^T= A^T+ B^T. (3) (AC)^T= C^TA^T.

Proof. 首先觀察 A^T 為 n× m matrix, 故 (A^T)^T 為 m× n matrix, 與 A 階數相同. 同樣的, A^T+ B^T 為 n× m matrix 與 (A + B)^T 的階數相同. 另一方面 C^T 為 l× n matrix, 故 C^TA^T 為 l× m matrix. 而 AC 為 m × l matrix, 所以 (AC)^T 為 l× m matrix 與 C^TA^T 階數相同.

(1) 因 (A^T)^T 與 A 皆為 m×n matrix, 對於 1 ≤ i ≤ n, 我們只要檢查 (A^T)^T的 i-th column 就是 A 的 i-th column. 然而 (A^T)^T 的 i-th column 依 Lemma 3.2.3 知就是 A^T 的 i-th row 寫成 column vector, 而 A^T的 i-th row 就是 A 的 i-th column. 故得證 (A^T)^T= A.

(2) 因 A^T+ B^T 與 (A + B)^T 皆為 n× m matrix, 對於 1 ≤ i ≤ m, 我們只要檢查 A^T+ B^T的 i-th column 就是 (A + B)^T 的 i-th column. 依定義 A^T+ B^T的 i-th column 就是 A^T 和 B^T的 i-th column 之和. 依 Lemma 3.2.3 知它就是 A 和 B 的 i-th row 之和. 另一方面, (A + B)^T的 i-th column 就是 A + B 的 i-th row, 也就是 A 和 B 的 i-th row 之和. 得證 (A + B)^T= A^T+ B^T. (3) 由於 (AC)^T的 column 是由 AC 的 row 所決定, 而我們尚未討論 A 和 C 相乘 row 之間的關係, 所以這裡我們利用 entry 相同來證明相等. 對於 1≤ i ≤ l, 1 ≤ j ≤ m, (AC)^T 的 (i, j)-th entry 為 AC 的 ( j, i)-th entry, 即 A 的 j-th row 和 C 的 i-th column (看成Rⁿ 的向 量) 的內積. 另一方面, C^TA^T 的 (i, j)-th entry 為 C^T 的 i-th row 和 A^T 的 j-th column 的內 積. 這也是 C 的 i-th column 和 A 的 j-th row 的內積, 故得證 (AC)^T= C^TA^T.

(11)

3.2. Transpose Operation 57

Question 3.5. 假設 A 為 m× n matrix, r ∈ R. 試證明 (rA)^T= rA^T.

一個 n× n square matrix, 若滿足 A^T= A, 我們稱 A 為 symmetric matrix. 上一節介紹過的 diagonal matrix 就是 symmetric matrix. 以後我們會學到 symmetric matrix 的重要性質, 現在我們先看和 symmetric matrix 有關的幾個簡單情形.

Corollary 3.2.5. 假設 A 為 n× n square matrix, B 為 m × n matrix. 以下皆為 symmetric matrix.

A + A^T, BB^T, B^TB.

Proof. 由 Proposition 3.2.4, 我們有 (A + A^T)^T= A^T+ (A^T)^T= A^T+ A, 故知 A + A^T 為 sym- metric matrix. 另一方面, (BB^T)^T= (B^T)^TB^T= BB^T, 故得 BB^T 為 symmetric matrix. 同理可

得 B^TB 亦為 symmetric matrix.

利用 Proposition 3.2.4, 我們可以從 row 的角度處理矩陣的乘法. 首先我們看一個 1× m matrix 乘上一個 m× n matrix 的情形. 假設 A ∈ M1×m, B∈ Mm×n, 令

A =[

a1 a2 ··· am

], B =







b1 1 b1 2 ··· b1 n

b_{2 1} b_{2 2} ··· b2 n

... ... ··· ... b_{m 1} b_{m 2} ··· bm n





.

則由 (AB)^T= B^TA^T, 以及矩陣右邊乘 column vector 的定義得

(AB)^T=







b_{1 1} b_{2 1} ··· bm 1

b1 2 b2 2 ··· bm 2

... ... ··· ... b1 n b2 n ··· bm n











 a₁ a2

... am





= a₁





 b_{1 1} b1 2

... b1 n





+ a₂





 b_{2 1} b2 2

... b2 n





+··· + am





 b_{m 1} bm 2

... bm n





.

亦即 (AB)^T= a₁(₁b)^T+ a₂(₂b)^T+··· + am(_mb)^T, 這裡 (_ib)^T 指的是將 B 的 i-th row 取轉置 (寫成 column 的形式). 故利用 Proposition 3.2.4 將 (AB)^T 再取轉置還原得

AB = a1(1b) + a₂(2b) +··· + am(mb).

也就是說

[a1 ··· am

]





b1 1 ··· b1 n

... ··· ... b_{m 1} ··· bm n



 = a1

[b1 1 ··· b1 n

]+··· + am

[bm 1 ··· bm n

] (3.15)

現在我們來看一般的情形, 設 A = [a_{i j}] 為 m× n matrix 以及 B = [bjk]為 n× l matrix.

考慮 (AB)^T= B^TA^T. 依定義 B^TA^T 的 i-th column, 為 B^T 右邊乘上 A^T 的 i-th column. 然而 A^T 的 i-th column, 為 A 的 i-th row 取轉置, 即 (_ia)^T. 也就是說 (AB)^T 的 i-th column 為 B^T(ia)^T. 利用 Proposition 3.2.4 再取轉置還原得, AB 的 i-th row 為

(B^T(ia)^T)^T= ((ia)^T)^T(B^T)^T=iaB.

換言之, 我們有以下的圖示

(12)







— ₁a —

— ₂a — ...

— _ma —





B =







— ₁a B —

— ₂a B — ...

— _ma B —





. (3.16)

結合式子 (3.15), 我們有以下之結果.

Proposition 3.2.6. 設 A = [ai j] 為 m× n matrix 以及 B = [bjk] 為 n× l matrix, 則對於 1≤ i ≤ m, AB 的 i-th row 為

ia B =[

ai 1 ··· ai n

]





b_{1 1} ··· b1 l

... ··· ... b_{n 1} ··· bn l



 = a^{i 1}[

b1 1 ··· b1 l

]+··· + ai n

[bn 1 ··· bn l

].

3.3. Elementary Matrix

我們知道矩陣 A 左邊乘上另一矩陣 E, 可以視為 E 的 row 對矩陣 A 的作用. 事實上, 若 將 A 做一個 elementary row operation, 會是將 A 的左邊乘上一個矩陣. 這樣的矩陣我們稱 之為 elementary matrix.

設 A = [a_{i j}]為 m× n matrix. 首先觀察 identity matrix Im 對 A 的作用. 由於 I_m 的 i-th

row 為 [

0 ··· 1 ··· 0] ˆi

即 i-th entry 為 1, 其他 entry 皆為 0. 所以依 Proposition 3.2.6, ImA 的 i-th row 為 [ 0 ··· 1 ··· 0 ]

A = 01a +··· + 1ia +··· + 0ma =_ia,

(就是將 1 乘上 A 的 i-th row, 而將 0 乘上 A 的其他 row 再加起來, 故為 A 的 i-th row.) 換 言之, 將 I_m 乘在 A 的左邊, 會將 A 的每一個 row 都固定不變, 所以知 I_mA = A. 現若 j̸= i 且 E 為將 I_m 的 i-th row 改為 j-th entry 為 1 其他 entry 為 0, 而 i-th row 以外的其他 row 不變. 從上面的看法知 EA 的 i-th row 會是 A 的 j-th row, 也就是說 EA 會是將 A 的 i-th row 換成 A 的 j-th row, 而其他的 row 不動的矩陣.

現若用 i-th row 和 j-th row 交換的 elementary row operation 將 I_m 轉換成矩陣 E, 即

E =





 1

. ..

0 1

. ..

1 0

. ..

1







(3.17)

則利用前述的說法, EA 的 i-th row 是 A 的 j-th row, 而 EA 的 j-th row 是 A 的 i-th row, 而 其他的 row 都不變. 換言之, EA 就是將 A 利用 i-th row 和 j-th row 交換這樣的 elementary row operation 變換所得的矩陣.

(13)

3.3. Elementary Matrix 59

同樣的若將 I_m 的 i-th row 乘上實數 r 加到 I_m 的 j-th row 所得的矩陣為 E, 即

E =





 1

. ..

1 . ..

r 1

. ..

1







(3.18)

則因 E 的 j-th row 的 i-th entry 為 r, j-th entry 為 1. 故由 Proposition 3.2.6, EA 的 j-th row 就是將 r 乘上 A 的 i-th row 後再加上 A 的 j-th row, 而其他的 row 都不變. 換言之, EA 就是將 A 的 i-th row 乘上實數 r 加到 A 的 j-th row 這樣的 elementary row operation 變換所得的矩陣.

最後若將 I_m的 i-th row 乘上非零實數 r 所得的矩陣為 E, 即

E =





 1

. ..

1 r

1 . ..

1







(3.19)

則很容易看出 EA 的 i-th row 就是將 A 的 i-th row 乘上 r, 而其餘的 row 不變. 也就是說, EA 就是將 A 的 i-th row 乘上非零實數 r 這樣的 elementary row operation 變換所得的矩 陣.

從上面的說明我們知道, 對一個 m× n matrix 做一個 elementary row operation, 事實上 就是將此矩陣左邊乘上一個 m×m matrix. 這個 m×m matrix 就是將 m×m identity matrix I_m 做同樣的 elementary row operation 所得的矩陣. 這樣的矩陣我們稱之為 elementary matrix. (3.17), (3.18), (3.19) 就是 elementary matrix 的三種形式.

當我們對一個 m× n matrix A, 進行多次的 elementary row operations, 就是將 A 左邊 逐次的乘上相對應的 elementary matrix. 比方說做兩次 elementary row operations, 就是 將 A 的左邊乘上第一次 elementary row operation 所對應的 elementary matrix E₁. 做第二 次時就是將 E₁A 左邊再乘上第二次 elementary row operation 所對應的 elementary matrix E₂. 故所得的矩陣 E₂(E₁A) 就是將 A 做這兩次 elementary row operations 所得的矩陣. 又 由於矩陣乘法的結合律, 我們又可以將 E₂(E₁A) 寫成 (E₂E₁)A. 同理, 對一個矩陣 A 進行 一連串的 elementary row operations, 就是將 A 左邊乘上一個矩陣, 而這個矩陣就是這一 連串 elementary row operations 所對應的 elementary matrices 的乘積. 不過要注意, 這些 elementary matrices 乘在一起的順序很重要, 因為 elementary matrices 之間的乘法不一定可以交換.

Question 3.6. 試找出那些同階的 elementary matrices 其相乘是不可以交換的.

(14)

有時我們需知道一個矩陣經由一連串的 elementary row operations, 其左邊到底是乘上哪一個矩陣. 當然我們可以如前述將所對應的 elementary matrices 乘在一起即可, 但這樣做其實很麻煩費時. 接下來我們來看一個很 “clever” 的方法, 可以在做 elementary row operation 時便幫我們將這個矩陣記錄下來. 這個方法就是, 若要對一個 m× n matrix A 做 elementary row operations, 我們先寫下一個 augmented matrix [A|Im]. 也就是一個 m× (n + m) 的增廣矩陣, 其左邊 n 個 columns (即前 n 個 columns) 為矩陣 A, 而右邊 m 個 columns (即後 m 個 column) 為 Im. 現將 A 做第一次的 elementary row operation, 假設其 對應的 elementary matrix 為 E₁, 則對 [A|Im] 做相同的 elementary row operation 的話, 所 得的結果為 E₁[A|Im]. 然而依矩陣乘法的定義我們知

E₁[A|Im] = [E₁A|E1I_m] = [E₁A|E1].

也就是說, 當我們對 [A|Im] 做同樣的 elementary row operation, 所得的增廣矩陣其左 邊就是將 A 做此 elementary row operation 所得的矩陣, 而右邊就是此 elementary row operation 所對應的 elementary matrix. 接著當我們做下一個 elementary row operation, 假 設此 elementary row operation 所對應的 elementary matrix 為 E₂, 則此 elementary row operation 對 [E1A|E1] 作用後所得的矩陣便是 E₂[E₁A|E1] = [E₂(E₁A)|E2E1]. 這樣繼續下去, 當我們對增廣矩陣 [A|Im]進行一連串的 elementary row operations 後, 所得的矩陣 [A^′|E], 其左邊 A^′ 就是 A 經由這一連串的 elementary row operations 作用後所得的矩陣, 而右邊的 E 就是這些 elementary row operations 所對應的 elementary matrices 依序從右到左相乘所 得的結果, 因此 EA = A^′. 我們有以下的結論.

Lemma 3.3.1. 假設 A 為 m× n matrix. 若將 A 經由一連串的 elementary row operations 轉換成 A^′, 則存在一個 m× m matrix E 使得 EA = A^′, 其中 E 為這一連串 elementary row operations 所對應的 elementary matrix 由右而左依序相乘的乘積. 事實上若將 augmented matrix [A|Im] 經由同樣的 elementary row operations 作用後, 所得的 augmented matrix 就 是 [A^′|E].

Example 3.3.2. 將矩陣

A =



 2 −4 4 −6 1 −2 1 −1 4 −8 4 −4





化為 reduced echelon form, 並找到 elementary matrices 的乘積 E 使得 EA 為此 reduced echelon form.

首先寫下 augmented matrix [A|I3] =



 2 −4 4 −6 1 0 0 1 −2 1 −1 0 1 0 4 −8 4 −4 0 0 1





並將此 augmented matrix 的 1-st 和 2-nd row 交換, 得



 1 −2 1 −1 0 1 0 2 −4 4 −6 1 0 0 4 −8 4 −4 0 0 1





(15)

3.3. Elementary Matrix 61

接著我們將 augmented matrix 的 1-st row 乘上−2 加到 2-nd row 上, 得



 1 −2 1 −1 0 1 0 0 0 2 −4 1 −2 0 4 −8 4 −4 0 0 1



.

然後將 augmented matrix 的 1-st row 乘上−4 加到 3-rd row 得



 1 −2 1 −1 0 1 0 0 0 2 −4 1 −2 0 0 0 0 0 0 −4 1



.

繼續將 augmented matrix 的 2-nd row 乘上 1/2 得



 1 −2 1 −1 0 1 0 0 0 1 −2 ¹₂ −1 0 0 0 0 0 0 −4 1



.

最後將 augmented matrix 的 2-nd row 乘上−1 加到 1-st row 得



 1 −2 0 1 −¹₂ 2 0 0 0 1 −2 ¹₂ −1 0 0 0 0 0 0 −4 1



.

令最後所得的 augmented matrix 為 [A^′|E], 我們檢查是否 A 的 reduced echelon form A^′ 就 是 EA. 事實上, 我們確有

EA =



 −¹₂ 2 0

1

2 −1 0

0 −4 1







 2 −4 4 −6 1 −2 1 −1 4 −8 4 −4



 =



 1 −2 0 1 0 0 1 −2 0 0 0 0



.

另外我們想確認 E 確為這五個 elementary row operations 所對應的 elementary matrices 的 乘積. 因為 A 為 3× 4 matrix, 所以第一個 elementary row operation 所對應的 elementary matrix E₁ 就是將 3×3 的 identity matrix I3 的 1-st 和 2-nd row 交換, 而第二個 elementary matrix E2 為將 I₃ 的 1-st row 乘上 −2 加到 2-nd row 上. 第三個 elementary matrix E3 為 將 I₃的 1-st row 乘上−4 加到 3-rd row 上. 接下來的 elementary matrix E4 為將 I₃ 的 2-nd row 乘上 1/2, 而最後一個 elementary matrix E5為將 I₃ 的 2-nd row 乘上−1 加到 1-st row 上. 也就是說, 我們有

E1=



 0 1 0 1 0 0 0 0 1



, E₂=



 1 0 0

−2 1 0 0 0 1



, E₃=



 1 0 0 0 1 0

−4 0 1



,

E₄=



 1 0 0 0 ¹₂ 0 0 0 1



, E₅=



 1 −1 0 0 1 0 0 0 1





將這五個 elementary matrices 由右而左依序相乘, 確實得

E5E4E3E2E1=



 −¹₂ 2 0

1

2 −1 0

0 −4 1



 = E.

(16)

最後我們要再次強調 elementary matrices 之間相乘是沒有交換性的. 事實上一個矩陣若右邊乘上一個 elementary matrix, 是對此矩陣做所謂的 elementary column operation. 這用類似前面的看法, 改用 column 的觀點來處理矩陣乘法 (Deﬁnition 3.1.6) 便可看出. 也就 是說若 E 為將 identity I_n 的 i-th row 和 j-th row 交換的 elementary matrix, 其實也可將 E 視為將 In 的 i-th column 和 j-th column 交換. 所以若將 E 乘在一個 m× n matrix A 的 右邊, 所得的矩陣 AE, 事實上就是將 A 的 i-th column 和 j-th column 交換. 同樣的, 若 E 為將 identity I_n 的 i-th row 乘上一非零實數 r 的 elementary matrix, 我們也可將 E 視為 將 I_n 的 i-th column 乘上 r. 所以若將 E 乘在一個 m× n matrix A 的右邊, 所得的矩陣 AE, 事實上就是將 A 的 i-th column 乘上 r. 不過要特別注意的是將 I_n 的 i-th row 乘上 r 加到 j-th row 的 elementary matrix E. 這個 elementary matrix 若視為 column operation, 是將 I_n 的 j-th column 乘上 r 加在 i-th column 上 (不是 i-th column 乘上 r 加在 j-th column 上). 所以若將 E 乘在一個 m× n matrix A 的右邊, 所得的矩陣 AE, 事實上就是將 A 的 j-th column 乘上 r 加在 i-th column 上.

Example 3.3.3. 考慮 E₁=



 1 0 0 0 0 1 0 1 0



, E₂=



 10 0 0 0 1 0 0 0 1



, E₃=



 1 0 10 0 1 0 0 0 1



, A =



 1 2 3

−1 −2 −3 11 22 33





E₁可視為將 I₃ 的 2-nd row 和 3-rd row 交換, 也可視為將 I3 的 2-nd column 和 3-rd column 交換. 事實上我們有

E₁A =



 1 0 0 0 0 1 0 1 0







 1 2 3

−1 −2 −3 11 22 33



 =



 1 2 3 11 22 33

−1 −2 −3



,

AE1=



 1 2 3

−1 −2 −3 11 22 33







 1 0 0 0 0 1 0 1 0



 =



 1 3 2

−1 −3 −2 11 33 22



.

E2 可視為將 I₃ 的 1-st row 乘以 10, 也可視為將 I3 的 1-st column 乘以 10. 事實上我們有 E2A =



 10 0 0 0 1 0 0 0 1







 1 2 3

−1 −2 −3 11 22 33



 =



 10 20 30

−1 −2 −3 11 22 33



,

AE2=



 1 2 3

−1 −2 −3 11 22 33







 10 0 0 0 1 0 0 0 1



 =



 10 2 3

−10 −2 −3 110 22 33



.

E3 可視為將 I₃ 的 3-rd row 乘以 10 加到 1-st row, 也可視為將 I3 的 1-st column 乘以 10 加到 3-rd column. 事實上我們有

E3A =



 1 0 10 0 1 0 0 0 1







 1 2 3

−1 −2 −3 11 22 33



 =



 111 222 333

−1 −2 −3 11 22 33



,

AE₁=



 1 2 3

−1 −2 −3 11 22 33







 1 0 10 0 1 0 0 0 1



 =



 1 2 13

−1 −2 −13 11 22 143



.

(17)

3.4. Matrix 和 System of Linear Equations 的連結 63

3.4. Matrix 和 System of Linear Equations 的連結

在上一章, 我們曾經利用矩陣的 rank 來探討其所對應的聯立方程組何時有解以及解是否唯一的問題. 現在我們又知道解一次聯立方程組的問題可以看成矩陣乘法的問題, 這一節中我們就是要用這個觀點進一步探討聯立方程組何時有解以及解是否唯一.

首先由於我們都要用矩陣的乘法來探討, 為了方便起見對於Rⁿ中的向量, 除非特別聲明 為 row vector, 我們將一律用 column vector 來表示. 也就是說將它視為一個 n× 1 matrix.

所以若 u, v∈ Rⁿ, 我們用 u^Tv 表示 u, v 的內積 (而不用 u· v). 另外回顧, 給定一次聯立方程組

a₁₁x₁ + a₁₂x₂ + ··· + a1nx_n = b₁ a₂₁x₁ + a₂₂x₂ + ··· + a2nx_n = b₂

...

a_m1x₁ + a_m2x₂ + ··· + amnx_n = b_m 我們令

A =







a11 a12 ··· a1n

a21 a22 ··· a2n

... ... ... ... am1 am2 ··· amn





, x =





 x1

x2

... xn





, b =





 b1

b2

... bm





,

然後將上面的聯立方程組用 Ax = b 來表示. 現若 x₁= c1, x2= c2, . . . , xn= cn, 為此聯立方程組的一組解, 我們便會用

c =





 c₁ c₂ ... c_n





,

來表示這一組解, 而說 x = c∈ Rⁿ 為 Ax = b 的一組解. 依矩陣乘法定義這等同於說 A 這一 個 m× n matrix 乘以 c 這一個 n × 1 matrix 會等於 b 這一個 m × 1 matrix, 即 Ac = b.

3.4.1. 解的存在性. 我們再一次探討怎樣的 m× n matrix A 會滿足對任意的 b ∈ R^m, 聯立 方程組 Ax = b 皆有解.

首先假設 b∈ R^m 且 Ax = b 有解. 令 c =



 c₁

... c_n



 為一解, 此即表示 Ac = b. 利用矩陣乘法

定義得

c1a₁+··· + cna_n= b,

其中 a₁, . . . , a_n 為 A 的 column vectors. 換句話說, b 可以寫成 A 的 column vectors 的 linear combination. 用符號來表示就是 b∈ Span(a1, . . . , an). 反之, 若 b∈ Span(a1, . . . , an), 表示存 在 c₁, . . . , c_n∈ R 使得 b = c1a₁+··· + cna_n. 故得 x₁= c₁, . . . , x_n= c_n 為 Ax = b 的一組解. 我 們證得了以下的性質.

Lemma 3.4.1. 假設 A∈ Mm×n 且 b∈ R^m. 則 Ax = b 有解若且唯若 b∈ Span(a1, . . . , an), 其中 a₁, . . . , a_n 為 A 的 column vectors.

(18)

我們有興趣於知道怎樣的 m× n matrix A 會使得對任意的 b ∈ R^m, 聯立方程組 Ax = b 皆有解. 我們利用過去學過的幾種不同觀點, 發現有許多和它等價的條件. 首先觀察由於 A 的 column vectors 皆在 R^m 中, 所以自然有 Span(a1, . . . , an)⊆ R^m. 然而由 Lemma 3.4.1 知, 若對於任意 b∈ R^m皆會使得 Ax = b 有解, 表示對任意 b∈ R^m皆有 b∈ Span(a1, . . . , a_n).

故知此時 Span(a1, . . . , an) =R^m. 反之, 若 Span(a1, . . . , an) =R^m, 表示對任意 b∈ R^m 皆有 b∈ Span(a1, . . . , a_n). 同樣由 Lemma 3.4.1 知此即對於任意 b∈ R^m 皆會使得 Ax = b 有解.

因此從這觀點來看, 對任意的 b∈ R^m, 聯立方程組 Ax = b 皆有解和 Span(a1, . . . , a_n) =R^m是等價的.

另外我們可以考慮聯立方程組 Ax = e_i, 其中 e1, . . . , em∈ R^m 為R^m 的 standard basis. 若已知對任意的 b∈ R^m, 聯立方程組 Ax = b 皆有解, 則對所有的 i = 1, . . . , m, 我們都可找到 c_i∈ Rⁿ 使得 x = c_i 為聯立方程組 Ax = e_i 的一組解. 也就是說對所有的 i = 1, . . . , m 皆有 Ac_i= e_i. 現考慮 n× m matrix C, 其 i-th column 就是 ci. 此時依矩陣乘法的定義我們有

AC = A



 c₁ c₂ ··· cm



 =



 Ac1 Ac2 ··· Acm



 =



 e₁ e₂ ··· em



 = I_m.

也就是說, 此時必存在 n× m matrix C 使得 AC = Im. 反之, 若 C 為 n× m matrix 滿足 AC = Im, 則對任意 b∈ R^m, 我們考慮 c = Cb∈ Rⁿ, 皆會有

Ac = A(Cb) = (AC)b = Imb = b.

也就是說此時對任意 b∈ R^m, 我們都可以找到 c = Cb∈ Rⁿ, 使得 x = c 是聯立方程組 Ax = b 的一組解. 因此從這觀點來看, 對任意的 b∈ R^m, 聯立方程組 Ax = b 皆有解和存在 n× m matrix C 使得 AC = I_m 是等價的.

我們也曾經在 2.4 節中利用 rank 探討過這個問題 (參見 Proposition 2.4.1). 也就是說, 若 A 經由 elementary row operations 化為 echelon form 後, 其 pivot 的個數恰等於 A 的 row 的個數 m, 表示 A 的 echelon form 沒有一個 row 全為 0, 故由 2.1 節的討論 (即 Case (1)) 知此時任意的 b∈ R^m, 聯立方程組 Ax = b 皆有解. 反之, 如果 pivot 的個數不等於 m, 表示 A 的 echelon form A^′ 中最後一個 row 必全為 0. 此時我們一定可以找到 b∈ R^m 使得 增廣矩陣 [A|b] 化為 echelon form [A^′|b^′]後, b^′ 最後一個 entry 不為 0 (即 Case 2(a)). 此時 Ax = b 會無解. 因此從這觀點來看, 對任意的 b∈ R^m, 聯立方程組 Ax = b 皆有解和 A 的 echelon form 的 pivot 的個數為 m (即 rank(A) = m) 是等價的.

綜合上面這幾種看法, 我們證得了以下這個非常重要的定理.

Theorem 3.4.2. 假設 A 為 m× n matrix, 令 a1, . . . , an∈ R^m 為 A 的 column vectors. 以下 各敘述是等價的.

(1) 對任意的 b∈ R^m, 聯立方程組 Ax = b 皆有解.

(2) Span(a₁, . . . , a_n) =R^m. (3) rank(A) = m.

(4) 存在 n× m matrix C 使得 AC = Im.

(19)

3.4. Matrix 和 System of Linear Equations 的連結 65

特別提醒一下, Theorem 3.4.2, 指的是對所有 b∈ R^m, 聯立方程組 Ax = b 皆有解的情況.

所以若僅知單一的 b 使得聯立方程組 Ax = b 有解, Theorem 3.4.2 並不適用 (不過 Lemma 3.4.1 是適用的).

我們曾提及, 當 A 為 m× n matrix, 將 A 化為 echelon form 後其 pivot 的個數不能多於 row 和 column 的個數. 也就是說 pivot 的個數應小於等於 min{m,n} (此指的是 m,n 中最 小的那一個). 所以若 pivot 的個數為 m, 則表示 n≥ m. 換言之, 若 n < m, 我們便知 pivot 的個數不可能等於 m, 所以 Theorem 3.4.2 中的情況不可能發生. 我們有以下的結論.

Corollary 3.4.3. 假設 A 為 m× n matrix, 其中 n < m, 則必存在 b ∈ R^m 使得聯立方程組 Ax = b 無解. 而且此時, 不會存在 n× m matrix C 使得 AC = Im.

Proof. 由前所述, 當 n < m 時 A 化為 echelon form 後, 其 pivot 的個數不可能為 m, 亦即 rank(A) < m. 故由 Theorem 3.4.2 知不可能對任意的 b∈ R^m, 聯立方程組 Ax = b 皆有解.

亦即存在 b∈ R^m 使得聯立方程組 Ax = b 無解. 同理, 由 Theorem 3.4.2 知不會存在 n× m

matrix C 使得 AC = I_m.

Question 3.7. 假設 A 為 m×n matrix, 其中 m < n. 是否存在 n×m matrix C 使得 CA = In? 前面提過 Theorem 3.4.2 是個很重要的定理, 它可以告訴我們一些解聯立方程組的訊息.

例如 Corollary 3.4.3 就是告訴我們當方程式的個數多於未知數的個數時, 會存在 b∈ R^m 使 得聯立方程組 Ax = b 無解. 我們也可已將它運用於有關於 spanning set 的問題.

Corollary 3.4.4. 設 m, n 為正整數且 n < m. 任取 R^m 中 n 個 vectors a₁, . . . , an, 則 Span(a₁, . . . , a_n)̸= R^m.

Proof. 我們用反證法, 假設存在 a1, . . . , a_n∈ R^m 使得 Span(a1, . . . , a_n) =R^m. 令 A 為由 a₁, . . . , an 為 column 所組成的 m× n matrix, 即對於 i = 1,...,n, A 的 i-th column 為 ai. 則 由 Theorem 3.4.2 知 rank(A) = m. 但矩陣 A 的 column 的個數小於 row 的個數 (即 n < m), 得 rank(A)≤ n < m 之矛盾. 由此矛盾得知 Span(a1, . . . , an)̸= R^m. Corollary 3.4.4 告訴我們, 在 R^m 中任取少於 m 個向量, 它們的線性組合是不能展成整 個 R^m 的.

3.4.2. 解的唯一性. 所謂聯立方程組解的唯一性, 指的是假設聯立方程組有解時, 探討其解 是否唯一. 所以唯一性並不涉及解是否存在的問題.

給定 A∈ Mm×n 以及 b∈ R^m. 我們曾說明過如果 Ax = b 有解, 則 Ax = b 的解和 Ax = O 的解 (這裡 O 是R^m 的零向量) 息息相關 (參見 Proposition 2.4.7). 這個事實現在由於可以利用矩陣的運算給予更簡明的證明, 所以我們再敘述及證明一次.

Lemma 3.4.5. 給定 A∈ Mm×n 以及 b∈ R^m 且假設 x = c∈ Rⁿ 是聯立方程組 Ax = b 的一 組解. 則

(1) 若 x = c^′∈ Rⁿ 是 Ax = b 的一組解, 則 x = c^′− c 為 Ax = O 的一組解.

(20)

(2) 若 x = u∈ Rⁿ 為 Ax = O 的一組解, 則 x = c + u 是 Ax = b 的一組解.

Proof. (1) 假設 x = c^′∈ Rⁿ 是 Ax = b 的一組解, 意即 Ac^′= b. 由已知 Ac = b 得 A(c^′− c) = Ac^′− Ac = b − b = O.

因此 x = c^′− c 會是 Ax = O 的一組解.

(2) 若 x = u∈ Rⁿ 為 Ax = O 的一組解, 則

A(c + u) = Ac + Au = b + O = b.

得證 x = c + u 為聯立方程組 Ax = b 的一組解.

Lemma 3.4.5 告訴我們若已知 x = c 為 Ax = b 的一組解, 且知道 Ax = O 所有的解, 就 能利用 c 以及 Ax = O 所有的解得到 Ax = b 所有的解. 所以了解 Ax = O 所有的解是很 重要的課題 (以後我們會深入探討). 回顧一下 Ax = O 這樣的 linear system, 我們稱之為 homogeneous linear system. Homogeneous linear system 一定有解, 事實上當 A∈ Mm×n 時, x1= 0, . . . , xn= 0 就是 Ax = O 的一組解. 這組解 x = O∈ Rⁿ 因為不需任何計算就能得到, 我們稱之為 Ax = O 的 trivial solution. 注意 trivial solution x = O 這裡的 O 是 Rⁿ 的零 向量, 而 Ax = O 這裡的 O 是 R^m 的零向量, 所以雖然我們用同樣的符號表示, 但當 n̸= m 時它們是不同的, 大家需區分清楚. 當一個 homogeneous linear system Ax = O 除了 trivial solution 外還有其他的 solution (即解不唯一), 我們稱這些不為 O 的 solution 為 nontrivial solution.

從 Lemma 3.4.5 我們知, 若 Ax = O 沒有 nontrivial solution (即解唯一), 則對於 b∈ R^m, 若 Ax = b 有解, 其解必唯一. 由這觀點, 我們可以得到以下關於聯立方程組解的唯一性的重 要定理.

Theorem 3.4.6. 假設 A 為 m× n matrix. 以下各敘述是等價的.

(1) 若 b∈ R^m 且聯立方程組 Ax = b 有解, 則解唯一.

(2) Homogeneous system Ax = O 沒有 nontrivial solution.

(3) rank(A) = n.

(4) 存在 n× m matrix B 使得 BA = In.

Proof. 在 Corollary 2.4.8 中我們已證得 (1), (2), (3) 是等價的. 故僅需證明 (3)⇒ (4) 以及 (4)⇒ (1).

(3)⇒ (4): 假設 rank(A) = n, 即 A 化為 echelon form 後, 其 pivot 的個數為 n. 考慮將 A 化為 reduced echelon form A^′. 此時 A^′ 由於有 n 個 pivot, 所以每一個 pivot 必分別在 A^′ 前面 n 個 row 上. 而又 A^′ 為 m× n matrix, 有 n 個 column. 所以 A^′ 每一個 pivot 必落在 (i, i)-th entry, 其中 1≤ i ≤ n. 又因為 A^′ 為 reduced echelon form, 此 n 個 pivots 的值皆為 1. 然而 reduced echelon form 每一個 pivot 所在的 column, 除了 pivot 所在位置外, 其他位 置應為 0, 所以我們知 A^′ 必為以下的 matrix A^′=

[ In

O ]

, 即 A^′ 的前 n 個 row 就是 I_n. 由