2.1. 矩陣的運算

(1)

Matrix

在第一章我們利用矩陣來表示一個聯立方程組, 這種表示法不只有其方便性其實是有另一層的意義. 在這一章中我們將介紹有關矩陣的運算, 利用矩陣的運算我們對聯立方程組將有另一種看法. 利用這新的看法, 我們對聯立方程組的解可以有更進一步的了解.

2.1. 矩陣的運算

在本節中我們將簡單地回顧有關於矩陣的定義. 一般來說一個矩陣是由數個 (橫) 列 (row) 以及 (直) 行 (column) 的數組成. 若一矩陣由 m 個 row 和 n 個 column 的數所組成, 我們 便稱該矩陣為一個 m× n matrix. 特別的, 一個 n × n matrix (即 row 的個數等於 column 的 個數), 我們稱之為 square matrix. 在本講義中, 我們用 M_m_×n 來表示所有係數在 R 的 m × n 矩陣所成的集合. 通常我們會用大寫的英文字母來表示一個矩陣. 例如考慮

A =



 1 0 2 3 0 1 5 8 2 1 1 0



, (2.1)

則 A 為一個 3× 4 matrix, 即 A ∈ M3×4. 當我們要抽象地描述一個矩陣時, 我們也常用 A = [a_{i j}]這樣的方法來描述. 這種表示法意指 A 中在第 i 個 row 和 j 個 column 的位置我 們用 a_{i j} 來表示, 並稱之為此矩陣的 (i, j)-th entry. 因此當我們說 A = [a_{i j}] 為 m× n 矩陣, 這表示 1≤ i ≤ m 且 1 ≤ j ≤ n. 例如對於式子 (2.1) 中的矩陣 A, 若 A = [ai j],則

a_{1 1}= 1, a_{1 2}= 0, a_{1 3}= 2, a_{1 4}= 3, a_{2 1}= 0, a_{2 2}= 1, a_{2 3}= 5, a_{2 4}= 8, a3 1= 2, a3 2= 1, a3 3= 1, a3 4= 0.

另外為了方便起見, 我們也會將矩陣 A 的每一個 row 和 column 用向量的方法來表示, 這些稱為 A 的 row vectors 和 column vectors. 在本講義我們會將矩陣 A = [a_{i j}]第 i 個 row 所成的 row vector 用 _ia 來表示, 而第 j 個 column 所成的 column vector 用 a_j 來表示. 例 如對於式子 (2.1) 中的矩陣 A, 我們有

1a =[

1 0 2 3]

, ₂a =[

0 1 5 8]

, ₃a =[

2 1 1 0]

21

(2)

以及

a₁=



 1 0 2



, a₂=



 0 1 1



, a₃=



 2 5 1



, a₄=



 3 8 0



.

注意由於我們也想將向量看成是一個矩陣, 這裡的 row vectors 和 column vectors 都用矩陣的形式呈現.

我們想給矩陣一個運算, 既然要談運算就會牽涉相等的概念. 所以我們要先定義何謂矩陣的相等.

Definition 2.1.1. 假設 A = [a_{i j}] 為一個 m× n matrix 且 A^′= [a^′_{i j}] 為一個 m^′× n^′ matrix.

我們定義 A = A^′ 若且唯若 m = m^′, n = n^′ 且對所有的 1≤ i ≤ m 以及 1 ≤ j ≤ n 皆有 ai j= a^′_{i j}. 很容易看出矩陣的相等的定義是向量相等的延伸. 在向量中只有同在Rⁿ 的向量我們才談是否相等, 且兩個 Rⁿ 中的向量相等表示這兩個向量在每一個相同位置的數皆相等. 同樣 的只有同在 M_m×n 的矩陣才談是否相等, 且兩個 M_m×n 中的矩陣相等表示這兩個矩陣在每一個相同位置的數皆相等.

我們也延伸向量加法與係數積的定義來定義矩陣的加法與係數積. 也就是說只有同為 Mm×n 的矩陣我們才定義它們之間的加法, 且兩矩陣相加表示將這兩個矩陣在相同位置的數加起來. 而一個實數乘上一個矩陣即為將該矩陣每一個位置上的數乘上該實數. 具體來說我們有以下的定義.

Definition 2.1.2. 假設 A = [a_{i j}], B = [b_{i j}]皆為 m× n matrix. 定義 A + B = [ci j],其中對所有的 1≤ i ≤ m 以及 1 ≤ j ≤ n 皆有 ci j= ai j+ bi j. 對任意實數 r, 我們定義 rA = [di j] 其中對所有的 1≤ i ≤ m 以及 1 ≤ j ≤ n 皆有 di j= ra_{i j}.

Definition 2.1.2 告訴我們若

A =







a1 1 a1 2 ··· a1 n

a2 1 a2 2 ··· a2 n

... ... . .. ... am 1 am 2 ··· am n





, B =







b1 1 b1 2 ··· b1 n

b2 1 b2 2 ··· b2 n

... ... . .. ... bm 1 bm 2 ··· bm n







則

A + B =







a1 1+ b1 1 a1 2+ b1 2 ··· a1 n+ b1 n

a_{2 1}+ b_{2 1} a_{2 2}+ b_{2 2} ··· a2 n+ b_{2 n} ... ... . .. ... am 1+ bm 1 am 2+ bm 2 ··· am n+ bm n







且

rA =







ra_{1 1} ra_{1 2} ··· ra1 n

ra_{2 1} ra_{2 2} ··· ra2 n

... ... . .. ... ra_{m 1} ra_{m 2} ··· ram n







矩陣的加法與係數積的定義可以說是由大家熟悉的R²,R³ 的向量（甚至Rⁿ）的加法與係數積延伸而來, 我們有以下這些性質.

(3)

Proposition 2.1.3. 對於 M_m×n 上的矩陣, 我們有以下的性質:

(1) 對任意 A, B∈ Mm×n, 皆有 A + B = B + A.

(2) 對任意 A, B,C∈ Mm×n, 皆有 (A + B) +C = A + (B +C).

(3) 存在一矩陣 O∈ Mm×n 滿足對任意 A∈ Mm×n 皆有 O + A = A.

(4) 對任意 A∈ Mm×n 皆可找到 A^′∈ Mm×n 滿足 A + A^′= O.

(5) 對任意 r, s∈ R 以及 A ∈ Mm×n, 皆有 r(sA) = (rs)A.

(6) 對任意 r, s∈ R 以及 A ∈ Mm×n, 皆有 (r + s)A = rA + sA.

(7) 對任意 r∈ R 以及 A,B ∈ Mm×n 皆有 r(A + B) = rA + rB.

(8) 對任意 A∈ Mm×n, 皆有 1A = A.

Proposition 2.1.3 的證明用到實數 R 相對應的性質. 例如 (1) 談的是矩陣加法的交換性質, 用到的是R 的加法交換性. 事實上若令 A = [ai j], B = [bi j]以及 A + B = [c_{i j}], B + A = [di j].

依定義, 我們有 c_{i j}= a_{i j}+ b_{i j}以及 d_{i j}= b_{i j}+ a_{i j}. 由於實數的加法交換性 a_{i j}+ b_{i j}= b_{i j}+ a_{i j}, 因此得 c_{i j}= d_{i j}, 故依矩陣相等的定義，得證 A + B = B + A. 其他各項都可用一樣的方法 證明, 這裡就不證明了. 不過 (3), (4) 談的是存在性的問題. 這類問題就必須說明存在的是 什麼. 例如 O 就是零矩陣，也就是說 O = [c_{i j}] 其中 c_{i j}= 0, ∀i j. 而 (4) 的 A^′ 稱為 A 的 加法反元素, 它是跟著 A 而變的. 如果 A = [a_{i j}]則令 A^′= [a^′_{i j}]其中 a^′_{i j}=−ai j, 就會滿足 A + A^′= O 了. 一般來說, 給定 A 我們會將 A 的加法反元素用−A 來表示.

接著我們定義矩陣間的乘法. 首先回顧當我們要解聯立方程組 x1 +2x2 = 1

−x1 +1x₂ = 2 2x₁ −2x2 = 3 我們會把它寫成



 1 2

−1 1 2 −2



[ x₁ x2

]

=



1 2 3



.

所以若我們定義矩陣



 1 2

−1 1 2 −2



 和[ x₁ x₂ ]

的乘法為



 1 2

−1 1 2 −2



[ x₁ x2

]

= x₁



 1

−1 2



 + x₂



 2 1

−2





那麼聯立方程組與矩陣的關係就不只是為了列式方便而已, 聯立方程組和矩陣的運算產生了緊密的關係.

從這個角度出發, 我們有以下定義.

(4)

Definition 2.1.4. 設 A = [a_{i j}] 為 m× n matrix 以及 b = [bj] 為 n× 1 matrix (即 Rⁿ 中的 column vector). 若 ai 表示 A 的 i-th column 則定義

Ab =







a1 1 a1 2 ··· a1 n

a2 1 a2 2 ··· a2 n

... ... . .. ... am 1 am 2 ··· am n











 b1

b2

... bn





=



 a ₁ a₂ ··· an









 b1

b2

... bn





= b₁a₁+ b₂a₂+··· + bna_n.

注意依此定義, 必需 A∈ Mm×n 的 column 的個數 n 等於 b∈ Mn×1的 row 的個數 n, 才能 定義 Ab 且此時 Ab 會是 m× 1 matrix (即 R^m中的 column vector). 觀察此 column vector, 我們有

Ab = b1





 a₁₁ a21

... a_m1





+ b2





 a₁₂ a22

... a_m2





+··· + bn





 a_1n a2n

... a_mn





=







b₁a₁₁+ b₂a₁₂+··· + bna_1n b1a21+ b₂a22+··· + bna2n

...

b₁a_m1+ b₂a_m2+··· + bna_mn





. (2.2)

特別的, 當 a =[

a1 a2 ··· an

]為 1×n matrix 而 b =





 b₁ b2

... b_n





為 n×1 matrix, 依 Definition

2.1.4 的矩陣乘法定義

a b =[

a1 a2 ··· an

]





 b₁ b2

... b_n





= b1a1+ b2a2+··· + bnan. (2.3)

(注意, 若 a, b 是Rⁿ 中的向量, 則 ab 就是我們熟悉 a, b 的內積 ⟨a,b⟩.) 依此看法, 由式子 (2.2), 我們可將 Ab 寫成

Ab =







1a b

2a b ...

ma b





. (2.4)

也就是說 Ab 這一個 m×1 matrix 的 i-th entry 為ia b 也就是 A 的 i-th row_ia 和 b 的內積.

我們來看一個 m×n matrix 以及 Rⁿ 的 column vector 在此乘法的定義之下的基本性質.

Lemma 2.1.5. 假設 A = [a_{i j}], A^′= [a^′_{i j}]為 m× n matrices 以及 b = [bj], b^′= [b^′_j]為 Rⁿ 中 的 column vectors (即 n× 1 matrices) 以及 c ∈ R. 我們有以下的性質.

(1) A(b + b^′) = Ab + Ab^′. (2) A(cb) = c(Ab) = (cA)b.

(3) (A + A^′)b = Ab + A^′b.

Proof. 令 A 的 column vectors 依次為 a₁, . . . , a_n 且 A^′ 的 column vectors 依次為 a^′₁, . . . , a^′_n.

(5)

(1) 依定義

A(b + b^′) =



 a₁ ··· an







 b1+ b^′₁

... bn+ b^′_n



 = (b1+ b^′₁)a₁+··· + (bn+ b^′_n)a_n. (2.5)

而 Ab + Ab^′ 為



 a₁ ··· an







 b1

... bn



 +



 a₁ ··· an







 b^′₁

... b^′_n



 = (b1a₁+··· + bna_n) + (b^′₁a₁+··· + b^′na_n). (2.6)

由矩陣加法和係數積的分配律 (Proposition 2.1.3 的性質 (7),(8)), 我們得證式子 (2.5) 和式子 (2.6) 相等.

(2) 依定義 c(Ab) 為

c (

 a₁ ··· an







 b1

... b_n



)

= c(b1a₁+ b2a₂+··· + bna_n). (2.7)

而 cA 的 column vectors 依次為 ca₁, . . . , ca_n. 故 (cA)b 為



 ca₁ ··· can







 b1

... bn



 = b¹(ca₁) +··· + bn(ca_n). (2.8)

最後依定義 cb 為



 cb1

... cb_n



, 故 A(cb) 為



 a₁ ··· an







 cb₁

... cbn



 = (cb¹)a₁+··· + (cbn)a_n. (2.9)

由矩陣加法和係數積的結合律 (Proposition 2.1.3 的性質 (6)), 我們得證 (2.7), (2.8), (2.9) 三個式子皆相等.

(3) 依定義 A + A^′ 的 column vectors 依次為 a₁+ a^′₁, . . . , a_n+ a^′_n, 所以

(A + A^′)b =





a₁+ a^′₁ ··· an+ a^′_n







 b₁

... b_n



 = b¹(a1+ a^′₁) +··· + bn(an+ a^′_n). (2.10)

另一方面, Ab + A^′b 為



 a₁ ··· an







 b₁

... bn



 +



 a^′₁ ··· a^′_n







 b₁

... bn



 = (b¹a₁+··· + bna_n) + (b₁a^′₁+··· + bna^′_n). (2.11)

再次由矩陣加法和係數積的分配律, 我們得證式子 (2.10) 和式子 (2.11) 相等. Lemma 2.1.5 (1),(2) 告訴我們矩陣對向量的乘法有類似分配律的性質, 這個性質很重要 (以後我們會再提到並稱之為 linear 的性質), 我們特別用以下定理表示.

(6)

Proposition 2.1.6. 假設 A∈ Mm×n, 且 b, b^′ 為 Rⁿ 中的 column vectors, 以及 c, c^′∈ R. 則 A(cb + c^′b^′) = c(Ab) + c^′(Ab^′).

Proof. 因 cb, cb^′ 皆為 Rⁿ 中的 column vectors, 由 Lemma 2.1.5 (1) 知 A(cb + c^′b^′) = A(cb) + A(c^′b^′). 再由 Lemma 2.1.5 (2) 知 A(cb) = c(Ab), A(c^′b^′) = c^′(Ab^′), 故得證本定

理.

Question 2.1. 假設 A∈ Mm×n, 且 b₁, . . . , b_k 為 Rⁿ 中的 column vectors, c₁, . . . , c_k∈ R. 試 利用數學歸納法證明

A( ^k

i=1

∑

cib_i)

=

∑

k i=1

ci(Abi).

Question 2.2. 假設 A, A^′∈ Mm×n, 且 b 為 Rⁿ 中的 column vectors, 以及 c, c^′∈ R. 是否 (cA + c^′A^′)b = c(Ab) + c^′(A^′b) ?

現在我們將矩陣乘法推廣到更一般的情況, 當 A = [a_{i j}] 是一個 m× n matrix, B = [bj k] 是一個 n× l matrix. 由於對 B 的每一個 column vector bk∈ Mn×1, 1≤ k ≤ l, 我們已定義了 Abk 為何, 現在我們定義 AB 為 m× l matrix, 其中 AB 的 k-th column vector 為 Abk. 我們大致上有以下的圖示.

A



 b ₁ b₂ ··· bl



 =



 Ab₁ Ab₂ ··· Abl





由於 Ab_k 為 m× 1 matrix, 依此定義確實 AB 為 m × l matrix. 現在我們來看正式的定義.

Definition 2.1.7. 設 A = [ai j] 為 m× n matrix 以及 B = [bjk] 為 n× l matrix, 則定義 AB = C = [c_ik]為 m× l matrix, 其中對於 1 ≤ k ≤ l, C 的 k-th column ck 為

c_k= Ab_k=







a_{1 1} a_{1 2} ··· a1 n

a2 1 a2 2 ··· a2 n

... ... . .. ... am 1 am 2 ··· am n











 b_{1 k} b2 k

... bn k





= b_{1 k}a₁+ b_{2 k}a₂+··· + bn ka_n. (2.12)

由此定義, 我們知對於 1≤ i ≤ m, 1 ≤ k ≤ l, AB 的 (i,k)-th entry 應為其 k-th column (即 Abk) 從上往下算的第 i 個 entry. 由式子 (2.4) 我們知此即 A 的 i-th row ia 和 B 的 k-th column b_k 看成向量後取內積. 換言之, 若 AB = [c_{i k}], 則 AB 的 (i, k)-th entry c_{i k} 為

ci k=_ia b_k= a_{i 1}b1 k+ a_{i 2}b2 k+··· + ai nbn k=

∑

n j=1

ai jbj k. (2.13) 再次強調一次, 並不是任取兩個矩陣都可以定義乘法, 必須是左邊矩陣的 column 個數和右邊矩陣的 row 個數相同才能相乘.

Example 2.1.8. 令

A =



−2 4 3 6 2 2



,B =[

4 −1 2 5 3 0 1 1 ]

(7)

考慮矩陣乘法 AB. 依定義矩陣 AB 的 3-rd column 為 Ab₃=



−2 4 3 6 2 2



[ 2 1 ]

= 2a₁+ 1a₂= 2



−2 3 2



 + 1



4 6 2



 =



0 12

6



.

所以 AB 的 (2, 3) entry 為 12 等於 A 的 2-nd row 和 B 的 3-rd column 看成R² 中的向量所 得的內積, 即 (3, 6)· (2,1) = 12. 事實上我們有

AB =



−2 4 3 6 2 2



[

4 −1 2 5 3 0 1 1 ]

=



4 2 0 −6 30 −3 12 21 14 −2 6 12



.

♯ 大部分的書都會用式子 (2.13) 當成矩陣乘法的定義. 我們選用式子 (2.12) 的用意, 主要是它較能描繪當初矩陣乘法定義的用意. 另外它是由 column 來描繪矩陣的乘法, 在證明或推導有關矩陣乘法性質時, 有時比式子 (2.13) 利用 entry 來看方便多了. 例如我們有以下的性質.

Proposition 2.1.9. 假設 A, A^′∈ Mm×n, B, B^′∈ Mn×l. 我們有以下的性質.

(1) A(B + B^′) = AB + AB^′. (2) (A + A^′)B = AB + A^′B.

Proof. 首先注意因 A + A^′ 仍為 m× n 矩陣且 B + B^′ 為 n× l 矩陣, 所以這些矩陣的階數 是符合矩陣乘法的規定. 我們假設 B 的 column vectors 依次為 b₁, . . . , bl 且 B^′ 的 column vectors 依次為 b^′₁, . . . , b^′_l.

(1) 我們證明當 1≤ k ≤ l 時, A(B + B^′) 的 k-th column 會等於 AB + AB^′ 的 k-th column.

依定義 A(B + B^′) 的 k-th column 為 A 的右邊乘上 B + B^′ 的 k-th column. 然而由矩陣加法 定義, B + B^′ 的 k-th column 為 b_k+ b^′_k, 即 B 的 k-th column 加上 B^′ 的 k-th column. 因此我 們有 A(B + B^′) 的 k-th column 為 A(b_k+ b^′_k). 另一方面, AB + AB^′ 的 k-th column 為 AB 的 k-th column Abk 加上 AB^′ 的 k-th column Ab^′_k, 因此 AB + AB^′ 的 k-th column 為 Ab_k+ Ab^′_k. 由 Lemma 2.1.5 (1), 我們得證它們相等.

(2) 我們證明當 1≤ k ≤ l 時, (A + A^′)B 的 k-th column 會等於 AB + A^′B 的 k-th column.

依定義 (A + A^′)B 的 k-th column 為 A + A^′ 的右邊乘上 B 的 k-th column, 即 (A + A^′)b_k. 另一 方面, AB + A^′B 的 k-th column 為 AB 的 k-th column Abk 加上 A^′B 的 k-th column A^′b_k, 因 此 AB + A^′B 的 k-th column 為 Ab_k+ A^′b_k. 因此由 Lemma 2.1.5 (3), 我們得證它們相等.

———————————– 30 September, 2022