線性代數的基本定理

(1)

線性代數的基本定理

林琦焜

前言:

最近在 American Mathematical Monthly 閱讀到 Gilbert Strang 探討線性代數之文章, 讀後收穫良多, 尤其幾個圖形實在有教學上之價值。在感動之餘想想何不動手, 以 Gilbert Strang 之文章為藍本, 同時把自己讀書與教學之心得將之整理後, 以與中文之讀者一起分享。

此文主要探討的是 Fredholm Altena- tive 定理, 要提醒的是雖然我們僅在有限的空間上討論, 但實際上都可推廣至無限維空間, 而這就是泛函分析 (functional analysis) 所研究的主題之一。

矩陣的本質:

要瞭解線性代數, 最直接且最有動機莫若於從求聯立方程組的解開始。

A−→x = −→

b A: R

ⁿ

→ R

^m

(1) 其中

−

→x = (x

1

, x

2

· · · x

n

)

^T

∈ R

ⁿ

−

→b = (b

1

, b

2

· · · b

m

)

^T

∈ R

^m

在此向量都是以行向量來表示。其中 A 是一個 m × n 矩陣

A =



 



a

11

. . . a

1n

a

21

. . . a

2 n

a

m1

. . . a

mn



 



a

ij

∈ R, 1 ≤ i ≤ m, 1 ≤ j ≤ n (2)

首先我們將矩陣 A 視為向量。(實際上矩陣是向量的推廣)

A = [A

1

, . . . , A

n

] (3)

A

j

=



 

 

a

1 j

a

2 j

...

a

mj



 

 

1 ≤ j ≤ n (4)

有了上述之結果, 我們可將 (1) 式的左邊表為向量的線性組合:

A−→x =



 

 

a

11

. . . a

1 n

a

21

. . . a

2n

... ... ...

a

m1

. . . a

mn



 

 



 

 

x

1

... ...

x

n



 

 

1

(2)

= [A

1

, . . . , A

n

]



 



x

1

... x

n



 



= x

1

A

1

+ · · · + x

n

A

_n

=−→

b (5)

註(A): 如果我們將向量



 



x

1

...

x

n



 



視為矩陣的話, 則 (5) 式同時也告訴我們, 矩陣乘在右手邊其運算為行運算。 (同理乘在左手邊則為列運算。) 而其法則為

x

1

× (第一行) + x

2

× (第二行) + · · · +x

n

× (第 n 行) (6)

註 (B): 由 (5) 式我們也可略窺 “行空間” (column space) 的雛形, 由此角度而言, 求 A−→x = −→

b 的解, 相當於求所有 A

1

· · · A

n

的線性組合正好等於 −→

b , 即求 (x

1

· · · x

n

) ∈ R

ⁿ

使得

x

1

A

1

+ · · · + x

n

A

_n

=−→ b

註 (C): (5) 式可幫助我們明白矩陣的結合律, 一般在線性代數的課本是將矩陣視為線性變換 (linear transformation), 因此矩陣的結合律可視為是函數之合成的結合律, 但這種作法, 對學生而言, 幫助並不大。在這裡我們希望藉由 (5) 及一些簡單的基本運算來証明矩陣的結合律

A(BC) = (AB)C。

由(5) 式知向量 A−→x 為矩陣 A 之行向量的線性組合, 利用這個概念, 我們可以對矩陣的

乘法有另一個角度的體會, 給定任一矩陣 B = [B

1

, B

2

,· · · B

k

]

B

i

為矩陣 B 之第 i 行向量, 因此矩陣 A 與矩陣 B 之相乘可表為

AB = A[B

1

, B

2

,· · · B

k

]

= [AB

1

, AB

2

,· · · , AB

k

]

即矩陣 AB 的第 i 行向量 (AB)

i

為矩陣 A 乘矩陣 B 的第 i 行向量 AB

i

。由 (5) 式知 AB

i

要有意義其先決條件為 B

i

為一 n 維行向量, 即矩陣 B 為一 n × k 矩陣

B = [B

1

, B

2

,· · · , B

k

]

=



 



b

11

. . . b

1 k

... ...

b

n1

. . . b

nk



 



同理, 矩陣 BC 要有意義為 C 為一 k × l 矩陣。

C = [C

1

,· · · , C

l

] =



 



c

11

. . . b

1 l

... ...

c

_k1

. . . c

_kl



 



我們現在考慮矩陣之結合律, 由 (5) 式知 A(BC

i

) = A(c

1 i

B

1

+ · · · + c

ki

B

k

)

= c

1 i

AB

1

+ · · · + c

ki

AB

k

= [AB

1

,· · · , AB

k

]



 



c

1 i

...

c

ki



 



= [AB

1

,· · · , AB

k

]C

i

再次利用 (5) 式可得矩陣之結合律 A(BC) = A(B[C

1

,· · · , C

l

])

(3)

= A[BC

1

,· · · , BC

l

]

= [A(BC

1

), · · · , A(BC

l

)]

= [(AB)C

1

,· · · , (AB)C

l

]

= (AB)[C

1

,· · · , C

l

]

= (AB)C

註 (D): (5) 式告訴我們的還不僅如此。

在中學階段就熟知 Cramer 公式, 亦可由此式再加點行列式的性質而得, 當然還是從解聯立方程組開始

A−→x =−→ b

此時 A 為一 n × n 矩陣向量, −→x,−→

b 則視為 n× 1 矩陣, 為著簡便用符號 [A←−

ⁱ

−→

b ] 表示一 n × n 矩陣, 其中矩陣 A = [A

1

· · · A

n

] 之第 i 行向量為向量 −→

b 所取代, 即 [A←−

ⁱ

−→

b ] = [A

1

· · · A

i−1

,−→

b , A

i+1

,· · · , A

n

] 但由 (5) 式並利用行運算基本上是矩陣乘在右手邊之原則得

[A

1

· · · A

i−1

, A−→x , A

_i+1

,· · · A

n

]

= [A

1

,· · · A

i−1

, x

1

A

1

+ · · · + x

n

A

_n

, A

_i+1

,

· · · A

n

]

= [A

1

,· · · A

i−1

, A

i

, A

i+1

· · · A

n

]

×



 

 

1 0 x

1

0 0 0 1 x

2

0 0 ... ... ... ... ... 0 0 x

n

0 1



 

 

= A[I←−−

ⁱ

→x]

因此聯立方程 A−→x =−→

b 可改寫為 A[I←−−

ⁱ

→x] = [A←−

ⁱ

−→

b ]

兩邊同時取行列式得

(det A)(det[I←−−

ⁱ

→x]) = det[A←−

ⁱ

−→ b ] 由 Laplace 展開式或行列式的性質知

det[I←−−

ⁱ

→x] = x

i

, 故 x

i

= det[A←−

ⁱ

−→

b ] det A 這就是 Cramer 公式。

基本定理:

習慣上, 我們將行空間 (column space) 記為 R(A), 明顯地 R(A) ⊆ R

^m

。談了行向量, 行空間自然要提它的孿生兄弟列向量 (row vecter), 列空間 (row space), 記為 R(A

^T

) , 另要提的子空間如下

N(A) ≡ {−→x ∈ R

ⁿ

|A−→x = 0} ⊆ R

ⁿ

(7) N(A

^T

) ≡ {−→y ∈ R

ⁿ

|A

^T

−→y = 0} ⊆ R

^m

(8) 底下我們將注意力都集中在這四個子空間, 當然讀者可能會問為何要探討這些子空間, 實際上所有線性代數上的運算與應用皆可經由子空間的瞭解而來, 例如在中學階段所學利用加減消去法, 代入消去法來求聯立方程組的解, 就是無形中已使用到子空間的某些特性, 其中最重要的一個就是維數 (di- mension) 的不變性。維數在線性代數中扮演著極重要的角色。

定理1: (i) dim R(A) = dim R(A

^T

) (ii) dim R(A) + dim N(A) = n

(4)

(i) 式告訴我們行空間 (colum space) 與列空間 (row space) 的維數是一樣的, 如此的描敘還是抽象了一些, 最好的方式還是以例子來明瞭定理的意義。其實學數學最好的方法即是從“例子”著手。

例1:

A=



 

 

0 0 0 0 0 0 0 2 0 0 0 1 0 1 1 0 4 3 4 0



 

 

4×5

經過化簡得

A∼



 

 

0 4 3 0 0 0 0 2 0 0 1 1 0 0 0 0 0 0 0 0



 

 



 



 



3

| {z }

3

...

.. .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. ..

因此

dim R(A) = dim R(A

^T

) = 3 dim N(A) = 5 − 3 = 2 dim N(A

^T

) = 4 − 3 = 1

對於一般 m × n 矩陣, 經過行運算 (或列運算) 後可容易判別上述的關係式

例2: A = [A

1

· · · A

n

] ∼ [B

1

· · · B

r

,0 · · · 0], {B

1

· · · B

r

} 是線性

獨立, 因此 dim R(A) = r, 由定理 1 知 dim N(A) = n − r 。

線性代數另一個基本定理如下定理2: N(A)⊥R(A

^T

)。

這定理告訴我們子空間的正交性 (or- thogonality), 其意義與證明也可從聯立方程組的解來視出端倪。

A−→x =



 



−

→B

1

...

−

→B

_m



 



−

→x

=



 



−

→B

1

· −→x

− ...

→B

m

· −→x



 



=



 



0...

0



 



取各分量得

−

→B

1

· −→x = · · · = −→

B

n

· −→x = 0

−

→x 與所有列向量−→

B

_i

, (1 ≤ i ≤ m) 垂直

−

→x⊥−→

B

i

(1 ≤ i ≤ m) 因此 −→x⊥

^P ⁿ _i=1

b

_i

−→

B

_i

即 −→x⊥R(A

^T

), ∀−→x ∈ N(A) 所以 N (A)⊥R(A

^T

)

同理, 取轉置 (transpose) 矩陣我們有定理2’: N(A

^T

)⊥R(A)。

茲以一個圖形來說明上面二個定理

(5)

dim R(A

^T

) = r

R(A

^T

)

−

→x

r

R

ⁿ

O

−

→x = −→x

r

+−→x

n

−

→x

n

N(A) dim N(A) = n−r

A−→x

r

=−→ b

A−→x = 0 A−→x

n

= 0

dim R(A) = r R(A)−→

b R

^m

N(A

^T

)

dim N(A

^T

) = m − r 列空間^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^. ^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.^.行空間

這圖形說明了幾件事實:

(a) R

ⁿ

上的向量 −→x 可分解為兩個互相垂直的向量。

−

→x = −→x

r

+−→x

n

, −→x

r

∈ R(A

^T

), −→x

n

∈ N(A) (9) 或

R

ⁿ

= R(A

^T

) ⊕ N(A) 實際上此分解是唯一的。

(b) A 將 R

ⁿ

上的任一向量 −→x 帶到行空間 R(A) , 而將核空間 (null space) 皆帶到 0 向量。

(c) 若 −→

b 落在行空間 R(A) , 則聯立方程組 A−→x = −→

b 是可解的。換言之, 若 −→

b 與所有 N(A

^T

) 的向量垂直 (−→

b ⊥N(A

^T

)) , 則聯立方程組 A−→x =

−

→b 是可解的。而其解 −→x 可分解為二部份

−

→x = −→x

_p

+ −→x

_h

A−→x = A(−→x

p

+ −→x

h

) = A−→x

p

+ A−→x

h

= −→

b + 0 =−→ b 。

−

→x

p

為 (1) 式之特解 (particular solution) −→x

h

為 (1) 式之均勻解 (homoge- neous solution) 而 −→x

_p

+ −→x

_h

為一般解 (general solution), −→x

p

稱為特解是因為

−

→x

p

⊥−→x

h

, ∀−→x

h

∈ N(A)。 (10) 另外順便一提的是所有均勻解所成的空間正好是核空間 (null space)

N(A) = {−→x

_h

∈ R

ⁿ

|A−→x

_h

= 0}

註: 上面(c) 所談的在無窮維空間亦有相類似的結果, 其實這就是泛函分析 (functional analysis) 或積分方程 (integral equation ) 裡著名的 Fredholm Alternative 定理。

註: 若將A視為一微分算子 (dif- ferential operator), 則 (c) 所言在微分方程也有相對應的結果。讀者若有興趣可自行驗證。事實上, 我們所提

(6)

的線性代數的基本定理是可直接推廣至無窮維空間。

如果值域為一維, 即 m = 1 A: R

ⁿ

→ R (11) 則A為一有界線性泛函 (bounded linear functional)。由 Riesz 表現定理告訴我們, A 可表為一內積之形式。

Riesz 表現定理: A 為一有界線性泛函從 R

ⁿ

映到 R。 A : R

ⁿ

→ R 有界, 線性。

則存在唯一 −→y ∈ R

ⁿ

使得

A(−→x) = (−→x , −→y) ∀ −→x ∈ R

ⁿ

。 (12) 利用上述之結果, 再加上一點正交投影之概念可容易地證明且明白 Riesz 表現定理的幾何意義:

定理證明: (不失一般性可設 A 6= 0 )

∀ −→x ∈ R

ⁿ

可表為

−

→x = −→x

r

+−→x

n

, −→x

r

∈ R(A

^T

), −→x

n

∈ N(A) A(−→x) = A(−→x

_r

+ −→x

_n

) = A(−→x

_r

) + A(−→x

_n

)

= A(−→x

_r

)。

上式告訴我們 A 的值完全由在 R(A

^T

) 上的值所決定。令 P 為一 R

ⁿ

在 R(A

^T

) 上之正交投影, 則我們有

P(−→x) = P(−→x

r

+ −→x

n

) = −→x

r

。因此

A(−→x) = A(−→x

r

) = A(P(−→x))。

所以, 如果我們能決定P(−→x)之長像, 則A(−→x) 之形像也跟著決定。

而現在因為 A 為一線性泛函, m= 1 且 A 6= 0 , 因此由定理 1 知

dim R(A

^T

) = dim R(A) = 1。

令 −→z ∈ R(A

^T

), −→z 6= 0, 則

R(A

^T

) =< −→z >= {α−→z |α ∈ R}。

由正交投影知

P(x) = < −→x , −→z >

k−→z k

²

−→z 所以A(−→x) = A(−→x

_r

) = A(P(−→x))

= A < −→x , −→z >

k−→z k

²

· −→z

!

= < x, −→z >

k−→z k

²

· A(−→z )

= < −→x ,A(−→z)

k−→zk

²

· −→z >

令 y ≡ A(−→z)

k−→z k

²

−→z 即為所求。

註1: 這個證明方法並沒有維數的限制, 對一般的內積空間 (inner produt space) 皆可。

註2: 因為用到投影的概念, 因此在無形中, 我們已經將最短距離或變分學的概念注入這定理中。而事實上這定理本身已具有變分原理(variational principle) 的內涵。在偏微分方程 (P.D.E) 這定理是弱解 (weak solution) 存在的最好證明工具呢!

最小二乘方:

(7)

關於 Fredholm Alternative 定理的另一個重要應用便是最小二乘方 (least- square)。由前面之理論知, 若 −→

b 不屬於行空間 (column space) 則聯立方程組 (矩陣 A 並沒有限制一定是方陣)

A−→x =−→ b

無法求得其解。但在現實情形與應用, 期待一個非奇異方陣是不實際的。因此我們需要有某些方法以面對殘酷的現實。

我們的問題如下: 試求一直線: b = C + Dt 或一拋物線 b = C + Dt + Et

²

通過 (t

1

, b

1

) · · · (t

m

, b

m

) 這些點?

首先我們將問題表為聯立方程組, 即



 



 



C+ Dt

1

= b

1

...

C+ Dt

m

= b

m

或



 



 



C+ Dt

1

+ Et

² 1

= b

1

(13) ...

C+ Dt

m

+ Et

² _m

= b

m

乍見之下該聯立方程組為二個未知數 (C, D) (或 3 個未知數 (C, D, E) ) 卻要滿足 m 個方程式, 這顯然是要求過多。上面之聯立方程組可表為







A−→x =−→ b

−

→x = (C, D)

^t

或 −→x = (C, D, E)

^t

(14) 而 A 則為一 m × 2 或 m × 3 矩陣, 因此 A−→x = −→

b 要有解, 唯一可能的是這些點都

落在同一直線上 (或拋物線上), 即 −→ b 是落在矩陣 A 之行空間上。這種向量 −→

b 是限制過大, 所以我們問問題的方式需略作改變, 即求向量 −→x 使得

A−→x −−→

b 之長度為最短 (15) 或者是求向量 −→x 使得

η= (A−→x −−→

b) · (A−→x −−→

b ) = |A−→x −−→ b|

²

之值為最小 (16)

由於 A−→x 始終是行向量, 因此上面之問題相當於是

求向量−→

b 至行空間之最短距離? (17) 而眾所周知, 求最短距離當然是與投影 (pro- jection) 有關聯。若 −→p 為向量−→

b 在行空間上之投影, 則向量 −→e =−→

b − −→p 為所求, 而且 −→e 與行空間垂直, 即 −→e ∈ Ker(A

^T

)。

A

^T

−→e = A

^T

(−→

b − −→p) = 0 (18) 令

−

→p = Ax (19)

因此 (18) 等於告訴我們 A

^T

Ax= A

^T

−→

b (20)

(20) 式就是通常所說的正則方程式 (normal equation), 上面之結果可以圖來表示。

(8)

−

→p x

0 R

^N

Ax= −→p

.

...

A−→x =−→ b −→

b = −→p + −→e

.

...

... . . . .. . . . . . .. . .

列空間 .

(row space)

. .. .. . .. .. . .. .. .. .. . .. .. . .. .. .. . .. .. .. . .. .. . .. .. .. .. . .. .. . .. .. .. . . ... . ...

行空間

−

→e

(column space)

. ...

. . .. .. .. .. .. .. .

...

.. .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. . . .. .. . .. . .. .. .. . .. .. . .. . ...

(null space) 核空間

R

^q

R

^{N −q}

正則方程式亦可由微分而來(最短距離當然是與微分有關) η(−→x) = η(x

1

· · · x

N

) (21)

= (A−→x −−→

b ) · (A−→x −−→ b )

= (A

^T

A−→x − 2A

^T

−→

b ) · −→x +−→ b ·−→

b

則 ∂η

∂x

i

= 0 i = 1, · · · N 得 A

^T

A−→x = A

^T

−→

b 為了方便, 令

A˜= A

^T

A ˜b = A

^T

−→

b (22) 因此正則方程式可改寫為

Ax˜ = ˜b (23) 該方程式有利之處在不管原矩陣 A 是否為方陣, ˜A = A

^T

A 一定是個“對稱方陣”, 故前面的 Fredholm- Alternative 定理現在就可派上用場, 即 (23) 要有解其充分必要條件為

˜b⊥N( ˜A

^T

)

不失一般性可設

(

dim N( ˜A) = dim N( ˜A

^T

) = q

dim R( ˆA) = N − q (24) 因為 ˜A 為對稱矩陣, 故存在正交矩陣 P , P · P

^T

= I , 使得

P

^T

AP˜ = 0 0 0 D

!

(25)

= P

^T

A

^T

(AP ) = (AP )

^T

(AP )

D 為一(N − q) × (N − q) 對角矩陣, 即

D=



 



λ

q+1

0 . ..

0 λ

N



 



(26) 且 detD 6= 0 , 我們現在決定矩陣 P 。可設

P = [−→ϕ

1

,· · · −→ϕ

_q

,→−

ξ

_q+1

,· · · ,−→

ξ

_N

] (27)

(9)

−

→ϕ

_i

, 1 ≤ i ≤ q。−→

ξ

_j

, q+ 1 ≤ j ≤ N 為行向量, 其中 (可由 (24) 式看出來)

span{−→ϕ

1

· · · −→ϕ

_q

} = Ker(A) 從 (24) 可得

AP = [(AP )

1

,· · · , (AP )

q

,(AP )

q+1

,· · · , (AP )

N

]

= [A−→ϕ

1

· · · A−→ϕ

_q

, A−→

ξ

_q+1

,· · · , A−→ ξ

_N

]

= [0, · · · 0, A−→

ξ

_q+1

,· · · , A−→

ξ

_N

] (28)

因此再一次由 (24) 可知



 



 



(AP )

i

· (AP )

j

= (AP )

^T _i

(AP )

j

= 0 i6= j i= j ≤ q

(AP )

j

· (AP )

j

= (AP )

^T _j

(AP )

j

= λ

j

j > q

(29) 而且

h

Ker(A

^T

)

ⁱ ^⊥

= [A−→

ξ

_q+1

,· · · , A−→ ξ

_N

]

= [(AP )

q+1

,· · · , (AP )

N

] (30)

現在定義

−

→z = P

^T

−→x = (z

1

· · · z

N

)

^T

(31) 故由正則方程式 (28),(29) 知

0 0 0 D

!

−

→z (32)

= P

^T

AP −˜ →z = P

^T

A

^T

AP P

^T

−→x

= P

^T

(A

^T

A−→x) = P

^T

A

^T

−→

b = (AP )

^T

−→ b

= (0, · · · , 0, Aξ

q+1

,· · · , Aξ

N

)

^T

−→ b

= (0, · · · , 0, (Aξ

q+1

)

^T

−→

b ,· · · , (Aξ

N

)

^T

−→ b )

比較各座標知







λ

_i

z

_i

= A−→ ξ

_i

·−→

b q+ 1 ≤ i ≤ N z

1

· · · z

q

則為任意數

(33) 故待求之 x 可表為

x=

X q

i=1

z

i

−→ϕ

_i

+

X N

i=q+1

(A−→ ξ

_i

·−→

b ) λ

_i

−

→ξ

_i

(34)

直接檢驗可得

A

^T

Ax= A

^T

−→ b 如果取

−

→b

_R

=−→ b −

X q

j=1

(−→

b · −→ϕ

_i

)−→ϕ

_i

(35) 則可得

引理: Ax = b

R

。

綜合上面之討論, 我們整理如下:

方程式 A−→x =−→

b 有解之充分必要條件為

定理: (Fredholm Alternative) 方程組 A−→x = −→

b 有解之充分必要條件為 −→

b ∈ Ker(A

^T

)

^⊥

, 而且其解可表為

x=

X q

i=1

z

_i

−→ϕ

_i

+

X N

i=q+1

(A−→ ξ

_i

·−→

b ) λ

i

−

→ξ

_i

其中 z

1

· · · z

q

為任意常數。如果 −→ b =

−

→b

R

, 則存在唯一 −→w

^∗

∈ Ker(A

^T

)

^⊥

使得 A−→w

^∗

=−→

b

R

。

參考資料

(10)

1. Gilbert Strang, The Fundamental The- orm of Linear Algebra American, Mathematical Monthly, 100 (1993), 848 - 855.

2. Gilbert Strang, Linear Algebra and Its Applications, 3rd ed., Harcourt Brace

Jovanovich (1988).

3. Gilbert Strang, Introduction to Linear Algebra, Wellesley - Cambridge Press (1993).

—

本文作者任教於成功大學數學系

線性代數的基本定理

線性代數的基本定理

林琦焜

前言:

矩陣 的本質:

n

m

1

2

n

T

n

1

2

m

T

m



 



11

1n

21

2 n

m1

mn



 



ij

1

n

j



 

 

 

1 j

2 j

mj



 

 

 



 

 

 

11

1 n

21

2n

m1

mn



 

 

 



 

 

 

1

n



 

 

 

1

1

n



 



1

n



 



1

矩陣的本質:

ⁿ

^m

^T

ⁿ

^T

^m

_n

ⁿ

_n

_k1

_kl