線性代數的基本定理
林琦焜
前言:
最近在 American Mathematical Monthly 閱讀到 Gilbert Strang 探討線 性代數之文章, 讀後收穫良多, 尤其幾個圖形 實在有教學上之價值。 在感動之餘想想何不 動手, 以 Gilbert Strang 之文章為藍本, 同 時把自己讀書與教學之心得將之整理後, 以 與中文之讀者一起分享。
此文主要探討的是 Fredholm Altena- tive 定理, 要提醒的是雖然我們僅在有限的 空間上討論, 但實際上都可推廣至無限維空 間, 而這就是泛函分析 (functional analy- sis) 所研究的主題之一。
矩陣 的本質:
要瞭解線性代數, 最直接且最有動機莫 若於從求聯立方程組的解開始。
A−→x = −→
b A: R
n
→ Rm
(1) 其中−
→x = (x
1
, x2
· · · xn
)T
∈ Rn
−
→b = (b
1
, b2
· · · bm
)T
∈ Rm
在此向量都是以行向量來表示。 其中 A 是一 個 m × n 矩陣
A =
a
11
. . . a1n
a
21
. . . a2 n
a
m1
. . . amn
a
ij
∈ R, 1 ≤ i ≤ m, 1 ≤ j ≤ n (2)首先我們將矩陣 A 視為向量。(實際上 矩陣是向量的推廣)
A = [A
1
, . . . , An
] (3)A
j
=
a
1 j
a
2 j
...
a
mj
1 ≤ j ≤ n (4)
有了上述之結果, 我們可將 (1) 式的左邊表 為向量的線性組合:
A−→x =
a
11
. . . a1 n
a
21
. . . a2n
... ... ...
a
m1
. . . amn
x
1
... ...
x
n
1
= [A
1
, . . . , An
]
x
1
... x
n
= x
1
A1
+ · · · + xn
An
=−→b (5)
註(A): 如果我們將向量
x
1
...
x
n
視為矩 陣的話, 則 (5) 式同時也告訴我們, 矩陣乘在 右手邊其運算為行運算。 (同理乘在左手邊則 為列運算。) 而其法則為x
1
× (第一行) + x2
× (第二行) + · · · +xn
× (第 n 行) (6)註 (B): 由 (5) 式我們也可略窺 “行 空間” (column space) 的雛形, 由此角度 而言, 求 A−→x = −→
b 的解, 相當於求所有 A
1
· · · An
的線性組合正好等於 −→b , 即求 (x
1
· · · xn
) ∈ Rn
使得x
1
A1
+ · · · + xn
An
=−→ b註 (C): (5) 式可幫助我們明白矩陣的 結合律, 一般在線性代數的課本是將矩陣視 為線性變換 (linear transformation), 因此 矩陣的結合律可視為是函數之合成的結合律, 但這種作法, 對學生而言, 幫助並不大。 在這 裡我們希望藉由 (5) 及一些簡單的基本運算 來証明矩陣的結合律
A(BC) = (AB)C。
由(5) 式知向量 A−→x 為矩陣 A 之行向量的 線性組合, 利用這個概念, 我們可以對矩陣的
乘法有另一個角度的體會, 給定任一矩陣 B = [B
1
, B2
,· · · Bk
]B
i
為矩陣 B 之第 i 行向量, 因此矩陣 A 與 矩陣 B 之相乘可表為AB = A[B
1
, B2
,· · · Bk
]= [AB
1
, AB2
,· · · , ABk
]即矩陣 AB 的第 i 行向量 (AB)
i
為矩陣 A 乘矩陣 B 的第 i 行向量 ABi
。 由 (5) 式知 ABi
要有意義其先決條件為 Bi
為一 n 維行 向量, 即矩陣 B 為一 n × k 矩陣B = [B
1
, B2
,· · · , Bk
]=
b
11
. . . b1 k
... ...
b
n1
. . . bnk
同理, 矩陣 BC 要有意義為 C 為一 k × l 矩 陣。
C = [C
1
,· · · , Cl
] =
c
11
. . . b1 l
... ...
c
k1
. . . ckl
我們現在考慮矩陣之結合律, 由 (5) 式知 A(BC
i
) = A(c1 i
B1
+ · · · + cki
Bk
)= c
1 i
AB1
+ · · · + cki
ABk
= [AB
1
,· · · , ABk
]
c
1 i
...
c
ki
= [AB
1
,· · · , ABk
]Ci
再次利用 (5) 式可得矩陣之結合律 A(BC) = A(B[C
1
,· · · , Cl
])= A[BC
1
,· · · , BCl
]= [A(BC
1
), · · · , A(BCl
)]= [(AB)C
1
,· · · , (AB)Cl
]= (AB)[C
1
,· · · , Cl
]= (AB)C
註 (D): (5) 式告訴我們的還不僅如此。
在中學階段就熟知 Cramer 公式, 亦可由此 式再加點行列式的性質而得, 當然還是從解 聯立方程組開始
A−→x =−→ b
此時 A 為一 n × n 矩陣向量, −→x,−→
b 則視為 n× 1 矩陣, 為著簡便用符號 [A←−
i
−→b ] 表示 一 n × n 矩陣, 其中矩陣 A = [A
1
· · · An
] 之第 i 行向量為向量 −→b 所取代, 即 [A←−
i
−→b ] = [A
1
· · · Ai−1
,−→b , A
i+1
,· · · , An
] 但由 (5) 式並利用行運算基本上是矩陣乘在 右手邊之原則得[A
1
· · · Ai−1
, A−→x , Ai+1
,· · · An
]= [A
1
,· · · Ai−1
, x1
A1
+ · · · + xn
An
, Ai+1
,· · · A
n
]= [A
1
,· · · Ai−1
, Ai
, Ai+1
· · · An
]×
1 0 x
1
0 0 0 1 x2
0 0 ... ... ... ... ... 0 0 xn
0 1
= A[I←−−
i
→x]因此聯立方程 A−→x =−→
b 可改寫為 A[I←−−
i
→x] = [A←−i
−→b ]
兩邊同時取行列式得
(det A)(det[I←−−
i
→x]) = det[A←−i
−→ b ] 由 Laplace 展開式或行列式的性質知det[I←−−
i
→x] = xi
, 故 xi
= det[A←−i
−→b ] det A 這就是 Cramer 公式。
基本定理:
習慣上, 我們將行空間 (column space) 記為 R(A), 明顯地 R(A) ⊆ R
m
。 談了 行向量, 行空間自然要提它的孿生兄弟列向 量 (row vecter), 列空間 (row space), 記 為 R(AT
) , 另要提的子空間如下N(A) ≡ {−→x ∈ R
n
|A−→x = 0} ⊆ Rn
(7) N(AT
) ≡ {−→y ∈ Rn
|AT
−→y = 0} ⊆ Rm
(8) 底下我們將注意力都集中在這四個子空 間, 當然讀者可能會問為何要探討這些子空 間, 實際上所有線性代數上的運算與應用皆 可經由子空間的瞭解而來, 例如在中學階段 所學利用加減消去法, 代入消去法來求聯立 方程組的解, 就是無形中已使用到子空間的 某些特性, 其中最重要的一個就是維數 (di- mension) 的不變性。 維數在線性代數中扮演 著極重要的角色。
定理1: (i) dim R(A) = dim R(A
T
) (ii) dim R(A) + dim N(A) = n(i) 式告訴我們行空間 (colum space) 與列空間 (row space) 的維數是一樣的, 如 此的描敘還是抽象了一些, 最好的方式還是 以例子來明瞭定理的意義。 其實學數學最好 的方法即是從“例子”著手。
例1:
A=
0 0 0 0 0 0 0 2 0 0 0 1 0 1 1 0 4 3 4 0
4×5
經過化簡得
A∼
0 4 3 0 0 0 0 2 0 0 1 1 0 0 0 0 0 0 0 0
3
| {z }
3
...
.. .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. . .. ..
因此
dim R(A) = dim R(A
T
) = 3 dim N(A) = 5 − 3 = 2 dim N(AT
) = 4 − 3 = 1對於一般 m × n 矩陣, 經過行運算 (或 列運算) 後可容易判別上述的關係式
例2: A = [A
1
· · · An
] ∼ [B1
· · · Br
,0 · · · 0], {B1
· · · Br
} 是線性獨立, 因此 dim R(A) = r, 由定理 1 知 dim N(A) = n − r 。
線性代數另一個基本定理如下 定理2: N(A)⊥R(A
T
)。這定理告訴我們子空間的正交性 (or- thogonality), 其意義與證明也可從聯立方 程組的解來視出端倪。
A−→x =
−
→B
1
...
−
→B
m
−
→x
=
−
→B
1
· −→x− ...
→B
m
· −→x
=
0...
0
取各分量得
−
→B
1
· −→x = · · · = −→B
n
· −→x = 0−
→x 與所有列向量−→
B
i
, (1 ≤ i ≤ m) 垂直−
→x⊥−→
B
i
(1 ≤ i ≤ m) 因此 −→x⊥P n i=1
bi
−→B
i
即 −→x⊥R(A
T
), ∀−→x ∈ N(A) 所以 N (A)⊥R(AT
)同理, 取轉置 (transpose) 矩陣我們有 定理2’: N(A
T
)⊥R(A)。茲以一個圖形來說明上面二個定理
dim R(A
T
) = rR(A
T
)−
→x
r
R
n
O−
→x = −→x
r
+−→xn
−
→x
n
N(A) dim N(A) = n−r
A−→x
r
=−→ bA−→x = 0 A−→x
n
= 0dim R(A) = r R(A)−→
b R
m
N(AT
)dim N(A
T
) = m − r 列空間............................................................................ ..................................................................................行空間這 圖 形 說 明 了 幾 件 事 實:
(a) R
n
上 的 向 量 −→x 可 分 解 為 兩 個 互 相 垂 直 的 向 量。−
→x = −→x
r
+−→xn
, −→xr
∈ R(AT
), −→xn
∈ N(A) (9) 或R
n
= R(AT
) ⊕ N(A) 實 際 上 此 分 解 是 唯 一 的。(b) A 將 R
n
上 的 任 一 向 量 −→x 帶 到 行 空 間 R(A) , 而 將 核 空 間 (null space) 皆 帶 到 0 向 量。(c) 若 −→
b 落 在 行 空 間 R(A) , 則 聯 立 方 程 組 A−→x = −→
b 是 可 解 的。 換 言 之, 若 −→
b 與 所 有 N(A
T
) 的 向 量 垂 直 (−→b ⊥N(A
T
)) , 則 聯 立 方 程 組 A−→x =−
→b 是 可 解 的。 而 其 解 −→x 可 分 解 為 二 部 份
−
→x = −→x
p
+ −→xh
A−→x = A(−→x
p
+ −→xh
) = A−→xp
+ A−→xh
= −→
b + 0 =−→ b 。
−
→x
p
為 (1) 式 之 特 解 (particular solu- tion) −→xh
為 (1) 式 之 均 勻 解 (homoge- neous solution) 而 −→xp
+ −→xh
為 一 般 解 (general solution), −→xp
稱 為 特 解 是 因 為−
→x
p
⊥−→xh
, ∀−→xh
∈ N(A)。 (10) 另 外 順 便 一 提 的 是 所 有 均 勻 解 所 成 的 空 間 正 好 是 核 空 間 (null space)N(A) = {−→x
h
∈ Rn
|A−→xh
= 0}註: 上 面(c) 所 談 的 在 無 窮 維 空 間 亦 有 相 類 似 的 結 果, 其 實 這 就 是 泛 函分 析 (functional analysis) 或 積 分 方 程 (integral equation ) 裡 著 名 的 Fredholm Alternative 定理。
註: 若 將A視 為 一 微 分 算 子 (dif- ferential operator), 則 (c) 所 言 在 微 分 方 程 也 有 相 對 應 的 結 果。 讀 者 若 有 興 趣 可 自 行 驗 證。 事 實 上, 我 們 所 提
的 線 性 代 數 的 基 本 定 理 是 可 直 接 推 廣 至 無 窮 維 空 間。
如 果 值 域 為 一 維, 即 m = 1 A: R
n
→ R (11) 則A為 一 有 界 線 性 泛 函 (bounded lin- ear functional)。 由 Riesz 表 現 定 理 告 訴 我 們, A 可 表 為 一 內 積 之 形 式。Riesz 表現定理: A 為 一 有 界 線 性 泛 函 從 R
n
映到 R。 A : Rn
→ R 有 界, 線 性。則 存 在 唯 一 −→y ∈ R
n
使 得A(−→x) = (−→x , −→y) ∀ −→x ∈ R
n
。 (12) 利 用 上 述 之 結 果, 再 加 上 一 點 正 交 投 影 之 概 念 可 容 易 地 證 明 且 明 白 Riesz 表 現 定 理 的 幾 何 意 義:定理證明: (不 失 一 般 性 可 設 A 6= 0 )
∀ −→x ∈ R
n
可 表 為−
→x = −→x
r
+−→xn
, −→xr
∈ R(AT
), −→xn
∈ N(A) A(−→x) = A(−→xr
+ −→xn
) = A(−→xr
) + A(−→xn
)= A(−→x
r
)。上 式 告 訴 我 們 A 的 值 完 全 由 在 R(A
T
) 上 的 值 所 決 定。 令 P 為 一 Rn
在 R(AT
) 上 之 正 交 投 影, 則 我 們 有P(−→x) = P(−→x
r
+ −→xn
) = −→xr
。 因 此A(−→x) = A(−→x
r
) = A(P(−→x))。所 以, 如 果 我 們 能 決 定P(−→x)之 長 像, 則A(−→x) 之 形 像 也 跟 著 決 定。
而 現 在 因 為 A 為 一 線 性 泛 函, m= 1 且 A 6= 0 , 因 此 由 定 理 1 知
dim R(A
T
) = dim R(A) = 1。令 −→z ∈ R(A
T
), −→z 6= 0, 則R(A
T
) =< −→z >= {α−→z |α ∈ R}。由 正 交 投 影 知
P(x) = < −→x , −→z >
k−→z k
2
−→z 所 以A(−→x) = A(−→xr
) = A(P(−→x))= A < −→x , −→z >
k−→z k
2
· −→z!
= < x, −→z >
k−→z k
2
· A(−→z )= < −→x ,A(−→z)
k−→zk
2
· −→z >令 y ≡ A(−→z)
k−→z k
2
−→z 即 為 所 求。註1: 這 個 證 明 方 法 並 沒 有 維 數 的 限 制, 對 一 般 的 內 積 空 間 (inner produt space) 皆 可。
註2: 因 為 用 到 投 影 的 概 念, 因 此 在 無 形 中, 我 們 已 經 將 最短距 離或 變分學的 概 念 注 入 這 定 理 中。 而 事 實 上 這 定 理 本 身 已 具 有 變 分 原 理(variational principle) 的 內 涵。 在 偏 微 分 方 程 (P.D.E) 這 定 理 是 弱 解 (weak solution) 存 在 的 最 好 證 明 工 具 呢!
最小二乘方:
關於 Fredholm Alternative 定理 的另一個重要應用便是最小二乘方 (least- square)。 由前面之理論知, 若 −→
b 不屬於行 空間 (column space) 則聯立方程組 (矩陣 A 並沒有限制一定是方陣)
A−→x =−→ b
無法求得其解。 但在現實情形與應用, 期待一 個非奇異方陣是不實際的。 因此我們需要有 某些方法以面對殘酷的現實。
我們的問題如下: 試求一直線: b = C + Dt 或一拋物線 b = C + Dt + Et
2
通過 (t1
, b1
) · · · (tm
, bm
) 這些點?首先我們將問題表為聯立方程組, 即
C+ Dt
1
= b1
...
C+ Dt
m
= bm
或
C+ Dt
1
+ Et2 1
= b1
(13) ...C+ Dt
m
+ Et2 m
= bm
乍見之下該聯立方程組為二個未知數 (C, D) (或 3 個未知數 (C, D, E) ) 卻要滿足 m 個 方程 式, 這顯然是要求過多。 上面之聯立方 程組可表為
A−→x =−→ b
−
→x = (C, D)
t
或 −→x = (C, D, E)t
(14) 而 A 則為一 m × 2 或 m × 3 矩陣, 因此 A−→x = −→b 要有解, 唯一可能的是這些點都
落在同一直線上 (或拋物線上), 即 −→ b 是落 在矩陣 A 之行空間上。 這種向量 −→
b 是限制 過大, 所以我們問問題的方式需略作改變, 即 求向量 −→x 使得
A−→x −−→
b 之長度為最短 (15) 或者是求向量 −→x 使得
η= (A−→x −−→
b) · (A−→x −−→
b ) = |A−→x −−→ b|
2
之值為最小 (16)
由於 A−→x 始終是行向量, 因此上面之問題相 當於是
求向量−→
b 至行空間之最短距離? (17) 而眾所周知, 求最短距離當然是與投影 (pro- jection) 有關聯。 若 −→p 為向量−→
b 在行空間 上之投影, 則向量 −→e =−→
b − −→p 為所求, 而 且 −→e 與行空間垂直, 即 −→e ∈ Ker(A
T
)。A
T
−→e = AT
(−→b − −→p) = 0 (18) 令
−
→p = Ax (19)
因此 (18) 等於告訴我們 A
T
Ax= AT
−→b (20)
(20) 式就是通常所說的正則方程式 (normal equation), 上面之結果可以圖來表示。
−
→p x
0 R
N
Ax= −→p
.
...
A−→x =−→ b −→
b = −→p + −→e
.
...
... . . . .. . . . . . .. . .
列 空 間 .
(row space)
. .. .. . .. .. . .. .. .. .. . .. .. . .. .. .. . .. .. .. . .. .. . .. .. .. .. . .. .. . .. .. .. . . ... . ...
行 空 間
−
→e
(column space)
. ...
. . .. .. .. .. .. .. .
...
.. .. .. .. . .. .. . .. . .. .. .. . .. .. . .. . .. . . .. .. . .. . .. .. .. . .. .. . .. . ...
(null space) 核 空 間
R
q
R
N −q
正 則 方 程 式 亦 可 由 微 分 而 來(最 短 距 離 當 然 是 與 微 分 有 關) η(−→x) = η(x
1
· · · xN
) (21)= (A−→x −−→
b ) · (A−→x −−→ b )
= (A
T
A−→x − 2AT
−→b ) · −→x +−→ b ·−→
b
則 ∂η
∂x
i
= 0 i = 1, · · · N 得 A
T
A−→x = AT
−→b 為 了 方 便, 令
A˜= A
T
A ˜b = AT
−→b (22) 因 此 正 則 方 程 式 可 改 寫 為
Ax˜ = ˜b (23) 該 方 程 式 有 利 之 處 在 不 管 原 矩 陣 A 是 否 為 方 陣, ˜A = A
T
A 一 定 是 個“對 稱 方 陣”, 故 前 面 的 Fredholm- Alternative 定 理 現 在 就 可 派 上 用 場, 即 (23) 要 有 解 其 充 分 必 要 條 件 為˜b⊥N( ˜A
T
)不 失 一 般 性 可 設
(
dim N( ˜A) = dim N( ˜AT
) = qdim R( ˆA) = N − q (24) 因 為 ˜A 為 對 稱 矩 陣, 故 存 在 正 交 矩 陣 P , P · P
T
= I , 使 得P
T
AP˜ = 0 0 0 D!
(25)
= P
T
AT
(AP ) = (AP )T
(AP )D 為 一(N − q) × (N − q) 對 角 矩 陣, 即
D=
λ
q+1
0 . ..0 λ
N
(26) 且 detD 6= 0 , 我 們 現 在 決 定 矩 陣 P 。 可 設P = [−→ϕ
1
,· · · −→ϕq
,→−ξ
q+1
,· · · ,−→ξ
N
] (27)−
→ϕ
i
, 1 ≤ i ≤ q。−→ξ
j
, q+ 1 ≤ j ≤ N 為 行 向 量, 其 中 (可 由 (24) 式 看 出 來)span{−→ϕ
1
· · · −→ϕq
} = Ker(A) 從 (24) 可 得AP = [(AP )
1
,· · · , (AP )q
,(AP )q+1
,· · · , (AP )N
]= [A−→ϕ
1
· · · A−→ϕq
, A−→ξ
q+1
,· · · , A−→ ξN
]= [0, · · · 0, A−→
ξ
q+1
,· · · , A−→ξ
N
] (28)因 此 再 一 次 由 (24) 可 知
(AP )
i
· (AP )j
= (AP )T i
(AP )j
= 0 i6= j i= j ≤ q(AP )
j
· (AP )j
= (AP )T j
(AP )j
= λj
j > q
(29) 而 且
h
Ker(AT
)i ⊥
= [A−→ξ
q+1
,· · · , A−→ ξN
]= [(AP )
q+1
,· · · , (AP )N
] (30)現 在 定 義
−
→z = P
T
−→x = (z1
· · · zN
)T
(31) 故 由 正 則 方 程 式 (28),(29) 知0 0 0 D
!
−
→z (32)
= P
T
AP −˜ →z = PT
AT
AP PT
−→x= P
T
(AT
A−→x) = PT
AT
−→b = (AP )
T
−→ b= (0, · · · , 0, Aξ
q+1
,· · · , AξN
)T
−→ b= (0, · · · , 0, (Aξ
q+1
)T
−→b ,· · · , (Aξ
N
)T
−→ b )比 較 各 座 標 知
λ
i
zi
= A−→ ξi
·−→b q+ 1 ≤ i ≤ N z
1
· · · zq
則 為 任 意 數(33) 故 待 求 之 x 可 表 為
x=
X q
i=1
z
i
−→ϕi
+X N
i=q+1
(A−→ ξ
i
·−→b ) λ
i
−
→ξ
i
(34)直 接 檢 驗 可 得
A
T
Ax= AT
−→ b 如 果 取−
→b
R
=−→ b −X q
j=1
(−→
b · −→ϕ
i
)−→ϕi
(35) 則 可 得引理: Ax = b
R
。綜 合 上 面 之 討 論, 我 們 整 理 如 下:
方 程 式 A−→x =−→
b 有 解 之 充 分 必 要 條 件 為
定理: (Fredholm Alternative) 方 程 組 A−→x = −→
b 有 解 之 充 分 必 要 條 件 為 −→
b ∈ Ker(A
T
)⊥
, 而 且 其 解 可 表 為x=
X q
i=1
z
i
−→ϕi
+X N
i=q+1
(A−→ ξ
i
·−→b ) λ
i
−
→ξ
i
其 中 z
1
· · · zq
為 任 意 常 數。 如 果 −→ b =−
→b
R
, 則 存 在 唯 一 −→w∗
∈ Ker(AT
)⊥
使 得 A−→w∗
=−→b