由前面已知, 若能找到 W 的一組 orthogonal basis w1, . . . , wn, 則我們可以很容易的 將任意 W 中的向量寫成 w1, . . . , wn 的線性組合. 這似乎克服了前面所述較複雜的部份.
事實上確實如此, 若能找到 W 的一組 orthogonal basis w1, . . . , wn, 則我們便可以輕易地 得到 v 在 W 的 projection 了. 這是因為若 w = ProjW(v) 且 w = c1w1+··· + cnwn. 此 時由於 v− w ∈ W⊥, 對於所有 i = 1, . . . , n, 我們有 ⟨v,wi⟩ − ⟨w,wi⟩ = ⟨v − w,wi⟩ = 0. 因 此得 ⟨v,wi⟩ = ⟨w,wi⟩ = ci⟨wi, wi⟩, 亦即 ci =⟨v,wi⟩/⟨wi, wi⟩. 所以我們得到一個很簡捷求 projection 的方法.
Theorem 4.3.8. 假設 V 為 inner product space, W 為 V 的 subspace 且 w1, . . . , wn 為 W 的一組 orthogonal basis. 若 v∈ V, 則 v 在 W 的 projection 為
ProjW(v) =⟨v,w1⟩
∥w1∥2w1+··· +⟨v,wn⟩
∥wn∥2wn. 特別的當 w1, . . . , wn 為 W 的一組 orthonormal basis, 則
ProjW(v) =⟨v,w1⟩w1+··· + ⟨v,wn⟩wn.
Proof. 令 w = c1w1+··· + cnwn, 其中 ci=⟨v,wi⟩/⟨wi, wi⟩, ∀i = 1,...,n. 此時 w ∈ W, 且對 任意 i = 1, . . . , n 皆有
⟨v − w,wi⟩ = ⟨v,wi⟩ − ⟨w,wi⟩ = ⟨v,wi⟩ −
∑
nj=1
cj⟨wj, wi⟩ = ⟨v,wi⟩ − ci⟨wi, wi⟩ = 0.
故由 Lemma 4.3.3 知 v− w ∈ W⊥. 因此由 projection 的唯一性 (Proposition 4.3.5) 知
w =ProjW(v).
我 們 已 經 知 道 只 要 找 到 W 的 一 組 orthogonal basis, 就 可 以 輕 易 求 得 v 在 W 的 projection. 對一般 inner product space, 我們將介紹一個方法找到它的一組 orthogonal basis, 也因此證明了對於一般的 inner product space 一定存在 orthogonal basis (以及 orthonormal basis). 這個方法就是所謂的 Gram-Schmidt process.
給定 V 的一個 nonzero subspace W , 且假設 dim(W ) = n. 首先我們說明若 w1, . . . , wk∈ W 為非零向量且滿足⟨wi, wj⟩ = 0, ∀i ̸= j, 則 w1, . . . , wk 為 linearly independent. 這是因為若 不是 linearly independent 表示存在 c1, . . . , ck∈ R 不全為 0 使得 c1w1+··· + ckwk= 0. 然而 對任意 i = 1, . . . , k 由於 0 =⟨c1w1+···+ckwk, wi⟩ = ci∥wi∥2. 也因此由∥wi∥ ̸= 0, 得證 ci= 0.
此和 c1, . . . , ck 不全為 0 的假設相矛盾, 故知 w1, . . . , wk 為 linearly independent. 因此要找 到 W 的一組 orthogonal basis, 我們只要在 W 中找到 w1, . . . , wn 滿足⟨wi, wj⟩ = 0, ∀i ̸= j 即 可, 因為它們是 linearly independent 且 dim(W ) = n, 故知它們是 W 的一組 basis. 接下來我 們要說明在 W 中如何找到這樣的一組 nonzero vectors.
首先因 W ̸= {0}, 故可在 W 中取一 nonzero vector v1. 為了方便起見我們令 w1= v1 且 W1= Span(v1) = Span(w1). 若 dim(W ) = 1, 則 W = W1 故 w1 就是 W 的一個 orthogonal basis. 而若 dim(W ) > 1, 則因 W1( W, 我們可以找到 nonzero vector v2∈ W 且 v2̸∈ W1. 現 在我們要利用 v2, 找到 w2∈ W 滿足 w2̸= 0 且 ⟨w1, w2⟩ = 0. 很自然的, 我們會考慮 w2= v2−ProjW1(v2),因為此時 w2∈ W1⊥, 而 W1= Span(w1),故當然有⟨w1, w2⟩ = 0. 我們也要說明
w2̸= 0. 這是因為若 w2= 0, 會得到 v2= ProjW1(v2)∈ W1, 此與當初 v2̸∈ W1的假設相矛盾. 另 一方面因為 W = Span(w1), 利用 Proposition 4.1.9 我們知 ProjW1(v2) = (⟨v2, w1⟩/∥w1∥2)w1, 所以我們知
w2= v2−⟨v2, w1⟩
∥w1∥2 w1.
另外要注意的是 Span(w1, w2) = Span(v1, v2), 這是因為依 w1, w2 的選取, 我們有 w1, w2∈ Span(v1, v2), 因 此 Span(w1, w2)⊆ Span(v1, v2). 然 而 因 為 v1, v2 為 linearly independent 且 w1, w2 為 linearly independent, 故 由 dim(Span(w1, w2)) = dim(Span(v1, v2)) = 2 得 證 Span(w1, w2) = Span(v1, v2). 為了方便起見, 我們令 W2= Span(w1, w2) = Span(v1, v2). 現若 dim(W ) = 2, 則 W = W2, 故 w1, w2 為 W 的一組 orthogonal basis. 而若 dim(W ) > 2, 則 因 W2( W, 我們可以找到 nonzero vector v3∈ W 且 v3 ̸∈ W2. 現在我們要利用 v3, 找到 w3∈ W 滿足 w3̸= 0 且 ⟨w1, w3⟩ = ⟨w2, w3⟩ = 0. 同前, 我們考慮 w3= v3− ProjW2(v3), 因為 此時 w3∈ W2⊥, 而 W2= Span(w1, w2), 故當然有⟨w1, w3⟩ = ⟨w2, w3⟩ = 0. 另外因 v3̸∈ W2, 同 前面的理由我們有 w3̸= 0. 另一方面因為 w1, w2 為 W2 的 orthogonal basis, 利用 Theorem 4.3.8 我們得
w3= v3− ProjW2(v3) = v3−⟨v3, w1⟩
∥w1∥2 w1−⟨v3, w2⟩
∥w2∥2 w2.
最後和前面同樣的理由, 我們有 Span(w1, w2, w3) = Span(v1, v2, v3). 這樣一直下去, 我們可以 得到 Wk = Span(w1, . . . , wk) = Span(v1, . . . , vk) 且 w1, . . . , wk 是 Wk 的一組 orthogonal basis.
現若 k = dim(W ) = n, 則得 Wk = W , 所以 w1, . . . , wk 是 W 的一組 orthogonal basis. 而若 k < n, 則存在 vk+1∈ W 且 vk+1̸∈ Wk. 故令
wk+1= vk+1− ProjWk(vk+1) = vk+1−⟨vk+1, w1⟩
∥w1∥2 w1−⟨vk+1, w2⟩
∥w2∥2 w2− ··· −⟨vk+1, wk⟩
∥wk∥2 wk, 則得 wk+1̸= 0 且 ⟨wk+1, wi⟩ = 0, ∀i = 1,...,k. 另外因 w1, . . . , wk, wk+1∈ Span(v1, . . . , vk, vk+1), 同上可得 Span(w1, . . . , wk, wk+1) = Span(v1, . . . , vk, vk+1),故令 Wk+1= Span(w1, . . . , wk, wk+1) = Span(v1, . . . , vk, vk+1), 我們有 w1, . . . , wk, wk+1 為 Wk+1 的一組 orthogonal basis. 這樣一直下 去直到得到 Wn= W , 這樣 w1, . . . , wn 就是 W 的一組 orthogonal basis.
上述 Gram-Schmidt process 中 v1, . . . , vn 的選取事實上和我們過去找 vector space 的 basis 方法是一樣的. 差別就是我們要將 v1, . . . , vn 這組 basis 修改成 w1, . . . , wn 這一組 orthogonal basis. 因此如果一開始已給定 W 的一組 basis v1. . . , vn, 我們可以將之直接套用, 因此有以下的結果.
Theorem 4.3.9 (Gram-Schmidt Process). 假設 V 為 inner product space, W 為 V 的 subspace 且 v1, . . . , vn 為 W 的一組 basis. 令
w1= v1, w2= v2−⟨v2, w1⟩
∥w1∥2 w1, . . . 這樣一直下去, 即對於 i = 1, . . . , n− 1 令
wi+1= vi+1−⟨vi+1, w1⟩
∥w1∥2 w1−⟨vi+1, w2⟩
∥w2∥2 w2− ··· −⟨vi+1, wi⟩
∥wi∥2 wi,
則 w1, . . . , wn 為 W 的一組 orthogonal basis. 而且
Span(w1, . . . , wi) = Span(v1, . . . , vi), ∀i = 1,...,n.
Gram-Schmidt process 確保了 orthogonal basis 的存在性, 而當 v1, . . . , vn 為其 orthogo- nal basis 時, 我們可以除去其長度得到 (1/∥v1∥)v1, . . . , (1/∥vn∥)vn這一組 orthonormal basis.
利用 orthogonal basis 的存在性, 我們也就得到了 orthogonal projection 的存在性了. 也 就是說當 V 為 inner product space 且 W 為其 subspace, 我們就可以利用 Gram-Schmidt process 找到 W 的一組 orthogonal basis, 然後利用 Theorem 4.3.8, 得到任意 V 中的向量 v 在 W 上的 orthogonal projection 了.
Example 4.3.10. 我們要用 orthogonal basis 來處理 orthogonal projection 的問題. 我們 在 R4 使用 dot product, 考慮 v =
2 0 1 4
在 W = Span(
1 2 2 1
,
3 4 2 3
) 的 orthogonal projection.
首先找 W 的一組 orthogonal basis. 令
w1=
1 2 2 1
, w2=
3 4 2 3
−18 10
1 2 2 1
= 2 5
3 1
−4 3
.
此時 w1, w2 為 W 的一組 orthogonal basis, 故利用 Theorem 4.3.8 得
ProjW(v) = ⟨v,w1⟩
∥w1∥2w1+⟨v,w2⟩
∥w2∥2w2= 8 10
1 2 2 1
+28/5 28/5×2
5
3 1
−4 3
=
2 2 0 2
.
雖然 Theorem 4.3.9 的敘述是找到 V 的 subspace W 的 orthogonal basis, 不過因 W 是 V 中任意的 subspace, 所以當 W 為 V 時, 我們也就找到 V 的 orthogonal basis 了. 所以對任意 finite dimensional inner product space, Gram-Schmidt process 都能幫我們找到 orthogonal basis. 注意這裡需要有限維的假設, 因為整個過程我們是一個一個置換這些向量, 所以有限 多個向量才可全部置換完成. Theorem 4.3.9 的敘述牽涉到 V 的 subspace W 主要用意是, 我們不只可找到 W 的 orthogonal basis, 也可繼續這個 process, 而將 W 的 orthogonal basis 擴大成 V 的 orthogonal basis. 這是因為若 W ̸= V, 當找到 w1, . . . , wn 為 W 的 orthogonal basis 後我們可以繼續考慮 vn+1∈ V 但 vn+1 ̸∈ W, 然後利用 Gram-Schmidt process 得到 wn+1= vn+1− ProjW(vn+1)∈ W⊥. 這樣一直下去直到得到 V 的一組 orthogonal basis 為止.
也因此我們得到以下之結果.
Corollary 4.3.11. 假設 V 為 inner product space, W 為 V 的 subspace. 若 dim(V ) = m 且 dim(W ) = n, 則存在 V 的一組 orthogonal basis v1, . . . , vn, . . . , vm, 其中 v1, . . . , vn 是 W 的 orthogonal basis.
Example 4.3.12. 考慮R4 中以 dot product 所形成的 inner product space. 令
v1=
1 1 1 1
, v2=
3 1
−1 1
, v3=
1 1 3 3
,
我們要求 W = Span(v1, v2, v3)的一組 orthogonal basis, 並將之擴大成R4的一組 orthogonal basis. 首先令 w1= v1, 得
w2= v2−⟨v2, w1⟩
∥w1∥2 w1=
3 1
−1 1
−4 4
1 1 1 1
=
2 0
−2 0
.
最後得
w3= v3−⟨v3, w1⟩
∥w1∥2 w1−⟨v3, w2⟩
∥w2∥2 w2=
1 1 3 3
−8 4
1 1 1 1
−−4 8
2 0
−2 0
=
0
−1 0 1
.
由於 dim(V ) = 3 且 dim(R4) = 4, 我 們 需 要 再 找 到 一 個 向 量 以 形 成 R4 的 basis. 考慮
v4=
0 0 0 1
, 我們可以檢查 v4̸∈ W (或直接套用 Gram-Schmidt process, 若 v4∈ W, 會得到
v4− ProjW(v4) = 0. 若真如此就再換一個向量). 得
w4= v4−⟨v4, w1⟩
∥w1∥2 w1−⟨v4, w2⟩
∥w2∥2 w2−⟨v4, w3⟩
∥w3∥2 w3=
0 0 0 1
−1 4
1 1 1 1
−1 2
0
−1 0 1
= 1 4
−1 1
−1 1
.
此時 w1, w2, w3, w4 就是 R4 的一組 orthogonal basis, 其中 w1, w2, w3 是 W 的 orthogonal basis.
對於每一個 wi, 我們可以除以其長度 ∥wi∥, 得到一組 orthonormal basis
u1=1 2
1 1 1 1
,u2= 1
√2
1 0
−1 0
,u3= 1
√2
0
−1 0 1
,u4=1 2
−1 1
−1 1
.
接下來我們看幾個有關 orthogonal basis 的應用. 由於利用 orthonormal basis 會比較 方便 (省去除掉長度的麻煩), 所以以下都用 orthonormal basis 處理. 首先當 W 是 inner product space V 的 subspace, 我們知道 W⊥ 也是 V 的 subspace. 很自然的我們會想要 知道 dim(W⊥) 和 dim(W ) 的關係. 當我們利用 Corollary 4.3.11 找到 u1, . . . , un, . . . , um 是 V 的一組 orthonormal basis, 其中 u1, . . . , un 為 W 的 orthonormal basis, 我們就可以將任 意 v∈ W⊥ 寫成 v = c1u1+··· + cnun+ cn+1un+1+··· + cmum. 其中 ci =⟨v,ui⟩ (Proposition 4.3.6 套用 W = V 的情形). 由於 v∈ W⊥, 我們有 ⟨v,ui⟩ = 0, ∀i = 1,...,n (因為這些 ui∈ W).
因此得 v = cn+1un+1+··· + cmum∈ Span(un+1, . . . , um). 反之若 v = cn+1un+1+··· + cmum∈ Span(un+1, . . . , um), 由於當 i̸= j 時 ⟨ui, uj⟩ = 0, 故當 i = 1,...,n 時
⟨v,ui⟩ =
∑
mj=n+1
cj⟨uj, ui⟩ = 0.
因此由 u1, . . . , un 為 W 的 basis 以及 Lemma 4.3.3 得 v∈ W⊥, 也因此我們證明了 W⊥= Span(un+1, . . . , um). 又因為 un+1, . . . , um 為 linearly independent, 故知 un+1, . . . , um為 W⊥ 的 一組 basis (事實上也是 orthonormal basis).
Proposition 4.3.13. 假設 V 為 inner product space, W 為 V 的 subspace 且設 dim(V ) = m, dim(W ) = n. 若 v1, . . . , vn, . . . , vm 為 V 的一組 orthogonal basis 且其中 v1, . . . , vn 是 W 的 orthogonal basis, 則 vn+1, . . . , vm 為 W⊥ 的 orthogonal basis. 特別的, 我們有
dim(W⊥) = dim(V )− dim(W).
Question 4.8. 在 Example 4.3.12 中, 試找到 W⊥ 的一組 basis.
在補集的概念中, 我們知道一個集合的補集再取補集, 會是該集合本身. orthogonal complement 會 不 會 也 有 同 樣 的 情 形 呢? 也 就 是 說 當 W 是 inner product space V 的 subspace, 會 不 會 有 (W⊥)⊥ = W 的 情 形 發 生? 一 般 要 說 明 (W⊥)⊥ = W , 我 們 需 證 明 W ⊆ (W⊥)⊥ 以及 (W⊥)⊥⊆ W. 證明 W ⊆ (W⊥)⊥ 這部分是簡單的, 因為 (W⊥)⊥ 依定義 是所有和 W⊥ 垂直的向量所成的集合, 所以當 w∈ W, 我們要說明 w ∈ (W⊥)⊥ 僅要說明
⟨w,v⟩ = 0, ∀v ∈ W⊥ 即可. 然而任意 v∈ W⊥ 依定義皆會和所有 W 中的向量垂直, 故由 w∈ W, 我們自然有 ⟨w,v⟩ = 0, ∀v ∈ W⊥. 至於 (W⊥)⊥⊆ W, 很不幸的它並不一定會成立. 事 實上在 V 為無限維時可以找到反例. 由於本課程並不涉及無限維的向量空間, 這裡就略去 不談. 不過在 V 為 finite dimensional inner product space, (W⊥)⊥⊆ W 就會成立. 只是它 的證明是無法像前面 W ⊆ (W⊥)⊥ 的情況用集合元素方式推導 (否則就不會有在無限維時不 成立的情況發生). 既然是有限維, 我們可以用為維度處理. 回顧一下當我們有 W′ 為 W 的 subspace, 且知 dim(W′) = dim(W ), 則可得 W′= W . 所以既然我們已知 W ⊆ (W⊥)⊥, 只要說 明 dim(W ) = dim((W⊥)⊥),就可得證 (W⊥)⊥= W .
Corollary 4.3.14. 假設 V 為 finite dimensional inner product space 且 W 為 V 的 subspace.
則 (W⊥)⊥= W .
Proof. 前 面 已 證 得 W ⊆ (W⊥)⊥, 所 以 現 在 僅 要 說 明 dim(W ) = dim((W⊥)⊥), 就 可 得 證 (W⊥)⊥ = W . 然而由 Proposition 4.3.13, 我們知 dim((W⊥)⊥) = dim(V )− dim(W⊥), 再由 dim(W⊥) = dim(V )− dim(W), 得
dim((W⊥)⊥) = dim(V )− (dim(V) − dim(W)) = dim(W).
在 R2, R3 中的投影概念中, 還有一個重要的觀點就是一個點在直線 (或平面上) 的投 影點就是這個線上 (或平面上) 距離該點最近的點. 這個概念對我們推廣到 inner product space 後的 orthogonal projection 也是對的. 我們有以下的性質.
Proposition 4.3.15. 假設 V 為 inner product space 且 W 為 V 的 subspace. 若 w = ProjW(v) 為 v 在 W 的 orthogonal projection, 則對於任意 w′∈ W 且 w′̸= w, 皆有 ∥v−w′∥ > ∥v−w∥.
Proof. 考慮 v− w′= v− w + w − w′. 因 w = ProjW(v), 故知 v− w ∈ W⊥. 又因 W 為 vector space, 我們有 w− w′∈ W. 故得
∥v−w′∥2=⟨v−w′, v−w′⟩ = ⟨v−w+w−w′, v−w+w−w′⟩ = ⟨v−w,v−w⟩+⟨w−w′, w−w′⟩.
亦即∥v − w′∥2=∥v − w∥2+∥w − w′∥2. 又因 w̸= w′ 我們有 ∥w − w′∥ > 0. 得證 ∥v − w′∥2>
∥v − w∥2, 即 ∥v − w′∥ > ∥v − w∥.
4.4. 矩陣運算和內積的連結
前面提過矩陣的乘法, 和Rn 的 dot product 有密切的關係. 當 v, w∈ Rn, 我們用⟨v,w⟩ 表示 v, w 的 dot product. 而當我們將 v, w 視為 n× 1 的矩陣則 v, w 的 dot product 可視為矩陣 乘法⟨v,w⟩ = wtv. 這一節我們將利用這個觀點以及上一節所談的 inner product 的性質, 來 探討矩陣運算的性質.
當 v∈ Rm, w∈ Rn 以及 A∈ Mm×n(R), 由於 Aw ∈ Rm, 我們可以討論 v 和 Aw 在Rm 的 dot product, 即 ⟨v,Aw⟩. 當我們將 v,Aw 視為 m × 1 矩陣, 利用矩陣乘法可得
⟨v,Aw⟩ = (Aw)tv = (wtAt)v = wt(Atv). (4.2) 另一方面將 Atv, w 視為Rn 上的向量, 考慮它們在 Rm的 dot product, 我們有
⟨Atv, w⟩ = wt(Atv). (4.3)
結合式子 (4.2), (4.3) 我們可得以下性質.
Lemma 4.4.1. 假設 v∈ Rm, w∈ Rn 以及 A∈ Mm×n(R). 若考慮 ⟨v,Aw⟩ 為在 Rm 的 dot product 以及⟨Atv, w⟩ 為在 Rn 的 dot product, 則
⟨v,Aw⟩ = ⟨Atv, w⟩.
回顧當 A∈ Mm×n(R) 時我們令 Col(A) 表示 A 的 column space, 亦即若 a1, . . . , an 分別為 A 的 column vectors, 則 Col(A) = Span(a1, . . . , an). 另外我們也定義 A 的 null space 為 N(A), 即 N(A) ={w ∈ Rn: Aw = 0}. 注意 Col(A) 為 Rm 的 subspace, 而 N(A) 為 Rn 的 subspace.
我們有興趣知道在 Rm 中 Col(A)⊥ 為何? 若 v∈ Col(A)⊥, 表示 v 與 Col(A) 中所有的 向量皆垂直. 利用 Lemma 4.3.3 相同的證明方法, 我們知這等價於 ⟨v,ai⟩ = 0, ∀i = 1,...,n.
然而依矩陣的乘法, A 的 i-th column 等於 Aei, 其中 ei 是 i-th entry 為 1 其他 entry 為 0 的 Rn 中的向量, 也就是說 ai= Aei. 因此由 Lemma 4.4.1 知 0 =⟨v,ai⟩ = ⟨v,Aei⟩ = ⟨Atv, ei⟩,
∀i = 1,...,n. 換言之 Atv 這個Rn 的向量和每個 ei 的 dot product 皆為 0, 得證 Atv = 0, 也 就是說 v∈ N(At). 反之, 若 v∈ N(At) 表示 Atv = 0, 故得 ⟨Atv, ei⟩ = 0, ∀i = 1,...,n. 因此得
⟨v,ai⟩ = 0, ∀i = 1,...,n, 即 v ∈ Col(A)⊥. 我們有以下定理.
Theorem 4.4.2. 假設 A∈ Mm×n(R). 考慮 Col(A) 為 Rm 的 subspace, 使用 dot product, 我 們有 Col(A)⊥= N(At).
Theorem 4.4.2 可以用其他的形式表達. 例如利用 Corollary 4.3.14, 我們可以得到 Col(A) = (Col(A)⊥)⊥= N(At)⊥.
另一方面, 利用 (At)t= A, 我們可得
Col(At)⊥= N(A), Col(At) = N(A)⊥.
回顧一下, 我們稱 dim(Col(A)) 為 A 的 rank, 用 rank(A) 表示, 而 dim(N(A)) 稱為 A 的 nullity, 用 nullity(A) 表示. 當計算維度牽涉到 orthogonal complement 時要小心, 因為 W⊥ 其實是和將 W 視為哪個 vector space 的 subspace 有關, 因此 Proposition 4.3.13 計算 W⊥ 的維度其實是和 W 所在的向量空間 V (即將 W 視為 V 的 subspace) 的維度有關. 當 A∈ Mm×n(R), 我們是將 Col(A) 視為 Rm 的 subspace (因 A 的每個 column vector 是在 Rm 中), 而將 N(A) 視為 Rn 的 subspace (因為只有 Rn 的向量可以乘在 A 的右邊). 所以利用 Col(At) = N(A)⊥, 我們可以得
rank(A) = dim(Col(At)) = dim(N(A)⊥) = n− dim(N(A)) = n − nullity(A).
這與 Dimension Theorem 相吻合.
Lemma 4.4.1 還有許多的應用. 我們有以下的定理.
Proposition 4.4.3. 假設 A∈ Mm×n(R). 則 N(AtA) = N(A).
Proof. 假設 v∈ N(A), 則由 Av = 0 得 (AtA)v = At(Av) = At(0) = 0. 即 v∈ N(AtA), 故得證 N(A)⊆ N(AtA). 反之, 若 v∈ N(AtA), 則由 (AtA)v = 0 以及 Lemma 4.4.1, 可得
⟨Av,Av⟩ = ⟨At(Av), v⟩ = ⟨(AtA)v, v⟩ = ⟨0,v⟩ = 0.
故由內積性質得證 Av = 0, 即 v∈ N(A). 因此得 N(AtA)⊆ N(A). 當 A 為 m× n matrix, 則 AtA 就會是 n× n 方陣. 因此由 Dimension Theorem 以及 Proposition 4.4.3, 我們有
n− rank(AtA) = nullity(AtA) = dim(N(AtA)) = dim(N(A)) = nullity(A) = n− rank(A) 因此得知 rank(AtA) = rank(A). 我們有以下的結果.
Corollary 4.4.4. 假設 A∈ Mm×n(R). 則 rank(AtA) = rank(A). 特別的我們有 rank(A) = n 若且唯若 AtA 為 invertible matrix.
Proof. 我們已經證得 rank(AtA) = rank(A). 由於 AtA 為 n× n matrix, rank(AtA) = n 等價於 AtA 為 invertible matrix (Theorem 2.5.2), 也因此由 rank(AtA) = rank(A) 知 rank(A) = n 等
價於 AtA 為 invertible matrix.
當 W 為 Rm 的 subspace 時, Theorem 4.4.2 也可 以幫 助 我 們 求 v∈ Rn 在 W 上的 orthogonal projection. 要注意在 Theorem 4.3.8 中找 W 的 orthogonal basis 的方法求 orthogonal projection 是適用於一般的 inner product space, 而這裡我們介紹的方法僅適用 於 Rm 且使用 dot product.
假設 W = Span(w1, . . . , wn)⊆ Rm 首先令 A 為以 w1, . . . , wn 為 column vectors 的 m× n matrix, 則 W 為 A 的 column space Col(A). 依 ProjW(v) 的定義, 我們需要找到 w∈ W 滿足 v− w ∈ W⊥, 這樣 w 就會是 ProjW(v) 了. 如何找到這樣的 w∈ W 呢? 由 column space 的定 義知, w∈ W 表示存在 x ∈ Rn 使得 Ax = w. 至於 v− w ∈ W⊥= (Col(A))⊥ 的要求, Theorem 4.4.2 知此即表示 v−w = v−Ax ∈ N(At). 也就是說我們必須找到 x∈ Rn 使得 At(v−Ax) = 0.
利用矩陣乘法性質, 此即表示 x∈ Rn 須滿足聯立方程組 (AtA)x = Atv. 要注意ProjW(v) 一定 存在, 所以一定存在 x∈ Rn使得 Ax = ProjW(v), 也因此這個 x 必滿足 v−Ax ∈ W⊥, 所以聯立 方程組 (AtA)x = Atv 一定有解. 若能解 (AtA)x = Atv, 則所得的解 x 就會使得 Ax =ProjW(v) 了. 我們有以下的定理.
Proposition 4.4.5. 假設 W = Span(w1, . . . , wn)⊆ Rm 且考慮 Rm 的 dot product. 對於任 意 v∈ Rm, 令 A 為以 w1, . . . , wn 為 column vectors 的 m× n matrix 且考慮聯立方程組 (AtA)x = Atv. 若 x0 為此聯立方程組的一個解, 則 ProjW(v) = Ax0.
特別的, 如果 w1, . . . , wn 為 W 的一組 basis, 則 rank(A) = dim(W ) = n. 故利用 Corollary 4.4.4 可得 AtA 為 invertible. 此時只要將聯立方程組 (AtA)x = Atv 的兩邊乘上 AtA 的 inverse, 即可得解為 x = (AtA)−1Atv. 注意此時我們僅解得 (AtA)x = Atv 之解, 要將此解的左邊乘上 A 才得 ProjW(v). 我們有以下的結論.
Corollary 4.4.6. 假設 W 為 Rm 的 subspace 且考慮 Rm 的 dot product. 假設 w1, . . . , wn
為 W 的一組 basis, 令 A 為以 w1, . . . , wn 為 column vector 的 m× n matrix. 則對於任意 v∈ Rm, v 在 W 的 projection 為
ProjW(v) = A(AtA)−1Atv.
Example 4.4.7. 我們要利用 Corollary 4.4.6 的結果求 v =
2 0 1 4
在 W = Span(
1 2 2 1
,
3 4 2 3
) 的
投影. 首先考慮矩陣 A =
1 3 2 4 2 2 1 3
, 此時 At=
[ 1 2 2 1 3 4 2 3
]
, 故得 AtA =
[ 10 18 18 38
] 以及
其 inverse (AtA)−1= (1/28)
[ 19 −9
−9 5 ]
.因此由 Corollary 4.4.6 得
ProjW(v) = 1 28
1 3 2 4 2 2 1 3
[ 19 −9
−9 5
][ 1 2 2 1 3 4 2 3
]
2 0 1 4
=
2 2 0 2
.
這個結果和我們在 Example 4.3.10 利用 orthogonal basis 處理投影的結果一致.
對 於 Corollary 4.4.6 要 注 意 的 是 因 為 W 為 Rm 的 subspace, 除 非 W =Rm, 否 則 dim(W ) = n 會小於 m. 然而當 W =Rm 時, 談論對 W 的 projection 是沒有意思的, 因為此
時 W⊥ ={0}, 所以任何 Rm 的向量對 W =Rm 的投影就是自己. 因此一般在談論投影時
僅考慮 dim(W ) = n < m 的情形. 也因此, 利用 W 的一組 basis 為 column vector 所成的矩 陣 A, 是 m× n matrix 不會是一個方陣. 所以此時 A 和 At 皆不會是 invertible. 也因此我 們不能將 (AtA)−1 寫成 A−1(At)−1. 因為這原因 Corollary 4.4.6 中 A(AtA)−1At 絕不能寫成 A(A−1(At)−1)At, 否則會變成 identity matrix.
Theorem 4.4.6 簡化了求 projection 的程序. 我們只要求出 W 的一組 basis 即可, 不必先 求 W 的 orthogonal basis. 由於將矩陣 A(AtA)−1At 乘上任何 Rm 的向量 v, 就可得 ProjW(v).
因此我們將 A(AtA)−1At 稱之為對於 W 的 projection matrix.
Question 4.9. 在 Example 4.4.7 中對於 W 的 projection matrix 為何? 用 Example 4.3.10 中所得的 W 的 orthogonal basis 所得的 projection matrix 又是為何?
假設 A∈ Mm×n(R) 且 rank(A) = n, 則 A 的 column vectors 形成 Col(A) 的一組 basis.
假設 A 的 column 分別為 v1, . . . , vn, 我們利用 Gram-Schmidt process 得到 Col(A) 的一組 orthonormal basis u1, . . . , un. 由於 u1, . . . , un 是 orthonormal basis, 將 vj 寫成 u1, . . . , un 的 線性組合可得
vj=⟨vj, u1⟩u1+··· + ⟨vj, uj⟩uj+··· + ⟨vj, un⟩un.
因此若令 Q 為以 u1, . . . , un 為 column vectors 的 m× n matrix, 依矩陣乘法定義我們可以將 A 寫成 QR, 即
v1 ··· vj ··· vn
=
u1 ··· uj ··· un
⟨v1, u1⟩ ⟨vj, u1⟩ ⟨vn, u1⟩ ... ··· ... ··· ...
⟨v1, un⟩ ⟨vj, un⟩ ⟨vn, un⟩
,
其中 R 是一個 n×n matrix 且其 j-th column 為
⟨vj, u1⟩ ...
⟨vj, un⟩
, 也就是說 R 的 (i, j)-th entry 為
⟨vj, ui⟩ = ⟨ui, vj⟩. 在 Gram-Schmidt process, 對於 j = 1,...,n, 我們都有 Span(v1, . . . , vj) = Span(u1, . . . , uj) 而且 uj+1, . . . , un∈ Span(v1, . . . , vj)⊥, 故知
⟨uj+1, vj⟩ = ⟨uj+2, vj⟩ = ··· = ⟨un, vj⟩ = 0.
另外由 vj ̸∈ Span(v1, . . . , vj−1) = Span(u1, . . . , uj−1), 我們知 ⟨uj, vj⟩ ̸= 0, 否則會造成 vj =
⟨u1, vj⟩u1+··· + ⟨uj−1, vj⟩uj−1 ∈ Span(u1, . . . , uj−1) 之 矛 盾. 故 由 前 面 所 述, 當 i > j 時
⟨ui, vj⟩ = 0, 我們知 R 為 n×n upper triangular matrix, 而且對角線的位置 ( j, j)-th entry 為
⟨uj, vj⟩ ̸= 0, 我們得 rank(R) = n, 故 R 為 invertible. 這就是所謂 A 的 QR decomposition. 我 們用一個例子來說明.
Example 4.4.8. 考慮 A =
1 3 1 1 1 1 1 −1 3 1 1 3
因 A 的 column vectors 就是 Example 4.3.12 的
v1, v2, v3, 我們直接套用其結果得
Q =
1 2
√1
2 0
1
2 0 −√12
1
2 −√12 0
1
2 0 √1
2
, R =
⟨u1, v1⟩ ⟨u1, v2⟩ ⟨u1, v3⟩
⟨u2, v1⟩ ⟨u2, v2⟩ ⟨u2, v3⟩
⟨u3, v1⟩ ⟨u3, v2⟩ ⟨u3, v3⟩
=
2 2 4 0 2√
2 −√ 2
0 0 √
2
.
很容易檢查, 我們確有 A = QR.
將矩陣 A 寫成 QR decomposition 在許多應用上有其方便性. 特別是探討與 AtA 有關的 問題. 此時我們有 AtA = (QR)t(QR) = (RtQt)(QR) = Rt(QtQ)R. 然而 Q 的 column vectors 是 Col(A) = C(Q) 的一組 orthonormal basis, 很容易驗證 QtQ 會是 n× n diagonal matrix, 且 其 (i, i)-th entry 為⟨ui, ui⟩ = ∥ui∥2= 1. 也就是說 QtQ 是 identity matrix In. 因此我們可得 AtA = RtR. 將 AtA 寫成 RtR 的好處是 R 是一個 upper triangular matrix 且為 invertible (注 意 A 未必 invertible). 例如 Corollary 4.4.6 對 W = Col(A) 的 projection matrix A(AtA)−1At 就可以寫成
A(AtA)−1At= (QR)(RtR)−1(QR)t= (QR)(R−1(Rt)−1)(RtQt) = Q(RR−1)((Rt)−1Rt)Qt= QQt 這種簡單的形式了. 再次提醒我們知 QtQ 是 identity matrix, 但 QQt 就未必是 identity 了.
下一節中探討解聯立方程組問題時還會看到 QR decomposition 的應用.
———————————– 24 December, 2021