4.4. 矩陣運算和內積的連結

(1)

由前面已知, 若能找到 W 的一組 orthogonal basis w₁, . . . , w_n, 則我們可以很容易的 將任意 W 中的向量寫成 w₁, . . . , w_n 的線性組合. 這似乎克服了前面所述較複雜的部份.

事實上確實如此, 若能找到 W 的一組 orthogonal basis w₁, . . . , wn, 則我們便可以輕易地 得到 v 在 W 的 projection 了. 這是因為若 w = Proj_W(v) 且 w = c₁w₁+··· + cnw_n. 此時由於 v− w ∈ W^⊥, 對於所有 i = 1, . . . , n, 我們有 ⟨v,wi⟩ − ⟨w,wi⟩ = ⟨v − w,wi⟩ = 0. 因此得 ⟨v,wi⟩ = ⟨w,wi⟩ = ci⟨wi, w_i⟩, 亦即 ci =⟨v,wi⟩/⟨wi, w_i⟩. 所以我們得到一個很簡捷求 projection 的方法.

Theorem 4.3.8. 假設 V 為 inner product space, W 為 V 的 subspace 且 w1, . . . , wn 為 W 的一組 orthogonal basis. 若 v∈ V, 則 v 在 W 的 projection 為

Proj_W(v) =⟨v,w1⟩

∥w1∥²w₁+··· +⟨v,wn⟩

∥wn∥²w_n. 特別的當 w₁, . . . , wn 為 W 的一組 orthonormal basis, 則

Proj_W(v) =⟨v,w1⟩w1+··· + ⟨v,wn⟩wn.

Proof. 令 w = c1w₁+··· + cnw_n, 其中 ci=⟨v,wi⟩/⟨wi, wi⟩, ∀i = 1,...,n. 此時 w ∈ W, 且對 任意 i = 1, . . . , n 皆有

⟨v − w,wi⟩ = ⟨v,wi⟩ − ⟨w,wi⟩ = ⟨v,wi⟩ −

∑

ⁿ

j=1

cj⟨wj, wi⟩ = ⟨v,wi⟩ − ci⟨wi, wi⟩ = 0.

故由 Lemma 4.3.3 知 v− w ∈ W^⊥. 因此由 projection 的唯一性 (Proposition 4.3.5) 知

w =Proj_W(v).

我們已經知道只要找到 W 的一組 orthogonal basis, 就可以輕易求得 v 在 W 的 projection. 對一般 inner product space, 我們將介紹一個方法找到它的一組 orthogonal basis, 也因此證明了對於一般的 inner product space 一定存在 orthogonal basis (以及 orthonormal basis). 這個方法就是所謂的 Gram-Schmidt process.

給定 V 的一個 nonzero subspace W , 且假設 dim(W ) = n. 首先我們說明若 w1, . . . , wk∈ W 為非零向量且滿足⟨wi, w_j⟩ = 0, ∀i ̸= j, 則 w1, . . . , w_k 為 linearly independent. 這是因為若 不是 linearly independent 表示存在 c₁, . . . , c_k∈ R 不全為 0 使得 c1w₁+··· + ckw_k= 0. 然而 對任意 i = 1, . . . , k 由於 0 =⟨c1w₁+···+ckw_k, w_i⟩ = ci∥wi∥². 也因此由∥wi∥ ̸= 0, 得證 ci= 0.

此和 c₁, . . . , c_k 不全為 0 的假設相矛盾, 故知 w1, . . . , w_k 為 linearly independent. 因此要找 到 W 的一組 orthogonal basis, 我們只要在 W 中找到 w₁, . . . , wn 滿足⟨wi, wj⟩ = 0, ∀i ̸= j 即 可, 因為它們是 linearly independent 且 dim(W ) = n, 故知它們是 W 的一組 basis. 接下來我 們要說明在 W 中如何找到這樣的一組 nonzero vectors.

首先因 W ̸= {0}, 故可在 W 中取一 nonzero vector v1. 為了方便起見我們令 w1= v₁ 且 W₁= Span(v1) = Span(w1). 若 dim(W ) = 1, 則 W = W1 故 w₁ 就是 W 的一個 orthogonal basis. 而若 dim(W ) > 1, 則因 W₁( W, 我們可以找到 nonzero vector v2∈ W 且 v2̸∈ W1. 現在我們要利用 v₂, 找到 w2∈ W 滿足 w2̸= 0 且 ⟨w1, w2⟩ = 0. 很自然的, 我們會考慮 w2= v₂−ProjW1(v₂),因為此時 w₂∈ W₁^⊥, 而 W₁= Span(w₁),故當然有⟨w1, w₂⟩ = 0. 我們也要說明

(2)

w₂̸= 0. 這是因為若 w2= 0, 會得到 v₂= Proj_W₁(v₂)∈ W1, 此與當初 v₂̸∈ W1的假設相矛盾. 另 一方面因為 W = Span(w1), 利用 Proposition 4.1.9 我們知 Proj_W₁(v₂) = (⟨v2, w₁⟩/∥w1∥²)w₁, 所以我們知

w₂= v2−⟨v2, w1⟩

∥w1∥² w₁.

另外要注意的是 Span(w1, w2) = Span(v1, v2), 這是因為依 w₁, w2 的選取, 我們有 w₁, w2∈ Span(v₁, v₂), 因此 Span(w₁, w₂)⊆ Span(v1, v₂). 然而因為 v₁, v₂ 為 linearly independent 且 w₁, w2 為 linearly independent, 故由 dim(Span(w1, w2)) = dim(Span(v1, v2)) = 2 得證 Span(w₁, w₂) = Span(v₁, v₂). 為了方便起見, 我們令 W₂= Span(w₁, w₂) = Span(v₁, v₂). 現若 dim(W ) = 2, 則 W = W2, 故 w1, w₂ 為 W 的一組 orthogonal basis. 而若 dim(W ) > 2, 則 因 W₂( W, 我們可以找到 nonzero vector v3∈ W 且 v3 ̸∈ W2. 現在我們要利用 v3, 找到 w₃∈ W 滿足 w3̸= 0 且 ⟨w1, w₃⟩ = ⟨w2, w₃⟩ = 0. 同前, 我們考慮 w3= v₃− Proj_W₂(v₃), 因為此時 w₃∈ W₂^⊥, 而 W2= Span(w1, w2), 故當然有⟨w1, w3⟩ = ⟨w2, w3⟩ = 0. 另外因 v3̸∈ W2, 同前面的理由我們有 w₃̸= 0. 另一方面因為 w1, w₂ 為 W₂ 的 orthogonal basis, 利用 Theorem 4.3.8 我們得

w₃= v₃− Proj_W₂(v₃) = v₃−⟨v3, w₁⟩

∥w1∥² w₁−⟨v3, w₂⟩

∥w2∥² w₂.

最後和前面同樣的理由, 我們有 Span(w1, w₂, w₃) = Span(v₁, v₂, v₃). 這樣一直下去, 我們可以 得到 W_k = Span(w1, . . . , w_k) = Span(v1, . . . , v_k) 且 w₁, . . . , w_k 是 W_k 的一組 orthogonal basis.

現若 k = dim(W ) = n, 則得 W_k = W , 所以 w₁, . . . , w_k 是 W 的一組 orthogonal basis. 而若 k < n, 則存在 vk+1∈ W 且 vk+1̸∈ Wk. 故令

w_k+1= v_k+1− Proj_W_k(v_k+1) = v_k+1−⟨vk+1, w₁⟩

∥w1∥² w₁−⟨vk+1, w₂⟩

∥w2∥² w₂− ··· −⟨vk+1, w_k⟩

∥wk∥² w_k, 則得 w_k+1̸= 0 且 ⟨wk+1, w_i⟩ = 0, ∀i = 1,...,k. 另外因 w1, . . . , w_k, w_k+1∈ Span(v1, . . . , v_k, v_k+1), 同上可得 Span(w1, . . . , w_k, w_k+1) = Span(v₁, . . . , v_k, v_k+1),故令 W_k+1= Span(w₁, . . . , w_k, w_k+1) = Span(v1, . . . , v_k, v_k+1), 我們有 w₁, . . . , w_k, w_k+1 為 W_k+1 的一組 orthogonal basis. 這樣一直下 去直到得到 W_n= W , 這樣 w₁, . . . , w_n 就是 W 的一組 orthogonal basis.

上述 Gram-Schmidt process 中 v₁, . . . , v_n 的選取事實上和我們過去找 vector space 的 basis 方法是一樣的. 差別就是我們要將 v1, . . . , v_n 這組 basis 修改成 w₁, . . . , w_n 這一組 orthogonal basis. 因此如果一開始已給定 W 的一組 basis v1. . . , vn, 我們可以將之直接套用, 因此有以下的結果.

Theorem 4.3.9 (Gram-Schmidt Process). 假設 V 為 inner product space, W 為 V 的 subspace 且 v1, . . . , vn 為 W 的一組 basis. 令

w₁= v₁, w₂= v₂−⟨v2, w₁⟩

∥w1∥² w₁, . . . 這樣一直下去, 即對於 i = 1, . . . , n− 1 令

w_i+1= vi+1−⟨vi+1, w1⟩

∥w1∥² w₁−⟨vi+1, w2⟩

∥w2∥² w₂− ··· −⟨vi+1, wi⟩

∥wi∥² w_i,

(3)

則 w₁, . . . , w_n 為 W 的一組 orthogonal basis. 而且

Span(w1, . . . , w_i) = Span(v₁, . . . , v_i), ∀i = 1,...,n.

Gram-Schmidt process 確保了 orthogonal basis 的存在性, 而當 v1, . . . , vn 為其 orthogo- nal basis 時, 我們可以除去其長度得到 (1/∥v1∥)v1, . . . , (1/∥vn∥)vn這一組 orthonormal basis.

利用 orthogonal basis 的存在性, 我們也就得到了 orthogonal projection 的存在性了. 也 就是說當 V 為 inner product space 且 W 為其 subspace, 我們就可以利用 Gram-Schmidt process 找到 W 的一組 orthogonal basis, 然後利用 Theorem 4.3.8, 得到任意 V 中的向量 v 在 W 上的 orthogonal projection 了.

Example 4.3.10. 我們要用 orthogonal basis 來處理 orthogonal projection 的問題. 我們 在 R⁴ 使用 dot product, 考慮 v =





 2 0 1 4





 在 W = Span(





 1 2 2 1





,





 3 4 2 3





) 的 orthogonal projection.

首先找 W 的一組 orthogonal basis. 令

w₁=





 1 2 2 1





, w²=





 3 4 2 3





 −18 10





 1 2 2 1





 = 2 5





 3 1

−4 3





.

此時 w₁, w₂ 為 W 的一組 orthogonal basis, 故利用 Theorem 4.3.8 得

Proj_W(v) = ⟨v,w1⟩

∥w1∥²w₁+⟨v,w2⟩

∥w2∥²w₂= 8 10





 1 2 2 1





 +28/5 28/5×2

5





 3 1

−4 3





 =





 2 2 0 2





.

雖然 Theorem 4.3.9 的敘述是找到 V 的 subspace W 的 orthogonal basis, 不過因 W 是 V 中任意的 subspace, 所以當 W 為 V 時, 我們也就找到 V 的 orthogonal basis 了. 所以對任意 finite dimensional inner product space, Gram-Schmidt process 都能幫我們找到 orthogonal basis. 注意這裡需要有限維的假設, 因為整個過程我們是一個一個置換這些向量, 所以有限 多個向量才可全部置換完成. Theorem 4.3.9 的敘述牽涉到 V 的 subspace W 主要用意是, 我們不只可找到 W 的 orthogonal basis, 也可繼續這個 process, 而將 W 的 orthogonal basis 擴大成 V 的 orthogonal basis. 這是因為若 W ̸= V, 當找到 w1, . . . , wn 為 W 的 orthogonal basis 後我們可以繼續考慮 v_n+1∈ V 但 vn+1 ̸∈ W, 然後利用 Gram-Schmidt process 得到 w_n+1= v_n+1− Proj_W(v_n+1)∈ W^⊥. 這樣一直下去直到得到 V 的一組 orthogonal basis 為止.

也因此我們得到以下之結果.

Corollary 4.3.11. 假設 V 為 inner product space, W 為 V 的 subspace. 若 dim(V ) = m 且 dim(W ) = n, 則存在 V 的一組 orthogonal basis v₁, . . . , v_n, . . . , v_m, 其中 v₁, . . . , v_n 是 W 的 orthogonal basis.

(4)

Example 4.3.12. 考慮R⁴ 中以 dot product 所形成的 inner product space. 令

v₁=





 1 1 1 1





, v²=





 3 1

−1 1





, v³=





 1 1 3 3





,

我們要求 W = Span(v₁, v₂, v₃)的一組 orthogonal basis, 並將之擴大成R⁴的一組 orthogonal basis. 首先令 w₁= v₁, 得

w₂= v₂−⟨v2, w1⟩

∥w1∥² w₁=





 3 1

−1 1





 −4 4





 1 1 1 1





 =





 2 0

−2 0





.

最後得

w₃= v3−⟨v3, w1⟩

∥w1∥² w₁−⟨v3, w2⟩

∥w2∥² w₂=





 1 1 3 3





 −8 4





 1 1 1 1





 −−4 8





 2 0

−2 0





 =





 0

−1 0 1





.

由於 dim(V ) = 3 且 dim(R⁴) = 4, 我們需要再找到一個向量以形成 R⁴ 的 basis. 考慮

v₄=





 0 0 0 1





, 我們可以檢查 v⁴̸∈ W (或直接套用 Gram-Schmidt process, 若 v4∈ W, 會得到

v₄− Proj_W(v₄) = 0. 若真如此就再換一個向量). 得

w₄= v₄−⟨v4, w₁⟩

∥w1∥² w₁−⟨v4, w₂⟩

∥w2∥² w₂−⟨v4, w₃⟩

∥w3∥² w₃=





 0 0 0 1





 −1 4





 1 1 1 1





 −1 2





 0

−1 0 1





 = 1 4







−1 1





.

此時 w₁, w₂, w₃, w₄ 就是 R⁴ 的一組 orthogonal basis, 其中 w₁, w₂, w₃ 是 W 的 orthogonal basis.

對於每一個 w_i, 我們可以除以其長度 ∥wi∥, 得到一組 orthonormal basis

u₁=1 2





 1 1 1 1





,u²= 1

√2





 1 0

−1 0





,u³= 1

√2





 0

−1 0 1





,u⁴=1 2







−1 1





.

接下來我們看幾個有關 orthogonal basis 的應用. 由於利用 orthonormal basis 會比較 方便 (省去除掉長度的麻煩), 所以以下都用 orthonormal basis 處理. 首先當 W 是 inner product space V 的 subspace, 我們知道 W^⊥ 也是 V 的 subspace. 很自然的我們會想要 知道 dim(W^⊥) 和 dim(W ) 的關係. 當我們利用 Corollary 4.3.11 找到 u₁, . . . , u_n, . . . , u_m 是 V 的一組 orthonormal basis, 其中 u₁, . . . , u_n 為 W 的 orthonormal basis, 我們就可以將任 意 v∈ W^⊥ 寫成 v = c₁u₁+··· + cnu_n+ cn+1u_n+1+··· + cmu_m. 其中 ci =⟨v,ui⟩ (Proposition 4.3.6 套用 W = V 的情形). 由於 v∈ W^⊥, 我們有 ⟨v,ui⟩ = 0, ∀i = 1,...,n (因為這些 ui∈ W).

(5)

因此得 v = c_n+1u_n+1+··· + cmu_m∈ Span(un+1, . . . , u_m). 反之若 v = c_n+1u_n+1+··· + cmu_m∈ Span(un+1, . . . , u_m), 由於當 i̸= j 時 ⟨ui, u_j⟩ = 0, 故當 i = 1,...,n 時

⟨v,ui⟩ =

∑

^m

j=n+1

c_j⟨uj, u_i⟩ = 0.

因此由 u₁, . . . , u_n 為 W 的 basis 以及 Lemma 4.3.3 得 v∈ W^⊥, 也因此我們證明了 W^⊥= Span(un+1, . . . , u_m). 又因為 u_n+1, . . . , u_m 為 linearly independent, 故知 u_n+1, . . . , u_m為 W^⊥ 的一組 basis (事實上也是 orthonormal basis).

Proposition 4.3.13. 假設 V 為 inner product space, W 為 V 的 subspace 且設 dim(V ) = m, dim(W ) = n. 若 v1, . . . , v_n, . . . , v_m 為 V 的一組 orthogonal basis 且其中 v₁, . . . , v_n 是 W 的 orthogonal basis, 則 vn+1, . . . , vm 為 W^⊥ 的 orthogonal basis. 特別的, 我們有

dim(W^⊥) = dim(V )− dim(W).

Question 4.8. 在 Example 4.3.12 中, 試找到 W^⊥ 的一組 basis.

在補集的概念中, 我們知道一個集合的補集再取補集, 會是該集合本身. orthogonal complement 會不會也有同樣的情形呢? 也就是說當 W 是 inner product space V 的 subspace, 會不會有 (W^⊥)^⊥ = W 的情形發生? 一般要說明 (W^⊥)^⊥ = W , 我們需證明 W ⊆ (W^⊥)^⊥ 以及 (W^⊥)^⊥⊆ W. 證明 W ⊆ (W^⊥)^⊥ 這部分是簡單的, 因為 (W^⊥)^⊥ 依定義 是所有和 W^⊥ 垂直的向量所成的集合, 所以當 w∈ W, 我們要說明 w ∈ (W^⊥)^⊥ 僅要說明

⟨w,v⟩ = 0, ∀v ∈ W^⊥ 即可. 然而任意 v∈ W^⊥ 依定義皆會和所有 W 中的向量垂直, 故由 w∈ W, 我們自然有 ⟨w,v⟩ = 0, ∀v ∈ W^⊥. 至於 (W^⊥)^⊥⊆ W, 很不幸的它並不一定會成立. 事 實上在 V 為無限維時可以找到反例. 由於本課程並不涉及無限維的向量空間, 這裡就略去 不談. 不過在 V 為 finite dimensional inner product space, (W^⊥)^⊥⊆ W 就會成立. 只是它 的證明是無法像前面 W ⊆ (W^⊥)^⊥ 的情況用集合元素方式推導 (否則就不會有在無限維時不 成立的情況發生). 既然是有限維, 我們可以用為維度處理. 回顧一下當我們有 W^′ 為 W 的 subspace, 且知 dim(W^′) = dim(W ), 則可得 W^′= W . 所以既然我們已知 W ⊆ (W^⊥)^⊥, 只要說 明 dim(W ) = dim((W^⊥)^⊥),就可得證 (W^⊥)^⊥= W .

Corollary 4.3.14. 假設 V 為 finite dimensional inner product space 且 W 為 V 的 subspace.

則 (W^⊥)^⊥= W .

Proof. 前面已證得 W ⊆ (W^⊥)^⊥, 所以現在僅要說明 dim(W ) = dim((W^⊥)^⊥), 就可得證 (W^⊥)^⊥ = W . 然而由 Proposition 4.3.13, 我們知 dim((W^⊥)^⊥) = dim(V )− dim(W^⊥), 再由 dim(W^⊥) = dim(V )− dim(W), 得

dim((W^⊥)^⊥) = dim(V )− (dim(V) − dim(W)) = dim(W).

在 R², R³ 中的投影概念中, 還有一個重要的觀點就是一個點在直線 (或平面上) 的投影點就是這個線上 (或平面上) 距離該點最近的點. 這個概念對我們推廣到 inner product space 後的 orthogonal projection 也是對的. 我們有以下的性質.

(6)

Proposition 4.3.15. 假設 V 為 inner product space 且 W 為 V 的 subspace. 若 w = Proj_W(v) 為 v 在 W 的 orthogonal projection, 則對於任意 w^′∈ W 且 w^′̸= w, 皆有 ∥v−w^′∥ > ∥v−w∥.

Proof. 考慮 v− w^′= v− w + w − w^′. 因 w = Proj_W(v), 故知 v− w ∈ W^⊥. 又因 W 為 vector space, 我們有 w− w^′∈ W. 故得

∥v−w^′∥²=⟨v−w^′, v−w^′⟩ = ⟨v−w+w−w^′, v−w+w−w^′⟩ = ⟨v−w,v−w⟩+⟨w−w^′, w−w^′⟩.

亦即∥v − w^′∥²=∥v − w∥²+∥w − w^′∥². 又因 w̸= w^′ 我們有 ∥w − w^′∥ > 0. 得證 ∥v − w^′∥²>

∥v − w∥², 即 ∥v − w^′∥ > ∥v − w∥.

4.4. 矩陣運算和內積的連結

前面提過矩陣的乘法, 和Rⁿ 的 dot product 有密切的關係. 當 v, w∈ Rⁿ, 我們用⟨v,w⟩ 表示 v, w 的 dot product. 而當我們將 v, w 視為 n× 1 的矩陣則 v, w 的 dot product 可視為矩陣 乘法⟨v,w⟩ = w^tv. 這一節我們將利用這個觀點以及上一節所談的 inner product 的性質, 來探討矩陣運算的性質.

當 v∈ R^m, w∈ Rⁿ 以及 A∈ Mm×n(R), 由於 Aw ∈ R^m, 我們可以討論 v 和 Aw 在R^m 的 dot product, 即 ⟨v,Aw⟩. 當我們將 v,Aw 視為 m × 1 矩陣, 利用矩陣乘法可得

⟨v,Aw⟩ = (Aw)^tv = (w^tA^t)v = w^t(A^tv). (4.2) 另一方面將 A^tv, w 視為Rⁿ 上的向量, 考慮它們在 R^m的 dot product, 我們有

⟨A^tv, w⟩ = w^t(A^tv). (4.3)

結合式子 (4.2), (4.3) 我們可得以下性質.

Lemma 4.4.1. 假設 v∈ R^m, w∈ Rⁿ 以及 A∈ Mm×n(R). 若考慮 ⟨v,Aw⟩ 為在 R^m 的 dot product 以及⟨A^tv, w⟩ 為在 Rⁿ 的 dot product, 則

⟨v,Aw⟩ = ⟨A^tv, w⟩.

回顧當 A∈ Mm×n(R) 時我們令 Col(A) 表示 A 的 column space, 亦即若 a1, . . . , a_n 分別為 A 的 column vectors, 則 Col(A) = Span(a1, . . . , an). 另外我們也定義 A 的 null space 為 N(A), 即 N(A) ={w ∈ Rⁿ: Aw = 0}. 注意 Col(A) 為 R^m 的 subspace, 而 N(A) 為 Rⁿ 的 subspace.

我們有興趣知道在 R^m 中 Col(A)^⊥ 為何? 若 v∈ Col(A)^⊥, 表示 v 與 Col(A) 中所有的 向量皆垂直. 利用 Lemma 4.3.3 相同的證明方法, 我們知這等價於 ⟨v,ai⟩ = 0, ∀i = 1,...,n.

然而依矩陣的乘法, A 的 i-th column 等於 Ae_i, 其中 e_i 是 i-th entry 為 1 其他 entry 為 0 的 Rⁿ 中的向量, 也就是說 a_i= Ae_i. 因此由 Lemma 4.4.1 知 0 =⟨v,ai⟩ = ⟨v,Aei⟩ = ⟨A^tv, e_i⟩,

∀i = 1,...,n. 換言之 A^tv 這個Rⁿ 的向量和每個 e_i 的 dot product 皆為 0, 得證 A^tv = 0, 也就是說 v∈ N(A^t). 反之, 若 v∈ N(A^t) 表示 A^tv = 0, 故得 ⟨A^tv, e_i⟩ = 0, ∀i = 1,...,n. 因此得

⟨v,ai⟩ = 0, ∀i = 1,...,n, 即 v ∈ Col(A)^⊥. 我們有以下定理.

Theorem 4.4.2. 假設 A∈ Mm×n(R). 考慮 Col(A) 為 R^m 的 subspace, 使用 dot product, 我 們有 Col(A)^⊥= N(A^t).

(7)

Theorem 4.4.2 可以用其他的形式表達. 例如利用 Corollary 4.3.14, 我們可以得到 Col(A) = (Col(A)^⊥)^⊥= N(A^t)^⊥.

另一方面, 利用 (A^t)^t= A, 我們可得

Col(A^t)^⊥= N(A), Col(A^t) = N(A)^⊥.

回顧一下, 我們稱 dim(Col(A)) 為 A 的 rank, 用 rank(A) 表示, 而 dim(N(A)) 稱為 A 的 nullity, 用 nullity(A) 表示. 當計算維度牽涉到 orthogonal complement 時要小心, 因為 W^⊥ 其實是和將 W 視為哪個 vector space 的 subspace 有關, 因此 Proposition 4.3.13 計算 W^⊥ 的維度其實是和 W 所在的向量空間 V (即將 W 視為 V 的 subspace) 的維度有關. 當 A∈ Mm×n(R), 我們是將 Col(A) 視為 R^m 的 subspace (因 A 的每個 column vector 是在 R^m 中), 而將 N(A) 視為 Rⁿ 的 subspace (因為只有 Rⁿ 的向量可以乘在 A 的右邊). 所以利用 Col(A^t) = N(A)^⊥, 我們可以得

rank(A) = dim(Col(A^t)) = dim(N(A)^⊥) = n− dim(N(A)) = n − nullity(A).

這與 Dimension Theorem 相吻合.

Lemma 4.4.1 還有許多的應用. 我們有以下的定理.

Proposition 4.4.3. 假設 A∈ Mm×n(R). 則 N(A^tA) = N(A).

Proof. 假設 v∈ N(A), 則由 Av = 0 得 (A^tA)v = A^t(Av) = A^t(0) = 0. 即 v∈ N(A^tA), 故得證 N(A)⊆ N(A^tA). 反之, 若 v∈ N(A^tA), 則由 (A^tA)v = 0 以及 Lemma 4.4.1, 可得

⟨Av,Av⟩ = ⟨A^t(Av), v⟩ = ⟨(A^tA)v, v⟩ = ⟨0,v⟩ = 0.

故由內積性質得證 Av = 0, 即 v∈ N(A). 因此得 N(A^tA)⊆ N(A). 當 A 為 m× n matrix, 則 A^tA 就會是 n× n 方陣. 因此由 Dimension Theorem 以及 Proposition 4.4.3, 我們有

n− rank(A^tA) = nullity(A^tA) = dim(N(A^tA)) = dim(N(A)) = nullity(A) = n− rank(A) 因此得知 rank(A^tA) = rank(A). 我們有以下的結果.

Corollary 4.4.4. 假設 A∈ Mm×n(R). 則 rank(A^tA) = rank(A). 特別的我們有 rank(A) = n 若且唯若 A^tA 為 invertible matrix.

Proof. 我們已經證得 rank(A^tA) = rank(A). 由於 A^tA 為 n× n matrix, rank(A^tA) = n 等價於 A^tA 為 invertible matrix (Theorem 2.5.2), 也因此由 rank(A^tA) = rank(A) 知 rank(A) = n 等

價於 A^tA 為 invertible matrix.

當 W 為 R^m 的 subspace 時, Theorem 4.4.2 也可以幫助我們求 v∈ Rⁿ 在 W 上的 orthogonal projection. 要注意在 Theorem 4.3.8 中找 W 的 orthogonal basis 的方法求 orthogonal projection 是適用於一般的 inner product space, 而這裡我們介紹的方法僅適用於 R^m 且使用 dot product.

(8)

假設 W = Span(w₁, . . . , w_n)⊆ R^m 首先令 A 為以 w₁, . . . , w_n 為 column vectors 的 m× n matrix, 則 W 為 A 的 column space Col(A). 依 Proj_W(v) 的定義, 我們需要找到 w∈ W 滿足 v− w ∈ W^⊥, 這樣 w 就會是 Proj_W(v) 了. 如何找到這樣的 w∈ W 呢? 由 column space 的定義知, w∈ W 表示存在 x ∈ Rⁿ 使得 Ax = w. 至於 v− w ∈ W^⊥= (Col(A))^⊥ 的要求, Theorem 4.4.2 知此即表示 v−w = v−Ax ∈ N(A^t). 也就是說我們必須找到 x∈ Rⁿ 使得 A^t(v−Ax) = 0.

利用矩陣乘法性質, 此即表示 x∈ Rⁿ 須滿足聯立方程組 (A^tA)x = A^tv. 要注意Proj_W(v) 一定存在, 所以一定存在 x∈ Rⁿ使得 Ax = Proj_W(v), 也因此這個 x 必滿足 v−Ax ∈ W^⊥, 所以聯立 方程組 (A^tA)x = A^tv 一定有解. 若能解 (A^tA)x = A^tv, 則所得的解 x 就會使得 Ax =Proj_W(v) 了. 我們有以下的定理.

Proposition 4.4.5. 假設 W = Span(w₁, . . . , w_n)⊆ R^m 且考慮 R^m 的 dot product. 對於任 意 v∈ R^m, 令 A 為以 w₁, . . . , w_n 為 column vectors 的 m× n matrix 且考慮聯立方程組 (A^tA)x = A^tv. 若 x₀ 為此聯立方程組的一個解, 則 Proj_W(v) = Ax0.

特別的, 如果 w₁, . . . , w_n 為 W 的一組 basis, 則 rank(A) = dim(W ) = n. 故利用 Corollary 4.4.4 可得 A^tA 為 invertible. 此時只要將聯立方程組 (A^tA)x = A^tv 的兩邊乘上 A^tA 的 inverse, 即可得解為 x = (A^tA)⁻¹A^tv. 注意此時我們僅解得 (A^tA)x = A^tv 之解, 要將此解的左邊乘上 A 才得 Proj_W(v). 我們有以下的結論.

Corollary 4.4.6. 假設 W 為 R^m 的 subspace 且考慮 R^m 的 dot product. 假設 w₁, . . . , wn

為 W 的一組 basis, 令 A 為以 w₁, . . . , w_n 為 column vector 的 m× n matrix. 則對於任意 v∈ R^m, v 在 W 的 projection 為

Proj_W(v) = A(A^tA)⁻¹A^tv.

Example 4.4.7. 我們要利用 Corollary 4.4.6 的結果求 v =





 2 0 1 4





 在 W = Span(





 1 2 2 1





,





 3 4 2 3





) 的

投影. 首先考慮矩陣 A =





 1 3 2 4 2 2 1 3





, 此時 A^t=

[ 1 2 2 1 3 4 2 3

]

, 故得 A^tA =

[ 10 18 18 38

] 以及

其 inverse (A^tA)⁻¹= (1/28)

[ 19 −9

−9 5 ]

.因此由 Corollary 4.4.6 得

Proj_W(v) = 1 28





 1 3 2 4 2 2 1 3







[ 19 −9

−9 5

][ 1 2 2 1 3 4 2 3

]



 2 0 1 4





 =





 2 2 0 2





.

這個結果和我們在 Example 4.3.10 利用 orthogonal basis 處理投影的結果一致.

對於 Corollary 4.4.6 要注意的是因為 W 為 R^m 的 subspace, 除非 W =R^m, 否則 dim(W ) = n 會小於 m. 然而當 W =R^m 時, 談論對 W 的 projection 是沒有意思的, 因為此

時 W^⊥ ={0}, 所以任何 R^m 的向量對 W =R^m 的投影就是自己. 因此一般在談論投影時

(9)

僅考慮 dim(W ) = n < m 的情形. 也因此, 利用 W 的一組 basis 為 column vector 所成的矩 陣 A, 是 m× n matrix 不會是一個方陣. 所以此時 A 和 A^t 皆不會是 invertible. 也因此我 們不能將 (A^tA)⁻¹ 寫成 A⁻¹(A^t)⁻¹. 因為這原因 Corollary 4.4.6 中 A(A^tA)⁻¹A^t 絕不能寫成 A(A⁻¹(A^t)⁻¹)A^t, 否則會變成 identity matrix.

Theorem 4.4.6 簡化了求 projection 的程序. 我們只要求出 W 的一組 basis 即可, 不必先 求 W 的 orthogonal basis. 由於將矩陣 A(A^tA)⁻¹A^t 乘上任何 R^m 的向量 v, 就可得 Proj_W(v).

因此我們將 A(A^tA)⁻¹A^t 稱之為對於 W 的 projection matrix.

Question 4.9. 在 Example 4.4.7 中對於 W 的 projection matrix 為何? 用 Example 4.3.10 中所得的 W 的 orthogonal basis 所得的 projection matrix 又是為何?

假設 A∈ Mm×n(R) 且 rank(A) = n, 則 A 的 column vectors 形成 Col(A) 的一組 basis.

假設 A 的 column 分別為 v₁, . . . , v_n, 我們利用 Gram-Schmidt process 得到 Col(A) 的一組 orthonormal basis u1, . . . , u_n. 由於 u1, . . . , u_n 是 orthonormal basis, 將 v_j 寫成 u₁, . . . , u_n 的線性組合可得

v_j=⟨vj, u1⟩u1+··· + ⟨vj, uj⟩uj+··· + ⟨vj, un⟩un.

因此若令 Q 為以 u₁, . . . , u_n 為 column vectors 的 m× n matrix, 依矩陣乘法定義我們可以將 A 寫成 QR, 即



 v₁ ··· vj ··· vn



 =



 u₁ ··· uj ··· un









⟨v1, u1⟩ ⟨vj, u1⟩ ⟨vn, u1⟩ ... ··· ... ··· ...

⟨v1, un⟩ ⟨vj, un⟩ ⟨vn, un⟩



,

其中 R 是一個 n×n matrix 且其 j-th column 為





⟨vj, u1⟩ ...

⟨vj, un⟩



, 也就是說 R 的 (i, j)-th entry 為

⟨vj, u_i⟩ = ⟨ui, v_j⟩. 在 Gram-Schmidt process, 對於 j = 1,...,n, 我們都有 Span(v1, . . . , v_j) = Span(u1, . . . , uj) 而且 u_j+1, . . . , un∈ Span(v1, . . . , vj)^⊥, 故知

⟨uj+1, vj⟩ = ⟨uj+2, vj⟩ = ··· = ⟨un, vj⟩ = 0.

另外由 v_j ̸∈ Span(v1, . . . , v_j₋₁) = Span(u₁, . . . , u_j₋₁), 我們知 ⟨uj, v_j⟩ ̸= 0, 否則會造成 vj =

⟨u1, v_j⟩u1+··· + ⟨uj−1, v_j⟩uj−1 ∈ Span(u1, . . . , u_j−1) 之矛盾. 故由前面所述, 當 i > j 時

⟨ui, v_j⟩ = 0, 我們知 R 為 n×n upper triangular matrix, 而且對角線的位置 ( j, j)-th entry 為

⟨uj, vj⟩ ̸= 0, 我們得 rank(R) = n, 故 R 為 invertible. 這就是所謂 A 的 QR decomposition. 我們用一個例子來說明.

(10)

Example 4.4.8. 考慮 A =







1 3 1 1 1 1 1 −1 3 1 1 3





 因 A 的 column vectors 就是 Example 4.3.12 的

v₁, v₂, v₃, 我們直接套用其結果得

Q =







1 2

√1

2 0

1

2 0 −^√¹₂

1

2 −^√¹₂ 0

1

2 0 √¹

2





, R =



 ⟨u1, v1⟩ ⟨u1, v2⟩ ⟨u1, v3⟩

⟨u2, v1⟩ ⟨u2, v2⟩ ⟨u2, v3⟩

⟨u3, v₁⟩ ⟨u3, v₂⟩ ⟨u3, v₃⟩



 =



 2 2 4 0 2√

2 −√ 2

0 0 √

2



.

很容易檢查, 我們確有 A = QR.

將矩陣 A 寫成 QR decomposition 在許多應用上有其方便性. 特別是探討與 A^tA 有關的 問題. 此時我們有 A^tA = (QR)^t(QR) = (R^tQ^t)(QR) = R^t(Q^tQ)R. 然而 Q 的 column vectors 是 Col(A) = C(Q) 的一組 orthonormal basis, 很容易驗證 Q^tQ 會是 n× n diagonal matrix, 且 其 (i, i)-th entry 為⟨ui, ui⟩ = ∥ui∥²= 1. 也就是說 Q^tQ 是 identity matrix In. 因此我們可得 A^tA = R^tR. 將 A^tA 寫成 R^tR 的好處是 R 是一個 upper triangular matrix 且為 invertible (注 意 A 未必 invertible). 例如 Corollary 4.4.6 對 W = Col(A) 的 projection matrix A(A^tA)⁻¹A^t 就可以寫成

A(A^tA)⁻¹A^t= (QR)(R^tR)⁻¹(QR)^t= (QR)(R⁻¹(R^t)⁻¹)(R^tQ^t) = Q(RR⁻¹)((R^t)⁻¹R^t)Q^t= QQ^t 這種簡單的形式了. 再次提醒我們知 Q^tQ 是 identity matrix, 但 QQ^t 就未必是 identity 了.

下一節中探討解聯立方程組問題時還會看到 QR decomposition 的應用.

———————————– 24 December, 2021