Vector Spaces

(1)

我們總結一下, 當 A 是 echelon form 時, 如何找出 Ax = b 所有的解的方法. 很容易看出 當 A 有一個 row 全為 0 但 b 在該 row 不為 0 時該方程組無解, 我們僅討論其他有解的情 況. 此時我們先挑出 free variable (即非 pivot variable). 由於 free variable 可以任意取值, 一般來說我們會用一些參數表示之 (注意不同的 free variable 要用不同的參數代號). 接著, 我們由下而上, 從最大編號的 pivot variable 開始, 利用 free variables 的那些參數將它的值寫下來, 再依序直到寫出所有 pivot variables 的值.

另外, 我們要強調, 絕不會有 pivot 的個數多於方程組 variables (未知數) 的個數的情 形發生. 這是因為當係數矩陣 A 是 echelon form 時, 每一個 column 最多僅能有一個 pivot (因為不能有兩個 leading term 在同一個位置), 所以 pivot 的個數不能多於 column 的個數.

而 A 的 column 個數表示的就是此聯立方程組 variables 的個數, 因此 pivot 的個數不會多 於 variables 的個數. 另一方面依定義每一個 row 最多僅能有一個 pivot, 所以 pivot 的個數也不會多於該方程組的方程式個數 (即係數矩陣 row 的個數).

Question 1.1. 考慮一個由 n 個 variables 的 m 個方程式所組成的聯立方程組. 試說明前 面討論 (1)(a) 的情形只有在 m = n 的時候才有可能發生; 而 (1)(b) 的情形只有在 m < n 的 情形才有可能發生;

我們看以下幾個解聯立方程組的例子.

Example 1.2.1. Solve the linear system

x2 −3x3 = −5 2x1 +3x2 −1x3 = 7 4x₁ +5x₂ −2x3 = 10.

此聯立方程組的 augmented matrix 為



 0 1 −3 −5 2 3 −1 7 4 5 −2 10



.

由於第二, 三 row 的 leading entry 在最左端. 但第二 row 的 leading entry 的值較小, 為了計算方便, 我們將之置於第一個 row, 即將一, 二 row 交換得



 2 3 −1 7 0 1 −3 −5 4 5 −2 10



.

接下來由於第三 row 的 leading entry 也在 x₁ 的位置需要消去, 所以將第一 row 乘上 −2

加到第三 row 得 

 2 3 −1 7 0 1 −3 −5 0 −1 0 −4



.

此時係數矩陣仍不是 echelon form, 需將第三 row 的 x₂ 位置的 entry 消去. 故將第二 row

加至第三 row 得 

 2 3 −1 7 0 1 −3 −5 0 0 −3 −9



.

(2)

這是 echelon form. 由於係數矩陣沒有全為 0 的 row, 我們知此 linear system 為 consistent.

而又 pivot 的個數等於 variable 的個數, 故知此 linear system 的解唯一. 事實上, 最下面第三 row 表示 −3x3=−9, 得 x3= 3. 代入第二 row 表示的 x2− 3x3=−5, 得 x2= 4.

最後代入第一 row 表示的 2x₁+ 3x₂− x3 = 7, 得 x₁ =−1. 故知此 linear system 的解為 (x1, x2, x3) = (−1,4,3).

x₁ −1x2 +2x₃ +3x₄ = 2 2x1 +1x₂ +1x₃ = 1 x1 +2x2 −1x3 −3x4 = 7.



 1 −1 2 3 2 2 1 1 0 1 1 2 −1 −3 7



.

第二, 三 row 的 leading entry 需被消去. 故將第一 row 分別乘上−2,−1 加到第二, 三 row

得 

 1 −1 2 3 2 0 3 −3 −6 −3

0 3 −3 −6 5



.

接下來由於第三 row 的 leading entry 需要消去, 所以將第二 row 乘上−1 加到第三 row 得



 1 −1 2 3 2 0 3 −3 −6 −3 0 0 0 0 8



.

這是 echelon form. 由於第三 row 表示 0x1+ 0x₂+0x₃= 8, 知此 linear system 為 inconsistent.

x₁ −2x2 +1x₃ −1x4 = 4 2x₁ −3x2 +4x₃ −3x4 = −1 3x1 −5x2 +5x₃ −4x4 = 3

−x1 +1x2 −3x3 +2x4 = 5.







1 −2 1 −1 4 2 −3 4 −3 −1 3 −5 5 −4 3

−1 1 −3 2 5





.

第二, 三, 四 row 的 leading entry 需被消去. 故將第一 row 分別乘上 −2,−3,1 加到第二, 三, 四 row 得







1 −2 1 −1 4

0 1 2 −1 −9

0 −1 −2 1 9





.

(3)

接下來第三, 四 row 的 leading entry 需要消去, 所以將第二 row 分別乘上−1,1 加到第三,

四 row 得 





1 −2 1 −1 4 0 1 2 −1 −9 0 0 0 0 0 0 0 0 0 0





.

這是 echelon form. 由於係數矩陣全為 0 的第三, 四 row 全為 0, 知此 linear system 為 consistent.

事實上此 linear system 的 pivot variables 為 x₁, x₂, 而 free variables 為 x3, x₄. 我們可以 令 x₄= r, x3= s, 代入第二 row 表示的 x2+ 2x3− x4=−9, 得 x2=−9 + r − 2s. 再代入第一 row 表示的 x₁− 2x2+ x₃− x4= 4, 得 x₁=−14 + 3r − 5s. 故知此 linear system 的解為

(x1, x2, x3, x4) = (−14 + 3r − 5s,−9 + r − 2s,s,r),r,s ∈ R.

通常我們習慣寫成 column vector 且將 r, s 提出. 故將解寫成





 x₁ x₂ x3

x4





 =







−14−9 0 0





 + r





 3 1 0 1





 + s







−5−2 1 0





,r,s ∈ R.

了解到解聯立方程組的方法及步驟後, 有幾件事必須要說明: (1) 為何經由 elementary row operations 我們可以將一個矩陣化為 echelon form? (2) 為何利用這個 echelon form, 便可得到與原方程組相同的解集合? (3) 為什麼用前面介紹 (pivot variables, free variables) 的方法就可以把係數矩陣是 echelon form 的聯立方程組所有的解找出來? 在下一節, 我們將詳細介紹有關 echelon form 的特性, 然後一一回答這些問題. 不過再次提醒大家務必先熟悉這節介紹解聯立方程組的方法及步驟.

1.3. Echelon Form

這一節中我們將說明前面提到有關 echelon form 的三個問題. 首先我們利用數學歸納法來說明為何一定可以將一個矩陣化為 echelon form. 我們是對矩陣的 row 的個數作數學歸納法. 先說明所有只有一個 row 的矩陣一定是 echelon form, 然後利用這件事實證明所有有兩個 row 的矩陣皆可利用 elementary row operations 化為 echelon form. 再利用兩個 row 的矩陣會成立的事實證明有 3 個 row 的矩陣也可利用 elementary row operations 化為 echelon form, 如此一直下去我們可證有 4, 5, 6, . . . 個 row 的矩陣會成立. 不過這樣的方法我 們可以證得有特定個數的 row 的矩陣會成立 (例如 10 個 row), 但無法證得一般的情形 (即 任意個數的 row). 此時數學歸納法是最好的論證工具了. 若我們能知道有 k 個 row 的矩陣 一定能利用 elementary row operations 化為 echelon form 這個事實且利用這個事實證得有 k + 1 個 row 的矩陣一定能利用 elementary row operations 化為 echelon form, 這就表示當 我們知道有一個 row 的矩陣能利用 elementary row operations 化為 echelon form 就能推得有兩個 row 的矩陣能利用 elementary row operations 化為 echelon form, 也進而推得有 3 個 row 的矩陣亦成立, 再進而推得有 4 個 row 的矩陣亦成立, 如此一直下去當然可知任意的矩陣皆能利用 elementary row operations 化為 echelon form.

(4)

我們先看只有一個 row 的矩陣. 此時由於沒有任何的 row 在其下方所以依定義自然是 echelon form. 接著看有兩個 row 的矩陣. 首先注意依定義一個 echelon form 的第一個 row 其 leading entry (若有的話) 必在所有其他 row 的 leading entry 所在位置的左方. 所以我們在此有兩個 row 的矩陣挑出 leading entry 在最左方的一個 row (若兩個 row 的 leading entry 所在位置相同就任取一個 row) 利用 row 交換的 row operation 將之置於第一個 row.

接下來注意依定義下一個 row 的 leading entry 所在位置需在第一個 row 的 leading entry 的右方. 現若第二個 row 的 leading entry 所在位置和第一個 row 不同, 則因已知第一個 row 的 leading entry 所在位置在最左方, 第二個 row 的 leading entry 所在位置一定在第一個 row 的 leading entry 的右方, 故依定義此時已為 echelon form. 而若第二個 row 的 leading entry b 所在位置和第一個 row 的 leading entry a 相同, 我們可將第一個 row 乘 以 −b/a, 再加到第二個 row 上. 如此一來第二個 row 原本的 leading entry 變為 0, 故其 leading entry 所在位置往右移了, 依定義此時為 echelon form.

接著我們使用數學歸納法的假設, 亦即任何有 k 個 row 的矩陣皆可利用 elementary row operation 化為 echelon form. 現在我們要處理有 k + 1 個 row 的矩陣. 如前面的方法, 首先 我們將 leading entry 的位置在最左邊的那個 row 利用兩 row 互換的 row operation 將之置 於第一個 row. 現假設此時第一個 row 的 leading entry 為 a. 接下來我們挑出其他 row 中 leading entry 的位置與第一個 row 的 leading entry 位置一樣的 row. 若該 row 的 leading entry 為 b, 我們便將第一個 row 乘上 −b/a 後加到該 row 上. 如此一來該 row 的 leading entry 所在位置便往右移了. 一直重複此步驟, 直到第一個 row 以外的 row 其 leading entry 所在位置皆與第一個 row 的 leading entry 所在位置相異. 注意, 此時第一個 row 以下的各 row 其 leading entry 所在位置皆在第一個 row 的 leading entry 所在位置的右方. 若 我們不看第一個 row, 所剩下的是一個有 k 個 row 的矩陣, 所以利用前面已知有 k 個 row 的矩陣皆可利用 elementary row operations 化為 echelon form, 我們可以利用 elementary row operations 將此矩陣第一個 row 以下的部份化為 echelon form. 但此時因各個 row 的 leading entry 所在位置皆在第一個 row 的 leading entry 所在位置的右方, 所以整個矩陣亦為 echelon form. 故得證所有矩陣皆可利用 elementary row operations 化為 echelon form.

大家或許注意到我們在化成 echelon form 的過程皆沒有用到將某個 row 乘上一非 0 實數這一個 type 2 的 elementary row operation. 事實上在化成 echelon form 的過程確實只需要用到 type 1,3 這兩種 elementary row operations, 至於 type 2 的 elementary row operation 會在以後我們會介紹化為 “reduced” echelon form 的過程是需要的, 留待以後再談.

接下來我們說明為何將 augmented matrix [A| b] 利用 elementary row operations 化成 echelon form [A^′| b^′], 則其對應的聯立方程組 A^′x = b^′ 會和原方程組 Ax = b 有相同的解集 合. 首先觀察若將一聯立方程組 Ax = b 的 augmented matrix [A| b] 利用三種 elementary row operation 的任一種變換成 [A^′| b^′] 表示將原方程組利用加減消去法的三個基本方法將 之變成方程組 A^′x = b^′. 然而方程組 Ax = b 若利用加減消去法的三種方法 (即將兩式子對 調順序或將某一式乘上某個非 0 實數或將一個式子乘上某個實數加到另一個式子) 變換成 方程組 A^′x = b^′, 原來滿足 Ax = b 的一組解仍會滿足 A^′x = b^′. 也就是說 Ax = b 的解就會 是 A^′x = b^′ 的解. 不過這不表示它們會有相同的解集合, 我們還要說明 A^′x = b^′ 的解也會是

(5)

Ax = b 的解才行. 然而我們前面提及 elementary row operations 是可以還原的. 換句話說 [A^′| b^′]也可經由 elementary row operations 變換成 [A| b]. 所以套用剛才的理由, 我們也知 A^′x = b^′ 的解就會是 Ax = b 的解. 因此得證 Ax = b 和 A^′x = b^′ 會有相同的解集合.

當連立方程組 Ax = b 和 A^′x = b^′ 它們的解集合相同, 這表示兩組方程組是有很特別的關係的. 我們有以下的定義.

Definition 1.3.1. 假設 linear systems Ax = b 和 A^′x = b^′ 的解集合相同, 則稱 Ax = b 和 A^′x = b^′ 為 equivalent linear systems

從上面的探討我們知道 augmented matrix [A| b] 若利用 elementary row operations 化 成 [A^′| b^′], 則 Ax = b 和 A^′x = b^′ 為 equivalent linear systems.

我們已知要探討聯立方程組 Ax = b 的解, 僅要考慮 A 為 echelon form 的情形. 接下來 我們就是要討論當 A 為 echelon form 時, 聯立方程組 Ax = b 解的特性. 事實上我們很容 易理解利用 1.2 節中所提求解的方法所得的結果皆為方程組的一組解. 這裡要探討的是為何利用 1.2 節中所提求解的方法, 就可得所有的解. 接著我們將說明, 雖然一個矩陣利用 elementary row operations 化為 echelon form 的結果不唯一, 但是它們的 pivot variables 是唯一的.

如果我們得到 1.2 節 (2)(a) 的情形 (即 A 有一個 row 全為 0 但 b 在該 row 不為 0), 在該節已說明此時方程組無解. 所以我們只要探討有解的情形. 首先回顧一下在 1.2 節所 提求解的方法: 首先我們要找到 free variables, 也就是是方程組除了 pivot variable 以外的 variable. 接著給這些 free variable 任意的參數值, 然後再利用由下往上代回的方式找到聯立方程組所有的解. 若無 free variable, 就直接由下往上一步一步求值即可.

由於可以忽略 augmented matrix 全為 0 的 row, 所以我們可假設係數矩陣 A 沒有一 個 row 全為 0. 因為 A 為 echelon form, 這也表示 A 每一個 row 皆有 leading entry 且為 pivot. 現在我們回答當 A 是 echelon form 時, 1.2 節中所述解聯立方程組 Ax = b 的方法所 求得的解就是所有的解. 也就是說給定 x₁= c₁, . . . , x_n= c_n 為 Ax = b 的一組解, 我們要說明 這組解確實可由 1.2 節所提的方法得到. 為了方便起見我們令 1.2 節所提的方法所得的解 所成的集合為 S. 我們要說明 (x₁, . . . , xn) = (c1, . . . , cn) 確實為 S 中的元素. 現若 x_n 為 pivot variable, 則 x_n 的值是被唯一確定的. 所以 S 的所有解中 x_n 的取值一定也為 c_n. 若 x_n 為 free variable, 則因 S 的解中 xn 可為任意值, 故 S 中一定有一組解其 x_n 的取值為 c_n. 也就 是說不管 x_n 是否為 pivot variable, S 中必有一組解其 x_n 的取值為 c_n. 現若 x_n−1 為 pivot variable, 則由此 pivot 所在的 row 所對應的方程式可知 xn−1 的取值會被 x_n 的取值所決定.

今已知 S 中必有一組解其 x_n 的取值為 c_n, 故此組解必滿足 xn−1= cn−1, xn= cn; 而若 xn−1

為 free variable, 則因 S 的解中 x_n₋₁ 可為任意值且其取值不影響到 x_n 的取值, 故知 S 中必 有一組解其 x_n₋₁, xn 的取值為 x_n₋₁= cn−1, xn= cn. 如此一直下去我們知道 S 中必有一組解 其 x₁, . . . , x_n 的取值為 x₁= c₁, . . . , x_n= c_n.

我們可以利用上面的概念, 推導出當 A 為 echelon form 時, pivot variables 和 free variables 對聯立方程組 Ax = b 解的影響. 首先看 pivot variable 對聯立方程組的解之影響.

(6)

Lemma 1.3.2. 假設 A 為一有 n 個 column 的 echelon form 且 x₁= c₁, . . . , x_n= c_n 和 x1= d₁, . . . , x_n= d_n 皆為方程組 Ax = b 的一組解.

(1) 假設 x_n 為 A 的一個 pivot variable. 則 c_n= d_n.

(2) 假設 x_k 為 A 的一個 pivot variable, 其中 1≤ k ≤ n − 1. 若 ck+1= d_k+1, . . . , c_n= d_n, 則 c_k= dk.

Proof. 假設聯立方程組為

a11x1 + ··· + a1nxn = b1

a21x1 + ··· + a2nxn = b2

...

am1x1 + ··· + amnxn = bm

其中

A =







a11 ··· a1n

a₂₁ ··· a2n

... . .. ... am1 ··· amn







為 echelon form, 且不失一般性我們假設 A 的每一個 row, a_{i 1}, . . . , a_{i n} 皆不全為 0.

(1) 若 xn 為 A 的一個 pivot variable, 表示 A 的最後一個 row 的 leading entry 所在位 置為 x_n. 也就是說 am 1= am 2=··· = am n−1= 0 且 am n̸= 0. 這表示此聯立方程組中 最後一個式子為 a_mnx_n= b_m. 故由 x₁= c₁, . . . , x_n= c_n 及 x₁= d₁, . . . , x_n= d_n 皆為此 聯立方程組的一組解知 x_n= cn和 x_n= dn皆需滿足 a_mnxn= bm, 亦即 amncn= bm且 a_mnd_n= b_m. 故由 a_mn̸= 0 得知 cn= d_n.

(2) 若 x_k 為 A 的一個 pivot variable, 表示 A 有一個 row 的 leading entry 所在位置 為 x_k. 也就是說若此 row 為 A 的第 i 個 row, 則 ai1 = ai2 =··· = ai k−1 = 0 且 a_ik̸= 0. 此 row 所對應的式子為 aikx_k+··· + ainx_n= b_i.故由 x₁= c₁, . . . , x_n= c_n 及 x1= d1, . . . , xn= dn 皆為此聯立方程組的一組解知 x_k = ck, xk+1= ck+1, . . . , xn= cn

和 x_k = d_k, x_k+1= d_k+1, . . . , x_n= d_n 皆需滿足 a_ikx_k+··· + ainx_n= b_i. 因此由 c_k+1= dk+1, . . . , c_n= d_n 的假設知

aikck= bi− (ai k+1ck+1+··· + aincn) = bi− (ai k+1dk+1+··· + aindn) = aikdk. 再由 a_ik̸= 0 得知 ck= d_k.

相對於 pivot variable 我們知道對於 free variable 我們可以隨意取任何的實數而得到一組解, 所以我們有以下 free variable 對解的影響.

Lemma 1.3.3. 假設 A 為一有 n 個 column 的 echelon form 且沒有一個 row 全為 0.

(1) 假設 xn 為 A 的一個 free variable. 則對任意的實數 r, 方程組 Ax = b 皆可找到一 組解其 x_n= r.

(7)

(2) 假設 x_k 為 A 的一個 free variable, 其中 1≤ k ≤ n − 1. 若 x1= c₁, . . . , x_n= c_n 為方 程組 Ax = b 的一組解, 則對任意實數 r 方程組 Ax = b 皆可找到一組解其 x_k= r 且 x_k+1= c_k+1, . . . , xn= cn.

Proof. 在前面所提的求解過程中我們知道可將 free variable 定為任意的實數, 再一步一步 由下往上代回得到一組解. 在這個過程中我們了解到若 x_i 是 free variable, 則它的取值可能 會影響到的僅有 x_j, 其中 j < i 這樣的變數, 而不會影響到其他變數 xl, 其中 i < l 的取值.

現若 x_n 是 free variable, 這表示我們可以設定 x_n 為任意實數, 再一步一步往上代求得聯 立方程組的一組解, 所以對任意的實數 r, 方程組 Ax = b 皆可找到一組解其 x_n 為 r.

若 x_k 為 A 的一個 free variable, 其中 1≤ k ≤ n − 1 且已知 x1= c1, . . . , xn= cn 為方程組 Ax = b 的一組解. 換言之, x_k+1= c_k+1, . . . , x_n= c_n 皆滿足方程組 pivot 的位置在 x_k 右方的 那些 row 所對應的那些方程式. 由於 x_k 可取任意的實數且不會影響 x_k+1, . . . , x_n 的取值, 所 以我們可令 x_k= r 且 x_k+1= c_k+1, . . . , x_n= c_n 一步一步代回求得聯立方程組的一組解. Lemma 1.3.2 和 Lemma 1.3.3 有許多應用. 例如當 A 是 echelon form 時若聯立方程 組 Ax = b 已知有一個解 x₁= c₁, . . . , x_n= c_n 且 x₁, . . . , x_n 每一個都是 pivot variable, 則由 Lemma 1.3.2 知聯立方程組 Ax = b 的解僅能是 x1= c1, . . . , xn= cn. 換句話說此方程組的解 唯一. 另一方面, 若聯立方程組 Ax = b 已知有解且 x₁, . . . , x_n中有 free variable, 則由 Lemma 1.3.3 知聯立方程組 Ax = b 會有無窮多解 (除非我們討論的數系僅有有限多個元素).

當我們給一個矩陣時, 有許多種方法將之化為 echelon form, 而且化成的 echelon form 很可能不一樣. 不過利用 Lemma 1.3.2 和 Lemma 1.3.3 我們可以得到這些 echelon form 雖然可能不一樣, 但他們 pivot 的所在位置都會一致. 由於我們只關心係數矩陣 A 化為 echelon form 後的情形, 所以我們可以考慮 Ax = 0 這一種特殊形式的聯立方程組. 要注意這 樣的聯立方程組都會有解, 因為 x₁= 0, . . . , x_n= 0 就是一組解. 我們特別稱這樣的聯立方程 組為 homogeneous system.

Proposition 1.3.4. 給定一矩陣 A, 若 A₁, A₂ 均為 A 利用 elementary row operations 化成 的 echelon forms. 則 A₁ 和 A₂ 的 pivot 個數相同, 事實上他們的 pivot variables 是一致的.

Proof. 我們考慮 Ax = 0 這一組聯立方程組, 其中 A 有 n 個 column (即此方程組有 n 個 變數). 因為 A 可利用 elementary row operation 化為 A₁ 及 A₂, 這表示 augmented matrix [A| 0] 可以利用 elementary row operation 化為 [A1| 0] 及 [A2| 0]. 換句話說聯立方程組 A1x = 0 和 A₂x = 0 皆與聯立方程組 Ax = 0 有同樣的解. 再次強調這些聯立方程組都會有 x₁= 0, . . . , x_n= 0 這樣的一組解.

我們要用反證法處理. 假設 A₁ 和 A₂ 有 pivot variable 不一致, 不失一般性我們就假設 對 A₁ 來說 x_i 是 pivot variable 但對 A₂ 來說 x_i 不是 pivot variable (即 free variable). 假 設 i = n, 這表示方程組 A₁x = 0 的解中 x_n 的取值是唯一的 (Lemma 1.3.2), 事實上 x_n 一定 為 0; 但 A2x = 0 的解中 x_n 的取值卻可以是任意的實數 (Lemma 1.3.3). 這和此二方程組有相同的解相矛盾. 現若 1≤ i ≤ n − 1. 利用 x1= 0, . . . , xn= 0 已是這兩聯立方程組的解, 我們知道方程組 A₁x = 0 的解中一定找不到一組解其 x_i+1, . . . , x_n 的取值皆為 0 但 x_i 的取

(8)

值不是 0 (Lemma 1.3.2); 另一方面 Lemma 1.3.3 告訴我們 A₂x = 0 的解中一定可找到一 組解其 x_i+1, . . . , x_n 的取值皆為 0 但 xi 的取值不是 0 (事實上 xi 可以是任意實數). 這又和 A1x = 0, A₂x = 0 此二方程組有相同的解相矛盾. 故由反證法知 A₁ 和 A₂ 的 pivot variables

是一致的.

由於一個矩陣化為 echelon form 其 pivot 的個數是固定的, 我們特別有以下的定義.

Definition 1.3.5. 假設 A 為一矩陣. 若 A 利用 elementary row operations 化為 echelon form 後其 pivot 的個數為 r, 我們稱 r 為 A 的 rank. 用 rank(A) = r 來表示.

Question 1.2. 假設矩陣 A 有 m 個 row 以及 n 個 column. 若 rank(A) = r, 試說明 r≤ min{m,n}.

在解聯立方程組的過程中還可以進一步將 echelon form 化為所謂的 reduced echelon form. Reduced echelon form 事實上仍為 echelon form, 不過再加上兩個限制. 第一個限 制是每一個 pivot entry 需為 1. 另一個限制為 pivot 的位置上方全為 0. 要注意, 依定義 echelon form 的 pivot 位置下方已全為 0 所以 reduced echelon form 每一個 pivot 所在的 column, 除了自己需為 1 外其他部分皆為 0. 例如

A =



 1 2 0 0 0 0 3 6 0 0 0 0



, B =



 1 1 3 0 0 1 1 2 0 0 1 −1





都不是 reduced echelon form 但是

A^′=



 1 2 0 0 0 0 1 2 0 0 0 0



, B^′=



 1 0 0 0 0 1 0 3 0 0 1 −1





就是 reduced echelon form. 每一個 echelon form 皆可利用 elementary row operations 換 為 reduced echelon form. 這是因為, 若有一個 row 的 pivot entry 為 a (注意依定義 a̸= 0), 我們只要將該 row 乘上 1/a, 則該 row 的 pivot entry 便是 1 了 (這就是需要 type 2 的 elementary row operation 的地方). 例如上面 A 這一個 echelon form 若將第二個 row 乘上 1/3, 就可得 A^′ 這一個 reduced echelon form. 當我們將每個 pivot 都變為 1 後, 就可利用將該 row 乘上某一實數加到另一個 row 的方法將 pivot 所在的 column 的其他部分化為 0.

例如上面 B 這一個 echelon form 若將第三個 row 分別乘上 −3, −1 加到第一個 row 和第 二個 row, 得



 1 1 0 3 0 1 0 3 0 0 1 −1



. 再將第二個 row 乘上 −1 加到第一個 row, 就可得 B^′ 這一個 reduced echelon form. 注意一般我們都是從上而下將矩陣換成 echelon form, 不過得到 echelon form 後是從下而上將 echelon form 換成 reduced echelon form 較為方便.

化為 reduced echelon form 後, 我們就可以利用前面由 echelon form 求解的方法求出聯立方程組的解. 由於 reduced echelon form 每一個 row 除了該 row 的 pivot 外, 只剩 free variables (其他的 pivot variable 所在的 entry 皆為 0), 所以可以很快地看出解的形式. 例如

(9)

方程組 B^′x = 0 為

x1 = 0

x2 +3x4 = 0 x3 −x4 = 0

因僅 x₄ 為 free variable, 令 x₄= t, 代入第三 row 得 x₃= t. 代入第二 row 得 x₂=−3t. 最後 由第一 row 得 x₁= 0. 故知解為 (x1, x2, x3, x4) = (0,−3t,t,t) = t(0,−3,1,1),t ∈ R.

我們知道每個矩陣皆可經由 elementary row operations 化為 echelon form. 而我們又知每個 echelon form 也可利用 elementary row operations 化為 reduced echelon form. 因此每個矩陣皆可利用 elementary row operations 化為 reduced echelon form. 另外我們也知道將聯立方程組的 augmented matrix 做 elementary row operations 後所對應的聯立方程組會是 equivalent, 所以化為 reduced echelon form 所得的解集合也會和原方程組的解集合相同.

化成 reduced echelon form 雖然在最後可以很快地看出解的形式, 但一般來說化為 reduced echelon form 比僅化為 echelon form 所需的步驟多了許多, 所以利用 echelon form 來求解還是會比較快. 利用 echelon form 求解的方法一般稱為 Gauss method 或 Gaussian elimination, 而用 reduced echelon form 求解一般稱為 Gauss-Jordan method.

Example 1.3.6. Example 1.2.1 的 linear system, 化成 echelon form 後為



 2 3 −1 7 0 1 −3 −5 0 0 −3 −9



.

將第三 row 乘以−1/3 得 

 2 3 −1 7 0 1 −3 −5 0 0 1 3



.

再將第三 row 分別乘以 3, 1 加到第二, 第一 row 得



 2 3 0 10 0 1 0 4 0 0 1 3



.

接著將第二 row 乘以 −3 加到第一 row 得



 2 0 0 −2 0 1 0 4 0 0 1 3



.

最後將第一 row 乘以 1/2 得 reduced echelon form



 1 0 0 −1 0 1 0 4 0 0 1 3



,

且馬上看出解為 (x₁, x₂, x₃) = (−1,4,3).

Example 1.2.3 的 linear system, 化成 echelon form 後為







1 −2 1 −1 4 0 1 2 −1 −9 0 0 0 0 0 0 0 0 0 0





.

(10)

將第二 row 乘以 2 加到第一 row 得 reduced echelon form







1 0 5 −3 −14 0 1 2 −1 −9 0 0 0 0 0 0 0 0 0 0





.

因 x₄, x3 為 free variables, 令 x₄= r, x3= s, 代入第二 row 得 x2=−9 + r − 2s. 再代入第一 row 得 x₁=−14 + 3r − 5s.

我們可以套用 Proposition 1.3.4 的證明方法, 證明一個矩陣利用 elementary row operations 化為 reduced echelon form 其結果是唯一的.

Theorem 1.3.7. 給定一矩陣 A, 若 A₁, A₂ 均為 A 利用 elementary row operations 化成的 reduced echelon forms, 則 A1= A2.

Proof. 我們考慮 Ax = 0 這一組聯立方程組, 依假設聯立方程組 A1x = 0 和 A₂x = 0 皆與聯 立方程組 Ax = 0 有同樣的解.

利用反證法. 假設 A₁̸= A2 且假設從下往上, A₁, A₂ 第一個發生相異的 row 其 pivot variable 為 xk (注意由 Proposition 1.3.4, 我們知道 A1, A₂ 的 pivot variables 是一致的). 現 假設 A₁, A2 在此 row 所對應的方程式分別為

x_k+ a_k+1x_k+1+··· + anx_n= 0 與 x_k+ b_k+1x_k+1+··· + bnx_n= 0 (1.2) 其中存在 l 滿足 k + 1≤ l ≤ n 且 al ̸= bl. 若 x_l 為 pivot variable, 由於 A₁, A₂ 皆為 reduced echelon form, 在這個 row 中, 其他的 pivot variable 對應的係數應為 0, 而導致 al = bl = 0 之矛盾, 故知 x_l 應為 free variable. 我們已知給定一組 free variables 的值, 可以用由下往 上代回的方式得到聯立方程組的解. 現考慮除了 x_l 這一個 free variable 代 1, 其他 free variables 代 0 所得的解. 設依此所得 A₁x = 0 與 A₂x = 0 的解分別為 (x₁, . . . , x_n) = (c₁, . . . , c_n) 與 (x₁, . . . , x_n) = (d₁, . . . , d_n). 注意, 若 x_j 為 pivot variable, 其中 j > k, 則 a_j= b_j= 0, 所以此 時 x_j 的取值不會影響到 x_k 的取值, 也就是說式子 (1.2) 帶入這兩組解後分別為

c_k+ a_l= 0 與 d_k+ b_l= 0.

又由於依假設 A₁, A2 在 x_k 為 pivot 這一個 row 以下的每一個 row 都一致, 我們知對所 有 k + 1≤ i ≤ n 皆有 ci= d_i. 然而這兩組解皆為 Ax = 0 的解且 x_k 為 pivot variable, 故 由 Lemma 1.3.2 知 c_k= dk. 可得 al =−ck=−dk= bl. 此與 al ̸= bl 的假設相矛盾, 故知

A₁= A₂.

利用化成 reduced echelon form 來解 linear system, 雖然步驟較多, 不過仍然有它的好處. 例如因為化成 echelon form 並不唯一, 所以有可能同一組 linear system 因化成 echelon form 求解, 寫下來的解集合的元素的表現 “形式” 會不同 (只是形式不同, 解集合是一樣的). 若化成 reduced echelon form 就不會這樣了, 因為它是唯一的, 所以大家寫下來的解集合的元素表示的 “形式” 是一致的. 另外若要判斷兩個矩陣是否可以用一些 elementary row operations 將其中一個換成另一個, 將這兩個矩陣化成 reduced echelon form 就可以

(11)

了. 若它們化成 reduced echelon form 是一致的, 那當然表示它們是可以用一些 elementary row operations 將其中一個換成另一個, 而若不一致, 則由唯一性可知它們不可能用一些 elementary row operations 將其中一個換成另一個.

在本章中我們學習解聯立方程組的技巧. 利用 elementary row operations 將 augmented matrix 中的係數矩陣化為 echelon form 後, 我們很快的可以知道此聯立方程組是否有解, 而有解時也可利用此 echelon form 完整的得到此聯立方程組所有的解. 由 echelon form 的解法我們了解到 pivot variables 和 free variables 對聯立方程組是否有解以及解是否唯一有著重要的關連. 本章中有關聯立方程組的理論對後面線性代數理論的建立影響深遠, 千萬不要以為會解具體的聯立方程組就可以了, 而忽視這些理論.

(12)

Vector Spaces

在這一章中, 我們利用大家熟悉的坐標平面中的向量, 將之推廣到所謂的 vector space (向量空間). Vector space 一種有特定代數結構的系統, 是線性代數中主要的探討對象.

2.1. 坐標平面中的向量

本節針對對抽象數學論述不熟悉的同學, 想利用大家熟悉坐標平面的向量慢慢引導進入狀況.

在平面中的向量我們可以用幾何的方式規定向量的加法及其倍數關係. 相信大家對這種定法已相當熟悉, 在這裡我們不再重複. 我們可以將平面坐標化, 這就是所謂的坐標平面. 這 種在坐標平面中的向量, 我們都可用 (a, b) 來表示, 其中 a, b∈ R (我們用 R 來表示所有實數 所成的集合, 所以 a, b∈ R 表示 a,b 皆為實數).

用坐標來表示一個向量 (即用 (a, b) 這種方法) 有許多好處, 例如大家很容易理解: 當兩 個向量 (a, b) 和 (c, d) 相等時 (即 (a, b) = (c, d)), 這表示 a = c 且 b = d; 坐標表示法的另一 個好處是很容易幫助我們定義向量的加法 (addition) 以及係數積 (scalar multiplication).

Definition 2.1.1. 令 u = (a₁, a₂), v = (b₁, b₂)∈ R² 以及 r∈ R. 我們定義 u + v = (a₁+ b1, a2+ b2) and ru = (ra1, ra2).

這裡我們要強調, Definition 2.1.1 中所定義的加法及係數積, 和前面所述用幾何的方式定義所得的結果是一致的. 基於符號的方便性, 當我們要用符號來表示一個向量時, 會用 u, v 這類的粗體字符號來表示. 一般來說我們用R² 來表示坐標平面上的向量所成的集合, 所以若我們說 v∈ R², 就表示 v 是坐標平面上的一個向量, 也就是說可以找到 a, b∈ R 使得 v = (a, b).

一般來說有了定義之後, 我們就需依定義處理相關問題, 但通常直接依定義處理較繁複, 我們可已先依定義推導出一些性質, 利用這些性質簡化處理程序, 再處理更進一步的問題.

例如在微積分, 我們定義出一個函數在某一點的極限後, 若每次都得依定義處理極限問題論證起來很複雜; 但當我們利用定義推導出一些極限的性質後, 用這些性質處理極限問題就簡 21

(13)

單方便多了. 所以在定義之後我們會有一些定理 (Proposition 或 Theorem) 來論證一些依定義可得的性質, 以方便我們處理更進一步的問題. 以下就是要談向量加法及係數積有關的性質.

Proposition 2.1.2. 對於R² 上的向量, 我們有以下的性質:

(1) 對任意 u, v∈ R², 皆有 u + v = v + u.

(2) 對任意 u, v, w∈ R², 皆有 (u + v) + w = u + (v + w).

(3) 存在一向量 0∈ R² 滿足對任意 u∈ R² 皆有 0 + u = u.

(4) 對任意 u∈ R² 皆可找到 u^′∈ R² 滿足 u + u^′= 0.

(5) 對任意 u∈ R², 皆有 1u = u.

(6) 對任意 r, s∈ R 以及 u ∈ R², 皆有 r(su) = (rs)u.

(7) 對任意 r∈ R 以及 u,v ∈ R² 皆有 r(u + v) = ru + rv.

(8) 對任意 r, s∈ R 以及 u ∈ R², 皆有 (r + s)u = ru + su.

通常一個定理敘述完就要證明, 不過這幾項的證明都僅是一般制式的代數操作, 相信大家都很熟悉, 這裡就不再證明了. 對同學來說了解定理說些什麼比起證明來得重要. 在這裡我們就一一說明一下這個定理說些什麼.

(1) 敘述的是所謂向量加法的交換性. 它告訴我們在處理向量加法時可以依方便交換順序. 或許同學覺得這個很自然為何還要證明. 事實上只要是定義未提的事情都要證明, 不能因為覺得自然而不去處理. 在證明時會發現這個性質會成立主要是實數加法有交換性. 不過數學上是存在許多 “抽象” 的數系它的運算是不能交換的. 所以經由證明不只讓我們確認事情是對的, 也能幫助我們釐清事情是對的其背後的主要因素.

(2) 說的就是所謂的結合律, 它依然是因為實數加法的性質而成立. 這裡 (u + v) + w 是說先將 u 和 v 相加後所得的向量再和 w 相加. 這樣所得的向量和先將 v 和 w 相加後再和 u 相加會是同樣的向量. 因為向量的加法是定義兩個向量的加法, 所以兩個以上的向量相加結合律就顯得重要了. 有了結合律, 我們就不必擔心哪兩個向量先加. 結合律雖然也是談向量加法的順序問題, 不過和 (1) 所談的順序是兩回事, 大家應該要分清楚.

(3) 談的就是所謂的零向量, 零向量的特點就是加上任何向量都不動. 為什麼要特別談零向量的存在性? 這就好比在實數上若沒有零的概念就沒有減法一樣, 在向量的運算上是相當重要的. 尤其以後要用抽象的方式談向量系統時零向量的存在性更不容忽視.

(4) 談的就是所謂的反向量, 要注意需有零向量的存在才能談反向量. 而且要區分清楚這裡的敘述是給了 u 後可找到 u^′ 使得 u + u^′= 0. 這裡 u^′ 是會隨著 u 而改變, 而不是一個固定的向量和所有的向量加起來會是零向量. 數學的敘述要弄清楚否則差之毫釐失之千里.

(5) 指的是所有向量乘上 1 後仍不動. 這裡特別提出來其實和零向量意義很像, 唯有 1 的引入以後才能談係數的除法. 例如已知 2u = v, 就可利用 (6) 的性質兩邊乘上 1/2, 得

u =1u =1

2(2u) =1 2v.

(14)

(6),(7),(8) 談的是係數積的性質, 例如 r(su) 表示是先將 u 乘上 s 倍後所得的向量再乘 上 r, 而 (rs)u 是表示先將 r, s 乘在一起得 rs 再乘上 u. 這幾個性質也都和實數乘法性質息 息相關, 雖然看起來不顯眼但在處理向量的運算時非常重要.

最後要強調一下: 這裡將這些性質列出, 並不是要求大家將這幾個性質背下來. 一來我們希望大家知道有些性質不能覺得理所當然就不去證明, 另一方面也讓大家知道以後在處理向量運算時可以放心且自然的使用這幾個性質. 這些性質也讓坐標平面上向量的系統享有許多豐富的性質.

Question 2.1. 利用R² 向量加法的定義, 試證明以下性質:

(1) 0 = (0, 0) 是 R² 中唯一的向量滿足對任意 u∈ R² 皆有 0 + u = u.

(2) 給定 u = (a, b)∈ R², 試證明 u^′= (−a,−b) 是 R² 中唯一的向量滿足 u + u^′= 0.

坐標平面上向量的運算也可推廣到坐標空間, 即 R³. 同樣的概念也可推廣到更一般的 Rⁿ, n∈ N. 這些系統中的運算都享有 Proposition 2.1.2 的 8 項性質, 而這些性質讓這些系統 有著豐富的性質. 所以接下來我們將專注於有這 8 項性質的系統, 稱之為 vector space (向量空間).

2.2. Vector Space 的定義及其基本性質

我們曾經提過像R² 這樣, 裡面任意兩個向量相加仍在 R² 中且向量乘上任意的實數後也仍在 R², 而向量的運算又符合 Proposition 2.1.2 的 8 項規則, 我們便稱之為 vector space. 在這一節中我們將正式定義 vector space 並探討 vector space 相關性質.

給定一非空集合 V , 我們說 V 中有加法運算 (sddition) +, 表示對於任意 V 中兩個元素 u, v∈ V, 經由這個運算所得的結果 u+v 仍然是 V 中的元素 (此為加法封閉性). 至於係數積 (scaler multiplication) 我們要注意的是, 可以乘在向量上的數所在的數系必須像實數一樣有加法與乘法, 且加法, 乘法都是有交換律及結合律, 還有加法乘法之間要有分配律. 更重要的 是這個數系裡非 0 的元素都有乘法反元素. 這樣的數系我們稱之為 field (體). 例如實數 R 和有理數 Q 在我們一般熟悉的加法, 乘法運算下都是 field, 但是整數 Z 就不是 field, 因為

除了±1 以外其他的非 0 整數在 Z 中就無法找到乘法反元素. 由於以後我們談的向量空間,

向量前所乘的係數所在的數系只要是 field, 則我們所要探討的性質都會成立. 所以係數積我們都不會強調是哪一個 field, 而用 F 來表示. 不過由於我們給的例子大多是係數積為 R 的情況, 所以若對 field 的概念覺得陌生, 不妨就用 F = R 的情況來思考即可. 現若 F 是一個 field, 我們說 F 對 V 有係數積表示對任意 c ∈ F 以及 v ∈ V, 皆有 c 對 v 所得係數積 cv 仍 然在 V 中 (此為係數積封閉性). 當一個集合 V 上有加法運算, 且 field F 對其有係數積, 則我們可以探討其是否為 vector space, 也就是說探討它是否符合以下之定義.

Definition 2.2.1. 假設非空集合 V 中有加法運算 +, 以及 fieldF 對 V 的係數積. 若這兩 種運算符合以下 8 項性質, 則稱 V 為一個 vector space overF.

(1) 對任意 u, v∈ V, 皆有 u + v = v + u.

(15)

(2) 對任意 u, v, w∈ V, 皆有 (u + v) + w = u + (v + w).

(3) 存在一向量 0∈ V 滿足對任意 u ∈ V 皆有 0 + u = u.

(4) 對任意 u∈ V 皆可找到 u^′∈ V 滿足 u + u^′= 0.

(5) 對任意 u∈ V, 皆有 1u = u.

(6) 對任意 r, s∈ F 以及 u ∈ V, 皆有 r(su) = (rs)u.

(7) 對任意 r∈ F 以及 u,v ∈ V 皆有 r(u + v) = ru + rv.

(8) 對任意 r, s∈ F 以及 u ∈ V, 皆有 (r + s)u = ru + su.

在此要說明一下, 一般來說我們不能說一個集合是 vector space, 一定要附帶說明它的 加法及係數積為何. 不過當我們談到一般抽象的 vector space 時, 我們說 V 是一個 vector space over F 時就隱含其中有加法運算且直接用 + 表示, 同時也隱含 F 是一個 field 且 V 中有 F 的係數積, 而不再去強調其中有加法及係數積. 同樣的對於常見的 vector space, 例如 Rⁿ, 由於我們已經有常用的加法及係數積, 所以不會再次強調其加法及係數積為何. 不過當我們要介紹一個新的具體的 vector space 時, 就一定要說明如何定出其加法及係數積. 尤其要注意, 我們必須明確說是 over 哪一個 field 的 vector space (以後我們會看到例子, 同樣的集合看成 over 不同的 field 的 vector space 影響會很大).

或許很多同學會疑惑, 為何在上一節中這 8 個性質是定理要證明, 而這一節中卻是定義不必證明呢? 要回答這個問題就要回歸到整個過程的演變. 上一節中我們定義了坐標平面向量加法及係數積, 然後驗證它們符合 Proposition 2.1.2 這 8 個性質. 而後由這些性質得到許多運算上很方便且豐富的性質. 事實上這些豐富的性質成立的原因, 主因並不是這些平面向量的加法和係數積是如何定義的, 而是由於它們符合 Proposition 2.1.2 這 8 個性質. 注意到這一點後, 我們專注於符合這 8 個性質的系統稱之為向量空間. 希望以後探討向量空間的問題, 可以不必用到它們真正的運算僅利用這 8 個性質就能得到向量空間所有的性質. 所以當我們想推導向量空間的性質時, 我們就可以直接套用定義中這 8 性質去推導, 這樣推導出來的結果便適用於所有的向量空間. 反過來說, 當我們遇到一個系統有加法, 有係數積, 只要我們能利用該系統的運算 “證明” 它符合這基本的 8 個性質, 那它就是向量空間. 因而所有向量空間的性質它都會符合了, 而不必再用該系統的運算一一去推導.

———————————– 20 September, 2018