大大大學學學線線線性性性代代代數數數初初初步步步

(1)

大

大大學學學線線線性性性代代代數數數初初初步步步

李

李李華華華介介介

國國

國立立立台台台灣灣灣師師師範範範大大大學學學數數數學學學系系系

(2)

(3)

前前前言言言

本講義主要目的是針對大一學生介紹有關線性代數基本的理論. 希望藉由較平易近人的方式介紹線性代數也慢慢引導熟悉數學的論證方式. 本講義希望以淺顯易懂為主旨, 而不是生動有趣. 畢竟有些事情要說明清楚就會顯得囉唆, 當然就不有趣了.

本講義是內容僅涵蓋實係數向量空間的基礎理論, 希望大家對這些基本理論有了充分了解, 在去談其他. 因此內容並不足以應付研究所課程所需的進一步理論. 另一方面我們的內容偏重於整個線性代數的理論架構, 對於線性代數在其他領域的應用幾乎沒有著墨. 我們依循一貫的原則就是基本理論清楚了, 接下來的應用或推廣就不難了. 所以對線性代數更進一步的理論或應用有興趣的同學應再參考其他的參考書籍.

本講義雖然主要以中文撰寫, 不過當涉及定義或專有名詞時, 為免翻譯的困擾將以英文取代. 因此將以中英夾雜較不傳統的方式顯現, 若有不便請見諒.

本講義編寫費時, 編寫完後並未經過嚴謹的校對. 疏漏在所難免, 雖不至於有理論性上嚴重的錯誤, 但讀者仍應注意不宜概括全收. 若發現錯誤, 歡迎提出寶貴的意見.

v

(4)

(5)

Part I

Vectors, Systems of

Linear Equations,

Matrices

(6)

三個大家較為熟悉的題材慢慢引入線性代數的概念. 在此要強調一下, 千萬不要以為這三種題材在高中沒學好, 線性代數就學不好. 我們僅是利用這些大家可能較熟悉的題材當成動機, 讓大家剛接受到抽象的線性代數理論時不會絕得太突兀摸不著頭緒.

(7)

Chapter 1

Vectors

我們藉由大家熟悉的向量來介紹向量間運算的性質. 要注意我們不再去定義何謂向量, 而是著重於如何用這些已知的向量性質, 利用較抽象的方法來推導出一些幾何的性質.

1.1. 二二二維維維平平平面面面中中中的的的向向向量量量

本節針對對抽象數學論述不熟悉的同學, 想利用大家熟悉坐標平面的向量慢慢引導進入狀況. 也因此本節在細節的說明特別繁瑣. 若對坐標平面的向量相當清楚的同學, 可放心略過此節.

在坐標平面中的向量, 我們都可用 (a, b) 來表示, 其中 a, b ∈ R (我們用 R 來表示所有實數所成的集合, 所以 a, b ∈ R 表示 a, b 屬於實數, 也就是說 a, b 皆為實數). 意思就是說如果你在坐標平面中任給一點 P , 然後從 P 點開始往水平方向走 a 單位 (a > 0 時往右; a < 0 時往左), 再沿鉛直方向走 b 單位 (b > 0 時往上; b < 0 時往下), 最後到達的點若記為 Q. 那麼從 P 點開始到 Q 點為止的這一個向量就可用 (a, b) 來表示, 記為

−−→

P Q = (a, b).

用坐標來表示一個向量 (即用 (a, b) 這種方法) 有許多好處, 例如大家很容易理解:

當兩個向量 (a, b) 和 (c, d) 相等時 (即 (a, b) = (c, d)), 這表示 a = c 且 b = d; 從這觀點若用點來表示向量時就較麻煩, 因為如果 P, P⁰, Q, Q⁰ 為平面中四個點 −−→

P Q =−−→

P⁰Q⁰ 並不代表 P 和 P⁰ 為同一點且 Q 和 Q⁰ 為同一點. 不過若已知 P = P⁰ , 則可得 Q = Q⁰. 反之若 Q = Q⁰ 則可得 P = P⁰. (我們說明一下這裡符號的使用: 因為 P, P⁰ 皆為“點”而不是“數”, 所以這裡 P = P⁰ 這個等號表示同一“點”而不是同一“數”). 上面這個論述可用剛才定義 −−→

P Q的方法驗證, 這裡就不再驗證. 基於符號的方便性, 當我們要用符號來表示一個向量時, 除非已知此向量為特定兩點所決定的向量, 通常會僅用 u, v 這類的粗體字符號來表示. 一般來說我們用 R² 來表示坐標平面上的向量所成的集合, 所以若我們說 v ∈ R², 就表示 v 是坐標平面上的一個向量, 也就是說可以找到 a, b ∈ R 使得 v = (a, b).

3

(8)

坐標表示法的另一個好處是很容易幫助我們定義向量的加法 (addition) 以及係數積 (scalar multiplication).

Definition 1.1.1. 令 u = (a1, a2), v = (b1, b2) ∈ R² 以及 r ∈ R. 我們定義 u + v = (a1+ b1, a2+ b2) and ru = (ra1, ra2).

要注意這裡所謂的定義 (即 definition) 指的是規定, 也就是說我們規定向量必須這樣相加及乘上一個常數. 當然了你也可以自行規定一套向量加法的規則. 不過一般在數學上的定義都有其必要性, 通常一個定義對理論推導或實用上都會有相當的幫助.

例如這一個定義與我們直觀上認為若 P, Q, R 為坐標平面上三點, 則 −−→ P Q +−−→

QR =−→

P R 相吻合. 這是因為: 假設 P, Q, R 三點的坐標分別為 P (x1, y₁), Q(x₂, y₂), R(x₃, y₃) (注意:

為了區分點和向量的坐標表示法, 當我們提到點的坐標時都會加上該點的代號), 則

−−→

P Q = (x2− x₁, y2− y₁),−−→

QR = (x3− x₂, y3− y₂),−→

P R = (x3− x₁, y3− y₁).

然而依前面向量加法的定義確實

−−→ P Q +−−→

QR = ((x2− x₁) + (x3− x₂), (y2− y₁) + (y3− y₂)) = (x3− x₁, y3− y₁) . 故得

−−→ P Q +−−→

QR =−→

P R. (1.1)

一個定義一定要清楚明確, 例如若 u = (1, 2), v = (3, 4) 且 r = 5, 由 Definition 1.1.1 我們知 u + v = (1 + 3, 2 + 4) = (4, 6) 且 ru = (5 × 1, 5 × 2) = (5, 10). 不過我們決不能用: 若 u = (1, 2), v = (3, 4) 且 r = 5, 則定義 u + v = (1 + 3, 2 + 4) = (4, 6) 且 ru = (5 × 1, 5 × 2) = (5, 10)這樣的說法來定義向量的加法及係數積. 因為這樣的說法只是定義出兩個特殊的向量的加法以及和一特殊實數的乘積, 不能依這特例要求別人“依此類推”. 這就是當初定義時用 a1, a2, b1, b2, r這些符號來代替具體數字的用意. 另外要注意在 Definition 1.1.1 中我們沒有提 rv 的定義, 不過當初既然 u 已表成任意 R² 上的向量,定義 ru 已足夠所以不必再去定 rv. 最後要強調的是: 這裡我們並沒有定義兩向量的乘法, 而是定義實數和向量相乘, 所以我們稱為係數積 (scalar multiplication) 而不能說是向量的乘法.

有了定義之後, 我們就需依定義處理相關問題, 但通常直接依定義處理較繁複, 我們可依定義推導出一些性質, 利用這些性質簡化處理程序. 例如在微積分, 我們定義出一個函數在某一點的極限後, 若每次都得依定義處理極限問題論證起來很複雜; 但當我們利用定義推導出一些極限的性質後, 用這些性質處理極限問題就簡單方便多了. 所以在定義之後我們會有一些定理 (Proposition 或 Theorem) 來論證一些依定義可得的性質, 以方便我們處理更進一步的問題. 以下就是要談向量加法及係數積有關的性質.

Proposition 1.1.2. 對於 R² 上的向量, 我們有以下的性質:

(1) 對任意 u, v ∈ R², 皆有 u + v = v + u.

(2) 對任意 u, v, w ∈ R², 皆有 (u + v) + w = u + (v + w).

(9)

1.1. 二維平面中的向量 5

(3) 存在一向量 0 ∈ R² 滿足對任意 u ∈ R² 皆有 0 + u = u.

(4) 對任意 u ∈ R² 皆可找到 u⁰ ∈ R² 滿足 u + u⁰= 0.

(5) 對任意 r, s ∈ R 以及 u ∈ R², 皆有 r(su) = (rs)u.

(6) 對任意 r, s ∈ R 以及 u ∈ R², 皆有 (r + s)u = ru + su.

(7) 對任意 r ∈ R 以及 u, v ∈ R² 皆有 r(u + v) = ru + rv.

(8) 對任意 u ∈ R², 皆有 1u = u.

通常一個定理敘述完就要證明, 不過在這裡我們建議先緩一緩. 對同學來說了解定理說些什麼比起證明來得重要. 在這裡我們就一一說明一下這個定理說些什麼.

(1) 敘述的是所謂向量加法的交換性. 它告訴我們在處理向量加法時可以依方便交換順序. 或許同學覺得這個很自然為何還要證明. 事實上只要是定義未提的事情都要證明, 不能因為覺得自然而不去處理. 這裡大家會覺得自然是因為大家對實數的加法運算很清楚, 不過數學上是存在許多“抽象”的數系它的加法是不能交換的. 所以經由證明不只讓我們確認事情是對的, 也能幫助我們釐清事情是對的其背後的主要因素.

(2) 說的就是所謂的結合律, 它依然是因為實數加法的性質而成立. 這裡 (u+v)+w 是說先將 u 和 v 相加後所得的向量再和 w 相加. 這樣所得的向量和先將 v 和 w 相加後再和 u 相加會是同樣的向量. 這裡雖然也是談向量加法的順序問題, 不過和 (1) 所談的順序是兩回事, 大家應該要分清楚.

(3) 談的就是所謂的零向量, 零向量的特點就是加上任何向量都不動. 為什麼要特別談零向量的存在性? 這就好比在實數上若沒有零的概念就沒有減法一樣, 在向量的運算上是相當重要的. 尤其以後要用抽象的方式談向量系統時零向量的存在性更不容忽視.

(4)談的就是所謂的反向量, 要注意需有零向量的存在才能談反向量. 而且要區分清楚這裡的敘述是給了 u 後可找到 u⁰ 使得 u + u⁰ = 0. 這裡 u⁰ 是會隨著 u 而改變, 而不是一個固定的向量和所有的向量加起來會是零向量. 數學的敘述要弄清楚否則差之毫釐失之千里.

(5),(6),(7) 談的是係數積的性質, 例如 r(su) 表示是先將 u 乘上 s 倍後所得的向量再乘上 r. 這幾個性質也都和實數乘法性質息息相關, 雖然看起來不顯眼但在處理向量的運算時非常重要.

(8) 指的是所有向量乘上 1 後仍不動. 這裡特別提出來其實和零向量意義很像, 唯有 1 的引入以後才能談係數的除法. 例如已知 2u = v, 就可利用 (5) 的性質兩邊乘上 1/2, 得

u = 1u = 1

2(2u) = 1 2v.

最後要強調一下: 這裡將這些性質列出, 並不是要求大家將這幾個性質背下來. 一來我們希望大家知道有些性質不能覺得理所當然就不去證明, 另一方面也讓大家知道

(10)

以後在處理向量運算時可以放心且自然的使用這幾個性質. 現在我們就來看看這些證明.

Proof. (of Proposition 1.1.2)這幾個性質其實很簡單, 我們寫下證明是希望不熟悉寫抽象證明的同學利用這個簡單的證明學學看如何寫好證明. 若自覺對這些性質的證明清楚的同學可跳過此證明.

(1) 假設 u = (a1, a2), v = (b1, b2), 則依定義知

u + v = (a₁+ b₁, a₂+ b₂), v + u = (b₁+ a₁, b₂+ a₂).

故由實數加法的交換性 (即 a + b = b + a) 可得 u + v = v + u.

(2) 假設 u = (a1, a₂), v = (b₁, b₂), w = (c₁, c₂), 則依定義知 u + v = (a1+ b₁, a₂+ b₂) 故得

(u + v) + w = ((a₁+ b₁) + c₁, (a₂+ b₂) + c₂).

同理由 v + w = (b1+ c₁, b₂+ c₂) 可得

u + (v + w) = (a1+ (b1+ c1), a2+ (b2+ c2)).

因此由實數加法的結合律 (即 (a + b) + c = a + (b + c)) 得知 (u + v) + w = v + (u + w).

(3) 這是一個存在性的問題, 也就是說要找到一個向量 0 滿足所求. 這裡我們只要令 0 = (0, 0), 則對任意向量 u = (a1, a₂) 皆有

0 + u = (0 + a₁, 0 + a₂) = (a₁, a₂) = u.

故知確實存在這樣的向量.

(4) 上面我們已知可令 0 = (0, 0), 故此時對任意 u = (a1, a2) 我們只要考慮 u⁰ = (−a₁, −a₂), 則可得

u + u⁰ = (a1+ (−a1), a2+ (−a2)) = (0, 0) = 0.

(5) 假設 u = (a1, a₂), 依定義知 su = (sa1, sa₂), 因此得 r(su) = (r(sa₁), r(sa₂)).

另一方面

(rs)u = ((rs)a₁, (rs)a₂),

故由實數乘法結合律 (即 r(sa) = (rs)a) 可得 r(su) = (rs)u.

(6) 假設 u = (a1, a2), 依定義知

(r + s)u = ((r + s)a₁, (r + s)a₂).

另一方面 ru = (ra1, ra2), su = (sa1, sa2),可得 ru + su = (ra₁+ sa₁, ra₂+ sa₂),

故由實數加法與乘法的分配律 (即 (r + s)a = ra + sa) 可得 (r + s)u = ru + su.

(11)

1.1. 二維平面中的向量 7

(7) 假設 u = (a₁, a₂), v = (b₁, b₂), 依定義知

r(u + v) = (r(a1+ b1), r(a2+ b2)).

另一方面 ru = (ra1, ra₂), rv = (rb₁, rb₂),可得 ru + rv = (ra1+ rb1, ra2+ rb2),

故由實數加法與乘法的分配律 (即 r(a + b) = ra + rb) 可得 r(u + v) = ru + rv.

(8) 假設 u = (a1, a2), 由於對任意實數 a 皆有 1a = a, 故由 1u = (1a1, 1a2) 可得 1u = u.

接下來我們將舉一個例子來說明我們可以用向量的性質 (Proposition 1.1.2) 來處理一些幾何的問題. 由於這些性質以後我們不會用到, 所以在此不用定理的形式呈現而是用例題的形式呈現.

Example 1.1.3. 假設 P, Q, R, S 是平面中四個點, 其中 −−→ P Q =−→

SR, 則我們有以下性質:

(1) −−→ QR =−→

P S.

(2) 假設 T 為線段 P R 和線段 SQ 的交點, 則 −→

P T =−→

T R 且 −→

ST =−→

T Q.

我們利用下圖來解釋這兩個性質會成立的原因:

P

Q R

S

T

(1) 我們要利用 −−→ P Q =−→

SR 來得到 −−→ QR = −→

P S. 由前面式子 (1.1) 我們知道 −−→ P Q +

−−→ QR =−→

P R且 −→

P S +−→

SR =−→

P R. 也就是說

−−→ P Q +−−→

QR =−→

P S +−→

SR. (1.2)

由 Proposition 1.1.2 (4), 我們知存在 u 使得 −−→

P Q + u = 0. 要注意由於 Proposi- tion 1.1.2 (1)以及 −−→

P Q =−→

SR 的假設, 這等於

−−→

P Q + u = u +−−→ P Q =−→

SR + u = u +−→

SR = 0 現將上面式子 (1.2) 兩邊加上 u 可得

u + (−−→ P Q +−−→

QR) = u + (−→

P S +−→

SR) (1.3)

然而利用 Proposition 1.1.2 (2), (3) 我們有 u + (−−→

P Q +−−→

QR) = (u +−−→

P Q) +−−→

QR = 0 +−−→ QR =−−→

QR.

(12)

同理可得 u + (−→

P S +−→

SR) = (−→

P S +−→

SR) + u =−→

P S + (−→

SR + u) =−→

P S + 0 =−→

P S.

故由式子 (1.3) 可得 −−→ QR =−→

P S.

(2) 通常我們用坐標來處理問題時, 碰到交點的問題可以用解方程式的方法處理, 不過這裡我們要用抽象的向量處理, 遇到交點問題就比較麻煩, 需要用比較特殊的方法處理. 這裡原要證明線段 P R 和線段 SQ 的交點會是 P R 以及 SQ 的中點. 我們用反過來的看法處理, 也就是要去說明 P R 的中點和 SQ 的中點會是同一點. 如此一來這一點因同時在 P R 和 SQ 上, 所以自然就是 P R 和 SQ 的交點. 又因為 P R 和 SQ 不平行, 僅能有一個交點, 這就說明了線段 P R 和線段 SQ 的交點就是 P R 以及 SQ 的中點. 具體來說我們假設 T⁰, T⁰⁰ 分別為 P R 和 SQ 的中點. 然後說明 T⁰ = T⁰⁰,如此一來便得證 T⁰ 為 P R 和 SQ的交點, 也就是說 T = T⁰ = T⁰⁰, 故得證所求.

依假設 T⁰, T⁰⁰ 分別為 P R 和 SQ 的中點, 故知

−−→P T⁰ =−−→

T⁰R = 1 2

−→P R (1.4)

且 −−→

ST⁰⁰=−−→

T⁰⁰Q = 1 2

−→SQ. (1.5)

若我們能證明 −−→

P T⁰ =−−→

P T⁰⁰ 便得證 T⁰ = T⁰⁰. 然而 −−→

P T⁰⁰ =−→

P S +−−→

ST⁰⁰, 故由式子 (1.5)可得

−−→

P T⁰⁰ =−→

P S +−−→

ST⁰⁰ =−→

P S +1 2

−→SQ.

又由於 (1) 告訴我們 −→

P S =−−→

QR 上式可改寫為

−−→

P T⁰⁰=−−→ QR +1

2

−→SQ = (1 2

−−→ QR +1

2

−−→

QR) +−→

SQ = 1 2

−−→ QR + 1

2(−−→ QR +−→

SQ) = 1 2(−−→

QR +−→

SR) 再利用已知 −−→

P Q =−→

SR, 上式又可改寫為

−−→P T⁰⁰ = 1 2(−−→

QR +−→

SR) = 1 2(−−→

QR +−−→ P Q) = 1

2

−→P R

故由式子 (1.4) 得證 −−→

P T⁰ =−−→

P T⁰⁰, 也因此得知 T⁰ = T⁰⁰ 就是 P R 和 SQ 的交點, 也就是說 T = T⁰ = T⁰⁰. 故由式子 (1.4,1.5) 得證 −→

P T =−→

T R 且 −→

ST =−→

T Q.

同學或許會想到用設定坐標的方式處理 Example 1.1.3 的問題. 這裡我們故意不去設定坐標系 , 而僅用 Proposition 1.1.2 中列出的向量運算性質去處理 , 主要就是要強調這幾個運算性質就足以處理向量有關的性質. 也就是說不一定需要架設坐標系, 只要符合 Proposition 1.1.2 中列出的運算性質, 都可享有 Example 1.1.3 的性質. 另外由 Example 1.1.3的處理過程中我們了解到, Proposition 1.1.2 的運算性質可幫助我們在處理向量有關的等式運算時可如處理實數的等式運算一樣 (例如移項, 消去...等). 這些等我們以後更進一步談向量空間時, 大家就更能體會了.

(13)

1.2. Rⁿ 中的向量 9

1.2. Rⁿ 中中中的的的向向向量量量

在高中時我們也學坐標空間中的向量, 也就是 R³. 很容易理解 R³ 中的向量可以說是 R² 中的向量的推廣. 同樣的我們也可將之推廣而定義 Rⁿ 中的向量, 其中 n ∈ N 是任意的正整數. 本節中我們將探討 Rⁿ 中的向量. 或許同學們會覺得 Rⁿ 中的向量已看不到, 而疑惑為何要探討它. 事實上線性代數的應用有許多情況就是在這類抽象且看不到的狀況, 這甚至可以說是線性代數發展的主因 (如果僅為了 R² 或 R³ 就沒必要發展這一套理論). 在這一節中我們會發現, 雖然它看不到, 但因為具有如 R² 中向量的運算性質, 我們還是可以如處理 R² 中的向量一般的方式處理它們相關的性質.

R³ 中的向量, 即坐標空間中的向量我們可以用 (a1, a2, a3) 其中 a1, a2, a3 ∈ R 來表示, 而且我們定義兩向量 (a1, a₂, a₃), (b₁, b₂, b₃) 相等表示 a1 = b₁, a₂ = b₂ 且 a3 = b₃. 對於任意的 n ∈ N 我們也有如下的定義:

Definition 1.2.1. 給定任意 n ∈ N, 我們定義 Rⁿ 中的向量為 (a1, . . . , a_n), 其中 a1, . . . , an∈ R. 我們說兩向量 (a1, . . . , an) 以及 (b1, . . . , bn) 相等若且唯若 a1= b1, . . . , an= bn.

我們多說明一下符號的表示法, 這裡 (a1, . . . , an) 表示有 n 個位置, 每個位置我們依次填入實數其中第 1 個位置的元素我們用 a1 來表示, 第二個位置用 a2 來表示, 這樣一直下去直到第 n 個位置用 an來表示. 例如 n = 4 時, R⁴ 中的向量可以用 (a1, a2, a3, a4) 來表示. 因為 n 可以是任意的正整數不能如 n = 4 時將所有的 a1, a₂, . . . 都列出來, 所以我們就用 (a1, . . . , an) 來表示. 這裡我們也沿習這樣省略的方法說 a1, . . . , an∈ R, 表示 a1 到 a_n 這 n 個元素都是實數. 有的書用較嚴謹的說法, 會用 ai ∈ R, ∀ 1 ≤ i ≤ n 來表示, 此即對所有的 1 ≤ i ≤ n 皆有 ai ∈ R 的意思. 這種說法的意義是: i 是任意 1 到 n的整數, 而對於這個 i 所對應的 ai 會是實數. 所以這等同於說 a1 到 an 這 n 個數都是實數. 另一方面談論向量的相等是必要的, 這是因為在談論向量的運算時就如同實數的運算, 我們必須明確規定等式的意義. 實數的相等很明確, 所以我們就利用實數的相等來定義向量的相等. 這裡 a1 = b₁, . . . , a_n= b_n 也是一種省略的說法, 一般也可以用 a_i = b_i, ∀ 1 ≤ i ≤ n 來表示.

接著我們沿用 R² 中向量的加法及係數積來定義 Rⁿ 中向量的加法 (addition) 以及係數積 (scalar multiplication).

Definition 1.2.2. 令 u = (a1, . . . , an), v = (b1, . . . , bn) ∈ Rⁿ 以及 r ∈ R. 我們定義 u + v = (a₁+ b₁, . . . , a_n+ b_n) and ru = (ra₁, . . . , ra_n).

依此定義, 給定 Rⁿ中的兩向量我們可以明確地計算它們之和, 例如若 u = (1, 1, 2, 2), v = (5, 4, 3, 2) ∈ R⁴ 則

u + v = (1 + 5, 1 + 4, 2 + 3, 2 + 2) = (6, 5, 5, 4).

這裡特別要注意的是必須是 u, v 皆在相同的 Rⁿ 中才能定義 u + v. 例如若 u 在 R³ 而 v在 R⁴ 是不能談 u + v 的了!

(14)

如同 R² 的情形, Rⁿ 中向量加法及係數積有以下的性質. 由於這些性質的證明和 R² 的情形完全相同 (用到實數相對應的性質), 此處我們就不再證明了.

Proposition 1.2.3. 對於 Rⁿ 上的向量, 我們有以下的性質:

(1) 對任意 u, v ∈ Rⁿ, 皆有 u + v = v + u.

(2) 對任意 u, v, w ∈ Rⁿ, 皆有 (u + v) + w = u + (v + w).

(3) 存在一向量 0 ∈ Rⁿ 滿足對任意 u ∈ Rⁿ 皆有 0 + u = u.

(4) 對任意 u ∈ Rⁿ 皆可找到 u⁰ ∈ Rⁿ 滿足 u + u⁰ = 0.

(5) 對任意 r, s ∈ R 以及 u ∈ Rⁿ, 皆有 r(su) = (rs)u.

(6) 對任意 r, s ∈ R 以及 u ∈ Rⁿ, 皆有 (r + s)u = ru + su.

(7) 對任意 r ∈ R 以及 u, v ∈ Rⁿ 皆有 r(u + v) = ru + rv.

(8) 對任意 u ∈ Rⁿ, 皆有 1u = u.

Proposition 1.2.3 (3) 所提的 0 其實就是向量 (a1, . . . , an), 其中 ai = 0, ∀ 1 ≤ i ≤ n, 我們也稱此 0 為零向量. 另外若 u = (a1, . . . , a_n) ∈ Rⁿ, 則 Proposition 1.2.3 (4) 所提的 u⁰ 其實就是 (b₁, . . . , b_n), 其中 bi = −a_i, ∀ 1 ≤ i ≤ n. 由係數積的定義我們可得

u⁰ = (−a₁, . . . , −a_n) = (−1)(a₁, . . . , a_n) = (−1)u.

因此我們又將此 u⁰ 簡記成 −u. 有了這些性質, 我們可以將 Rⁿ 的向量如實數般運算.

例如, 若 v + u = u, 則等式兩邊加上 −u, 可得

0 = u + (−u) = (v + u) + (−u) = v + (u + (−u)) = v + 0 = v.

從這裡我們知道只要 v + u = u, 就能確保 v = 0. 換言之, 0 會是在 Rⁿ 中“唯一”的一個向量會滿足 Proposition 1.2.3 (3) 中所說 0 + u = u. 又例如若 u + v = 0, 則等式兩邊加上 −u 可得

−u = (−u) + 0 = (−u) + (u + v) = (−u + u) + v = 0 + v = v.

也就是說給定 u ∈ Rⁿ, −u 會是 Rⁿ 中唯一的向量會滿足 u + (−u) = 0. 綜合以上的結果, 我們有以下的性質.

Proposition 1.2.4. 假設 u = (a₁, . . . , a_n) ∈ Rⁿ. 則我們有以下的性質:

(1) v ∈ Rⁿ 滿足 u + v = u 若且唯若

v = 0 = (0, . . . , 0).

(2) w ∈ Rⁿ 滿足 u + w = 0 若且唯若

w = −u = (−1)(a₁, . . . , a_n) = (−a₁, . . . , −a_n).

Remark 1.2.5. Proposition 1.2.3 (3),(4) 其實談的是零向量和反向量的存在性而 Propo- sition 1.2.4 (1),(2) 談的是它們的唯一性. 同學或許會奇怪為何要將它們分開敘述呢? 這裡我們雖然用 Rⁿ 的加法及係數積的定義得到 Proposition 1.2.4, 事實上此 Proposition

(15)

1.3. Span of Vectors 11

1.2.4 是可以直接用 Proposition 1.2.3 得到的 (以後我們在抽象的向量空間中就會這麼處理). 就像我們在前一節所述, Proposition 1.2.3 中所述的這些性質就足以推導出一般向量有關的性質, 這些等到我們用抽象的方法定義向量空間時就會清楚, 這裡就不再詳談.

既然 Rⁿ 中向量的運算都可像實數一般處理, 我們可以如實數一樣引用“減法”的符號, 即將 w + (−v) 寫成 w − v. 如此一來以後我們在一些等式的推演時就直接沿用大家習慣的「移項」的說法 . 例如 2u + v = w, 我們就直接移項且乘以 1/2 得 u = 1/2(w − v).

1.3. Span of Vectors

在 Rⁿ 中有許多由 Rⁿ 中的向量展成的“子空間”. 這些子空間是這一節要探討的課題 . 所謂子空間以後我們後有更正式的定義, 這裡我們僅暫時借用這個名詞, 大略指的是 Rⁿ 中一些向量所組成的特殊子集合 (subset).

我們先從熟悉的坐標平面開始. 在坐標平面中我們最常談的就是直線. 一個直線通常有很多方式來表示, 若用通俗一點的說法一個直線可以說是通過一特定點且沿著一特定方向前進(或後退)所得的點所成的集合. 如果這個特定點用 P 來表示, 而 Q 為此直線上另外一點, 則用向量的觀點來說就是此直線是通過 P 點且沿著 −−→

P Q方向的直線 . 這個向量 −−→

P Q 我們稱為此直線的“方向向量” (directional vector). 一個直線的方向向量並不唯一, 因為若 Q⁰ 為此直線上 P, Q 以外的另一點, 則 −−→

P Q⁰ 也會是此直線的一個方向向量. 不過因為 P, Q, Q⁰ 皆在同一直線上, 依直線的定義我們知道會存在一實數 r 使得 −−→

P Q⁰ = r−−→

P Q. 因此若已知ㄧ非零向量 v 為一直線的方向向量, 則此直線上任兩點 P, Q 所成的向量都會存在一實數 r 使得 −−→

P Q = rv. 反之若已知ㄧ直線 L 通過 P 點且其方向向量為 v, 若 Q 點滿足 −−→

P Q = rv, 其中 r ∈ R, 則知 Q 點會在此直線 L 上. 因此我們可以用以下的集合來表示通過 P 點且方向向量為 v 的直線 L 上的點, 即

L = {Q |−−→

P Q = rv, r ∈ R}.

通常在集合的表示法中, 如果無法用列舉的方式一一列舉此集合的元素時, 我們會用上面的方法來表示. 也就是在 “|” 的左邊寫下此集合元素的形式, 右邊寫下這些元素所需符合的性質. 在這裡左邊的 Q 表示此集合所組成的元素是像 Q 這樣的點, 而右邊

−−→

P Q = rv, r ∈ R 表示 Q 點需滿足 −−→

P Q = rv, 其中 r 為實數.

從上面可知若 v 是直線 L 的方向向量那麼對任意非零實數 r, 若 w = rv, 則 w 也是 L 的方向向量. 為了方便起見我們就稱 w 和 v 為平行的向量. 若兩直線它們的方向向量是平行的, 我們就稱此二直線相平行.

我們可以發現, 上面這種用向量來描述一直線上的點的方法, 不僅在坐標平面中適用, 在坐標空間甚至更高維度的空間皆適用. 所以在 Rⁿ 中若 v 是一個非零向量,

{w ∈ Rⁿ| w = rv, r ∈ R}

(16)

這一類由向量所組成的集合便顯得重要. 提醒一下, 這個集合表示法 | 的左邊是“向量

”, 表示是由向量所成的集合, 和前面直線 L 的集合表法 | 左邊是“點”表示是由點所成的集合有所不同, 大家應區分清楚.

在坐標空間中除了直線另一個大家常探討的便是平面. 同樣的一個平面也有許多表示法. 和向量有關的最常見的就是法向量的表示法, 不過關於法向量的看法因牽涉內積我們留待以後再說明, 這裡我們依然沿用剛才直線的看法. 也就是說每一個平面 , 我們都可以在其上找到兩個不平行的直線 L1, L2, 而整個平面就是沿著其中一條直線 L₁ 畫出與 L2 平行的直線而得. 換言之, 若 L1, L₂ 分別為此平面上不平行的兩條直線, 其方向向量分別為 v1, v2 且相交於 P 點, 則對 L1 上任一點 Q 皆可找到 r1 ∈ R 滿足

−−→

P Q = r1v1. 而通過 Q 點且與 L2 平行的直線會在此平面上, 亦即若 R 點會在此與 L2

平行的直線上, 則可找到 r2 ∈ R 使得 −−→

QR = r₂v₂. 利用 −→

P R =−−→ P Q +−−→

QR 我們可得

−→P R = r₁v₁+ r₂v₂,

也就是說對於平面上任一點 R 皆可找到 r1, r₂ ∈ R 滿足 −→

P R = r₁v₁+ r₂v₂. 反之若 R 滿足 −→

P R = r1v1+ r2v2, 我們也可知 R 會落在一個過 L1 且與 L2 平行的直線上, 也就是說 R 會在此平面上. 所以若一平面 H 通過 P 點且 v1, v2 為 H 上兩條不平行的直線的方向向量, 我們也可用以下的集合表示平面 H 上的點, 即

H = {R |−→

P R = r₁v₁+ r₂v₂, r₁, r₂ ∈ R}.

要注意表示 H 的這兩個向量 v1, v₂ 並不唯一, 至於要怎樣的兩個向量可以同樣描述 H 這個平面, 這裡我們暫不探討, 留待以後我們學習更多線性代數理論時再探討. 這裡我們將專注於 {w ∈ Rⁿ| w = rv, r ∈ R} 以及 {w ∈ Rⁿ| w = r₁v₁+ r₂v₂, r₁, r₂∈ R} 這一類由向量所組成的集合.

上述有關平面的向量表示法, 不僅在坐標空間上適用, 我們可以將上述概念推廣至 Rⁿ 上且考慮更一般的情形. 在 Rⁿ 上我們不只可談直線和平面, 還有許多和直線平面有類似的特性的事物值得探討. 我們自然引進以下的定義.

Definition 1.3.1. 令 v1, . . . , v_m ∈ Rⁿ, 若存在 r1, . . . , r_m∈ R 使得 w = r₁v₁+ · · · + r_mv_m,

則稱 w 為 v₁, . . . , vm 的一個 linear combination (線性組合). 所有 v1, . . . , vm 的 linear combinations所組成的集合稱為它們的 span (展成的空間), 我們用 Span(v1, . . . , v_m) 來表示這個集合, 也就是說

Span(v1, . . . , vm) = {w ∈ Rⁿ| w = r₁v1+ · · · + rmvm, r1, . . . , rm ∈ R}.

要注意因為 v1, . . . , vm 在 Rⁿ 中, 所以v1, . . . , vm 的一個線性組合仍在 Rⁿ 中. 也就是說 Span(v₁, . . . , v_m) 是 Rⁿ 的一個子集合. 這個子集合具有一重要的性質, 我們稱之為 Rⁿ 的「子空間」(以後會給正式定義). 這個子集合具有怎樣的特殊性質呢? 比方說利用定義我們可以知零向量 0 一定會在 Span(v1, . . . , v_m)中 (即每個 ri皆取為 0), 又若

(17)

1.4. Inner Product 13

w ∈ Span(v₁, . . . , v_m), 則因 w = r1v₁+ · · · + r_mv_m 可知 −w = (−r1)v₁+ · · · + (−r_m)v_m 也就是說 −w ∈ Span(v1, . . . , v_m). 這些性質我們可以推廣到更一般的情況而得到以下的定理.

Proposition 1.3.2. 給定 v₁, . . . , v_m ∈ Rⁿ, 則對任意 u, w ∈ Span(v₁, . . . , v_m) 以及 s, t ∈ R 皆有

su + tw ∈ Span(v₁, . . . , v_m).

Proof. 因 u, w ∈ Span(v1, . . . , v_m) 由定義知存在 r1, . . . , r_m ∈ R 以及 r⁰₁, . . . , r⁰_m∈ R 使得 u = r₁v1+ · · · + rmvm 以及 w = r⁰₁v1+ · · · + r_m⁰ vm. 因此得

su + tw = (sr1+ tr₁⁰)v1+ · · · + (srm+ tr_m⁰ )vm.

也就是說 su + tw仍為 v1, . . . , vm 的一個線性組合, 故得證 su + tw ∈ Span(v1, . . . , vm).

雖然在 Proposition 1.3.2 中我們僅提及 Span(v1, . . . , vm) 中的兩個向量的線性組合仍在 Span(v1, . . . , v_m) 中 , 不過利用數學歸納法 , 我們可以證得任意有限多個 Span(v1, . . . , vm) 中的向量的線性組合也會在 Span(v1, . . . , vm) 中.

1.4. Inner Product

在 R² 和 R³ 中大家熟悉內積的定義也可以推廣到一般的 Rⁿ. 將來我們會知道內積可以幫助我們定義出 Rⁿ 中許多重要的子空間, 在本節我們僅論及大家熟悉的內積性質在 Rⁿ的情況.

首先我們回顧在 R² 和 R³ 中內積的定義. 若在 R² 中 u = (a1, a₂), v = (b₁, b₂), 則 u, v的內積 u · v 定義成 u · v = a1b1+ a2b2. 而在 R³ 中若 u = (a1, a2, a3), v = (b1, b2, b3), 則 u, v的內積 u · v 定義成 u · v = a1b₁+ a₂b₂+ a₃b₃.由這定義我們很自然地可推廣到 Rⁿ 中向量的內積如下:

Definition 1.4.1. 假設 u = (a1, . . . , an), v = (b1, . . . , bn) ∈ Rⁿ. 則定義 u, v 的 inner product (內積) 為

u · v = a1b1+ · · · + anbn=

n

X

i=1

aibi.

向量的內積和向量的運算有一定的關係, 以下就是它們之間的關係 Proposition 1.4.2. 對任意 u, v, w ∈ Rⁿ, 我們有以下的性質:

(1) u · v = v · u.

(2) u · u ≥ 0 且 u · u = 0 若且唯若 u = 0.

(3) 對任意 r ∈ R 皆有 (ru) · v = u · (rv) = r(u · v).

(4) u · (v + w) = u · v + u · w.

(18)

Proof. 這些性質在 R² 和 R³ 大家應都了解, 在 Rⁿ 上的證明其實也一樣, 不同的是 n 可以是任意自然數我們無法完整地寫下 Rⁿ 中的向量, 而需藉由符號的幫助.

假設 u = (a1, . . . , a_n), v = (b₁, . . . , b_n), w = (c₁, . . . , c_n). 我們想利用 P (summation) 這個符號來處理內積, 讓大家習慣這個便利的符號.

(1) 依定義

u · v =

n

X

i=1

a_ib_i

這表示 u · v 是這些 aibi 的和其中 i 是跑遍 1 到 n 的所有正整數. 由於這 n 項的每一項 a_ib_i 皆等於 bia_i (實數乘法交換率) 所以我們知道它們的和也相等, 也就是說

n

X

i=1

aibi =

n

X

i=1

biai = v · u.

所以我們得 u · v = v · u.

(2) 依定義

u · u =

n

X

i=1

a_ia_i=

n

X

i=1

a²_i. 由於任一實數的平方皆大於等於 0, 即 a²_i ≥ 0, 故有 Pn

i=1a²_i ≥ 0, 而得證 u · u ≥ 0. 又上式中若 Pn

i=1a²_i = 0, 表示每一項 a²_i 皆需等於 0, 故知對任意 1 ≤ i ≤ n 皆需有 ai = 0, 而得知

u = (a1, . . . , an) = (0, . . . , 0) = 0.

反之若 u = 0 表示對任意 1 ≤ i ≤ n 皆有 ai = 0, 故得 u · u =

n

X

i=1

aiai= 0.

(3) (ru) · v這個符號表示 ru 這個向量與 v 的內積, 因 ru = (ra1, . . . , ra_n) 故由定義知

(ru) · v =

n

X

i=1

(ra_i)b_i.

又對所有的 1 ≤ i ≤ n 皆有 (rai)b_i = r(a_ib_i) (實數乘法結合律) 故知

n

X

i=1

(rai)bi =

n

X

i=1

r(aibi) 再加上 Pn

i=1r(a_ib_i) 中每一項皆有 r 可提出, 故由實數加法與乘法的分配律可知

n

X

i=1

r(aibi) = r

n

X

i=1

aibi = r(u · v)

而得證 (ru) · v = r(u · v). 我們也可用同樣方法證得 u · (rv) = r(u · v), 不過我們這裡可利用 (1) 知 u · (rv) = (rv) · u 再利用剛才的結果得 (rv) · u = r(v · u), 再利用一次 (1) 得到 r(v · u) = r(u · v) 而得證 u · (rv) = r(u · v).

(19)

(4) u · (v + w) 這個符號表示 u 這個向量與 v + w 的內積, 因 v + w = (b1+ c1, . . . , bn+ cn)

故由定義知

u · (v + w) =

n

X

i=1

a_i(b_i+ c_i).

由實數加法與乘法的分配律知每一項 ai(b_i+ c_i) 可表為 aib_i+ a_ic_i, 也就是說

n

X

i=1

a_i(b_i+ c_i) =

n

X

i=1

(a_ib_i+ a_ic_i)

因為實數加法有交換率, 我們可以先將 aib_i 的部份先加在一起, 再將 aic_i 的部份加在一起,再求它們之和, 故知

n

X

i=1

(a_ib_i+ a_ic_i) =

n

X

i=1

a_ib_i+

n

X

i=1

a_ic_i = u · v + u · w,

依此得證 u · (v + w) = u · v + u · w.

Proposition 1.4.2 (2)告訴我們除了零向量 0 以外其餘向量 v 皆需符合 v · v > 0, 所以很自然地我們可依此定義向量的長度.

Definition 1.4.3. 令 v = (a1, . . . , an) ∈ Rⁿ, 我們定義 v 的長度 (length) 為 kvk =√

v · v = q

a²₁+ a²₂+ · · · + a²_n.

我們可以利用 Proposition 1.4.2 的處理一些有關於內積的性質, 而不必涉及內積的定義.

Lemma 1.4.4. 假設 u, v ∈ Rⁿ, 則 ku + vk² = kuk²+ 2u · v + kvk².

Proof. 依定義 ku + vk² = (u + v) · (u + v), 再依 Proposition 1.4.2 (4)可得 (u + v) · (u + v) = (u + v) · u + (u + v) · v = u · u + v · u + u · v + v · v.

最後再依 Proposition 1.4.2 (1) 的交換律知 v · u + u · v = 2u · v 而得證本定理. 再次強調一次 Lemma 1.4.4 僅用到內積的性質, 所以在一般的情形若我們不是利用 Definition 1.4.1的方法定義內積 (當然此時長度的定義也跟著改變) 但所定義的內積仍保有 Proposition 1.4.2 中的性質, 我們依然可得到 Lemma 1.4.4 中的性質. Lemma 1.4.4 最常見的就是可以幫助我們推得所謂的「柯希、舒瓦茲」不等式.

Proposition 1.4.5 (Cauchy-Schwarz inequality). 若 u, v ∈ Rⁿ, 則 |u · v| ≤ kuk kvk. 特別地當 u, v 皆不為零向量時, 等號成立若且唯若存在 λ ∈ R 使得 v = λu.

(20)

Proof. 假設 u 和 v中有一個為零向量, 即 u · v = 0 且 kuk kvk = 0, 故此不等式成立.

若 u, v 皆不為零向量, 考慮 u0= u/kuk 且 v0 = v/kvk. 此時 ku₀k² = u0· u₀= 1

kuku · 1

kuku = 1

kuk²u · u = 1.

同理得 kv0k² = 1, 故由 Lemma 1.4.4 得知

ku₀+ v0k² = 2 + 2u0· v₀, (1.6) ku₀− v₀k² = 2 − 2u₀· v₀.

因為對任意的 w ∈ Rⁿ 皆有 kwk² ≥ 0, 故得 −1 ≤ u₀· v₀ ≤ 1. 換回 u, v 得

−kuk kvk ≤ u · v ≤ kuk kvk.

亦即 |u · v| ≤ kuk kvk.

從上可知當 u, v 皆不為零向量時, 此不等式之等式會成立等同於 u0 · v₀ = 1 或 u0 · v₀ = −1. 此時由式子 (1.6) 分別得 ku0− v₀k² = 0 或 ku0+ v0k² = 0, 也就是說 u₀ = v₀ 或 u0 = −v₀. 換回 u, v 我們得 u0 = v₀ 或 u0 = −v₀. 這分別表示

v = kvk

kuku或 v = −kvk kuku.

故此時只要令 λ 分別為 kvk/kuk 或 −kvk/kuk, 即可得 v = λu.

反之若 v = λu, 則由 Proposition 1.4.2 可得

|u · v| = |λ| |u · u| = |λ| kuk² = kuk kλuk = kuk kvk.

利用內積我們可以知道坐標平面或空間中向量之間的一些幾何關係. 例如若兩非零向量 u, v 的夾角為 θ, 因為 u · v = kuk kvk cos θ, 所以我們可以利用內積得知此二非零向量所夾角度. 特別地當 u · v = 0 即表示 u 和 v 垂直. 我們也可將此幾何意義推廣到更一般的 Rⁿ. 雖然當 n ≥ 4 時, 我們無法“看到” Rⁿ 中的向量 (無法用幾何的方式來定義夾角), 此時我們可以沿襲 R², R³ 上的結果定義兩非零向量 u, v ∈ Rⁿ 的夾角為 θ, 其中 0 ≤ θ ≤ π 使得

cos θ = u · v kuk kvk.

當我們定義一個東西時要注意這個定義是否 “well-defined”. 也就是說要確認這樣定義出來的夾角 θ 是否可以找得到, 這是所謂「存在性」的問題. 我們都知道當 0 ≤ θ ≤ π 時, |cos θ| ≤ 1. 所以這裡夾角 θ 的存在性就關係到 Rⁿ 中兩個非零向量 u, v 是否會滿足

u · v kuk kvk

≤ 1.

然而 Proposition 1.4.5 告訴我們這是一定對的, 所以這裡 θ 的存在性沒問題. 另一個要確認的問題是, 這樣定出來的夾角會不會有兩個或更多呢? 這是所謂「唯一性」的問題 . 就是因為會有 θ⁰ 6= θ 但 cos θ = cos θ⁰ 的情形發生, 所以這裡我們要求 θ 要滿足 0 ≤ θ ≤ π, 如此才能確保所得的夾角會是唯一的. 也就是說用這種方法定義兩非零向

(21)

量的夾角是沒有問題的, 我們就稱這樣的定義是 well-defined. 利用夾角的定義我們進而定義出何謂「垂直」.

Definition 1.4.6. 令 u, v ∈ Rⁿ 為非零向量, 我們說 u 和 v 為 orthogonal 若且唯若 u · v = 0.

注意這裡因在 Rⁿ 空間, 習慣上垂直我們稱為 orthogonal 而不用大家一般幾何上常用的 perpendicular. 有了垂直概念後, 我們也可以將 R² 或 R³ 上的向量在另一向量上的投影 (projection) 之概念推廣至 Rⁿ.

我們先看 R² 的情況, 給定一非零向量 u ∈ R², 對任意 v ∈ R², 若 u⁰ 為 v 在 u 上的投影, 表示向量 v − u⁰ (參考下圖虛線表示的向量) 會和 u 垂直, 即 (v − u⁰) · u = 0, 也就是說 v · u = u⁰· u.

-

* 6

- u v

u⁰

因為 u⁰和u平行, 我們可找到 r ∈ R 使得 u⁰= ru,代入前面式子得 v·u = ru·u = rkuk². 也就是說, 若令 r = (v · u)/kuk² (注意前面 u 為非零向量的假設), 則 ru 就是 v 在 u 的投影. 我們可以將以上的概念推廣到 Rⁿ 的情形.

Proposition 1.4.7. 給定一非零向量 u ∈ Rⁿ, 對任意 v ∈ Rⁿ, 皆可寫成 v = u⁰+ v⁰, 其中 u⁰, v⁰ ∈ Rⁿ 滿足 v⁰· u = 0 且 u⁰= ru, r ∈ R. 事實上這樣的寫法是唯一的, 即

r = v · u kuk².

Proof. 前面的論述在 Rⁿ 亦成立, 亦即 r = (v · u)/kuk² 是唯一的實數會使得 (v − ru) · u = 0. 換言之,

u⁰ = v · u kuk²u.

是唯一的向量會滿足 u⁰ = ru 且 (v − u⁰) · u = 0. 既然 u⁰ 是唯一的, 故而 v⁰ 要滿足 v⁰+ u⁰= v, 即 v⁰ = v − u⁰,自然也就唯一確定了. Proposition 1.4.7, 大致上是說給定一 Rⁿ 中的非零向量 u 後, 我們都可以將 Rⁿ 中任一向量 v 分解成兩個向量之和, 其中一個向量與 u 平行 (即定理中的 u⁰) 而另一個與 u 垂直 (即定理中的 v⁰),且這個表法是唯一的. 我們稱與 u 平行的那個向量

v · u kuk²u 為 v在 u 的 projection (投影).

(22)

1.5. 結結結論論論

在本章中我們將大家熟悉 R², R³ 上的向量加法, 係數積, 內積等運算推廣至 Rⁿ 上. 這些推廣而得的運算與 R², R³ 上的運算有共同的性質. 直接利用這些性質而不必利用這些運算的定義, 我們就可以得到許多和 R², R³ 相類似的結果. 換言之, 只要有這些運算性質, 即使更抽象的空間, 有些事情我們依然可以如平面或空間一樣的情形“看到”. 希望大家能體會到這些運算性質的重要性, 將來我們就是要利用這些性質進入較抽象的線性代數世界.

(23)

Chapter 2

Systems of Linear Equations

這一章要探討的是多元一次的聯立方程組. 我們依然利用大家熟悉的加減消去法(或高斯消去法)來處理這類方程組. 不過我們不再只關心如何解特定的聯立方程組, 而會更著重於有系統地探討一般聯立方程組解的情況的理論. 我們會用矩陣來表示一個聯立方程組, 不過這裡的矩陣僅是為了方便起見而使用, 不會涉及矩陣的性質. 至於真正矩陣的運算及性質, 我們留待下一章再詳述.

2.1. 解解解一一一次次次聯聯聯立立立方方方程程程組組組

所謂 n 元一次的方程式就是有 n 個未知數 (variable) 的一次方程式 (linear equation).

例如 2x1+ 5x2− x₃+ x4= 1 就是一個 4元一次的聯立方程組 (當然也可看成是 5 元或更高元). n 元一次的方程式抽象的表示法就是

a1x2+ · · · + anxn= b,

其中這些 a1, . . . , a_n 和 b 都是實數, 而這些 xi 表未知數. 當我們有多個 n 元一次的方程式要討論它們的共同解時, 就稱為解一次聯立方程組 (system of linear equations). 一般抽象的表示法

a11x1 + a12x2 + · · · + a1nxn = b1

a₂₁x₁ + a₂₂x₂ + · · · + a_2nx_n = b₂ ...

a_m1x₁ + a_m2x₂ + · · · + a_mnx_n = b_m

表示有 m 個 n 元一次方程式所成的方程組. 這裡 a11x₁+ a₁₂x₂+ · · · + a_1nx_n= b₁ 表示第一個方程式, a21x1+ a22x2+ · · · + a2nxn= b2 表示第二個方程式, 而當 1 ≤ i ≤ m 時, 第 i 個方程式就是 ai1x₁+ a_i2x₂+ · · · + a_inx_n= b_i,所以最後一個(即第 m 個)方程式就是 a_m1x1+ am2x2+ · · · + amnxn= bm. 這裡 aij, bi 皆為實數, 這些實數才是真正影響到 19

(24)

聯立方程組的因素, 所以我們也可特別把它們標明出來, 令

A =







a11 a12 · · · a1n

a21 a22 · · · a2n

... ... ... ... am1 am2 · · · amn





 , x =





 x1

x2

... xm





 , b =





 b1

b2

... bm





 ,

然後將上面的聯立方程式用 Ax = b 來表示. 通常我們會稱矩陣 A 為此聯立方程式的係數矩陣. 一個矩陣的一個橫排稱為一個 row (列), 而一個豎排稱為一個 column (行).

我們算 row 時是從上而下來數的, 也就是說最上面的一個 row 稱為第一個 row, 下一個 row 稱為第二個 row, 依此類推. 而算 column 是由左而右來數的, 也就是說最左邊的一個 column 稱為第一個 column, 再往右一個 column 稱為第二個 column, 依此類推.

大家可以看出矩陣 A 的 row 對應的就是此聯立方程組的方程式, 第一個 row 對應到第一個方程式, 第二個 row 對應到第二個方程式, 依此類推. 而 column 對應到的是方程組的未知數, 第一個 column 對應到的是未知數 x1 的係數, 第二個 column 對應到的是未知數 x2 的係數, 依此類推. 注意這裡 x 表示是一個未知的向量而且我們將向量 x, b 都寫成 column vector (行向量) 是為了配合將來矩陣乘法的寫法. 目前大家只要記住這也是聯立方程式的一種表示法即可.

例如解聯立方程組

3x1− 2x₂+ 9x4 = 4

2x1+ 2x2− 4x₄ = 6 (2.1) 我們就可以表成

3 −2 0 9 2 2 0 −4





 x1

x2

x₃ x₄







=

4 6

注意這裡係數矩陣多出

0 0

這個 column 因為 x3 的係數為 0.

為何要探討解多元一次聯立方程組呢? 事實上解多元一次聯立方程式和線性代數的許多問題息息相關. 例如在 1.3 節中我們提到 span 的概念. 若 u = (1, −1, 2, 2), v = (3, 1, −1, 2) 我們要問 w = (1, 0, 1, 0) 是否在 Span(u, v)中就等同於問是否存在 c1, c₂ ∈ R 使得 w = c1u + c2v. 利用向量相等的定義, 這表示

(1, 0, 1, 0) = c1(1, −1, 2, 2) + c2(3, 1, −1, 2).

亦即要解

x1+ 3x2 = 1

−x₁+ x₂ = 0 2x₁− x₂ = 1 2x₁+ 2x₂ = 0

這一聯立方程組 . 又如要問哪些向量 x = (x1, x₂, x₃, x₄) 會同時滿足 u · x = 0 且 v · x = 0, 就等同於要解聯立方程組

x1− x₂+ 2x3+ 2x4 = 0 3x₁+ x₂− x₃+ 2x₄ = 0.

(25)

2.1. 解一次聯立方程組 21

將來我們還會碰到許多和解聯立方程組有關的問題, 這裡我們就不再多談而將重點放在如何解一個多元一次聯立方程組.

過去學習解一次聯立方程組的方法不外加減消去法或高斯消去法, 它們的原理都是一樣的, 即利用以下三種基本方法:

(1) 變換式子的順序

(2) 將某一式乘上一非零實數

(3) 將某一式乘上一實數後加到另一式上

利用這三種基本方法將方程式的某些變數消去, 最後求出解來. 當然這裡有些問題是要探討的: 第一就是要消到甚麼地步才可確認可求出解來? 第二就是為什麼經過這些過程所得的解救會是原方程組的解? 在本節中我們將先介紹一個較有系統的方法解聯立方程組的步驟, 讓大家知道何時就可確認此方程組有解或無解, 且有解時如何求解.

下一節我們再說明為何每一個聯立方程組都可以利用這個方式找到其解集合.

當我們要解

a11x1 + a12x2 + · · · + a1nxn = b1

a₂₁x₁ + a₂₂x₂ + · · · + a_2nx_n = b₂ ...

am1x1 + am2x2 + · · · + amnxn = bm

這一個聯立方成組時, 先寫出如下的 augmented matrix (增廣矩陣)







a₁₁ a₁₂ · · · a_1n b₁ a₂₁ a₂₂ · · · a_2n b₂ ... ... . .. ... ... a_m1 a_m2 · · · a_mn b_m





 例如式子 (2.1) 中的聯立方程組所對應的 augmented matrix 為

3 −2 0 9 4 2 2 0 −4 6

換言之, 若我們要解 Ax = b 這一個聯立方成組, 就要寫下 [A | b] 這一個 matrix. 反之一個 augmented matrix [A | b]就對應到一個聯立方程組 Ax = b.

接下來我們將如加減消去法的三種步驟, 利用所謂的 elementary row operation (基本列運算) 處理這個 augmented matrix. 所謂 elementary row operation 即表示對矩陣進行如下三種的列運算:

(1) 將矩陣的某兩個 row 對調

(2) 將矩陣的某一個 row 乘上一非零實數

(3) 將矩陣的某一個 row 乘上一實數後加到另一個 row.

大家應很容易看出一個 augmented matrix 經過以上這三種列運算後所得的 augmented matrix所對應的聯立方程組就是前面所提加減消去法的三種步驟所得的方程組. 我們

(26)

的目的就是要將 augmented matrix [A | b] 中的係數矩陣 A 利用這三種 elementary row operation化成所謂的 echelon form.

我們先解釋一下何謂 echelon form. 首先我們將矩陣每一個 row 從左到右來看第一個不為 0 的項稱為這個 row 的 leading entry, 因為每一個係數矩陣中的元素對應到聯立方程組中某個變數的係數, 所以 leading entry 若是變數 xi 的係數, 我們就說這個 leading entry 發生在 xi 的位置. 要注意, 這也等同於這個 leading entry 是位於從左到右算來第 i 個 column. 例如矩陣





1 2 1 1 4 0 0 5 0 2 0 0 1 −1 1





第一個 row 的 leading entry 為 1 不過因為第一個 row 還有其他位置 1, 所以我們特別要說明第一個 row 的 leading entry 發生在 x1 的位置, 而第二個 row 和第三個 row 的 leading entry分別為 5 和 1 且發生的位置皆在 x3.

所謂一個矩陣是 echelon form 表示這個矩陣沒有 leading entry 的 row (即該 row 每一項皆為 0)必需在最下方, 而有 leading entry 的 row 其 leading entry 所在位置從上到下來看是往右移的. 換言之, 若上一個 row 的 leading entry 所在的位置是 xi,而下一個 row 的 lading entry 是 xj, 則必需 i < j. 例如上一個矩陣並非 echelon form, 因為第 3 個 row 和第 2 個 row 的 leading entry 的位置皆為 x3, 並未右移. 另外矩陣





1 2 −1 0 0 0 0 0 0 0 3 0



,





0 1 1 2 0 0 2 −1 3 0 0 0





都不是 echelon form, 因為前一個矩陣全為 0 的 row 並未置於最下方, 而後一個矩陣第 3 個 row的 leading entry 在第 2 個 row 的 leading entry 的左方. 至於矩陣







0 2 1 1 4 0 0 3 0 2 0 0 0 −1 1 0 0 0 0 0







就是 echelon form. 當一個矩陣是 echelon form 時, 我們稱每一個 row 的 leading entry 為 pivot,而 pivot 所在的位置我們稱為 pivot variable.

當我們將 augmented matrix [A | b] 利用 elementary row operation 將之化成 [A⁰| b⁰] 且 A⁰ 為 echelon form 後. A⁰ 有兩種情形. 一種情形為 A⁰ 每一個 row 皆不全為 0; 另一種為 A⁰ 有些 row 全為 0. 我們分別依這兩種情形來討論聯立方程組的解.

(1) A⁰ 每一個 row 皆不全為 0: 此時聯立方程組一定有解. 我們又可細分成兩種情況.

(a) 第一種情況是每一個變數 (variable) xi 皆為 pivot variable. 亦即 pivot 的個數等於方程組“元”(未知數)的個數 (即係數矩陣 A 的 column 個數). 例

(27)

2.1. 解一次聯立方程組 23

如 



2 1 1 4 0 3 1 2 0 0 −1 1





此時 echelon form 的 pivot variable 分別為 x1, x2, x3 恰就是聯立方程組的未知數 x1, x₂, x₃. 在這種情況之下此聯立方程組會有唯一解, 而且我們可利用從下往上“代回”的方式求得解. 例如前面的 augmented matrix 所對應的聯立方程組為

2x₁ +x₂ +x₃ = 4 3x₂ +x₃ = 2

−x₃ = 1

所以我們從最下面的 −x3 = 1 可得 x3 = −1. 再將 x3 = −1 代入其上一式 3x2+ x3 = 2, 得 3x2− 1 = 2, 即 x2 = 1. 最後將 x3 = −1, x2 = 1 代入 2x₁+ x₂+ x₃= 4, 得 x₁ = 2. 故得其解為 x1 = 2, x₂= 1, x₃ = −1.

(b) 第二種情況是有些 variable xi 不是 pivot variable. 也就是方程組元的個數多於 pivot 的個數. 例如





2 1 3 1 4 0 3 3 1 2 0 0 0 −1 1





此時 echelon form 的 pivot variable 分別為 x1, x2, x4 少於立方程組的未知數 x₁, x2, x3, x4. 在此情形之下此聯立方程組會有無窮多解. 要得到這種方程組所有的解, 首先我們要找到 free variables. 所謂 free variable 指的是方程組除了 pivot variable 以外的 variable. 例如前面這個例子, x3 就是 free variable. Free variable 意指它可以任意取值, 所以找到 free variables 後你可以給它們任意的參數, 然後再利用如上一情況中由下往上代回的方式找到聯立方成組所有的解. 例如上一個 augmented matrix 所對應的聯立方程組為

2x1 +x2 +3x3 +x4 = 4 3x2 +3x3 +x4 = 2

−x₄ = 1

首先令 free variable x3 為一參數 t (表示它可以是任意實數 t ∈ R). 接著我們從最下面的 −x4 = 1 可得 x4 = −1. 再將 x3 = t, x4 = −1 代入其上一式 3x2+ 3x₃ + x₄ = 2, 得 3x₂ + 3t − 1 = 2, 即 x2 = 1 − t. 最後將 x2 = 1 − t, x3 = t, x4 = −1代入 2x1+ x2+ 3x3+ x4 = 4, 得 x1 = 2 − t. 故得其解為 x1 = 2 − t, x₂ = 1 − t, x₃ = t, x₄ = −1, 其中 t 為任意實數. 因為 t可以是任意實數, 由此我們也知此方程組有無窮多解.

(2) A⁰ 有些 row 全為 0: 此時聯立方程組可能無解, 我們分成兩種情況:

(a) A⁰ 有一個 row 全為 0 但 b⁰ 在該 row 不為 0. 例如 [A⁰| b⁰] =





2 1 1 4 0 3 1 2 0 0 0 1





(28)

A⁰ 最後一個 row 皆為 0, 但 b⁰ 在該 row 的位置為 1. 在此情形之下聯立方程組一定無解. 例如上一個 augmented matrix 其最後一個 row 所對應的方程式為

0x1+ 0x2+ 0x3= 1

但不管 x1, x2, x3 代任何的實數都無法滿足 0x1+ 0x2+ 0x3 = 1, 所以此方程組無解.

(b) A⁰ 全為 0的 row, b⁰ 在該 row 亦為 0. 例如





2 1 4 0 3 2 0 0 0



,





2 1 3 1 4 0 3 3 1 2 0 0 0 0 0





這兩個 augmented matrices 皆為這種情形 . 在此情形之下聯立方程組一定有解 . 事實上在此情形我們可以忽略全為 0 的 row, 例如前兩個 augmented matrices 所對應的方程組和

2 1 4 0 3 2

,

2 1 3 1 4 0 3 3 1 2

所對應的方程組一樣. 所以我們可依前面 (1) A⁰ 每一個 row 皆不全為 0 的情況找出聯立方程組所有的解.

我們要強調 , 絕不會有 pivot 的個數多於方程組 variables (元) 的個數的情形發生.

這是因為當係數矩陣 A 是 echelon form 時, 每一個 column 最多僅能有一個 pivot (因為不能有兩個 leading term 在同一個位置), 所以 pivot 的個數不能多於 column 的個數 . 而 A的 column 個數表示的就是此聯立方程組 variables 的個數, 因此 pivot 的個數不會多於 variables 的個數.

在這一節中我們介紹解一次聯立方程組 Ax = b 的步驟. 也就是先將 augmented matrix [A | b] 利用 elementary row operations 化成 [A⁰ | b⁰] 其中 A⁰ 為 echelon form 的情形. 再利用上面談論的情況找出聯立方程組的解. 下一節中我們將說明為何可利用 elementary row operations 將 A 變成 echelon form A⁰,且要說明為何這樣所得的解便是原方程組的解.

2.2. Elementary Row Operations

前一節中我們知道要解一個聯立方程組 Ax = b, 可以先將 augmented matrix [A | b] 經由一系列的 elementary row operations 化成 [A⁰ | b⁰] 其中 A⁰ 為 echelon form 後再求解 . 在本節中我們要說明為何經由 elementary row operations 我們可以將一個矩陣化為 echelon form 且解釋為何經由 elementary row operations 後所對應的聯立方程組與原方程組會有相同的解集合.

我們利用數學歸納法來說明為何一定可以將一個矩陣化為 echelon form. 或許有些人會對這裡數學歸納法處理的方式覺得奇怪, 不過若能仔細體會其真意, 會發現這是最好的處理方式. 我們是對矩陣的 row 的個數作數學歸納法. 先說明所有只有一個 row

(29)

2.2. Elementary Row Operations 25

的矩陣一定是 echelon form, 然後利用這件事實證明所有有兩個 row 的矩陣皆可利用 elementary row operations 化為 echelon form. 再利用兩個 row 的矩陣會成立的事實證明有 3 個 row 的矩陣也可利用 elementary row operations 化為 echelon form, 如此一直下去我們可證有 4, 5, 6, . . . 個 row 的矩陣會成立. 不過這樣的方法我們可以證得有特定個數的 row 的矩陣會成立 (例如 10 個 row), 但無法證得一般的情形 (即任意個數的 row). 此時數學歸納法是最好的論證工具了. 若我們能知道有 k 個 row 的矩陣一定能利用 elementary row operations 化為 echelon form 這個事實且利用這個事實證得有 k + 1 個 row的矩陣一定能利用 elementary row operations 化為 echelon form, 這就表示當我們知道有一個 row 的矩陣能利用 elementary row operations 化為 echelon form 就能推得有兩個 row 的矩陣能利用 elementary row operations 化為 echelon form, 也進而推得有 3 個 row 的矩陣亦成立, 再進而推得有 4 個 row 的矩陣亦成立, 如此一直下去當然可知任意的矩陣皆能利用 elementary row operations 化為 echelon form.

由於這裡的論證不容易說明清楚, 我們先由一個例子來說明. 考慮一個有 3 個 row 的矩陣





0 0 1 1 1 0 1 2 1 3 0 2 2 0 −1





要將之化為 echelon form 首先第一個 row 必需是 leading entry 的位置在最左邊, 所以我們利用將第一,二兩個 row 交換的 elementary row operation 將此矩陣變換為





0 1 2 1 3 0 0 1 1 1 0 2 2 0 −1





由於第三個 row 的 leading entry 位置與第一個 row 相同所以須將此位置的數消掉. 利用第一個 row 乘上 −2 加到第三個 row 的 elementary row operation 將此矩陣變換為





0 1 2 1 3 0 0 1 1 1 0 0 −2 −2 −7





如此一來第一個 row以下的各 row 的 leading entry 所在位置都在第一個 row 的 leading entry 所在位置的右方. 接下來我們可以不再管第一個 row 而處理第一個 row 以下的部份. 此部份是一個僅有兩個 row 的矩陣

0 0 1 1 1 0 0 −2 −2 −7

若我們知道變換兩個 row 的矩陣程 echelon 的方法, 直接套用就可以完成了. 事實上我們就是將上面的方法再處理一遍, 將第一個 row 乘以 2 加到第二個 row 即可得

0 0 1 1 1 0 0 0 0 −5

(30)

這一個 echelon form. 要注意我們故意忽略原來矩陣的第一個 row 的原因就是餵了能套用歸納法的假設. 事實上前一步是將矩陣





0 1 2 1 3 0 0 1 1 1 0 0 −2 −2 −7



 的第二個 row 乘以 2 加到第三個 row 得





0 1 2 1 3 0 0 1 1 1 0 0 0 0 −5



 這一個 echelon form.

接下來我們處理一般的情形. 首先我們來看只有一個 row 的矩陣. 此時由於沒有任何的 row 在其下方所以依定義自然是 echelon form. 接著看有兩個 row 的矩陣. 首先注意依定義一個 echelon form 的第一個 row 其 leading entry (若有的話) 必在所有其他 row 的 leading entry 所在位置的左方. 所以我們在此有兩個 row 的矩陣挑出 leading entry在最左方的一個 row (若兩個 row 的 leading entry 所在位置相同就任取一個 row) 利用 row 交換的 row operation 將之置於第一個 row. 接下來注意依定義下一個 row 的 leading entry 所在位置需在第一個 row 的 leading entry 的右方. 現若第二個 row 的 leading entry所在位置和第一個 row 不同, 則因已知第一個 row 的 leading entry 所在位置在最左方, 第二個 row 的 leading entry 所在位置一定在第一個 row 的 leading entry 的右方, 故依定義此時已為 echelon form. 而若第二個 row 的 leading entry 所在位置和第一個 row 相同, 我們可將第一個 row 乘以 −b/a, 其中 a 為第一個 row 的 leading entry 而 b 為第二個 row 的 leading entry 再加到第二個 row 上. 如此一來第二個 row 原本的 leading entry 所在位置變為 0, 故其 leading entry 所在位置往右移了, 依定義此時為 echelon form.

我們可以如法泡製處理有 3 個 row 的矩陣, 但由於要使用數學歸納法, 此時我們可直接假設我們以處理到有 k 個 row 的矩陣了 , 亦即有 k 個 row 的矩陣皆可利用 elementary row operation 化為 echelon form. 現在我們要處理有 k + 1 個 row 的矩陣.

如欠面首先我們將 leading entry 的位置在最左邊的那個 row 利用兩 row 互換的 row operation 將之置於第一個 row. 假設此時第一個 row 的 leading entry 為 a. 接下來我們將 leading entry 的位置與第一個 row 的 leading entry 位置一樣的 row 挑出, 若該 row 的 leading entry 為 b, 我們便將第一個 row 乘上 −b/a 後加到該 row 上. 如此一來該 row 的 leading entry 所在位置便往右移了. 一直重複此步驟, 直到第一個 row 以外的 row 其 leading entry 所在位置皆與第一個 row 的 leading entry 所在位置相異 . 注意, 此時第一個 row 以下的各 row 其 leading entry 所在位置皆在第一個 row 的 leading entry所在位置的右方. 若我們不看第一個 row, 所剩下的是一個有 k 個 row 的矩陣 , 所以利用前面已知有 k 個 row 的矩陣皆可利用 elementary row operations 化為 echelon form, 我們可以利用 elementary row operations 將此矩陣第一個 row 以下的部份化為 echelon form. 但此時因各個 row 的 leading entry 所在位置皆在第一個 row 的

(31)

2.3. Echelon Form 27

leading entry 所在位置的右方, 所以整個矩陣亦為 echelon form. 故得證所有矩陣皆可利用 elementary row operations 化為 echelon form. 大家或許注意到我們在化成 echelon form 的過程皆沒有用到將某個 row 乘上一非 0 實數這一個 elementary row operation.

事實上在化成 echelon form 的過程確實不需要這一種 row operation, 不過它在化為以後要談的 “reduced” echelon form 的過程是需要的, 留待以後再談.

既然每一個矩陣都能用 elementary row operations 化為 echelon form, 接下來我們要說明的是利用 elementary row operation 處理後的聯立方程組其解集合不會改變. 要注意這裡指的是將 augmented matrix 用 elementary row operations 變換後的 augmented matrix 其對應的聯立方程組其解集合不會改變. 亦即聯立方程組 Ax = b 所對應的 augmented matrix [A | b] 若經一些 elementary row operations 後變換成 [A⁰ | b⁰], 那麼其對應的聯立方程組 A⁰x = b⁰ 和原方程組 Ax = b 有相同的解集合. 不要誤以為是將係數矩陣 A 利用 elementary row operations 變換成 A⁰ 後聯立方程組 A⁰x = b 的解集合和原方程組 Ax = b 的解集合相同.

首先觀察若將一聯立方程組 Ax = b 的 augmented matrix [A | b] 利用三種 elementary row operation 的任一種變換成 [A⁰ | b⁰] 表示將原方程組利用加減消去法的三個基本方法之ㄧ將之變成方程組 A⁰x = b⁰. 然而方程組 Ax = b 若利用加減消去法的三種方法 (即將兩式子對調順序或將某一式乘上某個非 0 實數或將一個式子乘上某個實數加到另一個式子) 變換成方程組 A⁰x = b⁰, 原來滿足 Ax = b 的一組解仍會滿足 A⁰x = b⁰. 換句話說 Ax = b 的解集合會包含於 A⁰x = b⁰ 的解集合. 不過 elementary row operations 是可以還原回去的, 也就是說方程組 A⁰x = b⁰ 也可以用 elementary row operations 還原回原方程組 Ax = b. 因此 A⁰x = b⁰ 的解集合也會包含於 Ax = b 的解集合. 因此得證 Ax = b 和 A⁰x = b⁰ 會有相同的解集合. 我們證得了 [A | b] 若經由一個 elementary row operation 後得 [A⁰ | b⁰], 則它們所對應的聯立方程組會有相同的解集合. 因此若 [A | b]經由好幾次的 elementary row operation 變換成 [A⁰ | b⁰],它們所對應的聯立方程組當然也會有相同的解集合.

我們已經了解要解一個聯立方程組 Ax = b 經要將 augmented matrix [A | b] 利用 elementary row operations 換成 [A⁰ | b⁰] 其中 A⁰ 為 echelon form 後 , 再解聯立方程組 A⁰x = b⁰ 即可. 所以我們僅需探討 A⁰x = b⁰ 其中 A⁰ 為 echelon form這樣的聯立方程組的解即可. 在下節中我們要說明此時為何聯立方程組的解就是如上一節所述的情形.

2.3. Echelon Form

我們已知要探討聯立方程組 Ax = b 的解, 僅要考慮 A 為 echelon form 的情形. 這一節中我們就是要討論當 A 為 echelon form 時, 聯立方程組 Ax = b 的解集合. 事實上我們很容易理解利用 2.1 節中所提求解的方法所得的結果皆為方程組的一組解. 這裡要探討的是為何利用 2.1 節中所提求解的方法, 就可得所有的解.

如果我們得到 2.1 節 (2)(a) 的情形 (即 A 有一個 row 全為 0 但 b 在該 row 不為 0), 在該節已說明此時方程組無解. 所以我們只要探討有解的情形. 首先回顧一下在 2.1

大大大學學學線線線性性性代代代數數數初初初步步步

大

大 大學 學 學線 線 線性 性 性代 代 代數 數 數初 初 初步 步 步

李

李 李華 華 華 介 介 介

前 前 前言 言 言

Part I

Vectors, Systems of

Linear Equations,

Matrices

Chapter 1

Vectors

Chapter 2

Systems of Linear Equations

大大學學學線線線性性性代代代數數數初初初步步步

李李華華華介介介

前前前言言言