Gradient method

(1)

Tsung-Ming Huang 

Matrix Computation, 2016, NTNU

1

(2)

Plan

Gradient method

Conjugate gradient method Preconditioner

2

(3)

Gradient method

3

(4)

Theorem

4

Ax = b, A : s.p.d

Inner product

< x, y > = x

^⊤

y for any x, y ∈!

ⁿ

g(x) = < x, Ax > −2 < x,b > = x

^⊤

Ax − 2x

^⊤

b

Define

Theorem

A : s.p.d

x

^∗

is the sol. of Ax = b g(x

^∗

) = min

_x_∈!ⁿ

g(x)

A^⊤ = A

x^⊤Ax > 0, ∀ x ≠ 0

A : symmetric positive definite if

Definition

(5)

Proof

5

g(x) = < x, Ax > −2 < x,b >

Assume

x

^∗

is the sol. of Ax = b

= < x − x

^∗

, A(x − x

^∗

) > + < x, Ax

^∗

> + < x

^∗

, Ax >

− < x

^∗

, Ax

^∗

> −2 < x,b >

= < x − x

^∗

, A(x − x

^∗

) > − < x

^∗

, Ax

^∗

>

+ 2 < x, Ax

^∗

> −2 < x,b >

= < x − x

^∗

, A(x − x

^∗

) > − < x

^∗

, Ax

^∗

> +2 < x, Ax

^∗

− b >

Ax

^∗

= b

= < x − x

^∗

, A(x − x

^∗

) > − < x

^∗

, Ax

^∗

>

g(x

^∗

) = min

_x_∈!ⁿ

g(x)

< x − x

^∗

, A(x − x

^∗

) > ≥ 0

(6)

Proof

6

Assume

g(x

^∗

) = min

_x_∈!ⁿ

g(x)

Fixed vectors and , for any

_x _v

α

∈!

f ( α ⁾ ≡ g(x + α ^v) = < x + α ^{v, Ax} + α ^Av > −2 < x + α ^v,b >

= < x, Ax > + α < v, Ax > + α < x, Av > + α

²

< v, Av >

−2 < x,b > −2 α < v,b >

= < x, Ax > −2 < x,b > +2 α < v, Ax >

−2 α < v,b > + α

²

< v, Av >

= g(x) + 2 α < v, Ax − b > + α

²

< v, Av >

(7)

g(x + ˆ α ^v) = f ( ˆ α ⁾ = g(x) − 2 < v,b − Ax >

< v, Av > < v,b − Ax >

+ < v,b − Ax >

< v, Av >

⎛ ⎝⎜ ⎞

⎠⎟

2

< v, Av >

Proof

7

f ( α ⁾ = g(x) + 2 α < v, Ax − b > + α

²

< v, Av >

is a quadratic function of

f

α

A : s.p.d

f

has a minimal value when

_f _′(

α

⁾ = 0

f ′( ˆ α ⁾ = 2 < v, Ax − b > +2 ˆ α < v, Av > = 0 α ˆ = − < v, Ax − b >

< v, Av > = < v,b − Ax >

< v, Av >

= g(x) − < v,b − Ax >

²

< v, Av >

(8)

Proof

8

g(x + ˆ α ^v) = g(x) − < v,b − Ax >

²

< v, Av >

g(x + ˆ α ^v) = g(x) if < v,b − Ax > = 0 g(x + ˆ α ^v) < g(x) if < v,b − Ax > ≠ 0

∀ v ≠ 0

Suppose that

g(x

^∗

) = min

_x_∈!ⁿ

g(x)

g(x

^∗

+ ˆ α ^v) ≥ g(x

^∗

) for any v

< v,b − Ax

^∗

> = 0, ∀ v Ax

^∗

= b

(9)

9

α = < v,b − Ax >

< v, Av > = < v,r >

< v, Av > , r ≡ b − Ax

If r ≠ 0 and < v,r > ≠ 0

g(x +

α

^v) = g(x) − < v,b − Ax >²

< v, Av > < g(x)

is closer to than is

x + α ^v x^∗ ^x

Given and

_x⁽⁰⁾ _v⁽¹⁾ _{≠ 0}

k = 1,2,3,!

For

α _k = < v^{(k )},b − Ax^(k⁻¹⁾ >

< v^{(k )}, Av^{(k )} > , x^{(k )} = x^(k⁻¹⁾ + α_k^v^{(k )}

Choose a new search direction

_v^(k⁺¹⁾

(10)

Steepest descent

10

Question

How to choose s.t. rapidly? { }

v^{(k )}

{ }

^x^{(k )} ^{→ x}^∗

Let be a differentiable function on

_{Φ :!}ⁿ _{→ !}

x

Φ(x + ε ^p) − Φ(x)

ε ^{= ∇Φ(x)}

⊤

p +O( ε ⁾

p = − ∇Φ (x)

‖ ∇Φ(x)‖ (i.e., the largest descent) The right hand side takes minimum at

for all with (neglect ) p ‖p‖ = 1 ^O( ε ⁾

(11)

Steepest descent direction of g

11

Denote x = [x

₁

, x

₂

, !, x

_n

]

^⊤

g(x) = < x, Ax > −2 < x,b > = a

_ij

j=1

∑

n i=1

∑

n

^x

ⁱ

^x

^j

^{− 2 x}

ⁱ i=1

∑

n

^b

ⁱ

∂g

∂x

_k

(x) = 2 a

_ki

i=1

∑

n

^x

ⁱ

^{− 2b}

^k

= 2 A(k,:)x − b (

_k

)

∇g(x) = ∂ g

∂x

₁

(x), ∂g

∂x

₂

, !, ∂g

∂x

_n

(x)

⎡

⎣ ⎢ ⎤

⎦ ⎥

⊤

= 2(Ax − b) = −2r

(12)

Steepest descent method (gradient method)

12

Given

_x⁽⁰⁾ _{≠ 0}

r_k₋₁ = b − Ax^(k⁻¹⁾

α

_k = < r_k₋₁,r_k₋₁ >

< r_k₋₁, Ar_k₋₁ >

x^{(k )} = x^(k⁻¹⁾ +

α

_k^r_k₋₁

Else

If , then

r_k₋₁ = 0

Stop;

End

k = 1,2,3,!

For

End

Convergence Theorem

λ₁ ≥ λ₂ ≥! ≥ λ_n > 0 : eigenvalues

x^{(k )}, x^(k⁻¹⁾ : approx. sol.

x^∗ : exact sol.

where ‖x‖_A = x^⊤Ax

‖x^{(k )} − x^*‖_A

≤ λ₁ − λ_n λ₁ + λ_n

⎛

⎝⎜

⎞

⎠⎟‖x^(k⁻¹⁾ − x^*‖_A

(13)

Conjugate gradient method

13

(14)

A-orthogonal

14

If κ ^(A) = λ₁

λ_n ^{is large}

λ

₁

− λ

_n

λ

₁

+ λ

_n

^{≈ 1}

Convergence is very slow

Improvement

Choose A-orthogonal search directions

Definition

p,q ∈!ⁿ

are called A-orthogonal (A-conjugate) if

p^⊤Aq = 0

NOT recommend it

(15)

Lemma

15

v

₁

, …,v

_n

≠ 0 : pairwisely A-conjugate

Proof

0 = c

_j

j=1

∑

n

^v

^j

0 = (v

_k

)

^⊤

A c

_j

j=1

∑

n

^v

^j

⎛

⎝⎜

⎞

⎠⎟ = c

_j

j=1

∑

n

^(v

^k

⁾

^⊤

^Av

^j

^{= c}

^k

^(v

^k

⁾

^⊤ ^Av^k

c

_k

= 0, k = 1,…,n

v

₁

, …,v

_n

: linearly independent

v

₁

, …,v

_n

: linearly independent

(16)

Theorem

16

A : symmetric positive definite

v

₁

, …,v

_n

≠ 0 ∈!

ⁿ

: pairwisely A-conjugate x

₀

: given

For , let k = 1,…,n

α

_k = < v_k ,b − Ax_k₋₁ >

< v_k, Av_k >

x_k = x_k₋₁ + α _k^v_k

Then

Ax_n = b

< b − Ax_k ,v_j > = 0, for j = 1,2,…,k

(17)

Proof

17

x_k = x_k₋₁ + α_k^v_k Ax_n = Ax_n₋₁ + α_n^Av_n

= ! = Ax₀ + α₁Âv₁ + α₂Âv₂ +!+ α_nÂv_n

= (Ax_n₋₂ + α_n₋₁^Av_n₋₁⁾ + α_n^Av_n

< Ax_n − b,v_k >

= < Ax₀ − b,v_k > +α₁ < Av₁,v_k > +!+ α_n < Av_n,v_k >

= < Ax₀ − b,v_k > +α₁ < v₁, Av_k > +!+ α_n < v_n, Av_k >

= < Ax₀ − b,v_k > +α _k < v_k , Av_k >

= < Ax₀ − b,v_k > + < v_k,b − Ax_k₋₁ >

< v_k , Av_k > < v_k, Av_k >

= < Ax₀ − b,v_k > + < v_k ,b − Ax_k₋₁ >

(18)

Proof

18

< Ax_n − b,v_k > = < Ax₀ − b,v_k > + < v_k ,b − Ax_k₋₁ >

= < Ax₀ − b,v_k >

+ < v_k ,b − Ax₀ + Ax₀ − Ax₁ +!− Ax_k₋₂ + Ax_k₋₂ − Ax_k₋₁ >

= < Ax₀ − b,v_k > + < v_k ,b − Ax₀ >

+ < v_k , Ax₀ − Ax₁ > +!+ < v_k, Ax_k₋₂ − Ax_k₋₁ >

= < v_k, Ax₀ − Ax₁ > +!+ < v_k , Ax_k₋₂ − Ax_k₋₁ >

x_i = x_i₋₁ + α_i^v_i^, ∀i Ax_i = Ax_i₋₁ + α_i^Av_i Ax_i₋₁ − Ax_i = −α_i^Av_i

< Ax_n − b,v_k > = −α₁ < v_k , Av₁ > −!− α_k₋₁ < v_k , Av_k₋₁ > = 0 Ax_n = b

(19)

Proof

19

< b − Ax_k ,v_j > = 0, for j = 1,2,…,k

< r_k₋₁,v_j > = 0, for j = 1,2,…,k −1

Assume

r_k = b − Ax_k = b − A(x_k₋₁ + α_k^v_k ⁾ = r_k₋₁ − α _k ^Av_k

< r_k ,v_k > = < r_k₋₁,v_k > −α_k < Av_k ,v_k >

= < r_k₋₁,v_k > − < v_k ,b − Ax_k₋₁ >

< v_k , Av_k > < Av_k,v_k > = 0

For

j = 1,…,k −1

< r_k ,v_j > = < r_k₋₁,v_j > −α _k < Av_k ,v_j > = 0

Assumption A-conjugate

which is completed the proof by the mathematic induction.

(20)

Method of conjugate directions

20

r_k = r_k₋₁ −

α

_k ^Av_k = b − Ax^(k⁻¹⁾

α

_k = < v_k ,r_k₋₁ >

< v_k, Av_k > , x^{(k )} = x^(k⁻¹⁾ +

α

_k^v_k

k = 1,…,n

For

End

Given : pairwisely A-orthogonal

_x⁽⁰⁾_, v₁,…,v_n ∈!ⁿ \ {0}

r₀ = b − Ax⁽⁰⁾

Question

How to find A-orthogonal search directions?

(21)

A-orthogonalization

21

v₁ v₂

α^v₁

!v₂

!v

₂

= v

₂

− α ^v

₁

⊥ v

₁

0 = v

₁^⊤

!v

₂

= v

₁^⊤

v

₂

− α ^v

₁^⊤

^v

₁

α = v

₁^⊤

v

₂

v

₁^⊤

v

₁

A-orthogonal

!v

₂

= v

₂

− α ^v

₁

⊥

_A

v

₁

0 = v

₁^⊤

A !v

₂

= v

₁^⊤

Av

₂

− α ^v

₁^⊤

^Av

₁

α = v

₁^⊤

Av

₂

v

₁^⊤

Av

₁

(22)

A-orthogonalization

22

!v

₂

= v

₂

− v

₁^⊤

Av

₂

v

₁^⊤

Av

₁

v

₁

⊥

_A

v

₁

v

₁

, v

₂

{ } { ^v

¹

^, ^!v

²

} : A-orthogonal v

₁

, v

₂

, v

₃

{ } { ^v

¹

^, ^!v

²

^, ^!v

³

} : A-orthogonal

!v

₃

= v

₃

− α

₁

^v

₁

− α

₂

^!v

₂

⊥

_A

{ v

₁

, !v

₂

}

0 = v

₁^⊤

A !v

₃

= v

₁^⊤

Av

₃

− α

₁

^v

₁^⊤

^Av

₁

α

₁

= v

₁^⊤

Av

₃

/ v

₁^⊤

Av

₁

0 = !v

₂^⊤

A !v

₃

= !v

₂^⊤

Av

₃

− α

₂

^!v

₂^⊤

^A ^!v

₂

α

₂

= !v

₂^⊤

Av

₃

/ !v

₂^⊤

A !v

₂

(23)

Practical Implementation

23

Given

_x⁽⁰⁾ ^r₀ = b − Ax⁽⁰⁾ v₁ = r₀

α

₁ ^{= <} ^v¹^,r⁰ ^>

< v₁, Av₁ > , x⁽¹⁾ = x⁽⁰⁾ +

α

₁^v₁

r₁ = r₀ − α₁^Av₁ steepest descent direction

v₁, r₁

{ }

NOT A-orthogonal set

v₂ = r₁ + β₁^v₁^, β₁ ^{= − <} ^v¹^{, Ar}¹ ^>

< v₁, Av₁ >

Construct A-orthogonal vector

α

₂ = < v₂,r₁ >

< v₂, Av₂ > , x⁽²⁾ = x⁽¹⁾ +

α

₂^v₂ r₂ = r₁ − α₂^Av₂

(24)

Construct A-orthogonal vector

24

v₁, v₂,r₂

{ }

r₁ = r₀ −

α

₁^Av₁

v₂^⊤r₂ = v₂^⊤r₁ −

α

₂^v₂^⊤^Av₂ = v₂^⊤r₁ − v₂^⊤r₁

v₂^⊤Av₂ v₂^⊤Av₂ = 0

v₁^⊤Ar₂ = r₂^⊤Av₁ =

α

₁⁻¹

(

^r₂^⊤^r₀ − r₂^⊤r₁

)

0 = v₂^⊤r₂ = r

(

₁^⊤ +

β

₁^v₁^⊤

)

^r² ^{= r}¹^⊤^r² ⁺

^β

¹^v¹^⊤^r²

v₃ = r₂ +

β

₂₁^v₁ +

β

₂₂^v₂^,

β

₂₁ = − v₁^⊤Ar₂

v₁^⊤Av₁ ,

β

₂₂ = − v₂^⊤Ar₂ v₂^⊤Av₂

= r₁^⊤r₂ + β₁^v₁^⊤

(

^r₁ − α₂^Av₂

)

^{= r}¹^⊤^r² ⁺ ^β¹^v¹^⊤^r¹

= r₁^⊤r₂ +

β

₁^v₁^⊤

(

^r₀ −

α

₁^Av₁

)

^{= r}¹^⊤^r² ⁺

^β

¹ ^v¹^⊤^r⁰ ^{− <}_{< v}^v¹^,r⁰ ^>

1, Av₁ > v₁^⊤Av₁

⎛

⎝⎜

⎞

= r₁^⊤r₂ ⎠⎟

(25)

25

r₁ = r₀ − α₁^Av₁^, α₁ = < v₁,r₀ >

< v₁, Av₁ >

< v₁,r₁ > = < v₁,r₀ > −α₁ < v₁, Av₁ > = 0

< r₂,r₀ > = < r₂,v₁ > = < r₁,v₁ > −α₂ < Av₂,v₁ > = 0 v₁^⊤Ar₂ =

α

₁⁻¹

(

^r₂^⊤^r₀ − r₂^⊤r₁

)

^{= 0}

β₂₁ = − v₁^⊤Ar₂

v₁^⊤Av₁ = 0

v₃ = r₂ + β₂^v₂^, β₂ = − v₂^⊤Ar₂ v₂^⊤Av₂

(26)

In general case

26

v_k = r_k₋₁ + β_k₋₁^v_k₋₁ ^{if r}_k₋₁ ≠ 0

(i). r

{

₀,r₁,…,r_k₋₁

}

is an orthogonal set

0 = < v_k₋₁, Av_k > = < v_k₋₁, Ar_k₋₁ +

β

_k₋₁^Av_k₋₁ >

= < v_k₋₁, Ar_k₋₁ > +β_k₋₁ < v_k₋₁, Av_k₋₁ >

β_k₋₁ = − < v_k₋₁, Ar_k₋₁ >

< v_k₋₁, Av_k₋₁ >

Theorem

(ii). v

{

₁,…,v_k

}

is an A-orthogonal set

(27)

Reformula

27

α_k = < v_k,r_k₋₁ >

< v_k , Av_k > = < r_k₋₁ + β_k₋₁^v_k₋₁^,r_k₋₁ >

< v_k , Av_k >

= < r_k₋₁,r_k₋₁ >

< v_k , Av_k > +

β

_k₋₁ ^{< v}^k⁻¹^,r^k⁻¹ ^>

< v_k, Av_k > = < r_k₋₁,r_k₋₁ >

< v_k, Av_k >

< r_k₋₁,r_k₋₁ > =

α

_k < v_k , Av_k >

α

_k

^, β

_k

v_k = r_k₋₁ + β_k₋₁^v_k₋₁

r_k = r_k₋₁ −

α

_k ^Av_k

< r_k ,r_k > = < r_k₋₁,r_k > −

α

_k < Av_k ,r_k > = −

α

_k < r_k , Av_k >

= < r_k ,r_k >

< r_k₋₁,r_k₋₁ >

β_k = − < v_k , Ar_k >

< v_k , Av_k > = − < r_k , Av_k >

< v_k , Av_k >

(28)

Algorithm (Conjugate Gradient Method)

28

r_k₊₁ = r_k − α _k ^Av_k α _k = < r_k ,r_k >

< v_k, Av_k > , x^(k⁺¹⁾ = x^{(k )} + α_k^v_k

k = 0,1,…

For

End

Given compute

_x⁽⁰⁾_, r₀ = b − Ax⁽⁰⁾ = v₀

If , then

r_k₊₁ = 0

Stop;

End

β_k = < r_k₊₁,r_k₊₁ >

< r_k,r_k > , v_k₊₁ = r_k₊₁ + β_k^v_k

Else

well-conditioned

‖r _n‖< tol Ax_n = b

Theorem

ill-conditioned

‖r_k‖< tol k > n

(29)

Conjugate Gradient Method

29

Convergence Theorem

λ₁ ≥ λ₂ ≥! ≥ λ_n > 0 : eigenvalues

x^{(k )}

{ }

: produced by CG method x^∗ : exact sol.

‖x_G^{(k )} − x^*‖_A ≤

λ

₁ −

λ

_n

λ

₁ +

λ

_n

⎛

⎝⎜

⎞

⎠⎟

k

‖x_G⁽⁰⁾ − x^*‖_A =

κ

−1

κ

+1

⎛⎝⎜ ⎞

⎠⎟

k

‖x_G⁽⁰⁾ − x^*‖_A

‖x^{(k )} − x^*‖_A ≤ 2 κ −1 κ +1

⎛

⎝⎜

⎞

⎠⎟

k

‖x₀ − x^*‖_A, κ = λ₁ λ_n x_G^{(k )}

{ }

: produced by Gradient method

CG is much better than Gradient method

κ −1

κ +1 > κ −1 κ +1

(30)

Preconditioner

30

(31)

C⁻¹A x = C⁻¹b

31

Ax = b C^−⊤C^⊤

Choose such thatC κ ^(C⁻¹^AC^−⊤ ⁾ < κ ^(A)

Goal

!A !x !b

!A!x = !b

Apply CG method to ^Get !x ^Solve x = C^−⊤ !x

Nothing NEW

Apply CG method to !A!x = !b ^Get x

Question

(32)

Algorithm (Conjugate Gradient Method)

32

!r_k₊₁ = !b − !A!x^(k⁺¹⁾

α

! _k = < !r_k , !r_k >

< !v_k , !A !v_k >

!x^(k⁺¹⁾ = !x^{(k )} + !

α

_k ^!v_k

k = 0,1,…

For

End

Given compute

_!x⁽⁰⁾_, _!r₀ = !b − !A!x⁽⁰⁾ = !v₀

If , then Stop

!r_k₊₁ = 0

β

!_k = < !r_k₊₁, !r_k₊₁ >

< !r_k , !r_k >

!v_k₊₁ = !r_k₊₁ + !

β

_k ^!v_k

!r_k₊₁ = C⁻¹b − C

(

⁻¹AC ^−T

)

^C^⊤^x^k⁺¹

= C⁻¹(b − Ax_k₊₁) = C⁻¹r_k₊₁

= C⁻¹r_k₊₁

Let

!v_k = C^⊤v_k, w_k = C⁻¹r_k

= < w_k₊₁,w_k₊₁ >

< w_k ,w_k >

= < w_k₊₁,w_k₊₁ >

< w_k ,w_k >

β!_k = < C⁻¹r_k₊₁,C⁻¹r_k₊₁ >

< C⁻¹r_k ,C⁻¹r_k >

(33)

Algorithm (Conjugate Gradient Method)

33

α

! _k = < !r_k , !r_k >

< !v_k , !A !v_k >

!x^(k⁺¹⁾ = !x^{(k )} + !

α

_k ^!v_k

k = 0,1,…

For

End

Given compute

_!x⁽⁰⁾_, _!r₀ = !b − !A!x⁽⁰⁾ = !v₀

If , then Stop

!r_k₊₁ = 0

< C^⊤v_k ,C⁻¹Av_k >

= v_k^⊤CC⁻¹Av_k = v_k^⊤Av_k

!r_k₊₁ = C⁻¹r_k₊₁

β

!_k = < w_k₊₁,w_k₊₁ >

< w_k ,w_k >

!v_k₊₁ = !r_k₊₁ + !

β

_k ^!v_k

α! _k = < C⁻¹r_k ,C⁻¹r_k >

< C^⊤v_k ,C⁻¹AC^−⊤C^⊤v_k >

= < w_k,w_k >

< C^⊤v_k,C⁻¹Av_k >

α! _k ^{= <} ^w^k^,w^k ^>

< v_k , Av_k >

= < w_k ,w_k >

< v_k , Av_k >

(34)

Algorithm (Conjugate Gradient Method)

34

α

! _k = < w_k ,w_k >

< v_k , Av_k >

!x^(k⁺¹⁾ = !x^{(k )} + !

α

_k ^!v_k

k = 0,1,…

For

End

Given compute

_!x⁽⁰⁾_, _!r₀ = !b − !A!x⁽⁰⁾ = !v₀

If , then Stop

!r_k₊₁ = 0

C⁻¹r_k₊₁ = C⁻¹r_k − !α _k^C⁻¹^AC^−⊤^C^⊤^v_k

β

!_k = < w_k₊₁,w_k₊₁ >

< w_k ,w_k >

!v_k₊₁ = !r_k₊₁ + !

β

_k ^!v_k

C^⊤x^(k⁺¹⁾ = C^⊤x^{(k )} + !α _k^C^⊤^v_k x^(k⁺¹⁾ = x^{(k )} + !α _k^v_k

!r_k₊₁ = !r_k − !

α

_k ^!A!v_k ^r^k⁺¹ ^{= r}^k ^{− !}^α^k ^Av^k

C^⊤v_k₊₁ = C ⁻¹r_k₊₁ + !β_k^C^⊤^v_k

!v_k = C^⊤v_k, w_k = C⁻¹r_k

= C^−⊤w_k₊₁ + !β_k^v_k

v_k₊₁ = C^−⊤C⁻¹r_k₊₁ + !β_k^v_k

(35)

Algorithm (Conjugate Gradient Method)

35

α

! _k = < w_k ,w_k >

< v_k , Av_k >

x^(k⁺¹⁾ = x^{(k )} + !

α

_k^v_k

k = 0,1,…

For

End

Given compute

_!x⁽⁰⁾_, _!r₀ = !b − !A!x⁽⁰⁾ = !v₀

If , then Stop

r_k₊₁ = 0

β

!_k = < w_k₊₁,w_k₊₁ >

< w_k ,w_k >

v_k₊₁ = C^−⊤w_k₊₁ + !

β

_k^v_k

r_k₊₁ = r_k − !

α

_k ^Av_k ^v^k⁺¹ ^{= C}

−⊤w_k₊₁ + !β_k^v_k

need w₀

w₀ = C⁻¹r₀ = C⁻¹(b − Ax⁽⁰⁾) w_k = C⁻¹r_k

need v₀

v₀ = C^−⊤w₀

Solve C w_k₊₁ = r_k₊₁

(36)

Algorithm (CG Method with preconditioner C)

36

α

_k = < w_k,w_k > / < v_k , Av_k >

x^(k⁺¹⁾ = x^{(k )} +

α

_k^v_k

k = 0,1,…

For

End

If , then Stop

r_k₊₁ = 0

β

_k ^{= < w}_k₊₁^,w_k₊₁ > / < w_k ,w_k >

v_k₊₁ = z_k₊₁ +

β

_k^v_k r_k₊₁ = r_k −

α

_k ^Av_k

Given and compute

C _x⁽⁰⁾_, r₀ = b − Ax⁽⁰⁾

Solve and

^Cw₀ = r₀ _C^⊤_v₁ _{= w}₀

Solve and

^Cw_k₊₁ = r_k₊₁ _C^⊤_z_k₊₁ _{= w}_k₊₁

r_k₊₁ = CC^⊤z_k₊₁ ≡ Mz_k₊₁ β_k = < C⁻¹r_k₊₁,C⁻¹r_k₊₁ >

< C⁻¹r_k ,C⁻¹r_k >

= < z_k₊₁,r_k₊₁ >

< z_k ,r_k >

α _k = < C⁻¹r_k ,C⁻¹r_k >

< C^⊤v_k ,C⁻¹Av_k >

= < z_k ,r_k >

< v_k , Av_k >

(37)

Algorithm (CG Method with preconditioner M)

37

k = 0,1,…

For

End

If , then Stop

r_k₊₁ = 0

Given and compute

_M _x⁽⁰⁾_, _r₀ _{= b − Ax}⁽⁰⁾

Solve and set

Mz₀ = r₀ v₁ = z₀

Solve

Mz_k₊₁ = r_k₊₁

α _k = < z_k ,r_k > / < v_k , Av_k >

Compute Compute

x^(k⁺¹⁾ = x^{(k )} + α _k^v_k

β_k = < z_k₊₁,r_k₊₁ > / < z_k ,r_k >

Compute

r_k₊₁ = r_k − α_k ^Av_k

Compute

v_k₊₁ = z_k₊₁ +

β

_k^v_k

Compute

(38)

Choices of M (Criterion)

cond is nearly by 1, i.e.,

38

(M ^−1/2AM ^−1/2 )

M ^−1/2AM ^−1/2 ≈ I, A ≈ M

The linear system must be easily solved. e.g.

_Mz _{= r} M = LL^⊤

is symmetric positive definite

^M

(39)

Preconditioner M

Jacobi method

39

A = D + (L +U), M = D

x_k₊₁ = −D⁻¹(L +U)x_k + D⁻¹b

= −D⁻¹(A − D)x_k + D⁻¹b

= x_k + D⁻¹r_k

Gauss-Seidel

^A = (D + L) +U, M = D + L x_k₊₁ = −(D + L)⁻¹Ux_k + (D + L)⁻¹b

= (D + L)⁻¹(D + L − A)x_k + (D + L)⁻¹b

= x_k + (D + L)⁻¹r_k

Gradient method

Tsung-Ming Huang

Plan

Gradient method

Conjugate gradient method Preconditioner

Gradient method

Theorem

Ax = b, A : s.p.d

< x, y > = x

y for any x, y ∈!

g(x) = < x, Ax > −2 < x,b > = x

Ax − 2x

b

A : s.p.d

x

is the sol. of Ax = b g(x

) = min

g(x)

A : symmetric positive definite if

Proof

g(x) = < x, Ax > −2 < x,b >

x

is the sol. of Ax = b

= < x − x

, A(x − x

) > + < x, Ax

> + < x

, Ax >

− < x

, Ax

> −2 < x,b >

= < x − x

, A(x − x

) > − < x

, Ax

>

+ 2 < x, Ax

> −2 < x,b >

= < x − x

, A(x − x

) > − < x

, Ax

> +2 < x, Ax

− b >

Ax

= b

= < x − x

, A(x − x

) > − < x

, Ax

>

g(x

) = min

g(x)

< x − x

, A(x − x

) > ≥ 0

Proof

g(x

) = min

g(x)

Fixed vectors and , for any

α

f ( α ) ≡ g(x + α v) = < x + α v, Ax + α Av > −2 < x + α v,b >

= < x, Ax > + α < v, Ax > + α < x, Av > + α

< v, Av >

−2 < x,b > −2 α < v,b >

= < x, Ax > −2 < x,b > +2 α < v, Ax >

−2 α < v,b > + α

< v, Av >

= g(x) + 2 α < v, Ax − b > + α

< v, Av >

g(x + ˆ α v) = f ( ˆ α ) = g(x) − 2 < v,b − Ax >

< v, Av > < v,b − Ax >

+ < v,b − Ax >

< v, Av >

⎛ ⎝⎜ ⎞

⎠⎟

< v, Av >

Proof

Tsung-Ming Huang 

f ( α ⁾ ≡ g(x + α ^v) = < x + α ^{v, Ax} + α ^Av > −2 < x + α ^v,b >

g(x + ˆ α ^v) = f ( ˆ α ⁾ = g(x) − 2 < v,b − Ax >

f ( α ⁾ = g(x) + 2 α < v, Ax − b > + α

f ′( ˆ α ⁾ = 2 < v, Ax − b > +2 ˆ α < v, Av > = 0 α ˆ = − < v, Ax − b >

g(x + ˆ α ^v) = g(x) − < v,b − Ax >

g(x + ˆ α ^v) = g(x) if < v,b − Ax > = 0 g(x + ˆ α ^v) < g(x) if < v,b − Ax > ≠ 0

+ ˆ α ^v) ≥ g(x

Φ(x + ε ^p) − Φ(x)

ε ^{= ∇Φ(x)}

p +O( ε ⁾

for all with (neglect ) p ‖p‖ = 1 ^O( ε ⁾

^x

^x

^{− 2 x}

^b

^x

^{− 2b}