研究流程 - 資料探勘於投資行為分析之應用

、第四節為關聯規則分析。

在實驗設計上，本研究分別針對總樣本期間及次貸發生期間，檢測投資人是否呈現售盈持虧的交易行為。首先

研究方法

總樣本期間處置效應之檢測

結論與建議關聯規則分析研究模型

推導

價值函數處置效應

不同參考點之選取規則次貸期間處置

效應之檢測

以展望理論之價值函數及處置效應之理論主張為基礎，

依據獲利、虧損與購買價格三個不同的參考點，個別推導出 4 條與投資行為相關的規則，並從樣本資料中，擷取出符合各參考點之趨勢線圖的資料筆數，以求出不同參考點中滿足最小支持度(minimum support)的所有規則，最後進行關聯規則分析，並提出本研究之結論與建議。本研究流程如圖 3-1 所示：

圖 3-1 研究流程圖 第二節研究模型推導－以價值函數與處置效應為例

在價值函數中利得或損失程度是以某個參考點為比較基準，一般為購買價格，亦可能是目前的財富部位，基於此一論述，本研究參照Weber and Camerer (1998)所修改的價值函數圖(如圖 2-1)，除了以購買價格為參考點外，亦將投資人獲利或虧損時的

財富水準納入考慮，將參考點分為購買價格PO、虧損價格PL(低點)以及獲利價格PG(高點)。

(一) 參考點P_O

由圖 2-1 可知，當參考點為P_O時，指數之變動方向可分為P_O→PG、P_O→PL、P_G

→PO及P_L→PO

O G

O O

L O

，如圖 3-2 所示，依據四種不同的變動方向組合所推導出的規則a、b、

c、d分別說明如下：

圖 3-2 以P_O為參考點之趨勢示意圖

a. 當指數由虧損價格PL回到購買價格PO時，投資人賣出的機率高於指數由購買價格a.

PO漲到獲利價格P_G

) (

)

(

Sell P

P

P Sell P

P

→ > →

，規則推論如下：

與

P

(

Buy P

_L →

P

_O)<

P

(

Buy P

_O →

P

_G)

其中買進機率為賣出機率之反向。當指數之變動方向為P_L→PO，由圖 2-1 知其 價值為V(O)，小於P_O→PG之價值V(G)，但由於價值函數之基本假設指出虧損區間的 斜率較獲利區間陡峭，所以P_L→PO所增加的價值V(L)大於P_O→PG所增加的價值V(G)，

因此預估投資人在指數由虧損回到購買價格時，其賣出機率較高。此一規則表示當指 數走勢P_L→ PO與P_O→ PG

) ,

; , ( x p y q

同樣為向上變動時，投資人於損失區間所獲得的價值高於獲利區間，將呈現出較為明顯的風險趨避態度，因此預估其賣出的意願較高。

根據展望理論，若為一般(regular)的賭局，亦即

p + q < 1

或

x ≥ 0 ≥ y

或

y

x ≤ 0 ≤

，則賭局的期望價值如下：

) ( ) ( ) ( ) ( ) ,

; ,

( x p y q p v x q v y

V =

+

π (3-1 式)

其中

p

為個人得到 x 的機率

q

為得到 y 的機率

)

( p

為決策權重函數

)

(x

v

為價值函數

利用 3-1 式可將規則 a 加以修改，首先定義 x、y、p、q 如下：

再將 3-18 式代入規則 c 可得

(二) 參考點PL

當參考點為P_L時，指數之變動方向可分為P_L→PO、P_L→P2L、P_O→PL及P_2L→PL，如圖 3-3 所示，在Weber and Camerer的研究中並沒有明確定義L與 2L的價格型態，因此，當兩筆樣本資料之指數價格皆低於購買價格P_O

2L L

，且符合圖 2-1 中損失區間之波段 走勢，本研究便將之視為L與 2L。依據四種不同的變動方向組合所推導出的規則e、f、

g、h分別說明如下：

圖 3-3 以P_L為參考點之趨勢示意圖

e. 當指數由持續下跌P2L回到虧損價格P_L時，投資人賣出的機率低於指數由虧損價e.

格P_L回到購買價格P_O

) (

)

(

Sell P

₂_L

P

P Sell P

P

→ < →

，規則推論如下：

與

P

(

Buy P

₂_L →

P

_L)>

P

(

Buy P

_L →

P

_O)

其中買進機率為賣出機率之反向。當指數之變動方向為P_2L→PL，由圖 2-1 知其 價值為V(-L)，小於P_L→PO之價值V(O)，因此預估投資人在指數由虧損回到購買價格 時，其賣出機率較高。此一規則表示當指數走勢P_2L→ PL與P_L→ PO同樣為向上變動 時，由於P_L→ PO區間之斜率較P_2L→ PL

) ,

; , ( x p y q

區間陡峭，將為投資人帶來較高的價值，因此預估其賣出的意願較高。

根據展望理論，若是絕對為負(strictly negative)的賭局，亦即

p + q = 1

且

< 0

< y

x

，則賭局的期望價值如下：

) ( )]

( 1 [ ) ( ) ( ) ,

; ,

( x p y q p v x p v y

V =

+ −

π (3-26 式)

其中

p

為個人得到 x 的機率

q

為得到 y 的機率

)

( p

為決策權重函數

)

(x

v

為價值函數

利用 3-26 式可將規則 e 加以修改，首先定義 x、y、p、q 如下：

再將 3-43 式代入規則 g 可得

(三) 參考點PG

當參考點為P_G時，指數之變動方向可分為P_G→P2G、P_G→PO、P_2G→PG及P_O→ P_G，如圖 3-4 所示，在Weber and Camerer的研究中並沒有明確定義G與 2G的價格型態，因此，當兩筆樣本資料之指數價格皆高於購買價格P_O

O G

，且符合圖 2-1 中獲利區間之波段走勢，本研究便將之視為G與 2G。依據四種不同的變動方向組合所推導出的 規則i、j、k、l分別說明如下：

圖 3-4 以P_G為參考點之趨勢示意圖

i. 當指數由購買價格PO漲到獲利價格P_G時，投資人賣出的機率低於指數由獲利價格i.

P_G持續上漲到P_2G

) (

)

(

Sell P

P

P Sell P

P

_2G

P

→ < →

，規則推論如下：

與

P

(

Buy P

_O →

P

_G)>

P

(

Buy P

_G →

P

_2G)

其中買進機率為賣出機率之反向。當指數之變動方向為P_O→PG，由圖 2-1 知其 價值為V(G)，小於P_G→P2G之價值V(2G)，因此預估投資人在指數由獲利價格到持續 上漲時，其賣出機率較高。此一規則表示當指數走勢P_O→PG與P_G→P2G同樣為向上 變動時，由於P_G→P2G區間的價值高於P_O→PG

) ,

; , ( x p y q

，將使投資人呈現出較為明顯的風險趨避態度，因此預估其賣出的意願較高。

根據展望理論，若是絕對為正(strictly positive)的賭局，亦即

p + q = 1

且

> 0

> y

x

，則賭局的期望價值與 3-26 式相同：

) ( )]

( 1 [ ) ( ) ( ) ,

; ,

( x p y q p v x p v y

V =

+ −

π (3-51 式)

其中

p

為個人得到 x 的機率

q

為得到 y 的機率

)

( p

為決策權重函數

)

(x

v

為價值函數

利用 3-51 式可將規則 i 加以修改，首先定義 x、y、p、q 如下：

再將 3-68 式代入規則 k 可得

第三節趨勢線圖之選取規則

由於成交量大的交易日代表其交易機率較高，因此為了提高檢測結果之代表性，

本研究首先計算出研究期間全部交易日的平均成交量，再將每個交易日 t 之成交量與前兩日(t-1、t-2)加總除以 3，取其 3 日均量，若 3 日均量低於平均成交量，便將該筆資料自研究資料中剔除，在取得所有高於平均成交量之樣本資料後，再根據三個參考點的選取規則從 5 檔權值股、期貨以及加權股價指數資料中，擷取出符合各參考點之趨勢線圖的資料筆數，亦即從樣本資料當中，選取符合圖 3-2、圖 3-3 及圖 3-4 之所有資料區間。

根據圖 3-2、圖 3-3 及圖 3-4 之趨勢線圖所選取出的資料區間，須符合一定的規則。以圖 3-2 左方之示意圖為例，O、L、O、G、O 等 5 筆指數資料若依序以 p1、p2 至 p5 表示(如圖 3-5)，則三個參考點 O 的指數值必須大約相等，此一限制乃是為了建立較為一致的比較基準，可公式化為：

5 3

1 p p

I I

I ≅ ≅

(3-76 式)

其中

I

p 、

I

_p₃、

I

_p₅代表參考點 O 的指數值

p2 p3

p5 p1 p2

p4 p5

p3 p4

p1 p2

圖 3-5 以P_O、P_L與P_G為參考點之指數走勢示意圖

此外，本研究在選取資料區間的過程中發現，若欲取得足夠的樣本區間以進行關聯規則探勘，須適度放寬三個參考點 O 彼此之間的數值差距，因此，在期貨及加權股價指數資料的取樣過程中，本研究將三個參考點 O 彼此之間的差距設為 100，而在權值股資料的取樣過程中，將數值差距設為 2，亦即 p1、p3、p5 三筆資料彼此之間的數值差距須介於 0 到 100 或 0 到 2 之間，可公式化為：

c I I I I I

I

−

≅

−

≅

−

<

≤

₅ ₃ ₃ ₁ ₅ ₁

0

(3-77 式)

其中

在 3-76 式與 3-77 式成立的情況下，亦可進一步推得 3-78 式與 3-79 式之關係成立。

c I I I

I

_p − _p − _p − _p <

≤ ₅ ₄ ₄ ₃

0 (3-78 式)

其中

c 為常數

I

p 、

I

_p₅代表參考點 O 的指數值

I

p 代表參考點 L 或參考點 G 的指數值

c

I I I

I

_p − _p − _p − _p <

≤ ₃ ₂ ₂ ₁

0 (3-79 式)

其中

c 為常數

I

p 、

I

_p₃代表參考點 O 的指數值

I

p 代表參考點 L 或參考點 G 的指數值茲將參考點PO的選取規則整理如下：

5 3

1 p p

I I

I ≅ ≅

(3-80 式)

c I I I I I

I

−

≅

−

≅

−

<

≤

₅ ₃ ₃ ₁ ₅ ₁

0

(3-81 式)

c I I I

I

_p − _p − _p − _p <

≤ ₅ ₄ ₄ ₃

0 (3-82 式)

c I I I

I

_p − _p − _p − _p <

≤ ₃ ₂ ₂ ₁

0 (3-83 式)

其中

c 為常數

I

p 、

I

_p₃、

I

_p₅代表參考點 O 的指數值

I

p 、

I

_p₄代表參考點 L 或參考點 G 的指數值

當參考點為PL時，以圖 3-3 之示意圖為例，O、L、2L、L、O等 5 筆指數資料若依序以p1、p2 至p5 表示(如圖 3-5)，則兩個參考點O與參考點L的指數值必須大約相等，

可公式化為：

1 p

I

I ≅

，

I

_p₂

≅ I

_p₄ (3-84 式) 其中

I

p 、

I

_p₅代表參考點 O 的指數值

I

p 、

I

_p₄代表參考點 L 的指數值

在期貨及加權股價指數資料的取樣過程中，本研究將兩個參考點 O 及參考點 L 彼此之間的差距設為 100，而在權值股資料的取樣過程中，將數值差距設為 2，亦即 p1、p5 兩筆資料彼此之間的數值差距須介於 0 到 100 或 0 到 2 之間，p2、p4 亦同，

可公式化為：

c I I I

I

−

≅

−

<

≤

₅ ₁ ₄ ₂

0

(3-85 式)

其中

c 為常數

I

p 、

I

_p₅代表參考點 O 的指數值

I

p 、

I

_p₄代表參考點 L 的指數值

在 3-84 式與 3-85 式成立的情況下，亦可進一步推得 3-86 式與 3-87 式之關係成立。

c I I I

I

−

<

≤ ( ) ( )

0

₅ ₄ ₁ ₂ (3-86 式)

其中

c 為常數

I

p 、

I

_p₅代表參考點 O 的指數值

I

p 、

I

_p₄代表參考點 L 的指數值

c I I I

I

−

<

≤ ( ) ( )

0

₄ ₃ ₂ ₃ (3-87 式)

I

p 、

I

_p₄代表參考點 L 的指數值

I

p 代表參考點 2L 的指數值茲將參考點PL的選取規則整理如下：

1 p

I

I ≅

，

I

_p₂

≅ I

_p₄ (3-88 式)

c

I I I

I

−

≅

−

<

≤

₅ ₁ ₄ ₂

0

(3-89 式)

c I

I I

I

−

<

≤ ( ) ( )

0

₅ ₄ ₁ ₂ (3-90 式)

c I I I

I

−

<

≤ ( ) ( )

0

₄ ₃ ₂ ₃ (3-91 式)

其中

c 為常數

I

p 、

I

_p₅代表參考點 O 的指數值

I

p 、

I

_p₄代表參考點 L 的指數值

I

p 代表參考點 2L 的指數值

當參考點為P_G時，以圖 3-4 之示意圖為例，O、G、2G、G、O等 5 筆指數資料若依序以p1、p2 至p5 表示(如圖 3-5)，則兩個參考點O與參考點G的指數值必須大約相等，可公式化為：

1 p

I

I ≅

，

I

_p₂

≅ I

_p₄ (3-92 式) 其中

I

p 、

I

_p₅代表參考點 O 的指數值

I

p 、

I

_p₄代表參考點 G 的指數值

在期貨及加權股價指數資料的取樣過程中，本研究將兩個參考點 O 及參考點 G 彼此之間的差距設為 100，而在權值股資料的取樣過程中，將數值差距設為 2，亦即 p1、p5 兩筆資料彼此之間的數值差距須介於 0 到 100 或 0 到 2 之間，p2、p4 亦同，

可公式化為：

c I I I

I

−

≅

−

<

≤

₅ ₁ ₄ ₂

0

(3-93 式)

其中

c 為常數

I

p 、

I

_p₅代表參考點 O 的指數值

I

p 、

I

_p₄代表參考點 G 的指數值

在 3-92 式與 3-93 式成立的情況下，亦可進一步推得 3-94 式與 3-95 式之關係成立。

c I I I

I

−

<

≤ ( ) ( )

0

₄ ₅ ₂ ₁ (3-94 式)

其中

c 為常數

I

p 、

I

_p₅代表參考點 O 的指數值

I

p 、

I

_p₄代表參考點 G 的指數值

c I

I I

I

−

<

≤ ( ) ( )

0

₃ ₄ ₃ ₂ (3-95 式)

其中

c 為常數

I

、

^I

^p⁴代表參考點 G 的指數值

I

代表參考點 2G 的指數值茲將參考點P_G的選取規則整理如下：

1 p

I

I ≅

，

I

_p₂

≅ I

_p₄ (3-96 式)

c

I I I

I − ≅ − <

≤

0 c I

I I

I

−

<

≤ ( ) ( )

0

₃ ₄ ₃ ₂ (3-99 式)

其中

c 為常數

I

p 、

I

_p₅代表參考點 O 的指數值

I

、

^I

^p⁴代表參考點 G 的指數值

I

代表參考點 2G 的指數值 第四節資料探勘技術－關聯規則分析

本研究採用 Apriori 演算法(Agrawal and Srikant, 1994)進行關聯規則分析，其過程分為兩個階段，第一階段是從資料集中找出所有≥ 最小支持度(minimum support)的頻繁項目集(frequent itemsets)，第二階段再根據所得到的頻繁項目集產生關聯規則，關聯規則必須達到最小信賴度(minimum confidence)的門檻值。支持度與信賴度的計算方式如下：

Support(A, B)=(包含項目 A、B 的資料筆數)/所有資料筆數 (3-100 式) Confidence(A→B)

=(包含項目 A、B 的資料筆數)/所有包含 A 的資料筆數

(3-101 式)

在本研究中支持度代表規則出現之頻率，而信賴度是對規則準確度的衡量。有關支持度的計算方式，以參考點PO之規則a.

P

(

Sell P

_L→

P

_O)>

P

(

Sell P

_O →

P

_G)為例，當 PL與PO兩筆資料的平均交易量大於PO與PG之平均交易量時，規則a便視為成立，支持度計為 1，而依據參考點PO之選取規則所取出的資料區間當中，若規則a的成立次數為 3 次，支持度便為 3，各參考點中 4 條規則之支持度計算方式以此類推。此外，為了避免過多的關聯規則造成計算的複雜性，本研究將最小支持度設定為 3、最小信賴

在本研究中支持度代表規則出現之頻率，而信賴度是對規則準確度的衡量。有關支持度的計算方式，以參考點PO之規則a.

P

(

Sell P

_L→

P

_O)>

P

(

Sell P

_O →

P

在文檔中資料探勘於投資行為分析之應用－以處置效應為例 (頁 20-0)