• 沒有找到結果。

模糊隸屬度與模糊熵分類法

第二章 研究方法

2.2 模糊隸屬度與模糊熵分類法

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8

ratio-basedtest; ChanTong, 1986、Bispectrum test; Hinich, 1982,然而這些檢定方法是 針對特定的非線性時間數列所設計的,僅對特定的模式具有相當的檢定力,若是 要檢定其他的模式,則檢定力將會降低(Gooijerm 與 Dumar, 1992),因此為了提高 此模型的適用性,我們在下一節中將會引進 Zadeh (1965)所提出的模糊集合理論 (Fuzzy Set Theory),利用平均累加模糊熵 (吳柏林, 1999)有系統的來蒐尋模式中的 可能的結構轉變點。

2.2 模糊隸屬度與模糊熵分類法

人類的思維主要來自對於自然與社會現象的認知意識,而人類的知識語言也 會因本身的主觀意識時間環境和研判事情的角度不同而具有模糊性,因此在許多 社會科學的範疇中,我們無法將某些現象簡單分成非此即彼的關係,比如說若我 們將一群人的心情簡單的分成「快樂」與「不快樂」與兩類,這樣的劃分法很明 顯有不合理之處,因為人的的心情並非是二元的現象,而是有各種不同情緒程度 連續性之特性,因此為了解釋這些現實生活中具有模糊性的事物,Zadeh (1965) 發表了模糊集合理論,解決了許多傳統二元邏輯所無法描述的現象,重新以隸屬 度(membership grade)來呈現元素與集合之間的關係,例如,人們身高 200 公分絕 對屬於高,則其隸屬度當屬於 1,而身高 180 公分或 178 公分的隸屬度則約等於 0.8,這表示身高 180 公分或 178 公分屬於高的程度有 0.8 之多,因此隸屬度表示 論域中某一元素屬於集合的程度,一般通常會以介於 0 到 1 之間函數來描述這樣 的關係,即為所謂的隸屬度函數,當我們要分析時間數列中是否有發生結構轉變 時,便是運用模糊隸屬度與模糊熵等觀念作分類,進而找出數列中可能的轉折之 處,其定義如下:

定義 2.2 模糊隸屬度(Fuzzy Membership Grade; Wu,1999)

令一時間數列 Yt, t = 1,2, … , n,C1與C2為其兩個群落中心,令μit ,i=1,2 表 示時間數列 Yt中的元素

y

t對C1、C2的隸屬度,則定義隸屬度為

μit =

1-

yt y-Ci

t-Ci

2i=1

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

9

定義 2.3 模糊熵(Fuzzy Entropy; Wu,1999)

令一時間數列 Yt, t = 1,2, … , n,μit表yt對群落中心Ci,(i=1,2...k)的隸屬度,

則yt的模糊熵定義為

δ (yt)

= -(

1

k

)

ki=1itln μit + 1 − μit ln⁡(1 − μit)]

定義 2.4 平均累加模糊熵(Mean Cumulated Fuzzy Entropy; Wu,1999)

令一時間數列 Yt, t = 1,2, … , n,δ (yt)為其模糊熵,則定義平均累加模糊熵為 MSδ (yt) = 1t ti=1δ (yi)

所謂熵原是熱力學中蘊含能量的標準單位,在模糊理論中定義模糊熵來測量 模糊集合的不確定性,以資訊理論(Information Theory)的觀點來說,它代表來模糊 集合的平均內部訊息量,此訊息量是作為對以模糊集合描述之對象進行分類時的 判斷標準,運用模糊熵可有效判斷一時間數列是否有結構性改變的發生,利用t 個時間的平均累加模糊熵來觀測模糊熵的訊息變化情形,並以此來作為模型轉折 分類的標準,意即若是當MSδ (yt)發生顯著的群據變化時,表示模型正在發生結 構性改變,我們便可以透過觀察MSδ (yt)的走勢來了解改變發生之處,進而選定 合適的門檻候選值。以下便是吳柏林與張建瑋 (1999)根據一般的時間數列實證 分析經驗所提出的模糊熵分類法。

平均累加模糊熵分類法:

第一步:先利用 k-means method(Sharma, 1996)找出時間序列{Yt}的 2 個群落中 心,並決定{Yt}對 2 個群落中心的隸屬度μit , i = 1,2,其中

μit =

1-

yt-Ci

yt-Ci

2i=1

第二步:計算出對應的模糊熵 δ(yt)、平均累加模糊熵MSδ(yt) = 1t ti=1δ(yi)

及此數列的中位數Median( MSδ(yt))

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

10

第三步:取適當的一門檻值λ,將{Yt}對應的平均累加模糊熵 MSδ(yt)數列進行 分類。若 MSδ(yt)落在區間[0,Median( MSδ(yt))-λ],則以 1 表示第一 組;若 MSδ(yt)落在區間[Median( MSδ(yt))-λ,Median( MSδ(yt))+λ],則 以 2 表示第二組;若 MSδ(yt)落在區間[Median( MSδ(yt))+λ,1],則以 3 表示第三組。

第四步:若分類結果不一致,則對此分類結果作調整;若分類皆相同,則跳過至 第五步。

第五步:選取適當的判定水準α,若連串的樣本數大於[αn],則此連串樣本屬 於同一組,當分類的組數超過一組時,表示此數列發生結構性改變。

2.3 區間型 ARIMA 模式 & 區間型門檻自迴歸模式

傳統時間數列為{ Yt, t = 1,2, … . n},其預測方式為Y =E( Yt t|Yt−1, Yt−2… , Y1),

為一般點對點之間的預測,使用上只能侷限於單時點的資料,若是樣本為區間的 型式,則無法以傳統的方法來進行預測,使的一般時間的數列在應用上受到了限 制,為了增加其廣泛性及適用性,以下先引進區間模糊數的概念,介紹區間時間 數列,最後再分別以 ARIMA 以及 TAR 法針對左右端點、中心點半徑兩種區間表 式法來定義區間型式的時間數列。

定義 2.5 區間模糊數(Fuzzy Number of Interval; Wu,2006)

令 X=[a,b]=(c;r),其中 c=(a+b)2 為區間 X 之中心,r=(b−a)2 為區間長度的半徑,

若 a,b,c,r 皆為隨機變數,則稱 X 為區間模糊數。

定義 2.6 區間時間數列(Interval time series; Wu,2006)

令 Yt =[at, bt]= (ct; rt),t=1,2,..,n},則稱 Yt }為一個區間時間數列。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

11

定義 2.7 左右端點法之 ARIMA 模式(Tsu, 2007)

令 Yt =[at, bt],t=1,2,..,n}為一個區間時間數列,

at=θ+∅1at−1+...+∅pcat−pct1εt−1-...-θqcεt−qc

bt=α+β1bt−1+...+βpcbt−pct1εt−1-...-ηqcεt−qc 其中εt為白干擾項,

則Y = E[Yt t|Yt−1, Yt−2, Yt−3, . . . . Y1]=[ a , bt ],其中 t

a =E[at t|at−1, at−2, … . a1]= θ+∅1at−1+...+∅pcat−pc b =E[bt t|bt−1, bt−2, … . b1]=α+β1bt−1+…+βpcbt−pc

定義 2.8 中心點及半徑法之 ARIMA 模式(Tsu, 2007) 令 Yt =(ct; rt),t=1,2,..,n}為一個區間時間數列,

ct=θ+∅1ct−1+...+∅pcat−pct1εt−1-...-θqcεt−qc

rt=α+β1rt−1+...+βpcrt−pct1εt−1-...-ηqcεt−qc 其中εt為白干擾項,

則Y = E[Yt t|Yt−1, Yt−2, Yt−3, . . . . Y1]= [ c -rt , ct + rt ],其中 t c =E[ct t|ct−1, ct−2… c1]= θ+∅1ct−1+...+∅pcct−pc

r =E[rt t|rt−1, rt−2… r1]= α+β1rt−1+...+βpcrt−pc

定義 2.9 左右端點法之區間門檻自迴歸模式

令 Yt =[at, bt],t=1,2,..,n}為一個區間時間數列,其中 at= Φa,1,0+ K1i=1Φa,1,i at−i + εa,1,t if at−d1 ≤ S1

Φa,2,0+ K2i=1Φa,2,i at−i + εa,2,t if at−d1 > S1 bt= Φb,1,0+ K1i=1Φb,1,i bt−i + εb,1,t if bt−d2 ≤ S2

Φb,2,0+ K2i=1Φb,2,i bt−i + εb,2,t if bt−d2 > S2

Φ為自迴歸係數,S 為門檻值,at−d1, bt−d2為延誤參數,εa,1,t, εb,1,t為白干擾項 則 Y = E[Yt t|Yt−1, Yt−2, Yt−3, . . . . Y1]=[ a , bt ],其中 t

a =E[at t|at−1, at−2, … . a1]= Φa,1,0+ K1i=1Φa,1,i at−i if at−d1 ≤ S1 Φa,2,0+ K2i=1Φa,2,i at−i if at−d1 > S1 b =E[bt t|bt−1, bt−2… . b1]= Φb,1,0+ K1i=1Φb,1,i bt−i if bt−d2 ≤ S2

Φb,2,0+ K2i=1Φb,2,i bt−i if bt−d2 > S2

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12

定義 2.10 中心點及半徑法之區間門檻自迴歸模式

令 Yt = (ct; rt),t=1,2,..,n}為一個區間時間數列,其中 ct= Φc,1,0+ K1i=1Φc,1,i ct−i + εc,1,t if ct−d1 ≤ S1

Φc,2,0+ K2i=1Φc,2,i ct−i + εc,2,t if ct−d1 > S1 rt= Φr,1,0+ K1i=1Φr,1,i rt−i + εr,1,t if ct−d2 ≤ S2

Φr,2,0+ K2i=1Φr,2,i rt−i + εr,2,t if ct−d2 > S2

Φ為自迴歸係數,ct−d1, rt−d2為延誤參數,S 為門檻值,εc,1,t, εr,1,t為白干擾項 則 Y = E[Yt t|Yt−1, Yt−2, Yt−3, . . . . Y1]=[ c -rt , ct + rt ] t

c =E[ct t|ct−1, ct−2… c1]= Φc,1,0+ K1i=1Φc,1,i ct−i if ct−d1 ≤ S1 Φc,2,0+ K2i=1Φc,2,i ct−i if ct−d1 > S1 r =E[rt t|rt−1, rt−2… r1]= Φr,1,0+ K1i=1Φr,1,i rt−i if ct−d2 ≤ S2

Φr,2,0+ K2i=1Φr,2,i rt−i if ct−d2 > S2

2.4 預測效率評估

預測結果的好壞,是預測者最關心的問題,在一般的點預測中有許多的評估 標準、如平均百分誤差(MPE)、平均誤差平方和(MSE)、平均絕對誤差(MAE)、平 均絕對百分誤差(MAPE)等等...。然而對於區間預測而言,亦需要一套可供比較的 評估準則,然而由於在文獻中各種區間運算並沒有統一的規則,因此對於區間距 離的測量尚無完備之定義(吳柏林, 2010),所以目前針對區間預測的效度評估還未 有 一 既 定 的 法 則 , 所 以 本 節 將 以 模 糊 理 論 為 基 礎 , 將 區 間 資 料 反 模 糊 化 (defuzzification)轉換為合適的實數值,計算兩區間之間的距離,估計可能的誤差 範圍,藉此分析最後的預測結果。

定義 2.11 區間反模糊化值(Wu,2010) 若 A=[a,b]為一區間模糊數,

c=

a+b

2 為區間中心點、 A =b-a 為區間長度,

則此區間的反模糊化值定義為 RA =

c

+[1- ln⁡(1+ A ) A ]

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

14

定義 2.13 區間平均誤差(mean error of interval,IME)

令 Xt =[at, bt]= (ct, rt),t=1,2,...,n}為一個區間時間數列,區間預測 值為X =[at , bt ]=(ct ; rt ),εt = d(Xt , Xt t)為預測區間與實際區間之誤差,則定義 區間平均誤差為

IME

=

1

k

n+kt=n+1εt 其中 n 表當期時間、k 表往後預測期數

定義 2.14 區間平均百分誤差(mean persent error of interval,IMPE)

令 Xt =[at, bt]= (ct, rt),t=1,2,...,n}為一個區間時間數列,區間預測值為 X =[at , bt ]=(ct ; rt ),RXt t為區間[at, bt]的反模糊化值,ε = d(Xt , Xt t)為預測區間 與實際區間之誤差,則定義區間平均百分誤差為

IMPE

=

100

k

εt

RXt n+kt=n+1

%

其中 n 表當期時間、k 表往後預測期數

例 2.2:某地區溫度預測如下表

往前期數 實際溫度 預測溫度 1 [21,31] [20,28]

2 [23,27] [24,32]

則根據定義 2.11、2.12 可知 反模糊化值:

x1=[21,31] 其區間中心為 26、區間長度為 10 則 Rx1= 26 + [1- ln⁡(1+10)

10 ]= 26.7602 x =[20,28] 其區間中心為 24 區間長度為 8 1 則 Rx = 24 + [1- 1 ln⁡(1+8)

8 ]= 24.7253

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

15

x2=[23,27] 其區間中心為 25、區間長度為 4 則 Rx2= 25 + [1- ln⁡(1+4)

4 ]= 25.5976 x =[24,32] 其區間中心為 28、區間長度為 8 2

則 Rx = 28 + [1- 2 ln⁡(1+8)

8 ]= 28.7253 區間距離:

ε = d (x1 1 , x ) = 26 − 24 + 1 ln⁡(1+10)10ln ⁡(1+8)8 = 2.0349

ε = d (x2 2 , x )= 25 − 28 + 2 ln ⁡(1+4)4ln ⁡(1+8)8 = 3.1277 則根據定義 2.13、2.14 可知區間平均誤差(IME)與區間平均百分誤差(IMPE)為 IME = 1

k

n+kt=1

ε

t = 12(2.0349 + 3.1277) = 2.5813 IMPE

=

100

k

εt

RXt

n+kt=n+1

%

= 1002 (2.0349

26.7602

+

3.1277

25.5976)

% =

9.91%

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

18

3.2 以區間型 ARIMA 模式建構

我們利用 2.3 節中的定義 2.7 及 2.8,以表 3.1 中的區間資料為依據,分別觀 察左端點、右端點與中心點、半徑四個時間數列的 ACF 圖與 PACF 圖,以 1920 年 Box 與 Jenkins 所提出的「自我迴歸移動平均」整合模式建構程序,以 ADF 單 根檢定(Augmented Dickey-Fuller Test)驗證模式是否為定態(stationary),適當的選擇 模式中的差分階數(d)、自我迴歸級數(p)、移動平均級數(q),分段配適出其個別 的 ARIMA(p,d,q)模式,最後再綜合左、右端點與中心點、半徑兩兩合成不同的區 間時間數列。

以左右端點法建構

左端點之 ARIMA 模式:

(1−0.0045B) (1 − B)at = 0.0019 + εt B 為倒退算子 εt為白干擾項 右端點之 ARIMA 模式:

(1 − 0.0152B)(1 − B)bt = 0.0126 + εt B 為倒退算子 εt為白干擾項 左右端點法之 ARIMA 模式:

at, bt = (1 − 0.0045B)(1 − B)at = 0.0019+εt

(1 − 0.0152B)(1 − B)bt = 0.0126 + εt B 為倒退算子 εt為白干擾項

以中心點半徑法建構

中心點之 ARIMA 模式:

(1−0.0095B) (1 − B)ct = 0.0089 + εt B 為倒退算子 εt為白干擾項 半徑之 ARIMA 模式:

(1−0.0021B) (1 − B)rt = 0.0007 + εt B 為倒退算子 εt為白干擾項 中心點半徑法之 ARIMA 模式:

(ct, rt) =

(1 − 0.0095B) (1 − B)ct = 0.0089 + εt (1 − 0.0002B) (1 − B)rt = 0.0007 + εt

B 為倒退算子 εt為白干擾項

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

19

3.3 以平均累加模糊熵分類

由於在建構區間 SETAR 模式前需事先給定門檻值,因此在本節中我們希望 先以平均累加模糊熵分別對左、右端點,中心點、半徑作分類,分析各數列中的 結構轉變之處,藉此客觀的找出可能的門檻候選值。

第一步:先利用 k-means method(Sharma,1996)找出時間序列{Yt}的 2 個群落中 心,並決定{Yt}對 2 個群落中心的隸屬度μit , i = 1,2

表 3.2:左、右端點與中心點、半徑的兩個群落中心

左端點 右端點 中心點 半徑

群落中心C1 134306 191195 162751 28444 群落中心C2 259609 351077 305343 45734 第二步:計算出對應的模糊熵 δ(yt)、平均累加模糊熵MSδ(yt) = 1t ti=1δ(yi)

及此數列的中位數Median( MSδ(yt)),繪成如圖 3.3、3.5、3.7、3.9 之 走勢圖

表 3.3:左、右端點與中心點、半徑的平均累加模糊熵中位數

左端點 右端點 中心點 半徑

Median( MSδ(yt)) 0.042632 0.039048 0.040814 0.041448 第三步:取適當的一門檻值λ,將{Yt}對應的平均累加模糊熵 MSδ(yt)數列進行

分類。若 MSδ(yt)落在區間[0,Median( MSδ(yt))-λ],則以 1 表示第一 組;若 MSδ(yt)落在區間[Median( MSδ(yt))-λ,Median( MSδ(yt))+λ],則 以 2 表示第二組;若 MSδ(yt)落在區間[Median( MSδ(yt))+λ,1],則以 3 表示第三組,依據理論中之分類法,繪成如圖 3.4、3.6、3.8、3.10 之分類圖

第四步:選取適當的顯著水準α,此時取α=0.2 若連串的樣本數大於[32α]=6 時我們才算分類成功,反知將視為轉折型式歸納分組,當分類的組數超 過一組時,表示此數列發生結構改變,進而找出其可能的門檻轉折點。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

20

觀察圖 3.3~3.10 可以發現左端點與右端點的轉型期皆發生在 25 期(92 年)到 28 期(95 年);中心點發生在 23 期(90 年)到 26 期(93 年);半徑則發生在 24 期(91 年)到 27 期(94 年),將轉型期中的各期人數作為門檻候選值如下表:

表 3.4:左、右端點與中心點、半徑的門檻候選值

門檻候選值 左端點 右端點 中心點 半徑

r1 217600 259861 239140 33852 r2 212854 276680 251452 31913 r3 244252 311245 244767 33497 r4 254347 323931 277749 34792

圖 3.3 左端點之平均累加模糊熵走勢圖

圖 3.4 左端點以 λ=0.01 所作出之分類圖

0 0.2 0.4 0.6 0.8

1 2 3 4 5 6 7 8 9 1011121314151617181920212223242526272829303132 左端點平均累加模糊熵

0 1 2 3 4

1 2 3 4 5 6 7 8 9 1011121314151617181920212223242526272829303132 λ=0.01之分類圖

1 2 3 4 5 6 7 8 9 1011121314151617181920212223242526272829303132 右端點平均累加模糊熵

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

22

圖 3.9 半徑之平均累加模糊熵走勢圖

圖 3.10 半徑以 λ=0.01 所作出之分類圖

3.4 以區間型門檻自迴歸模式建構

本節針對左右端點、中心點半徑兩種區間模糊數的定義方式,把左端點、右 端點、中心點、半徑假設為四個獨立的時間數列,先利用上節所找出的門檻候選 值,並以 Tong 所建議的 L=[320.5]=5 作為模式最大可能階次,依 3.2 所述之步驟 建構,分別計算各種可能的 AIC 值,以 AIC 最小的延誤參數和門檻值配適出 SETAR 模式;另外再用可能影響觀光的某一重大歷史事件作為一特殊時點,前 後分段形成不同的自迴歸模式,最後我們再分別將左右端點、中心點半徑兩兩合 成不同的區間型門檻自迴歸模式。

1. 區間型 SETAR 模式

以左右端點法建構

左端點之 SETAR 模式:

0 0.2 0.4 0.6 0.8

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 半徑平均累加模糊熵

0 1 2 3 4

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 λ=0.01之分類圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

23

首先將所有的觀察值由小至大依序排列,利用上節中所找出的門檻候選值 r=r1, r2, r3, r4配合 d=1,2,3,4,5 將樣本分為兩個不同的系統,再以 AIC 值為參 數選擇的依據,分別配適門檻值前後兩段樣本,找出使兩段的 AIC 值最小的自

首先將所有的觀察值由小至大依序排列,利用上節中所找出的門檻候選值 r=r1, r2, r3, r4配合 d=1,2,3,4,5 將樣本分為兩個不同的系統,再以 AIC 值為參 數選擇的依據,分別配適門檻值前後兩段樣本,找出使兩段的 AIC 值最小的自

相關文件