• 沒有找到結果。

Chapter 3 研究方法

3.1 Shrinkage 估計

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Chapter 3 研究方法

3.1 Shrinkage 估計

在回歸模型的應用中,我們會對某些預測變數與反應變數之關係有預先的合 理猜測,例如: 在商店之促銷行為對於營業額應有正向影響,故對此促銷行為之迴 歸係數猜測應為正號。然而,給定一組資料,我們可能會對於某一預測變數之迴歸 係數估計產生懷疑,例如:迴歸係數正負符號與直覺不符、迴歸係數間差距過大。

一個可能的解決方式是透過若干組資料納入,而將迴歸係數估計之間的差距收縮,

相對原始回歸模型,此收縮後的迴歸係數通常會在不同資料下能達到較一致的表 現。即便這些預測變數在不同資料可能無相關,也可以達到縮減不同迴歸模型之迴 歸係數差距,以減低對迴歸係數之錯誤估計之風險。

欲估計一個參數 𝜃,假設資料 X 分配服從𝑁𝑝(𝜃, 𝐼𝑝),𝜃 為 p 維,James 與 Stein (1961) 提出一個 𝜃 的參數估計𝛿𝑐,c 為對於 𝜃 的合理猜測,比方 c = 𝑋̅ 𝐽𝑝 , 𝐽𝑝 = (1,1, … ,1)𝑇,為p 維向量,在 p ≥ 3,且損失函數為

L(𝜃, 𝛿𝑐) = ‖𝜃 − 𝛿𝑐2 (1) 此時參數估計 𝛿𝑐

𝛿𝑐 = X − 𝑝 − 2

‖X − 𝑐‖2(X − 𝑐) (2)

,此時的參數估計 𝛿𝑐 之風險比 X 還小,也就是𝐸𝜃(𝐿(𝜃, 𝛿𝑐)) < 𝐸𝜃(𝐿(𝜃, X))。此參 數估計有另一種更一般的表示法

𝛿𝑐,𝑟 = X − 𝑟(𝑝 − 2)

‖X − 𝑐‖2(X − 𝑐) (3)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

參考Jun Shao (1999)定理 4.15,在 p ≥ 3, 0 < r < 2且損失函數為式子(2)下之風 險皆比 X 還小。以上方法可以進一步推廣到𝑁𝑝(𝜃, 𝜎2𝐷),其中 D 為已知正定矩陣,

且𝜎2 > 0為已知,則 James-Stein estimator 為

𝛿̃𝑐 = X − 𝑟(𝑝 − 2)𝜎2

‖(X − 𝑐)𝐷−12(X − 𝑐)𝐷−1 (4) 若 𝜎2 > 0 為未知,假設存在一個統計量 𝑆02 與 X 互相獨立且 𝑆02 𝜎2 服從卡方 分配,則James-Stein estimator 為

𝛿̃𝑐 = X − (𝑝 − 2)𝜎̂2

‖(X − 𝑐)𝐷−12(X − 𝑐)𝐷−1 (5)

式(5)可以應用於線性回歸模型舉例,Y = (𝑌1, … , 𝑌𝑛 ),𝜀 = (𝜀1, … , 𝜀𝑛 ), 𝑋 = (𝑋1, … , 𝑋𝑛)𝑇,X 為 n × p 矩陣,X 為 full rank,p ≥ 3,β = (β1, … , β𝑝),Y = β𝑋𝑇+ 𝜀,假設 𝜀~𝑁𝑛(0, 𝜎2𝐼𝑛),且 𝜎2 > 0 為未知,最大概似估計𝛽̂~𝑁𝑝(𝛽, 𝜎2𝐷),D =

(𝑋𝑇𝑋)−1,𝑆02 = 𝑆𝑆𝑅 = ‖𝑌 − 𝛽̂𝑋𝑇2 與 𝛽̂ 獨立;𝑆02/𝜎2服從 𝜒𝑛−𝑝2 ,則此shrinkage 估計為

𝛽̂ − (𝑝 − 2)𝜎̂2

‖(𝛽̂ − 𝑐)𝑋𝑇𝑋‖2(𝛽̂ − 𝑐)𝑋𝑇𝑋 (6) 𝜎̂ = SSR/(n − p + 2) 。若將 未知 c 以估計量 𝛽̅𝐽2 𝑝 代替,其中 𝛽̅ = 𝑝−1𝑝𝑖=1β𝑖 且 𝐽𝑝 = (1,1, … ,1)𝑇,為p 維向量,則此 shrinkage 估計為

𝛽̂ − (𝑝 − 3)𝜎̂2

‖(𝛽̂ − 𝛽̅𝐽𝑝)𝑋𝑇𝑋‖2(𝛽̂ − 𝛽̅𝐽𝑝)𝑋𝑇𝑋 (7)

在p ≥ 4,且損失函數為式子(2)的情況下,這些估計量的風險皆比 𝛽̂ 小。

以上描述之shrinkage 估計皆屬於經驗貝氏(empirical Bayes),該方法假設參數

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

亦服從某分配並參考由實際資料所得到的參數估計,以加權平均的方式來估計此 參數,在適當的模型假設下,此方法能夠得到較小的風險也達到縮減估計量的效果。

在貝氏方法中還有階層貝氏,此方法亦假設參數服從某分配,將分配的先驗參數與 實際資料整合,以後驗分配抽取樣本以來改進對參數的估計, 階層貝氏方法會在 3.2 節裡介紹。

3.2 階層迴歸模型

階層貝氏方法假設參數亦服從某分配,而將參數之先驗分配與資料整合得到 後驗分配,並以此後驗分配對此參數進行估計,而階層貝氏的優點是在假若某些母 體資料來源較少,此時的參數估計並不穩定,透過階層模型的設計可以將來自其他 母體的資訊融合,以達到較穩定的參數估計。

在階層貝氏中常常會遇到對於後驗分配直接抽取的困難,因此使用MCMC 方

法來近似後驗分配, 而 Gibbs sampler 為 MCMC 的一種特例,其好處在於每次抽 取的樣本皆被採用,並不會發生抽取浪費的情況,可以改進樣本抽取的效率。

在高維度的機率分配上有許多問題,例如:計算高維度的積分、非常見的高維 度機率分配抽樣問題、高維度機率分配的極值問題,解決這類的問題最常見的方法 即是馬可夫蒙地卡羅(Markov chain Monte Carlo)。在未知分配的高維度機率函數裡 常常會碰到樣本抽取的問題,但在高維度下求得邊際函數是相當複雜,而這時可退 而求其次選擇建立欲抽樣的變數之條件機率函數,並將抽取樣本更新至條件機率 函數,因此馬可夫蒙地卡羅抽取的樣本是有相關性的。

Gibbs sampler 是 一 種 由 聯 合 後 驗 分 配 (joint posterior distribution) 並 依 照 full conditional distribution 去抽取樣本。

由於Posterior joint distribution 難以理解是屬於哪種分配,因此退而求其次以 Gibbs sampler 近似。

此處回歸模型依據Robert C. Blattberg and Edward I. Gorege(1991)所探討之三 家連鎖店在四種品牌的每周銷售額情況。

本次數據模擬依據Robert C. Blattberg and Edward I. Gorege(1991)之應變變數 與反應變數之資料型態產生模擬資料,如表 4.1.1,其中以上界為 8 下界為 1 之均

本次模擬數據依照表4.1.1 中描述之變數型態與迴歸係數對每一組 Chain-brand 隨機生成100 筆資料,由生成資料估計出迴歸係數,以此估計係數進行 3.3 節 Gibbs

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖4.1.1 12 chain-brand 𝑃𝑅𝑡之係數

圖4.1.2 12 chain-brand 𝐷𝐷𝑡−1之係數

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.2 Rossmann Store 資料集

本研究之資料來源為Kaggle 網路資料競賽平台 Rossmann Store Sales 提供之 資料,Rossmann Store 為德國藥妝連鎖商店,其超過三千家連鎖店遍佈在七個歐洲 國家,本次競賽Rossmann Store 提供其中 1115 家位於德國之分店各 942 天資料與 180 家各 758 天資料之訓練資料,銷售日期為 2013-01-01 至 2015-07-31,其中 180 家缺少 2014-07-01 至 2014-12-31 期間之資料,並且提供測試資料日期為 2015-08-01 至 22015-08-015-09-17,本次實驗以完整資料之 934 家分店作分析。

提供之資料裡有預先將連鎖店分成四個種類(StoreType),在此先分析此四種種 類的差異。

表4.2.1 各 StoreType 店家數目

StoreType A B C D

店數 602 17 148 348

表4.2.2 各 StoreType 之總銷售額、總顧客人次、單筆平均消費

StoreType 總銷售額 總顧客人次 單筆平均消費

A 3.17e+09 3.64e+08 8.71

B 1.59e+08 3.15e+07 5.06

C 7.83e+08 9.21e+07 8.50

D 1.77e+09 1.57e+08 11.25

由表4.2.2 可以看出 A、D 之總銷售額與總顧客數皆較 B、C 多,但 D 之顧客

平均銷售額較 A 高;A、C 之平均銷售額相近,但 C 之總銷售額與總顧客數較少

是因為 A 的總店數較 C 多;B、C 之總銷售額與總顧客數接較 A、D 少,但 B 之 顧客平均銷售額較C 少。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖4.2.1 不同 StoreType 在 DayOfWeek 下之顧客平均銷售額

圖 4.2.2(左下)不同 StoreType 在 DayOfWeek 下之總銷售額 圖 4.2.3(右下)不同 StoreType 在 DayOfWeek 下之總顧客數

由圖4.2.1 可知僅 StoreType C 在 DayOfWeek 7 並無顧客平均銷售額之值,因 為無銷售行為,;由圖4.2.2、4.2.3 StoreType A、D 在 DayOfWeek 7 之總銷售額與 總顧客數表現皆較其他日差;而StoreType B 在 DayOfWeek 7 之總銷售額與總顧客 數表現皆與其他日相較略增。在經過分析後發現在StoreType A、C、D 裡部份店家 於 DayOfWeek 7 有休息日的情況,所以才造成當日總銷售額下滑的情況,參考圖 4.2.3。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.3 實驗結果

4.3.1 回歸模型

本論文欲討論由回歸模型去做銷售額的預測。以下為原始回歸模型:

𝑆𝐿𝑡= 𝛽0+ 𝛽1𝑆𝐿𝑡−1+ 𝛽2𝑆𝐿𝑡−2+ 𝛽3𝑆𝐿𝑡−3+ 𝛽4𝑆𝐿𝑡−4+ 𝛽5𝑆𝐿𝑡−5+ 𝛽6𝑆𝐿𝑡−6 + 𝛽7𝑆𝐿𝑡−7 + 𝛽8𝑃𝑟𝑜𝑚𝑜𝑡+ 𝛽9𝑆𝑐ℎ𝑡+ 𝛽10𝑆𝑡𝑎𝑡𝑒. 𝑎𝑡+ 𝛽11𝑆𝑡𝑎𝑡𝑒. 𝑏𝑡 + 𝛽12𝑆𝑡𝑎𝑡𝑒. 𝑐𝑡+ 𝛽13𝐷𝑂𝑊2𝑡+ 𝛽14𝐷𝑂𝑊3𝑡+ 𝛽15𝐷𝑂𝑊4𝑡

+ 𝛽16𝐷𝑂𝑊5𝑡+ 𝛽17𝐷𝑂𝑊6𝑡+ 𝛽18𝐷𝑂𝑊7𝑡+ 𝜀𝑡,𝜀𝑡~N(0, σ2) 𝑆𝐿𝑡−𝑖: 第 t 天的前 i 天營業日的銷售額,i = 1,…,7

𝑃𝑟𝑜𝑚𝑜𝑡: 第 t 天是否有促銷活動 𝑆𝑐ℎ𝑡:第 t 天學校是否有放假 𝑆𝑡𝑎𝑡𝑒. 𝑎𝑡:第 t 天是否為國定假日 𝑆𝑡𝑎𝑡𝑒. 𝑏𝑡:第 t 天是否為復活節 𝑆𝑡𝑎𝑡𝑒. 𝑐𝑡: 第 t 天是否為聖誕節 𝐷𝑂𝑊2𝑡:第 t 天是否為星期二 𝐷𝑂𝑊3𝑡:第 t 天是否為星期三 𝐷𝑂𝑊4𝑡:第 t 天是否為星期四 𝐷𝑂𝑊5𝑡:第 t 天是否為星期五 𝐷𝑂𝑊6𝑡:第 t 天是否為星期六 𝐷𝑂𝑊7𝑡:第 t 天是否為星期日

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖4.3.1 各 StoreType 在 DOW1 至 DOW6 之總銷售額

圖 4.3.2 Store Type A 去除 DOW7 在各 DOW 之總銷售額

圖 4.3.3 Store Type A 保留 DOW7 在各 DOW 之總銷售額

首先選擇Store Type A 店家,Store Type A 共有 602 家分店,我們先把每家分 店之零銷售額當日資訊刪除,經過刪除後發現有589 家分店的 DOW7 變數皆被刪 去,僅剩 13 家分店還有 DOW7 資訊,由圖 4.3.2 與圖 4.3.3 看到不管是否去除 DOW7 變數,在 Store Type A 這類型的分店中,我們可以看到在不同星期中銷售額

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

389 0.394 0.929 93.780 8.607 0.74

391 0.296 0.836 39.866 4.451 0.789

395 0.444 0.900 86.541 10.146 0.697

396 0.382 0.999 85.249 11.519 0.763

403 0.393 0.783 81.579 8.129 0.735

404 0.384 0.237 64.138 7.821 0.771

432 1.108 0.926 27182.75 6597.323 0.77

435 0.099 1.000 12.345 0.600 0.637

446 0.445 0.069 95.284 15.000 0.773

448 0.120 0.456 16.253 0.786 0.738

460 0.524 0.528 137.384 30.550 0.793

473 0.028 0.127 9.131 0.394 0.705

510 0.364 0.912 69.636 7.502 0.705

530 0.248 0.186 28.202 3.281 0.784

544 0.055 0.282 12.501 0.491 0.706

圖4.3.4 Store 142 之 ACF

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖4.3.5 Store 142 之 PAC

圖4.3.6 Store 142 之原銷售額與經 Box-Cox 轉換之

圖4.3.7 Store 142 之原銷售額

Divided by its

standard

本次實驗的 Gibbs sampler 將重複抽取式子(10)~式子(13)10000 次,並將式子 (13) β𝑖 抽取的前 5000 次捨棄,僅留後 5000 次的抽取樣本並將之取平均當作 Shrinkage:Gibbs 之係數。而本次四個初始值 η 的抽取序列,其序列的收斂 Rhat(𝑅̂) 小於1.1,因此 Gibbs sampler 抽取序列有達到收斂。最後我們將 Shrinkage:Gibbs、

Shrinkage:J-S 的迴歸係數計算後拿來做預測,每家分店皆一次直接預測 42 期銷售 額,而評判期預測能力的方法為Mean Squared Error(MSE)。

表4.3.2 Store Type A 之迴歸係數、Shrinkage:Gibbs、Shrinkage:J-S

Method Store Intercept 𝑆𝐿𝑡−1 𝑆𝐿𝑡−2 𝑆𝐿𝑡−3 𝑆𝐿𝑡−4 𝑆𝐿𝑡−5 𝑆𝐿𝑡−6 𝑆𝐿𝑡−7

(續)表 4.3.2 Store Type A 之迴歸係數、Shrinkage:Gibbs、Shrinkage:J-S

Method Store 𝑃𝑟𝑜𝑚𝑜𝑡 𝑆𝑐ℎ𝑡 𝐷𝑂𝑊2𝑡 𝐷𝑂𝑊3𝑡 𝐷𝑂𝑊4𝑡 𝐷𝑂𝑊5𝑡 𝐷𝑂𝑊6𝑡

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖4.3.8 Shrinkage:Gibbs 與 Shrinkage:JS 後的 Promo coefficient

圖4.3.9 Shrinkage:Gibbs 與 Shrinkage:JS 後的 Dayofweek6 coefficient

圖4.3.10 Shrinkage:Gibbs 與 Shrinkage:JS 後的 Schoolholiday coefficient

表4.3.4 StoreType A 的 MSE 在 Shrinkage:Gibbs、Shrinkage:J-S、OLS、

common model、Shrinkage:J-S one step ahead 模型表現比較

Shrink

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

MSE 與 OLS 之 MSE 的比值,J-S one step ahead O 代表 J-S one step ahead 之 MSE 與 OLS 之 MSE 的比值。

以迴歸係數來看,由表4.3.2 顯示 Shrinkage:J-S 相較於迴歸係數並沒有太大 的縮減情況,而Shrinkage:Gibbs 相較於迴歸係數有較大的變動,有部分迴歸係

數能夠有縮減的情形,然而也有部分迴歸係數會有發散的情況。由圖4.3.8 來看

𝑃𝑟𝑜𝑚𝑜𝑡迴歸係數皆為正的情況,Shrinkage:Gibbs 能夠將此變數之迴歸係數在近一 步縮減。圖4.3.9 可以看到在𝐷𝑂𝑊6𝑡的迴歸係數大部分分店皆為負數,有少部分 分店的迴歸係數為正號,經過Shrinkage:Gibbs 後此正號的部分有縮減至負號的情 況。圖4.3.10 可以看到 Schoolholiday 迴歸係數有正有負的情況,經過

Shrinkage:Gibbs 後並沒有產生縮減的情況,並且有一家分店有發散的情形。

另外,將表4.3.2 搭配表 4.3.3 的 P-value 來看,在表 4.3.3 裡,某變數若有較 多店家之P-value 達到顯著(ex: Intercept、𝑃𝑟𝑜𝑚𝑜𝑡、𝐷𝑂𝑊2𝑡、𝐷𝑂𝑊3𝑡、𝐷𝑂𝑊4𝑡、

𝐷𝑂𝑊5𝑡、𝐷𝑂𝑊6𝑡),則該變數經過 Shrinkage:Gibbs 後皆有縮減的現象,例如:變數 𝐷𝑂𝑊3𝑡、𝐷𝑂𝑊4𝑡、𝐷𝑂𝑊5𝑡中第 285 店家的係數分別由 0.187 縮減至-0.757、0.016 縮減至-0.875、0.663 縮減至-0.33,有將係數改進至與其他店家之正負號相同的情 形;變數𝐷𝑂𝑊6𝑡中第 195、第 383、第 530 店家的係數分別由 0.154 縮減至-0.532、-0.035 縮減至-0.641、-0.009 縮減至-0.772。

以整體預測能力來看,由表4.3.4 可以看到 common model 的 MSE 為最差 的,而經過Shrinkage:Gibbs、Shrinkage:J-S 後的 MSE 表現與 OLS 相比皆變差,

而Shrinkage:J-S 其預測能力比 Shrinkage:Gibbs 還差。以個別店家的預測力來看,

第142、167、331、364、403、446、448、510 店家經過 Shrinkage:Gibbs 的預測 能力比OLS 與 Shrinkage:J-S 好,而其他的店家經過 Shrinkage:Gibbs 的預測能力

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

皆比OLS 差,與 Shrinkage:J-S 相比,預測能力有較好的情況;Shrinkage:J-S 在 所有店家中預測能力更皆變差。而J-S one step ahead 在整體與各個分店看下來,

其預測能力皆變更差,且比Shrinkage:J-S 還差。

圖4.3.11 Shrinkage:Gibbs 、Shrinkage:JS、OLS 預測 42 期與原始資料表

4.3.5 Σ、R 在不同尺度下各分店與總體 MSE 與 OLS 比值

R 10−8 10−4 100 104

Σ 10−4 100 104 10−4 100 104 10−4 100 104 10−4 100 104

142 0.966 0.980 0.968 0.965 0.989 0.982 0.969 0.992 0.991 1.194 1.344 1.077

167 1.002 1.001 1.019 1.004 0.998 1.002 0.998 0.989 0.977 1.023 1.187 1.103

168 1.078 1.072 1.099 1.082 1.074 1.079 1.058 1.090 1.079 1.562 1.524 1.462

176 1.110 1.128 1.139 1.100 1.142 1.125 1.101 1.090 1.081 0.958 1.141 0.893

195 1.058 1.056 1.061 1.068 1.058 1.053 1.025 1.035 1.010 1.260 1.091 1.295

206 1.034 1.022 1.027 1.029 1.022 1.014 1.016 1.004 1.034 1.318 1.248 1.239

219 1.030 1.036 1.042 1.032 1.013 1.049 1.047 1.056 1.043 1.347 1.295 1.315

265 0.995 1.003 0.999 0.985 1.005 0.981 0.984 1.002 0.995 1.040 1.129 1.208

285 1.209 1.209 1.220 1.210 1.221 1.212 1.080 1.067 1.060 1.124 1.139 1.091

315 1.015 1.017 1.026 1.013 1.014 1.016 0.993 1.003 0.996 1.035 1.190 1.127

328 1.026 1.025 1.006 1.014 1.008 0.996 0.979 0.989 0.976 1.267 1.095 1.092

331 0.984 0.985 1.000 0.994 0.990 0.990 1.014 0.993 1.008 1.652 1.554 1.589

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Chapter 5 結論

5.1 結論

Shrinkage:Gibbs 在不同參數設定下對於迴歸係數的 Shrinkage 程度不同,參數

𝜈、𝜆、𝜌、Σ、𝛶 、R 的設定,其中𝜌 設定與回歸參數個數相同,此設定會使 Wishart distribution 帶有最少的資訊; 𝜈、𝜆 設定以使得 gamma distribution 帶有最少資訊;

而關於Σ、R 的設定皆與迴歸係數的變異程度有關,在 McCulloch & Rossi(1999)中 亦有提到關於迴歸係數之共變異矩陣Σ對於迴歸係數縮減的關係,假如對Σ設定較 小的數,則迴歸係數會縮減到給定的迴歸係數先驗分配平均數𝜂;反之,迴歸係數 會較分散。

Shrinkage:J-S 的好處是期計算較快,但是係數與 MSE 改進的幅度較小;而 Shrinkage:Gibbs 需要花費較長的計算時間,但是係數與 MSE 有機會得到較大幅度 的改善。

而本次實驗結果看來,在迴歸係數方面,Shrinkage:Gibbs 對於 OLS 的 P-value 顯著較多店家的變數之係數會有縮減的情況,而 Shrinkage:J-S 的係數幾乎沒有太 大變化。在預測能力方面,不管是經由Shrinkage:Gibbs 或者 Shrinkage:J-S 其 MSE

而本次實驗結果看來,在迴歸係數方面,Shrinkage:Gibbs 對於 OLS 的 P-value 顯著較多店家的變數之係數會有縮減的情況,而 Shrinkage:J-S 的係數幾乎沒有太 大變化。在預測能力方面,不管是經由Shrinkage:Gibbs 或者 Shrinkage:J-S 其 MSE

相關文件