第三章 研究設計
第三節 預測模型建立與評估
2 0 1 3 D r . T u n g C h u n g T s a i
期間 MIB
貨幣供給額 失業率(%) 國內生產 毛額
消費者物價
指數(%) 股價指數 Nov-13 13,068,044 4.16 3,812,911 103.03 8236.52 Dec-13 13,274,088 4.08 3,812,911 102.94 8431.40 資料來源:本研究整理
四、遊客量統計
利用墾丁國家公園管理處的政府資訊公開之統計資料,蒐集自2009年1月至 2013年12月止,共計60筆月資料,其人數統計乃是以由據點分別統計遊客人數,
以2013年資料為例,見表所示。
為了避免所有輸入變數彼此間的值域差距過大,而間接影響遊客量預測效 果,所以將所有輸入變數進行資料正規化 (Normalized),使得各個輸入變數的值 域一致,本研究採取的正規化為極值正規化,其計算公式如下:
Normalized_value =
第三節 預測模型建立與評估
一、預測模型建立
根據前述研究,本研究將MIB貨幣供給額、失業率、國內生產毛額、消費者 物價指數、股價指數、Google Trends及網路情緒分數等七項指標作為自變數,並 使用PC Neuron4.0類神經網路軟體,以其中的倒傳遞網路模式進行墾丁之遊客人 數預測。在輸入變數值時,須調整加權值及偏權值以求出依變數,偏權值是以自 變數數量加依變數數量除以2得之。本研究建構之預測模型如下圖3-3-1所示。
© 2 0 1 3 D r . T u n g C h u n g T s a i
圖3-3-1 本研究預測模型圖 資料來源:本研究繪製 X1=情緒分數
X2=Google Trends熱門度 X3=貨幣供給額
X4=失業率
X5= 國內生產毛額 X6=消費者物價指數 X7=股價指數
Jn,n=1~4:加權值 Y=遊客量
在實證操作上可分為三個部份:1.訓練及測試樣本;2.驗證模型;3.預測。
研究以5項總體經濟指標為基礎樣本,以搭配Google Trends和情緒分數等不同之 變數組合來訓練、測試樣本,進而檢驗模型之預測準確度。
(一) 樣本訓練、測試與驗證
本研究保留 60 筆原始資料中的最後 6 筆資料作為模型預測能力檢測,運用 前面 54 筆資料來建構模型,為了避免過度學習問題,本研究利用一組樣本資料 來驗證預測模型的正確性。預測模型結果將以誤差均方根(Root of Mean Square,
© 2 0 1 3 D r . T u n g C h u n g T s a i
RMS)進行檢驗,所得誤差均方根越小表示預測模式越接近實際值,誤差均方根 定義公式如下:
Tjp=第p個樣本的第j個輸出單元之目標輸出值 Yjp=第p個樣本的第j個輸出單元之推論輸出值 M=樣本數
N=輸出層處理單元數 (二)類神經網路參數設定
本研究將2009年1月至2013年6月共54筆月資料投入PC Neuron4.0軟體進行 運算,其模型參數設定如下表3-3-1所示。
表3-3-1 倒傳遞類神網路參數設定值
項目 設定值 項目 設定值
1.輸入單元數 6、7
10.是否使用以學習之
網路連結加權值 否
2.第一隱藏層單元數 3、4 11.加權值值域 0.3 3.第二隱藏層單元數 未使用 12.亂數種子 0.456
4.輪出處理單元數 1 13.學習速率初始值 1
5.訓練範例數 40 14.學習速率折減係數 0.95 6.測試範例數 14 15.學習速率下限值 0.1 7.學習循環數目 1000 16.慣性因子初始值 0.5 8.測試週期 10 17.慣性因子折減係數 0.95 9.是否使用批次學習 否 18.慣性因子下限值 0.1 資料來源:研究者整理
上表各項參數設定依不同變數組合,設定會有所調整。上表 中第1至3項處
© 2 0 1 3 D r . T u n g C h u n g T s a i
理單元數依投入指標數量不同而有6、7個輸入單元數,連帶影響第一層隱藏層單 元數有4、5個兩種設定,第7至18項設定則參考葉怡成(2009)之建議設定。上述 設定值為本研究之基本設定,若RMS值偏大,無法獲得正確學習模型,始調整 參數設定以求最適當模型。
(三)預測能力評估
預測準確性係指衡量模型所得預測值與實際值間之誤差大小,藉以評估模型 配適的好壞。學者Makridakis(1993)指出,平均絕對誤差百分比具有整合不同衡 量指標的最佳特質,建議評估不同模型預測能力應以MAPE為準則,能提供決策 者作為判斷依據,陳少棠(2012)曾利用MAPE評估房地產交易溫度之模型誤差,
徐嘉鴻、林榆青、彭國彥(2013)也利用MAPE評估汽車銷售量之模型成效,余家 蕙(2014)同時利用MAPE評估三峽旅遊市場溫度之模型準確度,故本研究將採用 MAPE來檢測模型預測值的準確性。MAPE常被用於測量時間序列統計值與目標 值的適配精確度,通常以百分比表示,其公式如下。
MAPE = At 代表實際值
Ft 代表預測值 n 為期數
一般而言,MAPE 因為其分母為實際值,並以百分比表示,因此不會因數 值之大小而產生比較基礎不穩固之問題。根據學者(Lewis 1982)將MAPE 分為四 種等級,當MAPE 值<10%時,即表示其實際與預測的誤差越小,並有較佳的 預測能力,MAPE 評估預測準確度之準則如表3-3-2所示。
表3-3-2 MAPE預測能力尺度
MAPE 預測能力
< 10% 預測能力極佳 (愈接近0愈好) 10%~20% 預測能力優良
20%~50% 預測能力合理
>50% 預測能力不正確 資料來源:陳少棠(2012)
© 2 0 1 3 D r . T u n g C h u n g T s a i
第四章 研究結果與討論
第一節 樣本資料統計分析
本研究蒐集 2009 年 1 月至 2013 年 12 月共 11,745 筆墾丁地區討論之網誌資 料,量化轉換成情緒分數,以建立墾丁國家公園之網路口碑。並進一步加入 5 項經濟指標與 Google Trends 網路搜尋熱門度等變數,再與墾丁國家公園遊憩區 遊客數量比較。下表 4-1-1 即為墾丁地區網路口碑情緒分數、經濟指標、Google Trends 熱門度和遊客量之資料統計分析。
表 4-1-1 變數資料統計表
變數類型 變數名稱 最小值 最大值 平均數 標準差 網路口碑
情緒分數
(X1) 275 1366 753.13 266.85 網路搜尋
熱門度
Google Trends
(X2) 79 426 225.15 91.69
經濟指標
貨幣供給額
(X3) 8327910 13274088 11292688 1218733 失業率
(X4) 4.06 6.13 4.77 0.69 國內生產毛額
(X5) 2986363 3812911 3419180 206141 消費者物價指數
(X6) 96.13 104.06 100.19 2.11 股價指數
(X7) 4475.14 8970.76 7614.13 936.9 產出變數 遊客量(Y) 299142 788354 531151.3 114936.1 資料來源:參考余家蕙(2014)研究整理
© 2 0 1 3 D r . T u n g C h u n g T s a i
為瞭解從網路上所擷取的情緒分數和 Google Trends 與遊客量之間的趨勢關 係,本研究將三者數據利用折線圖進行比較,如下圖 4-1-1 所示。由於遊客量數 值較大,為求圖表清楚呈現,根據文獻探討結果將下圖數據進行數值正規化。
從圖表中可以得知,網路情緒分數最大值 1366 分、最小值 275 分、平均數 753.13 分,顯示遊客對墾丁國家公園旅遊評價,正分明顯高於負分,且多數遊客對墾 丁國家公園給予相當高分的評價;Google Trends 搜尋熱門度,最大值 426 次、
最小值 79 次、平均數 225.15 次,說明墾丁國家公園在網路上被廣泛搜尋,獲得 許多關注與討論。兩項網路指標皆有明顯淡旺季起伏,與墾丁國家公園遊客量 變化趨勢一致,可以發現墾丁國家公園旅遊市場溫度起伏較大,熱度頗高,但 有明顯淡旺季分別差異。每年 6 月至 8 月,由於暑假使遊客量會大幅增加,是為 旺季,11 月至 2 月,受墾丁地區落山風影響遊客量銳減,是為淡季。同時我們 也發現,情緒分數和 Google Trends 數值會隨著遊客量的變化起伏。
圖 4-1-1 2009 年至 2013 年墾丁遊客量、情緒分數與 Google Trends 折線圖 資料來源:研究者整理
© 2 0 1 3 D r . T u n g C h u n g T s a i
第二節 研究結果分析
本研究欲利用倒傳遞網路建立墾丁旅遊市場溫度之模型,且為求預測準確 度,將分別以不同變數組合投入模型進行預測,本研究採用的模型組合分別 為:網路情緒結合經濟指標預測模型(Mood index & Economic Model;MEM)、
搜尋熱門度結合經濟指標預測模型(Google Trends index & Economic Model;
GEM)、經濟指標結合網路情緒及搜尋熱門度預測模型(Economic、Mood index
& Google Trends Model;EMGM)、利用 EMGM 模型結合資料平移(EMGMS)等 4 個預測模型,下列分別是各預測模型的實證結果。
一、網路情緒結合經濟指標預測模型(MEM)
本研究依前述研究設計,以 2009 年 1 月至 2013 年 6 月共計 54 筆月資料為 樣本,並輸入網路情緒分數及 5 項經濟指標進行預測模型之訓練測試,MEM 預 測模型之設定與評估結果如下表 。
表 4-2-1 MEM 模型分析表
MEM 預測模型 類別 數值
分析項目
(訓練、測試)樣本 (40,14)
輸入層單元數 6
隱藏層 1
輸出層單元數 1
測試模型之 RMS 0.00598 驗證模型之 RMS 0.01177
評估項目 MAPE 19.21%
資料來源:參考余家蕙(2014)研究整理
如上表 4-2-1 所示,MEM 模型以 40 個樣本訓練,14 個樣本測試,並以 1 層隱藏層執行運算,本模型測試之誤差均方根(RMS)為 0.00598 ,由此可得知 模型誤差收斂良好,預測值與實際值誤差小;另外再投入 10 個樣本進行驗證,
© 2 0 1 3 D r . T u n g C h u n g T s a i
驗證模型之 RMS 為 0.01177 ,說明本模型訓練習學習效果良好,且驗證模型之 RMS 值並無過小問題可避免過度學習,對訓練樣本以外的樣本有接近之預測能 力。最後以前述探討採用 MAPE 對 MEM 模型進行評估,其數值為 19.21% ,對 照 MAPE 預測力尺度表,MEM 模型具有良好之預測能力。
二、搜尋熱門度結合經濟指標預測模型(GEM)
為比較不同預測組合找出最佳預測模型,本研究將關鍵字搜尋熱門度結合 5 項經濟指標投入模型運算,GEM 預測模型之設定與評估結果如下表 4-2-2。
表 4-2-2 GEM 模型分析表
GEM 預測模型 類別 數值
分析項目
(訓練、測試)樣本 (40,14)
輸入層單元數 6
隱藏層 1
輸出層單元數 1
測試模型之 RMS 0.00535 驗證模型之 RMS 0.01479
評估項目 MAPE 18.12%
資料來源:參考余家蕙(2014)研究整理
如上表 4-2-2 所示,GEM 模型同樣以 40 個樣本訓練,14 個樣本測試,並以 1 層隱藏層執行運算,本模型測試之誤差均方根(RMS)為 0.00535,顯示模型誤 差收斂相當好;另外再次投入 10 個樣本進行驗證,驗證模型之 RMS 為 0.01479,說明本模型訓練習學習效果良好,且訓練模型與驗證模型之 RMS 值 差距小,對訓練樣本以為的樣本有接近之預測能力。最後以前述探討採用 MAPE 對 GEM 模型進行評估,其數值為 18.12% ,對照 MAPE 預測力尺度表,
GEM 模型具有良好之預測能力。
© 2 0 1 3 D r . T u n g C h u n g T s a i
三、網路情緒結合經濟指標及搜尋熱門度預測模型(EMGM)
本研究將 5 項經濟指標和網路情緒分數及關鍵字搜尋熱門度共 7 項指標投入 模型運算,嘗試瞭解在結合所有變數後,對預測模型的準確度的提升效能,
EMGM 預測模型之設定與評估結果如下表 4-2-3。
表 4-2-3 EMGM 模型分析表 EMGM 預測模
型 類別 數值
分析項目
(訓練、測試)樣本 (40,14)
輸入層單元數 7
隱藏層 1
輸出層單元數 1
測試模型之 RMS 0.00503 驗證模型之 RMS 0.01868
評估項目 MAPE 19.18%
資料來源:參考余家蕙(2014)研究整理
如上表 4-2-3 所示,EMGM 模型同樣以 40 個樣本訓練,14 個樣本測試,並 以 1 層隱藏層執行運算,本模型測試之誤差均方根(RMS)為 0.00503 ,顯示模型 之預測期望值與實際測試值誤差很少;另外再次投入 10 個樣本進行驗證,驗證 模型之 RMS 為 0.01868 ,說明本模型訓練習學習效果良好,且訓練模型與驗證 模型之 RMS 值相較偏低,說明本模型夠有較佳的普遍性和解釋力。最後以前述 探討採用 MAPE 對 EMGM 模型進行評估,其數值為 19.18%,對照 MAPE 預測
如上表 4-2-3 所示,EMGM 模型同樣以 40 個樣本訓練,14 個樣本測試,並 以 1 層隱藏層執行運算,本模型測試之誤差均方根(RMS)為 0.00503 ,顯示模型 之預測期望值與實際測試值誤差很少;另外再次投入 10 個樣本進行驗證,驗證 模型之 RMS 為 0.01868 ,說明本模型訓練習學習效果良好,且訓練模型與驗證 模型之 RMS 值相較偏低,說明本模型夠有較佳的普遍性和解釋力。最後以前述 探討採用 MAPE 對 EMGM 模型進行評估,其數值為 19.18%,對照 MAPE 預測