預測模型建立與評估

第三章研究設計

第三節預測模型建立與評估

2 0 1 3 D r . T u n g C h u n g T s a i

期間 MIB

貨幣供給額失業率(%) 國內生產毛額

消費者物價

指數(%) 股價指數 Nov-13 13,068,044 4.16 3,812,911 103.03 8236.52 Dec-13 13,274,088 4.08 3,812,911 102.94 8431.40 資料來源：本研究整理

四、遊客量統計

利用墾丁國家公園管理處的政府資訊公開之統計資料，蒐集自2009年1月至 2013年12月止，共計60筆月資料，其人數統計乃是以由據點分別統計遊客人數，

以2013年資料為例，見表所示。

為了避免所有輸入變數彼此間的值域差距過大，而間接影響遊客量預測效果，所以將所有輸入變數進行資料正規化 (Normalized)，使得各個輸入變數的值域一致，本研究採取的正規化為極值正規化，其計算公式如下：

Normalized_value =

第三節預測模型建立與評估

一、預測模型建立

根據前述研究，本研究將MIB貨幣供給額、失業率、國內生產毛額、消費者物價指數、股價指數、Google Trends及網路情緒分數等七項指標作為自變數，並使用PC Neuron4.0類神經網路軟體，以其中的倒傳遞網路模式進行墾丁之遊客人數預測。在輸入變數值時，須調整加權值及偏權值以求出依變數，偏權值是以自變數數量加依變數數量除以2得之。本研究建構之預測模型如下圖3-3-1所示。

圖3-3-1 本研究預測模型圖資料來源：本研究繪製 X₁=情緒分數

X₂=Google Trends熱門度 X₃=貨幣供給額

X₄=失業率

X₅= 國內生產毛額 X₆=消費者物價指數 X₇=股價指數

J_n，n=1～4：加權值 Y=遊客量

在實證操作上可分為三個部份：1.訓練及測試樣本；2.驗證模型；3.預測。

研究以5項總體經濟指標為基礎樣本，以搭配Google Trends和情緒分數等不同之變數組合來訓練、測試樣本，進而檢驗模型之預測準確度。

(一) 樣本訓練、測試與驗證

本研究保留 60 筆原始資料中的最後 6 筆資料作為模型預測能力檢測，運用前面 54 筆資料來建構模型，為了避免過度學習問題，本研究利用一組樣本資料來驗證預測模型的正確性。預測模型結果將以誤差均方根(Root of Mean Square，

RMS)進行檢驗，所得誤差均方根越小表示預測模式越接近實際值，誤差均方根定義公式如下：

Tjp=第p個樣本的第j個輸出單元之目標輸出值 Yjp=第p個樣本的第j個輸出單元之推論輸出值 M=樣本數

N=輸出層處理單元數 (二)類神經網路參數設定

本研究將2009年1月至2013年6月共54筆月資料投入PC Neuron4.0軟體進行運算，其模型參數設定如下表3-3-1所示。

表3-3-1 倒傳遞類神網路參數設定值

項目設定值項目設定值

1.輸入單元數 6、7

10.是否使用以學習之

網路連結加權值否

2.第一隱藏層單元數 3、4 11.加權值值域 0.3 3.第二隱藏層單元數未使用 12.亂數種子 0.456

4.輪出處理單元數 1 13.學習速率初始值 1

5.訓練範例數 40 14.學習速率折減係數 0.95 6.測試範例數 14 15.學習速率下限值 0.1 7.學習循環數目 1000 16.慣性因子初始值 0.5 8.測試週期 10 17.慣性因子折減係數 0.95 9.是否使用批次學習否 18.慣性因子下限值 0.1 資料來源：研究者整理

上表各項參數設定依不同變數組合，設定會有所調整。上表中第1至3項處

理單元數依投入指標數量不同而有6、7個輸入單元數，連帶影響第一層隱藏層單元數有4、5個兩種設定，第7至18項設定則參考葉怡成(2009)之建議設定。上述設定值為本研究之基本設定，若RMS值偏大，無法獲得正確學習模型，始調整參數設定以求最適當模型。

(三)預測能力評估

預測準確性係指衡量模型所得預測值與實際值間之誤差大小，藉以評估模型配適的好壞。學者Makridakis(1993)指出，平均絕對誤差百分比具有整合不同衡量指標的最佳特質，建議評估不同模型預測能力應以MAPE為準則，能提供決策者作為判斷依據，陳少棠(2012)曾利用MAPE評估房地產交易溫度之模型誤差，

徐嘉鴻、林榆青、彭國彥(2013)也利用MAPE評估汽車銷售量之模型成效，余家蕙(2014)同時利用MAPE評估三峽旅遊市場溫度之模型準確度，故本研究將採用 MAPE來檢測模型預測值的準確性。MAPE常被用於測量時間序列統計值與目標值的適配精確度，通常以百分比表示，其公式如下。

MAPE = A_t 代表實際值

Ft 代表預測值 n 為期數

一般而言，MAPE 因為其分母為實際值，並以百分比表示，因此不會因數值之大小而產生比較基礎不穩固之問題。根據學者(Lewis 1982)將MAPE 分為四種等級，當MAPE 值＜10％時，即表示其實際與預測的誤差越小，並有較佳的預測能力，MAPE 評估預測準確度之準則如表3-3-2所示。

表3-3-2 MAPE預測能力尺度

MAPE 預測能力

< 10% 預測能力極佳 (愈接近0愈好) 10%~20% 預測能力優良

20%~50% 預測能力合理

>50% 預測能力不正確資料來源：陳少棠(2012)

第四章研究結果與討論

第一節樣本資料統計分析

本研究蒐集 2009 年 1 月至 2013 年 12 月共 11,745 筆墾丁地區討論之網誌資料，量化轉換成情緒分數，以建立墾丁國家公園之網路口碑。並進一步加入 5 項經濟指標與 Google Trends 網路搜尋熱門度等變數，再與墾丁國家公園遊憩區遊客數量比較。下表 4-1-1 即為墾丁地區網路口碑情緒分數、經濟指標、Google Trends 熱門度和遊客量之資料統計分析。

表 4-1-1 變數資料統計表

變數類型變數名稱最小值最大值平均數標準差網路口碑

情緒分數

(X1) 275 1366 753.13 266.85 網路搜尋

熱門度

Google Trends

(X2) 79 426 225.15 91.69

經濟指標

貨幣供給額

(X₃) 8327910 13274088 11292688 1218733 失業率

(X₄) 4.06 6.13 4.77 0.69 國內生產毛額

(X5) 2986363 3812911 3419180 206141 消費者物價指數

(X6) 96.13 104.06 100.19 2.11 股價指數

(X7) 4475.14 8970.76 7614.13 936.9 產出變數遊客量(Y) 299142 788354 531151.3 114936.1 資料來源：參考余家蕙(2014)研究整理

為瞭解從網路上所擷取的情緒分數和 Google Trends 與遊客量之間的趨勢關係，本研究將三者數據利用折線圖進行比較，如下圖 4-1-1 所示。由於遊客量數值較大，為求圖表清楚呈現，根據文獻探討結果將下圖數據進行數值正規化。

從圖表中可以得知，網路情緒分數最大值 1366 分、最小值 275 分、平均數 753.13 分，顯示遊客對墾丁國家公園旅遊評價，正分明顯高於負分，且多數遊客對墾丁國家公園給予相當高分的評價；Google Trends 搜尋熱門度，最大值 426 次、

最小值 79 次、平均數 225.15 次，說明墾丁國家公園在網路上被廣泛搜尋，獲得許多關注與討論。兩項網路指標皆有明顯淡旺季起伏，與墾丁國家公園遊客量變化趨勢一致，可以發現墾丁國家公園旅遊市場溫度起伏較大，熱度頗高，但有明顯淡旺季分別差異。每年 6 月至 8 月，由於暑假使遊客量會大幅增加，是為旺季，11 月至 2 月，受墾丁地區落山風影響遊客量銳減，是為淡季。同時我們也發現，情緒分數和 Google Trends 數值會隨著遊客量的變化起伏。

圖 4-1-1 2009 年至 2013 年墾丁遊客量、情緒分數與 Google Trends 折線圖資料來源：研究者整理

第二節研究結果分析

本研究欲利用倒傳遞網路建立墾丁旅遊市場溫度之模型，且為求預測準確度，將分別以不同變數組合投入模型進行預測，本研究採用的模型組合分別為：網路情緒結合經濟指標預測模型(Mood index & Economic Model；MEM)、

搜尋熱門度結合經濟指標預測模型(Google Trends index & Economic Model；

GEM)、經濟指標結合網路情緒及搜尋熱門度預測模型(Economic、Mood index

& Google Trends Model；EMGM)、利用 EMGM 模型結合資料平移(EMGMS)等 4 個預測模型，下列分別是各預測模型的實證結果。

一、網路情緒結合經濟指標預測模型(MEM)

本研究依前述研究設計，以 2009 年 1 月至 2013 年 6 月共計 54 筆月資料為樣本，並輸入網路情緒分數及 5 項經濟指標進行預測模型之訓練測試，MEM 預測模型之設定與評估結果如下表。

表 4-2-1 MEM 模型分析表

MEM 預測模型類別數值

分析項目

(訓練、測試)樣本 (40,14)

輸入層單元數 6

隱藏層 1

輸出層單元數 1

測試模型之 RMS 0.00598 驗證模型之 RMS 0.01177

評估項目 MAPE 19.21%

資料來源：參考余家蕙(2014)研究整理

如上表 4-2-1 所示，MEM 模型以 40 個樣本訓練，14 個樣本測試，並以 1 層隱藏層執行運算，本模型測試之誤差均方根(RMS)為 0.00598 ，由此可得知模型誤差收斂良好，預測值與實際值誤差小；另外再投入 10 個樣本進行驗證，

驗證模型之 RMS 為 0.01177 ，說明本模型訓練習學習效果良好，且驗證模型之 RMS 值並無過小問題可避免過度學習，對訓練樣本以外的樣本有接近之預測能力。最後以前述探討採用 MAPE 對 MEM 模型進行評估，其數值為 19.21% ，對照 MAPE 預測力尺度表，MEM 模型具有良好之預測能力。

二、搜尋熱門度結合經濟指標預測模型(GEM)

為比較不同預測組合找出最佳預測模型，本研究將關鍵字搜尋熱門度結合 5 項經濟指標投入模型運算，GEM 預測模型之設定與評估結果如下表 4-2-2。

表 4-2-2 GEM 模型分析表

GEM 預測模型類別數值

分析項目

(訓練、測試)樣本 (40,14)

輸入層單元數 6

隱藏層 1

輸出層單元數 1

測試模型之 RMS 0.00535 驗證模型之 RMS 0.01479

評估項目 MAPE 18.12%

資料來源：參考余家蕙(2014)研究整理

如上表 4-2-2 所示，GEM 模型同樣以 40 個樣本訓練，14 個樣本測試，並以 1 層隱藏層執行運算，本模型測試之誤差均方根(RMS)為 0.00535，顯示模型誤差收斂相當好；另外再次投入 10 個樣本進行驗證，驗證模型之 RMS 為 0.01479，說明本模型訓練習學習效果良好，且訓練模型與驗證模型之 RMS 值差距小，對訓練樣本以為的樣本有接近之預測能力。最後以前述探討採用 MAPE 對 GEM 模型進行評估，其數值為 18.12% ，對照 MAPE 預測力尺度表，

GEM 模型具有良好之預測能力。

三、網路情緒結合經濟指標及搜尋熱門度預測模型(EMGM)

本研究將 5 項經濟指標和網路情緒分數及關鍵字搜尋熱門度共 7 項指標投入模型運算，嘗試瞭解在結合所有變數後，對預測模型的準確度的提升效能，

EMGM 預測模型之設定與評估結果如下表 4-2-3。

表 4-2-3 EMGM 模型分析表 EMGM 預測模

型類別數值

分析項目

(訓練、測試)樣本 (40,14)

輸入層單元數 7

隱藏層 1

輸出層單元數 1

測試模型之 RMS 0.00503 驗證模型之 RMS 0.01868

評估項目 MAPE 19.18%

資料來源：參考余家蕙(2014)研究整理

如上表 4-2-3 所示，EMGM 模型同樣以 40 個樣本訓練，14 個樣本測試，並以 1 層隱藏層執行運算，本模型測試之誤差均方根(RMS)為 0.00503 ，顯示模型之預測期望值與實際測試值誤差很少；另外再次投入 10 個樣本進行驗證，驗證模型之 RMS 為 0.01868 ，說明本模型訓練習學習效果良好，且訓練模型與驗證模型之 RMS 值相較偏低，說明本模型夠有較佳的普遍性和解釋力。最後以前述探討採用 MAPE 對 EMGM 模型進行評估，其數值為 19.18%，對照 MAPE 預測

在文檔中利用網路口碑推測墾丁國家公園旅遊市場溫度 (頁 43-0)

第三章 研究設計

第三節 預測模型建立與評估

四、遊客量統計

第三節 預測模型建立與評估

一、預測模型建立

第四章 研究結果與討論

第一節 樣本資料統計分析

第二節 研究結果分析

一、網路情緒結合經濟指標預測模型(MEM)

二、搜尋熱門度結合經濟指標預測模型(GEM)

三、網路情緒結合經濟指標及搜尋熱門度預測模型(EMGM)

第三章研究設計

第三節預測模型建立與評估

第三節預測模型建立與評估

第四章研究結果與討論

第一節樣本資料統計分析

第二節研究結果分析