• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二節 建立旅遊景點推薦模型

本節將以羅吉斯迴歸分析來建立旅遊景點的推薦模型,首先,第一小節說明 模型建立的過程,其次,在第二小節中,會針對模型來檢驗其預測準確率。

一、 建立模型

首先,在將資料匯入 clementine 進行分析前,先來做資料整理的步驟。我們 先將從網路與紙本問卷蒐集到的答案合併過後,將問卷最後一題喜歡的旅遊景點 作為此次的應變數 Y 來建模,由於 Y 當初設定的是複選題,因此將 Y 拆解成 Y1~Y6,表示成 6 個變數,代表 6 種旅遊型態並建立 6 條旅遊景點推薦模型。接 下來,將其他問卷題目當成自變數 X,由於 X 有連續型態與離散型態,因此將所 有離散型態的 X 都設成虛擬變數來進行建模。

圖4- 14 羅吉斯迴歸模型流程圖 1

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

依據圖 4-14、圖 4-15 的羅吉斯迴歸分析串流,可以清楚看到選擇模型當中 的過程。首先,藉由讀取資料的節點(名稱為 dummy.txt)將上述整理過後的資料 導入系統,其次,透過 Filler 的節點將 y1~y6 的變數中空白值補 0。再者,應用 羅吉斯迴歸分析分別使用 enter 選模方式的節點(名稱為 y=1 enter)、forwards 選 模方式的節點(名稱為 y=1 forwards)、backwards 選模方式的節點(名稱為 y=1 backwards)進行景點的推薦模型,其中,enter 表示將所有欄位直接輸入方程式,

建模時不進行欄位選擇;forwards 表示使用向前選取法,透過逐步納入系統檢定 後的最佳欄位進入模型,直到無法對模型產生足夠改進時,即為最終模型;

backwards 表示向後選取法,初始模型包含作為預測變數的所有欄位,逐一將對 模型貢獻最小的欄位刪除,直到不對模型功能造成重大損害時產生最終模型(謝 邦昌等人,2017)。以此類推六個模型的建造過程,最後,依據 Logistic 金磚節 點提供個別的推薦模型,以下我們將透過三個指標來評斷模型的效果,進而決定 本文的最終模型,分別是 Omnibus Tests of Model Coefficients 來進行模型適合度 檢定、Cox & Snell R Square 和 Nagelkerke R Square 來比較模型的解釋能力,最 後用模型的 Classification Table 來看模型的預測能力。

圖4- 15 羅吉斯迴歸模型流程圖 2

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表4- 1 Omnibus Tests of y1 Model Coefficients

y1 的模式係數的 Omnibus 測試相當於線性迴歸裡的 ANOVA-F 檢定,探討 羅吉斯迴歸模型中的β係數是否全部為 0,如下顯示:

H0 ∶ 𝛽 = 0 H1 ∶ 𝛽 ≠ 0

由表 4-1 可以觀察到三種模型的顯著性(Sig.)p 值<0.05,拒絕虛無假說。

有足夠證據顯示此 y1 的羅吉斯迴歸模型是顯著的,具有預測能力。

表4- 2 Model Summary of y1

接下來,根據表 4-2 顯示,取決於 Cox & Snell R Square 與 Nagelkerke R Square,enter 的模型之應變量可以被解釋的變異比例在 29.1% ~ 42.4%之間,為 三種模型之中解釋能力最高者,因此 enter 模型是相較之下較好的選擇。

Omnibus Tests of Model Coefficients (y1) Step Chi-square df Sig.

enter 52.906 29 0.004

forwards 22.242 2 0

backwards 40.528 8 0

Model Summary of y1

Step -2 Log

likelihood

Cox & Snell R Square

Nagelkerke R Square enter 125.573(a) 0.291 0.424 forwards 156.237(a) 0.134 0.196 backwards 137.951(b) 0.231 0.337

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表4- 3 Classification Table of y1

Classification Table(y1)

Observed Predicted

y5 Percentage

Correct

0 1

Step 0 y5 0 113 0 100

1 41 0 0

Overall Percentage 73.4

Step 1 y5 0 102 11 90.3

1 21 20 48.8

Overall Percentage 79.2

再來我們根據 enter 的模型進一步探討預測效果,根據表 4-3 顯示,在不考 慮自變數,假設所有觀察沒有選擇名為「網美這麼好當? 」旅行景點(包含熱門打 卡餐廳等,以下簡稱網美打卡景點)的人,模型能夠將在納入模型能夠將 73.4%的 觀測正確分類。當納入自變數時,模型能夠將 79.2%的觀測正確分類(查看 Overall Percentage 一行),即納入這些自變數後能夠提高整體模型的預測能力。

表4- 4 y1 的羅吉斯迴歸模型表

variable B S.E. Wald df Sig. Exp(B)

sex_M(1)

-1.348 0.572 5.559 1 0.018 0.26

prefer_1(1)

0.241 0.66 0.133 1 0.715 1.272

prefer_2(1)

-2.723 1.275 4.563 1 0.033 0.066

prefer_3(1)

-0.033 0.615 0.003 1 0.958 0.968

playoreat_1(1)

0.889 0.694 1.64 1 0.2 2.433

playoreat_2(1)

2.731 1.144 5.697 1 0.017 15.353

satisfy_1(1)

18.595 40192.92 0 1 1 119099095.1

satisfy_2(1)

0.686 0.596 1.324 1 0.25 1.986

satisfy_3(1)

2.262 1.066 4.502 1 0.034 9.602

satisfy_4(1)

20.407 40192.96 0 1 1 728706642.6

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

fbig

0.379 0.132 8.217 1 0.004 1.46

確定模型之後,如表 4-4 我們將數據顯示顯著(Sig.<0.05)的變數納入模型 當中,而當虛擬變數當中任何一個代表其變數的變數顯著時(如紅色顯示),我 們會將整個變數都納入模型當中解釋,之後的模型將以此類推。

最後,我們可以對於選擇網美打卡景點的族群特性,分別用不同變數的 Odds Ratio(如黃色顯示,以下簡稱 OR)做一個歸納,其中表 4-4 的 Exp(B)即為 Odds Ratio。

(一) 女性族群:

OR=0.26 < 1,這說明女性選擇網美打卡景點的勝算,比男性約多出 3.84 倍。

(二) 旅行時跟隨朋友類型的族群:

OR=0.066 < 1,這說明跟隨朋友類型的人選擇網美打卡景點的勝算,比起 自己是傾向熱門打卡景點類型約多出 15.15 倍。

(三) 旅行時重玩的族群:

OR=15.353 > 1,這說明重玩類型的人選擇網美打卡景點的勝算,比吃玩並 重的人約多出 15.353 倍。

( 四 ) 旅行時需要滿足嘗鮮類型的族群:

OR=9.602 > 1,這說明旅行時需要滿足嘗鮮類型的人選擇網美打卡景點的勝 算,比旅行時需要全方位滿足的人約多出 9.602 倍。

(五) 對於社群平台 Facebook 或 Instagram 上的旅遊資訊關注程度高的族群:

OR=1.46 > 1,這說明對於社群平台 Facebook 或 Instagram 上的旅遊資訊關 注程度越高的人越容易選擇網美打卡景點,且關注程度每多一分,會選擇網美打 卡景點的勝算約多出 1.46 倍。

表4- 5 Omnibus Tests of y2 Model Coefficients

由表 4-5 可以觀察到三種模型的顯著性(Sig.)p 值<0.05,拒絕虛無假說。

有足夠證據顯示此 y2 的羅吉斯迴歸模型是顯著的,具有預測能力。

表4- 6 Model Summary of y2

接下來,根據表 4-6 顯示,取決於 Cox & Snell R Square 與 Nagelkerke R Square,enter 的模型之應變量可以被解釋的變異比例在 25.6% ~ 34.2%之間,為 三種模型之中解釋能力最高者,因此 enter 模型是相較之下較好的選擇。

表4- 7 Classification Table of y2

Omnibus Tests of Model Coefficients (y2) Step Chi-square df Sig.

enter 45.499 29 0.026

forwards 13.848 2 0.001

backwards 28.281 7 0

Model Summary of y2

Step -2 Log backwards 183.543(b) 0.168 0.224

Classification Table (y2)

Observed Predicted

y2 Percentage Correct 0 1

Step 0

y2 0 85 0 100

1 69 0 0

Overall Percentage 55.2

Step 1

y2 0 64 21 75.3

1 25 44 63.8

Overall Percentage 70.1

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

再來我們根據 enter 的模型進一步探討預測效果,根據表 4-7 顯示,在不考 慮自變數,假設所有觀察沒有選擇名為「踏上文青之旅!」旅行景點(包含市集活 動或展覽等,以下簡稱文青景點)的人,模型能夠將在納入模型能夠將 55.2%的觀 測正確分類。當納入自變數時,模型能夠將 70.1%的觀測正確分類(查看 Overall Percentage 一行),即納入這些自變數後能夠提高整體模型的預測能力。

表4- 8 y2 的羅吉斯迴歸模型表

variable Beta S.E Wald df Sig. Exp(B)

care_1(1)

-1.243 0.484 6.589 1 0.01 0.288

care_2(1)

-2.638 1.289 4.189 1 0.041 0.072

care_3(1)

0.377 0.727 0.269 1 0.604 1.457

fbig

0.315 0.107 8.643 1 0.003 1.371

根據表 4-8 的數據顯示,我們可以對於選擇文青景點的族群特性,以下將分 別用不同變數的勝算比做一個歸納:

(一) 旅行時最在意景點內容的族群:

ORcare_1=0.288 < 1 與 ORcare_2=0.072 < 1,這說明旅行時最在意景點內容 的族群選擇文青景點的勝算,不但比旅行時最在意預算的族群約多出 3.47 倍,

也比旅行時最在意距離的族群約多出 13.89 倍。

( 二 ) 對於 Facebook 或 Instagram 上的旅遊資訊關注程度高的族群:

OR=1.371 > 1,這說明對於 Facebook 或 Instagram 上的旅遊資訊關注程度越 高的人越容易選擇文青景點,且關注程度每多一分,會選擇文青景點的勝算就多 了 1.371 倍。

表4- 9 Omnibus Tests of y3 Model Coefficients

Omnibus Tests of Model Coefficients (y3)

Step Chi-square df Sig.

enter 27.708 29 0.534

forwards 10.436 2 0.005

backwards 13.611 3 0.003

由表 4-9 可以觀察到 forwards 與 backwards 模型的顯著性(Sig.)p 值<0.05,

拒絕虛無假說。有足夠證據顯示此 y3 的 forwards 與 backwards 選擇的羅吉斯迴 歸模型是顯著的,具有預測能力。以下將以這兩個模型來進行進階比較。

表4- 10 Model Summary of y3

Model Summary of y3

Step -2 Log backwards 138.269(a) 0.085 0.135

接下來,根據表 4-10 顯示,取決於 Cox & Snell R Square 與 Nagelkerke R Square,backwards 模型之應變量可以被解釋的變異比例在 8.5% ~ 13.5%之間,

雖然解釋能力沒有很好,但為兩種模型之中解釋能力較高者,因此 backwards 模 型是相較之下較好的選擇。

表4- 11 Classification Table of y3

再來我們根據 backwards 的模型進一步探討預測效果,根據表 4-11 顯示,在 不考慮自變數,假設所有觀察沒有選擇名為「飛簷走壁」旅行景點(包含激烈的室 內外活動等)的人,模型能夠將在納入模型能夠將 80.5%的觀測正確分類。當納入

Classification Table(a)

Observed Predicted

y3 Percentage Correct

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

自變數後,模型能夠維持一樣的正確分類能力,雖沒有提升模型的預測能力,但 沒有降低其預測能力因此還可以接受。

表4- 12 y3 的羅吉斯迴歸模型表

variable Beta S.E Wald df Sig. Exp(B)

prefer_2(1)

19.804 14708.233 0.000 1 0.999 398878517.685

playoreat_1(1)

1.495 0.649 5.311 1 0.021 4.459

playoreat_2(1)

1.465 0.777 3.557 1 0.059 4.328

satisfy_4(1)

-22.136 40192.933 0.000 1 1.000 0.000

根據表 4-12 的數據顯示,我們可以對於選擇飛簷走壁景點的族群特性,以 下將用有顯著變數(Sig.一行的 p-value<0.05)的勝算比做一個歸納:

(一) 旅行時重吃的族群:

OR=4.459 > 1,這說明旅行時重吃的族群選擇飛簷走壁景點的勝算,比旅行 時吃玩並重的族群約多出 4.459 倍。

表4- 13 Omnibus Tests of y4 Model Coefficients

由表 4-13 可以觀察到 forwards 與 backwards 模型的顯著性(Sig.)p 值<0.05,

拒絕虛無假說。有足夠證據顯示此 y4 的 forwards 與 backwards 選擇的羅吉斯迴 歸模型是顯著的,具有預測能力。以下將以這兩個模型來進行進階比較。

Omnibus Tests of Model Coefficients (y4)

Step Chi-square df Sig.

enter 30.726 29 0.378

forwards 12.188 2 0.002

backwards 17.852 5 0.003

Square,backwards 模型之應變量可以被解釋的變異相較於 forwards 模型之下較 好,但是當 backwards 模型做預測能力的效果評估後反而因加入自變數而降低其 預測能力,因此這裡我們改成使用次好的 forwards 模型,其應變數可以被解釋的 變異則落在 7.6% ~ 10.9%之間。

表4- 15 Classification Table of y4

Classification Table (y4)

Observed Predicted

y4 Percentage

Correct

0 1

Step 0 y4 0 109 0 100

1 45 0 0

Overall Percentage 70.8

Step 22 y4 0 109 0 100

1 45 0 0

Overall Percentage 70.8

再來我們根據 forwards 的模型進一步探討預測效果,根據表 4-15 顯示,在 不考慮自變數,假設所有觀察沒有選擇名為「小當家」旅行景點(如烹飪教室活動 等)的人,模型能夠將在納入模型能夠將 70.8%的觀測正確分類。當納入自變數 後,模型能夠維持一樣的正確分類能力,雖沒有提升模型的預測能力,但沒有降 低其預測能力因此還可以接受。

Model Summary of y4 Step -2 Log likelihood Cox & Snell

backwards 168.216(a) 0.109 0.156

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表4- 16 y4 的羅吉斯迴歸模型表

variable Beta S.E Wald df Sig. Exp(B)

sex_M(1)

1.022 .412 6.157 1 0.013 2.779

playoreat_2(1)

1.275 .650 3.850 1 0.050 3.580

Constant

-2.684 .689 15.194 1 0.000 0.068

根據表 4-16 的數據顯示,我們可以對於選擇名為小當家旅行景點的族群特 性,以下將分別用不同變數的勝算比做一個歸納:

(一) 男性族群:

OR=2.779 > 1,這說明男性選擇小當家景點的勝算,比女性約多出 2.779 倍。

表4- 17 Omnibus Tests of y5 Model Coefficients

由表 4-17 可以觀察到 forwards 與 backwards 模型的顯著性(Sig.) p 值<0.05,

拒絕虛無假說。有足夠證據顯示此 y5 的 forwards 與 backwards 選擇的羅吉斯迴 歸模型是顯著的,具有預測能力。以下將以這兩個模型來進行進階比較。

O mn i b u s T es ts of M o d el C o ef f i c i en ts ( y 5 ) S t ep C h i - sq u a r e d f S i g . e n t e r 4 1 .1 3 9 2 9 0 . 06 7

f o rw a rd s 2 3 .9 8 4 0

b a ck w a r d s 3 1 .5 6 7 7 0

Square,backwards 模型之應變量可以被解釋的變異比例在 18.5% ~ 24.8%之間,

雖然解釋能力沒有很好,但為兩種模型之中解釋能力較高者,因此 backwards 模 型是相較之下較好的選擇。

表4- 19 Classification Table of y5

Classification Table (y5)

Observed Predicted

y5 Percentage

Correct

0 1

Step 0 y5 0 84 0 100

1 70 0 0

Overall Percentage 54.5

Step 23 y5 0 63 21 75

1 25 45 64.3

Overall Percentage 70.1

再來我們根據 backwards 的模型進一步探討預測效果,根據表 4-19 顯示,在 不考慮自變數,假設所有觀察沒有選擇名為「越夜越美麗」旅行景點(如夜景或酒 吧等地)的人,模型能夠將在納入模型能夠將 54.5%的觀測正確分類。當納入自變

再來我們根據 backwards 的模型進一步探討預測效果,根據表 4-19 顯示,在 不考慮自變數,假設所有觀察沒有選擇名為「越夜越美麗」旅行景點(如夜景或酒 吧等地)的人,模型能夠將在納入模型能夠將 54.5%的觀測正確分類。當納入自變

相關文件