第三章 研究設計與方法
第一節 資料蒐集與下載
2 0 1 3 D r . T u n g C h u n g T s a i
第一節 資料蒐集與下載
一、小琉球旅遊景氣
使用的資料來源是大鵬溫國家風景管理區所提供的小琉球風氣景區每月的 遊客數,並將其資料轉換成以時間軸曲線呈現,圖。小琉球風氣景區每月的遊客 數來自於大鵬灣國家風景區行政資訊網,包含了2009年1月至2013年6月,共計51 筆月資料,研究者回求其研究方便使用,將其整理成17筆季資料(圖3-2)。
2009/Q1 2009/Q2 2009/Q3 2009/Q4 2010/Q1 2010/Q2 2010/Q3 2010/Q4 2011/Q1 2011/Q2 2011/Q3 2011/Q4 2012/Q1 2012/Q2 2012/Q3 2012/Q4 2013/Q1 2013/Q2
遊客數 40,642 58,113 54,441 37,778 46,019 76,356 91,107 50,750 34,459 73,555 114,119 73,171 56,201 94,194 140,287 72,082 56,640 111,462
圖3-2、小琉球風景區遊客人數統計圖
二、Google Trends
Google trends 是由 google 所提供的一個資訊搜索平台,全球網路使用者可 以透過這個平台來了解網路使用者運用 Google 搜尋引擎狀況,輸入一個關鍵 詞,用戶透過自己設定的內容、標的、數量、時間、城市、國家與”使用語言了 解這個關鍵詞,在這段時間裡被搜索的次數,亦即此關鍵詞在網路的熱門度,如 下圖 3-3:
© 2 0 1 3 D r . T u n g C h u n g T s a
i 圖 3-3 Google trends 搜索示意圖
由於網路的使用發達,網路搜索熱門度變成了全世界產品市場相當重視的這 一塊,相關學者也不斷地投入研究以及試驗,Frijters(2013)就利用 google 搜 索探討宏觀經濟發展與酗酒情形的關聯、Smith(2012)也成利用 google 搜索的 活動以及波動來預測外匯的走向, 因此我將 Google trends 當作是本研究實驗 的變數,下圖 4 示利用 googles trends 搜索關鍵詞”小琉球”所得到的數據。
圖 3-4 Google trends 關鍵字小琉球數據圖
© 2 0 1 3 D r . T u n g C h u n g T s a i
三、經濟指標
經濟的成長與旅遊的發展是息息相關的,Stefan (2010) 在他的研究中指出 旅遊已被認為可透過不同的管道對經濟有長遠且正向的影響。而這方面對於台灣 與遊與經濟之間的相關研究也層出不窮,如 Kim et al. (2006) 也在研究中說 明台灣的經濟成長與旅遊人潮的成長存在著因果關係。
根據中華民國 102 年國人旅遊狀況調查顯示年國人國內旅遊次數計 1 億 4,262 萬旅次,較 101 年成長 0.4%,而每人每日旅遊平均費用為新臺幣 1,298 元(美金 43.66 元)每人每次旅遊平均費用新臺幣 1,908 元(美金 64.17 元),而整 年度國內觀光旅遊總費用高達新臺幣 2,721 億元(美金 91.51 億元),而出國旅遊 消費總支出更是高達 5,387 億元,可見,觀光旅遊活動對於國家整體經濟的影響 力。
觀光有助於經濟發展,而經濟發展更是可以來帶動觀光旅遊景氣, 本研究於行 政院主計處的 PC-AXIS 總體統計資料庫取得經濟指標,而本研究將其季均指標整 理為月指標,以 2009 年上半年為例,整理成資料庫如表 3-1
表 3-1 經濟指標資料庫表
期間 失業率(%) 國內生產毛 額(百萬元)
實質 GDP 成 長率(%)
消費者物價指
數 股價指數
Jan-09 5.31 2,997,919 - 8.12 97.62 4 475.14 Feb-09 5.75 2,997,919 - 8.12 96.13 4 476.87 Mar-09 5.81 2,997,919 - 8.12 96.24 4 925.88 Apr-09 5.76 2,986,363 - 6.58 96.97 5 724.36 May-09 5.82 2,986,363 - 6.58 97.38 6 586.30 Jun-09 5.94 2,986,363 - 6.58 97.29 6 495.99 資料來源:研究者整理
© 2 0 1 3 D r . T u n g C h u n g T s a i
第二節 網路情緒分數之萃取
一、 資料來源與範圍
本研究資料樣本皆取自於網路的旅遊分享部落格,如:yam天空部落格、奇摩 部落格、無名小站、痞客幫等各大部落所分享之有關小琉球旅遊網誌。以部落格 使用者之旅遊經驗分享為主, 所選擇之部落格皆是,台灣存在歷史悠久,資料 量大、分類詳細、以及文章討論豐富之網站。再利用Crawler網路擷取技術工具,
針對各大部落格所對小琉球旅遊經驗發表討論的網誌內容,執行資料抓取工作。
本研究蒐集了2009年1月至2013年12月的有效網誌,共3452篇。
二、 文本處理
(一)斷詞本研究文本的斷詞處理是使用中研院詞庫小組(CKIP)所發展的線上斷詞系 統,常態來說,中文文本必須經過「斷詞」的這個程序步驟,以利於研究者識別 每段文字所呈現的詞義。在此同時,研究會利用中研院平衡語料庫詞類標記集請 參閱附錄 A,來標示斷詞的詞類。斷詞結果的範例(表 3-2)
表 3-2 斷詞前後範例表 斷詞處理前:
整體而言,小琉球的硬體建設登船的碼頭、環島公路、各景點的標示與規劃都 挺不錯,加上民宿業者的貼心安排,整個行程非常的方便和精采
斷詞處理後
整體(Na) 而(Cbb) 言(VE) ,(COMMACATEGORY) 小琉球(Nc) 的(DE) 硬 體(Na) 建設(Na) 登船(VA) 的(DE) 碼頭(Nc) 、(PAUSECATEGORY) 環 島(VA) 公路(Na) 、(PAUSECATEGORY) 各(Nes) 景點(Na) 的(DE) 標示 (Na) 與(Caa) 規劃(Na) 都(D) 挺(Dfa) 不錯(VH) ,(COMMACATEGORY) 加上(Cbb) 民宿(Nc) 業者(Na) 的(DE) 貼心(VH) 安排(VE) ,
(COMMACATEGORY)整個(Neqa) 行程(Na) 非常(Dfa) 的(DE) 方便(VH) 和(Caa) 精采(VH)
© 2 0 1 3 D r . T u n g C h u n g T s a i
(二)字詞過濾
在利用文本資料進行特徵詞擷取之前,必須剃除一些無研究意義的斷詞,如:
對等連接詞、介詞、語助詞、數量副詞、標點符號等,此外一些非必要的單一字、
特殊符號以及非研究範圍內的詞性,都也必須一併排除,如此本研究才不會被這 些無意義之斷詞影響研究結果。
三、特徵詞篩選
首先經過斷詞步驟之後,藉由詞頻的計算,本研究先保留詞頻值較高的特徵 詞,接著研究者本身再對這些特徵詞進行第一步篩選,將篩選出來的特徵詞彙整 列表:
表 3-3、高詞頻之特徵詞 經選取之特徵詞:
美味,讚,棒,滿意,有趣,好玩,快樂,幸福,貼心,舒服,開心,加分,
爽,乾淨,遺憾,溫暖,倒楣,大推,扣分,難吃,爛,糟,失望,無聊,不 爽,髒,不推,難過,扣分,冷淡,誇張。
之後,在請託熟知小琉球旅遊相關業者,生態專家以及琉球鄉公所觀光科科 員,共同對特徵詞進行第二階段的挑選,最後研究者將經過兩度篩選後的特徵 詞,利用部落客分享的旅遊網誌進行搜索比對,確認經篩選之後的特徵詞能有效 的表達小琉球之旅遊景氣意見,研究者便將其保留。透過此特徵詞篩選的步驟,
來保留對於小琉球旅遊景氣能有效表達的特徵詞,也希望藉由此篩選動作,我們 可以將精選出來的特徵詞,使每份文本可以有共通的特徵屬性,進而確保研究結 果的一致性。相關蒐尋過濾的例子如下:
■ 喔對了我們租到車時油是加滿的!!很貼心
■ 這段旅行特別的是,我們排了三天兩夜的假期,說起來也受了不少白眼:小琉
© 2 0 1 3 D r . T u n g C h u n g T s a i
■ 以民宿來說我覺得夠乾淨浪漫,又有乾淨又美味的 BBQ 食材
■ 這是我自己還滿喜歡的一個地方,厚石漁澳。覺得它的地形獨特,風景 也美麗的很特別
■ 白燈塔~剛好遇到有對新人在這拍完照,準備離開.不過,這裡有點無聊,就 只有這樣喔
■小琉球必定造訪的烏鬼洞 6 號攤,馬上列入回訪名單之中,最難忘懷就是大杯 滿意的芒果冰了
表 3-4、經選取之特徵詞 經選取之特徵詞:
美味,讚,棒,滿意,好玩,貼心,舒服,開心,加分,爽,乾淨,大推,扣 分,難吃,爛,糟,失望,無聊,不爽,髒,不推
*資料來源 研究者整理
四、文件屬性定義
陳少棠(2012)如果詞彙庫中包含了Nt 個詞彙,同時假設每個詞彙被視為向 量空間的一個維度,那麼,詞彙庫的屬性則可以使用一個Nt 次元的立方體來表 示。每篇文章則可被視為在此空間的一個向量m( m j RNt ),向量中的元素為一 個實數的集合,維度取決於有多少的詞出現在詞彙庫中。假設詞彙庫取用120 個 詞,則每篇文章可以被描述為一個120 個維度的空間向量。基於上述所言,我們 將經過篩選之後的特徵詞作為資料蒐集的詞彙庫,並給予正、負分的屬性,最後 根據特徵詞在部落格文章之中的出現次數,依照個別的特徵詞屬性給予正、負分 的評定,因此在一篇文章當中,正、負向的情緒語詞可能會不定量出現。以下表 3-4,為文件之屬性定義值的範例。
© 2 0 1 3 D r . T u n g C h u n g T s a i
表3-5、文件特徵詞屬性表
五、文章情緒計算
(一) 單篇文章之情緒分數的計算
Oelke et al.(2009)的一篇有關於客戶回饋意見分析的文章,在這篇文章中 他先定義了所謂意見信息字(Opinion signal word,包括像"great"、"need"、
"like"等字),其性質就像本文中經過研究以及專家所篩選出來的關鍵詞,而在 該篇文章中他將定義出來的意見信息字依照其屬性字(Attribute)的距離,分別 給予 0, 0.5, 1 不等的分數,並且將意見信息字分成正、負屬性,而個別呈上 +1-1 的極性值。最終他將所有意見的正、負分加總而成為其客戶回饋意見的分 數,即所謂的意見分數(Opinion score)。而陳少棠(2012)在討論有關房地產景 氣的文章,也將其需情緒區分為為"看好"、 "持平"、"看壞"。本文參考後者的 方式,將取自網路部落格中的某篇文章所表現之情緒區分為"好感"、 "普通"、"
反感"的劃分,並以情緒分數 +1、0、-1 表示。並參考後者之針對情緒分數所做 出以下定義:
© 2 0 1 3 D r . T u n g C h u n g T s a i
(二) 一段期間情緒分數之計算
本研究除了計算單篇文章分數以外,更以月、季等時間軸來計算月情緒總分以及 季情緒總分。其計算方式先根據 Chen(2010) 依據新聞與討論區意見與股票之間 的關係,所建構出來的情緒測量方式:。將相關文本的情緒區分為買(Buy)、賣 (Sell)和持有(Hold),就如同本研究中將情緒詞分成好感、無感跟反感一樣,近 而使用這種文件區分關係,定義了他在研究中設定的異義指標(Disagreement index),公式如下:
BUYS 即其一段時間內(天、月、季)被歸納成為買進意見的文章數總和,
SELLS 即其一段時間內(天、月、季)被歸納成為賣出意見的文章數總和。依照此 公式、將一段時間內所有買進或賣出的文章數的總和,便可以這一段時間內所代 表的買或賣的意見分數,也就是他所定義的異議指標。那根據上述概念,本研究 參考陳少棠(2011),將一段時間之情緒總分,做出的定義如下:
J
s(d j ) 為該期間某份文件 d j 之情緒分數,經過加總,即為該段期間之情緒總分。
並依據一段時間情緒總分定義,做出下圖以月作為時間單位的情緒分數統計表格
© 2 0 1 3 D r . T u n g C h u n g T s a i
圖 3-5、情緒分數(季)統計圖 (三) 平移(shift)
本研究為了利用過去已發生月份之網路情緒分數,來預測小琉球遊客量之效果 的目的產生,因此會先將原始資料庫中的資料進行平移,而藉由不同的平移時間,
進而產生不同的研究結果,讓我們可以了解不同時點所產生的資料,對於遊客量的 影響,及方法如圖 3-4 所示;
Shift1 :將原始資料往前平移一個月份,2012 年 6 月會 shift 成 2012 年 5 月 Shift2 :將原始資料往前平移一個月份,2012 年 6 月會 shift 成 2012 年 4 月 Shift3 :將原始資料往前平移一個月份,2012 年 6 月會 shift 成 2012 年 3 月 Shift1~3:將原始資料以季為單位,往前平移 。
圖3-6平移 (Shift) 月份之範例圖 資料來源:邱昭彰等(2014)
2009/Q1 2009/Q2 2009/Q3 2009/Q4 2010/Q1 2010/Q2 2010/Q3 2010/Q4 2011/Q1 2011/Q2 2011/Q3 2011/Q4 2012/Q1 2012/Q2 2012/Q3 2012/Q4 2013/Q1 2013/Q2 情緒
分數 127 325 426 276 204 555 704 370 297 685 848 516 358 609 656 548 371 1,042
© 2 0 1 3 D r . T u n g C h u n g T s a i
第三節 模型建立與評量方式
一、 預測模型建立
(一)變數設定
本研究以月為單位來進行估算,並考量網路口碑情緒分數、經濟指標與 Googles trends 網路熱門搜索度影響小琉球當季旅遊人數之因素,將設定 7 個 輸出變數分別為情緒分數、Googles trends 熱門搜索度、失業率、國內生產毛
本研究以月為單位來進行估算,並考量網路口碑情緒分數、經濟指標與 Googles trends 網路熱門搜索度影響小琉球當季旅遊人數之因素,將設定 7 個 輸出變數分別為情緒分數、Googles trends 熱門搜索度、失業率、國內生產毛