第三章 研究設計
第二節 資料蒐集與處理
2 0 1 3 D r . T u n g C h u n g T s a i
第二節 資料蒐集與處理
為收集網路口碑情緒資料,本研究利用Google搜尋輸入關鍵字蒐集與墾丁相 關的網誌,並在Google搜尋時間設定選項中,選擇以年為單位呈現搜尋結果,以 便資料分類。透過Crawler工具抓取特定網頁之討論內容,收集2009年1月至2013 年12月止所有公開討論文章,共11,745篇。由於並非所有的網頁內容皆為所需資 訊(如:廣告、圖片、…)。因此還須針對該討論Google的HTML網頁格式撰寫程 式,以將所需之內容從網頁原始碼中分離出來。將所得之純文字資訊存入資料庫 以做下一階段的特徵詞處理。
一、Google Trends搜尋熱門度
根據創市際公司在2010年的調查,Google搜尋的頁數已超越所有其他的搜尋 網站,同時也成為台灣網友停留時間最長的搜尋引擎。本研究透過Google Trends 取得"墾丁"在2009年至2013年的關鍵字搜尋熱度,詳見圖3-2-1。
圖3-2-1 Google Trends關鍵字熱門度 資料來源:Google Trends網站擷取
由於從Google Trends取得的是關鍵字每週熱門度,因此須將週資料轉換成月 資料,統計出以"墾丁"為關鍵字的每月搜尋熱門度次數,以利後續資料處理分 析。下表3-2-1為墾丁國家公園,2013年1月到12月的搜尋熱門度,
© 2 0 1 3 D r . T u n g C h u n g T s a i
表 3-2-1 Google Trends 網路搜尋熱門度次數
日期 Jan-13 Feb-13 Mar-13 Apr-13 May-13 Jun-13 搜尋次數 131 139 205 274 277 377
日期 Jul-13 Aug-13 Sep-13 Oct-13 Nov-13 Dec-13 搜尋次數 350 288 202 162 172 202
資料來源:本研究整理
二、網路口碑與情緒分數轉換處理
(一)特徵詞
此步驟是透過對墾丁國家公園遊客旅遊經驗相關之情緒特徵詞的篩選,作 為每份文件共同的特徵屬性。前一階段保留的字詞經過詞頻的計算後,保留詞 頻值較高的特徵詞;
表 3-2-2 高詞頻之特徵詞 經選取之特徵詞:
美味,讚,棒,滿意,有趣,好玩,快樂,幸福,貼心,舒服,開心,加分,
爽,乾淨,遺憾,溫暖,倒楣,大推,扣分,難吃,爛,糟,失望,無聊,不 爽,髒,不推,難過,扣分,冷淡,誇張。
資料來源:本研究整理
接著研究者對特徵詞進行挑選,本研究將篩選後之特徵詞,請教墾丁地區旅 遊相關業者及生態專家對特徵詞進行挑選。被選取的特徵詞,經過在討論區中之 文件搜尋比對,確定該特徵詞於絕大部份的文件,均能識別為對當次旅遊經驗表 達想法,則將該詞保留。蒐集到的資料會透過中文斷詞處理等方式作為特徵詞群 組,並經由過濾篩選後成為具有代表性的情緒特徵詞。透過此特徵詞篩選的步 驟,保留對墾丁旅遊景氣能有效表達的特徵詞,希望藉由此篩選動作,我們可以 將精選出來的特徵詞,使每份文本可以有共通的特徵屬性,進而確保研究結果的 一致性。相關蒐尋過濾的例子如下:
■沙灘旁剛好有位遊客在嘔吐.整條路上有點髒亂。
© 2 0 1 3 D r . T u n g C h u n g T s a i
■船帆石是我自己最喜歡的一個地方。它的地形獨特,風景相當特別,大推!
■這次住的民宿我覺得既貼心又浪漫,還有美味的 BBQ 食材。
■墾丁兩天一夜都嫌無聊,你們去三天兩夜實在令人佩服。
■墾丁必訪的墾丁大街,大碗滿意的青蛙下蛋一定要嘗試一下。
表 3-2-3 選取後特徵詞 選取後特徵詞:
美味,讚,棒,滿意,好玩,貼心,舒服,開心,加分,爽,乾淨,大推,扣 分,難吃,爛,糟,失望,無聊,不爽,髒,不推
資料來源:研究者整理 (二)情緒分數
Oelke et al.(2009)在一篇討論客戶回饋意見分析的文章中,定義所謂意見信 息字(Opinion signal word,包括像"great"、"need"、"like"等字),該字詞依與產品 特定之屬性字(Attribute)的距離,分別給予不同的分數,並依意見字的正、負屬 性,分別乘上 +1, -1 的極性值(Polarity)。而單篇文章的意見分數(Opinion score) 即為上述所有正、負意見分數之總合。基於這樣的方式,並根據旅遊滿意度相關 文獻探討中,本研究歸納出墾丁國家公園旅遊網路口碑情緒之構面,包括「價 格」、「餐飲」、「人文資源」、「環境設施」、「服務」、「交通」、「整體 滿意度」等七大構面。本研究設計了一套單篇文件的情緒分數計算方法。自部落 格取得之某份文件,將所表現之情緒區分為"正面經驗"、"負面經驗",並以情緒 分數 +1、-1 表示。以上述七大構面為衡量依據,搜尋網路部落格中之墾丁國家 公園相關文章,判斷其文章傳達正面或負面之看法。若為正面之看法即給予+1 分 數;負面之看法則給予-1 分數,依此類推,計算每段期間各構面之總分,用以 表示情緒分數,並將其格式化為網路口碑資料庫,見表3-2-4。
表3-2-4 網路口碑情緒指標資料庫
©
© 2 0 1 3 D r . T u n g C h u n g T s a i
圖 3-2-2 平移月份之範例
資料來源:徐嘉鴻、林榆青、彭國彥(2013)
三、經濟指標
根據第二章文獻探討,本研究從行政院主計處的PC-AXIS總體資料庫取得研 究所需之經濟指標數據,包括:MIB貨幣供給額、失業率、國內生產毛額、消費 者物價指數、股價指數等五項經濟指標以進行預測。其中部分資料之統計時間係 以季均值顯示,因此須將季資料轉換成月資料,以利後續資料處理分析。以2013 年1月至12月資料為例,詳見表3-2-1所示。
表3-2-3 遊客量、網路搜尋熱門度與經濟指標資料庫 期間 MIB
貨幣供給額 失業率(%) 國內生產 毛額
消費者物價
指數(%) 股價指數 Jan-13 12,407,945 4.16 3,531,731 102.41 7759.25 Feb-13 12,634,244 4.24 3,531,731 102.90 7932.68 Mar-13 12,595,646 4.17 3,531,731 101.42 7906.99 Apr-13 12,556,675 4.07 3,540,563 102.05 7893.42 May-13 12,681,028 4.06 3,540,563 102.24 8272.34 Jun-13 12,709,184 4.14 3,540,563 102.75 7988.80 Jul-13 12,822,892 4.25 3,679,037 102.59 8101.91 Aug-13 12,988,059 4.33 3,679,037 102.72 7932.02 Sep-13 13,036,629 4.24 3,679,037 104.06 8193.46 Oct-13 13,014,770 4.24 3,812,911 103.78 8366.18 (續下頁)
© 2 0 1 3 D r . T u n g C h u n g T s a i
期間 MIB
貨幣供給額 失業率(%) 國內生產 毛額
消費者物價
指數(%) 股價指數 Nov-13 13,068,044 4.16 3,812,911 103.03 8236.52 Dec-13 13,274,088 4.08 3,812,911 102.94 8431.40 資料來源:本研究整理
四、遊客量統計
利用墾丁國家公園管理處的政府資訊公開之統計資料,蒐集自2009年1月至 2013年12月止,共計60筆月資料,其人數統計乃是以由據點分別統計遊客人數,
以2013年資料為例,見表所示。
為了避免所有輸入變數彼此間的值域差距過大,而間接影響遊客量預測效 果,所以將所有輸入變數進行資料正規化 (Normalized),使得各個輸入變數的值 域一致,本研究採取的正規化為極值正規化,其計算公式如下:
Normalized_value =