自從蘋果的 iPhone 手機打開智慧型手機的市場,並隨著 Google 發展 Android 與手機廠商合作大舉發展行動裝置後,智慧型手機的市場便日漸蓬勃。全球有越 來越多的手機使用者拋棄傳統的功能性手機,轉而使用具有上網、定位、應用程 式等功能的智慧型手機,連台灣也不例外。
從 Google 與公證第三方民調組織 Ipsos,針對多國行動設備使用者的使用行 為調查「Our Mobile Planet」的數據中,可以看到於針對亞洲十個國家中(中國、
台灣、新加坡、日本、泰國、菲律賓、 越南、韓國、香港、馬來西亞),台灣國
並有 86%的使用者會用於和他人溝通。(Ipsos MediaCT, 2013)
圖 一: 台灣智慧型手機普及率(Ipsos MediaCT, 2013)
2011 2012 2013
%
‧
Google Play 以 47.3%的比例高於 App Store 的 34.1%。而國人使用應用程式的類 型與國外的調查相近,大部份智慧型手機使用者所使用的手機 App 為遊戲、即 時通訊/傳訊息服務與社交互動類別(資策會,2012)。另一份由專注行動裝置的行動廣告公司 Vpon 針對台灣國人最常使用的 Android 和 iOS 平台所作的調查報告顯示,由於行動市場發展快速,裝置普及化 提升的原因,2013 年的行動流量不斷持續的成長,從第一季到第四季達到 267%
的成長率(Vpon, 2013)。2012 年和 2013 年國人所使用的智慧型手機作業系統 Android 都以約 60%的比率領先 iOS,最常使用的 App 類別流量來源皆為娛樂、
影音和社群,佔了所有 App 類別比重超過 60%。特別是社交類別於 2013 年的統 計超過娛樂類別,佔了 26%的比重(Vpon, 2012;Vpon, 2013)。
為瞭解消費者使用智慧型手機的狀況,創市際 ARO 與美國行動流量監控先 驅 Arbitiron 合作進行一項調查來偵測使用者的行為,其中到達率最高的手機應 用程式 App 為 LINE 和 Facebook。在月到達率前十名之 App 中,包含了四項屬 於訊息傳遞類別的 App,包含 LINE、WhatsApp、Facebook 即時通和 WeChat,
顯示使用者對於訊息傳遞功能的重視。資策會 FIND 於 2014 年首度進行大規模 跨通路的行動 APP 使用者行為調查,在 17 類 APP 中由社交聊天類拔得頭籌,
在前十名中亦包含了 LINE、Facebook 即時通、WhatsApp 和 WeChat(圖二)。
排序 App名稱 使用率% IOS% Android%
1 LINE 66.6 64.1 77.0
2 Facebook 48.5 47.5 58.7
3 台灣蘋果日報 35.6 45.1 58.5
4 Facebook手機即時通 35.3 36.2 41.5
5 Youtube 32.1 32.1 36.2
6 WhatsApp 27.6 24.3 41.6
7 Candy Crush Saga 26.9 23.2 27.8
8 Line camera 25.5 25.4 35.1
9 手電筒 23.4 26.9 29.2
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
2、 研究動機
從不同的研究報告中可以看到,台灣國人使用智慧型手機的普及率逐漸提高,
其中通訊與社群類別是智慧型手機使用者最常使用的手機應用程式類型。
針對 App 的下載量的研究顯示,線上手機應用程式市集內的 App 價格與下 載量兩者之不具有相關性,但是 App 的下載量卻和使用者的評價(Rating)有相關 (Harman, et al., 2012)。在針對 App 於 iOS 和 Android 兩大智慧型手機 App 市集 的排序中,下載量和手機的評價(Rating)與評論(Review)對 App 在市集裡面的排 序有大很的影響(Liu and Sun, 2013)。從這裡可以發現手機的評價會影響到手機應 用程式的下載量,更會直接影響 App 在市集吸引到的眼球數與使用量。
透過即時的情感分析與議題偵測型等工具和技術,可以提供企業進一步的瞭 解顧向對於其產生或是服務的需求,並在顧客抱怨形成危機前作即時反應(Fan and Gordon, 2014)。從手機 App 的線上評論中,可看到不同使用者的反應與想 法,從使用者滿意與不滿意的評論,開發者即可瞭解使用者給予的建議,並將 App 所不足或是瑕疵作補足與修正。因此,瞭解線上評論對於 App 開發者來說,
不止可以掌握使用者的反饋,更能透過評論找到未來改善 App 的方向。
本研究希冀能透過分析 Google Play 中的 App 評論,讓開發者能掌握目前使 用者所發表的評論內容。為此,本研究提出一套可以分析 App 線上評論之情感 分析方法,並利用 Google Play 內通訊類別中,四款國人最常使用的手機
App(LINE、Facebook Messenger、WeChat、WhatsApp)之線上評論為分析資料。
透過線上評論資料,並針對評論中所提及的正反面觀點,建立一個整合性的 分析方法。再經實證其效果後,進一步擴展到不同類型的 App,提供手機開發 者一個有效的線上評論之偵測與分析方法。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
3、 研究目的
情感分析(Sentiment Analysis)又稱為意見探勘(Opinion Mining),主要在研究 人對於商品、服務或是事件等對象,所發表的評論、意見、情感或是態度。在情 感分析領域中,最初被用於預測使用者評論的正面與負面之情感傾向(Sentiment Orientation),目前也被廣泛應用在不同的資料來源,例如網站的線上評論,並用 來幫助企業找到產品的優缺點,進一步產生商業智慧(Zhang et al., 2012)。
有些研究則會針對使用者評論中,對於商品(相機)中不同特性或是議題(畫素) 的好或不好來進行整合性分析(Liu, 2012; Pang and Lee, 2008)。在 Web 2.0 和線上 社群服務的蓬勃發展下,已有許多針對不同的線上評論類型的網站作情感分析研 究,例如:電影(IMDB)(Pang, etal., 2002)、商品(Yin and Peng, 2009)和旅館或是 社群網站(Zhou, et al., 2013)等。本研究則針對具有商品評論性質的 Android 線上 App 市集 Google Play 為研究對象。
情感分析研究中,常會使用分類(Classification)的技術來將文章或是評論分 成不同的類別,將類別設定為正面與負面可用來判斷文章的正反情緒傾向,而將 類別設定為不同的主題或是議題類別,可用來判斷文章的主題或主旨。
分類的技術主要可分為監督式學習(Supervised Learning)和非監督式學習 (Unsupervised Learning)。其中監督式的學習方法是將現有的評論標上有限的類別,
透過監督式的機器學習演算法(Machine Learning Algorithm),並使用訓練資料集 (Training Data)來建立分類模型(Classification Model),再透過測試資料集(Testing Data)驗證其分類效果。其中監督式學習的機器學習演算法有支援向量機(Support Vector Machine, SVM)、第 k 個最近的鄰居(k-Nearest Neighbors, kNN)、簡單貝氏 分類器(Naïve Bayes Classifier)、決策樹(Decision Tree)等方法。
在使用監督式學習方法中,需透過不同的量化方式來完成文件量化,其中將 存在文章的詞給予權重值 1,不存在於文章的詞給予權重值 0 的簡單詞袋模型
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
但是使用監督式學習方法仍有其限制,其中監督式學習方法所使用的訓練資 料集必須要有事前定義好的已知類別,因此使用監督式方法時,無法預期可能存 在的未知類別。因而在情感分析中,當要瞭解現今使用者對於產品大多討論的主 題內容時,若透過主觀的方式來設定所需要的議題或主題類別,將無法站在使用 者的觀點來瞭解到使用者最新的熱門討論趨勢。另外,監督式學習因為需要事前 定義好的已知類別,因此需進行耗費人力對文章進行實際類別標注的的人工類別 標注(Labelling)工作。
若先透過非督式學習的方法將文章資料標記其該所屬的類別,再使用監督式 學習的方法建立分類模型來分類文章資料,將可整合非監督式學習識別未知類別,
與偵測新的線上評論的熱門討論趨勢的優點。故本研究將針對以下三個主題進行 詳細的分析與探討:
( 1 ). 使用不同非監督式的方法,將 App 評論作兩種類別的標注,一個為標注其 所屬的正面或負面情感傾向,另一個為針對使用者所熱門討論的內容,將 評論標注其不同的關注議題。
( 2 ). 對現有已標記情感傾向和關注議題類別的 App 評論,使用不同的視覺化方 法,將評論作進一步的整理呈現,來觀察不同 App 在各個關注議題的正反 情感反應,並看到不同 App 的競爭狀況。
( 3 ). 使用已標記好類別的 App 評論來建立訓練資料集,再使用監督式學習演算 法建立分類模型,最後驗證分類成效。其中會針對情感傾向和關注議題兩 種類別來將 App 評論分類。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
4、 研究方法
針對本研究所提出的 App 線上評論分析方法,主要分成以下階段
圖 三:研究方法流程(本研究整理)
本研究由資料擷取(Data Extraction)開始,第一階段使用網路爬蟲程式(Web Crawler)於 Google Play 市集擷取所需分析之 App 線上評論(Online Review)。
在擷取實驗資料後經由評論文章前處理(Document Preprocessing)步驟例如:
文字斷詞(Segmentation/Tokenization)、詞性標注(Part-of-Speech Tagging)、負向詞 處理(Negation Process)、詞性過濾(POS Filtering)和停用詞過濾(Stop Word
Filtering)等處理程序來將評論作初步的結構化整理,並計算每個字詞的字詞頻率 來完成文件量化。
以中文詞彙網路為基礎的 情感傾向判斷方法
評論類別標注 資料擷取與文章前處理
以詞句關係並結合分群方法的 關注議題擷取方法
使用監督式方法建立情感分析模型 使用對應分析與趨勢分析圖呈現使
用者對於App之優缺點分析
實驗結果探討
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第二階段於評論類別標注中可分成兩個部份,第一個部份使用中文詞彙網路 (Chinese WordNet)建立包含正負面情感詞之情感詞集(Sentiment Lexicon),並用來 計算每篇評論的情感分數以判斷評論的情感傾向。第二個部份則使用議題詞 (Topic Term)會靠近情感詞的語句特性,透過擷取最靠近情感詞的名詞建立候選 議題詞(Candidate Topic Term)找出所有可能的熱門關注議題詞。再經由過濾低文 件頻率(Document Frequency, DF)的議題詞找出所有的熱門關注議題詞後,最後使 用分群方法來對議題詞分群並彙總成多個關注議題類別(Popular Topic Class)。
第三階段使用已標注情感傾向和關注議題之評論,使用對應分析
(Correspondence Analysis, CA)與不同的視覺化圖形來展現使用者評論對於 App 之優缺點分析,以呈現不同 App 的市場定位與討探各個 App 負面評論的原因。
第四階段先使用字詞頻率-逆向文件頻率(Term Frequency-inverse Document Frequency, TF-IDF)來表達每篇評論中不同字詞的特徵權重(Feature Weight),並建 立監督式學習所需要的向量空間模型(Vector Space Model)。再經由特徵詞選取 (Feature Selection)步驟來達成空間維度縮減(Dimension Reduction)與保留重要特 徵詞,以提供分類演算法最佳的向量特徵。最後使用監督式的機器學習演算法 SVM 來建立情感分類模型,並使用 10 折交叉驗證(10-Fold Cross Validation)與分 類驗證指標 Accuracy、Precision、Recall 和 F measure 來測試分類實驗的成效。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University