1.1 研究動機與背景
在網際網路技術的高速發展之下,使用者可以在各種社群網站(social network site)、論壇(forum)或是部落格(blog)上發表自己的意見和看法。其中使用者在電 子商務網站(e-commerce)或是評論網站所留下來的大量服務或是產品的評論
(review)除了是服務商提昇服務品質的有利資訊外,更是其他使用者在消費時的 重要參考依據。然而,隨著行動網路和電子商務的快速發展,大量的評論資訊已 經讓使用者無法輕易的辨別評論資訊的真實性和可靠性。
因此,若能夠將資訊結構化整理,將可以更方便讓使用者閱讀和理解(Angeliki Lazaridou, 2013)。過去有許多的研究對於減輕使用者的資訊負荷和進行資訊篩選 方面做出努力,因而發展出資訊擷取(information extraction)、資訊統整(information summarization)、情感分析(sentiment analysis)、意見探勘 (opinion mining)等 領域的研究議題。
然而在這些服務或產品評論當中,往往使用者只留下對於產品或服務的整體 評論分數(overall rating),而沒有針對服務或產品的各主題面向(topical aspect)
做分數的評比或是揭露使用者對於產品或服務的某一種主題面向所在乎的權重
(weight)。一般而言,若只有提供整體評論分數將對於使用者在決策上幫助有所 限制,例如:圖 1.1.1 為旅館評論範例,雖然兩份評論的總體評分皆為 4.8,但從 評論字詞中我們可以推測得知ID:1358586****的評論者比較喜歡旅館的設備,而 ID:1391071****的評論者比較喜歡旅館的衛生和服務。由於每個人的偏好不同,
的問題與挑戰,而這樣藉由分析文檔的主題面向(topical aspect)和其權重(weight)
的問題稱為潛藏面向評分分析(Latent Aspect Rating Analysis,簡稱:LARA)(Wang, 2010)。因此若能在分析評論同時提供使用者各主題面向的評論分數和對於主題面 向的權重的話,將可以更精確的分析應用並推薦使用者適合的資訊。
過去已有相關研究針對LARA 問題提出相關的模型方法(Wang & Lu & Zhai, 2010;Ma & Qu, 2012),但對於模型更進一步的應用以及中文評論的分析尚不全 面。本研究使用全球(TripAdviser)和華文(攜程網)最大的旅遊評論網站為資料 集,主要目標希望運用Local LDA 加上潛藏評分迴歸模型 LRR 兩階段研究方法來
分析網路上的旅遊評論資料(含評論文件和整體評分)。本研究將評論文件中的句
子(sentences)視為文件(document)並使用標準 LDA 進行面向(aspect)的抽取 以及取出每個句子的主題面向的機率分配,可達到非監督學習(unsupervised learning)的效果,提高模型的可通用性。於取出主題面向(topical aspect)和相關 統計資料後,使用LRR 進一步分析,推導出文檔的主題面向分數及其權重。總言 之,希望透過本研究分析中文評論所遇到的 LARA 問題,進而對於此相關研究議 題提供貢獻。
圖 1.1.1 旅館評論樣本參考(http://www.ctrip.com/)
1.2 研究目的
基於上述研究背景與動機,本研究希望透過Local LDA 和 LRR 兩階段模型方 法來分析網路上的中文旅遊評論資料,進而分析評論者對於評論實體(Entity)所 給予的主題面向評分和權重。綜合上述,本研究希望能達成以下目的:
1. 整理過去於這個領域所提出的研究和文獻,讓之後的研究者可以參考。
2. 應用 LARA 分析於中文旅遊評論,進而分析使用者評論的主題面向評分和評分 權重。
1.3 研究架構
本研究架構可分為六個部分,如下所述:
1. 研究背景與動機及範圍定義:確認研究動機及目標並確認研究的範圍。
2. 文獻回顧與探討:根據研究範圍蒐集 LARA 相關的文獻進行整理,分析各研究 的優點和不足之處並了解相關研究方法的使用。
3. 問題定義:具體定義出本研究欲研究之問題並解釋所使用的符號和名詞定義。
4. 資料處理與系統設計:進行資料的前處理並參酌文獻定義本研究使用的 Local LDA 和 LRR 兩階段研究模型。
5. 實驗結果:定義使用的資料集並描述資料前處理之步驟和實作模型的過程,進 而分析實驗結果。
6. 結論與建議:根據本研究的實驗結果和過程確認本研究的貢獻,並提供未來研 究的可能方向和建議給予未來研究者參考。