第二章 文獻回顧
2.1 面相萃取
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
19
第二章 文獻回顧
透過各種資料探勘技術,意見探勘將網站上大量非結構性文件,轉換為可供 分析的各項資訊,並從中粹取出有用的知識,以大幅縮短廠商整理消費者意見的 時間並提升面對變動市場的能力。近年來,在意見探勘領域,逐漸有研究探討如 何從消費者評論中找出商品的重要面相。現有偵測重要面相的方法通常包含了三 個部分:其中第一部分為「面相萃取」,取得非結構性資料中消費者主要探討的 面相;第二部分為「情緒分析」,了解消費者針對各面相的情緒極性;第三部分
「重要面相彙整」則整合前兩部分之資料,找出消費者較重視的面相。本章的內 容將詳細探討上述三個部分所使用的重要技術。
2.1 面相萃取
面相(Aspect 或 Feature)通常是指產品的特性、元件或功能 [Zhang et al., 2012]。例如數位相機包含鏡頭、變焦、閃光燈等面相。面相萃取 (Aspect Identification) 即是從使用者產生內容中自動萃取出經常被談論、關心的商品 面相。現有面相萃取的研究,依使用技術可分為使用規則(Rule-based)、使用模 型(Model-based),以及使用統計方法等三大類。Chen et al., (2012) 對於各 種面相萃取的方法進行了詳盡的介紹及比較。本節剩餘內容將分別介紹使用這三 類方法的現有研究。
Hu and Liu (2004) 首先針對一個商品的不同面相(Features)進行評論探勘 研究。此研究透過 NLProcessor Linguistic Parser 錯誤! 找不到參照來源。
進行斷句,並利用 POS(Part of Speech)之標籤辨別評論文字的詞性,以找出評
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
20
論中以名詞或名詞片語型態出現的商品面相。基於不同消費者在評論商品面相時,
使用的字詞通常會趨於一致之假設,該研究首先透過關連規則(Association Mining)找出容易一同出現的名詞或名詞片語 (Frequent Item Set)。再刪除當 中無意義或可被取代者,以留下評論中用來表示商品面相的字詞組合。
使用模型的面相萃取法藉由已標籤、註解的訓練資料及學習器訓練出各式語 言模型,並用此模型找出新目標商品的面相(Chen et al., 2012)。Feiguina 與 Lapalme (2007) 使用訓練資料及術語提取器(Terminology Extractor) 找出面 相經常出現在句子中的樣式。例如藉由樣式「the <aspect> is <adjective>」
可在句子「the speakerphone is great」中辨別出 speakerphone 為一個面相。
Feiguina 與 Lapalme (2007) 首先預備一組訓練文件及藉由人工從訓練文件 (Training Text)中所標誌的面相訓練項目(Training Term)。在將訓練文件轉換 成詞性序列(stream of part-of-speech tags)後,學習訓練項目最常出現的詞 性排列,以在新文件中找出可能的面相。
除了上述使用文件探勘的自動化技術,部分研究使用由專家針對各個面相所 列舉的關鍵字清單。然而,消費者在網路上撰寫評論時,會使用各種敘述方式表 達同一意涵之面相。以數位相機的攝影面相為例,在圖 3 中,廠商使用(Video) 來描述攝影的功能。但在圖 4 中,消費者則使用(Recording movie)來表達此一 面相。除此之外,評論中討論攝影面相的句子,並不見得會包含攝影或其同義字。
如圖 5 中,消費者抱怨攝影時麥克風的收音效果不好,但該句子中並未出現 video 或 movie 等單字。因此,由人工所建立的面相關鍵字清單,難以全面性的 包含代表各個面相的關鍵字,因而無法完整標誌各句子所針對的面相。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
21
圖 3 Canon SX230 之廠商產品描述
圖 4 Video 面相以 Recording 替代
圖 5 描述麥克風