• 沒有找到結果。

隨著時代的演進,網路上的資源與評論日漸增加,為了幫助使用者有效率瀏覽 產品評論,有許多研究針對買家意見面向進行分析,從中找出重要的意見。與本論 文相關的研究主要是屬於意見面向的擷取技術,以下將重點介紹。

意見面向擷取主要目的在於希望找出產品評論內的面向,讓使用者快速了解產 品之評論概要,省去大量瀏覽時間。根據[3]的描述,在評論中情感分析上可分成三 個層級,分別是文件層級(Document-Level)、句子層級(Sentence-Level)和面向層級 (Aspect-Level)。文件層級與句子層級主要是判斷喜歡或是不喜歡的情感傾向,面向 層級則是要找出文件或句子中對應情感詞(Sentiment)或是意見詞(Opinion)的敘述目 標(Target),又稱為特徵(Feature)。

舉個例子說明,一則句子″客服 回答 親切″中過往做法都會直接抓取″親切″來

表達該句子是則正面的句子,這件事就是屬於文件層級和句子層級的目標。不過在 面向層級,則可能會是擷取出″客服″及″親切″兩個字詞,來表達出這則句子其實是在 說明關於一個屬於該商家的″態度″這面向的事情。[3]定義了面向,而本篇論文就是 希望在商場評論中擷取出屬於賣家和產品各面向的文字片段,並為這些文字片段作 出摘要整理。

底下會講述兩種方法來描述在三個層級中過往論文的做法:

<1> 頻率和詞性標記方法

早期[18][14][4][12][13][6]在意見面向探勘上面都是以擷取出高頻率的名詞或名 詞片語當作面向,或是以文字之間的關係性(詞性)去找出代表性的文字當作面向。底 下會各自對頻率和關係性方法提出一個代表性論文:

[13]提出使用 TF-IDF 的方式衡量不同字詞在文件層級或句子層級中的重要性,

並找出重要的字詞,再由這些字詞去去作正反面意見評論總結。本論文參照了此論

文所使用的 TF-IDF 方法建立本論文的基本比較方法,不過我們會在面向層級來擷

取重要的面向詞。

[6]提出以詞性標記(Part-of-Speech tagging)的方式去對評論的文字產生詞性,並

針對這些詞性利用關聯性規則探勘的方式去找出面向字,舉個例子來說明,假設評 論為”great camera”,而此評論被標記為”great(ADJ) camera(NN)”,ADJ 為形容詞,

NN 為名詞,則[6]的規則會將其標記為”great(ADJ) [aspect](NN)”,藉此得出 camera 為一個面向詞。但[6]的此種方式會找出許多評論內不相關的字詞當作面向詞,故本 篇論文並無採用此種方式取面向詞,因為本篇論文著重在分類文字片段,如果過多 不相關的面向詞干擾,會導致文字片段分類的不佳。

<2> 特徵模型方法

特徵模型的方法主要可分為監督式學習[20][21][1][7][15][23]和主題模型技術 [5][8][17][11],監督式學習通常會以隱馬爾可夫模型(Hidden Markov Model)和條件 隨機域(Conditional Random Field)為主,而主題模型則會是以 Probabilistic latent semantic analysis (PLSA)和 Latent Dirichlet allocation(LDA)為主。

[21]發表了一個架構於 HMM 模型的系統,稱之為 Opinion Miner,此篇論文主 要目的在於辨識出評論中面向詞、情緒詞和情緒詞的正反面傾向。此篇論文也定義 出何謂明顯和非明顯傾向的意見詞,並且結合了POS tagging 技術和 HMM 方法來 找出哪些字屬於面向詞和情緒詞,並且針對情緒詞的傾向也做出歸類。

[1]利用了 CRF 模型去找出產品評論的面向詞,此篇論文在將文字丟入 CRF 模 型去做預測時,會先將文字分成屬性詞與非屬性詞,並為這些詞去做人工標註,其 標註的內容會參考[21]的傾向定義。

[21][1]論文都有利用到人工標註,而為了使本論文訓練模型時更好,本篇論文也 會採取相同的方式,但會利用到[2]的架構概念跟本篇論文資料的特性,讓屬於商家 類別的句子只需要人工標註一次,之後只需要透過該模型去分辨商家句子,大幅減 少人工標註的時間。

[9][22]都有利用到以上兩種方法來建立面向摘要系統。[9]是針對中文新聞的內 容自動擷取出面向事實,主要目的是針對報導疾病相關的新聞文章進行面向擷取。

因為報導中可能會陳述多種面向事實,所以[9]會將報導內的面向事實擷取出來,並 透過語意三元詞組將這些面向事實句以結構化的方式整理出來。[22]是針對網頁搜 尋結果進行重要面向摘要整理,其將大量的查詢回傳結果自動整理出重要的面向資 訊,分成一般面向和面向事實。一般面向泛指對查詢的基本描述或說明,而面向事 實則為查詢在指定主題上的重要事實內容。擷取出此兩種面向的句子後,分別對一 般面向和指定面向進行摘要整理。

相關文件