• 沒有找到結果。

第七章 結論與未來研究方向

7.2 未來研究方向

7.1 實驗資料及特徵介紹

本研究提出一個對網路商場評論自動產生面向摘要的方法,可幫助人們有效率 的掌握每個商場中關於購買者對商家的描述,還有購買者對產品的意見。本論文提 出以單詞頻率特徵、主題模型特徵和關鍵字特徵分類出商家與產品文字片段。在架 構方面,提出以兩階段來建構分類模型,在建立完商家分類模型後,之後可以減少

商家人工標註的成本。在文字片段分群上,本論文利用LDA 來輔助分群,並考慮

到面向詞不足的部分,提出了以Word2Vec 來擴展面向字,藉此達到更好的分群效 果。透過一連串的實驗比較,證實了主題模型特徵和關鍵字特徵在商家和產品文字 片段分上的價值。

7.2 未來研究方向

本論文提出的商家與產品自動面向摘要方法,目前擷取的資料數量還不夠龐 大,未來可考慮抓取更多的資料建立更好的模型,讓模型可以應用在更多商場的評 論上。

本論文建立的兩階段架構雖可減少商家片段人為標註,但在產品評論上還是需 要人為標註,耗費的時間還是太多,未來可考慮利用半監督式學習的方式,利用只 需要人為標註一部分當作參考,進而讓機器去學習如何自動標註其餘的文字片段,

進而大幅減少人為標註的成本與時間。

本論文建立的面向對應方法可以將商家和產品文字片段摘要,卻缺少了分群的 概念,未來可考慮加入讓文字片段透過分群的方法來完成摘要處理。

參考文獻

[1] A.K. Samha, Y. Li, J. ZhangAspect-based opinion mining from product reviews

using conditional random fields.Data Mining and Analytics: Proceedings of the 13th Australasian Data Mining Conference [Conferences in Research and Practice in Information Technology, Volume 168], Australian Computer Society (2015), pp. 119-128

[2] Antonie, M.-L., Zaiane, O.R., Holte, R.C.: Learning to Use a Learned Model: A

Two-Stage Approach to Classification. In: Proceedings of the Sixth International Conference on Data Mining, pp. 33–42 (2006)

[3] Bing Liu. Sentiment Analysis and Opinion Mining. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers, 2012.

[4] Bing Liu, Minqing Hu, and Junsheng Cheng. Opinion observer: analyzing and

comparing opinions on the web. In Proceedings of the 14th international conference on World Wide Web, WWW ’05, pages 342–351, New York, NY, USA, 2005. ACM.

[5] Bing Liu. Sentiment Analysis and Opinion Mining. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers, 2012.

[6] Bing Liu, Minqing Hu, and Junsheng Cheng. Opinion observer: analyzing and comparing opinions on the web. In Proceedings of the 14th international conference on World Wide Web, WWW ’05, pages 342–351, New York, NY, USA, 2005. ACM.

[7] Christina Sauper, Aria Haghighi, and Regina Barzilay. Content models with attitude.

In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1, HLT ’11, pages 350–358, Stroudsburg, PA, USA, 2011. Association for Computational Linguistics.

[8] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation. J.

Mach. Learn. Res., 3:993–1022, March 2003.

[9] HSU, CHEN-WEI. Fact Extraction for Epidemic Disease from Chinese News Articles.

NTNU Thesis.

[10] Howell, D.C. Chi-square test: Analysis of contingency tables. In International

Encyclopedia of Statistical Science; Springer: Berlin, Germany, 2011; pp. 250–

252.

[11] Ivan Titov and Ryan McDonald. Modeling online reviews with multi-grain topic

models. In Proceedings of the 17th international conference on World Wide Web, WWW ’08, pages 111–120, New York, NY, USA, 2008. ACM.

[12] Li Zhuang, Feng Jing, and Xiao-Yan Zhu. Movie review mining and summarization.

In Proceedings of the 15th ACM international conference on Information and knowledge management, CIKM ’06, pages 43–50, New York, NY, USA, 2006. ACM.

[13] Lun-Wei Ku, Yu-Ting Liang, and Hsin-Hsi Chen. Opinion extraction, summarization and tracking in news and blog corpora. In Proceedings of the AAAI Spring

[14] Minqing Hu and Bing Liu. Mining and summarizing customer reviews. In

Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’04, pages 168–177, New York, NY, USA, 2004.

ACM.

[15] Niklas Jakob and Iryna Gurevych. Using anaphora resolution to improve opinion

target identification in movie reviews. In Proceedings of the ACL 2010 Conference Short Papers, ACLShort ’10, pages 263–268, Stroudsburg, PA, USA, 2010.

Association for Computational Linguistics.

[16] Pierre F. Baldi , Cristina V. Lopes , Erik J. Linstead , Sushil K. Bajracharya, A theory

of aspects as latent topics, Proceedings of the 23rd ACM SIGPLAN conference on Object-oriented programming systems languages and applications, October 19-23, 2008, Nashville, TN, USA

[17] Qiaozhu Mei, Xu Ling, Matthew Wondra, Hang Su, and ChengXiang Zhai. Topic

sentiment mixture: modeling facets and opinions in weblogs. In Proceedings of the 16th international conference on World Wide Web, WWW ’07, pages 171–180, New York, NY, USA, 2007. ACM.

[18] Stefano Baccianella, Andrea Esuli, and Fabrizio Sebastiani. Multi-facet rating of

product reviews. In Proceedings of the 31th European Conference on IR Research on Advances in Information Retrieval, ECIR ’09, pages 461–472, Berlin, Heidelberg, 2009. Springer-Verlag.

online reviews. In Proceedings of Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, HLT ’10, pages 804–812, Stroudsburg, PA, USA, 2010. Association for Computational Linguistics.

[20] Tak-Lam Wong, Lidong Bing, and Wai Lam. Normalizing web product attributes and

discovering domain ontology with minimal effort. In Proceedings of the Forth International Conference on Web Search and Web Data Mining (WSDM ’11), pages 805–814, 2011.

[21] Wei Jin, Hung Hay Ho, and Rohini K. Srihari. Opinionminer: a novel machine

learning system for web opinion mining and extraction. In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’09, pages 1195– 1204, New York, NY, USA, 2009. ACM.

[22] Yi-Hsuan Yeh. Search Results Summarization for Multiple Query Aspects. NTNU Thesis.

[23] Yejin Choi and Claire Cardie. Hierarchical sequential learning for extracting opinions and their attributes. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL ’10), pages 269–274, 2010.

附錄一

Aspect 3 不過 打開 包裝 居然 發現 管 漏 大 半(*1)

包裝 得 精緻(*1)

雙 11 發貨 速度 非常 快(*5) 店家 發貨 速度 快(*1)

物流 速度 快(*6) 頭髮油 快 滴下來(*3) 東西 快 收到(*1)

Aspect 4 搭配 使用 贈送 小樣 喜歡(*1) 賣家 貼心(*1)

賣家 已經 補發(*1)

但是 發貨 實在 太 慢(*1) 寶貝 實在 太 啦(*8) 物品 已經 收到 啦(*1) 目前 給 賣家 5 星 好評(*1) 繼續 支持 店家(*1)

Default

表2 產品摘要(生髮水)

上 套 快 用完 感覺(*1)

Aspect 3 但是 打開 蓋子 濃濃 姜味(*29)

蘆薈 感覺 好 清澈 美麗(*1) 去 油 嘛 效果 明顯(*1)

非常 滿意 能夠 買到 這麼 產品(*3) 效果 非常(*3)

味道 不錯(*1) 純 清正品(*1)

產品 純 天然 好用(*1)

頭髮 隔 天 洗 就 特別油 尤其 頭 皮 油 發尖 幹(*4)

洗髮水 擠出來 聞 聞(*1) Aspect 6 打開 瓶子 濃濃 姜味(*14)

但是 聞到 姜 味道(*3)

像 那些 品牌貨 堆 添加劑(*6) 確實 不錯(*3)

洗髮水 稠(*1) Default

表3 商家摘要(鞋子)

聽 客服 推薦 真的 沒 錯(*6)

物流 給 力 發貨 速度(*2)

必須 好評 寶貝 收到(*4) 五 星(*4)

當然 給 全 5 星 咯(*6) 給 好評 喲(*7)

好評 鞋子 材質 好(*2) 滿意 好評(*1)

Default

表4 產品摘要(鞋子)

好 搭配 褲子 鞋子 質量 好(*92)

質量 好 穿著 特別 舒服 真皮 價格 比較 合理 老公 穿上 挺 好看(*11) 寶貝 質量 滿分(*2)

好評 擔心 質量(*1)

不光 質量 好 鞋子 樣子 帥氣(*2) 樣子 時尚 簡單(*12)

鞋 底 硬 買 透氣 款 夏天 穿(*1) 買錯 商家 態度 好 給 換 收到 質量 非常 好 老公 喜歡(*1)

寶貝 收到 質量 好 物流 快 鞋子 漂 亮 老公 喜歡 穿著 舒服 非常 滿意 鞋子 收到(*2)

滿意 質量 不錯 給 老公 買 老公 穿 天才 評價(*1)

Aspect 4 皮質 軟硬 適中 磨腳(*11)

一向 喜歡 花花公子 牌子 質量 跟 款 式 不錯 穿著 感覺 不錯(*8)

質量 保證(*2) Default

相關文件