成語或諺語結果分析

第四章實驗結果與分析

第四節成語或諺語結果分析

4 個字以上詞彙共 144 個，使用第三章所述之 3 種規則經過整理之後如下表 4-22：

表 4-22：4 個字以上詞彙結果分析

正確答案 分類結果

Positive Negative

Positive 34 2

Negative 6 23

最後有 79 個詞彙是無法分類出極性的，雖然回收率(Recall)只有 45.13%，但在正確率(Precision)卻有 87.69%，可以表示出這些規則是可行的。

而造成回收率(Recall)太低的問題主要還是所找出的極性詞彙是不夠多且範圍不夠大，以至於大多數詞彙無法進行比對分類，在正確率(Precision)方面主要有錯誤的通常都是註釋和表達意義的誤差。

例如：『自告奮勇』自動請求擔負冒險犯難的事。但是卻只擷取出『冒險』

和『犯難』進而分類到負向極性。

例如：『引以為傲』以某人或某物而感到驕傲。擷取出『驕傲』進而分類到負向極性。

在部分詞彙中我們的方法是可行的，不過最主要的問題還是在回收率(Recall)

方面，或許可以使用更多元全面性極性資料庫去做比對以提升回收率(Recall)，不過也表示一定會有更多的上述例子造成正確率(Precision)下降。

雙極性詞彙的部分，『驚喜』、『假』、『複雜』、『強』、『沉重』、『出乎意料』，

我們發現到這些詞與人工分類的比較結果比較有誤差出現的只有『複雜』，而其他詞彙皆是系統判定錯誤的結果。

系統擷取出的詞彙與 NTUSD 內容比較，其中扣除了在 NTUSD 中居於少數的 1 個字和 4 個字以上的詞彙，可以發現此實驗方法確實擷取出很多在 NTUSD 詞典中找不到的詞彙，如下表 4-23 列出其中 15 個詞彙。

表 4-23：與 NTUSD 內容之比較

推崇破功觸動離奇侷限

推荐打動朝聖驚豔划算

暢銷紓解抄襲賣座緊湊

最後下表 4-24 為第一部分和第二部分的結果做出總評，其最後的平均正確率 (precision)為 81.29%以及平均回收率(recall)為 91.12%，以自動標註的效能來說皆不算太低，其中無法分類的詞彙中 4 個字以上占了其中 90.8%，所以若是不考慮 4 個字以上的部分，此系統的可信度會更加提高。

表 4-24：最後兩部分總評

總數擷取數錯誤數正確率(Precision) 回收率(Recall)

1 個字詞彙 68 66 6 90.9% 97.05%

2 個字詞彙 708 702 145 79.34% 99.15%

3 個字詞彙 54 54 8 85.18% 100%

4 個字以上詞彙 150 71 8 88.73% 47.33%

總和 980 893 167 81.29% 91.12%

結論與未來展望

本篇論文的研究中，我們提出了一個自動分類中文文章中的詞彙極性的方法，

並把此方法分成兩個部分，其中第一部分用自定義的語法規則擷取出極性詞彙，

目的是希望擷取出各個不同領域中較特殊的極性詞彙，增加領域中的多樣性。而第二部分就是要彌補在第一部分中所找不到的詞彙，使用模糊比對的方式增加回收率(recall)，過程中利用了中央研究院詞庫小組的斷詞系統、教育部中文線上詞典以及 NTUSD 統計詞頻，分類出詞彙的極性，最後與人工標記的結果比較，得到正確率(precision)為 81.29%以及回收率(recall)為 91.12%。

實驗結果證實了我們的方法是可行的，在正確率(precision)方面或許略遜於人工標註，但是在未來各種不同領域的崛起，資訊也越來越龐雜的情形之下，自動分類就具有成本低廉並且迅速分析的優點，透過此方法找出使用者、客戶、人民所關注的問題與方向，並且在最快的時間內，進而能做出相對應的決策予以解決，

是人工標註所不及的。

參考文獻

Baccianella, Stefano, Esuli, Andrea and Sebastiani, Fabrizio (2010).

“SENTIWORDNET 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining,” Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10), pp. 2200-2204.

Das, Amitava and Gambäck, Björn (2012). “Sentimantics: Conceptual Spaces for Lexical Sentiment Polarity Representation with Contextuality,” Proc. Department

of Computer and Information Science Norwegian University of Science and Technology Sem Sæ lands vei 7-9, NO-7094 Trondheim, Norway.

Ku, Lun-Wei and Chen, Hsin-Hsi (2007). “Mining Opinions from the Web: Beyond Relevance Retrieval.” Journal of American Society for Information Science and Technology, Special Issue on Mining Web Resources for Enhancing Information Retrieval, 58(12), pages 1838-1850. Software available at http://nlg18.csie.ntu.edu.tw:8080/opinion/index.html.

Maas, Andrew L., Daly, Raymond E., Pham, Peter T., Huang, Dan, Ng, Andrew Y. , and Potts, Christopher (2011). “Learning Word Vectors for Sentiment Analysis,”

Proc. Stanford University Stanford, CA 94305.

Moilanen, Karo, Pulman, Stephen and Zhang, Yue (2010). “Packed Feelings and

Ordered Sentiments: Sentiment Parsing with Quasi-compositional Polarity Sequencing and Compression”, Proceedings of the 1st Workshop on

Computational Approaches to Subjectivity and Sentiment Analysis, pp. 36-43.

Seeker, Wolfgang, Bermingham, Adam, Foster, Jennifer and Hogan, Deirdre (2009).

“Exploiting Syntax in Sentiment Polarity Classification, National Centre for Language Technology,”Proc. Dublin City University, Ireland.

中文斷詞系統，中文詞知識庫小組，中央研究院，http://ckipsvr.iis.sinica.edu.tw/

李政儒、游基鑫、陳信希，2012，“廣義知網詞彙意見極性的預測 Predicting the Semantic Orientation of Terms in E-HowNet”，國立台灣大學資訊工程所碩士論文。

邱鴻達，2011，“意見探勘在中文電影評論之應用”，國立交通大學資訊科學與工程研究所碩士論文。

陳立，2010，“中文情緒語意自動分類之研究”，國立臺灣師範大學資訊工程所碩士論文。

教育部中文線上詞典，教育部國語推行委員會，中央研究院， http://dict.revised.moe.edu.tw/

張莊平，2012，“中文文法剖析應用於電影評論之意見情緒分析”，國立臺灣師範大學資訊工程所碩士論文。

在文檔中電影評論中情緒詞彙之極性分析 (頁 60-0)

第四章 實驗結果與分析

第四節 成語或諺語結果分析