• 沒有找到結果。

成語或諺語結果分析

第四章 實驗結果與分析

第四節 成語或諺語結果分析

4 個字以上詞彙共 144 個,使用第三章所述之 3 種規則經過整理之後如下表 4-22:

表 4-22:4 個字以上詞彙結果分析

正確答案 分類結果

Positive Negative

Positive 34 2

Negative 6 23

最後有 79 個詞彙是無法分類出極性的,雖然回收率(Recall)只有 45.13%,但 在正確率(Precision)卻有 87.69%,可以表示出這些規則是可行的。

而造成回收率(Recall)太低的問題主要還是所找出的極性詞彙是不夠多且範 圍不夠大,以至於大多數詞彙無法進行比對分類,在正確率(Precision)方面主要有 錯誤的通常都是註釋和表達意義的誤差。

例如:『自告奮勇』自動請求擔負冒險犯難的事 。但是卻只擷取出『冒險』

和『犯難』進而分類到負向極性。

例如:『引以為傲』以某人或某物而感到驕傲。擷取出『驕傲』進而分類到 負向極性。

在部分詞彙中我們的方法是可行的,不過最主要的問題還是在回收率(Recall)

方面,或許可以使用更多元全面性極性資料庫去做比對以提升回收率(Recall),不 過也表示一定會有更多的上述例子造成正確率(Precision)下降。

雙極性詞彙的部分,『驚喜』、『假』、『複雜』、『強』、『沉重』、『出乎意料』,

我們發現到這些詞與人工分類的比較結果比較有誤差出現的只有『複雜』,而其 他詞彙皆是系統判定錯誤的結果。

系統擷取出的詞彙與 NTUSD 內容比較,其中扣除了在 NTUSD 中居於少數 的 1 個字和 4 個字以上的詞彙,可以發現此實驗方法確實擷取出很多在 NTUSD 詞典中找不到的詞彙,如下表 4-23 列出其中 15 個詞彙。

表 4-23:與 NTUSD 內容之比較

推崇 破功 觸動 離奇 侷限

推荐 打動 朝聖 驚豔 划算

暢銷 紓解 抄襲 賣座 緊湊

最後下表 4-24 為第一部分和第二部分的結果做出總評,其最後的平均正確率 (precision)為 81.29%以及平均回收率(recall)為 91.12%,以自動標註的效能來說皆 不算太低,其中無法分類的詞彙中 4 個字以上占了其中 90.8%,所以若是不考慮 4 個字以上的部分,此系統的可信度會更加提高。

表 4-24:最後兩部分總評

總數 擷取數 錯誤數 正確率(Precision) 回收率(Recall)

1 個字詞彙 68 66 6 90.9% 97.05%

2 個字詞彙 708 702 145 79.34% 99.15%

3 個字詞彙 54 54 8 85.18% 100%

4 個字以上詞彙 150 71 8 88.73% 47.33%

總和 980 893 167 81.29% 91.12%

結論與未來展望

本篇論文的研究中,我們提出了一個自動分類中文文章中的詞彙極性的方法,

並把此方法分成兩個部分,其中第一部分用自定義的語法規則擷取出極性詞彙,

目的是希望擷取出各個不同領域中較特殊的極性詞彙,增加領域中的多樣性。而 第二部分就是要彌補在第一部分中所找不到的詞彙,使用模糊比對的方式增加回 收率(recall),過程中利用了中央研究院詞庫小組的斷詞系統、教育部中文線上詞 典以及 NTUSD 統計詞頻,分類出詞彙的極性,最後與人工標記的結果比較,得 到正確率(precision)為 81.29%以及回收率(recall)為 91.12%。

實驗結果證實了我們的方法是可行的,在正確率(precision)方面或許略遜於人 工標註,但是在未來各種不同領域的崛起,資訊也越來越龐雜的情形之下,自動 分類就具有成本低廉並且迅速分析的優點,透過此方法找出使用者、客戶、人民 所關注的問題與方向,並且在最快的時間內,進而能做出相對應的決策予以解決,

是人工標註所不及的。

參考文獻

Baccianella, Stefano, Esuli, Andrea and Sebastiani, Fabrizio (2010).

“SENTIWORDNET 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining,” Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10), pp. 2200-2204.

Das, Amitava and Gambäck, Björn (2012). “Sentimantics: Conceptual Spaces for Lexical Sentiment Polarity Representation with Contextuality,” Proc. Department

of Computer and Information Science Norwegian University of Science and Technology Sem Sæ lands vei 7-9, NO-7094 Trondheim, Norway.

Ku, Lun-Wei and Chen, Hsin-Hsi (2007). “Mining Opinions from the Web: Beyond Relevance Retrieval.” Journal of American Society for Information Science and Technology, Special Issue on Mining Web Resources for Enhancing Information Retrieval, 58(12), pages 1838-1850. Software available at http://nlg18.csie.ntu.edu.tw:8080/opinion/index.html.

Maas, Andrew L., Daly, Raymond E., Pham, Peter T., Huang, Dan, Ng, Andrew Y. , and Potts, Christopher (2011). “Learning Word Vectors for Sentiment Analysis,”

Proc. Stanford University Stanford, CA 94305.

Moilanen, Karo, Pulman, Stephen and Zhang, Yue (2010). “Packed Feelings and

Ordered Sentiments: Sentiment Parsing with Quasi-compositional Polarity Sequencing and Compression”, Proceedings of the 1st Workshop on

Computational Approaches to Subjectivity and Sentiment Analysis, pp. 36-43.

Seeker, Wolfgang, Bermingham, Adam, Foster, Jennifer and Hogan, Deirdre (2009).

“Exploiting Syntax in Sentiment Polarity Classification, National Centre for Language Technology,”Proc. Dublin City University, Ireland.

中文斷詞系統,中文詞知識庫小組,中央研究院,http://ckipsvr.iis.sinica.edu.tw/

李政儒、游基鑫、陳信希,2012,“廣義知網詞彙意見極性的預測 Predicting the Semantic Orientation of Terms in E-HowNet”,國立台灣大學資訊工程所碩士論 文。

邱鴻達,2011,“意見探勘在中文電影評論之應用”,國立交通大學資訊科學與工 程研究所碩士論文。

陳立,2010,“中文情緒語意自動分類之研究”,國立臺灣師範大學資訊工程所碩 士論文。

教 育 部 中 文 線 上 詞 典 , 教 育 部 國 語 推 行 委 員 會 , 中 央 研 究 院 , http://dict.revised.moe.edu.tw/

張莊平,2012,“中文文法剖析應用於電影評論之意見情緒分析”,國立臺灣師範 大學資訊工程所碩士論文。

相關文件