第四章、 實驗結果與討論
4、 監督式學習實驗結果
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
4、 監督式學習實驗結果
在經過非監督式學習的方法標記 App 評論資料正負情感傾向後,將以 TF-IDF 為評論對字詞權重的向量空間模型,經過訊息增益方法作特徵詞選取,最後使用 SVM 進行分類實驗並驗證分類模型。以下別為說明情感傾向的分類結果與關注 議題的分類結果。
4.1 情感傾向分類結果
在情感傾向分類的實驗中,使用兩組特徵詞來測試情感傾向的分類結果,一 組為包含體詞和述詞的特徵詞組,一組為僅包含述詞的特徵詞組。考量到評論資 料情感傾向標記的情感詞集是由純述詞所構成,因此透過特徵詞僅包含述詞的實 驗對照組來測試,是否特徵詞僅使用述詞即能提供分類工作足夠的資訊。
表 十七: 特徵詞包含體詞、述詞的情感傾向分類結果
特徵詞:體詞、述詞 特徵詞數量:40 Accuracy:86.7%
Class Precision Recall F-Measure
正面(Postive) 90.3% 68.6% 78%
負面(Postive) 85.4% 96.1% 90.4%
平均(Avg) 87.7% 86.7% 86%
表 十八: 特徵詞僅包含述詞的情感傾向分類結果
特徵詞:述詞 特徵詞數量:29 Accuracy:87.3%
Class Precision Recall F-Measure
正面(Postive) 89.1% 71.9% 79.6%
負面(Postive) 86.6% 95.4% 90.8%
平均(Avg) 87.5% 87.3% 86.9%
表十七和表十八為情感傾向分類實驗的分類結果。其中表十七結果的特徵詞 由體詞、述詞所構成,特徵詞數量為 40,整體的分類正確率達到 86.7%。雖然分 類的整體正確率達到 86.7%,但在正面類別的 Reall 值僅有 68.6%,對比負面類 別的 Recall 達到 96.1%。從 Recall 值的結果可以發現,雖然整體正確率有 86.7%,
但在正面類別的分類效果比較差,反而負面類別評論有 95.4%分類正確。
‧
0.7%,整體的 F-Measure 上升 0.9%。雖然在特徵詞僅使用述詞來進行的分類實 驗中,結果在正確率、正面類別 Recall、F-Measure 都只有稍微上升,但整體來 看,僅採用述詞作特徵詞的實驗組,不止可以使特徵維度下降(40 減少為 29), 詞的分類結果,特徵詞數量為 210,整體正確率達到 95.8%,平均的 F-Measure 達到 95.8。雖然分類表現不錯,但在介面風格與設計類別和帳戶與安全性的 Recall 較低,分別為 83.5%和 97.8%,此兩個類別被分類正確的比率較低。表 十九: 特徵詞包含體詞、述詞的關注議題分類結果
特徵詞:體詞、述詞 特徵詞數量:210 Accuracy:95.8%
Class Precision Recall F-Measure
介面風格與設計 95.4% 83.5% 89.1%
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
分類實驗結果中,不僅可以降低特徵維度(210 下降為 113),整體的分類成效皆 有改善,特別在介面風格與設計和帳戶與安全性的分類成效有較大幅度的提升。
表 二十: 特徵詞僅包含體詞的關注議題分類結果
特徵詞:體詞 特徵詞數量:113 Accuracy:96.4%
Class Precision Recall F-Measure
介面風格與設計 99.4% 92.5% 95.8%
訊息傳送與社群 98.4% 94.6% 96.5%
帳戶與安全性 98.7% 95.8% 97.2%
軟體表現與品質 92.4% 98% 95.1%
應用加值服務 98.6% 96.9% 97.8%
平均(Avg) 96.5% 96.4% 96.4%
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
4.3 監督式學習實驗結果討論
情感傾向的分類結果討論
從表十五和十六可以看到兩個情感傾向的分類結果對照,其中特徵詞僅使用 述詞的實驗結果,比起特徵詞使用體詞加述詞的實驗結果還要佳,在整體正確率 和平均 F-Measure 都比較高。僅使用述詞當作特徵詞即可提供分類工作足夠的資 訊,其原因可能來自於判斷評論情感傾向的情感詞集是由述詞所構成。雖然整體 正確率很高,但是在正面類別的 Recall 卻只有 72%左右,故正面類別的評論常 被錯分成負面,可能因正負面評論數量差距過大(負面約為正面的兩倍),或是特 徵詞特徵較不明顯,不明顯的原因可能來自於有 30%的資料是由人工標記產生。
關注議題的分類結果討論
表十七和表十八為兩個關注議題的分類結果對照,其中特徵詞僅使用體詞的 實驗結果,比起特徵詞使用體詞加述詞的實驗結果,在整體正確率和平均 F-Measure 都要來的高,且在不同類別的 Recall 值均超過 90%。從此可瞭解不同 議題的分類結果表現都不錯,其原因可能來自於分成五個議題類別是由個體詞所 構成,且特徵詞均能讓分類演算法區分出不同的議題類別,因而使關注議題的分 類結果非常佳。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University