監督式學習實驗結果 - 實驗結果與討論 - 對使用者評論之情感分析研究－以Google Play市集為例

第四章、實驗結果與討論

4、監督式學習實驗結果

國

立政治大學

‧

Na tiona

l Ch engchi University

4、監督式學習實驗結果

在經過非監督式學習的方法標記 App 評論資料正負情感傾向後，將以 TF-IDF 為評論對字詞權重的向量空間模型，經過訊息增益方法作特徵詞選取，最後使用 SVM 進行分類實驗並驗證分類模型。以下別為說明情感傾向的分類結果與關注議題的分類結果。

4.1 情感傾向分類結果

在情感傾向分類的實驗中，使用兩組特徵詞來測試情感傾向的分類結果，一組為包含體詞和述詞的特徵詞組，一組為僅包含述詞的特徵詞組。考量到評論資料情感傾向標記的情感詞集是由純述詞所構成，因此透過特徵詞僅包含述詞的實驗對照組來測試，是否特徵詞僅使用述詞即能提供分類工作足夠的資訊。

表十七: 特徵詞包含體詞、述詞的情感傾向分類結果

特徵詞：體詞、述詞特徵詞數量：40 Accuracy：86.7%

Class Precision Recall F-Measure

正面(Postive) 90.3% 68.6% 78%

負面(Postive) 85.4% 96.1% 90.4%

平均(Avg) 87.7% 86.7% 86%

表十八: 特徵詞僅包含述詞的情感傾向分類結果

特徵詞：述詞特徵詞數量：29 Accuracy：87.3%

Class Precision Recall F-Measure

正面(Postive) 89.1% 71.9% 79.6%

負面(Postive) 86.6% 95.4% 90.8%

平均(Avg) 87.5% 87.3% 86.9%

表十七和表十八為情感傾向分類實驗的分類結果。其中表十七結果的特徵詞由體詞、述詞所構成，特徵詞數量為 40，整體的分類正確率達到 86.7%。雖然分類的整體正確率達到 86.7%，但在正面類別的 Reall 值僅有 68.6%，對比負面類別的 Recall 達到 96.1%。從 Recall 值的結果可以發現，雖然整體正確率有 86.7%，

但在正面類別的分類效果比較差，反而負面類別評論有 95.4%分類正確。

‧

0.7%，整體的 F-Measure 上升 0.9%。雖然在特徵詞僅使用述詞來進行的分類實驗中，結果在正確率、正面類別 Recall、F-Measure 都只有稍微上升，但整體來看，僅採用述詞作特徵詞的實驗組，不止可以使特徵維度下降(40 減少為 29)，詞的分類結果，特徵詞數量為 210，整體正確率達到 95.8%，平均的 F-Measure 達到 95.8。雖然分類表現不錯，但在介面風格與設計類別和帳戶與安全性的 Recall 較低，分別為 83.5%和 97.8%，此兩個類別被分類正確的比率較低。

表十九: 特徵詞包含體詞、述詞的關注議題分類結果

特徵詞：體詞、述詞特徵詞數量：210 Accuracy：95.8%

Class Precision Recall F-Measure

介面風格與設計 95.4% 83.5% 89.1%

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

分類實驗結果中，不僅可以降低特徵維度(210 下降為 113)，整體的分類成效皆有改善，特別在介面風格與設計和帳戶與安全性的分類成效有較大幅度的提升。

表二十: 特徵詞僅包含體詞的關注議題分類結果

特徵詞：體詞特徵詞數量：113 Accuracy：96.4%

Class Precision Recall F-Measure

介面風格與設計 99.4% 92.5% 95.8%

訊息傳送與社群 98.4% 94.6% 96.5%

帳戶與安全性 98.7% 95.8% 97.2%

軟體表現與品質 92.4% 98% 95.1%

應用加值服務 98.6% 96.9% 97.8%

平均(Avg) 96.5% 96.4% 96.4%

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

4.3 監督式學習實驗結果討論

 情感傾向的分類結果討論

從表十五和十六可以看到兩個情感傾向的分類結果對照，其中特徵詞僅使用述詞的實驗結果，比起特徵詞使用體詞加述詞的實驗結果還要佳，在整體正確率和平均 F-Measure 都比較高。僅使用述詞當作特徵詞即可提供分類工作足夠的資訊，其原因可能來自於判斷評論情感傾向的情感詞集是由述詞所構成。雖然整體正確率很高，但是在正面類別的 Recall 卻只有 72%左右，故正面類別的評論常被錯分成負面，可能因正負面評論數量差距過大(負面約為正面的兩倍)，或是特徵詞特徵較不明顯，不明顯的原因可能來自於有 30%的資料是由人工標記產生。

 關注議題的分類結果討論

表十七和表十八為兩個關注議題的分類結果對照，其中特徵詞僅使用體詞的實驗結果，比起特徵詞使用體詞加述詞的實驗結果，在整體正確率和平均 F-Measure 都要來的高，且在不同類別的 Recall 值均超過 90%。從此可瞭解不同議題的分類結果表現都不錯，其原因可能來自於分成五個議題類別是由個體詞所構成，且特徵詞均能讓分類演算法區分出不同的議題類別，因而使關注議題的分類結果非常佳。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

在文檔中對使用者評論之情感分析研究－以Google Play市集為例 - 政大學術集成 (頁 97-101)

監督式學習實驗結果

第四章、 實驗結果與討論

4、 監督式學習實驗結果

國

立 政 治 大 學

‧

4、 監督式學習實驗結果

4.1 情感傾向分類結果

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

4.3 監督式學習實驗結果討論

‧ 國

立 政 治 大 學

‧

第四章、實驗結果與討論

4、監督式學習實驗結果

立政治大學

4、監督式學習實驗結果

立政治大學

立政治大學

立政治大學