• 沒有找到結果。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 16 文件層次特徵(fd)列表

特徵 意義

fd10 語句的平均意見

fd21, fd22, fd23, fd24, fd25 正/負/中/非負/非正意見句的比例

fd31, fd35 標題/結論的意見

fd32, fd33, fd34 首段/中段/末段的平均意見

fd41 2/1/2 三段意見加權平均

fd42 1/2/3 三段意見加權平均

fd51 相對文章詞數

fd52 相對文章句數

fd53 每句平均詞數

回顧本研究的研究問題,我們將在文件層次嘗試執行以下 4 種分類實驗:

1. 分類為正面/負面/中立意見(T1)。正面類別為 1,負面類別為-1,

中立類別為 0。

2. 分類為正面/負面意見(T2)。正面類別為 1,負面類別為-1,中立的 資料將不納入實驗。

3. 分類為正面/非正面意見(T3)。正面為 1,負面與中立的資料將合併 為非正面意見,類別為 0。

4. 分類為負面/非負面意見(T4)。負面為-1,正面與中立的資料將合併 為非負面意見,類別為 0。

在文件層次,我們同樣採用 SVM、NB、KNN,以及 J48 決策樹等四種分類 方法。實驗設計和語句層次驗相同,共 42 種不同的參數,惟文件層次的樣本總 數和語句層次不同,我們調整 J48 決策樹葉節點的最小數量至 5,我們採用 Weka 內建的 Experimenter,以 20-fold 交叉驗證評估實驗結果,每種實驗重複執行 5 次,取其結果的平均值。實驗結果如表 17 至表 20。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

在 T1 和 T2 的實驗中,因為每個類別的重要程度相當,因此我們依照和語 句層次相同的評估方式和標準選擇模型,首先採用最高的平均 F-measure,當有 多個模型的 F-measure 相同時,再採最高的準確率。在 T1 實驗中,表現最佳的 模型為 RBF 核心的 SVM,Cost 參數為 2.0,Gamma 參數為 0.5,實驗結果的 F-measure 為 0.77,準確率為 0.7677。在 T2 實驗中,表現最佳的模型也是 RBF 核心的 SVM,但參數設定則稍有不同,Cost 參數為 1.0,Gamma 參數為 1.0,實 驗結果的 F-measure 為 0.87,準確率為 0.8761。

表 17 T1(正面/負面/中立)的文件層次分類實驗結果

分類方法 Accuracy Avg. P Avg. R Avg. F J48 -M 5 0.7570 0.77 0.76 0.76 Naïve Bayes 0.5784 0.58 0.58 0.58 KNN -K 1 0.6693 0.68 0.67 0.67 KNN -K 3 0.7079 0.72 0.71 0.71 KNN -K 5 0.7347 0.75 0.73 0.73 KNN -K 7 0.7455 0.76 0.75 0.74 KNN -K 9 0.7514 0.76 0.75 0.75 LibSVM linear -C 0.5 0.7214 0.74 0.72 0.72 LibSVM linear -C 1.0 0.7390 0.76 0.74 0.74 LibSVM linear -C 2.0 0.7445 0.76 0.74 0.74 LibSVM rbf -C 0.5 -G 2.0 0.7628 0.78 0.76 0.76 LibSVM rbf -C 0.5 -G 1.0 0.7623 0.78 0.76 0.76 LibSVM rbf -C 0.5 -G 0.5 0.7478 0.76 0.75 0.75 LibSVM rbf -C 0.5 -G 0.25 0.7293 0.75 0.73 0.73 LibSVM rbf -C 0.5 -G 0.125 0.7287 0.74 0.73 0.73 LibSVM rbf -C 0.5 -G 0.0625 0.7421 0.76 0.74 0.74

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 18 T2(正面/負面)的文件層次分類實驗結果

分類方法 Accuracy Avg. P Avg. R Avg. F J48 -M 5 0.8405 0.85 0.84 0.84 Naïve Bayes 0.8210 0.83 0.82 0.82 KNN -K 1 0.8155 0.82 0.82 0.81 KNN -K 3 0.8453 0.85 0.85 0.84 KNN -K 5 0.8388 0.85 0.84 0.84 KNN -K 7 0.8399 0.85 0.84 0.84 KNN -K 9 0.8463 0.86 0.85 0.84 LibSVM linear -C 0.5 0.8541 0.86 0.85 0.85 LibSVM linear -C 1.0 0.8549 0.86 0.85 0.85 LibSVM linear -C 2.0 0.8545 0.86 0.85 0.85 LibSVM rbf -C 0.5 -G 2.0 0.8719 0.88 0.87 0.87 LibSVM rbf -C 0.5 -G 1.0 0.8655 0.88 0.87 0.86 LibSVM rbf -C 0.5 -G 0.5 0.8625 0.87 0.86 0.86 LibSVM rbf -C 0.5 -G 0.25 0.8565 0.87 0.86 0.86 LibSVM rbf -C 0.5 -G 0.125 0.8583 0.87 0.86 0.86 LibSVM rbf -C 0.5 -G 0.0625 0.8609 0.87 0.86 0.86 LibSVM rbf -C 0.5 -G 0.03125 0.8674 0.88 0.87 0.87 LibSVM rbf -C 0.5 -G 0.015625 0.8666 0.87 0.87 0.87 LibSVM rbf -C 1.0 -G 2.0 0.8716 0.88 0.87 0.87 LibSVM rbf -C 1.0 -G 1.0 0.8761 0.89 0.88 0.87 LibSVM rbf -C 1.0 -G 0.5 0.8644 0.87 0.86 0.86 LibSVM rbf -C 1.0 -G 0.25 0.8595 0.87 0.86 0.86 LibSVM rbf -C 1.0 -G 0.125 0.8553 0.86 0.86 0.85

採用的是平均 Precision、平均 Recall 和平均 F-measure。同樣地,我們在評估 T3 和 T4 的分類實驗時,對 T3 的分類實驗較關心正面的分類結果,對 T4 的分類實 驗則較關心負面的分類結果。所以此處我們改採單一類別的 Precision、Recall 和 F-measure,在 T3 中是指正面類別的 Precision、Recall 和 F-measure,而在 T4 中 是指負面類別的 Precision、Recall 和 F-measure。

減少漏網之魚。雖然採用 Recall 時有可能意味著 Precision 較低,也就是正面和 負面的區塊可能存在較多非正面和非負面的網路評價,但我們認為使用者應有能 力辨別該評價是否確實為正面或負面。因此,站在決策支援的角度考量後,在選 擇應用於 T3 和 T4 的分類模型時,我們除了優先考慮最高的 F-measure 之外,其 次應考慮最高的 Recall 而非 Precision。最後當 F-measure 與 Recall 仍有相同時,

則再以 Precision 和準確率選擇模型。在 T3 和 T4 的實驗中,表現最好的模型都 是 KNN 分類法,但最近鄰點參數 K 則不同,前者的參數 K 為 5,實驗結果的 F-measure 為 0.81,Recall 為 0.84;後者的參數 K 為 9,實驗結果的 F-measure 為 0.83,Recall 為 0.79。

表 19 T3(正面/非正面)的文件層次分類實驗結果

Classifier Accuracy Precision Recall F-measure J48 -M 5 0.7914 0.80 0.79 0.79

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

LibSVM rbf -C 4.0 -G 0.125 0.8107 0.83 0.80 0.80 LibSVM rbf -C 4.0 -G 0.0625 0.8008 0.82 0.78 0.79 LibSVM rbf -C 4.0 -G 0.03125 0.7928 0.81 0.77 0.79 LibSVM rbf -C 4.0 -G 0.015625 0.7985 0.81 0.79 0.80

表 20 T4(負面/非負面)的文件層次分類實驗結果

Classifier Accuracy Precision Recall F-measure J48 -M 5 0.8261 0.86 0.79 0.82 Naïve Bayes 0.7694 0.77 0.78 0.77 KNN -K 1 0.7901 0.78 0.81 0.79 KNN -K 3 0.8193 0.84 0.80 0.81 KNN -K 5 0.8278 0.86 0.79 0.82 KNN -K 7 0.8350 0.88 0.79 0.83

KNN -K 9 0.8399 0.88 0.79 0.83

LibSVM linear -C 0.5 0.8262 0.87 0.78 0.82 LibSVM linear -C 1.0 0.8277 0.87 0.78 0.82 LibSVM linear -C 2.0 0.8270 0.87 0.78 0.82 LibSVM rbf -C 0.5 -G 2.0 0.8345 0.92 0.74 0.81 LibSVM rbf -C 0.5 -G 1.0 0.8365 0.92 0.74 0.81 LibSVM rbf -C 0.5 -G 0.5 0.8352 0.92 0.73 0.81 LibSVM rbf -C 0.5 -G 0.25 0.8348 0.90 0.76 0.82 LibSVM rbf -C 0.5 -G 0.125 0.8291 0.87 0.78 0.82 LibSVM rbf -C 0.5 -G 0.0625 0.8214 0.85 0.79 0.81 LibSVM rbf -C 0.5 -G 0.03125 0.8178 0.84 0.80 0.82 LibSVM rbf -C 0.5 -G 0.015625 0.8173 0.83 0.81 0.82 LibSVM rbf -C 1.0 -G 2.0 0.8329 0.91 0.75 0.81

(二) 特徵選擇(Feature Selection)實驗

特徵選擇是機器學習上一個相當重要的程序。對於一些分類器而言,並不是 所有特徵都是重要的,特徵選擇的目的是過濾對分類結果影響不大的特徵,以提 高機器學習和分類的效率。我們將 T1 到 T4 實驗結果的模型分別進行特徵選擇 的實驗。首先,我們用 Weka 的 Explorer 內提供的 SVMAttributeEval 將所有特徵 排序,接著從順位最低的特徵開始逐一移除,並逐次評估實驗結果。當實驗結果 仍在可接受的範圍內時,則移除該特徵;當實驗結果減少 0.01 以上時,則停止 移除特徵。T1 至 T4 分類的特徵選擇實驗結果如表 22 至表 25。

T1 分類的特徵重要性依序為 fd31、fd23、fd25、fd22、fd35、fd52、fd10、fd24、

fd34、fd21、fd41、fd53、fd42、fd33、fd32、fd51。經過特徵選擇後,T1 分類保 留的特徵為 fd31、fd23、fd25、fd22、fd35 等五個特徵。

T2 分類的特徵重要性依序為 fd10、fd31、fd35、fd52、fd22、fd21、fd24、fd25、

fd51、fd42、fd41、fd34、fd32、fd33、fd53、fd23。經過特徵選擇後,T2 分類保 留的特徵為 fd10、fd31、fd35、fd52、fd22 等五個特徵。

T3 分類的特徵重要性依序為 fd31、fd35、fd53、fd52、fd21、fd51、fd25、fd10、

fd32、fd42、fd23、fd33、fd22、fd24、fd41、fd34。經過特徵選擇後,T3 分類沒 有特徵被刪除。

T4 分類的特徵重要性依序為 fd31、fd24、fd22、fd35、fd32、fd34、fd53、fd10、

fd23、fd25、fd33、fd42、fd21、fd52、fd41、fd51。經過特徵選擇後,T4 分類刪 除了 fd51、fd41、fd52 個特徵。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 22 T1(正面/負面/中立)的特徵選擇實驗結果

依序移除的特徵 Accuracy Avg. P Avg. R Avg. F 未移除 0.7677 0.785 0.771 0.771 fd51 0.7677 0.780 0.768 0.767 fd32 0.7677 0.781 0.768 0.767 fd33 0.7687 0.783 0.769 0.768 fd42 0.7687 0.783 0.769 0.768 fd53 0.7698 0.784 0.770 0.769 fd41 0.7708 0.785 0.771 0.770 fd21 0.7698 0.784 0.770 0.769 fd34 0.7698 0.784 0.770 0.769 fd24 0.7698 0.784 0.770 0.769 fd10 0.7687 0.783 0.769 0.768

fd52 0.7677 0.783 0.768 0.767

fd35 0.7848 0.734 0.725 0.726 表 23 T2(正面/負面)的特徵選擇實驗結果

依序移除的特徵 Accuracy Avg. P Avg. R Avg. F 未移除 0.8761 0.886 0.878 0.877 fd23 0.8740 0.880 0.874 0.873 fd53 0.8756 0.882 0.876 0.875 fd33 0.8740 0.880 0.874 0.873 fd32 0.8740 0.880 0.874 0.873 fd34 0.8756 0.881 0.876 0.875 fd41 0.8797 0.886 0.880 0.879

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

fd42 0.8778 0.883 0.878 0.877 fd51 0.8759 0.882 0.876 0.875 fd25 0.8759 0.882 0.876 0.875 fd24 0.8759 0.882 0.876 0.875

fd21 0.8684 0.873 0.868 0.868

fd22 0.8623 0.869 0.863 0.862 表 24 T3(正面/非正面)的特徵選擇實驗結果

依序移除的特徵 Accuracy Precision Recall F-measure 未移除 0.8090 0.804 0.840 0.810

fd34 0.7985 0.800 0.799 0.798

表 25 T4(負面/非負面)的特徵選擇實驗結果

依序移除的特徵 Accuracy Precision Recall F-measure 未移除 0.8399 0.882 0.794 0.838

fd51 0.8456 0.850 0.820 0.837

fd41 0.8436 0.848 0.832 0.838

fd52 0.8417 0.847 0.842 0.841

fd21 0.8201 0.812 0.833 0.826

我們將文件層次的 16 個特徵對照到 T1 到 T4 經過特徵選擇之後的結果,如 表 26 所示,其中勾選的方格表示該特徵有被應用於對應的分類模型。從特徵的 被選擇次數可看出,對 T1 到 T4 的四種分類問題而言,負面意見句的比例、標 題的意見,以及結論的意見等三個特徵是相當重要的特徵;其次則是語句的平均 意見、中立意見句的比例,以及非正面意見句的比例等四個特徵;最後,和文章 分段有關的特徵,包含首/中/末三段的意見以及三段意見的加權平均等 5 個特 徵,以及文章字詞統計數字,包含文章的相對詞句數和每句平均詞數等 3 個特徵,

這 8 個特徵相較之下實用性較低。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 26 T1 至 T4 的特徵選擇對照表

特徵 意義 T1 T2 T3 T4 被選擇次數 fd10 語句的平均意見    3

fd21 正面意見句的比例   2

fd22 負面意見句的比例     4

fd23 中立意見句的比例    3

fd24 非負面意見句的比例   2

fd25 非正面意見句的比例    3

fd31 標題的意見     4

fd32 首段的平均意見   2

fd33 中段的平均意見   2

fd34 末段的平均意見   2

fd35 結論的意見     4

fd41 2/1/2 三段意見加權平均  1

fd42 1/2/3 三段意見加權平均   2

fd51 相對文章詞數  1

fd52 相對文章句數   2

fd53 每句平均詞數   2

使用特徵數量總計 5 5 16 13

(三) 文件層次分類錯誤之原因分析

從實驗結果中可發現,T1、T3、T4 分類的表現較 T2 差。我們發現文章層 次分類錯誤的原因與語句層次相似,皆是肇因於模稜兩可的情形,但不同的是,

文件層次的模稜兩可是表現在對屬性優缺偏好程度的不同。圖 10 是本研究訓練 資料中的兩篇在 Mobile01 上的產品介紹文章的總結部分。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 10 Mobile01 文章範例

這兩篇文章在寫作風格上相當類似,也因此其特徵值相當接近。在總結的部 份,我們可看到這兩篇文章皆列舉了各 4 條優點及缺點。如果我們從語句標記的 數量來看,這兩篇文章應屬於中立意見。但是對文章的閱讀者而言,這兩篇文章

由於 Eirinaki 等人(2012)的研究與本研究較為相關,同時包含了文章搜尋 和情感分類,且以系統建置的方式呈現其實驗成果。因此,我們將以本研究的實 驗結果與 Eirinaki 等人(2012)的結果比較。在其研究中,作為意見目標的產品 分別是吸塵器、相機,以及 DVD 播放器三種,而分類結果的評估是只對正面和

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

27 所示。語句層次特徵中與意見目標有關的特徵(fs41 至 fs43),以及與句子本 身有關的特徵(fs50),因為與文件層次無關,因此不採用。

圖 11 Eirinaki 等人(2012)與本研究之準確率比較 表 27 未經過語句層次的文件層次特徵

特徵代號 特徵意義

fs11, fs12 正向/負向意見詞比例 fs21, fs22 正向/負向搭配詞比例

fs31, fs32 修飾後的正向/負向意見詞比例

fd51 相對文章詞數

fd52 相對文章句數

fd53 每句平均詞數

我們將語料庫中的 934 篇文章以上述的方式抽取特徵,接著套用 T1 至 T4 的情感分類實驗設計及採用的評估方式和標準,得到的最佳結果如表 28。圖 12 至圖 15 是經過語句層次及未經過語句層次的分類結果之比較,其中的 S2D 是表 示經由語句層次的分類實驗(Sentence-level to Document-level),也就是本研究主 要的實驗結果,而 D-only(Document-level only)則是未經過語句層次的分類實 驗。我們可以看到,不論是 T1 至 T4 的任何一種分類實驗中,經過語句層次的

0.60 0.70 0.80 0.90 1.00

Best Worst T1 T2 T3 T4

Eirinaki等人(2012) 本研究

實驗結果顯著優於未經過語句層次的實驗結果(Paired T-test,p<0.05)。此結果 說明了以句子的意見為基礎的文件層次情感分類方式確有其必要。

Avg. F Accuracy

S2D

Avg. F Accuracy

S2D D-only

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 14 正面/非正面意見(T3)的分類實驗比較

圖 15 負面/非負面意見(T4)的分類實驗比較 0.00

0.20 0.40 0.60 0.80 1.00

F-measure Recall

S2D D-only

0.00 0.20 0.40 0.60 0.80 1.00

F-measure Recall

S2D D-only

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

伍、 雛型系統建置

相關文件