• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

二、 語句層次分類實驗

(一) 語句層次分類實驗設計

在介紹語句層次的分類實驗之前,我們先將上一小節所擷取的語句層次特徵 整理為表 13。

表 13 語句層次特徵(fs)列表

特徵 意義

fs11, fs12 正向/負向意見詞比例 fs21, fs22 正向/負向搭配詞比例

fs31, fs32 修飾後的正向/負向意見詞比例

fs41, fs42 意見目標與搜尋目標的關係

fs43 意見目標向上搜尋的句數

fs50 疑問句與非疑問句

雖然本研究試圖將文章以不同的分類方式,也就是正面/負面、正面/非正 面、負面/非負面,以及正面/負面/中立等四種,但是並不代表語句層次也應 採用相同的分類方式。在語句層次,我們應只關心如何將句子分類為正面/負面

/中立。原因在於三種句子的分類對文章層次的分類而言皆是有用的,以將文章 分類為正面/負面為例,若我們也只將句子只分為正面/負面,則有可能讓為數 眾多,且應為中立句的句子影響文章層次的分類。因此在語句層次,我們只需訓 練將句子分類為正面/負面/中立三種類別的分類器。

本研究採用 SVM 分類、簡單貝氏分類器(以下簡稱 NB),以及 KNN 分類 等三個在情感分類常見的監督式學習方法。在採用的機器學習軟體方面,SVM 採用的軟體為 Chang 與 Lin(2011)的 LibSVM,而 NB 和 KNN 採用的軟體為 Weka 3.619。因為 LibSVM 有可置入 Weka 的擴充套件,所以我們將在 Weka 的介 面執行 LibSVM,以便採用 Weka 的其他功能。然而,對於本研究的目的,也就

對於 SVM,我們分別嘗試了兩種不同的核心函數(Kernel Function),分別 是線性(Linear)核心和 RBF 核心。線性核心能夠調整的參數只有分類的 Cost,

我們嘗試了 0.5、1、2 三種不同的調整,共計 3 種實驗。RBF 核心可調整的參數 除 Cost 外尚有 Gamma 值。我們採用網格搜尋(Grid Search)的模式調整參數。

其中,Cost 的調整為 0.5 以 2 為等比遞增至 4,Gamma 的調整則從 0.015625 以 2 為等比遞增至 2,因此 SVM 的 RBF 核心共計 32 種實驗。對於 KNN,我們採用 奇數的 k 值,從 1 遞增至 9,共計 5 種實驗。NB 分類不需要調整參數,故只有 1 種實驗。J48 決策樹雖然可調整每個節點的最少樣本數,但由於句子的樣本數 較為足夠,因此我們僅將此參數固定為約樣本總數的 1/500,也就是 20 筆,以避 免過度符合(Over-fitting)的現象。本研究於語句層次的分類實驗共計 42 種。

我們以 Weka 內建的 Experimenter 進行實驗。因為我們將 11012 個人工標記 完成的句子全部加入訓練,因此採用 20-fold 交叉驗證(Cross Validation)評估實 驗結果。每種實驗將重複進行 5 次,取其結果的平均值。由於三種類別的樣本數

常用於情感分類的評估方式有 Accuracy、Precision、Recall 和 F-measure 等 四種。Accuracy 一般稱為準確率,是指在所有樣本中,被正確分類的樣本所佔的 比例。Precision 和 Recall 一般稱為精確度和回顧率,這兩個評估方式和一個特定 的類別有關,Precision 是指在被分類為某一類別的樣本中,被正確分類的樣本所 佔的比例,而 Recall 則是指在所有原本為某一類別的樣本中,被正確分類的樣本 所佔的比例。F-measure 則是 Precision 和 Recall 的調和平均數。

表 15 是一個分類為 0 和 1 兩個類別的混淆矩陣(Confusion Matrix)。所有 對應的 Precision、Recall 與 F-measure。若是不針對某個特定的類別,則可以計 算兩個類別的平均 Precision、平均 Recall 和平均 F-measure。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 15 混淆矩陣範例

原類別

被分類為 1 0

1 A B

0 C D

在語句層次的分類實驗中,我們不應特別關注於某一個特定的類別,因此在 表 14 中我們列出了準確率、平均 Precision、平均 Recall 和平均 F-measure 等四 個評估方式。其中,最高的準確率是 0.7775,其模型為 RBF 核心的 LibSVM,

Cost 參數為 4.0,Gamma 參數為 1.0;而最高的平均 F-measure 為 0.77,其模型 為 J48 決策樹。我們選擇平均 F-measure 最高的 J48 決策樹模型,原因在於平均 F-measure 可表現出正面/負面/中立三種不同類別被正確分類的平均情形。雖 然 J48 決策樹的準確率並非最高,但也未顯著低於其他分類方法(Paired T-test,

p<0.05)。因此,本研究決定採用 J48 決策樹預測語料庫中的所有句子,作為文 件層次特徵抽取的基礎。

(二) 語句層次分類錯誤之原因分析

在語句層次的實驗上,本研究並未取得相當優秀的結果。經過對分類結果的 觀察,我們發現這些分類錯誤的句子多半是屬於在正面/負面/中立三者之間模 稜兩可的情形。我們發現句子模稜兩可的情形會表現在一些具有假設情境或條件 式的句子上。比如:

「這台筆電對想做文書處理的人來說算是值得買了。」

從分類器的觀點來看,這句由於含有正向關鍵字「值得」,因此會被分類為 正向句。但是從人的觀點來看,則可能有以下多種不同的解讀:

1. 這台筆電已具有完成文書處理工作之能力,因此可解讀為正向句。

2. 這台筆電因為只對文書處理能力有用,所以可能不具有高階的效能或運 算能力,因此可解讀為負向句。

d 的平均意見為(5*1+3*(-1)+2*0)/10=0.2

相關文件