• 沒有找到結果。

種子詞彙的擴充(同類別)

第三章 研究方法

第四節 種子詞彙的擴充(同類別)

經過四種規則擷取後,可以得到一些正向和負向的種子詞彙。接著將這些詞 彙使用廣義知網進行擴充。以種子詞彙「合理」為例,如圖 9 所示。

圖 9:詞彙「合理」在廣義知網的資訊

詞彙「合理」的下方有 Sentiment 的說明:共有 6 種屬性,分別是 score(極 性分數)、positive(正向)、neutral(中性)、negative(負向)、non_opinion(非意 見詞)、non_word(非詞彙)。本研究只考慮 positive 及 negative 兩種。若 positive 屬性欄位中有出現大於 0 的值,便把詞彙定義為正向;反之若 negative 屬性欄位 中有出現大於 0 的值,便把詞彙定義為負向。但不是每個詞彙都只會有 positive 或 negative 中的某一種屬性。以詞彙「保守」為例,如圖 10 所示。「保守」有兩 筆資料,且在廣義知網中出現雙極性的情形:positive 及 negative 屬性均出現大於

為了以利後續說明,因此把這種雙極性稱為「廣義知網中的雙極性詞彙」。

圖 10:詞彙「保守」在廣義知網中的資訊

並非每個詞彙都有情緒屬性的標記,以種子詞彙「高明」為例,如圖 11 所 示,可以看出「高明」並沒有 Sentiment 項的說明。

圖 11:詞彙「高明」在廣義知網的資訊

本論文提出的擴充方式主要是基於廣義知網對同一個類別中的部份詞彙有

明」為例,「高明」屬於「wise|智」分類,如圖 12 所示。

圖 12:類別「wise|智」

首先將「wise|智」分類中的詞彙全部納入種子詞彙「高明」的擴充詞。接著 以投票的方式定義類別的極性,採取多數決。分別對「wise|智」中所有詞彙查詢,

發現「有頭腦」、「足智多謀」、「明智」、「知人」、「英明」、「睿智」、「天才」均有

Sentiment 的說明,且 positive 屬性值均大於 0。因此透過多數決將「wise|智」這 個類別中的詞彙均定義為正向極性。

由於使用多數決的方式,因此某個詞彙的極性可能在擴充的過程中發生改 變。以詞彙「非同小可」為例:「非同小可」屬於負面極性,「非同小可」又屬於

「important|重要」分類,如圖 13 所示。但「important|重要」分類經過投票後被 判定為正面極性。因此詞彙「非同小可」從負面極性被改為正面極性。

圖 13:「非同小可」於「important|重要」之情形

猜測類別成員的可能詞性組成。因此本研究透過種子詞彙來篩選類別。若種子詞 彙在該類別中是以詞性為「形容詞類」、「動詞類」的型式出現,則將該類別作多 數決判定,納入擴充詞彙區中;反之其它詞性則不予擴充。

擴充的階段會遇到另一種雙極性問題(有別於上述「廣義知網中的雙極性詞 彙」),就是某個詞彙在收錄的過程中,於正面、負面極性類別均有出現,因此產 生矛盾。為此統計兩個極性類別中該詞彙的出現次數,以高者判定。舉詞彙「熟」

為例,「熟」在擴充過程中總共收錄三筆資料。分別出現在「familiar|熟悉」、「very|

很」、「processed|已加工」三個分類中。可以發現「very|很」屬於負面分類,如圖

14;「familiar|熟悉」、「processed|已加工」屬於正面分類,如圖 15、圖 16。最後 將「熟」判定為正向詞彙。

圖 14:詞彙「熟」於「very|很」分類中的情形

圖 15:詞彙「熟」於「familiar|熟悉」分類中的情形

圖 16:詞彙「熟」於「processed|已加工」分類中的情形

由於無法事先知道詞彙於電影評論中是在何種情形下被擷取,因此必須考慮 所有的出現情形。使用統計的方式是因為雖然某些詞彙在正、負向類別均出現 過,但實際上根據詞性和用法的不同,大部份的情況中它可能傾向某一種極性。

有別於「廣義知網中的雙極性詞彙」,我們將此種雙極性命名為「擴充過程中產 生的雙極性詞彙」。但當詞彙於正、負面類別中出現次數相同時,將無法以此種 投票方式決定極性,無法投票的詞彙將留待後續處理。(請見第三章第七節)

以此類推,將規則(一)(二)(三)(四)收集到的所有種子詞彙透過同樣 的方式進行擴充,最後再與人工分類的結果做比較。