• 沒有找到結果。

第三章 研究方法

第六節 利用 NTUSD 的擴充

此部份中應用 NTUSD positive 以及 NTUSD negative 兩份語料做進一步的擴 充,試圖納入更多電影評論中可能出現的情感詞彙。

NTUSD 為一份詳細標記極性的語料庫。除了情緒詞彙本身,甚至包含該詞 彙的相關用法、可能出現的句型。例如:詞彙「不凡」被歸類為正向極性詞彙;

相關的詞彙「不凡的人」同樣被歸類於正向極性詞彙中。「不凡的人」中多出了

「的」以及「人」兩個修飾詞彙。我們需要的關鍵是極性詞彙本身,而非相關的 修飾詞。雖然一個詞彙越是明確、描述的越仔細,判斷時的正確率越高;但另一 方面修飾詞卻可能影響擴充時的效率。為此本研究決定過濾掉修飾詞。

為了取出具有明確極性的詞彙,於是將 NTUSD positive 以及 NTUSD negative 分別經過斷詞系統做分析。由於不確定斷詞後的情緒詞彙將被判定為哪些類型的 詞性,為了盡可能增加擴充詞彙,同時不漏掉和習慣上認知類型不同的詞彙,因 此本研究統計了「形容詞」類型(如表 14 中的 A:非謂形容詞)以及所有的「動 詞」類型(如表 14 中的 VA:動作不及物動詞),對應 NTUSD positive 以及 NTUSD

表 14:NTUSD positive 斷詞後之詞性分類

表 15:NTUSD negative 斷詞後之詞性分類

詞性 詞性說明 部分範例 數量

VI 狀態類及物動詞 心軟、沒辦法、漠不關心 35

VJ 狀態及物動詞 鄙視、厭倦、談不攏 203

VK 狀態句賓動詞 抱歉、擔憂、歸咎於 108

VL 狀態謂賓動詞 擅、後悔、招致 27

總計 3755

電影領域中的情感詞彙,大部分是一般人平常認知的「形容詞」,也就是表 中的狀態類動詞。例如:「VH:狀態不及物動詞」便相當具有代表性。但有些詞 彙如:表 14「VF:動作謂賓動詞」的範例「鼓勵」;表 15「VG:分類動詞」的 範例「批評為」,都是評論中可能出現的極性詞彙。因此本研究決定將所有的「形 容詞」、「動詞」拿來作為再次擴充時的種子詞彙。

去除重複出現的情形後,positive 部份共有 1270 種辭彙;negative 部份共有

3743 種詞彙,這與上表兩部分總計的數量不符。原因是 NTUSD 的詞彙有些是以

「短句」的方式出現。在經過斷詞系統處理後,可能由於極性詞彙在句子中的出 現位置、語法結構不同而被判定為不同的詞性。以 NTUSD negative 的「過度」

為例,如表 16。在 NTUSD negative 中,「過度」出現在以下幾種情形中:

表 16:NTUSD negative 中「過度」的出現情形

「過度」的詞性判定

工作過度 (A)

工作過度的 (A)

過度 (Dfa)

過度的 (VH)

過度的疲勞 (A)

表 16 中「Dfa:動詞前程度副詞」並非「形容詞」類型或是「動詞」類型,

將之過濾後,可以發現「過度」在此會有兩種不同的詞性判定(「A:非謂形容 詞」、「VH:狀態不及物動詞」),因此將造成統計數量上的不同。不過此處的 目的只在於取出種子詞彙,擴充的部份將由廣義知網進行,所以可暫時忽略詞性 的問題。

最後將此部分的詞彙進行擴充。直接使用第五節:種子詞彙的擴充(同階層)

的方式;不再做基礎的同類型擴充。由於作法相同,因此雙極性詞彙的問題也是 採取同樣的處理模式。