• 沒有找到結果。

第三章 研究方法

3.2 屬性詞人工擷取及分類

3.3.1 標記意見詞

我們初步先收集兩千篇評論當作練訓練語料,這些評論的字數在 30 到 100 範圍中,我們人工標記意見詞的位置、範圍、情緒極性(負、正、中立),及意見 詞所形容的屬性類別,標記語料如圖六所示。

圖 6:標記意見詞資訊

15

標記意見詞規則:

1. 先標記意見詞的位置。

2. 在標記意見詞的範圍中,我們把輔助意見詞的一些詞彙也給標記起來。例如:

副詞修飾意見詞:很、非常,動詞輔助意見詞:覺得、充滿,及否定詞反向意 見詞:不、沒有。

3. 標記意見極性,辨別這意見詞對於這部電影的意見方向,標記極性包括正向、

負向、中立意見。

4. 標記此意見詞所對應的屬性詞類別

甲、觀察意見詞的小句範圍內是否含有屬性詞,有屬性詞則到乙步驟,沒有 則到丙步驟。

乙、有屬性詞的話,並且不是“整體”類別就直接當作此意見詞配對的屬性詞 類別,如果是“整體”類別則需要觀察前一小句,是否含有其他類別的屬 性詞,及意見詞本身的形容是比較趨向哪一類的屬性詞類別。

丙、沒有屬性詞的話,再觀察前面一個句子,盡量尋找特徵詞,及觀察意見 詞本身的形容比較趨向哪一類的屬性詞類別,如果都找尋不到,就對應 到“整體”類別。

在兩千篇電影評論中,去除掉沒有意見詞的電影評論,最後剩下 1790 篇為 有效評論,在這些評論中標記了意見詞共有 5396 個,平均一個評論有 3.01 個意 見詞,極性統計如表七,屬性類別統計如表 9。

表 9:意見詞極性統計

意見詞極性 正向意見詞 負向意見詞 中立意見詞

次數 3968 1356 74

百分比 73.5% 25.12% 1.3%

在意見詞極性統計中,可以發現負向意見詞比正向意見詞數目少了許多,我 們可以觀察評論者使用的負向意見詞,這些負向意見詞很多時候是利用正向意見 詞加上否定詞來組合負向意見詞,例如:不好看、不清楚,所以造成標記負向意 見詞數量比較少的情況。

16

表 10:意見詞對應屬性詞類別統計

屬性詞類別 整體 劇情 特效、音效、背景 電影相關人物

次數 2432 1894 485 585

百分比 45.07% 35.1% 8.98% 10.84%

我們觀察意見詞形容的屬性類別情況,如表 10 所示。在每部不同特性的電 影,會影響各屬性類別所占的比率,例如:愛情片的評論都會偏向“劇情”類別,

若是科幻片性質的電影,就有比較多關於特效的評論,而大卡司、大導演的電影,

則會有較多提及演員、導演...等屬性的評論,但評論者大多都會評論整體、劇情 這類別,以至於這兩類別所占的比例較高。

3.3.2 意見

意見意見詞詞性組合意見詞詞性組合詞詞性組合詞詞性組合

在[Turney,2002]、[Ning et al. , 2010]...等文章中,都是利用詞性來探索意見 詞的組合,利用這些詞性組合序列,進而擷取意見詞,甚至抓出所形容的屬性詞。

本論文使用中研院斷詞系統對中文電影評論斷詞及標記詞性,再對應已標記的訓 練語料,觀察意見詞標記的詞性,進而整理出中文意見詞的詞性組合。

我們首先取出訓練語料中被標記意見詞的詞彙,並把這些意見詞斷詞後的詞 性整理歸納。表 11 統計全部意見詞的詞性組合,這些標記的意見詞可能含有詞 性為副詞、動詞...等輔助意見詞的詞彙,再按照標記意見詞的詞數及出現頻率依 序展示。

表 11:標記意見詞詞性統計

意見詞詞性組合 標記頻率 涵蓋率

單詞 V 2158 40%

N 285 5.3%

ADV 50 0.92%

FW 24 0.44%

雙詞 ADV+V 1780 33%

V+V 275 5.1%

V+N 43 0.8%

ADV+N 28 0.52%

ADV+ADV 21 0.39%

A+V 19 0.35%

ADV+FW 19 0.35%

17

V+ Nep 16 0.3%

V+ADV 16 0.3%

N+V 15 0.25%

三詞 ADV+ADV+V 54 1%

V+ADV+V 44 0.81%

ADV+V+V 20 0.37%

ADV+V+N 17 0.31%

V+ Nep + N 12 0.22%

在中研院斷詞系統中,動詞、副詞、名詞可分為很多子類別,例如動詞有 VC(動作及物動詞) 、VH(狀態不及物動詞)等,但是我們觀察訓練語料中的統計 結果,意見詞並無特別偏向哪一小類的動詞或名詞,還是有其他小類的動詞出現,

所以在這部分我們忽略子類別詞性,只考慮大類的詞性。

首先我們觀察在語料中出現次數前四多的詞性組合,總共占九成多的標記意 見詞頻率,幾乎涵括全部意見詞的詞性組合,所以先探討這四種詞性標記,如表 12所示。

表 12:前四大類詞性組合

詞性組合 例子 相關詞性組合 次數 涵蓋率

單詞 1. V 好看、感動、推薦、不 錯

2158 40%

2. N 普普、刺激、超帥、超 棒、老梗、超讚、爛片

ADV+N 285 5.3%

雙詞 3. ADV+V 很值得、非常好笑、很 好看、太失望、很喜歡

1.

ADV+ADV+V 2. V+ADV+V 3. ADV+V+V 4. ADV+V+N

1942 36%

4. V+V 覺得好笑、充滿溫暖、

值得推薦、超喜歡、有 感人

275 5.1%

意見詞四大詞性組合:

1. V:由單一動詞所組成的意見詞,約占全部 40%的意見詞詞性是最大比例的詞 性,利用訓練語料收集當作意見詞。藉由統計可以得知出現頻率較頻繁的詞 性 V,有將近八成以上的詞彙量會重複在 ADV+V 詞性組合中的動詞,所以 可以利用 ADV+ V 的詞性組合序列擷取含有意見的單一動詞(V)。

2. N:由單一名詞組成的意見詞。評論者有時會使用一些名詞來表達情緒,例如:

刺激、爛片...等詞彙,我們利用訓練語料擷取具有意見的名詞詞彙。相關的 詞性組合(ADV+N),例子:超正、最經典。

18

3. ADV+V:由副詞加動詞所組成的意見詞詞性標記,與單一動詞(V)重疊率高,

我們取後面動詞當作意見詞。副詞通常是一些加強輔助意見詞的副詞,例如:

很、太、非常。相關詞性組合則有四組,如表 12 所示。

4. V+V: 我們取出第二的動詞來跟 ADV+V 的動詞比較,將近有八成詞彙的重 複,具有很大的相似性,我們取句型中的第二個動詞當作意見詞。第一動詞 通常是輔助形容後面的意見詞,例如:覺得、充滿。

我們從標記評論語料統計可看出意見詞大多以動詞為主,前三組比例高的詞 性組合都與動詞 V 相關,約占標記總次數 86%,出現次數第四高的名詞也是主 要表達意見的詞性,所以接下來重點是放在動詞及名詞這些比較含有意見成分的 詞性,以它們為中心來尋找詞性組合規則。我們在這步驟中收集 588 個單一動詞、

121 個單一名詞當作意見詞。

除了上述這四類詞性組合之外,還有一些數量較少但也有固定詞性規則可以 整理,如表 13 所展示的三種詞性組合。

表 13:其餘詞性組合

詞性組合 例子 相關詞性組合 次數 涵蓋率

1. FW Nice、Good ADV+FW 43 0.8%

2. V+N 沒有冷場、沒有看頭、有笑 點、沒有劇情

43 0.8%

3. A+V 超級好看、超級感人 19 0.35%

1. FW:外國語文標記。相關詞性組合:ADV+FW,例子: 很 nice,我們從標記語 料中取這些外文標記當作意見詞。

2. V+N:在這詞性組合中的動詞大多是否定詞或肯定詞,我們統計出現次數前 五高的動詞如下無、絕無、沒、沒有、有。這種詞性組合常會出現“沒有劇 情”這類否定詞加上屬性詞的組合。當只有單一名詞“劇情”在句子中是沒有 含有意見,通常就是“沒有”、“有”這些動詞加上電影屬性詞才會有表達意見,

這部分我們藉由否定詞加上屬性詞擷取整個意見詞。

3. A+V:非謂形容詞加動詞組合,動詞與先前收集的單一動詞幾乎重疊,我們 取後面動詞當作意見詞。

上述的詞性組合是比較有規則性可循,出現次數也是前七多,這些詞性組合 占全部次數九成以上為主要意見詞的詞性組合。

剩下的詞性組合是標記頻率較少及寫法比較口語化的,這一些意見詞不是只 有單一詞彙所組成,我們利用訓練語料挑選作為有用的意見詞,如表 14 所示。

19

表 14:頻率較少的詞性組合

詞性組合 例子 相關詞性組合 次數 涵蓋率

1.ADV 草草、沒話說 ADV+ADV 70 1.3%

2.V+ Nep 沒什麼、沒啥、沒啥重 點、沒什麼內容

V+ Nep +N 28 0.52%

3.N+V 熱血沸騰、闔家觀賞 15 0.25%

4.V+ADV 悶一點、超正 16 0.29%

5.V+N+V 令人感動、沒話講 19 0.35%

1. ADV:我們收集這些單一副詞作為意見詞,舉例:草草、沒話說。

2. V+Nep: 由動詞加指代定詞組合而成這些詞彙組合幾乎屬於負向的意見,

我們收集這些詞組當作意見詞。

3. N+V: 這組合幾乎屬於成語性的句子,我們收集這些詞彙當作意見詞。

4. V+ADV: 在這句型中的 V 將近六成會出現在 V 單一詞中,但對有些口語化 的詞組,例如:“超正”的詞性組合不太符合斷詞規則,我們利用訓練語料收 集這些詞彙作為意見詞。

5. V+N+V: 這詞性組合中的第二動詞將近有七成是跟 V 單一詞重疊,我們取 最後動詞當作意見詞,在前面“V+N”,都大多是“讓人”、“令人”的字眼。特 殊用法例如:沒話講,我們從訓練語料收集這一些詞彙。

3.3.3 建立意見詞詞性

建立意見詞詞性建立意見詞詞性組合序列建立意見詞詞性組合序列組合序列 組合序列

在上一節語料統計中可得知動詞及名詞是比較具有意見的詞性,所以以動詞、

名詞為主要來建立詞性組合序列。我們在雙詞、三詞為基礎對標記語料進行探索。

觀察標記語料統計的三詞,發現三詞的詞性組合無顯著偏向固定組合,所以我們 以雙詞詞性建立詞性組合序列,在標記單詞意見詞的部分,是利用前面一個詞及 後面一個詞結合產生雙詞,在標記雙詞意見詞的部分是直接搭配使用,在三詞意 見詞的部分,是把前面兩個詞及後面兩個詞當作雙詞。我們把這些收集的雙詞詞 性加以統計,前十多次數的詞性組合如表15所示。

表 15:意見詞雙詞統計結果

雙詞詞性組合 次數 覆蓋率

ADV+V 2481 51.02%

V+V 627 12.9%

N+V 396 8.14%

V+N 316 6.50%

DE+V 144 2.96%

Nf +V 100 2.06%

SHI+V 78 1.60%

20

N+N 66 1.36%

FW+V 62 1.28 %

ADV+N 53 1.09 %

我們觀察表15並考慮上一節討論到動詞、名詞為主要意見詞性,在動詞的部 分我們取次數前四多的雙詞組合當作擷取詞性組合序列,這些詞性組合是比較符 合擷取動詞意見詞的需求,四種詞性組合序列如下:ADV+V、V+V、N+V、V+N,

我們擷取裡面的動詞當作意見詞。另外一方面在名詞部分,我們則是把ADV+N 當作意見詞雙詞詞性序列擷取名詞。利用這些詞性序列擷取詞彙來擴充意見詞。

在本篇論文中我們使用上述五種組合來擷取意見詞,各個詞性序列的詳細資料如 表16所示,表格中原本詞彙是指原本意見詞出現次數與比例,擴充詞彙則是後來

在本篇論文中我們使用上述五種組合來擷取意見詞,各個詞性序列的詳細資料如 表16所示,表格中原本詞彙是指原本意見詞出現次數與比例,擴充詞彙則是後來

相關文件