• 沒有找到結果。

第三章 研究方法

3.1 語料處理

我們從 Yahoo!奇摩電影9網頁上收集電影評論,這網路平台提供電影的相關 資訊,包括預告片、票房、使用者評論、使用者評分、電影類型、演員、導演...

等,也是台灣網站中含有最多電影評論的網路平台,如圖二所示。

使用者觀賞完電影之後,使用者可能會來此網站打下他對於這部電影的評論,

並且對這部電影來評分。奇摩電影將電影分為 1-5 顆星,1 顆星是低評價,5 顆 星則是高評價。在中文電影評論而言,奇摩電影平台屬於熱門的電影網站,擁有 許多相關的電影評論,而想去觀賞一部剛上檔電影的人們,常會來這網路平台查 看此部電影的評價,當作選擇電影的依據,使用者的電影評論特色及評分如圖三

9 http://tw.movie.yahoo.com/

屬性詞資料庫 中研院斷詞

屬性詞人工 擷取及分類

人工標記意見詞

探索詞性規則 同義詞詞林

維基百科

意見詞資料庫 電影評論

自動化篩選及 擴充

意見詞與屬性詞 類別配對

屬性詞類別評分

電影評分結果 測試語料

10

所示。

圖 2:奇摩電影首頁

圖 3:奇摩電影評論

在奇摩電影的網頁平台中,大家都可以隨時隨地留下電影評論,比較沒有評 論電影的限制,可以讓使用者自由發揮,所以含有較多的電影評論,但也因為如 此這些評論比較屬於自由,口語化的寫作方式較多,而跟專家寫的專業評論不太 相同。從圖三例子可發現此電影語料的特性,在標點符號這部分,有些人寫電影 評論,都習慣用空格來斷句,及符號接連出現的情況,需要考量這些因素避免將 電影評論斷句錯誤。處理空格的部分是用逗號來替代掉,而對符號接連出現的情

11

況,則縮減成一個符號。在這口語化的電影評論中,也常會出現不完整的句子結 構,例如:找不到主詞的情況,如果使用語法結構樹剖析句子,也比較難整理出 標準的句型,所以我們經常遇到意見詞找不到形容的屬性詞,這就是意見句中沒 有主詞。這些都是評論語料的特性,也是我們要克服的問題。

在奇摩電影的電影資料庫中,總共將近有四千部電影的資訊。我們從裡面收 集 226 部電影,每部電影都至少含有一百個電影評論。對於每個評論長度取一定 範圍內,我們取字數 31 到 100 的評論當作訓練語料,約占全部中文評論語料 47%。

統計 85636 篇電影評論,各個評論的字數統計如表 6。

我們使用中央研究院詞庫小組的中文斷詞系統10進行斷詞與詞性標記,進而 對於中文語料做後續處理。我們使用標點符號「! ? 。」將評論分割為長句,再 利用「, ; 。 ? ! ~ . @ ,」將評論分割為小句。

表 6:評論字數分布

字數 1-10 11-20 21-30 31-51 51-100 101-200 201-300 301- 頻率 5940 9328 9553 16099 23892 14729 3682 2674 比率 6.9% 10.8% 11.1% 18.8% 27.9% 17.2% 4.3% 3%

3.2 屬性

屬性屬性屬性詞詞詞詞人工人工人工人工擷取擷取擷取擷取及分類及分類及分類及分類

電影屬性詞是一群形容電影相關的詞彙集,包括電影的整體、特色、內容...

等。我們利用從奇摩電影網站上五千篇電影評論,手動標記與電影相關的屬性詞,

不包含人名全部收集 411 個屬性詞。在電影演員名字及導演名字處理,因為這些 演員都屬於外國人較多,在翻譯人名的辨識的研究中,李振昌等人 [1994]使用 注音音節來辨識,但辨識翻譯人名效果有限。古倫維等人 [2009]利用出現頻率 來組合斷詞後的人名,但這需要一定的訓練語料。本篇論文我們從奇摩電影網頁 中自動擷取這些演員、導演名稱,經過中研院斷詞系統(CKIP),斷詞後的每個詞 彙視為人名,以影星“萊恩雷諾”為例,斷詞之後變成“萊恩 雷諾”,把萊恩和雷 諾視為演員名字,評論者常會打部分的翻譯人名,在這情況下也可以尋找人名。

在電影評論中,有些評論者常會用暱稱來稱呼演員,我們利用 WIKI 維基百科11中,

介紹個別演員的網頁,收集含有暱稱的演員網頁,把這些暱稱收集成為演員名字,

例如:周星馳之星爺,如圖四所示。

10 http://ckipsvr.iis.sinica.edu.tw/

11 http://zh.wikipedia.org/

12

圖 4:維基百科演員暱稱

[Zhuang et al. , 2006]文章中,電影屬性詞被分為六類,包括 overall (OA) , screenplay (ST),character design (CH),vision effects (VP) ,music and sound effects (MS) ,Movie-related people(director and actor)。在本篇論文中參考上述文章的屬 性詞分類,及觀察中文電影評論網站12,這個網站評分項目為劇情、演員、音樂、

整體,兩者對照之後把比較有關連的特徵類別合併起來,最後將電影屬性詞分類 為四類,包括整體(戲、片子)、劇情(劇本、故事)、特效音效環境(3D、場景、音 樂)、電影相關人物(演員、導演)等四種屬性類別,表 7 列舉電影屬性類別部分詞 彙。

表 7 中斜體字是代表此屬性詞難以固定在一個屬性類別,可以同時存在兩種 屬性類別。這種情況在“整體”和“劇情”類別中比較多,有些屬性詞同時可以形容 兩個類別,其餘兩個特效、電影相關人物的屬性類別相對來講比較獨特,而這類 的屬性詞出現數量也比較少。首先我們盡可能把屬性詞分類,如果沒有適合的屬 性詞類別,則會把它分類到電影“整體”類別。如果我們遇到屬性詞可以同時存在 兩個類別以上,額外在這屬性詞的前面抓取詞彙,範圍是兩個詞彙,如果有抓取 到屬性詞,則重新對應新的屬性詞類別,如果沒有則對應原本的屬性詞類別。舉 例:“這特效拍得很棒”,這邊屬性詞“拍”原本是屬於“電影相關人物”的類別,但額 外抓取在前面的“特效”屬性詞,我們會重新指向為“特效”類別,因為屬性詞“拍”

不是指向“電影相關人物”類別。

12 http://channel.pixnet.net/movie

13

表 7:各屬性詞類別列舉 屬性詞類別 詞彙

電影整體 電影、影片、片子、戲、整體、總體、片、概念、手法、主線、

感覺、表現、路線、題材、印象

劇情 劇本、結局、故事、情節、腳本、劇本、對白、演戲、對打、

幕、打、氣勢、功夫、過招、出招 特效、音效、

場景

3D、視覺、特效、顏色、色彩、音樂、歌曲、配樂、風景、動 畫、運鏡、背景、景色、情景、場景、景色、佈景、環境、

效果、手法、幕

電影相關人物 男主角、女主角、人物、角色、個性、導演、演員名字、導演 名字、演技、武術、動作、拍出、拍到、拍

我們把屬性詞分為四種類別的目的是讓意見詞指向所評論的類別,我們使用 者可以明確地知道,這部電影在四種屬性詞類別中各自評價,假設使用者比較注 重“特效”這類別,就可以單獨查詢“特效”類別評價,舉例評論:這部電影的特效很 好,但劇情很薄弱。使用者可能就關注“特效”這類別的好評價,而忽略劇情“類 別”的壞評價。所以需要這些分類好的屬性詞類別,方便使用者查看自己關注的 類別評價。

個別屬性類別統計詞性如表 8 所示,其中將近 77%的屬性詞詞性是為名詞,

20%的屬性詞詞性為動詞,其他詞性則為 3%。我們發現電影屬性詞不全然是名 詞,存在著其他詞性的屬性詞,所以不能只是單純收集名詞作為電影屬性詞。

表 8:四種屬性詞類別統計

屬性詞類別 名詞 動詞 副詞 外文 數量定詞 形容詞 屬性詞比率

整體 63 7 2 0 1 0 73 (18%)

劇情 108 55 1 1 1 1 167 (40%) 特效、音

效、場景

66 8 0 5 0 0 79 (19%) 電影相關人

78 13 0 1 0 0 92 (23%) 總合 315(77%) 83(20%) 3 7 2 1 411

我們考慮評論者會使用不同的詞彙來表達相同的屬性詞,例如:“劇本”,有 些人會稱作“腳本”、“臺本”,但其實是說明同一個屬性詞。Ding et al. [2008]首先 人工收集產品的屬性詞,再利用這些屬性詞的同義詞當作擴充,因此我們使用同 義詞詞林[梅家駒 ,2006]擴充屬性詞,我們把同義詞詞林建成資料庫如圖五,利 用程式去自動抓取同義詞,我們發現有些詞彙並不適合在電影領域使用,所以透 過人工檢視篩選適合電影的屬性詞。各個電影屬性詞類別的擴充數量,整體為 68 個、劇情為 237 個、特效音效為 52 個、電影人物為 49 個,總共擴充 406 個 屬性詞。原本收集了 411 個屬性詞加上擴充的詞彙,我們總共收集 817 個電影屬

14

性詞詞彙。

圖 5:同義詞詞林資料庫

3.3 意見詞擷取

意見詞擷取意見詞擷取意見詞擷取

在電影評論中的意見詞是比較屬於獨特的領域,某些意見詞是常形容在電影 領域評論上,而不常形容在其他領域的,反之亦然。以台大 NTUSD 情緒字典為 例,電影評論中最常使用的“好看”、“不錯看”...等意見詞詞彙,在一般的情緒字 典卻不存在。另外一方面在電影領域中,意見詞的情緒極性會與其他普遍領域的 意見詞極性有所不同,以台大情緒字典而言,可怕、刺激這些詞彙中,它是列在 負向意見裡面,然而在電影恐怖片中,通常是形容正向意見的情況有所不同,這 些因素都是做電影評論的挑戰。由於電影評論的獨特性,我們建立一個專屬電影 領域的意見詞詞彙庫。

我們首先利用人工標記意見詞的方法,探索哪些詞性較可能含有意見表達。

全方面地統計這些意見詞的詞性組合,整理出雙詞詞性組合,並且利用這些雙詞 詞性組合序列自動去辨識更多意見詞,經過篩選存成專屬電影的意見詞詞彙庫。

3.3.1 標記意見詞

標記意見詞標記意見詞標記意見詞

我們初步先收集兩千篇評論當作練訓練語料,這些評論的字數在 30 到 100 範圍中,我們人工標記意見詞的位置、範圍、情緒極性(負、正、中立),及意見 詞所形容的屬性類別,標記語料如圖六所示。

圖 6:標記意見詞資訊

15

標記意見詞規則:

1. 先標記意見詞的位置。

2. 在標記意見詞的範圍中,我們把輔助意見詞的一些詞彙也給標記起來。例如:

副詞修飾意見詞:很、非常,動詞輔助意見詞:覺得、充滿,及否定詞反向意 見詞:不、沒有。

3. 標記意見極性,辨別這意見詞對於這部電影的意見方向,標記極性包括正向、

負向、中立意見。

4. 標記此意見詞所對應的屬性詞類別

甲、觀察意見詞的小句範圍內是否含有屬性詞,有屬性詞則到乙步驟,沒有

甲、觀察意見詞的小句範圍內是否含有屬性詞,有屬性詞則到乙步驟,沒有

相關文件