• 沒有找到結果。

第三章 研究方法

第二節 研究資料

(一) 研究材料

劇本實驗資料來自金穗獎優良電視劇本網站(http://www.movieseeds.com.tw/),

本研究挑選 12 篇劇本進行分析與測試,總共有 493,629 個字,檔案大小為 1749.7KB。金穗獎優良劇本網站如圖 6 所示。本研究使用的 12 篇劇本皆可以由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文,12 劇本名稱及資訊如下所示:「他 們在畢業前一天爆炸」作者王盈心,共 41,253 個字、「人狼謎蹤」作者楊皓鈞,

共 41,593 個字、「再見全壘打」作者王瑋/陳佳鍵,共 30,047 個字、「我心凝望的

17

愛情」作者吳美枝,共 37,440 個字、「哈皮與嬉皮」作者黃淑筠,共 38,261 個字、

「神棄」作者施君涵,共 33,432 個字、「球來就打」作者涂芳祥,共 65275 個字、

「野馬小鴨頭」作者徐錫彪/王瑄錡,共 47,748 個字、「黃金甲子園」作者魏德聖 /陳嘉蔚,共 51,259 個字、「搏浪」作者周美玲,共 30,641 個字、「十二月三十二 日」作者林真豪,共 65,636 個字、及「我的超級阿公」作者高顥中/謝柏逸,共 27,158 個字。挑選金穗獎劇本的原因,是因為這些劇本有很多已經被翻拍成電視 劇播出,像是「我們在畢業前一天爆炸」片長約 110 分鐘、「球來就打」片長約 135 分鐘,可供後續相關研究使用,而最後本研究採用的評量方式是以人力提供 標準答案的方式,評定結果是否有效益。

本次實驗挑選劇本的方式是屬隨機挑選,並無特定方式,因本次實驗試想在 隨機情況下去找出實驗結果,所以可以看到挑選的劇本長度、句數與場景個數皆 有差異存在。

圖 6 金穗獎優良劇本網站

18

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (http://ckipsvr.iis.sinica.edu.tw/)分析劇本,

並找出所有的詞性特徵。本研究首先將劇本分成每 10 個場為一個段落(目前先假 定每個劇本會下廣告的時間為 10 個場),接著將每個段落內容輸入中文斷詞系統,

輸出結果如圖 7 所示。

圖 7. 中文斷詞系統之輸出範例

場景即是在某場景開始但還沒換下一場景時的單位,目前觀察以 10 個場景 為一段落,嘗試尋找規則。以劇本 1 為例,1-10 場景 3025 字、11-20 場景 2917 個字、21-30 場景 2743 個字、31-40 場景 3939 個字、41-50 場景 4154 個字、51-60 場景 2376 個字、61-70 場景 3684 個字、71-80 場景 3139 個字、81-90 場景 1877 個字、91-100 場景 3132 個字、101-110 場景 3079 個字、111-120 場景 3116 個字、

121-end 場景 4056 個字,觀察發現本實驗以 10 個場景為一段落在字數長度上每 段並無太大差異,顯示 10 個場景為一段落是有效的方法,在未來研究上可以將 定段落方法給予更多的彈性,例如設定每個段落字數、設定每個段落長度等,擴 大研究方向。

接著如表 2 所示,會看到 NA、NB、NC、NCD、ND、VA、VB、VAC、VC、

19

20

本研究使用中文斷詞系統資訊的方法如下:

1. 找出每個詞的字頻

常常出現的字可能是很好的線索,可以用來找出段落內最佳的廣告 產品,本研究將排序所有段落的重點度高低,使用字頻當作參考依據。

本論文中重點度的定義將在下面「人工評斷重點度」詳述。

2. 從高頻率的詞中找出可用的特徵詞

好的特徵可以當做自動化過程的重要指標,本研究需先比對找出真 正有價值的特徵,詳細的方法將在下面「人工評斷重點度」詳述。

(三)人工評斷重點度

本論文中的重點度是指劇本某個段落的吸引程度,或是使人印象深刻的高低 程度。本方法的目的在於利用可用的剖析後詞性,自動地決定劇本中所有段落的 重點度,這樣就可以排序所有段落,此資訊可以提供廣告商一些依據,讓廣告商 決定是否要在高重點度的段落內下廣告。

因為目前並沒有公開可以用的語料庫是關於本研究主題的,所以本論文採用 人工方式標定劇本各個段落的重點度,以便作為後續研究之用,並評斷可行之方 法以達到最佳的效益。圖 8 為經過人工標定後所有劇本重點度的分布狀況。

重點度是人工評斷的重要準則,以評分者來說,是以這個段落是否可以讓他 們有深刻的印象而決定重點度,在本論文中,重點度的分數為1-5共5等第,5代表 印象最深刻、最吸引人,1則是指對該段落印象最不深刻。在圖8的劇本一的段落 21-30是評分為5的高分區,劇本內容因為有跟蹤者與揭穿秘密的感覺,讓評分者 覺得印象深刻。該段落的對話有:「我們明天去跟蹤小柔好不好?」、「我管妳 來不來得及!現在就上樓跟他說分手!不然明天就讓全校知道!小柔瞪著阿 丁。」,低分區則是沒有讓評分者有以上的感覺即是低重點度段落。

而人力標定詞(或稱人力預測廣告詞)是評斷人員看完劇本後,評斷劇本中印

21

象最深刻的名詞是那些。在評斷者標定時,可能會出現2個或2個以上的詞印象比 較深刻,本研究要求標定最深刻的一個當作人力標定詞,以供研究使用。

圖 8. 所有劇本重點度的分布狀況

在圖8中,以劇本一為例,1-10(2)表示段落1-10重點度分數為2、11-20(4)表示 段落11-20重點度分數為4。其中段落1-10的內容會被評為2分的原因,是評分者認 為該段落太過於無趣、太多鋪陳,像是劇本內「這裡是高中大禮堂,密密麻麻的 座位,只有浩遠站著,特別醒目。校長在台上講話。校長:…大家初到學校來,

要瞭解學校各方面的制度和規章,並且要聽從各級師長之教導,去行動、力行,

22

才能做個好學生…」,而段落11-20會被評為4分,評分者認為是內容具精彩成分,

像是劇本內「浩遠握緊雙拳,他似乎看開了,開始醞釀打架的心情。」評分者說 這種片段有著動作的感覺,較為精彩。

本研究對人力評分出來的重點度高低做一致性測試,是以Kappa這個方法來 做一致性的測試,公式如下:

κ𝑤 =∑ 𝑤𝑓0− 𝑤𝑓𝑐

𝑛 − ∑ 𝑤𝑓𝑐 , 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑖𝑐 𝑤𝑒𝑖𝑔ℎ𝑡 = 1 − (𝑖 − 𝑗 𝑘 − 1)

w𝑓0表示每種不一致情況的加權頻率,w𝑓𝑐表示每種不一致情況的預期加權頻 率,𝑘是序位的個數,(𝑖 − 𝑗)是不一致性的程度。三位評分者(以下稱甲、乙、兩)

互相比較評分分數的分布如表 3、表 4 與表 5。

表3. 評分者甲與評分者乙的分數分布統計 乙 甲 1 2 3 4 5

1 1 2 2 2 2 9

2 1 5 6 7 6 25

3 1 3 25 24 17 70

4 1 4 22 28 19 74

5 1 5 29 36 27 98

5 19 84 97 71 276

23

表 4. 評分者甲與評分者丙的分數分布統計 丙 甲 1 2 3 4 5

1 1 2 6 6 5 20

2 1 4 10 11 7 33

3 1 3 15 16 12 47

4 0 3 19 22 18 62

5 1 5 30 32 28 96

4 17 80 87 70 258

表 5. 評分者乙與評分者丙的分數分布統計

丙 乙 1 2 3 4 5

1 2 4 5 5 6 22

2 2 5 9 10 11 37

3 2 5 13 13 15 48

4 1 4 18 17 22 62

5 2 8 26 41 49 126

9 26 71 86 103 295

表 6. 兩兩比較之 weighted kappa 值

評分者 κ𝑤

甲、乙 0.7889

甲、丙 0.6422

乙、丙 0.7889

表 6 為三位評分者兩兩互相比較之 weighted kappa 值,由結果可知其 kappa 值均高於 0.6,表示三位評分者的給分具有良好的一致性,這也表示實驗中的人 力評分重點度,可做為進行分類與評估的參考資料。

24

相關文件