研究資料

第三章研究方法

第二節研究資料

(一) 研究材料

劇本實驗資料來自金穗獎優良電視劇本網站(http://www.movieseeds.com.tw/)，

本研究挑選 12 篇劇本進行分析與測試，總共有 493,629 個字，檔案大小為 1749.7KB。金穗獎優良劇本網站如圖 6 所示。本研究使用的 12 篇劇本皆可以由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文，12 劇本名稱及資訊如下所示：「他們在畢業前一天爆炸」作者王盈心，共 41,253 個字、「人狼謎蹤」作者楊皓鈞，

共 41,593 個字、「再見全壘打」作者王瑋/陳佳鍵，共 30,047 個字、「我心凝望的

愛情」作者吳美枝，共 37,440 個字、「哈皮與嬉皮」作者黃淑筠，共 38,261 個字、

「神棄」作者施君涵，共 33,432 個字、「球來就打」作者涂芳祥，共 65275 個字、

「野馬小鴨頭」作者徐錫彪/王瑄錡，共 47,748 個字、「黃金甲子園」作者魏德聖 /陳嘉蔚，共 51,259 個字、「搏浪」作者周美玲，共 30,641 個字、「十二月三十二日」作者林真豪，共 65,636 個字、及「我的超級阿公」作者高顥中/謝柏逸，共 27,158 個字。挑選金穗獎劇本的原因，是因為這些劇本有很多已經被翻拍成電視劇播出，像是「我們在畢業前一天爆炸」片長約 110 分鐘、「球來就打」片長約 135 分鐘，可供後續相關研究使用，而最後本研究採用的評量方式是以人力提供標準答案的方式，評定結果是否有效益。

本次實驗挑選劇本的方式是屬隨機挑選，並無特定方式，因本次實驗試想在隨機情況下去找出實驗結果，所以可以看到挑選的劇本長度、句數與場景個數皆有差異存在。

圖 6 金穗獎優良劇本網站

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (http://ckipsvr.iis.sinica.edu.tw/)分析劇本，

並找出所有的詞性特徵。本研究首先將劇本分成每 10 個場為一個段落(目前先假定每個劇本會下廣告的時間為 10 個場)，接著將每個段落內容輸入中文斷詞系統，

輸出結果如圖 7 所示。

圖 7. 中文斷詞系統之輸出範例

場景即是在某場景開始但還沒換下一場景時的單位，目前觀察以 10 個場景為一段落，嘗試尋找規則。以劇本 1 為例，1-10 場景 3025 字、11-20 場景 2917 個字、21-30 場景 2743 個字、31-40 場景 3939 個字、41-50 場景 4154 個字、51-60 場景 2376 個字、61-70 場景 3684 個字、71-80 場景 3139 個字、81-90 場景 1877 個字、91-100 場景 3132 個字、101-110 場景 3079 個字、111-120 場景 3116 個字、

121-end 場景 4056 個字，觀察發現本實驗以 10 個場景為一段落在字數長度上每段並無太大差異，顯示 10 個場景為一段落是有效的方法，在未來研究上可以將定段落方法給予更多的彈性，例如設定每個段落字數、設定每個段落長度等，擴大研究方向。

接著如表 2 所示，會看到 NA、NB、NC、NCD、ND、VA、VB、VAC、VC、

本研究使用中文斷詞系統資訊的方法如下：

1. 找出每個詞的字頻

常常出現的字可能是很好的線索，可以用來找出段落內最佳的廣告產品，本研究將排序所有段落的重點度高低，使用字頻當作參考依據。

本論文中重點度的定義將在下面「人工評斷重點度」詳述。

2. 從高頻率的詞中找出可用的特徵詞

好的特徵可以當做自動化過程的重要指標，本研究需先比對找出真正有價值的特徵，詳細的方法將在下面「人工評斷重點度」詳述。

(三)人工評斷重點度

本論文中的重點度是指劇本某個段落的吸引程度，或是使人印象深刻的高低程度。本方法的目的在於利用可用的剖析後詞性，自動地決定劇本中所有段落的重點度，這樣就可以排序所有段落，此資訊可以提供廣告商一些依據，讓廣告商決定是否要在高重點度的段落內下廣告。

因為目前並沒有公開可以用的語料庫是關於本研究主題的，所以本論文採用人工方式標定劇本各個段落的重點度，以便作為後續研究之用，並評斷可行之方法以達到最佳的效益。圖 8 為經過人工標定後所有劇本重點度的分布狀況。

重點度是人工評斷的重要準則，以評分者來說，是以這個段落是否可以讓他們有深刻的印象而決定重點度，在本論文中，重點度的分數為1-5共5等第，5代表印象最深刻、最吸引人，1則是指對該段落印象最不深刻。在圖8的劇本一的段落 21-30是評分為5的高分區，劇本內容因為有跟蹤者與揭穿秘密的感覺，讓評分者覺得印象深刻。該段落的對話有：「我們明天去跟蹤小柔好不好？」、「我管妳來不來得及！現在就上樓跟他說分手！不然明天就讓全校知道！小柔瞪著阿丁。」，低分區則是沒有讓評分者有以上的感覺即是低重點度段落。

而人力標定詞(或稱人力預測廣告詞)是評斷人員看完劇本後，評斷劇本中印

象最深刻的名詞是那些。在評斷者標定時，可能會出現2個或2個以上的詞印象比較深刻，本研究要求標定最深刻的一個當作人力標定詞，以供研究使用。

圖 8. 所有劇本重點度的分布狀況

在圖8中，以劇本一為例，1-10(2)表示段落1-10重點度分數為2、11-20(4)表示段落11-20重點度分數為4。其中段落1-10的內容會被評為2分的原因，是評分者認為該段落太過於無趣、太多鋪陳，像是劇本內「這裡是高中大禮堂，密密麻麻的座位，只有浩遠站著，特別醒目。校長在台上講話。校長：…大家初到學校來，

要瞭解學校各方面的制度和規章，並且要聽從各級師長之教導，去行動、力行，

才能做個好學生…」，而段落11-20會被評為4分，評分者認為是內容具精彩成分，

像是劇本內「浩遠握緊雙拳，他似乎看開了，開始醞釀打架的心情。」評分者說這種片段有著動作的感覺，較為精彩。

本研究對人力評分出來的重點度高低做一致性測試，是以Kappa這個方法來做一致性的測試，公式如下：

κ_𝑤 =∑ 𝑤𝑓₀− 𝑤𝑓_𝑐

𝑛 − ∑ 𝑤𝑓_𝑐 , 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑖𝑐 𝑤𝑒𝑖𝑔ℎ𝑡 = 1 − (𝑖 − 𝑗 𝑘 − 1)

w𝑓₀表示每種不一致情況的加權頻率，w𝑓_𝑐表示每種不一致情況的預期加權頻率，𝑘是序位的個數，(𝑖 − 𝑗)是不一致性的程度。三位評分者（以下稱甲、乙、兩）

互相比較評分分數的分布如表 3、表 4 與表 5。

表3. 評分者甲與評分者乙的分數分布統計乙甲 1 2 3 4 5

1 1 2 2 2 2 9

2 1 5 6 7 6 25

3 1 3 25 24 17 70

4 1 4 22 28 19 74

5 1 5 29 36 27 98

5 19 84 97 71 276

表 4. 評分者甲與評分者丙的分數分布統計 丙甲 1 2 3 4 5

1 1 2 6 6 5 20

2 1 4 10 11 7 33

3 1 3 15 16 12 47

4 0 3 19 22 18 62

5 1 5 30 32 28 96

4 17 80 87 70 258

表 5. 評分者乙與評分者丙的分數分布統計

丙乙 1 2 3 4 5

1 2 4 5 5 6 22

2 2 5 9 10 11 37

3 2 5 13 13 15 48

4 1 4 18 17 22 62

5 2 8 26 41 49 126

9 26 71 86 103 295

表 6. 兩兩比較之 weighted kappa 值

評分者 κ_𝑤

甲、乙 0.7889

甲、丙 0.6422

乙、丙 0.7889

表 6 為三位評分者兩兩互相比較之 weighted kappa 值，由結果可知其 kappa 值均高於 0.6，表示三位評分者的給分具有良好的一致性，這也表示實驗中的人力評分重點度，可做為進行分類與評估的參考資料。

在文檔中劇本文件探勘與廣告推薦之研究 (頁 23-31)

第三章 研究方法

第二節 研究資料

第三章研究方法

第二節研究資料