• 沒有找到結果。

第三章 研究方法

第二節 研究資料

(一) 研究材料

劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站 (http://www.movieseeds.com.tw/),本研究挑選 12 篇劇本進行分析與測試,總共 493,629 個字,檔案大小為 1749.7KB。金穗獎優良劇本網站如圖 5 所示。本研究 使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文,12 篇劇 本名稱及資訊如下所示:「他們在畢業前一天爆炸」出自於作者王盈心,共 41,253

者王瑋/陳佳鍵,共 30,047 個字;「我心凝望的愛情」出自於作者吳美枝,共 37,440 個字;「哈皮與嬉皮」出自於作者黃淑筠,共 38,261 個字;「神棄」出自於作者施 君涵,共 33,432 個字;「球來就打」出自於作者涂芳祥,共 65275 個字;「野馬小 鴨頭」出自於作者徐錫彪/王瑄錡,共 47,748 個字;「黃金甲子園」出自於作者魏 德聖/陳嘉蔚,共 51,259 個字;「搏浪」出自於作者周美玲,共 30,641 個字;「十 二月三十二日」出自於作者林真豪,共 65,636 個字;及「我的超級阿公」出自於 作者高顥中/謝柏逸,共 27,158 個字。以「他們在畢業前一天爆炸」的劇本段落為 例如圖 6 所示。會選擇金穗獎劇本的原因,是因為這些劇本有些已經被翻拍成電 視劇及電影播出,像是「我們在畢業前一天爆炸」片長為五集迷你連續劇,每集 60 分鐘、「球來就打」片長約 135 分鐘、「黃金甲子園」片長約 185 分鐘,可供後 續相關研究使用。

圖 5. 金穗獎優良劇本網站

圖 6. 劇本「他們在畢業前一天爆炸」的劇本段落

圖 7. 「iPhone」維基百科簡介

(二) 中文斷詞系統

本研究利用 CKIP 的中文斷詞系統 (http://ckipsvr.iis.sinica.edu.tw/)來進行分 析劇本以及廣告產品簡介,並找出所有的詞性特徵。因先前實驗研究已經將劇本 分析作成資料庫,所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統,輸 出結果如圖 8 所示。

圖 8. 中文斷詞系統之輸出範例

參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正 確的標準,所以目前先假定每 10 個場景會進入廣告時間),場景單位為在某場景 開始但還沒換下一個場景時。以劇本 1 為例,1 - 10 場景 3025 字、11 - 20 場景 2917 個字、21 - 30 場景 2743 個字、31 - 40 場景 3939 個字、41 - 50 場景 4154 個 字、51 - 60 場景 2376 個字、61 - 70 場景 3684 個字、71 - 80 場景 3139 個字、81 - 90 場景 1877 個字、91 - 100 場景 3132 個字、101 - 110 場景 3079 個字、111 - 120 場景 3116 個字、121 - end 場景 4056 個字,經由觀察發現以 10 個場景為一段落 在字數長度上並無太大差異,顯示出 10 個場景為一個段落是有效的方法,對於在 未來研究上將設定段落方法給予更多的彈性,例如設定每個段落字數、設定每個 段落長度等,以便後續擴大研究方向。

接著如表 2 所示,會看到 NA、NB、NC、NCD、ND、VA、VB、VAC、VC、

VCL、VD、VE、VF、VG、VH、VHC、VI、VJ、VK、VL,這些是由中文斷詞 系統所產生的詞性中挑選。在中文斷詞系統特徵詞中,會挑選這 20 個詞性做為使 用,主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的,像是 T 這 個詞性代表語助詞,而研究實驗中無法依語助詞找出是否與該產品相關,故無法 用上。在除去類似這些無義詞性後,最終選出表 2 中的 20 個特徵詞做為使用,經 由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞,再經由篩選 NA 後可以提供本研究系統進一步分析與探討。

表 2. 劇本 1 的 1-10 場景段落特徵詞頻率範例

(三) 廣告產品簡介收集字分析

本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品 的特徵詞,再進一步從特徵詞與劇本段落分析出合適的廣告產品,而分析出的資 訊可以提供廣告商做為依據,讓廣告商可以決定是否在哪些段落符合自己的產品 而下產品廣告。

因為先前研究者曾使用人工方式從劇本中標出人力標定詞,再以人力標定詞 及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對,由於此法費 時又費力,所以本研究想要以自動化方式,從廣告產品簡介中找出能夠代表廣告 產品的特徵詞,再與劇本中重點度為4及5分的段落作比對,進而找出每個段落合 適的廣告產品。

收集字分析主要方法如下 :

1. 廣告簡介經由中文斷詞系統輸出結果。

2. 從輸出結果找出廣告產品前後五項的收集字。

3. 前後五項收集字中取出詞性為NA的詞。

4. 以兩種方法分析出能夠代表廣告產品的特徵詞。

(1)計算每個NA詞的出現次數 。

(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果。

5. 以維基百科出現次數為主,找出兩組特徵詞。

6. 以Google搜尋結果為主,找出兩組特徵詞。

7. 最終每個廣告產品都可以找出四組廣告產品特徵詞。

相關文件