研究方法描述

第三章研究方法

第四節研究方法描述

本研究方法可以歸類成下列四大步驟說明：(1)找出理想特徵詞，(2)比對成功的標準，(3)自動化選取高重點度段落的範圍，及(4)比對 Na 與廣告產品，各步驟的詳細說明如下：

(一)找出理想特徵詞

將所得到的劇本經由中文斷詞系統剖析後，會得到劇本特徵詞的詞性，再計算每個特徵在每個段落中的頻率，此頻率可提供重要的訊息，會得到如表 2 (經排序整理後得到的字頻)的數據，方法是如果剖析後得到的特徵詞與人力分析高分段

劇本輸入自動化分析重

點度

各段落重點度排序

每段落最佳推薦廣告

最佳推薦廣告

落相符合則標記出來，接著運用特徵詞在劇本內不同段落內出現頻率最高的段落

，與人力評分覺得高分的段落，判斷哪些特徵詞可以幫助決定劇本內哪些段落應該是高分重要區。

(二) 比對成功的標準

由第一步驟得到的理想特徵詞，再與由人力分析的高重點度段落比對。如圖 8 所示，以劇本 1 為例，人力分析高重點度段落(即重點度分數為 5)有 21-30、41-50、

51-60、71-80、121-end，而劇本 1 特徵詞高分所在段落如表 3 所示，共有 11-20、

31-40、41-50、101-110、111-120、120-end 共 6 個不同段落，觀察人力分析高重點度段落與高分特徵詞所在段落之比對情形，劇本 1 中人力分析高重點度段落 41-50、121-end 在表 4 中有比對到，代表在 6 個不同段落中有 2 個特徵詞之高分所在段落是人力評定的高重點度段落，精確度所占比率為 0.666。

以上述比對的方法計算各劇本的比對成功精確度，劇本 1 比對成功比率為 0.666、劇本 2 為 0、劇本 3 為 0.857、劇本 4 為 0.714、劇本 5 為 0.071、劇本 6 為 0.642、劇本 7 為 0.5、劇本 8 為 0.5、劇本 9 為 0.571、劇本 10 為 0、劇本 11 為 0.785、劇本 12 為 0.071。由以上實驗顯示，在本實驗中比率為 0.5 以上的劇本在 12 個劇本中佔 8 個，因此本實驗將以 0.5 為標準門檻值，也就是所佔比率大於 0.5 即為成功標準。

表 7. 劇本 1 高分特徵詞所在段落

特徵詞段落

NA 121-end NB 41-50 NC 41-50 ND 41-50 VA 31-40 121-end VB 111-120 VC 121-end VD 101-110 VE 41-50 VF 41-50 VG 121-end VH 111-120 VI 41-50 VJ 31-40 VK 11-20 VL 41-50

接下來，整理所有劇本各種詞性特徵詞出現頻率最高的段落，表 7(a)顯示劇本 1-4 的情形，在表 7(a)中，特徵詞 Na 出現最多次的段落為 121-end (劇本 1)、

31-40 (劇本 2)、91-100 (劇本 3)、61-70 (劇本 4)。以相類似的方法處理劇本 5-12，

結果分別記錄於表 7(b)及表 7(c)，其中表 7(b)顯示劇本 5-8 的情形、表 7(c)顯示劇本 9-12 的情形。分析表 7(a)、7(b)及 7(c)，觀察到劇本 1 到劇本 4 中，劇本 2、

劇本 4、劇本 6、劇本 7 中很多特徵詞性都會集中在特定段落，例如劇本 7 中特徵名詞集中在 21-30、31-40 等段落。

從表 8(a)及 8(b)中可以看到在劇本 1 到 8 中，除了劇本 2 和劇本 5 之外，其他劇本都可以非常成功的與人力評分結果相符，證明此特徵對其有用，但劇本 2 就完全不相符，而劇本 5 也只有 VI 有比對成功。表 8(c)可以看到在劇本 9 到劇本 12 中，劇本 10 與人力評斷完全沒比對成功，而劇本 12 只有 VI 比對成功，劇本 9、劇本 11 則大部分相符。

以下以兩個範例說明比對結果。

範例一：

劇本 1 特徵詞 Na 出現的頻率最高是在 121-end 段落，而在人力評分重點度上評斷 121-end 為高重點度的段落，兩者相符，本研究推論 Na 可以當做自動化分析重點度的特徵。

範例二：

劇本 3 特徵詞 VA 出現的頻率最高在 91-100 段落，而在人力評分重點度上評斷 91-100 段落為高重點度的段落，同範例一的推論方式則 VA 可以當做自動化分析重點度的特徵。

(三)自動化選取高重點度段落的範圍

以步驟(一)所找出的結果並非每次都可以得到理想的結果，在表 8(a)-8(c)中發現劇本 2、劇本 5、劇本 10、劇本 12 使用步驟(一)得到的特徵是無法找出重點度高之段落，顯示應用所找出的特徵與人力提供的答案評分有相當大的差異。我們觀察到劇本自動化找的特徵，高分大部分集中在某些段落。例如以表 7(a)-7(c) 中可以看出，自動化分析所需的特徵高分區以 31-40 這個段落為大宗，但人工評分的結果，高分段落卻是落在 41-50、71-80、81-90、91-100 這幾個段落，導致步驟(一)所產生的比對結果不甚理想。

為解決上述問題，本研究嘗試放鬆條件，以便劇本 2 能有成功比對的段落。

放鬆條件的方法是從重點度分數 5 分降為 4 分，如圖 11 為所有劇本在各段落之

重點度分布狀況，劇本 2 分數 4 分的段落分別是 1-10、11-20、21-30、31-40、51-60、

81-90。以此方法實施後，再紀錄所有劇本各段落被評為最高之次數。

圖 11. 劇本在各段落的重點度分數

採取放鬆條件的目的是因為，已知分析後可能會得到不如預期的情況(例如第一次對劇本 2 預測的廣告商品，結果是完全低於標準的)，所以降低標準以找出符合標準的結果。在未來實際應用層面上，如果有更多資料要用來找尋更精準的自動化分析重點度的特徵詞時，先產生第一次的結果，遇到不如預期的就可以運用此方法順利地找到。

觀察表 7(a)劇本 2 的欄位，原來在表 8(a)中劇本 2 與人力評分比對的結果是完全不相符，可是經過降級擴大選取高重點度段落的範圍，把原本只找最高評分 5 分的特徵改為 4 分，就可以增加正確比對的可能性。因為想觀察先前表現不佳的 4 個劇本(劇本 2、5、10、12)是否可能改進，表 9(a)列出劇本 2、5、10、12 各種詞性出現頻率最高的段落，表 9(b)則為劇本 2、5、10、12 依據新的方法之比對結果。

0 1 2 3 4 5 6

劇本1 劇本2 劇本3 劇本4 劇本5 劇本6

劇本7 劇本8 劇本9 劇本10 劇本11 劇本12

(四) 比對 Na 與廣告產品

本步驟的目標是要找出每個段落中可以置入最佳的廣告，方法如下：首先經中文斷詞系統後，本系統計算 NA 的字頻，再從 NA 字頻取出前三名高分的詞進行比對，接著利用廣義知網擷取出每個 NA 的延伸詞，再做比對，比對的一方為由網路上蒐集的廣告資料，比對之後即可得到結果。

本研究取 NA 來當作判斷比對依據的原因為：在其他的特徵詞(如 Nb、Nc、

VA、VB、VC、VD、VE、VF、VG、VH、VL、VI、VK 等)中，除了 Na 之外其他的特徵詞在廣義知網中找延伸詞時，都沒辦法有效的找出有意義的詞。例如：

會出現「小心翼翼」、「心領神會」、「管不著」(以上詞皆來自劇本一，屬於狀態不及物動詞 VH，無延伸詞)這種比較無法跟本研究要找的結果相關的詞，所以本研究就不採用其他特徵詞。表 13 顯示在劇本七中各個段落 Na 出現次數最高的前三名。

表 13. Na 前三名範例

段落劇本七前三名之 Na

1-10 哈皮獸醫嬉皮

11-20 橘子小女孩綠油精

21-30 變色龍獨眼龍眼睛

31-40 蜥蜴尾巴少年

41-50 橘子變色龍嬉皮

表 13 以劇本七為例，1-10 段落前三名的 NA 分別為哈皮、獸醫、嬉皮，11-20 為橘子、小女孩、綠油精，21-30 的前三名為變色龍、獨眼龍、眼睛，31-40 為蜥蜴、尾巴、少年，41-50 為橘子、變色龍、嬉皮，得到這些資料後就可以利用廣義知網找出這些 NA 的延伸詞，擴大比對的範圍，進行更多可能的搜尋比對。

40 iphone 21-30 71-80 81-90

TVBS 新聞 1-10 21-30 61-70 11-20

中華職業棒球 11-20 31-40 51-60

61-70 71-end

可口可樂 61-70

在文檔中劇本文件探勘與廣告推薦之研究 (頁 33-47)

第三章 研究方法

第四節 研究方法描述

第三章研究方法

第四節研究方法描述