• 沒有找到結果。

研究方法描述

第三章 研究方法

第四節 研究方法描述

本研究方法可以歸類成下列四大步驟說明:(1)找出理想特徵詞,(2)比對成功 的標準,(3)自動化選取高重點度段落的範圍,及(4)比對 Na 與廣告產品,各步驟 的詳細說明如下:

(一)找出理想特徵詞

將所得到的劇本經由中文斷詞系統剖析後,會得到劇本特徵詞的詞性,再計 算每個特徵在每個段落中的頻率,此頻率可提供重要的訊息,會得到如表 2 (經排 序整理後得到的字頻)的數據,方法是如果剖析後得到的特徵詞與人力分析高分段

劇本輸入 自動化分析重

點度

各段落重點度 排序

每段落最佳推 薦廣告

最佳推薦廣告

27

落相符合則標記出來,接著運用特徵詞在劇本內不同段落內出現頻率最高的段落

,與人力評分覺得高分的段落,判斷哪些特徵詞可以幫助決定劇本內哪些段落應 該是高分重要區。

(二) 比對成功的標準

由第一步驟得到的理想特徵詞,再與由人力分析的高重點度段落比對。如圖 8 所示,以劇本 1 為例,人力分析高重點度段落(即重點度分數為 5)有 21-30、41-50、

51-60、71-80、121-end,而劇本 1 特徵詞高分所在段落如表 3 所示,共有 11-20、

31-40、41-50、101-110、111-120、120-end 共 6 個不同段落,觀察人力分析高重 點度段落與高分特徵詞所在段落之比對情形,劇本 1 中人力分析高重點度段落 41-50、121-end 在表 4 中有比對到,代表在 6 個不同段落中有 2 個特徵詞之高分 所在段落是人力評定的高重點度段落,精確度所占比率為 0.666。

以上述比對的方法計算各劇本的比對成功精確度,劇本 1 比對成功比率為 0.666、劇本 2 為 0、劇本 3 為 0.857、劇本 4 為 0.714、劇本 5 為 0.071、劇本 6 為 0.642、劇本 7 為 0.5、劇本 8 為 0.5、劇本 9 為 0.571、劇本 10 為 0、劇本 11 為 0.785、劇本 12 為 0.071。由以上實驗顯示,在本實驗中比率為 0.5 以上的劇本 在 12 個劇本中佔 8 個,因此本實驗將以 0.5 為標準門檻值,也就是所佔比率大於 0.5 即為成功標準。

28

表 7. 劇本 1 高分特徵詞所在段落

特徵詞 段落

NA 121-end NB 41-50 NC 41-50 ND 41-50 VA 31-40 121-end VB 111-120 VC 121-end VD 101-110 VE 41-50 VF 41-50 VG 121-end VH 111-120 VI 41-50 VJ 31-40 VK 11-20 VL 41-50

接下來,整理所有劇本各種詞性特徵詞出現頻率最高的段落,表 7(a)顯示劇 本 1-4 的情形,在表 7(a)中,特徵詞 Na 出現最多次的段落為 121-end (劇本 1)、

31-40 (劇本 2)、91-100 (劇本 3)、61-70 (劇本 4)。以相類似的方法處理劇本 5-12,

結果分別記錄於表 7(b)及表 7(c),其中表 7(b)顯示劇本 5-8 的情形、表 7(c)顯示劇 本 9-12 的情形。分析表 7(a)、7(b)及 7(c),觀察到劇本 1 到劇本 4 中,劇本 2、

劇本 4、劇本 6、劇本 7 中很多特徵詞性都會集中在特定段落,例如劇本 7 中特 徵名詞集中在 21-30、31-40 等段落。

29

30

31

32

從表 8(a)及 8(b)中可以看到在劇本 1 到 8 中,除了劇本 2 和劇本 5 之外,其 他劇本都可以非常成功的與人力評分結果相符,證明此特徵對其有用,但劇本 2 就完全不相符,而劇本 5 也只有 VI 有比對成功。表 8(c)可以看到在劇本 9 到劇本 12 中,劇本 10 與人力評斷完全沒比對成功,而劇本 12 只有 VI 比對成功,劇本 9、劇本 11 則大部分相符。

以下以兩個範例說明比對結果。

範例一:

劇本 1 特徵詞 Na 出現的頻率最高是在 121-end 段落,而在人力評分重點 度上評斷 121-end 為高重點度的段落,兩者相符,本研究推論 Na 可以當做自 動化分析重點度的特徵。

範例二:

劇本 3 特徵詞 VA 出現的頻率最高在 91-100 段落,而在人力評分重點度 上評斷 91-100 段落為高重點度的段落,同範例一的推論方式則 VA 可以當做 自動化分析重點度的特徵。

(三)自動化選取高重點度段落的範圍

以步驟(一)所找出的結果並非每次都可以得到理想的結果,在表 8(a)-8(c)中 發現劇本 2、劇本 5、劇本 10、劇本 12 使用步驟(一)得到的特徵是無法找出重點 度高之段落,顯示應用所找出的特徵與人力提供的答案評分有相當大的差異。我 們觀察到劇本自動化找的特徵,高分大部分集中在某些段落。例如以表 7(a)-7(c) 中可以看出,自動化分析所需的特徵高分區以 31-40 這個段落為大宗,但人工評 分的結果,高分段落卻是落在 41-50、71-80、81-90、91-100 這幾個段落,導致步 驟(一)所產生的比對結果不甚理想。

為解決上述問題,本研究嘗試放鬆條件,以便劇本 2 能有成功比對的段落。

放鬆條件的方法是從重點度分數 5 分降為 4 分,如圖 11 為所有劇本在各段落之

33

重點度分布狀況,劇本 2 分數 4 分的段落分別是 1-10、11-20、21-30、31-40、51-60、

81-90。以此方法實施後,再紀錄所有劇本各段落被評為最高之次數。

圖 11. 劇本在各段落的重點度分數

採取放鬆條件的目的是因為,已知分析後可能會得到不如預期的情況(例如第 一次對劇本 2 預測的廣告商品,結果是完全低於標準的),所以降低標準以找出符 合標準的結果。在未來實際應用層面上,如果有更多資料要用來找尋更精準的自 動化分析重點度的特徵詞時,先產生第一次的結果,遇到不如預期的就可以運用 此方法順利地找到。

觀察表 7(a)劇本 2 的欄位,原來在表 8(a)中劇本 2 與人力評分比對的結果是 完全不相符,可是經過降級擴大選取高重點度段落的範圍,把原本只找最高評分 5 分的特徵改為 4 分,就可以增加正確比對的可能性。因為想觀察先前表現不佳 的 4 個劇本(劇本 2、5、10、12)是否可能改進,表 9(a)列出劇本 2、5、10、12 各 種詞性出現頻率最高的段落,表 9(b)則為劇本 2、5、10、12 依據新的方法之比對 結果。

0 1 2 3 4 5 6

劇本1 劇本2 劇本3 劇本4 劇本5 劇本6

劇本7 劇本8 劇本9 劇本10 劇本11 劇本12

34

35

36

37

(四) 比對 Na 與廣告產品

本步驟的目標是要找出每個段落中可以置入最佳的廣告,方法如下:首先經 中文斷詞系統後,本系統計算 NA 的字頻,再從 NA 字頻取出前三名高分的詞進 行比對,接著利用廣義知網擷取出每個 NA 的延伸詞,再做比對,比對的一方為 由網路上蒐集的廣告資料,比對之後即可得到結果。

本研究取 NA 來當作判斷比對依據的原因為:在其他的特徵詞(如 Nb、Nc、

VA、VB、VC、VD、VE、VF、VG、VH、VL、VI、VK 等)中,除了 Na 之外其 他的特徵詞在廣義知網中找延伸詞時,都沒辦法有效的找出有意義的詞。例如:

會出現「小心翼翼」、「心領神會」、「管不著」(以上詞皆來自劇本一,屬於狀態不 及物動詞 VH,無延伸詞)這種比較無法跟本研究要找的結果相關的詞,所以本研 究就不採用其他特徵詞。表 13 顯示在劇本七中各個段落 Na 出現次數最高的前三 名。

表 13. Na 前三名範例

段落 劇本七前三名之 Na

1-10 哈皮 獸醫 嬉皮

11-20 橘子 小女孩 綠油精

21-30 變色龍 獨眼龍 眼睛

31-40 蜥蜴 尾巴 少年

41-50 橘子 變色龍 嬉皮

表 13 以劇本七為例,1-10 段落前三名的 NA 分別為哈皮、獸醫、嬉皮,11-20 為橘子、小女孩、綠油精,21-30 的前三名為變色龍、獨眼龍、眼睛,31-40 為蜥 蜴、尾巴、少年,41-50 為橘子、變色龍、嬉皮,得到這些資料後就可以利用廣 義知網找出這些 NA 的延伸詞,擴大比對的範圍,進行更多可能的搜尋比對。

38

39

40 iphone 21-30 71-80 81-90

TVBS 新聞 1-10 21-30 61-70 11-20

中華職業棒球 11-20 31-40 51-60

61-70 71-end

可口可樂 61-70

相關文件