• 沒有找到結果。

劇本文件探勘與廣告推薦之研究

N/A
N/A
Protected

Academic year: 2021

Share "劇本文件探勘與廣告推薦之研究"

Copied!
66
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:侯文娟 博士. 劇本文件探勘與廣告推薦之研究 Script Text Mining for Advertisement Recommendation. 研究生: 沈信佑 撰 中華民國一零五年一月.

(2) 摘要 本論文的研究議題,主要發想是因為觀察在目前電視劇之後的廣告時段中, 大部分廣告播映的時機點都不一定恰當,而且廣告播映都需要人力排程,費時費 力;此外,在觀看戲劇節目的經驗中,每次看完一個段落的戲劇,接著就會進入 一段對觀眾而言,很漫長且無趣的廣告期,導致在此時間內有不少的觀眾會選擇 轉去其他台,先收看他台正在播放的戲劇或節目,所以在此期間廠商的廣告效益 就會因此而降低。因此本論文希望建立自動化劇本分析與廣告推薦系統,先經由 分析與探勘劇本中重要的特徵詞,目的在於找出有效且具高準確率的模型,使推 薦播出的廣告可以吸引觀眾目光,得到廣告商品的最大效益。 本論文實驗資料分別由兩種來源取得:第一種來源從金穗獎劇本找出 12 個 劇本做為劇本文件資料,第二種來源為隨機取得的一些廣告群做為廣告商品資料 庫。經由本論文所提方法實驗之後,最後會與人力評斷的結果互相比對,用來驗 證本實驗各項結果是否成功,實驗結果評估對象包含各段落重點度與最佳之推薦 廣告。 研究方法以兩項目標為導向:包含(1)計算各段落重點度,與(2)推薦最佳廣告。 為了計算各段落重點度,首先需找出劇本中幫助分析重點度的特徵詞,這些特徵 詞將是日後分析重點度時重要的關鍵。而在最佳廣告推薦方面,於每個段落內先 找出所有特徵詞 Na,選取每個段落排名前三名的 Na 詞,接著使用廣義知網找出. i.

(3) 延伸詞,幫助劇本內容與廣告商品的聯結,然後再找出重點度特徵詞後,就可以 分析劇本中各段落的評分狀況,每個段落會得出最佳推薦的廣告,最後再供廣告 商選擇那些段落需下廣告,詳細的步驟與方法本文內會再敘述。對於實驗結果, 本研究以準確度當做評估的標準。. 關鍵字:文件探勘、劇本分析、廣告推薦、特徵詞、廣義知網 ii.

(4) Abstract. The motivation of this study comes from the observation that in the current ad schedule after the drama, most of the advertising broadcast is not necessary at the appropriate time point, and the advertising scheduling needs manpower efforts. Every time when television viewers watch a drama, it will enter an advertising program that seems long and very boring to viewers, leading to a lot of viewers change to another television channel to watch other plays or shows being played. It causes during this time the commercial effectiveness of advertising will be lowered. Consequently, the thesis aims to build an automatic script analysis and advertisement recommendation system. This study proposes approaches to mining and analyze the scripts, and to locate the features helpful for building an effective and accurate model, so that the advertisements recommended by the model can catch viewer's eyes. This attractive characteristics will raise a lot of advertising effectiveness. The experimental data are composed of 12 screenplays which are award the "Golden Harvest Awards for Outstanding Short Films". We also randomly retrieve the advertising products from the websites to serve as our advertisement database. The experimental results are compared with the answers provided by humans. The. iii.

(5) evaluation targets include the weighting scores of the paragraphs and the best recommended advertising. The methods are proposed based on two objectives, including the weighting scores of the paragraphs and the best recommended advertising. For computing the weighting scores of the paragraphs, the first step is to identify the feature words from scripts. The feature words are important keys in mining the scripts. For making the best recommendation, the feature words, NA, are retrieved from each paragraph. Then the top three NA words of each paragraph are selected. In the following, E-HowNet is employed to find the extension words of the NA words. The extension words plays an important role in making association between scripts and the advertising products. Combining with the weighting scores of the paragraphs and the extension words, an algorithm for recommending the advertisement is proposed. Finally, the advertising vendors can decide their broadcast time based on our proposed advertising suggestion. Details of methods will be described in the thesis. For the evaluation, the precision rate is used as our evaluation measure.. Keywords: text mining, script analysis, advertisement recommendation, feature words, E-HowNet iv.

(6) 目錄. 第一章. 緒論.................................................................................................................1. 第一節. 研究動機.................................................................................................1. 第二節. 研究背景.................................................................................................2. 第三節. 研究目的.................................................................................................3. 第四節. 論文架構.................................................................................................3. 第二章. 相關研究探討.................................................................................................4. 第一節. 相關研究文獻.........................................................................................4. 第二節. 廣義知網...............................................................................................11. 第三節. 中文斷詞系統.......................................................................................13. 第三章. 研究方法.......................................................................................................16. 第一節. 緒論.......................................................................................................16. 第二節. 研究資料...............................................................................................16. 第三節. 研究方法架構.......................................................................................24. 第四節. 研究方法描述.......................................................................................26. 第四章. 實驗結果.......................................................................................................40. 第一節. 劇本段落重點與廣告產品之關聯.......................................................40. 第二節. 推薦廣告結果.......................................................................................43 v.

(7) 第三節 第五章. 實驗評量結果.......................................................................................48. 結論與未來展望...........................................................................................56. 參考文獻.......................................................................................................................58. vi.

(8) 第一章 緒論. 第一節 研究動機. 本研究的目的是希望能夠利用自然語言的技術分析劇本文件,進而得出一些 有用的資訊,利用詞性(名詞、或者是形容詞等)之特徵,探討某個場景是否適合 連結到某種廣告商品。最初會有此概念,是觀察到在目前電視劇之後的廣告時段 中,大部分的廣告播映的時機點都不一定恰當,而且廣告播映都需要人力排程, 每次看完一個段落的戲劇,接著就會進入一段對觀眾而言,很漫長且無趣的廣告 期,導致在此時間內有不少的觀眾會選擇轉去其他台,先收看他台正在播放的戲 劇或節目,所以在此期間廠商的廣告效益就會因此而降低。假使可以讓觀眾覺得 廣告與上一個段落內所播的戲劇互相有連結,觀眾繼續收看廣告的意願一定會大 幅提高,廠商的廣告效益也會提高很多。例如:在 2013 年及 2014 年播映的韓國 偶像劇「來自星星的你」 ,無論是劇中的「吃炸雞配啤酒」 ,或是演員們使用的手 機,都引起觀眾的高度關心與爭相模仿,設想如果廣告時段跟著播放「XX 啤酒」, 或是同款手機,觀眾必定更容易對該商品印象深刻繼而捧場。本論文希望藉由本 次研究可以將這個想法具體實現,經過自動化劇本分析的過程後就可以得到有用 的數據,再將這些數據經過研究分類後,希望可以找出有效且具高準確率的方式, 使推薦播出的廣告可以吸引觀眾目光,得到廣告商品的最大效益。. 1.

(9) 第二節 研究背景. 在現今電視劇與網路短劇蓬勃發展下,電視廣告或是網路廣告對消費者的影 響力可說是非常重大的,但是劇本研究探討,目前並無有效的方法可以將劇本有 效的自動化,並分析如何正確的將要下的廣告在對的時間、對的劇情後出現。目 前採用的方法,是單方面由廣告商指定在電視台某個節目空檔,將要播的廣告播 出,這樣的情況得到的廣告效益其實並不大。傳統作法上,廣告商決定哪個節目 後播出廣告的方式,是先找出哪些時段最多人收看,接著才決定下自家的廣告; 而本研究提出的方法,則可以找出該劇本哪個段落中,出現了相關聯廣告商要推 銷的產品,進而正確的將廣告在正確時機中播出,這種策略讓廣告商可以不必擔 心搶不到最佳時機點,也可以讓電視台在每個時段都可以獲得商機,從而減少人 力分析,並可正確推薦此劇情可以下的廣告。 本研究進行需要劇本資料與人力評分等資料,所以在本實驗中,共蒐集 12 個劇本(總共約 48 萬字左右);在人力評分部分,找來 3 位受測者進行評分,評分 項目包括重點度與廣告產品準確度;在廣告產品方面共找了 38 種廣告產品進行 實驗。本研究需耗時較長的部分是在人力評分資料上,因為必須等待評分者看完 劇本後才可評分,這方面需人工作業,花的時間比較多,一旦評分作業完成後, 即可評估本研究提出方法的效能。. 2.

(10) 第三節 研究目的. 在自然語言領域中,愈來愈多的研究者有興趣於利用詞性探討文章的意見或 者是正面、負面的極性,所以本論文希望研究有別於大部分學者研究的領域,應 用自然語言之技術,分析文章並比對文章詞性等特性。觀察其他學者專家,現階 段幾乎都是把某個領域文章(例如產品評論)意見擷取出來,加強正負極性準確性。 本論文則專注於電視圈相關的應用,利用分析劇本語意與詞性的方式,讓廣告商 可以在最能引起觀眾迴響的地方推出產品廣告。 這幾年來電視節目受歡迎的程度越來越好,但是在處理如何下廣告時,需要 大量的人力分析與找出正確的下廣告時機。本人認為假如可以設計一套系統,將 劇本輸入之後即可以自動化輸出,顯示各個段落該下哪些廣告可以得到最大效益 的建議,這樣的做法不僅可以解決人力分析劇本花費大量時間的問題,同時分析 出哪個廣告在此時段下能引起觀眾對此產品的興趣,加強觀眾購買的慾望,達到 更高的廣告效益,創造電視台與廣告商雙贏的局面。 本研究目的為結合廣告與劇本,然而目前此研究項目尚未有豐富的文獻可供 參考,我們只能朝向發展新的研究方向努力,盡量在不同文獻中找尋相關類似的 方法,進而延伸或是發展,期許達成良好的成果。. 第四節 論文架構. 本論文的組織大綱如下:第一章介紹研究動機及其研究背景。第二章探討相 關文獻:包含前人做過的研究及相關的工具介紹。第三章是研究資料與研究方法 的說明。第四章是實驗結果與分析。最後的章節則總結本論文所做的研究,並介 紹來未來可能的發展方向。. 3.

(11) 第二章 相關文獻探討. 第一節 相關研究文獻. 如第一章所述,目前本論文研究項目尚未有豐富的文獻可供參考,因此僅就 與本論文主題相關之文獻,探討可參考使用之技術,並整理如下:. (一) Twitter 電影語意分析介紹. 學者 Hodeghatta 在 2013 年提出有關 Twitter 電影語意分析之論文,認為電影 目前在市場上所擁有的影響力非常大,只要能夠有效並準確的找出觀眾在觀看完 某部電影後的想法或者是觀感,將對下部電影或者該如何行銷這部電影上面會有 很大的幫助。而選擇使用 Twitter 分析的主要原因,是因為市場的訊息現在已經不 是像以前是由廠商控制,現在很多資訊都是可以由消費者自己在平台上交換資訊, 其中 Twitter 就扮演著平台的角色。這篇文章所探討的就是這一塊,目的在不同國 家不同文化上,希望可以找到不同的評論。在這篇論文中本研究將運用到的部分 除了分類的技術之外,其他運用到的部分還包括如何找出哪些是最重要的資訊的 方法,及如何制定比重、找出比重高的資訊的相關技術。該篇論文(Hodeghatta, 2013) 所使用的方法介紹如下。 該研究利用 Naïve Bayes (John and Langley, 1995)和 MaxEnt machine learning (Manning and Klein, 2003)對現有的資料進行分析與標籤,方法是先將資料簡易化 進而分類與標籤:先用 training 找出標準答案,得出的答案再當成 prediction 中的 標籤找出要的類別,再運用五種方法取需要的文章,利用作者的內部工具(in-house tool)找出 twitter 上有關電影的 tweet,從九個不同國家,利用不同的自然語言處理 的分類器,分辨三種不同的分類,最後假如有無法標籤的內容,則置於"Unwanted" 4.

(12) 之類別。 其中 training classifier 的設定方法,需要消費者的想法、感覺、與過往的經 驗所出現的行為造成的回應,再分類為正向、負向或者是中立的回應,最後以圖 表的方式比較不同國家、不同語言以及多種的分類器所產生的表現,以了解其差 異性。上述過程如圖 1 所示。. 圖 1. Twitter 電影語意分析方法流程圖. 本研究從本篇文獻所得到的啟發是研究需要找到對的研究平台,因此本研究 首先要尋找公開而且結構良好的資料,當找到結構良好的資料後,分析時還必須 有正確的比對資料以查驗實驗是否成功。. (二)剖析擷取電影場景的關係聯絡網介紹. 在剖析電影場景得關係聯絡網路部分,Agarwal 等學者在 2014 年曾提出研究 方法如下。 這 篇 文 章 運 用 自 然 語 言 處 理 (Natural Language Processing) 和 機 器 學 習 (Machine Learning)的技術分析電影劇本,再歸類出五種分類:場景邊界(scene boundary)、場景描述(scene description)、角色名稱(character name)、對話(dialogue), 5.

(13) 及後設資料(meta-data),依照這些分類建立聯絡網,進而得到每個角色或場景之 間的關係。 此方法找尋所需資料的預先步驟為是尋找結構良好的電影劇本,也就是必須 包含此文獻方法所需要的五大分類(場景邊界、場景描述、角色名稱、對話,及後 設資料)之資料,接著確認「場景描述」是不是在「場景邊界」和「角色名稱」之 間,確認「對話」在「角色名稱」之間,且「角色名稱」至少位於兩個「場景邊 界」,再建立一個標準化的運算結果,特徵方面則提出詞袋特徵(bag-of-words features)、標點符號標記袋特徵(bag-of-punctuation-marks features)、術語袋特徵 (bag-of-terminology features)、框架袋特徵(bag-of-frames features)、詞性袋特徵 (bag-of-parts-of-speech features)、人工製作特徵(hand-crafted features)等各種特徵, 訓練時使用的特徵數量是以上特徵數量的兩倍,因為對每個特徵而言共有兩個二 元向量與其相關:一個二元向量(binary vector)為“包含術語(contain terms)”,另 一個二元向量為“是此術語(is terms)”,演算法如圖 2 所示:假如以 CRAWFORD 為基準往上找為 line(-),往下找為 line(+),皆找到與目前基準 CRAWFORD 相關 聯的場景與對話開始,再運用研究者所提出的機器學習方法(Machine learning approach)進行實驗。使用的機器學習分類器為 SVM,共訓練八種模組:不改變原 劇本(編號為 000)、角色名稱改為小寫(編號為 001)、場景名稱改為小寫(編號為 010)、 場景及角色名稱都改為小寫(編號為 011),依此類推,共建立八個複製文章,訓練 出八種模組。. 6.

(14) 圖 2. Twitter 電影語意分析演算法示意圖. 測試資料依據以上八個模組會有八個結果產生,但是要產生最後的預測結果, 必須對此八個結果進行組合,組合方式作者提出下列三種方式:. 1.. MAJ:給定一個試驗資料,對八個模組的結果進行統計,以多數模組 之結果為預測答案(即多數決),當發生衝突(crash)的時候則隨機取樣。. 2.. MAX : 挑 選 的 預 測 模 型 是 具 有 最 高 可 信 度 (confidence) 的 , 由 於 confidence 值是實數,實驗中沒有看到任何衝突產生。. 3.. 使用 MAJ-MAX:先使用 MAJ 的方法,但在第一個衝突發生時,從互 相衝突的模組中選擇分類預測具有最高可信度(confidence)的模組。. 在這篇文獻中,提及很多建立角色聯絡網的方法,並找出許多不同的特徵模 組做比對。本實驗找出特徵模組的方法,就是參考本篇文獻後所發想出的。. (三) Twitter 新聞事件偵測 7.

(15) 學者 Qin 等人則於 2013 年發表論文,研究 Twitter 新聞事件偵測之議題。 現今社會,社群網站已經變成是生活中重要的一部分,此篇文獻所做的研究, 將社群訊息分類、分析資訊、找出訊息內是否含有新聞相關的內容。與本研究相 關的地方在於,本研究也需要分析文件,在文件中(在此指劇本)找出有用的訊息, 以推薦正確的廣告。以下為此文獻的介紹。 一般來說,tweets 可以被分成三類: 1.. 新聞事件(news events):例如美國 911 爆炸案。. 2.. 關注性高的訊息(hot topic):散播於眾多使用者的議題,像是星座運勢 等。. 3.. 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless non-event tweets):例如「想找人和我一起聊天」 。. 本篇論文使用 SVM 分類器偵測事件,特徵包含兩大類:統計類(9 項)及社會 類(6 項)。圖 3 即為此文獻運用不同的特徵集產生的實驗結果,評量結果包括精確 度、回收率與 F1 分數,最後一欄是各組實驗與實驗 0 比較的 F1 差異值。. 圖 3. 使用不同特徵集的實驗結果 8.

(16) 此篇論文發展的系統稱為 FRED,文中還與其他已發表的兩個系統互相比較: Tweventu 及 Twevent,比較結果如圖 4 所示。在圖 4 中,#Evt 是偵測到的事件個 數、P 為精確度、R 是回收率、F1 是 F1 分數。結果顯示該論文所提出的方法優 於其他系統。. 圖 4. 三種系統的實驗結果. 在這篇文獻中,可以看到用了非常多的數據來表現整個系統的表現力,在進 行本實驗時,此篇文獻幫助本實驗在比對資料時,發想歸類方法。. (四) 運用自然語言技術分類電影劇本. 學者 Blackstock 和 Spitz 則於 2008 年發表論文,使用自然語言技術進行電影 劇本之分類。作者提及,分類文字的方式,無論是使用自然語言技術(NLP)或非 NLP 的技術,都是可見的。有很多分類的例子會使用作者書籍、網站或甚至博客 條目進行分類。在 Eliashberg 等人(2000)的研究中,作者對不同類型的消費者,以 研究他們如何對一個特定的電影做出反應。而 Blackstock 和 Spitz 的研究則從劇 本文件中抽取一些以自然語言為基的特徵,經由 Naïve Bayes (John and Langley, 1995)及 Maximum Entropy Markov Model (McCallum 等人, 2000)等分類器訓練及 測試,用來分辨電影劇本的類別。 此文獻運用自然語言技術分類電影劇本,因本實驗是在劇本上做擴展實驗, 所以有關劇本的文獻都曾參考,但此篇文獻多偏重於語意分析,最終只有參考分 9.

(17) 類文字的方式,用在本實驗分類特徵詞時。. (五) 以半監督式學習技術進行不平衡語意分類. 現今大多數的語意研究,都假設已標註或未標註的語料庫中,正向與負向的 意見是平衡的(balanced),但現實世界不見得如此。這篇研究(Li 等人,2011)即探 討 此 議 題 : 使 用 半 監 督 式 學 習 (semi-supervised learning) 技 術 進 行 不 平 衡 (imbalanced)語意分類的研究。方法是先找樣本,獲得多個樣本後,在樣本集中進 行訓練建立模組,最後利用多組訓練模組建立多個分類,再運用訓練出的分類測 試語意類別。. (六) 電影人物互動網路之擷取與分析. 本篇研究是由 Gil 等學者在 2011 年所提出,本研究主要由三個部分組成: 1.. 從電影資料中擷取人物互動網路(character interaction network),並以加權 圖表示。. 2.. 計算人物互動網路中的資訊屬性(informative property)。. 3.. 建構邏輯迴歸及決策樹分類器,利用這些屬性回答問題(例如:不同類型 的互動網路是否可以表示不同的戲劇與電影類別)。. 最後就可以運用上述之方法,快速分類戲劇或電影是屬於哪種類別。. 此篇文獻,參考到使用不同方法找出不同實驗結果時,可以組合之後再找出 更詳細的答案,運用在本實驗時,本研究先找出未來自動化高重點度的特徵詞, 再結合每段落的資訊得出最佳推薦廣告,即是本系統的最終結果,且可以產生每 段落廣告最佳播映時機點。. 10.

(18) 第二節 廣義知網. 廣義知網是中央研究院資訊所詞庫小組在 2003 年與董振東先生合作,進行 建構繁體字知網的合作計畫,承續知網的語意定義機制,中央研究院詞庫小組將 辭典中的九萬多條詞與知網連結,以簡單概念取代並且定義複雜概念的元素,稱 廣義知網。廣義知網的優點如下(參考 http://ckipsvr.iis.sinica.edu.tw/): 1.不會被有限詞義限制,能夠更精確的表達知識。 2.符合人的認知方式,對使用者來說比較簡單,可以讓使用者靈活的運用簡 單概念進行定義。 3.使用者用不同的簡單概念定義同一詞彙時,仍然可以轉換為相同或相近的 詞義,而且利用上下位承襲規範進行整合,這樣子對於知網庫的建立能更 有一致性。 4.利用簡單概念定義複雜概念,可以減少訊息的重複登錄,只要額外的訊息 補充說明就可以了,表示式也比較清楚易懂。當簡單概念出現不同時,他 們的解決方法是把同義詞集加以定義,因為同義詞集的連結,將可以限定 詞義,把詞義不同的問題解決。 5.廣義知網的表示式比較容易轉換為自然語言。 6.複雜關係表示式便於定義任何具有多重結合關係的人際概念、時空概念與 比較概念。 運用廣義知網,其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的 幫助,可以快速的找到大量的詞。. 11.

(19) 廣義知網提供的搜尋有三種: 1.節點查詢:以字串的方式查詢本體架構中的節點,節點包含義原、詞彙、 定義式,所有出現在樹狀結構中的節點,都可以在節點查詢到。這樣就可 以迅速地找到相關的延伸詞。 2.定義式查詢:這個方法是將所要查詢的詞輸入,然後就可以查到由查詢詞 為概念延伸的定義詞彙。此次研究在辭彙的擴充上面最主要就是使用此方 法。 3.進階定義式查詢:使用樹狀結構比對來找尋定義式,利用樹狀節點比對來 查詢,當樹狀結構 T1⊆T2 時,就可以從 T1 查詢到 T2。(T1、T2 各為樹由 廣義知網中定義). 圖 5. 廣義知網搜尋執行示意圖. 12.

(20) 第三節 中文斷詞系統 根據統計,一般的文章中約有百分之三到百分之五的未知詞,因此一個演算 法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響。由於並不存在 任何一個詞典或方法可以盡列所有的中文詞,當處理不同領域的文件時,領域相 關的特殊詞彙或專有名詞,常常造成分詞系統因為參考詞彙的不足而產生錯誤的 切分。為了解決這個問題,最有效的方法是補充領域詞典加強詞彙的搜集。因此 新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟。領域關鍵詞彙多出現在 該領域的文件中而少出現在其它領域,因此抽取關鍵詞時多利用此特性。高頻的 關鍵詞比較容易抽取,少數低頻的新詞不容事先搜集,必須線上辨識。構詞律、 詞素、詞彙及詞彙共現訊息,為線上新詞辨識依據。 中文斷詞系統提供了一個解決方案,可以線上即時分詞功能。為一具有新詞 辨識能力並附加詞類標記的選擇性功能之中文分詞系統。此一系統包含一個約 10 萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料。分詞依據為 此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞,並解決分詞歧義問 題。含有詞類標記,可附加文本中切分詞的詞類解決詞類歧義並猜測新詞之詞 類。 運用此系統的原因是因為目前中文斷詞系統已經做得相當的完善,可以準確 且非常詳細的分析出本次實驗所需的所有詞性,本研究經由中文斷詞系統後,可 以非常順利的進行後續分析,亦即重點度自動化分析─分析詞性找出可以運用的 詞性進而找出方法,推薦可能的最佳廣告產品。 表 1 為中文斷詞系統可能產生的詞性列表,亦即就是斷詞系統所有的詞性特 徵,本研究可以進而利用這些特徵去延伸發展,創造屬於自己需要的用法,目前 他人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較、斷詞系統對於 Queried keywords 的影響、電影評論詞性的分析,顯示應用是非常廣泛的。. 13.

(21) 表 1. 中文斷詞系統詞性表 精簡詞類 簡化標記. 對應的CKIP詞類標記. A C. A Caa. A Caa. /*非謂形容詞*/ /*對等連接詞,如:和、 跟*/. POST POST C ADV ADV. Cab Cba Cbb Da Dfa. Cab Cbab Cbaa, Cbba, Cbbb, Cbca, Cbcb Daa Dfa. /*連接詞,如:等等*/ /*連接詞,如:的話*/ /*關聯連接詞*/ /*數量副詞*/ /*動詞前程度副詞*/. ADV ASP ADV. Dfb Di Dk. Dfb Di Dk. /*動詞後程度副詞*/ /*時態標記*/ /*句副詞*/. ADV. D. /*副詞*/. N N N N N. Na Nb Nc Ncd Nd. Dab, Dbaa, Dbab, Dbb, Dbc, Dc, Dd, Dg, Dh, Dj Naa, Nab, Nac, Nad, Naea, Naeb Nba, Nbc Nca, Ncb, Ncc, Nce Ncda, Ncdb Ndaa, Ndab, Ndc, Ndd. DET DET DET DET POST M POST N Nv T. Neu Nes Nep Neqa Neqb Nf Ng Nh Nv I. Neu Nes Nep Neqa Neqb Nfa, Nfb, Nfc, Nfd, Nfe, Nfg, Nfh, Nfi Ng Nhaa, Nhab, Nhac, Nhb, Nhc Nv1,Nv2,Nv3,Nv4 I. /*數詞定詞*/. /*特指定詞*/ /*指代定詞*/ /*數量定詞*/ /*後置數量定詞*/ /*量詞*/ /*後置詞*/ /*代名詞*/ /*名物化動詞*/ /*感嘆詞*/. P T Vi Vt Vi Vt. P T VA VAC VB VC. P* Ta, Tb, Tc, Td VA11,12,13,VA3,VA4 VA2 VB11,12,VB2 VC2, VC31,32,33. /*介詞*/ /*語助詞*/ /*動作不及物動詞*/ /*動作使動動詞*/ /*動作類及物動詞*/ /*動作及物動詞*/. 14. /*普通名詞*/ /*專有名稱*/ /*地方詞*/ /*位置詞*/ /*時間詞*/.

(22) Vt. VCL. VC1. /*動作接地方賓語動詞. Vt Vt Vt Vt Vi Vt Vi Vt Vt. VD VE VF VG VH VHC VI VJ VK. VD1, VD2 VE11, VE12, VE2 VF1, VF2 VG1, VG2 VH11,12,13,14,15,17,VH21 VH16, VH22 VI1,2,3 VJ1,2,3 VK1,2. */ /*雙賓動詞*/ /*動作句賓動詞*/ /*動作謂賓動詞*/ /*分類動詞*/ /*狀態不及物動詞*/ /*狀態使動動詞/ /*狀態類及物動詞*/ /*狀態及物動詞*/ /*狀態句賓動詞*/. Vt Vt. VL V_2. VL1,2,3,4 V_2. /*狀態謂賓動詞*/ /*有*/. T. DE. Vt FW. SHI FW. /*的, 之, 得, 地*/ /*是*/ /*外文標記*/. COLONcATEGORY COMMACATEGORY DASHCATEGORY ETCCATEGORY. /* /* /* /*. 冒號 */ 逗號 */ 破折號 */ 刪節號 */. EXCLAMATIONcATEGORY PARENTHESISCATEGORY PAUSECATEGORY PERIODCATEGORY QUESTIONcATEGORY SEMICOLONcATEGORY SPCHANGECATEGORY. /* /* /* /* /* /* /*. 驚嘆號 */ 括弧 */ 頓號 */ 句號 */ 問號 */ 分號 */ 雙直線 */. 15.

(23) 第三章 研究方法. 第一節 緒論. 本研究是為了分析繁雜的劇本,希望可以將自然語言領域擴大範圍運用在更 多地方。本研究觀察到,目前在電視廣告上都是廣告商想要放甚麼廣告,電視台 就依其意願將廣告播放出來,沒有有效且最佳的方法引起觀眾的共鳴。本研究就 是為了解決這個問題,希望可以有效、快速又正確的在每個段落結束後下正確的 廣告。接下來本章會介紹研究來源與各種可能的結果與方法。本研究首先將劇本 進行剖析,目的在於把每個段落之後進廣告時,可以正確的將廣告商想要下的廣 告播出,並將此程序自動化。跟以往人力去下的方式不一樣的地方是,以人力方 式通常是先統計哪些時段觀賞的人多,廣告商再買時段下廣告,本研究則分析每 個時段進而產生適宜的廣告分配方式,不會浪費每個時段,讓電視台與廣告商之 間取得平衡。. 第二節 研究資料. (一) 研究材料. 劇本實驗資料來自金穗獎優良電視劇本網站(http://www.movieseeds.com.tw/), 本研究挑選 12 篇劇本進行分析與測試,總共有 493,629 個字,檔案大小為 1749.7KB。金穗獎優良劇本網站如圖 6 所示。本研究使用的 12 篇劇本皆可以由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文,12 劇本名稱及資訊如下所示: 「他 們在畢業前一天爆炸」作者王盈心,共 41,253 個字、「人狼謎蹤」作者楊皓鈞, 共 41,593 個字、「再見全壘打」作者王瑋/陳佳鍵,共 30,047 個字、「我心凝望的 16.

(24) 愛情」作者吳美枝,共 37,440 個字、 「哈皮與嬉皮」作者黃淑筠,共 38,261 個字、 「神棄」作者施君涵,共 33,432 個字、 「球來就打」作者涂芳祥,共 65275 個字、 「野馬小鴨頭」作者徐錫彪/王瑄錡,共 47,748 個字、 「黃金甲子園」作者魏德聖 /陳嘉蔚,共 51,259 個字、「搏浪」作者周美玲,共 30,641 個字、「十二月三十二 日」作者林真豪,共 65,636 個字、及「我的超級阿公」作者高顥中/謝柏逸,共 27,158 個字。挑選金穗獎劇本的原因,是因為這些劇本有很多已經被翻拍成電視 劇播出,像是「我們在畢業前一天爆炸」片長約 110 分鐘、「球來就打」片長約 135 分鐘,可供後續相關研究使用,而最後本研究採用的評量方式是以人力提供 標準答案的方式,評定結果是否有效益。 本次實驗挑選劇本的方式是屬隨機挑選,並無特定方式,因本次實驗試想在 隨機情況下去找出實驗結果,所以可以看到挑選的劇本長度、句數與場景個數皆 有差異存在。. 圖 6 金穗獎優良劇本網站. 17.

(25) (二) 中文斷詞系統. 本研究利用 CKIP 的中文斷詞系統 (http://ckipsvr.iis.sinica.edu.tw/)分析劇本, 並找出所有的詞性特徵。本研究首先將劇本分成每 10 個場為一個段落(目前先假 定每個劇本會下廣告的時間為 10 個場),接著將每個段落內容輸入中文斷詞系統, 輸出結果如圖 7 所示。. 圖 7. 中文斷詞系統之輸出範例. 場景即是在某場景開始但還沒換下一場景時的單位,目前觀察以 10 個場景 為一段落,嘗試尋找規則。以劇本 1 為例,1-10 場景 3025 字、11-20 場景 2917 個字、21-30 場景 2743 個字、31-40 場景 3939 個字、41-50 場景 4154 個字、51-60 場景 2376 個字、61-70 場景 3684 個字、71-80 場景 3139 個字、81-90 場景 1877 個字、91-100 場景 3132 個字、101-110 場景 3079 個字、111-120 場景 3116 個字、 121-end 場景 4056 個字,觀察發現本實驗以 10 個場景為一段落在字數長度上每 段並無太大差異,顯示 10 個場景為一段落是有效的方法,在未來研究上可以將 定段落方法給予更多的彈性,例如設定每個段落字數、設定每個段落長度等,擴 大研究方向。 接著如表 2 所示,會看到 NA、NB、NC、NCD、ND、VA、VB、VAC、VC、 18.

(26) VCL、VD、VE、VF、VG、VH、VHC、VI、VJ、VK、VL,這些是由中文斷詞 系統所產生的詞性(如圖 3)中挑選。在中文斷詞系統特徵詞中,會挑選這 20 個做 為本研究使用,主要原因是中文斷詞系統特徵詞中會出現一些詞性對於本研究是 沒有意義的,像是 T 這個詞性代表語助詞,本研究無法依語助詞而找出是否與該 產品相關,故無法用上。在除去類似這些無義詞後,最終選出表 2 中的 20 個特 徵詞為本研究使用,再經篩選後可提供本研究系統進一步的分析與探討。. 表 2. 劇本 1 的 1-10 場景段落特徵詞頻率範例 詞性. 頻率 詞性解釋. 特徵詞例句. NA. 300. 普通名詞. 臉、電視、圍牆、新聞、公車. NB. 154. 專有名詞. 某某先生、爸爸、耶穌. NC. 219. 地方詞. 學校、客廳、高中、大禮堂、操 場. NCD 50. 位置詞. 上面、裡面、四周、東、底下. ND. 22. 時間詞. 1 月、1 點、1 年、清晨、傍晚. VA. 84. 動作不及物動詞. 下車、狂奔、苦笑. VAC. 0. 動作使動動詞. 使…成為、令…為. VB. 4. 動作類及物動詞. 道別、開玩笑、拉拔. VC. 95. 動作及物動詞. 駕駛、騎、乘、仰望、倒入. VCL 27. 動作皆地方賓語動詞. 去、爬上、來到、位於、跑到. VD. 8. 雙賓動詞. 搶、偷、賣. VE. 20. 動作句賓動詞. 說、想看、形容、聽、認定. VF. 7. 動作謂賓動詞. 企圖、勸勉、較、準備、繼續. VG. 4. 分類動詞. 為、算. VH. 84. 狀態不及物動詞. 好、出現、怎麼辦、愣、有趣. VHC 2. 狀態使動動詞. 平衡、空. VI. 3. 狀態類及物動詞. 不以為然、似懂非懂、置信. VJ. 8. 狀態及物動詞. 冒出、剩、熟悉、發生、維持. VK. 12. 狀態句賓動詞. 覺得、堅持、明白、希望、詭異. VL. 3. 狀態謂賓動詞. 擅、敢、開始. 19.

(27) 本研究使用中文斷詞系統資訊的方法如下: 1. 找出每個詞的字頻 常常出現的字可能是很好的線索,可以用來找出段落內最佳的廣告 產品,本研究將排序所有段落的重點度高低,使用字頻當作參考依據。 本論文中重點度的定義將在下面「人工評斷重點度」詳述。 2. 從高頻率的詞中找出可用的特徵詞 好的特徵可以當做自動化過程的重要指標,本研究需先比對找出真 正有價值的特徵,詳細的方法將在下面「人工評斷重點度」詳述。. (三)人工評斷重點度. 本論文中的重點度是指劇本某個段落的吸引程度,或是使人印象深刻的高低 程度。本方法的目的在於利用可用的剖析後詞性,自動地決定劇本中所有段落的 重點度,這樣就可以排序所有段落,此資訊可以提供廣告商一些依據,讓廣告商 決定是否要在高重點度的段落內下廣告。 因為目前並沒有公開可以用的語料庫是關於本研究主題的,所以本論文採用 人工方式標定劇本各個段落的重點度,以便作為後續研究之用,並評斷可行之方 法以達到最佳的效益。圖 8 為經過人工標定後所有劇本重點度的分布狀況。 重點度是人工評斷的重要準則,以評分者來說,是以這個段落是否可以讓他 們有深刻的印象而決定重點度,在本論文中,重點度的分數為1-5共5等第,5代表 印象最深刻、最吸引人,1則是指對該段落印象最不深刻。在圖8的劇本一的段落 21-30是評分為5的高分區,劇本內容因為有跟蹤者與揭穿秘密的感覺,讓評分者 覺得印象深刻。該段落的對話有:「我們明天去跟蹤小柔好不好?」、「我管妳 來不來得及!現在就上樓跟他說分手!不然明天就讓全校知道!小柔瞪著阿 丁。」,低分區則是沒有讓評分者有以上的感覺即是低重點度段落。 而人力標定詞(或稱人力預測廣告詞)是評斷人員看完劇本後,評斷劇本中印 20.

(28) 象最深刻的名詞是那些。在評斷者標定時,可能會出現2個或2個以上的詞印象比 較深刻,本研究要求標定最深刻的一個當作人力標定詞,以供研究使用。. 圖 8. 所有劇本重點度的分布狀況. 在圖8中,以劇本一為例,1-10(2)表示段落1-10重點度分數為2、11-20(4)表示 段落11-20重點度分數為4。其中段落1-10的內容會被評為2分的原因,是評分者認 為該段落太過於無趣、太多鋪陳,像是劇本內「這裡是高中大禮堂,密密麻麻的 座位,只有浩遠站著,特別醒目。校長在台上講話。校長:…大家初到學校來, 要瞭解學校各方面的制度和規章,並且要聽從各級師長之教導,去行動、力行, 21.

(29) 才能做個好學生…」,而段落11-20會被評為4分,評分者認為是內容具精彩成分, 像是劇本內「浩遠握緊雙拳,他似乎看開了,開始醞釀打架的心情。」評分者說 這種片段有著動作的感覺,較為精彩。 本研究對人力評分出來的重點度高低做一致性測試,是以Kappa這個方法來 做一致性的測試,公式如下: κ𝑤 =. ∑ 𝑤𝑓0 − 𝑤𝑓𝑐 , 𝑛 − ∑ 𝑤𝑓𝑐. 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑖𝑐 𝑤𝑒𝑖𝑔ℎ𝑡 = 1 − (. 𝑖−𝑗 ) 𝑘−1. w𝑓0 表示每種不一致情況的加權頻率,w𝑓𝑐 表示每種不一致情況的預期加權頻 率,𝑘是序位的個數,(𝑖 − 𝑗)是不一致性的程度。三位評分者(以下稱甲、乙、兩) 互相比較評分分數的分布如表 3、表 4 與表 5。. 表3. 評分者甲與評分者乙的分數分布統計 乙. 甲. 1. 2. 3. 4. 5. 1. 1. 2. 2. 2. 2. 9. 2. 1. 5. 6. 7. 6. 25. 3. 1. 3. 25. 24. 17. 70. 4. 1. 4. 22. 28. 19. 74. 5. 1. 5. 29. 36. 27. 98. 5. 19. 84. 97. 71. 276. 22.

(30) 表 4. 評分者甲與評分者丙的分數分布統計 丙. 甲. 1. 2. 3. 4. 5. 1. 1. 2. 6. 6. 5. 20. 2. 1. 4. 10. 11. 7. 33. 3. 1. 3. 15. 16. 12. 47. 4. 0. 3. 19. 22. 18. 62. 5. 1. 5. 30. 32. 28. 96. 4. 17. 80. 87. 70. 258. 表 5. 評分者乙與評分者丙的分數分布統計 丙. 乙. 1. 2. 3. 4. 5. 1. 2. 4. 5. 5. 6. 22. 2. 2. 5. 9. 10. 11. 37. 3. 2. 5. 13. 13. 15. 48. 4. 1. 4. 18. 17. 22. 62. 5. 2. 8. 26. 41. 49. 126. 9. 26. 71. 86. 103. 295. 表 6. 兩兩比較之 weighted kappa 值 評分者. κ𝑤. 甲、乙. 0.7889. 甲、丙. 0.6422. 乙、丙. 0.7889. 表 6 為三位評分者兩兩互相比較之 weighted kappa 值,由結果可知其 kappa 值均高於 0.6,表示三位評分者的給分具有良好的一致性,這也表示實驗中的人 力評分重點度,可做為進行分類與評估的參考資料。 23.

(31) 第三節 研究方法架構. 研究方法之架構圖如圖 9 所示。在圖 9 中,第一部分的目的在於找出重要的 特徵詞。首先將金穗獎優良劇本經由中文斷詞系統,剖析出所有可以找出的特徵 詞,另一部分給評比人員閱讀、標記重點度分數,接著,斷詞系統找出來的特徵 詞,再與人力評比出的重點度分數互相比對,找出本實驗需要的特徵詞。 第二部分的目的在於利用特徵詞找出最佳的推薦廣告。首先經由中文斷詞系 統標示詞性,依照頻率出現的高低找出詞性 Na 頻率最高的前三名,再經廣義知 網擴充得到前三名 Na 的延伸詞,如廣義知網無法擴充,則改為從 Google 找出延 伸詞,接下來與人力評比找出的廣告比對,驗證研究方法是否符合標準,最後將 找出的最佳推薦廣告與重點度結合,即可以得到兩種輸出:(1)每個段落最佳推薦 廣告,與(2)每個段落的重點度高低,即為本實驗最後要的結果。. 24.

(32) 金穗獎優良劇本. 人力分析 劇本重點度. 找出每個段落中 詞性為 Na 且 出現頻率最高的 前三名. 中文斷詞 系統. 設定劇本重點度 分數,比對找出. 廣義知網. Google. 人力標定詞. Na 延伸詞. 特徵詞 重點度降級. 比對 Na 與廣告產品. 理想特徵名詞. 特徵詞符合 門檻. 否. 是 自動化分析 重點度. 每段落最佳 廣告產品. 段落重點度排序. 廣告推薦演算法. 推薦最佳 廣告產品. 圖 9. 研究方法架構流程圖. 25. 廣告產品.

(33) 劇本輸入. 自動化分析重 點度. 各段落重點度 排序. 每段落最佳推 薦廣告. 最佳推薦廣告. 圖 10.系統架構圖 圖 10 表示的是經研究實驗後,找出的可用模組所組成的系統架構圖,流程 是先將劇本輸入本系統,由本實驗找出的自動化分析重點度的特徵詞模組,找出 重點度高低,再排序出各段落重點度,最後結合本系統所找出的每段落最佳推薦 廣告,得出最佳推薦廣告,即可提供廠商參考是否符合需求。. 第四節 研究方法描述. 本研究方法可以歸類成下列四大步驟說明:(1)找出理想特徵詞,(2)比對成功 的標準,(3)自動化選取高重點度段落的範圍,及(4)比對 Na 與廣告產品,各步驟 的詳細說明如下:. (一)找出理想特徵詞. 將所得到的劇本經由中文斷詞系統剖析後,會得到劇本特徵詞的詞性,再計 算每個特徵在每個段落中的頻率,此頻率可提供重要的訊息,會得到如表 2 (經排 序整理後得到的字頻)的數據,方法是如果剖析後得到的特徵詞與人力分析高分段 26.

(34) 落相符合則標記出來,接著運用特徵詞在劇本內不同段落內出現頻率最高的段落 ,與人力評分覺得高分的段落,判斷哪些特徵詞可以幫助決定劇本內哪些段落應 該是高分重要區。. (二) 比對成功的標準. 由第一步驟得到的理想特徵詞,再與由人力分析的高重點度段落比對。如圖 8 所示,以劇本 1 為例,人力分析高重點度段落(即重點度分數為 5)有 21-30、41-50、 51-60、71-80、121-end,而劇本 1 特徵詞高分所在段落如表 3 所示,共有 11-20、 31-40、41-50、101-110、111-120、120-end 共 6 個不同段落,觀察人力分析高重 點度段落與高分特徵詞所在段落之比對情形,劇本 1 中人力分析高重點度段落 41-50、121-end 在表 4 中有比對到,代表在 6 個不同段落中有 2 個特徵詞之高分 所在段落是人力評定的高重點度段落,精確度所占比率為 0.666。 以上述比對的方法計算各劇本的比對成功精確度,劇本 1 比對成功比率為 0.666、劇本 2 為 0、劇本 3 為 0.857、劇本 4 為 0.714、劇本 5 為 0.071、劇本 6 為 0.642、劇本 7 為 0.5、劇本 8 為 0.5、劇本 9 為 0.571、劇本 10 為 0、劇本 11 為 0.785、劇本 12 為 0.071。由以上實驗顯示,在本實驗中比率為 0.5 以上的劇本 在 12 個劇本中佔 8 個,因此本實驗將以 0.5 為標準門檻值,也就是所佔比率大於 0.5 即為成功標準。. 27.

(35) 表 7. 劇本 1 高分特徵詞所在段落 特徵詞. 段落. NA. 121-end. NB. 41-50. NC. 41-50. ND. 41-50. VA. 31-40. 121-end. VB. 111-120. VC. 121-end. VD. 101-110. VE. 41-50. VF. 41-50. VG. 121-end. VH. 111-120. VI. 41-50. VJ. 31-40. VK. 11-20. VL. 41-50. 接下來,整理所有劇本各種詞性特徵詞出現頻率最高的段落,表 7(a)顯示劇 本 1-4 的情形,在表 7(a)中,特徵詞 Na 出現最多次的段落為 121-end (劇本 1)、 31-40 (劇本 2)、91-100 (劇本 3)、61-70 (劇本 4)。以相類似的方法處理劇本 5-12, 結果分別記錄於表 7(b)及表 7(c),其中表 7(b)顯示劇本 5-8 的情形、表 7(c)顯示劇 本 9-12 的情形。分析表 7(a)、7(b)及 7(c),觀察到劇本 1 到劇本 4 中,劇本 2、 劇本 4、劇本 6、劇本 7 中很多特徵詞性都會集中在特定段落,例如劇本 7 中特 徵名詞集中在 21-30、31-40 等段落。. 28.

(36) 表 7(a) 劇本 1-4 中各種詞性特徵詞出現頻率最高的段落 特徵詞. 劇本 1. 劇本 2. 劇本 3. 劇本 4. NA. 121-end. 31-40. 91-100. 61-70. NB. 41-50. 31-40. 91-100. 61-70. NC. 41-50. 31-40. 91-100. 31-40. VA. 31-40 121-end. 1-10. 91-100. 61-70. VB. 111-120. 31-40. 1-40. 61-70. VC. 121-end. 31-40. 91-100. 61-70. VD. 101-110. 1-10. 21-30. 31-40. VE. 41-50. 31-40. 91-100. 61-70. VF. 41-50. 31-40. 81-90 91-100. 31-40. VG. 121-end. 31-40. 31-40 41-50. 61-70. VH. 111-120. 31-40. 91-100. 61-70. VL. 41-50. 51-60. 31-40 41-50 61-70. 71-80. VI. 31-40. 31-40. 91-100. 61-70. VK. 11-20. 31-40. 91-100. 61-70. 表 7(b) 劇本 5-8 中各種詞性特徵詞出現頻率最高的段落 特徵詞. 劇本 5. 劇本 6. 劇本 7. 劇本 8. NA. 1-10. 100-end. 31-40. 51-60. NB. 61-70. 100-end. 21-30. 31-50. NC. 1-10. 100-end. 31-40. 1-10. VA. 1-10. 11-20. 31-40. 1-10. VB. 61-70. 11-20. 21-30. 1-10. VC. 21-30. 100-end. 21-30. 11-20. VD. 21-30. 100-end. 21-30. 31-40. VE. 61-70. 100-end. 31-40. 51-60. VF. 61-70. 1-20 100-end. 21-30. 51-60. VG. 1-10. 51-60 91-100. 31-40. 51-60. VH. 1-10. 100-end. 31-40. 1-10. VL. 31-40. 61-70. 21-30. 51-60. VI. 21-30. 100-end. 31-40. 51-60. VK. 41-50. 21-30. 21-30. 51-60. 29.

(37) 表 7(c) 劇本 9-12 中各種詞性特徵詞出現頻率最高的段落 特徵詞. 劇本 9. 劇本 10. 劇本 11. 劇本 12. NA. 71-80. 1-10. 51-60. 21-30. NB. 71-80. 1-10. 51-60. 41-50. NC. 71-80. 1-10. 31-40 51-60. 11-20. VA. 71-80. 1-10. 51-60. 21-30. VB. 21-30. 81-90. 1-10. 31-40. VC. 71-80. 71-80. 51-60. 21-30. VD. 71-80. 71-80. 51-60. 11-20. VE. 41-50. 71-80. 51-60. 31-40. VF. 11-20. 1-10. 41-50. 31-40. VG. 21-30. 1-10. 51-60. 11-20. VH. 71-80. 1-10. 51-60. 21-30. VL. 11-20. 1-10. 21-30. 21-30 61-70. VI. 11-20. 1-10. 51-60. 31-40. VK. 71-80. 1-10. 51-60. 31-40. 接下來我們比對表 7(a)、7(b)、7(c)之段落與人力評斷重點度分數為 5 的段落 是否相同。結果如表 8(a)、8(b)及 8(c)所示。 表 8(a) 劇本 1-4 中利用各種詞性頻率與人工評斷結果之比對(V 代表相符) 特徵詞. 劇本 1. NA. 劇本 2. 劇本 3. 劇本 4. V. V. V. NB. V. V. V. NC. V. V. VA. V. VB VC. V V. V. V. V. VE. V. V. V. VF. V. V. VG. V. V. V. V. V. VD. VH VL. V. V. VI. V. V. VK. V. V. 30.

(38) 表 8(b) 劇本 5-8 中利用各種詞性頻率與人工評斷結果之比對(V 代表相符) 特徵詞. 劇本 5. 劇本 6. 劇本 7. 劇本 8. NA. V. V. V. NB. V. NC. V. VA. V V. VB VC. V. VD. V. VE. V. VF. V. VG. V. V V. VH. V. V. V. VL VI. V. V V. V. V. VK. V V. 表 8(c) 劇本 9-12 中利用各種詞性頻率與人工評斷結果之比對(V 代表相符) 特徵詞. 劇本 9. 劇本 10. 劇本 11. NA. V. V. NB. V. V. NC. V. V. VA. V. V. VC. V. V. VD. V. V. VE. V. V. 劇本 12. VB. VF VG VH. V V. V. VL VI VK. V V. V. 31. V.

(39) 從表 8(a)及 8(b)中可以看到在劇本 1 到 8 中,除了劇本 2 和劇本 5 之外,其 他劇本都可以非常成功的與人力評分結果相符,證明此特徵對其有用,但劇本 2 就完全不相符,而劇本 5 也只有 VI 有比對成功。表 8(c)可以看到在劇本 9 到劇本 12 中,劇本 10 與人力評斷完全沒比對成功,而劇本 12 只有 VI 比對成功,劇本 9、劇本 11 則大部分相符。 以下以兩個範例說明比對結果。 範例一: 劇本 1 特徵詞 Na 出現的頻率最高是在 121-end 段落,而在人力評分重點 度上評斷 121-end 為高重點度的段落,兩者相符,本研究推論 Na 可以當做自 動化分析重點度的特徵。 範例二: 劇本 3 特徵詞 VA 出現的頻率最高在 91-100 段落,而在人力評分重點度 上評斷 91-100 段落為高重點度的段落,同範例一的推論方式則 VA 可以當做 自動化分析重點度的特徵。. (三)自動化選取高重點度段落的範圍. 以步驟(一)所找出的結果並非每次都可以得到理想的結果,在表 8(a)-8(c)中 發現劇本 2、劇本 5、劇本 10、劇本 12 使用步驟(一)得到的特徵是無法找出重點 度高之段落,顯示應用所找出的特徵與人力提供的答案評分有相當大的差異。我 們觀察到劇本自動化找的特徵,高分大部分集中在某些段落。例如以表 7(a)-7(c) 中可以看出,自動化分析所需的特徵高分區以 31-40 這個段落為大宗,但人工評 分的結果,高分段落卻是落在 41-50、71-80、81-90、91-100 這幾個段落,導致步 驟(一)所產生的比對結果不甚理想。 為解決上述問題,本研究嘗試放鬆條件,以便劇本 2 能有成功比對的段落。 放鬆條件的方法是從重點度分數 5 分降為 4 分,如圖 11 為所有劇本在各段落之 32.

(40) 重點度分布狀況,劇本 2 分數 4 分的段落分別是 1-10、11-20、21-30、31-40、51-60、 81-90。以此方法實施後,再紀錄所有劇本各段落被評為最高之次數。. 6 5 4 3 2 1 0. 劇本1. 劇本2. 劇本3. 劇本4. 劇本5. 劇本6. 劇本7. 劇本8. 劇本9. 劇本10. 劇本11. 劇本12. 圖 11. 劇本在各段落的重點度分數. 採取放鬆條件的目的是因為,已知分析後可能會得到不如預期的情況(例如第 一次對劇本 2 預測的廣告商品,結果是完全低於標準的),所以降低標準以找出符 合標準的結果。在未來實際應用層面上,如果有更多資料要用來找尋更精準的自 動化分析重點度的特徵詞時,先產生第一次的結果,遇到不如預期的就可以運用 此方法順利地找到。 觀察表 7(a)劇本 2 的欄位,原來在表 8(a)中劇本 2 與人力評分比對的結果是 完全不相符,可是經過降級擴大選取高重點度段落的範圍,把原本只找最高評分 5 分的特徵改為 4 分,就可以增加正確比對的可能性。因為想觀察先前表現不佳 的 4 個劇本(劇本 2、5、10、12)是否可能改進,表 9(a)列出劇本 2、5、10、12 各 種詞性出現頻率最高的段落,表 9(b)則為劇本 2、5、10、12 依據新的方法之比對 結果。 33.

(41) 表 9(a) 劇本 2、5、10、12 各種詞性出現頻率最高的段落 特徵詞. 劇本 2. 劇本 5. 劇本 10. 劇本 12. NA. 31-40. 1-10. 1-10. 21-30. NB. 31-40. 61-70. 1-10. 41-50. NC. 31-40. 1-10. 1-10. 11-20. VA. 1-10. 1-10. 1-10. 21-30. VB. 31-40. 61-70. 81-90. 31-40. VC. 31-40. 21-30. 71-80. 21-30. VD. 1-10. 21-30. 71-80. 11-20. VE. 31-40. 61-70. 71-80. 31-40. VF. 31-40. 61-70. 1-10. 31-40. VG. 31-40. 1-10. 1-10. 11-20. VH. 31-40. 1-10. 1-10. 21-30. VL. 51-60. 31-40. 1-10. 21-30. VI. 31-40. 21-30. 1-10. 31-40. VK. 31-40. 41-50. 1-10. 31-40. 61-70. 表 9(b) 放鬆一級條件之比對後結果(V 代表相符) 特徵詞. 劇本 2. 劇本 5. 劇本 10. 劇本 12. NA. V. V. V. V. NB. V. V. V. V. NC. V. V. V. VA. V. V. V. V. VB. V. V. VC. V. V. V. V. VD. V. V. V. VE. V. V. V. VF. V. V. V. VG. V. V. V. VH. V. V. V. V. VL. V. V. V. VI. V. V. V. VK. V. V. V. 表 9(b)顯示劇本 12 的降級結果沒有劇本 2、劇本 5、劇本 10 的結果好,嘗試 34.

(42) 再放鬆條件,將重點度分數改為 3,看看是不是可以得到更好的結果,結果如表 10 所示。 表 10. 放鬆重點度分數為 3 之結果 特徵詞. 劇本 12. NA. V. NB. V. NC. V. VA. V. VB. V. VC. V. VD. V. VE. V. VF. V. VG. V. VH VL VI. V. VK. V. 觀察表 10 發現第 2 次降級比第 1 次降級的結果再好一些,第 2 次降級即為 我們需要的結果。由上面的實驗,顯示實施本論文所提出的放鬆條件之方法(即降 級)後,即可順利找出劇本 2、劇本 5、劇本 10、劇本 12 的高重點度段落。 整合表 8(a)-表 8(c)以及表 9(b)之比對結果,各個特徵詞在所有劇本中成功比 對的次數如表所示。例如 Na 在 12 個劇本中比對成功的次數總共有 12 次,所以 Na 可以被認為是重要的特徵,VB 在 12 個劇本中比對成功的次數僅 4 次,甚至 低於總數的一半,應該不是重要的特徵。本實驗以 9 (9 為 12 的三分之二)為門檻 值,所以最後找出可用的特徵詞為 Na、Nb、Nc、VA、VC、VE、VG、VH、VI 這 9 個特徵詞,即為自動化分析重點度可用的特徵詞。觀察各個詞性符合高重點 度段落的頻率如表 12 所示,比較表 11 及表 12,可以看出我們選出的特徵詞出現 之頻率大部分都很高。 35.

(43) 表 11. 各個特徵詞在所有劇本中成功比對的次數 特徵詞 NA NB NC VA VB VC VD VE VF VG VH VL VI VK. 次數 12 10 9 9 3 10 6 11 7 9 9 7 9 8. 是否為可用特徵詞 V V V V V V V V V. 表 12. 各個詞性在所有劇本中符合高重點度段落的頻率表 特徵 詞. 劇本 1. 劇本 2. 劇本 3. 劇本 4. 劇本 5. 劇本 6. 劇本 7. 劇本 8. 劇本 9. 劇本 10. 劇本 11. 劇本 12. NA. 447. 878. 860. 456. 495. 459. 1450. 479. 1159. 784. 822. 465. NB. 205. 146. 523. 234. 195. 190. 395. 36. 246. 254. 294. 162. NC. 292. 665. 834. 370. 577. 256. 1153. 211. 768. 446. 449. 309. VA. 107. 199. 233. 99. 139. 69. 334. 70. 234. 156. 178. 111. VB. 9. 15. 8. 22. 11. 3. 21. 5. 32. 17. 16. 15. VC. 238. 304. 526. 285. 273. 170. 626. 137. 488. 346. 387. 191. VD. 12. 11. 19. 18. 16. 22. 22. 9. 51. 17. 21. 15. VE. 55. 96. 144. 75. 79. 33. 188. 39. 269. 97. 95. 80. VF. 13. 15. 13. 14. 20. 5. 22. 4. 22. 22. 13. 14. VG. 9. 22. 17. 13. 9. 4. 35. 2. 32. 17. 16. 11. VH. 92. 335. 322. 137. 252. 118. 759. 121. 347. 271. 272. 183. VL. 10. 27. 15. 10. 14. 14. 40. 6. 11. 15. 14. 16. VI. 2. 18. 2. 0. 3. 0. 0. 3. 20. 9. 1. 2. VK. 20. 50. 71. 33. 401. 22. 74. 14. 51. 56. 36. 36. 36.

(44) (四) 比對 Na 與廣告產品. 本步驟的目標是要找出每個段落中可以置入最佳的廣告,方法如下:首先經 中文斷詞系統後,本系統計算 NA 的字頻,再從 NA 字頻取出前三名高分的詞進 行比對,接著利用廣義知網擷取出每個 NA 的延伸詞,再做比對,比對的一方為 由網路上蒐集的廣告資料,比對之後即可得到結果。 本研究取 NA 來當作判斷比對依據的原因為:在其他的特徵詞(如 Nb、Nc、 VA、VB、VC、VD、VE、VF、VG、VH、VL、VI、VK 等)中,除了 Na 之外其 他的特徵詞在廣義知網中找延伸詞時,都沒辦法有效的找出有意義的詞。例如: 會出現「小心翼翼」 、 「心領神會」 、 「管不著」(以上詞皆來自劇本一,屬於狀態不 及物動詞 VH,無延伸詞)這種比較無法跟本研究要找的結果相關的詞,所以本研 究就不採用其他特徵詞。表 13 顯示在劇本七中各個段落 Na 出現次數最高的前三 名。. 表 13. Na 前三名範例 段落. 劇本七前三名之 Na. 1-10. 哈皮. 獸醫. 嬉皮. 11-20. 橘子. 小女孩. 綠油精. 21-30. 變色龍. 獨眼龍. 眼睛. 31-40. 蜥蜴. 尾巴. 少年. 41-50. 橘子. 變色龍. 嬉皮. 表 13 以劇本七為例,1-10 段落前三名的 NA 分別為哈皮、獸醫、嬉皮,11-20 為橘子、小女孩、綠油精,21-30 的前三名為變色龍、獨眼龍、眼睛,31-40 為蜥 蜴、尾巴、少年,41-50 為橘子、變色龍、嬉皮,得到這些資料後就可以利用廣 義知網找出這些 NA 的延伸詞,擴大比對的範圍,進行更多可能的搜尋比對。. 37.

(45) 在廣義知網找延伸詞時,可能會發生找不到 NA,進而沒有延伸詞的情況, 例如外來語出現的時候。當這種情況發生時,本研究運用 google 搜尋,找出相關 延伸詞義來當作延伸詞。. 表 14. 劇本七 Na 在廣義知網與 Google 搜尋之延伸詞範例 劇本七 Na 1-10. 哈皮. happy、快樂. 獸醫. 醫師、動物、寵物醫院. 嬉皮. 嬉皮、嬉皮笑臉. 橘子. 金橘、柑、柑桔、柑橘、 枳實、桔、桔子、海梨、 桶柑、甜柑、椪柑、橘、 橘子、蜜柑. 小女孩. 女孩、小女生. 綠油精. 綠油精、萬金油. 變色龍. 變色龍、寵物、冷血動物. 獨眼龍. 獨眼龍. 眼睛. 眼睛、眼、眼鏡. 蜥蜴. 蜥蜴. 尾巴. 尾巴、動物尾巴、末端. 少年. 年輕人、少年. 橘子. 金橘、柑、柑桔、柑橘、 枳實、桔、桔子、海梨、 桶柑、甜柑、椪柑、橘、 橘子、蜜柑. 變色龍. 變色龍、寵物、冷血動物. 嬉皮. 嬉皮、嬉皮笑臉. 11-20. 21-30. 31-40. 延伸詞. 41-50. 圖 12. 「橘子」在廣義知網的延伸詞圖形. 38.

(46) 表 14 為劇本七 Na 詞利用廣義知網與 Google 搜尋後所找出的延伸詞,1-10 段落內哈皮是屬於外來語,廣義知網並沒有相關資料,詞延伸的詞意是從 Google 找出的,可以找到 happy、快樂。而獸醫的延伸詞較多,包括醫師、動物、動物 醫院,這些都是與獸醫相關的詞,這些延伸詞可以對應到觀眾在此段落內看到獸 醫時,可能會想到狗、貓、動物或者是去動物醫院讓寵物看病,所以在此段落後 建議可以放入動物醫院的廣告,加強觀眾的印象與廣告相結合,本研究希望利用 此方法找到可以播映的相對應廣告。圖 11 為廣義知網顯示從橘子找延伸詞的圖 形。 表 15.劇本七 NA 前十名 段落. 名詞/頻率. 1-10. 哈皮 獸醫. 11-20. /44 /24 橘子 小女 孩/10 /82. 嬉皮 綠油 精/18 /24. 綠鬣 蜥/15. 脖子 貨櫃 變色 眼/9 龍/12 /14 /14. 管理 員/9 哥/6. 31-40. 蜥蜴 尾巴. 綠油 顏色/9 媽媽/8 綠鬣 身體 管理 身/7 精/9 蜥/8 /8 員/7 眼睛 蒼蠅 臉/19 舌頭 綠鬣 眼/16 時間 蜥/17 /21 /20 /18 /14 少年 戰士 彩虹 蜥/27 水溝 草原 脖子. 41-50. /78 /41 橘子 變色 龍/16 /18. /40 /38 嬉皮 變色 蜥/7 /10. 21-30. 變色 獨眼 龍/28 龍/23. 身體 /14 傷兵. /32 /26 /21 /16 /15 媽媽/6 爸爸 新聞 蜥蜴 地圖 眼睛/4 /6. /5. /5. /4. 在觀察表 15 可以發現取用 NA 前三名來做實驗而不全部取用或者其他選取方 式的理由是,觀察後可以發現大多數段落的 NA 在前三名之後 NA 的頻率都會慢 慢地偏向集中,有可能會因此加重本實驗的複雜度,所以最後本實驗取用前三名 來當依據,可以比較有區分性,使實驗順利進行。. 39.

(47) 第四章 實驗結果 第一節 劇本段落重點與廣告產品之關聯. 目前網路上並沒有公開可直接取得之廣告產品資料庫,為了進行實驗,本研 究需自行蒐集資料,作法是先從每個劇本段落找出最佳 Na 及其延伸詞,找出最 佳建議的類似產品,類似產品可以再與廣告產品資料庫互相匹對,給出最佳廣告, 而重點度分數的呈現是給廠商一個選擇,了解為何在此下廣告的原因,並期望得 到廣告播放的最大效益。接下來,先分析劇本與廣告產品的關聯度,結果如表 16、 17、18 所示。. 表 16. 各廣告產品在劇本 1-4 重點度的分布狀況 廣告商品 劇本 1 iphone 1-10 TVBS 新聞 中華職業棒球 可口可樂 台糖健康超市 金林排骨便當 信義房屋 動物醫院 啤酒 速食麵 雄獅旅行 新光保全 腳踏車 電視 遠傳電信 線上遊戲 緯大雞排 攝影. 劇本 2. 劇本 3. 劇本 4. 21-30 71-80 81-90. 21-30. 61-70. 11-20 11-20 31-40 51-60 61-70 71-end. 61-70. 21-30. 11-20 121-130 121-130 1-10. 1-10. 31-40 81-90. 41-50. 1-10 21-30. 40.

(48) 表 17. 各廣告產品在劇本 5-8 重點度的分布狀況 廣告商品 劇本 5 劇本 6 11-20 51-60 80-end iphone TVBS 新聞 中華職業棒球 可口可樂 台糖健康超市 31-40 41-50 金林排骨便當 31-40 41-50 51-60 信義房屋 31-40 動物醫院 41-50 啤酒 21-30 速食麵 雄獅旅行 新光保全 腳踏車 電視 遠傳電信 線上遊戲 緯大雞排 41-50 61-70 攝影. 劇本 7. 劇本 8 31-40 61-70. 1-10. 表 18. 各廣告產品在劇本 9-12 重點度的分布狀況 廣告商品 iphone TVBS 新聞 中華職業棒球. 劇本 9. 劇本 10. 劇本 11 41-50. 1-10 11-20 21-30 31-40 41-50 51-60. 可口可樂 台糖健康超市 金林排骨便當 信義房屋 動物醫院 啤酒 51-60 速食麵 雄獅旅行 新光保全 腳踏車 電視 遠傳電信 線上遊戲 緯大雞排 攝影. 劇本 12 1-10 71-80. 1-10 11-20 21-30. 91-100. 51-60 81-90. 41. 11-20 51-60.

(49) 表 16、17、18 為廣告蒐集資料與分析 Na 字頻之後所得到的結果,可以看到 在劇本內每個段落有哪些是可以與廣告群互相對應,如表 14 的劇本 4,「中華職 業棒球」就可以在 11-20、31-40、51-60、61-70、71-end 這幾個段落後下廣告, 「速 食麵」可在 11-20、「腳踏車」可在 1-10、「緯大雞排」可在 31-40 之後下廣告。 此外由表 16、17 可以發現,目前在廣告資料還不多的情況下,還是有很多 可能的對應結果出現在劇本內。廣告最佳對應結果可以在一個劇本中多個段落出 現,例如: 「iphone」這項產品於劇本 3 中可以在 21-30、71-80、81-90 找到, 「中 華職業棒球」這項可以在劇本 4 中 11-20、31-40、51-60、61-70、71-80 找到;而 也有某些劇本只有很少的可對應廣告,本研究認為解決的辦法可以從增加廣告資 料庫著手、或者是分析時加上更多可行的研究方法,把更多相關聯的特徵找出 來。 本研究以人力方式進行廣告產品資料群的 TAG,結果如表 19 所示。觀察表 19 可以看到所有廣告產品資料群的 TAG,再與各段落前三名 NA 的延伸詞作比對 即可推薦出最廣告,例如:「iphone」在劇本三比對 21-30、71-80、81-90 的 NA 前三名是手機,而「iphone」的 TAG 是手機,二者比對成功,推薦劇本三 21-30、 71-80、81-90 的最佳廣告就會是「iphone」。. 42.

(50) 表 19.廣告產品群的 TAG 廣告商品 iphone TVBS 新聞 中華職業棒球 可口可樂 台糖健康超市 金林排骨便當 信義房屋 動物醫院 啤酒 速食麵 雄獅旅行 新光保全 腳踏車 電視 遠傳電信 線上遊戲 緯大雞排 攝影. TAG 手機 新聞 棒球 飲料 超市 便當 房仲 醫院 啤酒 麵 旅行 保全 腳踏車 電視 電信公司 遊戲 雞排 攝影. 第二節 推薦廣告結果. 接下來的步驟是將段落重點度排序之後,取出重點度高的段落,將所包含的 Na 利用廣義知網擴充出延伸詞後,再與廣告商品資料庫相比對,以推薦最佳的廣 告。在第三章第四節研究方法中,我們已找出最終可用的特徵詞為 Na、Nb、Nc、 VA、VC、VE、VG、VH 與 VI,為方便接下來的說明,此處節錄劇本 1、4、5 中各個特徵詞出現高頻率之段落分布於表 20。 表 20 顯示劇本 1、4、5 中 9 個特徵詞出現最高頻率之段落,本研究選取這 幾個劇本的原因如下:劇本 1 段落最多,可以看出在較長劇本下使用本研究方法 的效果;選取劇本 4 的原因是該劇本在表 8(a)、8(b)、8(c)中表現效果良好,而劇 本 5 則實驗結果一般。. 43.

(51) 表 20. 劇本 1、4、5 中各個特徵詞出現最高頻率之段落分布 特徵詞. 劇本 1. 劇本 4. 劇本 5. Na. 121-end. 61-70. 1-10. Nb. 41-50. 61-70. 61-70. Nc. 41-50. 31-40. 1-10. VA. 31-40 121-end. 61-70. 1-10. VC. 121-end. 61-70. 21-30. VE. 41-50. 61-70. 61-70. VG. 121-end. 61-70. 1-10. VH. 111-120. 61-70. 1-10. VI. 31-40. 61-70. 21-30. 觀察表 20,可以看到在較長劇本的時候重點度高的段落會較分散,而在較分 散(如劇本 1)的時候是否需要使用更多的特徵去比對以便找出最好的結果,則是設 計實驗必須注意的;而在劇本 4 中重點度高的段落非常集中,如表 20 所示都集 中在 31-40、61-70 這兩個段落;劇本 5 的劇本長度普通,重點度高的段落也沒有 太過於集中與分散,可以測試在長度一般的狀態下本實驗方法的結果是否成功。 接下來討論推薦廣告的結果。因為不知道會有多少廣告商需要在劇本中播映 廣告,所以本研究定義了三個隨機的廣告產品群(稱為廣告產品 1、2、3),如表 21 所示,本研究將在每一廣告產品群中推薦最適合的廣告商品。 表 21. 廣告產品群的內容 廣告產品 1 iPHONE TVBS 新聞. 廣告產品 2 洗面乳. 裕隆汽車. 肯德雞. TOTO 衛浴. 中華職業棒球 Levis 服飾 可口可樂. 廣告產品 3. 黑橋牌香腸. 上引水產日式料理 美國職業籃球聯賽. 台糖健康超市 康熙來了節目. 哈士奇. 金林排骨便當 屏風劇場. 哈雷機. 新光保全. 信義之星. 三花內褲. 速食麵. 棒球帽. 雷朋眼鏡. 攝影. 七七乳加巧克力. 檳榔. 遠傳電信. 麥卡倫威士忌. 行天宮. 44.

(52) 為了找出最佳的推薦廣告,本研究從劇本的高分段落著手,因為高分段落代 表較能吸引觀眾的注意,觀眾在此轉台的機率較低,因此會讓廠商有較高的播映 廣告意願。利用第三章第四節有關廣告推薦的方法,得到廣告商品推薦結果如表 22~24 所示。. 表 22. 劇本 1 高分段落建議之廣告產品 劇本 1 高分段落. 廣告產品 1. 廣告產品 2. 廣告產品 3. 31-40. 無最佳建議廣告. 無最佳建議廣告. 無最佳建議廣告. 41-50. 新光保全. 無最佳建議廣告. 無最佳建議廣告. 111-120. 新光保全. 無最佳建議廣告. 無最佳建議廣告. 121-end. 新光保全 腳踏車. Levis 服飾. 三花內褲. 表 23. 劇本 4 高分段落建議之廣告產品 劇本 4 高分段落. 廣告產品 1. 廣告產品 2. 廣告產品 3. 31-40. 中華職業棒球 緯大雞排. 肯德雞. 美國職業籃球聯 賽. 61-70. 中華職業棒球. 棒球帽. 無最佳建議廣告. 表 24. 劇本 5 高分段落建議之廣告產品 劇本 5 高分段落. 廣告產品 1. 廣告產品 2. 廣告產品 3. 1-10. 無最佳建議廣告. 洗面乳. 無最佳建議廣告. 21-30. 速食麵. 無最佳建議廣告. TOTO 衛浴. 61-70. 攝影. 無最佳建議廣告. 無最佳建議廣告. 在表 22 中,劇本 1 的 4 個高分區有 31-40、41-50、111-120、121-end,其中 段落 121-end 在廣告產品資料群推薦之最佳廣告產品分別為新光保全、腳踏車(來 自廣告產品 1)、Levis 服飾(來自廣告產品 2)、三花內褲(來自廣告產品 3);然而某 些高分段落不一定都會有可以對應的廣告,例如段落 31-40 無最佳建議廣告。在 實際應用上可將高分的段落提供廣告商做為參考,可能會有廣告商願意在這些高 分時段下廣告。 45.

(53) 圖 13 為劇本 1 段落 41-50 之節錄內容,以此圖為範例說明本研究推薦廣告商 品的方法。. : : : 洪仔躺在滑板上,隨波逐流,他一臉悠哉的微笑,看藍天,看太陽。 不久後。兩名衝浪客,領著幾名警察,氣沖沖的朝這邊走來。 花草少年基金會的玲玲姊坐在洪仔旁,兩名衝浪客一臉怒氣的站在他面前。洪仔比手畫腳對 著警察的解釋。 A賓:對呀,不會好好講呀,找什麼警察…。 A賓的媽媽,蔡母立刻氣憤的走向那兩名衝浪客。 蔡母:有沒有搞錯!?我兒子是模範生耶! 歐母走到警察面前盤問。 歐母:你們登記了什麼?給我看! 警察急忙否認。 警察:沒有。 衝浪客A抱頭大叫。 衝浪客A:警察先生!拜託一下!主持公道好不好!? 警察顯得有些為難,他看著大家,指著一旁的會客區。. : : : 圖 13. 劇本 1 內容與廣告產品關聯之段落. 在 Na 名詞前三名中,警察在 41-50 段落中是第一名, 「警察」的延伸詞中有 「保全」 ,所以在廣告產品群比對時「新光保全」被比對到,因此本系統在 41-50 的高重點度段落中,推薦的廣告產品為「新光保全」。再舉另一例,如圖 14。. 46.

(54) : : :. 沛薰. 沛薰:時間會讓人改變,幾年前,我還是高中生的時候,從沒想過自己會遇到這麼多鳥事。當 時,只要一碗擔仔麵,我的人生就完美了。 沛薰帶李曜來到一家擔仔麵攤前──破舊的招牌、有歷史的桌椅,座位不多,員工有三 位,大家都在忙著手邊的事。沛薰發現李曜的表情有點異樣。之後她帶著李曜,找了座位坐下 來。 沛薰:(看向寫在牆上的菜單) 這次,換我請你,想吃什麼? 李曜還沒有回神,似乎在想些什麼。 沛薰:我幫你點嗎? 李曜:……不,我可以自己點,擔仔麵。 沛薰:內行喔。(轉頭) 老闆!兩碗擔仔麵!. : :. 沛薰:沛薰:你已經知道他們的擔仔麵有多棒了,我想給你的驚喜也泡湯了。 : : 沛薰把筷子伸進李曜的碗裡,幫他打散蛋黃,使其溶解在湯裡。李曜窩心的笑了。沛薰弄好 後,給李曜一個微笑,兩人開始安靜的吃麵。李曜不時看著沛薰,眼神中帶點溫暖,沛薰也 適時以笑容回應李曜。. : : : 圖 14. 劇本 5 內容與廣告產品關聯之段落. 在劇本 5 中,本系統研究方法找出的 Na 詞前三名在 21-30 段落中,第一名 Na 是「手機」,但人力標記認為在這段落印象最深刻的是「麵」,雖然 Na「麵」 在第三名,但比對是成功的,而「麵」再比對廣告群就可以找出「速食麵」,最 佳推薦廣告就是「速食麵」,如表 24 所示。. 47.

(55) 第三節 實驗評量結果. 最後將本系統找出的各段落前三名 Na,與人力在各劇本段落內所標定的詞互 相比對,如果系統找出的前三名 Na 符合人力標定的詞,就表示比對成功,以此 代表系統推薦的廣告與人力聯想的廣告一致,最後得到每一個劇本推薦廣告的準 確率,結果如表 25 所示。表 26-37 為所有劇本詳盡之實驗結果。. 表 25. 劇本中推薦廣告產品之準確率 劇本. 劇本 1. 劇本 2. 劇本 3. 劇本 4. 劇本 5. 劇本 6. 劇本 7. 劇本 8. 劇本 9. 劇本 10. 劇本 11. 劇本 12. 準確 率. 61.5 %. 45.5 %. 70 %. 57.1 %. 77.8 %. 100 %. 40 %. 75.0 %. 66.7 %. 60 %. 66.7 %. 75 %. 平均準確率. 66.3%. 表 26. 劇本 1 之實驗結果 劇本段落 人力標定詞. 劇本 Na. 劇本 Na. 劇本 Na. 結果. 新聞. 成功. 1-10. 新聞. 臉. 電視. 11-20. 簡訊. 雞肉. 簡訊. 21-30. 學長. 人. 景. 臉. 不成功. 31-40. 火車. 肉雞. 老師. 小學生. 不成功. 41-50. 衝浪客. 警察. 同學. 衝浪客. 成功. 51-60. 警察. 警察. 肉雞. 壽司. 成功. 61-70. 球. 肉雞. 大便. 球. 成功. 71-80. 阿嬤. 老師. 景. 喇叭. 不成功. 81-90. 照片. 同學. 照片. 公車. 成功. 91-100. 嬰兒. 老師. 爸爸. 景. 不成功. 101-110. 夜景. 學長. 營長. 經理. 不成功. 111-120. 音樂. 畫. 警衛. 音樂. 成功. 121-end. 腳踏車. 腳踏車. 警衛. 衣服. 成功. 48. 成功.

(56) 表 27. 劇本 2 之實驗結果 劇本段落 人力標定詞. 劇本 Na. 劇本 Na. 劇本 Na. 結果. 1-10. 病患. 病患. 夢. 聲音. 成功. 11-20. 醫院. 醫師. 電視. 醫生. 不成功. 21-30. 新聞. 刑警. 房東. 記者. 不成功. 31-40. 警察. 刑警. 病人. 保姆. 成功. 41-50. 檢察長. 檢察長. 刑警. 照片. 成功. 51-60. 新聞. 警方. 人權. 小孩子. 不成功. 61-70. 主播. 主播. 人牆. 住宅. 成功. 71-80. 豪宅. 豪宅. 漫畫. 偵探. 成功. 81-90. 醫生. 臉. 護士. 刑警. 不成功. 91-100. 救護車. 臉. 男孩. 城市. 不成功. 101-end. 機車. 救護車. 醫師. 煞車. 不成功. 表 28. 劇本 3 之實驗結果 劇本段落 人力標定詞. 劇本 Na. 劇本 Na. 劇本 Na. 結果. 1-10. 玩具店. 老闆娘. 老人. 鏡頭. 不成功. 11-20. 老師. 學生. 老師. 記者. 成功. 21-30. 名嘴. 相片. 名嘴. 可樂. 成功. 31-40. 巧克力棒. 老頭. 秘書. 巧克力棒. 成功. 41-50. 總統. 老人. 國家. 總統. 成功. 51-60. 護士. 手. 護士. 大門. 成功. 61-70. 便利超商. 可樂. 布帘. 車. 不成功. 71-80. 手機. 可樂. 手機. 媽媽. 成功. 81-90. 手機. 手機. 臉. 頭. 成功. 91-end. 家庭. 兒子. 媽. 手. 不成功. 49.

(57) 表 29. 劇本 4 之實驗結果 劇本段落 人力標定詞. 劇本 Na. 劇本 Na. 劇本 Na. 結果. 1-10. 腳踏車. 車. 公車. 腳踏車. 成功. 11-20. 教練. 麵. 教練. 食材. 成功. 21-30. 學校. 球. 衣服. 小朋友. 不成功. 31-40. 教練. 雞排. 鐵鎚. 教練. 成功. 41-50. 全壘打. 牛肉. 全壘打. 肉乾. 成功. 51-60. 棒球. 球員. 全壘打. 校長. 不成功. 61-end. 全壘打. 球. 球員. 教練. 不成功. 表 30. 劇本 5 之實驗結果 劇本段落 人力標定詞. 劇本 Na. 劇本 Na. 劇本 Na. 結果. 1-10. 汽車. 臉. 電梯. 編劇. 不成功. 11-20. 手機. 車. 手機. 海報. 成功. 21-30. 擔仔麵. 手機. 浴缸. 擔仔麵. 成功. 31-40. 模特兒. 公寓. 模特兒. 衣服. 成功. 41-50. 手機. 照片. 手機. 套房. 成功. 51-60. 包廂. 房東. 手機. 包廂. 成功. 61-70. 大樓. 手. 照片. 露臺. 不成功. 71-80. 汽車. 車. 司機. 鑰匙. 成功. 81-end. 手機. 傳單. 手機. 行李箱. 成功. 50.

(58) 表 31. 劇本 6 之實驗結果 劇本段落 人力標定詞. 劇本 Na. 劇本 Na. 劇本 Na. 結果. 1-10. 警察. 警察. 醫生. 母親. 成功. 11-20. 醫師. 阿公. 醫師. 狗狗. 成功. 21-30. 飲料. 醫師. 香腸. 飲料. 成功. 31-40. 香腸. 香腸. 醫師. 便當. 成功. 41-50. 啤酒. 便當. 啤酒. 油漆. 成功. 51-60. 車. 女孩. 車. 鄉民. 成功. 61-70. 便當. 老師. 醫師. 便當. 成功. 71-80. 香腸. 香腸. 球. 媽媽. 成功. 81-90. 內褲. 腳. 內褲. 海邊. 成功. 91-100. 水果. 香腸. 女孩. 水果. 成功. 101-end. 車. 醫師. 車. 錢. 成功. 表 32. 劇本 7 之實驗結果 劇本段落 人力標定詞. 劇本 Na. 劇本 Na. 劇本 Na. 結果. 1-10. 寵物. 哈皮. 獸醫. 嬉皮. 不成功. 11-20. 橘子. 橘子. 小女孩. 綠油精. 成功. 21-30. 寵物. 變色龍. 獨眼龍. 眼睛. 不成功. 31-40. 蜥蜴. 蜥蜴. 尾巴. 少年. 成功. 41-end. 寵物. 橘子. 變色龍. 嬉皮. 不成功. 51.

(59) 表 33. 劇本 8 之實驗結果 劇本段落 人力標定詞. 劇本 Na. 劇本 Na. 劇本 Na. 結果. 1-10. 警察. 主委. 窗. 員警. 成功. 11-20. 廟. 青仔. 師姐. 主委. 不成功. 21-30. 里長. 里長伯. 員警. 籤詩. 成功. 31-40. 手機. 事. 手. 手機. 成功. 41-50. 廟. 議員. 廟公. 里長伯. 不成功. 51-60. 警察. 人. 員警. 內褲. 成功. 61-70. 記者. 議員. 廟. 記者. 成功. 71-end. 神轎. 神轎. 鐘聲. 聲音. 成功. 表 34. 劇本 9 之實驗結果 劇本段落 人力標定詞. 劇本 Na. 劇本 Na. 劇本 Na. 結果. 1-10. 中華隊. 中華隊. 棒球. 球迷. 成功. 11-20. 棒球. 校長. 教練. 球隊. 不成功. 21-30. 棒球. 教練. 球. 領隊. 不成功. 31-40. 棒球. 棒球. 暗號. 帽子. 成功. 41-50. 投手. 球員. 投手. 速度. 成功. 51-60. 棒球. 球員. 酒. 球. 成功. 61-70. 棒球. 球. 學長. 爸媽. 成功. 71-80. 球賽. 一壘. 一生. 下場. 不成功. 81-end. 亞錦賽. 中文. 中洞. 亞錦賽. 成功. 52.

參考文獻

相關文件

中華民國水中運動協會(下稱本會)因辦理推廣各項水中運動活動(競賽)、志工活

為了解人力市場供需情況,在此將探討本分署轄區求職民眾及企業廠商於 各工作地點之需求狀況。本分署轄區縣市 103

2021 年起劇本創作及孵育計畫結合企業資源,與財團法人中國信託商業銀行文教基金會攜手,全 面升級為「NTT

[r]

本文將就俄羅斯養豬 產業高達 業、肉豬市場 概況進行探討 況進行探討 , 並就台灣豬肉 產業高達 品拓展俄羅斯市場之優劣勢與可行作法 提出建議,以作

年級 教學重點 學科活動 價值觀及態度 三年級 主題:粵劇 中文科:認識粵劇的背景

27 唐 ‧ 實叉難陀譯, 《大方廣佛華嚴經》卷 1〈1 世主妙嚴品〉 ,CBETA, T10, no.

閱讀劇本 了解劇情 文學賞析 音樂欣賞 創作背景、 配器法等 不同版本 深入探討 與原著的 關係 作出評論.