利用廣義知網及維基百科於劇本文件之廣告推薦

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：侯文娟博士. 利用廣義知網及維基百科於劇本文件之廣告推薦 Using E-HowNet and Wikipedia in Advertisement Recommendation for Scripts. 研究生：陳信裕撰中華民國一零五年七月.

(2) 摘要本論文的研究議題，主要是因為觀察到目前電視劇進入廣告時段時，大部分的廣告內容很枯燥乏味又冗長，而且廣告和電視劇的內容又不相關，導致在此時會有不少觀眾會選擇轉到其他電視台，先觀看其他電視台的電視劇，或是忙一些手邊事情，所以就造成這個時段的廣告廠商效益因此降低，而且廣告播映都需使用人力排程，費時又費力。因此本論文希望建立一個自動化劇本分析與廣告推薦系統，先從劇本內容分析與探勘重要的特徵詞，作為模型中有效且具高準確率的特徵，讓所推薦的廣告在播出時能夠吸引觀眾的目光，使廣告商品可以得到最大效益。本論文實驗資料來源分別由兩種取得：第一種來源是從金穗獎劇本網站中找出 12 個劇本做為劇本文件資料，第二種來源是從維基百科中搜尋廣告商品，取得廣告商品簡介做為廣告商品資料庫。經由本論文所提方法實驗之後，最後會以自動化的方式互相比對，用來驗證本實驗各項結果是否成功，實驗結果評估對象包含劇本重點度為 4 及 5 分的段落與最佳廣告之推薦。研究方法以兩項目標為導向：包含(1)自動化計算各段落重點度，與(2)推薦最佳廣告。為了計算各段落重點度，使用先前研究方法自動化找出劇本中幫助分析重點度的特徵詞，這些特徵詞將是分析重點度時重要的關鍵。而在最佳廣告推薦，於重點度為 4 及 5 分的段落內先找出所有特徵詞 Na，接著使用廣義知網找出特. i.

(3) 徵詞 Na 上兩層的延伸詞，作為幫助劇本段落內容與廣告商品之間的聯結，經由自動化比對後，本研究將依據重點度為 4 及 5 分的段落特性，進而得出最佳推薦的廣告，最後所得到的實驗結果再提供給廣告商選擇，讓他們選擇在哪些段落可以下與自家產品相關的廣告，詳細的步驟與方法本文內會再敘述。對於實驗結果，本研究以準確度當做評估的標準。. 關鍵字：文件探勘、劇本分析、廣告推薦、特徵詞、廣義知網、維基百科 ii.

(4) Abstract. The research topic of this paper is motivated based on the observation that when entering the TV advertising time, most of the advertising content is very tedious and lengthy, and no relevant ads for TV content. It results that many viewers will choose to turn to other channels, or busy with some things at hand. This situation will reduce the benefits of advertising firms. Besides,the broadcast of ads needs to use the manpower scheduling, which is time-consuming and laborious. Therefore, this paper hopes to establish an automated script analysis and advertisement recommendation system. This study extracts the important features via mining the scripts. The features are used to build a model with characteristics of high accuracy, so that the recommended advertising can attract the viewers’eyes. It will provide the maximum benefit for the advertised goods. The experimental data of this study come from two sources : the first one of 12 plays is from the Golden Harvest Awards script site script；the second one is from the Wikipedia which contains the introduction of the searched advertised goods. For evaluating the proposed method, an automated way is used. The evaluation target is focused on the script which contains a paragraph degree 4 or 5 stars. Finally, the best advertising is recommended. iii.

(5) The study has two main goals : (1) automated computing the emphasis degrees of paragraphs, and (2) recommending the best advertising. In order to calculate the emphasis degrees of paragraphs, this study utilizes the previous related method to automatically identify the focus of the script by analyzing the feature words. The feature words play an important role on the analysis of the emplasis degrees of paragraphs,also called the focus of the scripts. For the best ad recommendation, this study first finds out all the features of word NA from the paragraphs with the emphasis degrees 4 and 5. Then E-HowNet is used to extend the contents of feature words by retrieving the parents and grandparents words, called the extension words. Finally, the collection of feature words and extension words is compared to the paragraphs with 4 and 5 emphasis degrees in order to recommend the suitable advertising for these paragraphs. The recommended ads are provided to the advertisers for their references. The detailed steps and methods will be described in the paper. The experimental results are evaluated by the accuracy metric.. Keywords: text mining, script analysis, advertisement recommendation, feature words, E-HowNet, Wikipedia. iv.

(6) 謹獻給… 家人、指導教授、同學、朋友、自己及天上的爸爸和外婆，還有所有幫助過我的人. v.

(7) 誌. 謝. 本篇論文的完成，要先感謝指導教授侯文娟老師，感謝老師引導我進入自然語言處理的領域，細心教導相關知識，並在我的研究方向提供了許多寶貴的建議，以及給予良好的實驗室環境。也要感謝實驗室中學弟妹，經常與我討論課業上的問題和分享生活裡的喜悅，也要感謝在學期間修課的每位老師，讓我在碩士修業期間劃上難忘的快樂時光。最後感謝家人在各方面的支助，讓我得以完成碩士學位，在此致上我最大的感激，謝謝你們。. vi.

(8) 目錄摘要………………………………………………………………..…………………...i Abstract………………………………………………………….…………………..iii 附表目錄……………………………………………….………………………….....ix 附圖目錄……………………………………………………………………………..xi 第一章. 緒論.................................................................................................................1. 第一節. 研究動機.................................................................................................1. 第二節. 研究背景.................................................................................................2. 第三節. 研究目的.................................................................................................3. 第四節. 論文架構.................................................................................................3. 第二章. 相關研究探討.................................................................................................4. 第一節. 相關研究文獻.........................................................................................4. 第二節. 廣義知網.................................................................................................9. 第三節. 中文斷詞系統.......................................................................................11. 第三章. 研究方法.......................................................................................................14. 第一節. 緒論.......................................................................................................14. 第二節. 研究資料...............................................................................................14. 第三節. 研究方法架構.......................................................................................21. vii.

(9) 第四節第四章. 研究方法描述.......................................................................................23. 實驗結果.......................................................................................................35. 第一節. 劇本段落與廣告產品之比對結果.......................................................35. 第二節. 實驗評量結果.......................................................................................41. 第五章. 結論與未來展望...........................................................................................54. 參考文獻.......................................................................................................................56. viii.

(10) 附表目錄表1 表2 表3 表4 表5 表6. 中文斷詞系統詞性表…………..…………..………………………….…..12 劇本 1 的 1-10 場景段落特徵詞頻率範例…………………...……….…..19 廣告產品 iPhone 的前後五項收集字………………………...……….…..23 廣告產品 iPhone 的取出 NA 收集字…………………..……...……….…..24 廣告產品 iPhone 的 NA 收集字出現次數…………………...……….…..26 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果…………………….…..27. 表7 表8 表9 表 10 表 11 表 12 表 13 表 14 表 15 表 16. 以 WIKI 項目為主，TF 兩者前三項當作 Tag………………….…….…..29 以 WIKI 項目為主，TF*IDF 兩者前三項當作 Tag…………………….…..29 以 Google 搜尋為主，TF 兩者前三項當作 Tag……………………….…..29 以 Google 搜尋為主，TF*IDF 兩者前三項當作 Tag……………..…….…..29 劇本一段落 11-20 的 NA 特徵詞及延伸詞…………………...……….…..31 廣告產品「iPhone」與劇本一段落比對結果……………………….…..35 廣告產品「TVBS 新聞台」與劇本一段落比對結果…………..……….…..35 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果………….…..36 廣告產品「可口可樂」與劇本一段落比對結果…………….……….…..36 廣告產品「台糖量販」與劇本一段落比對結果…………………...….…..36. 表 17 表 18 表 19 表 20 表 21 表 22 表 23 表 24 表 25 表 26. 廣告產品「便當」與劇本一段落比對結果…………………...……….…..36 廣告產品「信義房屋」與劇本一段落比對結果……………….…….…..37 廣告產品「香雞排」與劇本一段落比對結果……………….……….…..37 廣告產品「動物」與劇本一段落比對結果 ……………….……….…..37 廣告產品「啤酒」與劇本一段落比對結果……………….……….…..37 廣告產品「排骨」與劇本一段落比對結果……………….……….…..38 廣告產品「速食麵」與劇本一段落比對結果……………….……….…..38 廣告產品「雄獅旅遊集團」與劇本一段落比對結果……….……….…..38 廣告產品「新光保全」與劇本一段落比對結果…………..……….…..38 廣告產品「腳踏車」與劇本一段落比對結果……………….……….…..39. 表 27 表 28 表 29 表 30 表 31 表 32. 廣告產品「電視」與劇本一段落比對結果……………….……….…..39 廣告產品「網路遊戲」與劇本一段落比對結果…………..……….…..39 廣告產品「遠傳電信」與劇本一段落比對結果……………….…….…..39 廣告產品「醫院」與劇本一段落比對結果……………….……….…..40 廣告產品「攝影」與劇本一段落比對結果……………….……….…..40 最佳廣告與劇本一段落內容比對結果……………….…………………..46. 表 33 表 34. 最佳廣告與劇本二段落內容比對結果……………………………….…..46 最佳廣告與劇本三段落內容比對結果……………………....……….…..46 ix.

(11) 表 35 表 36 表 37 表 38 表 39 表 40 表 41 表 42 表 43 表 44. 最佳廣告與劇本四段落內容比對結果…………………….……….…..47 最佳廣告與劇本五段落內容比對結果…………………….……….…..47 最佳廣告與劇本六段落內容比對結果…………………….……….…..47 最佳廣告與劇本七段落內容比對結果…………………….……….…..47 最佳廣告與劇本八段落內容比對結果…………………….……….…..48 最佳廣告與劇本九段落內容比對結果…………………….……….…..48 最佳廣告與劇本十段落內容比對結果…………………….……….…..48 最佳廣告與劇本十一段落內容比對結果………………….……….…..48 最佳廣告與劇本十二段落內容比對結果………………….……….…..49 劇本中推薦廣告產品之準確率………………………...…….……….…..52. x.

(12) 附圖目錄圖1 圖2 圖3 圖4 圖5 圖6. 不同上下文的極性…………..…………..……………………..……….…..5 使用不同特徵集的實驗結果…………………...…………………………..6 三種系統的實驗結果………………………...………………………....…..6 廣義知網搜尋執行示意圖…………………..……...………………....…..10 金穗獎優良劇本網站………………………………………....……….…..15 劇本「他們在畢業前一天爆炸」的劇本段落………………………….…..16. 圖7 圖8 圖9 圖 10 圖 11 圖 12 圖 13 圖 14 圖 15 圖 16. 「iPhone」維基百科簡介………………….………………………..….…..17 中文斷詞系統之輸出範例…………………………………………….…..17 研究方法架構流程圖………………………………………………….…..22 所有劇本重點度的分布狀況……………..………………………..….…..30 廣告產品維基百科 TF 特徵組與劇本七段落之比對………………….....41 廣告產品維基百科 TF*IDF 特徵組與劇本七段落之比對………….…..42 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對………..…….…..42 廣告產品 Google 搜尋 TF*IDF 特徵組與劇本七段落之比對……….…..43 廣告產品維基百科 TF 特徵組與劇本九段落之比對…………….….…..43 廣告產品維基百科 TF*IDF 特徵組與劇本九段落之比對……...….…..44. 圖 17 圖 18 圖 19 圖 20. 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對…...……….…..44 廣告產品 Google 搜尋 TF*IDF 特徵組與劇本九段落之比對….…….…..45 劇本七內容與廣告產品關聯之段落……………….……………………..50 劇本十內容與廣告產品關聯之段落……………….………………....…..51. xi.

(13) 第一章緒論. 第一節研究動機. 本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析，進而得到一些有用的資訊，使可利用詞性之特徵詞作為探討劇中場景是否有合適的廣告商品之依據。最初會有此想法，是因為自己本身喜歡看電視劇，對於每次在觀看電視劇時，每看完一個段落後進入廣告時段，總是會出現一些很枯燥乏味又無趣的廣告，而當下反應就是會拿起遙控器轉到其他電視台，先觀看其他電視台的電視劇或節目，等廣告結束再切回原來所觀看的電視台。而在廣告時段中，大部分廣告播映都需要透過人力方式來編排，導致費時費力又落在錯誤的時機點上。假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯，使觀眾觀看廣告的意願增加及時間停留越久，對於廣告商的效益就會提高很多。例如:在 2015 年播映的台灣本土劇「嫁妝」，劇中演員以工程師為客戶開發程式的過程將手機功能介紹得相當詳細，其他演員也在劇中實際演出將手機不小心掉入水中又拿起的劇情，使觀眾更容易高度關心相關商品，假設在這段劇情後的廣告接著播出「XX 手機」，肯定會讓觀眾更加容易得知商品的資訊，而達到廣告商所要得到的效益。本論文就是想要藉由此次研究可以具體實現，經由自動化分析劇本得到有用的資訊，再將得到的資料加以研究比對，找出有效的方式讓被推薦之廣告可以吸引觀眾目光，使廣告商品得到較大的效益。. 1.

(14) 第二節研究背景. 現今針對劇本研究，目前並沒有方法可以將劇本有效的自動分析，進而建議出在適當時間點將廣告在對的時間和對的劇情後出現。目前傳統常用方法，是廣告商要求電視台在哪個時間點或某電視劇及節目後，將所要播放的廣告播出來，但是這樣實際效益並不大。而本研究所提出的方法，則是希望可以找出該劇本哪個段落中，場景出現相關廣告商所要推薦的廣告商品，進而將正確的廣告在正確的時機點播出，幫助廣告商不必為了搶黃金時段，也可以將廣告商品在正確時間點播出，而電視台也得到有效益的商機，此法將減少人力花時間編排廣告，並可正確的推薦與劇情相關的廣告。. 本研究進行需要劇本資料與廣告商品簡介等資料，所以在本實驗中，共蒐集 12 個劇本(總共約 48 萬字左右)；在廣告商品簡介部分，從維基百科中搜尋廣告商品，得到廣告商品簡介作為資料庫；在廣告產品方面共找了 20 種廣告產品進行實驗。本研究需耗時較長的部分是在廣告商品簡介上，因為必須等待找出商品前後五項的收集字，挑除不是特徵詞 NA 的項目，再進一步分析找出有用的特徵標籤，這方面需花的時間比較多，一旦分析完成後，即可評估本研究提出方法的效能。. 2.

(15) 第三節研究目的. 在自然語言研究領域中，越來越多的研究者有興趣於詞性的作用，探討文章的正、負面的極性以及意見反饋，所以本論文希望能夠透過不同於其他研究者的方式，應用自然語言處理技術，分析劇本文件並比對文件詞性等特性。而本論文專注於在電視台相關的應用，利用分析劇本段落與詞性的方式，讓廣告商可以在讓觀眾可以產生共鳴的片段後，播出相對應的廣告商品。近幾年，韓國電視劇在台灣受歡迎程度越來越好，對於在處理廣告時，需要一些人力分析於找出下廣告的時機點。所以個人認為假如可以設計出一個系統，只要將所要分析的劇本輸入後，就能夠自動化輸出，並顯示哪個段落可以推薦什麼類型的廣告，不但可以減少人力分析劇本所花的大量時間，同時也分析出觀眾可能產生共鳴的片段後的廣告商品，可達到電視台與廣告商雙邊的效益。本研究目的為結合劇本與廣告，然而目前此研究項目尚未有豐富的文獻可供參考，我們只能朝向發展新的研究方向努力，盡量在不同文獻中找尋相關類似的方法，進而延伸或是發展，期許達成良好的成果。. 第四節. 論文架構. 本論文的組織大綱如下：第一章介紹研究動機及其研究背景。第二章探討相關文獻：包含前人做過的研究及相關的工具介紹。第三章是研究資料與研究方法的說明。第四章是實驗結果與分析。最後的章節則總結本論文所做的研究，並介紹來未來可能的發展方向。. 3.

(16) 第二章相關研究探討. 第一節相關研究文獻. 如第一章所述，目前本論文研究項目尚未有豐富的文獻可供參考，因此僅就與本論文主題相關之文獻，探討可參考使用之技術，並整理如下：. (一) 從 Blogger 情緒預測電影銷售介紹此篇文章是由學者 Mishne 和 Glance (2006)所提出的，該研究是運用情緒分析方法，分析 Blogger 數據的結果在電影的領域是否具有較好的相關性，主要發現是，評論中的正向情緒確實是電影是否成功的一項重要的預測。此篇把 Blogger 上對於電影評價輿論分為正面(positive)、負面(negative)及混合(mixed)，如圖 1 所示。該篇作者分析電影發行前及發行後的部落格情緒評論，測試是否和電影票房有所關聯，並且和單純提及電影的次數互相比較，藉此了解評論的影響程度。在他們的實驗中使用的不同的基於極性的測量方法，得到的最佳相關值如下：. •在電影上映前：長度為 20 個字的文本集中正向評論的數量。 •電影上映後：長度 140 個字的文本集中的非中性評論的數量（此法和使用正向評論數量的方式有著非常接近的效果）。. 4.

(17) 圖 1. 不同上下文的極性. (二) Twitter 新聞事件偵測. 學者 Qin 等人則於 2013 年發表論文，研究 Twitter 新聞事件偵測之議題。現今社會中，社群網站已經變成是生活中重要的一部分，此篇文獻所做的研究，將社群訊息分類、分析資訊、找出訊息內是否含有新聞相關的內容。與本研究相關的地方在於，本研究也需要分析文件，在文件中(在此指劇本)找出有用的訊息，以推薦正確的廣告。以下為此文獻的介紹。一般來說，tweets 可以被分成三類： 1.. 新聞事件(news events)：例如美國 911 爆炸案。. 2.. 關注性高的訊息(hot topic)：散播於眾多使用者的議題，像是星座運勢等。. 3.. 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless non-event tweets)：例如「想找人和我一起聊天」。. 本篇論文使用 SVM 分類器偵測事件，特徵包含兩大類：統計類(9 項)及社會類(6 項)。圖 2 即為此文獻運用不同的特徵集產生的實驗結果，評量結果包括精確度、回收率與 F1 分數，最後一欄是各組實驗與實驗 0 比較的 F1 差異值。. 5.

(18) 圖 2. 使用不同特徵集的實驗結果此篇論文發展的系統稱為 FRED，文中還與其他已發表的兩個系統互相比較： Tweventu 及 Twevent，比較結果如圖 3 所示。在圖 3 中，#Evt 是偵測到的事件個數、P 為精確度、R 是回收率、F1 是 F1 分數。結果顯示該論文所提出的方法優於其他系統。. 圖 3. 三種系統的實驗結果. 在這篇文獻中，可以看到用了非常多的數據顯示整個系統的表現力，在進行本實驗時，此篇文獻幫助本實驗在比對資料時，發想歸類方法。. 6.

(19) (三) 運用自然語言技術分類電影劇本. 學者 Blackstock 和 Spitz 則於 2008 年發表論文，使用自然語言技術進行電影劇本之分類。作者提及，分類文字的方式，無論是使用自然語言技術(NLP)或非 NLP 的技術，都是可見的。有很多分類的例子會使用作者書籍、網站或甚至博客條目進行分類。在 Eliashberg 等人(2000)的研究中，作者對不同類型的消費者，研究他們如何對一個特定的電影做出反應。而 Blackstock 和 Spitz 的研究則從劇本文件中抽取一些以自然語言為基的特徵，經由 Naïve Bayes (John and Langley, 1995) 及 Maximum Entropy Markov Model (McCallum 等人, 2000)等分類器訓練及測試，用來分辨電影劇本的類別。此文獻運用自然語言技術分類電影劇本，因本實驗是在劇本上做擴展實驗，所以有關劇本的文獻都曾參考，但此篇文獻多偏重於語意分析，最終只有參考分類文字的方式，用在本實驗分類特徵詞時。. (四) 以半監督式學習技術進行不平衡語意分類. 現今大多數的語意研究，都假設已標註或未標註的語料庫中，正向與負向的意見是平衡的(balanced)，但現實世界不見得如此。這篇研究(Li 等人，2011)即探討此議題：使用半監督式學習 (semi-supervised learning) 技術進行不平衡 (imbalanced)語意分類的研究。方法是先找樣本，獲得多個樣本後，在樣本集中進行訓練建立模組，最後利用多組訓練模組建立多個分類，再運用訓練出的分類測試語意類別。. (五) 電影人物互動網路之擷取與分析. 該研究是由 Gil 等學者在 2011 年所提出，主要由三個部分組成： 7.

(20) 1.. 從電影資料中擷取人物互動網路(character interaction network)，並以加權圖表示。. 2.. 計算人物互動網路中的資訊屬性(informative property)。. 3.. 建構邏輯迴歸及決策樹分類器，利用這些屬性回答問題(例如：不同類型的互動網路是否可以表示不同的戲劇與電影類別)。. 最後就可以運用上述之方法，快速分類戲劇或電影是屬於哪種類別。. 此篇文獻，參考到使用不同方法找出不同實驗結果時，可以組合之後再找出更詳細的答案，運用在本實驗時，本研究先找出未來自動化高重點度的特徵詞，再結合每段落的資訊得出最佳推薦廣告，即是本系統的最終結果，且可以產生每個段落廣告最佳播映時機點。. (六) 劇本文件探勘與廣告推薦之研究. 本篇研究是由沈信佑在 2016 年所提出，主要研究實驗資料分別由兩種來源取得：第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料，第二種來源為隨機取得的一些廣告群做為廣告商品資料庫。研究方法主要以兩個部分組成： 1.. 計算各段落重點度: 首先需找出劇本中幫助分析重點度的特徵詞，而這些特徵詞將是日後分析重點度時的關鍵。. 2.. 推薦最佳廣告: 每個段落內先找出所有特徵詞 Na，選取每個段落排名前三名的 Na 詞，接著使用廣義知網找出延伸詞，幫助劇本內容與廣告商品的聯結，然後再找出重點度特徵詞後，就可以分析劇本中各段落的評分狀況。. 8.

(21) 此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時，可以自動化分析出段劇本落重點度，使本研究在分析劇本重點度的部分可以有自動化分析的方法依據。. 第二節廣義知網. 廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生展開建構繁體字知網的合作計畫，承續知網的語意定義機制，將中央研究院詞庫小組辭典(CKIP,Chinese Lexical Knowledge Base)中的九萬多詞條與知網連結。在研究過程中，詞庫小組對知網的定義架構做了一些更動，新增了多層次定義架構與複雜關係表示式，以簡單概念取代義原，作為定義複雜概念的元素；並設計複雜關係的表達架構，使繁體字知網逐漸發展成為一個新的知識表達模型，稱為「廣義知網」。廣義知網的優點如下(參考 http://ckipsvr.iis.sinica.edu.tw/)： 1.不會被有限詞義限制，能夠更精確的表達知識。 2.符合人的認知方式，對使用者來說比較簡單，可以讓使用者靈活的運用簡單概念進行定義。 3.使用者用不同的簡單概念定義同一詞彙時，仍然可以轉換為相同或相近的詞義，而且利用上下位承襲規範進行整合，這樣子對於知網庫的建立能更有一致性。 4.利用簡單概念定義複雜概念，可以減少訊息的重複登錄，只需把額外的訊息補充說明即可，因此表示式較清楚易懂。當簡單概念出現歧義時，解決方法是以 WordNet 同義詞集(synset)加以限定，藉著與 WordNet 同義詞集的連結，將可以限定詞義，解決歧義詞的問題。 5.廣義知網的表示式比較容易轉換為自然語言。 6.複雜關係表示式便於定義任何具有多重結合關係的人際概念、時空概念與比較概念。 9.

(22) 運用廣義知網，其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的幫助，可以快速的找到上兩層的詞。如圖 4 所示，在廣義知網查詢動物的上兩層延伸詞，查詢結果為動物、生物。. 廣義知網提供三種搜尋功能： 1.節點查詢：以字串直接查詢本體架構中的任意節點。這些節點包括義原 (例如：sate | 狀態)、詞彙(例如：行動)及定義式(代表一個類別，例如： {ComeToWorld | 問世})。所有出現在樹狀結構中的節點，都可以在節點查詢中找到。這樣就可以迅速地找到相關的延伸詞。 2.定義式查詢：這個方法是將所要查詢的字串輸入，然後就可以查到由查詢的字串為概念延伸的定義詞彙。 3.進階定義式查詢：使用樹狀結構比對來找尋定義式，利用樹狀節點比對來查詢，當樹狀結構 T1⊆T2 時，就可以從 T1 查詢到 T2。(T1、T2 各為樹由廣義知網中定義). 圖 4. 廣義知網搜尋執行示意圖. 10.

(23) 第三節中文斷詞系統根據統計，一般的文章中約有百分之三到百分之五的未知詞，因此一個演算法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響。由於並不存在任何一個詞典或方法可以盡列所有的中文詞，當處理不同領域的文件時，領域相關的特殊詞彙或專有名詞，常常造成分詞系統因為參考詞彙的不足而產生錯誤的切分。為了解決這個問題，最有效的方法是補充領域詞典加強詞彙的搜集。因此新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟。領域關鍵詞彙多出現在該領域的文件中而少出現在其它領域，因此抽取關鍵詞時多利用此特性。高頻的關鍵詞比較容易抽取，少數低頻的新詞不容事先搜集，必須線上辨識。構詞律、詞素、詞彙及詞彙共現訊息，為線上新詞辨識依據。本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIP,Chinese Lexical Knowledge Base)，該中文斷詞系統提供了一個解決方案，可線上即時分詞功能。為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統。此一系統包含一個約 10 萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料。分詞依據為此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞，並解決分詞歧義問題。含有詞類標記，可附加文本中切分詞的詞類解決詞類歧義並猜測新詞之詞類。運用此系統的主要原因是目前中文斷詞系統已經做得相當完善，可以準確且非常詳細的分析本次實驗資料的所有詞性，本研究經由中文斷詞系統後，得以順利的進行後續分析，分析出劇本與廣告產品簡介的詞性，經過比對進而推薦可能的最佳廣告產品。表 1 為中文斷詞系統可能產生的詞性列表，亦即就是斷詞系統所有的詞性特徵，本研究可以進而利用這些特徵延伸發展，創造屬於自己需要的用法，目前他. 11.

(24) 人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較、斷詞系統曾使用於 Queried keywords 的研究、電影評論詞性的分析，顯示應用是非常廣泛的。. 表 1. 中文斷詞系統詞性表精簡詞類簡化標記. 對應的CKIP詞類標記. A C. A Caa. A Caa. /*非謂形容詞*/ /*對等連接詞，如：和、跟*/. POST POST. Cab Cba Cbb. Cab Cbab Cbaa, Cbba, Cbbb, Cbca, Cbcb. /*連接詞，如：等等*/ /*連接詞，如：的話*/ /*關聯連接詞*/. Da Dfa Dfb Di Dk D. Daa Dfa Dfb Di Dk Dab, Dbaa, Dbab, Dbb, Dbc, Dc, Dd,. /*數量副詞*/ /*動詞前程度副詞*/ /*動詞後程度副詞*/ /*時態標記*/ /*句副詞*/ /*副詞*/. N N N N N DET DET DET DET. Na Nb Nc Ncd Nd Neu Nes Nep Neqa. Dg, Dh, Dj Naa, Nab, Nac, Nad, Naea, Naeb Nba, Nbc Nca, Ncb, Ncc, Nce Ncda, Ncdb Ndaa, Ndab, Ndc, Ndd Neu Nes Nep Neqa. /*普通名詞*/ /*專有名稱*/ /*地方詞*/ /*位置詞*/ /*時間詞*/ /*數詞定詞*/. /*特指定詞*/ /*指代定詞*/ /*數量定詞*/. POST M POST N Nv T P T. Neqb Nf Ng Nh Nv I P T. Neqb Nfa, Nfb, Nfc, Nfd, Nfe, Nfg, Nfh, Nfi Ng Nhaa, Nhab, Nhac, Nhb, Nhc Nv1,Nv2,Nv3,Nv4 I P* Ta, Tb, Tc, Td. /*後置數量定詞*/ /*量詞*/ /*後置詞*/ /*代名詞*/ /*名物化動詞*/ /*感嘆詞*/ /*介詞*/ /*語助詞*/. C ADV ADV ADV ASP ADV ADV. 12.

(25) Vi Vt Vi Vt Vt. VA VAC VB VC VCL. VA11,12,13,VA3,VA4 VA2 VB11,12,VB2 VC2, VC31,32,33 VC1. Vt Vt Vt Vt. VD VE VF VG. VD1, VD2 VE11, VE12, VE2 VF1, VF2 VG1, VG2. /*動作不及物動詞*/ /*動作使動動詞*/ /*動作類及物動詞*/ /*動作及物動詞*/ /*動作接地方賓語動詞 */ /*雙賓動詞*/ /*動作句賓動詞*/ /*動作謂賓動詞*/ /*分類動詞*/. Vi Vt Vi Vt. VH VHC VI VJ. VH11,12,13,14,15,17,VH21 VH16, VH22 VI1,2,3 VJ1,2,3. /*狀態不及物動詞*/ /*狀態使動動詞/ /*狀態類及物動詞*/ /*狀態及物動詞*/. Vt Vt Vt. VK VL V_2. VK1,2 VL1,2,3,4 V_2. /*狀態句賓動詞*/ /*狀態謂賓動詞*/ /*有*/. T Vt FW. DE SHI FW. /*的, 之, 得, 地*/ /*是*/ /*外文標記*/ 冒號 */ 逗號 */ 破折號 */ 刪節號 */ 驚嘆號 */ 括弧 */ 頓號 */ 句號 */ 問號 */ 分號 */. COLONcATEGORY COMMACATEGORY DASHCATEGORY ETCCATEGORY EXCLAMATIONcATEGORY PARENTHESISCATEGORY PAUSECATEGORY PERIODCATEGORY QUESTIONcATEGORY SEMICOLONcATEGORY. /* /* /* /* /* /* /* /* /* /*. SPCHANGECATEGORY. /* 雙直線 */. 13.

(26) 第三章研究方法. 第一節緒論. 本研究目標為分析繁雜的劇本內容，希望可以將自然語言領域擴大範圍運用在更多地方。本研究觀察到，目前電視廣告都是依照廣告商想要播放什麼類型的商品廣告，電視台就依廣告商的要求將廣告播放出來，並沒有考慮此廣告是否能讓觀眾產生共鳴。本研究發現這個問題，希望能有效、快速又正確的在重要段落結束後播出正確的廣告。接下來本章會介紹研究來源與各種可能的結果與方法。本研究首先對劇本進行分析，主要是在每個段落進廣告時，可以正確將廣告商想要的廣告播出，並將此程序自動化。跟以往人力方式不一樣的地方是，人力方式主要是先統計哪些時段觀眾收看人數最多，廣告商再選擇買下哪個時段而播出廣告，本研究則分析每個時段可以產生哪個合適的廣告建議播出，讓每個廣告時段不會因為沒有合適的廣告而浪費時段，也使電視台與廣告商之間取得效益平衡。. 第二節研究資料. (一) 研究材料. 劇本實驗資料庫來自金穗獎優良電視劇本網站 (http://www.movieseeds.com.tw/)，本研究挑選 12 篇劇本進行分析與測試，總共 493,629 個字，檔案大小為 1749.7KB。金穗獎優良劇本網站如圖 5 所示。本研究使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文，12 篇劇本名稱及資訊如下所示：「他們在畢業前一天爆炸」出自於作者王盈心，共 41,253 個字；「人狼謎蹤」出自於作者楊皓鈞，共 41,593 個字；「再見全壘打」出自於作 14.

(27) 者王瑋/陳佳鍵，共 30,047 個字；「我心凝望的愛情」出自於作者吳美枝，共 37,440 個字；「哈皮與嬉皮」出自於作者黃淑筠，共 38,261 個字；「神棄」出自於作者施君涵，共 33,432 個字；「球來就打」出自於作者涂芳祥，共 65275 個字；「野馬小鴨頭」出自於作者徐錫彪/王瑄錡，共 47,748 個字；「黃金甲子園」出自於作者魏德聖/陳嘉蔚，共 51,259 個字；「搏浪」出自於作者周美玲，共 30,641 個字；「十二月三十二日」出自於作者林真豪，共 65,636 個字；及「我的超級阿公」出自於作者高顥中/謝柏逸，共 27,158 個字。以「他們在畢業前一天爆炸」的劇本段落為例如圖 6 所示。會選擇金穗獎劇本的原因，是因為這些劇本有些已經被翻拍成電視劇及電影播出，像是「我們在畢業前一天爆炸」片長為五集迷你連續劇，每集 60 分鐘、「球來就打」片長約 135 分鐘、「黃金甲子園」片長約 185 分鐘，可供後續相關研究使用。. 圖 5. 金穗獎優良劇本網站. 15.

(28) 11 浩爸不耐煩的過來把遙控器搶走，電視關掉。兩人坐在餐桌兩邊，滿桌豐盛的飯菜，看起來溫馨的餐桌。浩爸開口。浩爸：開學怎麼樣？浩遠：還好。隨即陷入一片深深的沉默。場9 日內景：公車上一年後。：車子來到學校門口，同學紛紛下車。一胖一瘦兩名看起來乖寶寶的同學，金王（歐金鑫， 16歲），A賓（蔡嘉賓，16歲），經過身旁。金王：沒跟馬子一起喔？浩遠：今天她媽送她… 兩人排隊下車，浩遠卻還是座在位置上。. 圖 6. 劇本「他們在畢業前一天爆炸」的劇本段落. 廣告產品簡介出自於維基百科網站所提供的內容(https://zh.wikipedia.org/zhtw/)，本研究挑選 20 個廣告產品進行分析與測試，產品名稱及資訊如下所示：「iPhone」共 887 個字、「TVBS 新聞台」共 187 個字、「中華職業棒球大聯盟」共 175 個字、「可口可樂」共 426 個字、「台糖量販」共 240 個字、「便當」共 446 個字、「信義房屋」共 363 個字、「香雞排」共 812 個字、「動物」共 459 個字、「啤酒」共 914 個字、「排骨」共 120 個字、「速食麵」共 1141 個字、「雄獅旅遊集團」共 314 個字、「新光保全」共 1310 個字、「腳踏車」共 328 個字、「電視」共 252 個字、「網路遊戲」共 664 個字、「遠傳電信」共 313 個字、「醫院」共 277 個字、「攝影」共 365 個字。會選擇這些當作廣告產品的原因，是因為先前研究（沈信佑,2016）針對以上產品作為推薦廣告產品，因為要分析出本研究方法與先前研究方法之間比較，所以選擇一樣的廣告產品來分析與探討，以「iPhone」維基百科簡介如圖 7 所示。 16.

(29) 圖 7. 「iPhone」維基百科簡介. (二) 中文斷詞系統. 本研究利用 CKIP 的中文斷詞系統 (http://ckipsvr.iis.sinica.edu.tw/)來進行分析劇本以及廣告產品簡介，並找出所有的詞性特徵。因先前實驗研究已經將劇本分析作成資料庫，所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統，輸出結果如圖 8 所示。. 圖 8. 中文斷詞系統之輸出範例. 17.

(30) 參考沈信佑（2016）之作法將劇本分成每 10 個場景為一個段落(因為沒有正確的標準，所以目前先假定每 10 個場景會進入廣告時間)，場景單位為在某場景開始但還沒換下一個場景時。以劇本 1 為例，1 - 10 場景 3025 字、11 - 20 場景 2917 個字、21 - 30 場景 2743 個字、31 - 40 場景 3939 個字、41 - 50 場景 4154 個字、51 - 60 場景 2376 個字、61 - 70 場景 3684 個字、71 - 80 場景 3139 個字、81 - 90 場景 1877 個字、91 - 100 場景 3132 個字、101 - 110 場景 3079 個字、111 - 120 場景 3116 個字、121 - end 場景 4056 個字，經由觀察發現以 10 個場景為一段落在字數長度上並無太大差異，顯示出 10 個場景為一個段落是有效的方法，對於在未來研究上將設定段落方法給予更多的彈性，例如設定每個段落字數、設定每個段落長度等，以便後續擴大研究方向。接著如表 2 所示，會看到 NA、NB、NC、NCD、ND、VA、VB、VAC、VC、 VCL、VD、VE、VF、VG、VH、VHC、VI、VJ、VK、VL，這些是由中文斷詞系統所產生的詞性中挑選。在中文斷詞系統特徵詞中，會挑選這 20 個詞性做為使用，主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的，像是 T 這個詞性代表語助詞，而研究實驗中無法依語助詞找出是否與該產品相關，故無法用上。在除去類似這些無義詞性後，最終選出表 2 中的 20 個特徵詞做為使用，經由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞，再經由篩選 NA 後可以提供本研究系統進一步分析與探討。. 18.

(31) 表 2. 劇本 1 的 1-10 場景段落特徵詞頻率範例詞性. 頻率詞性解釋. 特徵詞例句. NA. 300. 普通名詞. 臉、電視、圍牆、新聞、公車. NB. 154. 專有名詞. 某某先生、爸爸、耶穌. NC. 219. 地方詞. 學校、客廳、高中、大禮堂、操場. NCD 50. 位置詞. 上面、裡面、四周、東、底下. ND. 22. 時間詞. 1 月、1 點、1 年、清晨、傍晚. VA. 84. 動作不及物動詞. 下車、狂奔、苦笑. VAC. 0. 動作使動動詞. 使…成為、令…為. VB. 4. 動作類及物動詞. 道別、開玩笑、拉拔. VC. 95. 動作及物動詞. 駕駛、騎、乘、仰望、倒入. VCL 27. 動作皆地方賓語動詞. 去、爬上、來到、位於、跑到. VD. 8. 雙賓動詞. 搶、偷、賣. VE. 20. 動作句賓動詞. 說、想看、形容、聽、認定. VF. 7. 動作謂賓動詞. 企圖、勸勉、較、準備、繼續. VG. 4. 分類動詞. 為、算. VH. 84. 狀態不及物動詞. 好、出現、怎麼辦、愣、有趣. VHC 2. 狀態使動動詞. 平衡、空. VI. 3. 狀態類及物動詞. 不以為然、似懂非懂、置信. VJ. 8. 狀態及物動詞. 冒出、剩、熟悉、發生、維持. VK. 12. 狀態句賓動詞. 覺得、堅持、明白、希望、詭異. VL. 3. 狀態謂賓動詞. 擅、敢、開始. 廣告產品簡介從維基百科中搜尋出每個產品內容，再將每個廣告產品簡介內容輸入到中文斷詞系統，進而輸出得到每個廣告產品簡介的詞性分析結果，得到的詞性分析結果將在進一步的分析，作為廣告產品的特徵詞，詳細方法在下面「廣告產品簡介收集字分析」詳述。. 19.

(32) (三) 廣告產品簡介收集字分析. 本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品的特徵詞，再進一步從特徵詞與劇本段落分析出合適的廣告產品，而分析出的資訊可以提供廣告商做為依據，讓廣告商可以決定是否在哪些段落符合自己的產品而下產品廣告。因為先前研究者曾使用人工方式從劇本中標出人力標定詞，再以人力標定詞及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對，由於此法費時又費力，所以本研究想要以自動化方式，從廣告產品簡介中找出能夠代表廣告產品的特徵詞，再與劇本中重點度為4及5分的段落作比對，進而找出每個段落合適的廣告產品。. 收集字分析主要方法如下 : 1. 廣告簡介經由中文斷詞系統輸出結果。 2. 從輸出結果找出廣告產品前後五項的收集字。 3. 前後五項收集字中取出詞性為NA的詞。 4. 以兩種方法分析出能夠代表廣告產品的特徵詞。 (1)計算每個NA詞的出現次數。 (2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果。 5. 以維基百科出現次數為主，找出兩組特徵詞。 6. 以Google搜尋結果為主，找出兩組特徵詞。 7. 最終每個廣告產品都可以找出四組廣告產品特徵詞。. 20.

(33) 第三節研究方法架構. 研究方法之架構圖如圖 9 所示。在圖 9 中，第一部分的目的為從重點度為 4 及 5 分的段落找出所有詞性為 NA 的詞。首先將金穗獎優良劇本經由中文斷詞系統，剖析出所有可以找出的特徵詞，接著使用先前研究方法來自動化分析重點度，然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞，所找出來的 NA 詞再使用廣義知網查詢出 NA 詞的上兩層延伸詞，就能找出本實驗需要的劇本特徵詞。第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞。首先廣告產品從維基百科中查詢出簡介內容，再經由中文斷詞系統分析標示出詞性，找出廣告產品詞的前後五項收集字，再從所有收集字中取出詞性為 NA 的詞，接著，以兩種方法來計算出正規化頻率及 TF * IDF，再以維基百科次數為主及 Google 搜尋為主，取出各前三項找出四組特徵詞標籤，廣告產品的四組特徵詞標籤與劇本特徵詞比對，最後將找出每個段落最佳推薦廣告，即為本實驗最後產生的結果。. 21.

(34) 金穗獎優良劇本. 自動化分析重點度. 找出每個段落重點度為 4 及 5 分且詞性為 NA 的詞. 中文斷詞系統. 段落重點度排序. 廣義知網. NA 延伸詞. 比對 NA 與廣告標籤廣告產品. 維基百科. 廣告標籤選取策略. 廣告產品簡介. 計算正規化頻率及 TF*IDF. 中文斷詞系統. 找出前後五項收集字. Google 搜尋與廣告產品之結果. 計算 NA 收集字出現次數. 取出 NA 收集字. 圖 9. 研究方法架構流程圖. 22. 產生每段落可用之廣告產品. 推薦最佳廣告產品.

(35) 第四節研究方法描述. 本研究方法可以歸類成下列四大步驟說明：(一)找出廣告產品收集字，(二)計算收集字作為特徵詞，(三)廣告標籤選取策略，(四)找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞，各步驟的詳細說明如下：. (一) 找出廣告產品收集字. 將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後，會得到廣告產品簡介特徵詞，從中找出廣告產品詞的前後五項收集字，如表 3 以廣告產品 iPhone 舉例所示，再取出詞性為 NA 的收集字，如表 4 以廣告產品 iPhone 舉例所示。. 表 3. 廣告產品 iPhone 的前後五項收集字項目. 前五項. 後五項. 1. 蘋果. 公司. 期下. 研發. 行動電話. 2. 蘋果. 公司. 研發. 手機. 作業系統. 蘋果. 公司. 史蒂夫. 賈伯斯. 發布. 3. 舉行. 產品. 發布. 推出. 產品. 正式. 發售. 蘋果. 公司. 旗下. 4. 蘋果. 公司. 旗下. 智慧型. 手機. 系列. 個別. 推出. 款式. 全球. 5. 款式. 全球. 銷量. 智慧型. 手機. 使用者. 介面. 手機. 螢幕. 款式. 6. 手機. 伺服器. 專線. 網路. 視頻. 標準. 功能. 音樂. 語音. 留言. 7. 蘋果. 公司. 開發者. 應用. 程式. 系列. 機型. 版本. 代. 先例. 8. 程式. 系列. 機型. 版本. 代. 先例. 手機. 按鈕. 設計. 螢幕. 9. 螢幕. 尺寸. 機型. 設計. 系列. 資料. 網路. 能力. 功能. 革命性. 23.

(36) 10. 資料. 網路. 能力. 功能. 革命性. 中央. 處理器. 高解析度. 鏡頭. 相機. 11. 處理器. 高解析度. 鏡頭. 相機. 短片. 特點. 高解析度. 鏡頭. 屏. 視訊. 12. 視訊. 鏡頭. 影片. 相機. 鏡頭. 核心. 處理器. 影片. 相機. 語音. 13. 處理器. 影片. 相機. 語音. 助理. 核心. 處理器. 屏. 接頭. 連接線. 14. 核心. 處理器. 屏. 接頭. 連接線. 擁有. 生產. 週期. 其次. 生產. 15. 連接線. 擁有. 生產. 週期. 其次. 生產. 週期. 天. 響徹雲霄. 銷售. 16. 週期. 其次. 生產. 週期. 天. 數字. 智慧型. 手機. 行業. 程度. 17. 價值. 公司. 國家. 型號. 手機. 美國. 日本. 國家. 表 4. 廣告產品 iPhone 的取出 NA 收集字項目. 前五項. 後五項. 1 2. 蘋果. 公司. 3 4 5 6. 手機. 7. 處理. 手機. 作業系統. 蘋果. 公司. 產品. 產品. 蘋果. 公司. 行動電話史蒂夫. 賈伯斯. 公司. 智慧型. 手機. 款式. 全球. 款式. 全球. 智慧型. 手機. 使用者. 介面. 手機. 螢幕. 伺服器. 專線. 網路. 視頻. 功能. 音樂. 語音. 留言. 蘋果. 公司. 開發者. 程式. 機型. 版本. 程式. 機型. 版本. 手機. 按鈕. 螢幕. 螢幕. 尺寸. 機型. 資料. 網路. 功能. 革命性. 資料. 網路. 功能. 革命性. 中央. 處理器. 高解析度. 鏡頭. 高解. 鏡頭. 相機. 短片. 高解. 鏡頭. 視訊. 9. 11. 公司. 蘋果. 8. 10. 蘋果. 24. 款式. 相機.

(37) 12 13 14. 器. 析度. 析度. 視訊. 鏡頭. 影片. 相機. 鏡頭. 核心. 處理器. 影片. 相機. 處理器. 影片. 相機. 語音. 助理. 核心. 處理器. 接頭. 連接線. 核心. 處理器. 接頭. 連接線. 數字. 智慧型. 手機. 美國. 日本. 國家. 語音. 15 16 17. 公司. 國家. 手機. (二) 計算收集字作為特徵詞. 由第一步驟得到篩選過後的 NA 收集字，再計算每個 NA 收集字出現的次數，以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果，經過正規化頻率(TF)以及 TF*IDF 計算後，如表 5 及 6 以廣告產品 iPhone 舉例所示。其中 TF、IDF、TF*IDF 公式如公式（1）、（2）、（3）所示。. （1）. （2）. （3）公式（1）中𝑛𝑖,𝑗 為每項 NA 收集字出現次數，∑𝑘 𝑛𝑘,𝑗 為 NA 收集字出現頻率加總，tfi,j 為 NA 收集字正規化頻率(TF)；公式（2）中 log 以 10 為底，|𝐷|設為 20，因本研究使用 20 個廣告產品，|{𝑗 ∶ 𝑡𝑖 ∈ 𝑑𝑗 }|為 NA 收集字出現在 20 個廣告中的次數；公式（3）是將公式（1）及（2）的結果相乘，得到的結果作為廣告標籤選取策略使用，而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之 25.

(38) 間，進而計算結果。表 5. 廣告產品 iPhone 的 NA 收集字出現次數項目. 出現頻率正規化頻率(TF). IDF. TF*IDF. 手機. 8. 0.074766 1.30103 0.097273. 公司. 7. 0.065421 0.30103 0.019694. 蘋果. 6. 0.056075 1.30103 0.072955. 處理器. 6. 0.056075 1.30103 0.072955. 鏡頭. 5. 0.046729 1.00000 0.046729. 相機. 5. 0.046729 1.00000 0.046729. 智慧型. 3. 0.028037 1.30103 0.036477. 款式. 3. 0.028037 1.30103 0.036477. 螢幕. 3. 0.028037 1.30103 0.036477. 語音. 3. 0.028037 1.30103 0.036477. 機型. 3. 0.028037 1.30103 0.036477. 高解析度. 3. 0.028037 1.30103 0.036477. 影片. 3. 0.028037 1.30103 0.036477. 核心. 3. 0.028037 1.30103 0.036477. 網路. 3. 0.028037 1.00000 0.028037. 功能. 3. 0.028037 1.00000 0.028037. 程式. 2. 0.018692 1.30103 0.024319. 版本. 2. 0.018692 1.30103 0.024319. 革命性. 2. 0.018692 1.30103 0.024319. 視訊. 2. 0.018692 1.30103 0.024319. 接頭. 2. 0.018692 1.30103 0.024319. 連接線. 2. 0.018692 1.30103 0.024319. 產品. 2. 0.018692 1.00000 0.018692. 全球. 2. 0.018692 1.00000 0.018692. 資料. 2. 0.018692 0.82391 0.015401. 國家. 2. 0.018692 0.69897 0.013065. 行動電話. 1. 0.009346 1.30103 0.012159. 作業系統. 1. 0.009346 1.30103 0.012159. 史蒂夫. 1. 0.009346 1.30103 0.012159. 賈伯斯. 1. 0.009346 1.30103 0.012159. 使用者. 1. 0.009346 1.30103 0.012159. 介面. 1. 0.009346 1.30103 0.012159. 專線. 1. 0.009346 1.30103 0.012159. 視頻. 1. 0.009346 1.30103 0.012159 26.

(39) 留言. 1. 0.009346 1.30103 0.012159. 開發者. 1. 0.009346 1.30103 0.012159. 按鈕. 1. 0.009346 1.30103 0.012159. 中央. 1. 0.009346 1.30103 0.012159. 短片. 1. 0.009346 1.30103 0.012159. 助理. 1. 0.009346 1.30103 0.012159. 數字. 1. 0.009346 1.30103 0.012159. 伺服器. 1. 0.009346 1.00000 0.009346. 音樂. 1. 0.009346 1.00000 0.009346. 尺寸. 1. 0.009346 1.00000 0.009346. 日本. 1. 0.009346 0.69897 0.006533. 美國. 1. 0.009346 0.60206 0.005627. 表 6. 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果項目. 搜尋結果. 日本. 95,000,000. 0.216974 0.69897 0.151658. 公司. 47,400,000. 0.108259 0.30103 0.032589. 資料. 41,100,000. 0.093870 0.82391 0.077340. 全球. 36,600,000. 0.083592 1.00000 0.083592. 國家. 33,300,000. 0.076055 0.69897 0.053160. 功能. 32,700,000. 0.074685 1.00000 0.074685. 中央. 32,400,000. 0.074000 1.30103 0.096276. 美國. 25,300,000. 0.057784 0.60206 0.034789. 網路. 22,200,000. 0.050703 1.00000 0.050703. 版本. 18,700,000. 0.042710 1.30103 0.055567. 手機. 18,100,000. 0.041339 1.30103 0.053783. 核心. 10,200,000. 0.023296 1.30103 0.030309. 產品. 2,100,000. 0.004796 1.00000 0.004796. 尺寸. 1,910,000. 0.004362 1.00000 0.004362. 留言. 1,560,000. 0.003563 1.30103 0.004636. 使用者. 1,350,000. 0.003083 1.30103 0.004011. 音樂. 1,210,000. 0.002764 1.00000 0.002764. 影片. 1,040,000. 0.002375 1.30103 0.003090. 程式. 1,020,000. 0.002330 1.30103 0.003031. 蘋果. 949,000. 0.002167 1.30103 0.002819. 處理器. 885,000. 0.002021 1.30103 0.002629. 短片. 677,000. 0.001546 1.30103 0.002011. 正規化頻率(TF). 27. IDF. TF*IDF.

(40) 螢幕. 673,000. 0.001537 1.30103 0.002000. 視頻. 653,000. 0.001491 1.30103 0.001940. 行動電話. 633,000. 0.001446 1.30103 0.001881. 款式. 600,000. 0.001370 1.30103 0.001782. 專線. 592,000. 0.001352 1.30103 0.001759. 助理. 580,000. 0.001325 1.30103 0.001724. 史蒂夫. 543,000. 0.001240 1.30103 0.001613. 伺服器. 537,000. 0.001226 1.00000 0.001226. 鏡頭. 533,000. 0.001217 1.00000 0.001217. 革命性. 528,000. 0.001206 1.30103 0.001569. 開發者. 521,000. 0.001190 1.30103 0.001548. 機型. 520,000. 0.001188 1.30103 0.001546. 接頭. 514,000. 0.001174 1.30103 0.001527. 作業系統. 513,000. 0.001172 1.30103 0.001525. 按鈕. 493,000. 0.001126 1.30103 0.001465. 數字. 491,000. 0.001121 1.30103 0.001458. 智慧型. 458,000. 0.001046 1.30103 0.001361. 介面. 448,000. 0.001023 1.30103 0.001331. 相機. 413,000. 0.000943 1.00000 0.000943. 連接線. 404,000. 0.000923 1.30103 0.001201. 高解析度. 393,000. 0.000898 1.30103 0.001168. 視訊. 388,000. 0.000886 1.30103 0.001153. 語音. 361,000. 0.000825 1.30103 0.001073. 賈伯斯. 350,000. 0.000799 1.30103 0.001040. (三) 廣告標籤選取策略. 從上述步驟的計算結果中，選取出各前三項找出四組特徵詞標籤，以維基百科出現次數為主，找出正規化頻率數值前三項 NA 詞及 TF*IDF 數值前三項 NA 詞，組成各一組有六項 NA 詞作為廣告產品特徵詞，再以 Google 搜尋結果為主，找出正規化頻率(TF)數值前三項 NA 詞及 TF*IDF 數值前三項 NA 詞，組成各一組有六項 NA 詞作為廣告產品特徵詞，在本法中，如果標籤在為主的標籤已出現過，則再往後一項選取，補滿六項為止。如表 7-10 以廣告產品 iPhone 舉例所示。 28.

(41) 表 7. 以 WIKI 項目為主，TF 兩者前三項當作 Tag WIKI 項目. Google 搜尋項目. 手機. 日本. 公司. 資料. 蘋果. 全球. 表 8. 以 WIKI 項目為主，TF*IDF 兩者前三項當作 Tag WIKI 項目. Google 搜尋項目. 手機. 日本. 蘋果. 中央. 處理器. 全球. 表 9. 以 Google 搜尋為主，TF 兩者前三項當作 Tag Google 搜尋項目. WIKI 項目. 日本. 手機. 公司. 蘋果. 資料. 處理器. 表 10. 以 Google 搜尋為主，TF*IDF 兩者前三項當作 Tag Google 搜尋項目. WIKI 項目. 日本. 手機. 中央. 蘋果. 全球. 處理器. 依據上述這個方法分析每個廣告產品的四組特徵詞組，再將每個廣告產品的四組特徵詞組與劇本段落比對分析，就能夠找出每個段落合適的廣告產品，進而推薦廣告的資訊給予廣告商，讓廣告商能夠在正確的段落後下正確的產品廣告，讓廣告商能夠有好的效益。. 29.

(42) (四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞. 參考沈信佑（2016）的方法，自動化分析出每個劇本段落的重點度，本研究主要分析劇本段落重點度為 4 及 5 分的段落，因為覺得在高重點度的段落是廣告商們最主要搶的黃金廣告時段，所以本實驗主要分析重點度段落為 4 及 5 分，劇本段落重點度的分布狀況如圖 10 所示，在沈信佑的研究方法主要是找出每個段落最常出現的前三名 NA 特徵詞，但也有可能會因為沒有被選到的 NA 特徵詞是能夠代表段落的特徵詞，所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA 特徵詞，再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞，作為劇本段落的特徵詞，進而與廣告產品特徵詞比對找出最佳推薦廣告。如表 11 以劇本一段落 11-20 所示。. 圖 10. 所有劇本重點度的分布狀況 30.

(43) 表 11. 劇本一段落 11-20 的 NA 特徵詞及延伸詞 Na 項目. 階層 1. 階層 2. 獄警. 人. 人. 座到犯人. 人. 人. 樣子. 外觀. 外觀. 電話. 用具. 器具. 玻璃窗. 萬物. 物質. 可樂瓶感覺. 有知. 感知狀態. 名字. 姓名. 特性. 人. 動物. 生物. 複頌女朋友. 女性. 人. 話題. 內容. 部件. 報紙. 書刊. 讀物. 蛋糕. 食品. 食物. 警衛. 人. 人. 臉. 頭. 身體部件. 景. 背景. 背景. 空間. 萬物. 物體. 賓. 人. 人. 壁報. 報紙. 書刊. 身材. 外觀. 外觀. 長相. 外觀. 外觀. 男孩. 人. 人. 肉雞. 禽. 獸. 筆. 文具. 器具. 蒼蠅. 蟲. 獸. 運鈔車. 車. 交通工具. 新聞. 訊息. 抽象物. 簡報. 語文. 訊息. 事. 事情. 萬物. 一年級妹. 姊妹. 手足. 痕跡. 天然物. 無生物. 世. 時段. 時間. 31.

(44) 拳頭. 手. 手. 同學. 人. 人. 水. 液. 天然物. 三年級老大. 人. 人. 頭髮. 毛. 身體部件. 墨鏡. 用具. 器具. 身. 身體部件. 生物. 制服. 衣物. 人工物. 男生. 人. 人. 肩膀. 身. 身體部件. 個頭. 高度. 外觀. 男. 性別值. 物體性質. 門. 萬物. 抽象物. 學長. 同學. 同學. 敗類. 人. 人. 語氣. 風格. 外觀. 感情. 精神. 抽象物. 錢. 錢財. 人工物. 雙拳心情. 精神. 抽象物. 禮拜. 年. 時段. 命令. 使動. 使之動. 個戲信用. 能力. 主觀描述. 笑容. 表情. 外觀. 口袋. 衣物. 人工物. 銅板. 貨幣. 錢財. 手. 身體部件. 動物. 飲料. 食物. 人工物. 馬子. 女性. 人. 眉頭. 毛. 身體部件. 眼神. 外觀. 特性. 馬桶. 用具. 器具. 隔間. 房間. 房屋. 街道. 設施. 建築物. 運動服. 人. 人. 32.

(45) 社員. 領屬者. 物體腳色. 女. 人. 人. 秩序. 次序. 數量. 紅綠燈. 交通號誌. 符號. 嘴. 身體部件. 動物. 變燈學生. 人. 人. 山坡. 陸地. 大地. 羽球. 運動器材. 器具. 活力. 力量. 主觀描述. 健康操錄音機. 機器. 器具. 兒歌. 歌曲. 歌曲. 音樂. 訊息. 抽象物. 精神. 抽象物. 萬物. 女生. 人. 人. 熟女. 人. 人. 王道. 方法. 方法. 體操. 事務. 事情. 體育. 事務. 事情. 老師. 人. 人. 表現. 舉止. 人格特質. 包包片. 詞語. 語言. 封面. 書刊. 讀物. 童顏. 外觀. 外觀. 巨乳. -. -. 女優. -. -. 全校聲音. 天然物. 無生物. 幹嘛. 從事. 從事. 馬尾. 尾. 身體部件. 把手. 器具. 用具. 書包. 用具. 器具. 夜景. 背景. 背景. 座位. 地方. 地方. 頭. 身體部件. 動物. 33.

(46) 簡訊. 音訊. 訊息. 位置. 位置相關. 背景. 水龍頭. 器具. 用具. 動作. 事務. 事情. 肩. 身. 身體部件. 長髮. 頭髮. 毛. 瀏海. 頭髮. 毛. 眼睛. 身體部件. 動物. 開架. 取. 變領屬. 用品. 器具. 人工物. 櫃旁包裝. 用具. 器具. 藥盒. 盒子. 用具. 大字. 文字. 語言. 字. 語言. 信息載體. 激素. 化學物. 人工物. 避孕藥. 藥物. 人工物. 依上表可以觀察到，當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義知網查詢上兩層延伸詞時，可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠找出相關的延伸詞，所以以”-“顯示，而導致劇本段落所找出的延伸詞減少。. 34.

(47) 第四章實驗結果第一節劇本段落與廣告產品之比對結果. 經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸詞，與廣告產品簡介經過收集字分析後，找出四組特徵詞，將劇本段落特徵詞與廣告產品特徵詞比對，分析出劇本段落與廣告產品的比對結果，結果如表 12-31 以劇本一為例，0 代表為劇本段落特徵詞沒有比對到廣告特徵詞，1 以上代表為劇本段落特徵詞正確比對到廣告特徵詞的數量。. 表 12. 廣告產品「iPhone」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 0. 0. 0. 0. 1. 1. 0. 0. 維基 TF*IDF. 0. 0. 0. 0. 1. 1. 0. 0. 搜尋 TF. 0. 0. 0. 0. 1. 1. 0. 0. 搜尋 TF*IDF. 0. 0. 0. 0. 1. 1. 0. 0. 表 13. 廣告產品「TVBS 新聞台」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 1. 0. 0. 0. 1. 0. 1. 0. 維基 TF*IDF. 1. 0. 0. 0. 1. 0. 1. 0. 搜尋 TF. 1. 0. 0. 0. 0. 0. 0. 0. 搜尋 TF*IDF. 1. 0. 0. 0. 0. 0. 0. 0. 35.

(48) 表 14. 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 0. 0. 0. 0. 0. 0. 0. 0. 維基 TF*IDF. 0. 0. 0. 0. 0. 0. 0. 0. 搜尋 TF. 0. 0. 0. 0. 0. 0. 0. 0. 搜尋 TF*IDF. 0. 0. 0. 0. 0. 0. 0. 0. 表 15. 廣告產品「可口可樂」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 2. 1. 1. 1. 2. 0. 0. 0. 維基 TF*IDF. 2. 1. 1. 1. 2. 0. 0. 0. 搜尋 TF. 2. 1. 1. 1. 2. 0. 0. 0. 搜尋 TF*IDF. 2. 1. 1. 1. 2. 0. 0. 0. 表 16. 廣告產品「台糖量販」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 0. 0. 0. 0. 0. 0. 0. 0. 維基 TF*IDF. 0. 0. 0. 0. 0. 0. 0. 0. 搜尋 TF. 0. 0. 0. 0. 0. 0. 0. 0. 搜尋 TF*IDF. 0. 0. 0. 0. 0. 0. 0. 0. 表 17. 廣告產品「便當」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 1. 0. 0. 0. 1. 0. 1. 0. 維基 TF*IDF. 1. 0. 0. 0. 1. 0. 1. 0. 搜尋 TF. 1. 0. 0. 0. 1. 0. 1. 0. 搜尋 TF*IDF. 1. 0. 0. 0. 1. 0. 1. 0. 36.

(49) 表 18. 廣告產品「信義房屋」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 1. 1. 0. 0. 0. 0. 1. 1. 維基 TF*IDF. 1. 1. 0. 0. 0. 0. 1. 1. 搜尋 TF. 1. 1. 0. 0. 0. 0. 1. 1. 搜尋 TF*IDF. 1. 1. 0. 0. 0. 0. 1. 1. 表 19. 廣告產品「香雞排」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 0. 0. 1. 0. 0. 0. 0. 1. 維基 TF*IDF. 0. 0. 1. 0. 0. 0. 0. 1. 搜尋 TF. 0. 0. 1. 0. 0. 0. 0. 1. 搜尋 TF*IDF. 0. 0. 1. 0. 0. 0. 0. 1. 表 20. 廣告產品「動物」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 2. 3. 3. 4. 2. 2. 2. 3. 維基 TF*IDF. 2. 3. 3. 4. 2. 2. 2. 3. 搜尋 TF. 2. 2. 3. 3. 2. 2. 2. 2. 搜尋 TF*IDF. 2. 2. 3. 3. 2. 2. 2. 2. 表 21. 廣告產品「啤酒」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 1. 1. 1. 1. 1. 1. 2. 1. 維基 TF*IDF. 1. 1. 1. 1. 1. 1. 2. 1. 搜尋 TF. 1. 1. 1. 1. 1. 1. 2. 1. 搜尋 TF*IDF. 0. 0. 0. 0. 0. 0. 1. 0. 37.

(50) 表 22. 廣告產品「排骨」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 1. 1. 2. 1. 1. 1. 1. 0. 維基 TF*IDF. 0. 0. 1. 0. 0. 0. 0. 0. 搜尋 TF. 1. 1. 1. 1. 1. 1. 1. 0. 搜尋 TF*IDF. 0. 0. 1. 1. 0. 0. 1. 0. 表 23. 廣告產品「速食麵」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 1. 0. 1. 1. 1. 0. 2. 0. 維基 TF*IDF. 1. 0. 1. 1. 1. 0. 2. 0. 搜尋 TF. 1. 0. 1. 1. 1. 0. 2. 0. 搜尋 TF*IDF. 1. 0. 1. 1. 1. 0. 2. 0. 表 24. 廣告產品「雄獅旅遊集團」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 1. 1. 1. 1. 1. 1. 1. 1. 維基 TF*IDF. 1. 1. 1. 1. 1. 1. 1. 1. 搜尋 TF. 1. 1. 1. 1. 1. 1. 1. 1. 搜尋 TF*IDF. 1. 1. 1. 1. 1. 1. 1. 1. 表 25. 廣告產品「新光保全」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 0. 0. 0. 0. 0. 0. 0. 0. 維基 TF*IDF. 0. 0. 0. 1. 0. 0. 0. 0. 搜尋 TF. 0. 0. 0. 0. 0. 0. 0. 0. 搜尋 TF*IDF. 0. 0. 0. 1. 0. 0. 0. 0. 38.

(51) 表 26. 廣告產品「腳踏車」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 1. 2. 2. 1. 2. 1. 1. 2. 維基 TF*IDF. 0. 2. 1. 0. 2. 1. 0. 2. 搜尋 TF. 1. 2. 2. 1. 2. 1. 1. 2. 搜尋 TF*IDF. 0. 2. 1. 0. 2. 1. 0. 2. 表 27. 廣告產品「電視」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 1. 1. 1. 1. 2. 3. 3. 1. 維基 TF*IDF. 1. 0. 0. 0. 1. 2. 2. 0. 搜尋 TF. 1. 1. 1. 1. 2. 3. 3. 1. 搜尋 TF*IDF. 1. 0. 0. 0. 1. 1. 2. 0. 表 28. 廣告產品「網路遊戲」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 1. 1. 1. 1. 1. 2. 1. 1. 維基 TF*IDF. 0. 0. 0. 0. 0. 1. 0. 0. 搜尋 TF. 1. 1. 1. 1. 1. 2. 1. 1. 搜尋 TF*IDF. 0. 0. 0. 0. 0. 1. 0. 0. 表 29. 廣告產品「遠傳電信」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 0. 0. 0. 0. 0. 0. 0. 0. 維基 TF*IDF. 0. 0. 0. 0. 0. 0. 0. 0. 搜尋 TF. 0. 0. 0. 0. 0. 0. 0. 0. 搜尋 TF*IDF. 0. 0. 0. 0. 0. 0. 0. 0. 39.

(52) 表 30. 廣告產品「醫院」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 0. 0. 0. 0. 0. 0. 0. 0. 維基 TF*IDF. 0. 0. 0. 0. 0. 0. 0. 0. 搜尋 TF. 0. 0. 0. 0. 0. 0. 0. 0. 搜尋 TF*IDF. 0. 0. 0. 0. 0. 0. 0. 0. 表 31. 廣告產品「攝影」與劇本一段落比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. 0. 0. 0. 0. 2. 1. 2. 0. 維基 TF*IDF. 0. 0. 0. 0. 1. 1. 1. 0. 搜尋 TF. 0. 0. 0. 0. 1. 1. 1. 0. 搜尋 TF*IDF. 0. 0. 0. 0. 1. 1. 1. 0. 依表 12-31 可以觀察出，經過劇本段落特徵詞與廣告產品特徵詞分析比對後，可以看出本實驗方法在劇本一中，廣告產品「動物」、「腳踏車」及「電視」有很好的效果表現，也可以看到使用不同的特徵組與劇本段落做比對，得出來的結果會有不同的效果，但是也有在一些廣告產品沒有很好的效果表現，可能是因為在劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞，所以才會出現沒有比對到的情況。. 40.

(53) 第二節實驗評量結果. 圖 11-18 為劇本與廣告特徵詞之實驗比對結果，以劇本七及劇本九為例。而本系統將找出各段落比對結果最佳的廣告，再與劇本各段落內容作比對，找出最佳推薦廣告，如表 32-43 以劇本一為例所示。最後得到每一個劇本推薦廣告的準確率，結果如表 44 所示。. (一) 劇本與廣告特徵詞之比對結果. 維基百科 TF 6. 5 4 3 2 1 0 段落1-10. 段落11-20. 段落21-30. 段落31-40. iPhone. TVBS新聞台. 中華職棒. 可口可樂. 台糖量販. 便當. 信義房屋. 香雞排. 動物. 啤酒. 排骨. 速食麵. 雄獅旅遊. 新光保全. 腳踏車. 電視. 網路遊戲. 遠傳電信. 醫院. 攝影. 段落41-end. 圖 11. 廣告產品維基百科 TF 特徵組與劇本七段落之比對. 41.

(54) 維基百科 TF*IDF 6 5 4 3 2 1 0 段落1-10. 段落11-20. 段落21-30. 段落31-40. iPhone. TVBS新聞台. 中華職棒. 可口可樂. 台糖量販. 便當. 信義房屋. 香雞排. 動物. 啤酒. 排骨. 速食麵. 雄獅旅遊. 新光保全. 腳踏車. 電視. 網路遊戲. 遠傳電信. 醫院. 攝影. 段落41-end. 圖 12. 廣告產品維基百科 TF*IDF 特徵組與劇本七段落之比對. Google 搜尋 TF 6 5 4 3 2 1 0 段落1-10. 段落11-20. 段落21-30. 段落31-40. iPhone. TVBS新聞台. 中華職棒. 可口可樂. 台糖量販. 便當. 信義房屋. 香雞排. 動物. 啤酒. 排骨. 速食麵. 雄獅旅遊. 新光保全. 腳踏車. 電視. 網路遊戲. 遠傳電信. 醫院. 攝影. 段落41-end. 圖 13. 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對. 42.

(55) Google 搜尋 TF*IDF 6 5 4 3 2 1 0 段落1-10. 段落11-20. 段落21-30. 段落31-40. iPhone. TVBS新聞台. 中華職棒. 可口可樂. 台糖量販. 便當. 信義房屋. 香雞排. 動物. 啤酒. 排骨. 速食麵. 雄獅旅遊. 新光保全. 腳踏車. 電視. 網路遊戲. 遠傳電信. 醫院. 攝影. 段落41-end. 圖 14. 廣告產品 Google 搜尋 TF*IDF 特徵組與劇本七段落之比對. 維基百科 TF 6 5 4 3 2 1 0 段落11-20. 段落31-40. 段落41-50. 段落51-60. 段落61-70. iPhone. TVBS新聞台. 中華職棒. 可口可樂. 台糖量販. 便當. 信義房屋. 香雞排. 動物. 啤酒. 排骨. 速食麵. 雄獅旅遊. 新光保全. 腳踏車. 電視. 網路遊戲. 遠傳電信. 醫院. 攝影. 段落71-80. 圖 15. 廣告產品維基百科 TF 特徵組與劇本九段落之比對. 43.

(56) 維基百科 TF*IDF 6 5 4 3 2 1 0 段落11-20. 段落31-40. 段落41-50. 段落51-60. 段落61-70. iPhone. TVBS新聞台. 中華職棒. 可口可樂. 台糖量販. 便當. 信義房屋. 香雞排. 動物. 啤酒. 排骨. 速食麵. 雄獅旅遊. 新光保全. 腳踏車. 電視. 網路遊戲. 遠傳電信. 醫院. 攝影. 段落71-80. 圖 16. 廣告產品維基百科 TF*IDF 特徵組與劇本九段落之比對. Google 搜尋 TF 6 5 4 3 2 1 0 段落11-20. 段落31-40. 段落41-50. 段落51-60. 段落61-70. iPhone. TVBS新聞台. 中華職棒. 可口可樂. 台糖量販. 便當. 信義房屋. 香雞排. 動物. 啤酒. 排骨. 速食麵. 雄獅旅遊. 新光保全. 腳踏車. 電視. 網路遊戲. 遠傳電信. 醫院. 攝影. 段落71-80. 圖 17. 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對. 44.

(57) Google 搜尋 TF*IDF 6 5 4 3 2 1 0 段落11-20. 段落31-40. 段落41-50. 段落51-60. 段落61-70. iPhone. TVBS新聞台. 中華職棒. 可口可樂. 台糖量販. 便當. 信義房屋. 香雞排. 動物. 啤酒. 排骨. 速食麵. 雄獅旅遊. 新光保全. 腳踏車. 電視. 網路遊戲. 遠傳電信. 醫院. 攝影. 段落71-80. 圖 18. 廣告產品 Google 搜尋 TF*IDF 特徵組與劇本九段落之比對. 觀察圖 11-18，可看出以四組廣告特徵詞在劇本七段落比對的結果，雖然比對成功的廣告產品比較少，但在劇本七每個段落中至少都有比對到三個廣告產品，而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多，在維基百科 TF 特徵組與劇本九段落 51-60，其中網路遊戲比對到 4 個特徵詞，所以分數為 4 分。. (二) 最佳廣告與劇本段落內容之比對結果. 最佳廣告與劇本段落內容比對的方法，是找三個人做問卷而進行人力比對，問卷選項分別有符合、中立、不符合，會使用這種方法主要是最佳廣告特徵詞依自動比對劇本段落內容可能無法找到相同字而降低準確率，所以找三個人做問卷的方式，而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適，人工評量結果的確定採投票方式，亦即如果二人以上認為符合，則該推薦廣告視為符合；若二人以上認為不符合，則該推薦廣告視為不符合；若二人以上認為中立，或是三人意見都不相同時，則該推薦廣告視為中立。比對之結果進而計算每個劇本的 45.

(58) 準確率。實驗結果如表 32-43 所示，其中 V 代表為符合，X 代表為不符合， - 代表為中立。. 表 32. 最佳廣告與劇本一段落內容比對結果劇本一 11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end 維基 TF. X. V. V. X. V. V. X. V. 維基 TF*IDF. X. V. V. X. V. V. X. V. 搜尋 TF. X. V. V. X. V. V. X. V. 搜尋 TF*IDF. X. V. V. X. V. V. X. V. 表 33. 最佳廣告與劇本二段落內容比對結果劇本二 1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90 維基 TF. V. V. V. V. X. V. X. V. 維基 TF*IDF. -. V. V. V. X. V. X. V. 搜尋 TF. V. V. X. V. -. V. X. V. 搜尋 TF*IDF. V. V. V. V. X. V. X. V. 表 34. 最佳廣告與劇本三段落內容比對結果劇本三 31-40 41-50 51-60 61-70 71-80 81-90 91-end 維基 TF. V. X. V. X. V. V. V. 維基 TF*IDF. V. X. V. V. V. V. X. 搜尋 TF. V. X. V. X. V. V. V. 搜尋 TF*IDF. V. X. V. V. V. V. X. 46.