• 沒有找到結果。

第一章 緒論

第四節 論文架構

第三節 研究目的

在自然語言領域中,愈來愈多的研究者有興趣於利用詞性探討文章的意見或 者是正面、負面的極性,所以本論文希望研究有別於大部分學者研究的領域,應 用自然語言之技術,分析文章並比對文章詞性等特性。觀察其他學者專家,現階 段幾乎都是把某個領域文章(例如產品評論)意見擷取出來,加強正負極性準確性。

本論文則專注於電視圈相關的應用,利用分析劇本語意與詞性的方式,讓廣告商 可以在最能引起觀眾迴響的地方推出產品廣告。

這幾年來電視節目受歡迎的程度越來越好,但是在處理如何下廣告時,需要 大量的人力分析與找出正確的下廣告時機。本人認為假如可以設計一套系統,將 劇本輸入之後即可以自動化輸出,顯示各個段落該下哪些廣告可以得到最大效益 的建議,這樣的做法不僅可以解決人力分析劇本花費大量時間的問題,同時分析 出哪個廣告在此時段下能引起觀眾對此產品的興趣,加強觀眾購買的慾望,達到 更高的廣告效益,創造電視台與廣告商雙贏的局面。

本研究目的為結合廣告與劇本,然而目前此研究項目尚未有豐富的文獻可供 參考,我們只能朝向發展新的研究方向努力,盡量在不同文獻中找尋相關類似的 方法,進而延伸或是發展,期許達成良好的成果。

第四節 論文架構

本論文的組織大綱如下:第一章介紹研究動機及其研究背景。第二章探討相 關文獻:包含前人做過的研究及相關的工具介紹。第三章是研究資料與研究方法 的說明。第四章是實驗結果與分析。最後的章節則總結本論文所做的研究,並介 紹來未來可能的發展方向。

4

第二章 相關文獻探討

第一節 相關研究文獻

如第一章所述,目前本論文研究項目尚未有豐富的文獻可供參考,因此僅就 與本論文主題相關之文獻,探討可參考使用之技術,並整理如下:

(一) Twitter 電影語意分析介紹

學者 Hodeghatta 在 2013 年提出有關 Twitter 電影語意分析之論文,認為電影 目前在市場上所擁有的影響力非常大,只要能夠有效並準確的找出觀眾在觀看完 某部電影後的想法或者是觀感,將對下部電影或者該如何行銷這部電影上面會有 很大的幫助。而選擇使用 Twitter 分析的主要原因,是因為市場的訊息現在已經不 是像以前是由廠商控制,現在很多資訊都是可以由消費者自己在平台上交換資訊,

其中 Twitter 就扮演著平台的角色。這篇文章所探討的就是這一塊,目的在不同國 家不同文化上,希望可以找到不同的評論。在這篇論文中本研究將運用到的部分 除了分類的技術之外,其他運用到的部分還包括如何找出哪些是最重要的資訊的 方法,及如何制定比重、找出比重高的資訊的相關技術。該篇論文(Hodeghatta, 2013) 所使用的方法介紹如下。

該研究利用 Naïve Bayes (John and Langley, 1995)和 MaxEnt machine learning (Manning and Klein, 2003)對現有的資料進行分析與標籤,方法是先將資料簡易化 進而分類與標籤:先用 training 找出標準答案,得出的答案再當成 prediction 中的 標籤找出要的類別,再運用五種方法取需要的文章,利用作者的內部工具(in-house tool)找出 twitter 上有關電影的 tweet,從九個不同國家,利用不同的自然語言處理 的分類器,分辨三種不同的分類,最後假如有無法標籤的內容,則置於"Unwanted"

5

之類別。

其中 training classifier 的設定方法,需要消費者的想法、感覺、與過往的經 驗所出現的行為造成的回應,再分類為正向、負向或者是中立的回應,最後以圖 表的方式比較不同國家、不同語言以及多種的分類器所產生的表現,以了解其差 異性。上述過程如圖 1 所示。

圖 1. Twitter 電影語意分析方法流程圖

本研究從本篇文獻所得到的啟發是研究需要找到對的研究平台,因此本研究 首先要尋找公開而且結構良好的資料,當找到結構良好的資料後,分析時還必須 有正確的比對資料以查驗實驗是否成功。

(二)剖析擷取電影場景的關係聯絡網介紹

在剖析電影場景得關係聯絡網路部分,Agarwal 等學者在 2014 年曾提出研究 方法如下。

這 篇 文 章 運 用 自 然 語 言 處 理 (Natural Language Processing) 和 機 器 學 習 (Machine Learning)的技術分析電影劇本,再歸類出五種分類:場景邊界(scene boundary)、場景描述(scene description)、角色名稱(character name)、對話(dialogue),

6

及後設資料(meta-data),依照這些分類建立聯絡網,進而得到每個角色或場景之 間的關係。

此方法找尋所需資料的預先步驟為是尋找結構良好的電影劇本,也就是必須 包含此文獻方法所需要的五大分類(場景邊界、場景描述、角色名稱、對話,及後 設資料)之資料,接著確認「場景描述」是不是在「場景邊界」和「角色名稱」之 間,確認「對話」在「角色名稱」之間,且「角色名稱」至少位於兩個「場景邊 界」,再建立一個標準化的運算結果,特徵方面則提出詞袋特徵(bag-of-words features)、標點符號標記袋特徵(bag-of-punctuation-marks features)、術語袋特徵 (bag-of-terminology features)、框架袋特徵(bag-of-frames features)、詞性袋特徵 (bag-of-parts-of-speech features)、人工製作特徵(hand-crafted features)等各種特徵,

訓練時使用的特徵數量是以上特徵數量的兩倍,因為對每個特徵而言共有兩個二 元向量與其相關:一個二元向量(binary vector)為“包含術語(contain terms)”,另 一個二元向量為“是此術語(is terms)”,演算法如圖 2 所示:假如以 CRAWFORD 為基準往上找為 line(-),往下找為 line(+),皆找到與目前基準 CRAWFORD 相關 聯的場景與對話開始,再運用研究者所提出的機器學習方法(Machine learning approach)進行實驗。使用的機器學習分類器為 SVM,共訓練八種模組:不改變原 劇本(編號為 000)、角色名稱改為小寫(編號為 001)、場景名稱改為小寫(編號為 010)、

場景及角色名稱都改為小寫(編號為 011),依此類推,共建立八個複製文章,訓練 出八種模組。

7

圖 2. Twitter 電影語意分析演算法示意圖

測試資料依據以上八個模組會有八個結果產生,但是要產生最後的預測結果,

必須對此八個結果進行組合,組合方式作者提出下列三種方式:

1. MAJ:給定一個試驗資料,對八個模組的結果進行統計,以多數模組 之結果為預測答案(即多數決),當發生衝突(crash)的時候則隨機取樣。

2. MAX : 挑 選 的 預 測 模 型 是 具 有 最 高 可 信 度 (confidence) 的 , 由 於 confidence 值是實數,實驗中沒有看到任何衝突產生。

3. 使用 MAJ-MAX:先使用 MAJ 的方法,但在第一個衝突發生時,從互 相衝突的模組中選擇分類預測具有最高可信度(confidence)的模組。

在這篇文獻中,提及很多建立角色聯絡網的方法,並找出許多不同的特徵模 組做比對。本實驗找出特徵模組的方法,就是參考本篇文獻後所發想出的。

(三) Twitter 新聞事件偵測

8

學者 Qin 等人則於 2013 年發表論文,研究 Twitter 新聞事件偵測之議題。

現今社會,社群網站已經變成是生活中重要的一部分,此篇文獻所做的研究,

將社群訊息分類、分析資訊、找出訊息內是否含有新聞相關的內容。與本研究相 關的地方在於,本研究也需要分析文件,在文件中(在此指劇本)找出有用的訊息,

以推薦正確的廣告。以下為此文獻的介紹。

一般來說,tweets 可以被分成三類:

1. 新聞事件(news events):例如美國 911 爆炸案。

2. 關注性高的訊息(hot topic):散播於眾多使用者的議題,像是星座運勢 等。

3. 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless

non-event tweets):例如「想找人和我一起聊天」。

本篇論文使用 SVM 分類器偵測事件,特徵包含兩大類:統計類(9 項)及社會 類(6 項)。圖 3 即為此文獻運用不同的特徵集產生的實驗結果,評量結果包括精確 度、回收率與 F1 分數,最後一欄是各組實驗與實驗 0 比較的 F1 差異值。

圖 3. 使用不同特徵集的實驗結果

9

此篇論文發展的系統稱為 FRED,文中還與其他已發表的兩個系統互相比較:

Tweventu及 Twevent,比較結果如圖 4 所示。在圖 4 中,#Evt 是偵測到的事件個 數、P 為精確度、R 是回收率、F1 是 F1 分數。結果顯示該論文所提出的方法優 於其他系統。

圖 4. 三種系統的實驗結果

在這篇文獻中,可以看到用了非常多的數據來表現整個系統的表現力,在進 行本實驗時,此篇文獻幫助本實驗在比對資料時,發想歸類方法。

(四) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文,使用自然語言技術進行電影 劇本之分類。作者提及,分類文字的方式,無論是使用自然語言技術(NLP)或非 NLP 的技術,都是可見的。有很多分類的例子會使用作者書籍、網站或甚至博客 條目進行分類。在 Eliashberg 等人(2000)的研究中,作者對不同類型的消費者,以 研究他們如何對一個特定的電影做出反應。而 Blackstock 和 Spitz 的研究則從劇 本文件中抽取一些以自然語言為基的特徵,經由 Naïve Bayes (John and Langley, 1995)及 Maximum Entropy Markov Model (McCallum 等人, 2000)等分類器訓練及 測試,用來分辨電影劇本的類別。

此文獻運用自然語言技術分類電影劇本,因本實驗是在劇本上做擴展實驗,

所以有關劇本的文獻都曾參考,但此篇文獻多偏重於語意分析,最終只有參考分

10

類文字的方式,用在本實驗分類特徵詞時。

(五) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究,都假設已標註或未標註的語料庫中,正向與負向的 意見是平衡的(balanced),但現實世界不見得如此。這篇研究(Li 等人,2011)即探 討 此 議 題 : 使 用 半 監 督 式 學 習 (semi-supervised learning) 技 術 進 行 不 平 衡 (imbalanced)語意分類的研究。方法是先找樣本,獲得多個樣本後,在樣本集中進 行訓練建立模組,最後利用多組訓練模組建立多個分類,再運用訓練出的分類測 試語意類別。

(六) 電影人物互動網路之擷取與分析

本篇研究是由 Gil 等學者在 2011 年所提出,本研究主要由三個部分組成:

1. 從電影資料中擷取人物互動網路(character interaction network),並以加權 圖表示。

2. 計算人物互動網路中的資訊屬性(informative property)。

3. 建構邏輯迴歸及決策樹分類器,利用這些屬性回答問題(例如:不同類型 的互動網路是否可以表示不同的戲劇與電影類別)。

3. 建構邏輯迴歸及決策樹分類器,利用這些屬性回答問題(例如:不同類型 的互動網路是否可以表示不同的戲劇與電影類別)。

相關文件