相關研究文獻

第二章相關研究探討

第一節相關研究文獻

如第一章所述，目前本論文研究項目尚未有豐富的文獻可供參考，因此僅就與本論文主題相關之文獻，探討可參考使用之技術，並整理如下：

(一) 從 Blogger 情緒預測電影銷售介紹

此篇文章是由學者 Mishne 和 Glance (2006)所提出的，該研究是運用情緒分析方法，分析 Blogger 數據的結果在電影的領域是否具有較好的相關性，主要發現是，評論中的正向情緒確實是電影是否成功的一項重要的預測。

此篇把 Blogger 上對於電影評價輿論分為正面(positive)、負面(negative)及混合(mixed)，如圖 1 所示。該篇作者分析電影發行前及發行後的部落格情緒評論，

測試是否和電影票房有所關聯，並且和單純提及電影的次數互相比較，藉此了解評論的影響程度。

在他們的實驗中使用的不同的基於極性的測量方法，得到的最佳相關值如下：

•在電影上映前：長度為 20 個字的文本集中正向評論的數量。

•電影上映後：長度 140 個字的文本集中的非中性評論的數量（此法和使用正向評論數量的方式有著非常接近的效果）。

圖 1. 不同上下文的極性

(二) Twitter 新聞事件偵測

學者 Qin 等人則於 2013 年發表論文，研究 Twitter 新聞事件偵測之議題。

現今社會中，社群網站已經變成是生活中重要的一部分，此篇文獻所做的研究，將社群訊息分類、分析資訊、找出訊息內是否含有新聞相關的內容。與本研究相關的地方在於，本研究也需要分析文件，在文件中(在此指劇本)找出有用的訊息，以推薦正確的廣告。以下為此文獻的介紹。

一般來說，tweets 可以被分成三類：

1. 新聞事件(news events)：例如美國 911 爆炸案。

2. 關注性高的訊息(hot topic)：散播於眾多使用者的議題，像是星座運勢等。

3. 其他類別(heterogeneous collections)或無意義的非事件推特文(

meaningless

non-event tweets

)：例如「想找人和我一起聊天」。

本篇論文使用 SVM 分類器偵測事件，特徵包含兩大類：統計類(9 項)及社會類(6 項)。圖 2 即為此文獻運用不同的特徵集產生的實驗結果，評量結果包括精確度、回收率與 F1 分數，最後一欄是各組實驗與實驗 0 比較的 F1 差異值。

圖 2. 使用不同特徵集的實驗結果

此篇論文發展的系統稱為 FRED，文中還與其他已發表的兩個系統互相比較：

Tweventu及 Twevent，比較結果如圖 3 所示。在圖 3 中，#Evt 是偵測到的事件個數、P 為精確度、R 是回收率、F1 是 F1 分數。結果顯示該論文所提出的方法優於其他系統。

圖 3. 三種系統的實驗結果

在這篇文獻中，可以看到用了非常多的數據顯示整個系統的表現力，在進行本實驗時，此篇文獻幫助本實驗在比對資料時，發想歸類方法。

(三) 運用自然語言技術分類電影劇本

學者 Blackstock 和 Spitz 則於 2008 年發表論文，使用自然語言技術進行電影劇本之分類。作者提及，分類文字的方式，無論是使用自然語言技術(NLP)或非 NLP 的技術，都是可見的。有很多分類的例子會使用作者書籍、網站或甚至博客條目進行分類。在 Eliashberg 等人(2000)的研究中，作者對不同類型的消費者，研究他們如何對一個特定的電影做出反應。而 Blackstock 和 Spitz 的研究則從劇本文件中抽取一些以自然語言為基的特徵，經由 Naïve Bayes (John and Langley, 1995) 及 Maximum Entropy Markov Model (McCallum 等人, 2000)等分類器訓練及測試，

用來分辨電影劇本的類別。

此文獻運用自然語言技術分類電影劇本，因本實驗是在劇本上做擴展實驗，

所以有關劇本的文獻都曾參考，但此篇文獻多偏重於語意分析，最終只有參考分類文字的方式，用在本實驗分類特徵詞時。

(四) 以半監督式學習技術進行不平衡語意分類

現今大多數的語意研究，都假設已標註或未標註的語料庫中，正向與負向的意見是平衡的(balanced)，但現實世界不見得如此。這篇研究(Li 等人，2011)即探討此議題：使用半監督式學習 (semi-supervised learning) 技術進行不平衡 (imbalanced)語意分類的研究。方法是先找樣本，獲得多個樣本後，在樣本集中進行訓練建立模組，最後利用多組訓練模組建立多個分類，再運用訓練出的分類測試語意類別。

(五) 電影人物互動網路之擷取與分析

該研究是由 Gil 等學者在 2011 年所提出，主要由三個部分組成：

1. 從電影資料中擷取人物互動網路(character interaction network)，並以加權圖表示。

2. 計算人物互動網路中的資訊屬性(informative property)。

3. 建構邏輯迴歸及決策樹分類器，利用這些屬性回答問題(例如：不同類型的互動網路是否可以表示不同的戲劇與電影類別)。

最後就可以運用上述之方法，快速分類戲劇或電影是屬於哪種類別。

此篇文獻，參考到使用不同方法找出不同實驗結果時，可以組合之後再找出更詳細的答案，運用在本實驗時，本研究先找出未來自動化高重點度的特徵詞，

再結合每段落的資訊得出最佳推薦廣告，即是本系統的最終結果，且可以產生每個段落廣告最佳播映時機點。

(六) 劇本文件探勘與廣告推薦之研究

本篇研究是由沈信佑在 2016 年所提出，主要研究實驗資料分別由兩種來源取得：第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料，第二種來源為隨機取得的一些廣告群做為廣告商品資料庫。

研究方法主要以兩個部分組成：

1. 計算各段落重點度:

首先需找出劇本中幫助分析重點度的特徵詞，而這些特徵詞將是日後分析重點度時的關鍵。

2. 推薦最佳廣告:

每個段落內先找出所有特徵詞 Na，選取每個段落排名前三名的 Na 詞，

接著使用廣義知網找出延伸詞，幫助劇本內容與廣告商品的聯結，然後再找出重點度特徵詞後，就可以分析劇本中各段落的評分狀況。

此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時，可以自動化分析出段劇本落重點度，使本研究在分析劇本重點度的部分可以有自動化分析的方法依據。

在文檔中利用廣義知網及維基百科於劇本文件之廣告推薦 (頁 16-21)

第二章 相關研究探討

第一節 相關研究文獻

meaningless

non-event tweets

第二章相關研究探討

第一節相關研究文獻