第二章 相關研究探討
第一節 相關研究文獻
如第一章所述,目前本論文研究項目尚未有豐富的文獻可供參考,因此僅就 與本論文主題相關之文獻,探討可參考使用之技術,並整理如下:
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的,該研究是運用情緒分 析方法,分析 Blogger 數據的結果在電影的領域是否具有較好的相關性,主要發 現是,評論中的正向情緒確實是電影是否成功的一項重要的預測。
此篇把 Blogger 上對於電影評價輿論分為正面(positive)、負面(negative)及混 合(mixed),如圖 1 所示。該篇作者分析電影發行前及發行後的部落格情緒評論,
測試是否和電影票房有所關聯,並且和單純提及電影的次數互相比較,藉此了解 評論的影響程度。
在他們的實驗中使用的不同的基於極性的測量方法,得到的最佳相關值如下:
•在電影上映前:長度為 20 個字的文本集中正向評論的數量。
•電影上映後:長度 140 個字的文本集中的非中性評論的數量(此法和使用正向 評論數量的方式有著非常接近的效果)。
圖 1. 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文,研究 Twitter 新聞事件偵測之議題。
現今社會中,社群網站已經變成是生活中重要的一部分,此篇文獻所做的研 究,將社群訊息分類、分析資訊、找出訊息內是否含有新聞相關的內容。與本研 究相關的地方在於,本研究也需要分析文件,在文件中(在此指劇本)找出有用的 訊息,以推薦正確的廣告。以下為此文獻的介紹。
一般來說,tweets 可以被分成三類:
1. 新聞事件(news events):例如美國 911 爆炸案。
2. 關注性高的訊息(hot topic):散播於眾多使用者的議題,像是星座運勢等。
3. 其他類別(heterogeneous collections)或無意義的非事件推特文(
meaningless
non-event tweets
):例如「想找人和我一起聊天」。本篇論文使用 SVM 分類器偵測事件,特徵包含兩大類:統計類(9 項)及社會 類(6 項)。圖 2 即為此文獻運用不同的特徵集產生的實驗結果,評量結果包括精確 度、回收率與 F1 分數,最後一欄是各組實驗與實驗 0 比較的 F1 差異值。
圖 2. 使用不同特徵集的實驗結果
此篇論文發展的系統稱為 FRED,文中還與其他已發表的兩個系統互相比較:
Tweventu及 Twevent,比較結果如圖 3 所示。在圖 3 中,#Evt 是偵測到的事件個 數、P 為精確度、R 是回收率、F1 是 F1 分數。結果顯示該論文所提出的方法優 於其他系統。
圖 3. 三種系統的實驗結果
在這篇文獻中,可以看到用了非常多的數據顯示整個系統的表現力,在進行 本實驗時,此篇文獻幫助本實驗在比對資料時,發想歸類方法。
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文,使用自然語言技術進行電影 劇本之分類。作者提及,分類文字的方式,無論是使用自然語言技術(NLP)或非 NLP 的技術,都是可見的。有很多分類的例子會使用作者書籍、網站或甚至博客 條目進行分類。在 Eliashberg 等人(2000)的研究中,作者對不同類型的消費者,研 究他們如何對一個特定的電影做出反應。而 Blackstock 和 Spitz 的研究則從劇本 文件中抽取一些以自然語言為基的特徵,經由 Naïve Bayes (John and Langley, 1995) 及 Maximum Entropy Markov Model (McCallum 等人, 2000)等分類器訓練及測試,
用來分辨電影劇本的類別。
此文獻運用自然語言技術分類電影劇本,因本實驗是在劇本上做擴展實驗,
所以有關劇本的文獻都曾參考,但此篇文獻多偏重於語意分析,最終只有參考分 類文字的方式,用在本實驗分類特徵詞時。
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究,都假設已標註或未標註的語料庫中,正向與負向的 意見是平衡的(balanced),但現實世界不見得如此。這篇研究(Li 等人,2011)即探 討 此 議 題 : 使 用 半 監 督 式 學 習 (semi-supervised learning) 技 術 進 行 不 平 衡 (imbalanced)語意分類的研究。方法是先找樣本,獲得多個樣本後,在樣本集中進 行訓練建立模組,最後利用多組訓練模組建立多個分類,再運用訓練出的分類測 試語意類別。
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出,主要由三個部分組成:
1. 從電影資料中擷取人物互動網路(character interaction network),並以加權 圖表示。
2. 計算人物互動網路中的資訊屬性(informative property)。
3. 建構邏輯迴歸及決策樹分類器,利用這些屬性回答問題(例如:不同類型 的互動網路是否可以表示不同的戲劇與電影類別)。
最後就可以運用上述之方法,快速分類戲劇或電影是屬於哪種類別。
此篇文獻,參考到使用不同方法找出不同實驗結果時,可以組合之後再找出 更詳細的答案,運用在本實驗時,本研究先找出未來自動化高重點度的特徵詞,
再結合每段落的資訊得出最佳推薦廣告,即是本系統的最終結果,且可以產生每 個段落廣告最佳播映時機點。
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出,主要研究實驗資料分別由兩種來源 取得:第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料,第二種來源為 隨機取得的一些廣告群做為廣告商品資料庫。
研究方法主要以兩個部分組成:
1. 計算各段落重點度:
首先需找出劇本中幫助分析重點度的特徵詞,而這些特徵詞將是日後分 析重點度時的關鍵。
2. 推薦最佳廣告:
每個段落內先找出所有特徵詞 Na,選取每個段落排名前三名的 Na 詞,
接著使用廣義知網找出延伸詞,幫助劇本內容與廣告商品的聯結,然後 再找出重點度特徵詞後,就可以分析劇本中各段落的評分狀況。
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時,可以自動 化分析出段劇本落重點度,使本研究在分析劇本重點度的部分可以有自動化分析 的方法依據。