Twitter使用者之立場偵測：基於目標集子集的分而治技術應用於深度學習方法

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：. 侯文娟. 博士. Twitter 使用者之立場偵測：基於目標集子集的分而治技術應用於深度學習方法 Detecting Stance in Tweets: Deep Learning with a Divide-and-Conquer Scheme based on Subsets of a Target Set. 研究生：中華民國. 張瀞云. 一零七. 撰. 年七. 月.

(2) 摘要. 「立場」這個概念是模糊的。在人們用文字表達的敘述裡，可能包含正向或負向的情緒詞彙、肯定或否定的語氣，但這些特徵都不是直接與立場相關聯。人們可以透過支持一個對象來反對特定目標(明喻)，也可以藉由反諷一個對象來反對特定目標(暗喻)。在本研究中，將已標記立場標籤、來自 Twitter 使用者所撰寫的推文(Tweet)當作訓練資料，使用監督式學習的方式訓練深度神經網路 (Deep Neural Network)。. 本論文提出了一個新的訓練方法，將訓練資料依據主題(Target)分割成五個子集，這五個子集作為主題集(Target Set)的元素，然後以這個主題集的所有子集 (Subsets of the Target Set)當作訓練資料來訓練模型。換句話說，即為相異主題間的搭配訓練，本文稱之為“組合式學習(Combination Learning)＂。所有子集的組合式學習完成後，再從中挑選出對於每個主題表現最佳的模型，最後整合其結果，此方式稱為“分而治之(Divide-and-Conquer)＂。. 在 SemEval 2016 Task 6之子任務 A 中，本研究使用監督式框架來偵測 Twitter 使用者的立場，實驗結果的 F1-score 為70.24%，優於所有此任務的參賽隊伍。. 關鍵字：Twitter 分析、立場偵測、類神經網路、深度學習 i.

(3) Abstract. The concept of “stance” is vague. The words that people used in texts may include the positive or negative emotion, or the tone of comments. However, all features of the text can not be directly related to the stance. People can oppose a specific target by supporting an object (simile), and they can also oppose a specific target by speaking ironically (metaphor). In this study, the deep neural network with a supervised framework is trained by the dataset from tweets with tags of the stance. This paper proposes a new training scheme. The training data is divided into five subsets based on topics (targets). These five subsets are used as the elements of the topic set (target set), and then the subsets of the target set are used to train the model. In other words, it is the training combined with several topics. We call it “Combination Learning”. After the Combination Learning for all the subsets is completed, the best models are selected from each topic, and then the results are integrated. This method is called “Divide-and-Conquer”. For the subtask A of SemEval 2016 Task 6, a supervised framework in the study was used to detect the stance of Twitter’s user. Finally, the experimental result of F1score was 70.24%, superior to all the teams participating in this task.. Keywords: Twitter Analysis, Detecting Stance, Neural Network, Deep Learning. ii.

(4) 致謝. 2018年夏天，經過多次的修正與增減文字，終於完成了本論文的定稿。於師大資工就讀碩士班是我人生中重要的轉捩點，在這裡遇到各種各樣的人事物，讓我深刻體會到了一個精神，就是不該侷限自己的創意、創造的可能性。我由衷的感謝我的指導教授侯文娟老師，兩年來孜孜不倦、循序漸進的引導我認識這個專業領域，幫助我(及實驗室每個同學)解決各種課業與非課業上大大小小的問題，經過不斷的溝通與討論後，使我的研究方法與論文撰寫得以更加完善。感謝口試委員方瓊瑤老師以及郭俊桔老師，以不同的角度在論文上給予諸多建議，使本論文更加完整。感謝我的實驗室學長姊、同學與學弟妹的諸多幫助，課業上的討論、各種經驗分享、跨領域甘苦談，抑或輕鬆地聊日常和打牌，豐富了我的兩年碩班生活。感謝父母在生活上的支援。感謝我的哥哥，適時地與我交流各種思考與發想。感謝我的朋友們，時常一起吃吃喝喝、打球、玩桌遊，讓我做研究時累了可以放鬆一下。最後，所有在這段時間裡相識的人們，感謝緣分讓我與你們相遇，我誠摯地感謝你們，謝謝。. iii.

(5) 目錄附表目錄........................................................................................................................ vi 附圖目錄....................................................................................................................... vii 第一章. 緒論......................................................................................................... 1. 第一節. 研究背景................................................................................................. 1. 第二節. 研究動機與目的..................................................................................... 2. 第三節. 論文架構................................................................................................. 2. 第二章. 文獻探討................................................................................................. 3. 第一節. SemEval 2016 Task 6 ............................................................................. 3. 第二節. 近期相關 Twitter 立場偵測之方法與成果 ........................................... 5. 第三節. 類神經網路與 LSTM ............................................................................. 9. 第四節. Word2Vec ............................................................................................. 12. 第三章. 研究方法與步驟................................................................................... 14. 第一節. 研究架構............................................................................................... 14. 第二節. 原始資料前處理................................................................................... 16. （一）. 切詞 (Tokenize) .................................................................................... 17. （二）. 分割主題標籤 (Split Hashtag) ............................................................. 18. （三）. 去除使用者帳號 (Remove User ID) .................................................... 19. （四）. 去除超連結 (Remove URL)................................................................. 19. 第三節. 訓練 Word2Vec 模型 ........................................................................... 20. （一）. uni-gram 模型 ....................................................................................... 20. （二）. bi-gram 與 tri-gram 模型 ...................................................................... 20. 第四節. 立場偵測模型架構............................................................................... 22. 第五節. n-gram 詞嵌入學習法 (Word Embedding Learning)........................... 24. 第六節. 組合式學習法 (Combination Learning)............................................... 28. 第七節. 模型驗證............................................................................................... 29. （一）. k 次交叉驗證 (k-fold Cross-Validation) .............................................. 30. （二）. 以訓練資料進行驗證 (Validating with Training Data)....................... 31. （三）. 過度適應與損失函數 (Overfitting & Loss Function) ......................... 31. 第四章. 資料來源與評估方式........................................................................... 33 iv.

(6) 第一節. 資料來源............................................................................................... 33. 第二節. 評估方式............................................................................................... 34. 第五章. 實驗結果與討論................................................................................... 37. 第一節. n-gram 詞嵌入學習法之評估 .............................................................. 37. 第二節. 組合式學習法之模型架構與參數....................................................... 41. （一）. 1 到 3 個主題同步學習 ........................................................................ 42. （二）. 4 到 5 個主題同步學習 ........................................................................ 47. 第三節. 模型效能評估....................................................................................... 51. （一）. 無神論 (Atheism) ................................................................................. 52. （二）. 氣候變遷是真切的憂慮 (Climate Change is a Real Concern) ............ 57. （三）. 女權運動 (Feminist Movement)........................................................... 62. （四）. 希拉蕊．柯林頓 (Hillary Clinton)....................................................... 67. （五）. 墮胎合法化 (Legalization of Abortion) ............................................... 71. 第四節第六章. 整合評估............................................................................................... 76 結論與未來展望................................................................................... 80. 參考文獻....................................................................................................................... 83. v.

(7) 附表目錄表 2.1. SemEval 2016 Task 6 之立場標記說明 .......................................................... 5. 表 2.2. 長短期記憶單元之計算公式......................................................................... 11. 表 3.1. 使用 TweetTokenizer 切詞的幾個例子......................................................... 17. 表 3.3. 超連結之不同表示方式................................................................................. 19. 表 3.4. bi-gram 與 tri-gram 片語的生成格式 ............................................................ 21. 表 3.5. 訓練資料在 n-gram 模型中的詞向量回傳統計 ........................................... 25. 表 3.6. 窮舉主題的組合方法..................................................................................... 29. 表 4.1. SemEval 2016 Task 6 任務 A 之資料分布 .................................................... 33. 表 4.2. 本論文用於評估的代號列表與說明............................................................. 34. 表 5.1. 包含“無神論(Ath)＂的所有組合之實驗結果 ............................................ 53. 表 5.2. 包含“氣候變遷(CC)＂的所有組合之實驗結果......................................... 58. 表 5.3. 包含“女權運動(FM)＂的所有組合之實驗結果 ........................................ 63. 表 5.4. 包含“希拉蕊(HC)＂的所有組合之實驗結果 ............................................ 68. 表 5.5. 包含“墮胎合法化(LoA)＂的所有組合之實驗結果................................... 72. 表 5.6. 以訓練資料驗證模型之評估結果................................................................. 76. 表 5.7. 以測試資料驗證模型之評估結果................................................................. 76. 表 5.8. 本研究與 SemEval 2016 Task 6競賽結果之比較 ........................................ 78. vi.

(8) 附圖目錄圖 2.1. 長短期記憶網路 (Long-Short Term Memory, LSTM) ................................. 10. 圖 2.2. 長短期記憶單元 (LSTM Unit) ...................................................................... 11. 圖 2.3. CBOW 與 Skip-gram 之比較 ......................................................................... 13. 圖 3.1. 研究架構圖..................................................................................................... 15. 圖 3.2. Tweet 範例截圖 .............................................................................................. 16. 圖 3.3. SemEval 2016 Task 6 之原始語料檔案截圖 ................................................ 16. 圖 3.4. 本研究所使用之立場偵測模型架構示意圖................................................. 22. 圖 3.5. 訓練資料在 uni-gram 模型中以回傳字數為級距的句數統計 .................... 26. 圖 3.6. 訓練資料在 bi-gram 模型中以回傳字數為級距的句數統計 ...................... 26. 圖 3.7. 訓練資料在 tri-gram 模型中以回傳字數為級距的句數統計 ...................... 27. 圖 3.8. 一個句子的向量序列格式............................................................................. 28. 圖 3.9. 10-fold Cross-Validation ................................................................................ 30. 圖 5.1. n-gram 特徵在立場偵測模型中的 Favg ....................................................... 37. 圖 5.2. n-gram 特徵在立場偵測模型中的準確率 .................................................... 38. 圖 5.3. n-gram 特徵在立場偵測模型中的損失函數 ................................................ 38. 圖 5.4. uni-gram 特徵與其餘兩者搭配訓練的 Favg ................................................ 39. 圖 5.5. uni-gram 特徵與其餘兩者搭配訓練的準確率 ............................................. 40. 圖 5.6. uni-gram 特徵與其餘兩者搭配訓練的損失函數 ......................................... 40. 圖 5.7. 作為立場偵測模型之輸入的句子向量序列格式......................................... 41. 圖 5.8. 單一主題之長短期記憶網路的架構比較(Favg) .......................................... 42. 圖 5.9. 單一主題之長短期記憶網路的架構比較(準確率) ...................................... 43. 圖 5.10. 單一主題之長短期記憶網路的架構比較(損失函數) ................................ 43. 圖 5.11. 單一主題之長短期記憶網路的參數比較(Favg) ........................................ 45 vii.

(9) 圖 5.12. 單一主題之長短期記憶網路的參數比較(準確率) .................................... 45. 圖 5.13. 單一主題之長短期記憶網路的參數比較(損失函數) ................................ 46. 圖 5.14. 全部主題之長短期記憶網路的架構比較(Favg) ........................................ 47. 圖 5.15. 全部主題之長短期記憶網路的架構比較(準確率) .................................... 48. 圖 5.16. 全部主題之長短期記憶網路的架構比較(損失函數) ................................ 48. 圖 5.17. 全部主題之長短期記憶網路的參數比較(Favg) ........................................ 49. 圖 5.18. 全部主題之長短期記憶網路的參數比較(準確率) .................................... 50. 圖 5.19. 全部主題之長短期記憶網路的參數比較(損失函數) ................................ 50. 圖 5.20. 包含“無神論(Ath)＂的所有組合最佳之 Favg 表現 ................................ 54. 圖 5.21. “無神論(Ath)＂組合式學習的最佳模型之學習曲線(準確率) ............... 56. 圖 5.22. “無神論(Ath)＂組合式學習的最佳模型之學習曲線(損失函數) ........... 56. 圖 5.23. 包含“氣候變遷(CC)＂的所有組合最佳之 Favg 表現 ............................. 59. 圖 5.24. “氣候變遷(CC)＂組合式學習的最佳模型之學習曲線(準確率) ............ 61. 圖 5.25. “氣候變遷(CC)＂組合式學習的最佳模型之學習曲線(損失函數) ........ 61. 圖 5.26. 包含“女權運動(FM)＂的所有組合最佳之 Favg 表現 ............................ 64. 圖 5.27. “女權運動(FM)＂組合式學習的最佳模型之學習曲線(準確率) ........... 66. 圖 5.28. “女權運動(FM)＂組合式學習的最佳模型之學習曲線(損失函數) ....... 66. 圖 5.29. 包含“希拉蕊(HC)＂的所有組合最佳之 Favg 表現................................. 69. 圖 5.30. “希拉蕊(HC)＂組合式學習的最佳模型之學習曲線(準確率) ................ 70. 圖 5.31. “希拉蕊(HC)＂組合式學習的最佳模型之學習曲線(損失函數) ............ 70. 圖 5.32. 包含“墮胎合法化(LoA)＂的所有組合最佳之 Favg 表現 ....................... 73. 圖 5.33. “墮胎合法化(LoA)＂組合式學習的最佳模型之學習曲線(準確率) ...... 75. 圖 5.34. “墮胎合法化(LoA)＂組合式學習的最佳模型之學習曲線(損失函數) .. 75. 圖 5.35. 以訓練資料與測試資料驗證之結果比較................................................... 77. viii.

(10) 第一章. 緒論. 第一節研究背景. Twitter 1 是一個時下非常流行的社群網路媒體平台，它成立於2006年3月21 日，到目前為止，已盛行於許多國家，為網路世界中網站瀏覽量的前十名之一。在 Twitter 上發表的短文被稱為“Tweet＂，中文譯為“推文＂，每一則推文限制在140個字元以內，因此也被形容為“微型網誌＂。. 自然語言處理(Natural Language Processing, NLP)一直是人工智慧領域中非常重要的一環，意為運用一些數學理論和統計方法讓電腦可以理解人類從古至今循序發展成的“自然語言＂的語意。然而在不同的語言上，基於不同的文化背景、使用方式和文法，電腦所理解出的語言模式也會有所不同。例如，在中文和英文上的處理方法就有非常大的差異。近年來，隨著類神經網路的崛起，深度學習(Deep Learning)一詞變成了熱門關鍵字，這個新興的詞彙其實是機器學習的一個分支，主要是使用類神經網路來建構模型，因為含有超過一層的隱藏層，而被稱為深度神經網路(Deep Neural Network)。本論文著重於英文推文上的語言處理，使用深度學習的方式偵測使用者透過其言論表明的自身立場。. 1. Twitter 官方網站：twitter.com 1.

(11) 第二節研究動機與目的. 不同於以往傳統的訊息傳播方式(電話、電視、收音機…等)，在網際網路日益發達的現在，訊息的傳遞變得快速且直接，人們在網路上可以更加暢所欲言，使得個人意見的真實性得以提升，也讓更多不同的言論可以被看到。. 本研究利用電腦自動學習語言模式來分析網際網路上大量的使用者言論中表明的個人立場，藉此達到了解民眾言論趨勢的目的。. 第三節論文架構. 本篇論文分成六個章節。第一章為緒論，說明研究背景、研究動機與目的；第二章為文獻探討，闡述與本研究相關之文獻或方法；第三章為研究方法與步驟，細述本研究所使用之系統架構與實驗流程和方法；第四章為資料來源與評估方式；第五章為實驗結果與討論；第六章為結論與未來展望。. 2.

(12) 第二章. 文獻探討. 第一節 SemEval 2016 Task 6. SemEval2是一個針對計算語意分析系統進行評估的國際性比賽，著重於分析系統的效能評估，涵蓋多個自然語言處理的項目。在 SemEval 2016中，比賽項目包含了生物資訊學與臨床文本分析(Bioinfomatics / Clinical Text Analysis)、詞彙複雜性(Lexical Complexity)、意譯(Paraphrases)、問與答(Question Answering)、語意分析(Semantic Parsing)、語意相似性(Semantic Similarity)、情緒分析(Sentiment Analysis) 、分類學歸納與濃縮 (Taxonomy Induction/Enrichment) 、時間註釋 (Temporal Annotation)、Twitter 分析(Twitter Analysis)。. SemEval 2016 Task 6的任務內容是“Detecting Stance in Tweets＂，目的為藉由分析使用者在 Twitter 上發表的推文(Tweet)，預測使用者本身的立場。此任務又分為兩個子任務：. 2. SemEval：為 Semantic Evaluation 的縮寫。(2016年度官方網站：http://alt.qcri.org/semeval2016/) 3.

(13) 1.. Task A (監督式框架，Supervised Framework) 預測對於五個目標主題的立場，包括無神論(Atheism)、氣候變遷是真切的. 憂慮(Climate Change is a Real Concern)、女權運動(Feminist Movement)、希拉蕊．柯林頓3(Hillary Clinton)與墮胎合法化(Legalization of Abortion)。此項目提供了超過2900個已標記的可用來訓練的數據樣本。. 2.. Task B (弱監督式框架，Weakly Supervised Framework) 預測對於一個目標主題－唐納．川普4(Donald Trump)的立場，此項目提供了. 一些關於唐納．川普的未標記推文。. 對於立場的分類使用了三種標記如表 2.1所示。本論文為針對 Task A 的研究，使用監督式學習的方式予以進行。. 3. 希拉蕊．柯林頓：全名 Hillary Diane Rodham Clinton，美國政治人物，2016年美國總統候選人。. 4. 唐納．川普：全名 Donald John Trump，美國政治人物，於2016年當選為美國第45任總統。 4.

(14) 表 2.1 立場標記 FAVOR (贊成) AGAINST (反對) NONE (中立). SemEval 2016 Task 6 之立場標記說明. 說明在推文中有明顯的支持目標主題：直接或間接地通過支持某些人事物、反對或批評與目標主題相反的人事物、或者附和某人的立場。在推文中有明顯的反對目標主題：直接或間接地通過反對某些人事物、支持或贊同與目標主題相反的人事物、或者附和某人的立場。以上皆非。可能的情況有：並非在談論這些目標主題、正在談論但無明顯的支持或反對、陳述事實的推文。. 第二節近期相關 Twitter 立場偵測之方法與成果. SemEval 2016 Task 6之任務 A 的19個參賽隊伍裡，使用類神經網路做為學習架構的團隊有 MITRE 團隊(Zarrella & Marsh, 2016)、pkudblab 團隊(Wei et al., 2016)、DeepStance 團隊(Vijayaraghavan et al., 2016)和 Tohoku 團隊(Igarashi et al., 2016)，分別獲得第一名、第二名、第八名和第十一名。其中，MITRE 團隊使用長短期記憶網路 (Long-Short Term Memery, LSTM)(Hochreiter & Schmidhuber, 1997) ，其餘三者則是使用卷積神經網路 (Convolutional Neural Network, CNN)(Johnson & Zhang, 2014)，以下將逐點介紹其所使用的訓練方法。. 1.. MITRE 團隊. 所使用的模型架構為常用於自然語言處理領域的長短期記憶網路，將使用 Word2Vec (Mikolov et al., 2013)訓練的詞向量輸入至擁有256個神經元的輸入 5.

(15) 層，記憶層 (LSTM layer) 與全連接層 (Dense layer) 皆為 128 個神經元，Dropout5(Srivastava et al., 2014)設定為90%，而輸出層使用 Softmax6作為優化函數。使用了5次交叉驗證作為模型的驗證方式，將五個主題分開訓練成五個模型，訓練週期數為50。其中，類神經網路的初始值並非使用隨機數，而是預先用了自備的語料庫進行了訓練，然後再使用主辦單位所提供的訓練資料接續訓練，MITRE 團隊將此訓練方式稱為轉移學習(Transfer Learning)。. 2.. pkudblab 團隊. 以卷積神經網路作為主要的模型架構，使用 Word2Vec 詞向量(300維/詞)作為輸入，其隱藏層含有一維卷積層(1D Convolutional Layer)、一維最大池化層(1D Max Pooling)各一層，輸出層使用 Softmax 函數作為優化函數。pkudblab 團隊嘗試了兩種訓練方法，一是五個主題同步進行訓練；二是主題間的單獨訓練，與 MITRE 團隊使用的方式相同，其將此方法稱之為“Divide-and-Conquer＂，亦為本論文之標題由來。訓練週期數均為10，兩者經過評估後，pkudblab 團隊認為後者的評估表現比起前者來的優異，即提交後者作為參賽模型。. 5. Dropout：為一種正則化(Regularization)技術，用於減少類神經網路中的過度適應(Overfitting)。. Softmax ：是一種邏輯函數的推廣，也稱為歸一化指數函數 (Normalized Exponential Function)。Softmax 用於多分類的問題時，能將多個神經元的輸出映射到(0,1)區間內，並讓所有映射值的總和為1，相當於機率的概念。 6. 6.

(16) 3.. DeepStance 團隊. 使用卷積神經網路作為主要的模型架構，亦同樣使用將主題分開訓練的方法，訓練週期數設定為 8 到 10 ，然後將每個主題模型擇優進行總體的評估。DeepStane 團隊實驗了兩種不同的詞向量嵌入層級：字元層級(Characterlevel)和單詞層級(Word-level)，前者是基於一個特定的字元集將每則推文的所有字元以 One-Hot7的方式投影成詞向量；後者則是使用 uni-gram 的 Word2Vec 模型，而這兩種不同的詞向量嵌入層級則使用了不同架構的卷積神經網路。. 字元層級的卷積神經網路以一個二維的 One-Hot 詞向量矩陣 ( 大小為 150*70：Tweet 字元總數140，作者補足至150，70為字元集的大小)作為輸入，其隱藏層包含四組的一維卷積層與一維池化層，以及兩層的全連接層：第一層作為平坦層(Flatten Layer)，可將向量降維至一維，共1024個神經元；第二層作為 Dropout 層使用，共512個神經元。輸出層使用 Softmax 作為優化函數。. 單詞層級的卷積神經網路亦使用二維的詞向量矩陣作為輸入(其大小為300* 字數，因作者使用的 Word2Vec 模型為300維/詞，字數則為推文的字數)，其隱藏層則含有二維卷積層(2D Convolutional Layer)和二維池化層(2D Max Pooling)各一層，以及兩層的全連接層：與上述的功能相同，作為降維和 Dropout 使用，各為 512和256個神經元。輸出層亦使用 Softmax 作為優化函數。. One-Hot Encoding：為一種編碼方式，每個狀態都有一個獨立的存取欄位(0或1)。One-Hot 是一組位元序列，其中僅有一個位元是1，其餘均為0；反之，若只有一個位元為0，其餘均為1，則稱為 One-Cold。 7. 7.

(17) 4.. Tohoku 團隊. 將兩種不同的模型架構進行比較：卷積神經網路和基於特徵的邏輯回歸模型(Logistic Regression)。Tohoku 團隊使用的卷積神經網路架構是以 Word2Vec 的詞向量(300維/詞)作為輸入，隱藏層包含一維卷積層和一維池化層各一層，以及兩層神經元個數相同的全連接層，最後的輸出層亦使用 Softmax 作為優化函數。. Tohoku 團隊使用了兩種方法比較這兩種不同架構的性能：一是“3-way Polarity＂，意為直接分類成三個立場；二是“Topic + 2-way Polarity＂，將立場先分類成代表客觀的中立(None)和代表主觀的支持(Favor)與反對(Against)，然後再將被歸類為主觀的推文分類成支持或反對。經過 10次交叉驗證的結果顯示，在卷積神經網路和邏輯回歸模型中，“Topic + 2-way Polarity＂方法均有較為優異的性能表現，而其中又以卷積神經網路為最佳，因此作為提交之模型。. 本研究主要參考以上四個團隊的學習方法，選擇長短期記憶網路作為訓練架構，並將各隊所使用之訓練週期數作為實驗參考的起點，然後將主題分開訓練的方法進行延伸，本研究將之稱為組合式學習方法(Combination Learning)，此法將在後續章節有詳細的詮釋。. 8.

(18) 第三節類神經網路與 LSTM. 類神經網路 (Neural Network, NN)又可稱為神經網路，為人工神經網路 (Artificial Neural Network, ANN)的簡稱，是一種模仿生物神經網路的架構。類神經網路可依據外界資訊來改變內部結構，為一種自適應控制系統 (Adaptive Control System)。. 長短期記憶網路(Long-Short Term Memory, LSTM)是類神經網路中遞迴神經網路(Recurrent Neural Network, RNN)的一種，由於 RNN 只能記憶鄰近神經元的狀態，當時間間隔太長，RNN 容易忘記前面的記憶，意即 RNN 無法記得長期記憶。因此，為了解決這個問題，長短期記憶網路使用一種稱為“閘門(Gate)＂的機制用以控制 RNN 架構中遞迴層神經元的狀態。圖 2.1顯示了 LSTM 的概念架構 (與 RNN 之差異在於隱藏層是否使用了 LSTM 單元)，在時間點 t 時，xt 為輸入向量，ht 為輸出向量，每個隱藏層的 LSTM 單元就像是一個記憶細胞(記憶單元)。進一步觀察其內部結構如圖 2.2所示，所謂“閘門(Gate)＂的架構包含一個σ 函數層和一個 Hadamard 乘法運算8，而 it、ot 和 ft 分別為輸入門(Input Gate)、輸出門(Output Gate)和忘記門(Forget Gate)所產生的向量，向量內的值為介於0~1之間的實數值，用來控制訊息的通過量(0表示全部不通過，1表示全部通過，故此值為通過比率)。當輸入向量 xt 進入記憶細胞時，會先與前一個記憶細胞的輸出向. Hadamard Product ：若有矩陣 A 與 B 大小皆為 m × n ，則兩者做 Hadamard 乘法運算為：(A ∗ B)𝑖,𝑗 = (𝐴)𝑖,𝑗 (𝐵)𝑖,𝑗 ，即兩個矩陣內對應位置的元素相乘。若兩個矩陣的大小不同，則此乘法運算不成立。 8. 9.

(19) 量 ht-1串聯，然後分別輸入四個函數層，其中，三個σ函數層的輸出向量為 it、ot 和 ft，相當於三種門的訊息通過比率，而 tanh 函數層則輸出代表新細胞狀態的向量𝐶̃𝑡 。當前一個細胞狀態𝐶𝑡−1 輸入記憶細胞時，會先通過忘記門(與 ft 進行 Hadamard 乘法運算)，再與通過輸入門的新細胞狀態(𝐶̃𝑡 與 it 進行 Hadamard 乘法運算的結果)進行加法運算後，可得到當前的細胞狀態𝐶𝑡 ，然後使其通過輸出門 (與 ot 進行 Hadamard 乘法運算)而得到當前細胞的輸出向量 ht。上述過程中的計算公式顯示於表 2.2，亦於表中說明了每個變數的涵意。由於每個記憶細胞皆參考了前一個細胞的輸出向量與細胞狀態，並且利用三種閘門管理訊息的去留，使 LSTM 擁有記得長期記憶的能力，因此為本研究所使用。. 圖 2.1. 長短期記憶網路 (Long-Short Term Memory, LSTM) (圖片參考自 http://colah.github.io/). 10.

(20) 圖 2.2 長短期記憶單元 (LSTM Unit) (圖片參考自 http://colah.github.io/). 表 2.2. 長短期記憶單元之計算公式 Variables. Equations σ(𝑥) =. 1 1 + 𝑒 −𝑥. σ(𝑥): sigmoid function tanh(𝑥): hyperbolic tangent function. 𝑒 𝑥 − 𝑒 −𝑥 tanh(𝑥) = 𝑥 𝑒 + 𝑒 −𝑥. 𝑥𝑡 : input vector to the LSTM unit 𝑓𝑡 : forget gate's activation vector. 𝑓𝑡 = 𝜎(𝑊𝑓 ∙ [h𝑡−1 , 𝑥𝑡 ] + 𝑏𝑓 ). 𝑖𝑡 : input gate's activation vector. 𝑖𝑡 = 𝜎(𝑊𝑖 ∙ [h𝑡−1 , 𝑥𝑡 ] + 𝑏𝑖 ). 𝑜𝑡 : output gate's activation vector. 𝐶̃𝑡 = tanh(𝑊𝐶 ∙ [h𝑡−1 , 𝑥𝑡 ] + 𝑏𝐶 ). ℎ𝑡 : output vector of the LSTM unit 𝐶𝑡 : cell state vector. 𝐶𝑡 = 𝑓𝑡 ∗ 𝐶𝑡−1 + 𝑖𝑡 ∗ 𝐶̃𝑡. 𝑊𝑓 , 𝑊𝑖 , 𝑊𝐶 , 𝑊𝑜 : weight matrix. 𝑜𝑡 = 𝜎(𝑊𝑜 ∙ [h𝑡−1 , 𝑥𝑡 ] + 𝑏𝑜 ). 𝑏𝑓 , 𝑏𝑖 , 𝑏𝐶 , 𝑏𝑜 : network parameter. ℎ𝑡 = 𝑜𝑡 ∗ tanh(𝐶𝑡 ). *: Hadamard Product. 11.

(21) 第四節 Word2Vec. Word2Vec(Mikolov et al., 2013)是 Google 於2013年發表的一種用於詞嵌入 (Word Embedding)的淺層神經網路模型(Shallow Neural Networks)，透過訓練就可以重新建構單詞的語境。Word2Vec 將大量的文本作為神經網路的輸入進而生成一個向量空間，向量大多為上百個維度，在語料庫裡每個相異單詞會被映射到向量空間中，即一個單詞對應至一個唯一的詞向量。. Word2Vec 所輸出的向量可以被用來進行諸多 NLP 的相關工作，如分群 (Clustering)、尋找同義詞、詞性分析等，透過單詞與單詞之間的歐幾里得距離 (Euclidean Distance)或餘弦相似度(Cosine Similarity)來判斷它們之間的語意相似度。與早期的演算法如潛在語意分析(Latent Semantic Index, LSI)相比，Word2Vec 模型會參照單詞的上下文，可以使語意訊息更加豐富。. Word2Vec 主要有兩種演算法： Skip-grams 和 CBOW(Continuous Bag-ofwords)，對於每一個單詞，前者為使用當前的單詞來預測生成其他單詞的機率；相反地，後者為使用周圍的單詞來預測生成當前的單詞的機率，兩者的演算流程如圖 2.3所示。為因應所使用之語料庫甚大，而 CBOW 有其速度較快的優點，因此為本研究所使用。本研究使用一款 Python 9 套件－ gensim 10 來訓練 Word2Vec 詞向量模型。. 9. Python：是一種物件導向程式語言，因其具有簡潔的語法與優異的可讀性而被廣泛使用。. 10. gensim 官方網站：https://radimrehurek.com/gensim/ 12.

(22) 圖 2.3. CBOW 與 Skip-gram 之比較. 13.

(23) 第三章. 研究方法與步驟. 第一節研究架構. 本研究分成四個階段進行，研究架構如圖 3.1所示。第一階段為訓練詞向量模型，分別為 uni-gram、bi-gram、tri-gram 三種詞向量模型，uni-gram 的詞向量模型來自 Godin 等人(2015)，而 bi-gram 和 tri-gram 模型則在本研究中訓練；第二階段為使用前一階段訓練完成的三個詞向量模型將語料向量化，再利用交叉驗證的方式確定立場偵測模型之架構與參數；第三階段為組合式學習；第四階段為測試模型與整合結果。. 14.

(24) 圖 3.1. 研究架構圖. 15.

(25) 第二節原始資料前處理. 本研究使用的語料為來自 Twitter 的言論，一則推文於 Twitter 平台上的樣式範例如圖 3.2所示(因為私人帳號，使用者帳號已被遮蔽)，“StopHillary＂與 “WakeUpAmerica＂為主題標籤 (Hashtag) ，被呼叫的使用者帳號 (User ID)有 “NBCNews＂與“HillaryClinton＂。多則推文在語料檔案內的局部截圖如圖 3.3 所示，一列代表一則推文，包含推文內容、主題標籤與立場標籤等，圖 3.2的推文內容則顯示在由上至下第三則推文。. 圖 3.2. 圖 3.3. Tweet 範例截圖. SemEval 2016 Task 6 之原始語料檔案截圖. 在本研究中，原始資料前處理項目包括切詞(Tokenize)、分割主題標籤(Split Hashtag)、去除使用者帳號(Remove User ID)、去除超連結(Remove URL)，在本節中將分別敘述之。 16.

(26) （一）. 切詞 (Tokenize). 本研究之背景為社群媒體平台－Twitter，基於其使用者在平台上發文的方式與口語化之風氣，不同於較為標準的英文文章形式，因此使用一款 Python 套件－NLTK11的 API－TweetTokenizer 進行切詞工作。在表 3.1中，可觀察到原始字串經過切詞後產生 token 之情形，例如“22-year-old＂會被分割成“22＂、 “-＂和“year-old＂，而“2,000＂則不會被分割。. 表 3.1 原始字串. 使用 TweetTokenizer 切詞的幾個例子. token 1. don't don't cover-up cover-up ones--His ones--His 22-year-old 22 girls/women girls 2/2 2/2 33:33 33:33 772-324-9040 772-324-9040 2,000 2,000 Ruth_Blane Ruth_Blane _AnAvgJoe_ _AnAvgJoe_ 737th 737th $25 $ 91% 91 :) :) =) =) <3 <3 ?! ?. 11. NLTK 官方網站：http://www.nltk.org/ 17. 切詞後 token 2. token 3. N/A N/A N/A / N/A N/A N/A N/A N/A N/A N/A 25 % N/A N/A N/A !. N/A N/A N/A year-old women N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A.

(27) （二）. 分割主題標籤 (Split Hashtag). 在 Twitter 這個社群平台上，使用者可以在推文中使用井字號“#＂來標記跟此推文有關的主題關鍵字，Twitter 會將相同關鍵字的推文彙整到同一個頁面，可以讓使用者同時看到來自其他使用者且含有相同主題標籤的推文，以此方式來聚集同類型主題的言論。. 鑒於這個功能是讓使用者自行產生標籤字串，並沒有固定的格式，只要在 “#＂後面加入文字、數字或底線，任何字串都可成為主題標籤。例如：. #NoHillary2016 “NoHillary2016＂其實是“No Hillary 2016＂，因為 Twitter 的 Hashtag 使用方式不能包含空白字元，因而將每個字連結成一個連續的字串，字首使用大寫加以區隔單詞，另一種可能的表示方法是以底線符號作為間隔，例如：. #Please_Save_Trees 因此，如果能夠將有意義的單詞從一個主題標籤字串中分隔開來，就能獲得更多的語意，而非作為一個意義不明的字串而被刪除。本研究使用自然語言處理軟體 GATE12(Cunningham et al., 2013)的 API－TwitIE (Bontcheva et al., 2013) 進行分割主題標籤的工作。. GATE：名稱來自 General Architecture for Text Engineering 的縮寫，為英國雪菲爾大學計算機科學系(Dept. Computer Science, University of Sheffield)以 Java 為基礎開發的開源工具，初版於1995 年釋出，目前最新的穩定版本為2017年6月9日釋出的8.4.1版。(官方網站：https://gate.ac.uk/) 12. 18.

(28) （三）. 去除使用者帳號 (Remove User ID). 呈上述所言，使用者亦可在推文中使用符號“@＂來標記其他的使用者或官方帳號(例如@FOXTV13)，來達到呼叫指定帳號前來關注此推文的用途。. 由於使用者帳號是隨個人喜好而設定的，對於一則推文的整體語意並無相關聯，故利用 GATE 將使用者帳號從語料中去除。. （四）. 去除超連結 (Remove URL). 超連結是一種對語言分類沒有幫助的字串，有兩種形式：字首有 http (https) 的和沒有 http (https)的，舉例如表 3.2。然而它並沒有任何可以依循的語意規則，故以 GATE 將之從語料中去除。. 表 3.2. 13. 超連結之不同表示方式. 含 http (https). https://twitter.com. 不含 http (https). twitter.com. FOXTV：福斯廣播公司(Fox Broadcasting Company)在 Twitter 平台的官方帳號。 19.

(29) 第三節訓練 Word2Vec 模型. 本研究共使用了三種 Word2Vec 模型：uni-gram、bi-gram 及 tri-gram 模型，本節將逐一敘述其訓練方法。. （一）. uni-gram 模型. 本研究使用 Godin 等人於 ACL-IJCNLP14發表的論文(2015)中訓練的模型－以 Twitter API 提取2013年3月1日到2014年2月28日期間約4億則推文來訓練的 unigram Word2Vec 詞向量模型，字典大小為3,039,345個相異字，向量維度為400。. （二）. bi-gram 與 tri-gram 模型. 兩者使用的原始語料庫均為學者 Yang 與 Leskovec 以 Twitter API 提取的推文 (2011)，時間範圍為2009年6月到12月，估計約為當時全部推文的20%到30%推文數量，包含476,553,560條推文，經過篩選之後共有474,733,306條非空(empty)之可用推文。本研究使用 Mikolov 等人於2013年所發表之被稱為“Word2Vec＂的詞嵌入(Word Embedding)演算法，透過 gensim 套件訓練模型，分成三個步驟，說. 14. ACL-IJCNLP：計算語言學協會(Association for Computational Linguistics, ACL)與自然語言處理國際聯合研討會(International Joint Conference on Natural Language Processing, IJCNLP)的聯合學術研討會。 20.

(30) 明如下：. 步驟1. 使用原始語料生成片語語料，規則為將切詞過的單詞以底線的方式連. 接，bi-gram 為連接兩個單詞，tri-gram 為連接三個單詞，如表 3.3所示。. 步驟2. 在還未訓練的模型中建立字典樹。因記憶體容量有限，需先計算字典的. 大小。經統計，bi-gram 字典樹為去除出現次數低於18次的片語，最終的字典大小為13,693,472個相異字；而 tri-gram 字典樹為去除出現次數低於27次的片語，最終的字典大小為14,362,974個相異字。. 步驟3. 為因應記憶體容量限制，則將每個月份的 Twitter 語料以18,000,000筆推. 文進行分割後依序送入模型進行訓練，共分成31批，每批筆數 ≤ 18,000,000 筆。為了與 uni-gram 模型有同樣的向量維度以便於搭配使用，而將 bi-gram 和 trigram 模型的詞向量維度設定為400。. 表 3.3. bi-gram 與 tri-gram 片語的生成格式. 原句(切詞後) The / carbon / clock / is / ticking 生成 bi-gram. The_carbon / carbon_clock / clock_is / is_ticking. 生成 tri-gram. The_carbon_clock / carbon_clock_is / clock_is_ticking. 由於 Word2Vec 模型是屬於非監督式學習(Unsupervised Learning)，並沒有特定的評估標準，端看應用在研究上時表現出的效能。. 21.

(31) 第四節立場偵測模型架構. 在本研究中，所使用的立場偵測模型架構為常用於自然語言處理的長短期記憶網路(Long Short-Term Memory, LSTM)，與 SemEval 2016 Task 6獲第一名的 MITRE 隊伍(Zarrella & Marsh, 2016)所使用的架構實屬同一類型，如圖 3.4所示，“Input layer＂和“Output layer＂為輸入層和輸出層，其它層均屬於隱藏層 (Hidden Layer) ， “ Dropout layer ＂為 Dropout 層， “ LSTM layer ＂為記憶層，“Dense layer＂為全連接層。. 圖 3.4. 本研究所使用之立場偵測模型架構示意圖. 在圖 3.4中，輸入為推文(Tweet)的句子向量，然而因為輸入向量設定較長(於本章第五節說明了向量長度的設定 )，則在輸入層之後加入一層 Dropout 層 (Srivastava et al., 2014)，它會隨機挑選部分的神經元進入下一層，用以防止模型 22.

(32) 的過度適應(於本章第七節說明)；接續的記憶層會將句子向量的某些訊息紀錄在神經元內，如本論文第二章第三節所說明；而後進入全連接層，將記憶層輸出的所有特徵進行整合，再透過 Dropout 層隨機選擇部分神經元，藉此縮減向量的長度；最後，輸出層含有三個神經元，分別代表本研究三種立場之預測機率。. 本研究以 Keras 15 框架(Framework)建構立場偵測模型，且將神經元丟棄率 (Dropout)設定為90%，而記憶層及全連接層的神經元個數會在後續章節以實驗的方式確認。. Keras：以 Python 編寫的類神經網路框架，其後端(Backend)有三種選擇：TensorFlow、Theano 或 CNTK(三者皆為類神經網路套件)，本研究所使用的後端為 TensorFlow。 15. 23.

(33) 第五節 n-gram 詞嵌入學習法 (Word Embedding Learning). 為了從前面訓練完成的 n-gram Word2Vec 模型中挑選出最適當的句子向量的序列搭配，以便用於長短期記憶網路進行立場偵測工作，本節將說明挑選之方法。. 將 SemEval 2016 Task 6主辦單位提供的2,914筆訓練資料輸入已訓練完成之 uni-gram、bi-gram 和 tri-gram 的 Word2Vec 模型中，輸出的詞向量之統計結果如表 3.4所示，單句平均回傳字數為一個句子能在模型中找到的平均字數；單句最大回傳字數為一個句子能在模型中找到的最多字數；單句最小回傳字數為一個句子能在模型中找到的最少字數；回傳字數為零的句數為訓練資料中沒有任何回傳字的句子數量；單句平均回傳率為單句平均回傳字數除以平均原始句子字數(已做前處理)，即一個句子中有多少百分比的字能被回傳回來(在模型中找到詞向量)。. 24.

(34) 表 3.4 模型. unigram. bigram. trigram. 訓練資料在 n-gram 模型中的詞向量回傳統計項目. FAVOR. AGAINST. NONE. ALL. 單句平均回傳字數. 16.46. 16.98. 15.37. 16.42. 單句最大回傳字數. 30. 31. 27. 31. 單句最小回傳字數. 5. 2. 2. 2. 單句回傳字數為零的句數. 0. 0. 0. 0. 單句平均回傳率(%). 82.42. 81.25. 80.58. 81.38. 單句平均回傳字數. 13.56. 13.80. 12.32. 13.35. 單句最大回傳字數. 29. 30. 26. 30. 單句最小回傳字數. 3. 1. 1. 1. 單句回傳字數為零的句數. 0. 0. 0. 0. 單句平均回傳率(%). 85.80. 84.21. 83.84. 84.53. 單句平均回傳字數. 6.99. 7.14. 6.46. 6.92. 單句最大回傳字數. 24. 28. 20. 28. 單句最小回傳字數. 0. 0. 0. 0. 單句回傳字數為零的句數. 17. 35. 35. 87. 單句平均回傳率(%). 47.21. 46.40. 47.20. 46.80. 從表 3.4可看出，在 uni-gram 模型中，單句平均回傳字數約為16，單句最大回傳字數為31，則可以將 uni-gram 的句子向量維度範圍鎖定在6,400到12,400個維度之間(400維度/詞)，同理可推，bi-gram 的句子向量維度範圍鎖定在5,200到 12,000之間，tri-gram 的句子向量維度範圍鎖定在2,400到11,200之間。. 25.

(35) 圖 3.5. 訓練資料在 uni-gram 模型中以回傳字數為級距的句數統計. 圖 3.6. 訓練資料在 bi-gram 模型中以回傳字數為級距的句數統計. 26.

(36) 圖 3.7. 訓練資料在 tri-gram 模型中以回傳字數為級距的句數統計. 然而這樣的維度範圍還是過於寬大且不夠明確，於是本研究進一步分析訓練資料在各個 n-gram 模型中的表現，如圖 3.5、圖 3.6及圖 3.7所示。其中，橫軸為句子的長度(字數)，縱軸為句子的數量，以 uni-gram 模型為例，訓練資料的長度落在(15,20]區間內的句數為1,129句，以此類推，則若把 uni-gram 的句子向量維度定為10,000(因為400維度/詞，所以25*400＝10,000)，就能夠保留最多的語意資訊量，也可以降低需要補足向量長度的零的數量。同理可推，在 bi-gram 和 trigram 模型中，則將句子向量維度定為10,000和8,000。因此，在本研究中，一個句子的序列格式預設為如圖 3.8所示。. 27.

(37) 圖 3.8. 一個句子的向量序列格式. 第六節組合式學習法 (Combination Learning). 在 SemEval 2016 Task 6競賽中，得到第一名與第二名的 MITRE 團隊(Zarrella & Marsh, 2016)和 pkudblab 團隊(Wei et al., 2016)使用的學習方法均為將五個目標主題分割開來各自獨立學習，pkudblab 團隊亦比較出了五個主題的分割訓練方式比共同訓練方式的效能要好，歸因於此，本研究將各個主題做不同的組合搭配來訓練，嘗試提高基於主題訓練的模型效能。. 將目標主題窮舉(Exhaustion)出所有組合的方法，如表 3.5所示。本論文將五個主題：無神論(Atheism)、氣候變遷是真切的憂慮 (Climate Change is a Real Concern)、女權運動(Feminist Movement)、希拉蕊．柯林頓(Hillary Clinton)與墮胎合法化 (Legalization of Abortion) 分別使用 “ Ath ＂、 “ CC ＂、 “ FM ＂、 “HC＂與“LoA＂作為簡化的主題代號。. 28.

(38) 表 3.5. 窮舉主題的組合方法. 主題數量. 組合方法. 組合數. 1. {Ath}、{CC}、{FM}、{HC}、{LoA} {Ath, CC}、{Ath, FM}、{Ath, HC}、{Ath, LoA}、 {CC, FM}、{CC, HC}、{CC, LoA}、 {FM, HC}、{FM, LoA}、 {HC, LoA} {Ath, CC, FM}、{Ath, CC, HC}、{Ath, CC, LoA}、 {Ath, FM, HC}、{Ath, FM, LoA}、 {Ath, HC, LoA}、 {CC, FM, HC}、{CC, FM, LoA}、{CC, HC, LoA}、 {FM, HC, LoA} {Ath, CC, FM, HC}、{Ath, CC, FM, LoA}、 {Ath, CC, HC, LoA}、{Ath, FM, HC, LoA}、 {CC, FM, HC, LoA} {Ath, CC, FM, HC, LoA} -. 5. 2. 3. 4 5 total. 10. 10. 5 1 31. 第七節模型驗證. 在本研究中，使用兩種驗證方法來預估模型的效能，分別為 k 次交叉驗證和以訓練資料進行驗證，前者用於模型架構的確認，例如隱藏層的神經元個數、學習的週期數等；後者用於評估學習後的模型效能。而在本節末解釋了損失函數(Loss Function)和過度適應(Overfitting)，將用於後段章節的實驗結果討論。. 29.

(39) （一）. k 次交叉驗證 (k-fold Cross-Validation). 其做法為將訓練資料隨機分割成 k 個子集後，訓練 k 次，每次訓練都將其中一個子集當作測試資料，其餘的子集當作訓練資料，意即每個子集會輪流被當作測試資料，然後將訓練 k 次的結果加總後計算其平均值，來做為模型最後的評估結果。k 次交叉驗證常被用來確定機器學習或統計模型的架構，尤其在訓練資料數量較少的情況下，使用交叉驗證的結果廣為人所信任，其中又以10次交叉驗證(10-fold Cross-Validation)甚為常用16，如圖 3.9所示，亦是本研究所使用的交叉驗證方法。. 圖 3.9. 10-fold Cross-Validation. 出自此書之敘述：McLachlan, G., Do, K. A., & Ambroise, C. (2005). Analyzing microarray gene expression data (Vol. 422). John Wiley & Sons. 16. 30.

(40) （二）. 以訓練資料進行驗證 (Validating with Training Data). 將訓練資料作為測試資料來評估使用同一批訓練資料訓練的模型，此法用意在於測試模型對於訓練資料本身的學習效果。. （三）. 過度適應與損失函數 (Overfitting & Loss Function). 過度適應(Overfitting)是指模型過於適應訓練資料，以至於模型的一般化不足。比如在考試時，“把答案背起來＂跟“理解題目後提出答案＂兩種方法都可以獲得高分，但是當題目稍微變化一下，前者的方式就不管用了，而過度適應的情況就像是模型只把訓練資料的答案背起來，所以在測試資料(變換題目)上就會表現不好，可以從模型的損失函數(Loss Function)曲線來判定是否有此情形發生。. 損失函數可以評估模型的不一致程度，它是一個非負實數值，數值越小，表示模型越強壯(robust)，意即模型在分類未知的資料上會有更堅強的性能。因本研究使用 Keras 框架建構立場偵測模型，預設為對數損失函數(Log Loss)，其計算方法如公式3-1所示，M 為分類的類別數(本研究為分成三類)；c 為類別的真實標籤；o 為預測的類別標籤； yo, c 是一個二元值，1表示預測類別與真實類別相同(預測正確)，0表示預測類別與真實類別不同(預測錯誤)；po, c 為預測分類的機率。比如以三分類問題來說，若一個樣本屬於類別 A 的機率為0.2，屬於類別 B 的機率為0.3，屬於類別 C 的機率為0.5，而此樣本的真實類別為類別 31.

(41) C，則−(0 ∙ log 0.2 + 0 ∙ log 0.3 + 1 ∙ log 0.5) = − log 0.5，約等於0.301。而一個模型的損失函數值，是由所有樣本的損失函數值加總後進行算術平均，如公式3-2 所示，m 為樣本總數，lossi 表示第 i 個樣本的損失函數值(即為使用公式3-1計算出的值)，加總後的數值亦可釋為交叉熵 17 (Cross-Entropy)。在最後的測試階段中，損失函數將會用來評估模型是否有過度適應的情形發生。. Log_Loss(o, c) = − ∑𝑀 𝑐=1 𝑦𝑜,𝑐 log(𝑝𝑜,𝑐 ). Loss_Function =. 17. 1 𝑚. ∑𝑚 𝑖=1 𝑙𝑜𝑠𝑠𝑖. 式 3-1. 式 3-2. 交叉熵：為一個隨機變量的確定性度量，熵越大，代表變量確定性越低，反之確定性越高。 32.

(42) 第四章. 資料來源與評估方式. 第一節資料來源. 本研究所使用之語料庫有二：其一為本論文第三章所提及的用於 n-gram 詞向量模型之訓練的 Twitter 語料庫18；其二為 SemEval 2016 Task 6主辦單位所提供之 Twitter 語料庫(Mohammad et al., 2016)，用於立場偵測模型之訓練，其資料分布如表 4.1所示。. 表 4.1. SemEval 2016 Task 6 任務 A 之資料分布 % of instances in Train. Target. 18. % of instances in Test. # total. # train. favor. against. neither. # test. favor. against. neither. Atheism. 733. 513. 17.9. 59.3. 22.8. 220. 14.5. 72.7. 12.7. Climate Change is a Real Concern. 564. 395. 53.7. 3.8. 42.5. 169. 72.8. 6.5. 20.7. Feminist Movement. 949. 664. 31.6. 49.4. 19. 285. 20.4. 64.2. 15.4. Hillary Clinton. 984. 689. 17.1. 57. 25.8. 295. 15.3. 58.3. 26.4. Legalization of Abortion. 933. 653. 18.5. 54.4. 27.1. 280. 16.4. 67.5. 16.1. All. 4163. 2914. 25.8. 47.9. 26.3. 1249. 24.3. 57.3. 18.4. SNAP Datasets - 476 million Twitter tweets：https://snap.stanford.edu/data/twitter7.html 33.

(43) 第二節評估方式. 模型的效能評估在機器學習領域中是頗為重要的一步，常用的評估方式諸如準確率 (Accuracy) 、精確率 (Precision) 、召回率 (Recall) 和 F1-score (F1measure)。在 SemEval 2016 Task 6中則以 F1-score 做為效能評估的依據，因應此任務中有三種立場，本論文使用的代號對照表如表 4.2所示，Ffavor、Fagainst 和 Fnone 分別為支持 (Favor) 、反對 (Against) 和中立 (None) 的 F1-score ； T 代表 True，識別正確的樣本，意指預測的結果與標準答案相同；F 代表 False，識別錯誤的樣本，意指預測的結果與標準答案不相同；P 代表 Precision；R 代表 Recall。. 表 4.2. 本論文用於評估的代號列表與說明. 代號 Tf Ta Tn Ff Fa Fn ALLf ALLa ALLn Pf Pa Pn Rf Ra Rn Ffavor Fagainst Fnone Favg. 內容識別正確的 Favor 樣本數識別正確的 Against 樣本數識別正確的 None 樣本數識別錯誤的 Favor 樣本數識別錯誤的 Against 樣本數識別錯誤的 None 樣本數所有的 Favor 樣本數所有的 Against 樣本數所有的 None 樣本數 Favor 的 Precision Against 的 Precision None 的 Precision Favor 的 Recall Against 的 Recall None 的 Recall Favor 的 F1-score Against 的 F1-score None 的 F1-score F1-score 平均數 (不包含 None). 34.

(44) 依準確率(Accuracy)之定義，模型的準確率如公式4-1所示。. Accuracy =. Tf+Ta+Tn ALLf+ALLa+ALLn. 式 4-1. 依精確率(Precision)之定義，三種立場的精確率如公式4-2、4-3和4-4所示。. Tf. Pf =. Tf+Ff Ta. Pa =. Ta+Fa Tn. Pn =. Tn+Fn. 式 4-2 式 4-3 式 4-4. 依召回率(Recall)之定義，三種立場的召回率如公式4-5、4-6和4-7所示。. Rf = Ra =. Tf ALLf Ta ALLa. Rn =. Tn ALLn. 式 4-5 式 4-6 式 4-7. 依 F1-score 之定義，三種立場的 F1-score 如公式4-8、4-9和4-10所示。. 2∙Pf∙Rf. Ffavor =. Pf+Rf. Fagainst = Fnone =. 35. 2∙Pa∙Ra Pa+Ra. 2∙Pn∙Rn Pn+Rn. 式 4-8 式 4-9 式 4-10.

(45) 依此任務的評估方式，F1-score 平均數(Favg)如公式4-11。. Favg =. Ffavor+Fagainst 2. 36. 式 4-11.

(46) 第五章. 實驗結果與討論. 第一節 n-gram 詞嵌入學習法之評估. 在本節中，將探討是否將本研究所訓練出來的 bi-gram 和 tri-gram Word2Vec 模型納入句子向量的序列中作為長短期記憶網路(用於立場偵測)的輸入。. 以所有主題共同訓練當作範例，單獨使用 uni-gram、bi-gram 和 tri-gram 特徵作為句子向量來訓練長短期記憶網路時，交叉驗證結果如圖 5.1、圖 5.2和圖 5.3 所示。其中，“uni＂代表 uni-gram；“bi＂代表 bi-gram；“tri＂代表 tri-gram。. 圖 5.1. n-gram 特徵在立場偵測模型中的 Favg. (Details for this model: Dense_units=256; LSTM_units=256; Batch_size=10; Epochs=20). 37.

(47) 圖 5.2. n-gram 特徵在立場偵測模型中的準確率. (Details for this model: Dense_units=256; LSTM_units=256; Batch_size=10; Epochs=20). 圖 5.3. n-gram 特徵在立場偵測模型中的損失函數. (Details for this model: Dense_units=256; LSTM_units=256; Batch_size=10; Epochs=20). 38.

(48) 明顯地，單獨使用 uni-gram 特徵作為長短期記憶網路的輸入時，Favg 和準確率均高於其它兩種特徵，而損失函數為三者中最低，因而表示此 uni-gram 特徵在立場偵測模型中的表現是最好的。. 再進一步探討 bi-gram 和 tri-gram 特徵的可用性，測試 uni-gram 特徵與其它兩種特徵是否具有不錯的交互作用，實驗結果如圖 5.4、圖 5.5和圖 5.6所示。其中，“uni＂代表 uni-gram 序列；“uni+bi＂為在 uni-gram 序列後再接續加入 bigram 序列；“uni+bi+tri＂則代表前者再接續加入 tri-gram 序列，以此類推。. 圖 5.4. uni-gram 特徵與其餘兩者搭配訓練的 Favg. (Details for this model: Dense_units=256; LSTM_units=256; Batch_size=10; Epochs=20). 39.

(49) 圖 5.5. uni-gram 特徵與其餘兩者搭配訓練的準確率. (Details for this model: Dense_units=256; LSTM_units=256; Batch_size=10; Epochs=20). 圖 5.6. uni-gram 特徵與其餘兩者搭配訓練的損失函數. (Details for this model: Dense_units=256; LSTM_units=256; Batch_size=10; Epochs=20). 窮舉所有的 n-gram 序列組合後，可以觀察到當 uni-gram 特徵加入 bi-gram 特 40.

(50) 徵時，Favg 和準確率皆有明顯的下降，而再加入 tri-gram 特徵時，依舊是低於單獨使用 uni-gram 特徵的，而其餘組合之效能亦低於單獨使用 uni-gram 特徵。. 因此，基於上述的實驗結果，決定不採納 bi-gram 和 tri-gram 特徵做為長短期記憶網路(立場偵測模型)的輸入，接續本論文第三章第五節的圖 3.8所示，最終選擇如圖 5.7所示之句子向量序列格式作為長短期記憶網路的輸入。. 圖 5.7. 作為立場偵測模型之輸入的句子向量序列格式. 第二節組合式學習法之模型架構與參數. 在上一節中已經確定了輸入的句子向量序列格式，本節的實驗由於主題數量亦會影響訓練資料的數量，則將組合訓練的模型架構分成兩個部分進行實驗，第一部分是1到3個主題同步學習，第二部分是4到5個主題同步學習，以選出適當的模型架構與參數。. 41.

(51) （一）. 1到3個主題同步學習. 在圖 3.4所示之 LSTM 架構中，隱藏層的全連接層(Dense layer)和記憶層 (LSTM layer)的神經元個數對整個深度學習模型的性能有很大的影響力，因此，使用交叉驗證的方式作為指標，比較隱藏層之間神經元個數的搭配效果。本實驗使用五個主題之一的無神論(Atheism)作為範例，並以 MITRE 團隊的記憶層神經元個數128作為實驗起點，逐步增加至512個神經元(發現效能有下降則停止增加)，如圖 5.8、圖 5.9和圖 5.10所示。. 圖 5.8. 單一主題之長短期記憶網路的架構比較(Favg) (Details for this model: Batch_size=10; Epochs=20). 42.

(52) 圖 5.9. 單一主題之長短期記憶網路的架構比較(準確率) (Details for this model: Batch_size=10; Epochs=20). 圖 5.10. 單一主題之長短期記憶網路的架構比較(損失函數) (Details for this model: Batch_size=10; Epochs=20). 43.

(53) 其中，可以發現當記憶層的神經元個數為128時，皆有不錯的效果，但由於在競賽中得到第一名的 MITRE 團隊(Zarrella & Marsh, 2016)所使用的類神經網路架構中，記憶層與全連接層的神經元個數相同(均為128)，而本研究作為輸入的句子向量長達10,000維度，推論應需要更龐大的記憶量，且亦有訓練成本之考量，故選擇記憶層與全連接層相同大小、均為256個神經元的模型架構。觀察圖 5.8、圖 5.9和圖 5.10，當 LSTM units 和 Dense units 均為256時，在 Favg、準確率和損失函數皆有最好的驗證結果，本研究將此架構作為1到3個主題同步學習的實驗架構。. 然而，訓練週期數(Epochs)與批量大小(Batch size)亦為影響模型效能的重要參數，前者為訓練資料在模型中的訓練輪次，每一輪的訓練都使用所有的訓練資料進行一次訓練；後者則代表著在每一輪的訓練中，每一次送入模型訓練的資料筆數。舉例來說，若訓練資料有100筆，訓練週期數為10，批量大小為 20，則會訓練10輪，每一輪的訓練中，每次將20筆資料送入模型訓練且總共送5 次(100筆資料/20批量大小=5次)。訓練週期數與批量大小實驗如圖 5.11、圖 5.12 和圖 5.13所示。. 44.

(54) 圖 5.11. 單一主題之長短期記憶網路的參數比較(Favg) (Details for this model: Dense_units=256; LSTM_units=256). 圖 5.12. 單一主題之長短期記憶網路的參數比較(準確率) (Details for this model: Dense_units=256; LSTM_units=256). 45.

(55) 圖 5.13. 單一主題之長短期記憶網路的參數比較(損失函數) (Details for this model: Dense_units=256; LSTM_units=256). 如圖 5.11和圖 5.12所示，根據競賽第二名與第八名的 pkudblab 團隊(Wei et al., 2016)和 DeepStance 團隊(Vijayaraghavan et al., 2016)所使用之單一主題訓練方法的訓練週期數為8到10，因此將8和10納入實驗週期數，然後嘗試著以10個單位遞增，增加至20時，發現模型的 Favg 與準確率的表現均比前面更好，繼續增加至30時，則能明顯地看出增量並沒有像10增加到20時這麼多，於是再增加測試一個中間值25，發現訓練週期數從25到30時，批量大小(Batch size)為20的 Favg 曲線有下降趨勢，而批量大小為8和10的曲線趨勢雖為上升，但並無太大的增量。依上述所言推斷，在訓練週期增加到30時，可能會有過度適應(Overfitting) 的情況發生，故將訓練週期數測試值集合設定為{8, 10, 20, 25}，批量大小的測試值集合則設定為{8, 10, 20}。. 46.

(56) （二）. 4到5個主題同步學習. 接續前述，為了因應主題數量會影響訓練資料的數量，故4到5個主題同步學習的架構與1到3個主題同步學習的架構之測試值稍有不同，本實驗使用五個主題共同訓練作為範例，如圖 5.14、圖 5.15和圖 5.16所示。. 圖 5.14. 全部主題之長短期記憶網路的架構比較(Favg) (Details for this model: Batch_size=10; Epochs=50). 47.

(57) 圖 5.15. 全部主題之長短期記憶網路的架構比較(準確率) (Details for this model: Batch_size=10; Epochs=50). 圖 5.16. 全部主題之長短期記憶網路的架構比較(損失函數) (Details for this model: Batch_size=10; Epochs=50). 48.

(58) 在4到5個主題同步學習時，由於資料量的增加，則將前述之1到3個主題同步學習的模型架構當作實驗起點(LSTM units 和 Dense units 均為256)，而將全連接層(Dense layer)和記憶層(LSTM layer)的測試值增加至1024個神經元。經過交叉驗證之後，發現當記憶層神經元個數從512到1024時，Favg 曲線有明顯地下降趨勢，在準確率的實驗裡亦有類似的情況，除了全連接層神經元個數為512的曲線有微微上升，其餘兩者的曲線趨勢均是下降，因而可推論出記憶層為1024時可能因為過多的神經元而讓模型的學習產生了反效果，故不選擇記憶層為1024之架構。然而，在三種不同神經元個數的記憶層中，全連接層的神經元個數在 1024時，Favg 和準確率表現最好的組合為搭配512個神經元的記憶層，這個組合在損失函數的曲線上亦有著最低的測試值，則將此架構做為4到5個主題同步學習的實驗架構。. 圖 5.17. 全部主題之長短期記憶網路的參數比較(Favg) (Details for this model: Dense_units=512; LSTM_units=512). 49.

(59) 圖 5.18. 全部主題之長短期記憶網路的參數比較(準確率) (Details for this model: Dense_units=512; LSTM_units=512). 圖 5.19. 全部主題之長短期記憶網路的參數比較(損失函數) (Details for this model: Dense_units=512; LSTM_units=512). 50.

(60) 前述已經介紹了訓練週期數(Epochs)與批量大小(Batch size)，在此也使用同樣的方式去決定兩種參數的設定值，實驗結果如圖 5.17、圖 5.18和圖 5.19所示。. 明顯地，當批量大小(Batch size)為10時，在 Favg、準確率和損失函數上均有最好的表現。進一步去比較三種批量大小的曲線，當訓練週期數從50增加至80 時，Favg 曲線雖然均呈現上升趨勢，但在準確率曲線卻是接近持平的狀態，而在損失函數曲線上，則是發現不同於其它兩條曲線的下降趨勢，批量大小為8的曲線不降反升。. 因此，雖然訓練週期數為80的 Favg 高於訓練週期為50者，但在準確率上兩種訓練週期數的表現並無太大差異，且依據上一段所敘述的損失函數上升之情形，且不與前述之1到3個主題同步學習的方法重複，則將訓練週期數設定為 50，批量大小的測試值集合設定為{8, 10, 20}。. 第三節模型效能評估. 本節將對五個主題逐一進行組合式學習(Combination Learning)與評估：將每個主題在每種不同組合的情況下依據本章第二節所敘述之模型架構與參數進行訓練多次(相同的組合、架構或參數訓練出來的模型有多個)，使用測試資料進行驗證，然後將擁有最佳 Favg 的模型做為每種組合的最佳模型，再比較每個最佳模型之間主題和總體的 Favg，選出主題表現最佳的組合式學習模型，最後再將選出的五個主題模型進行整合(分而治之)，計算總體的 Favg。本文將五個主題依序簡稱為“Ath＂、“CC＂、“FM＂、“HC＂和“LoA＂，以利數據之呈現。 51.

(61) （一）. 無神論 (Atheism). 在表 5.1 中顯示了所有實驗的結果，包含此目標主題的組合共有 16 種， “ Favg ＂為公式 4-11 所述之 Favg ， “ Overall ＂表示為整體的評估值， “ Target ＂表示為目標主題的評估值，而標示粗體字者為該組合中 “Favg(Target)＂表現最佳的模型。. 以{Ath, CC}為例，使用“Ath＂和“CC＂主題的訓練資料，在不同參數組合的情況下進行訓練，共有12種參數組合，每種參數組合包含兩個評估值：測試時(與訓練時使用相同主題的測試資料)，“Favg(Target)＂為只測試“Ath＂時得到的 Favg；“Favg(Overall)＂為測試“Ath＂加上“CC＂時(整體)得到的 Favg。而在{Ath, CC}這個主題組合中，“Favg(Target)＂表現最佳的模型如粗體字所標示為62.46%。在圖 5.20中，將所有主題組合的最佳模型(粗體字所標示)的結果進行整合。. 值得注意的是，因為本研究之類神經網路的初始值使用隨機數，相同的組合、架構或參數會訓練多次進而產生多個模型，而這些模型的評估值會有所差異。在挑選最佳模型時，是依據各主題的“Favg(Target)＂作為標準，故可能挑選到組合、架構或參數相同但評估值不同之模型。舉例來說，圖 5.20之{Ath, LoA}的 Favg 便與圖 5.32之{Ath, LoA}的 Favg 不同，意即組合為{Ath, LoA}的模型有多個候選，前者是以“Ath＂的 Favg 作為挑選標準(Target 為“Ath＂)，後者則是以“LoA＂的 Favg 作為標準(Target 為“LoA＂)，因此才會挑選到相同訓練組合但評估值不同的模型。. 52.

(62) 表 5.1. 包含“無神論(Ath)＂的所有組合之實驗結果. Batch size 8 10 20 Combination Dense units LSTM units Epochs Favg(%) Favg(%) Favg(%) Favg(%) Favg(%) Favg(%) (Overall) (Target) (Overall) (Target) (Overall) (Target) 256 256 8 43.64 43.64 42.62 42.62 42.86 42.86 256 256 10 54.98 54.98 42.81 42.81 42.49 42.49 {Ath} 256 256 20 64.91 64.91 69.23 69.23 56.78 56.78 256 256 25 62.48 62.48 53.73 53.73 69.74 69.74 256 256 8 71.31 57.94 63.48 48.97 76.02 62.46 256 256 10 58.43 37.32 74.48 54.98 76.00 58.06 {Ath, CC} 256 256 20 76.81 61.28 73.82 59.74 76.76 61.95 256 256 25 71.44 52.39 67.58 46.76 73.13 48.85 256 256 8 40.45 42.11 40.45 42.11 40.45 42.11 256 256 10 46.75 42.11 46.35 44.77 41.17 42.11 {Ath, FM} 256 256 20 49.09 45.41 43.11 42.22 52.33 47.58 256 256 25 50.30 44.45 43.10 42.11 50.73 44.39 256 256 8 39.20 42.11 39.20 42.11 39.15 42.11 256 256 10 39.20 42.11 39.20 42.11 39.20 42.11 {Ath, HC} 256 256 20 39.47 42.29 39.34 42.22 39.26 42.44 256 256 25 34.80 37.22 39.19 41.80 39.33 42.22 256 256 8 41.11 42.11 42.96 43.02 40.44 42.36 256 256 10 40.64 41.79 57.02 58.07 55.44 49.36 {Ath, LoA} 256 256 20 62.83 59.08 57.28 54.75 63.77 67.20 256 256 25 55.54 54.67 51.24 48.14 47.55 47.62 256 256 8 64.17 49.93 63.93 53.16 64.22 47.22 256 256 10 61.15 52.04 58.92 50.99 63.66 53.08 {Ath, CC, FM} 256 256 20 65.66 57.35 65.81 46.35 63.05 58.43 256 256 25 65.34 56.08 63.07 57.94 54.51 57.55 256 256 8 57.73 48.05 55.56 42.99 63.07 46.41 256 256 10 62.27 46.15 56.12 42.33 34.96 42.11 {Ath, CC, HC} 256 256 20 66.33 49.67 65.05 46.51 69.04 50.68 256 256 25 57.29 39.92 65.26 46.43 58.51 39.52 256 256 8 65.26 50.68 61.42 53.94 69.31 60.60 256 256 10 62.71 52.18 64.65 57.27 49.99 45.71 {Ath, CC, LoA} 256 256 20 65.60 44.38 68.80 48.83 71.15 60.58 256 256 25 64.51 43.99 64.87 45.72 64.45 45.35 256 256 8 39.16 42.11 39.16 42.11 39.16 42.11 256 256 10 39.16 42.11 39.16 42.11 39.16 42.11 {Ath, FM, HC} 256 256 20 41.44 42.20 39.84 41.28 38.92 42.22 256 256 25 36.53 39.10 38.72 40.66 39.98 42.20 256 256 8 40.39 42.11 40.39 42.11 40.39 42.11 256 256 10 40.43 42.11 40.35 41.95 40.39 42.11 {Ath, FM, LoA} 256 256 20 40.26 41.95 40.36 42.09 48.56 42.78 256 256 25 39.36 41.64 39.80 42.41 52.87 42.70 256 256 8 39.59 42.11 39.59 42.11 39.59 42.11 256 256 10 39.59 42.11 39.77 42.11 39.63 42.18 {Ath, HC, LoA} 256 256 20 39.62 42.11 39.60 42.13 39.66 42.06 256 256 25 39.57 42.13 39.56 42.01 39.39 43.63 {Ath, CC, FM, HC} 1024 512 50 59.67 42.74 21.03 12.70 53.46 43.69 {Ath, CC, FM, LoA} 1024 512 50 61.42 56.78 55.93 45.83 62.27 57.25 {Ath, CC, HC, LoA} 1024 512 50 52.53 39.87 49.55 39.23 53.48 40.77 {Ath, FM, HC, LoA} 1024 512 50 42.01 40.19 43.51 40.55 40.78 41.52 {Ath, CC, FM, HC, LoA} 1024 512 50 56.95 44.72 56.15 46.99 63.13 48.11. 53.

(63) 圖 5.20. 包含“無神論(Ath)＂的所有組合最佳之 Favg 表現. 依據圖 5.20所示，每種組合都有兩種 Favg，“Overall＂代表著模型整體的 Favg，另一者則代表著在此模型中個別主題的 Favg，於是可以觀察“無神論＂這個主題在與其他主題組合訓練時的效果變化，其中以組合為{Ath}訓練的模型具有最高的主題 Favg 為69.74%，而總體 Favg 因為是單獨訓練而與主題 Favg 相同，則將{Ath}這個組合訓練的模型作為此主題的最佳模型。. 54.

(64) 進一步觀察這個模型訓練期時的學習曲線，如圖 5.21和圖 5.22所示(驗證資料為本研究之測試資料)，兩者的準確率曲線皆為上升趨勢，且驗證期的表現比訓練期還要好；另一方面，兩者的損失函數曲線皆為下降趨勢，且驗證期的損失函數比訓練期的還要低，則可以推論，此模型在這個驗證集上並沒有發生過度適應(Overfitting)的情形。. 55.

(65) 圖 5.21. “無神論(Ath)＂組合式學習的最佳模型之學習曲線(準確率). (Details for this model: Dense_units=256; LSTM_units=256; Batch_size=10; Epochs=25). 圖 5.22. “無神論(Ath)＂組合式學習的最佳模型之學習曲線(損失函數) (Details for this model: Dense_units=256; LSTM_units=256; Batch_size=10; Epochs=25). 56.

(66) （二）. 氣候變遷是真切的憂慮 (Climate Change is a Real Concern). 在表 5.2 中顯示了所有實驗的結果，包含此目標主題的組合共有 16 種， “ Favg ＂為公式 4-11 所述之 Favg ， “ Overall ＂表示為整體的評估值，“Target＂表示為目標主題的評估值，而標示為粗體字的部分為該組合中 “Favg(Target)＂表現最佳的模型。在前面的敘述中已舉例說明了表格內數值的意義與判讀方式，均可類推。. 在圖 5.23中則將所有主題組合的最佳模型(粗體字所標示)的結果進行整合。. 57.

(67) 表 5.2. 包含“氣候變遷(CC)＂的所有組合之實驗結果. Batch size 8 10 20 Combination Dense units LSTM units Epochs Favg(%) Favg(%) Favg(%) Favg(%) Favg(%) Favg(%) (Overall) (Target) (Overall) (Target) (Overall) (Target) 256 256 8 42.12 42.12 42.12 42.12 42.12 42.12 256 256 10 41.07 41.07 2.38 2.38 42.25 42.25 {CC} 256 256 20 41.63 41.63 38.07 38.07 40.25 40.25 256 256 25 41.18 41.18 42.15 42.15 42.49 42.49 256 256 8 76.02 41.60 71.31 42.36 63.48 42.45 256 256 10 58.43 35.68 73.45 43.49 76.00 46.49 {Ath, CC} 256 256 20 76.81 42.08 74.00 43.54 76.76 42.96 256 256 25 71.44 39.74 67.58 42.41 73.13 41.25 256 256 8 62.57 46.53 61.87 42.66 62.37 42.34 256 256 10 60.52 42.20 65.06 42.96 63.38 51.19 {CC, FM} 256 256 20 69.18 49.69 65.20 42.59 64.18 46.13 256 256 25 58.23 37.67 65.66 43.35 61.27 38.89 256 256 8 64.12 45.08 68.89 50.90 74.32 57.84 256 256 10 67.25 43.73 71.31 52.62 71.69 46.55 {CC, HC} 256 256 20 58.80 51.73 59.57 47.46 60.17 49.01 256 256 25 58.14 44.70 62.68 46.79 59.59 47.15 256 256 8 26.59 12.06 63.02 37.67 60.67 39.09 256 256 10 62.72 49.27 66.42 43.24 60.29 49.48 {CC, LoA} 256 256 20 42.57 39.24 54.43 39.47 53.70 38.60 256 256 25 59.87 42.40 55.42 40.50 69.37 45.11 256 256 8 64.17 46.10 64.22 45.19 63.93 50.05 256 256 10 61.15 46.22 58.92 40.94 63.66 46.35 {Ath, CC, FM} 256 256 20 65.66 48.65 65.81 44.18 63.05 47.62 256 256 25 65.34 48.80 63.07 47.28 54.51 39.06 256 256 8 57.73 36.04 55.56 35.53 63.07 43.12 256 256 10 62.27 38.91 56.12 33.41 34.96 7.58 {Ath, CC, HC} 256 256 20 66.33 44.76 69.04 47.07 65.05 44.09 256 256 25 57.29 34.67 58.51 45.19 65.26 50.15 256 256 8 65.26 39.70 61.42 40.16 69.31 46.70 256 256 10 62.71 40.12 64.65 46.17 49.99 26.38 {Ath, CC, LoA} 256 256 20 65.60 42.76 68.80 43.53 71.15 47.22 256 256 25 64.51 42.70 64.87 43.34 64.45 42.14 256 256 8 60.61 45.65 56.24 54.58 54.99 38.18 256 256 10 63.71 46.59 60.71 49.80 63.68 62.13 {CC, FM, HC} 256 256 20 58.18 44.41 60.35 45.44 62.34 50.37 256 256 25 54.23 42.99 56.57 41.55 61.66 46.34 256 256 8 56.00 34.82 43.72 16.50 36.70 3.23 256 256 10 54.32 35.47 52.94 28.85 47.33 23.68 {CC, FM, LoA} 256 256 20 56.33 42.55 61.21 47.05 62.73 54.22 256 256 25 56.30 36.12 61.36 40.41 61.08 48.35 256 256 8 47.82 31.23 47.84 28.44 56.40 38.14 256 256 10 65.45 49.76 59.43 38.78 50.94 34.15 {CC, HC, LoA} 256 256 20 49.90 47.82 57.61 47.52 64.72 53.02 256 256 25 53.60 42.82 48.99 30.75 60.21 43.91 {Ath, CC, FM, HC} 1024 512 50 21.03 42.12 53.46 31.97 59.67 43.69 {Ath, CC, FM, LoA} 1024 512 50 55.93 39.75 62.27 41.76 61.42 42.98 {Ath, CC, HC, LoA} 1024 512 50 52.53 40.13 49.55 37.58 53.48 42.61 {CC, FM, HC, LoA} 1024 512 50 55.95 36.71 58.10 39.83 55.09 43.51 {Ath, CC, FM, HC, LoA} 1024 512 50 56.95 44.31 56.15 38.01 63.13 46.85. 58.

(68) 圖 5.23. 包含“氣候變遷(CC)＂的所有組合最佳之 Favg 表現. 在圖 5.23中，顯示了“氣候變遷是真切的憂慮(CC)＂這個主題在與其他主題組合訓練時的效果變化，其中組合為{CC, FM, HC}的主題 Favg 是所有組合中最高的，而整體 Favg 雖然不是最高的，但亦表現不俗，因此將這個組合作為此主題的最佳模型。雖然首要還是挑選主題 Favg 最高的組合，但是也不能完全忽略整體 Favg 的表現，因為若整體 Favg 表現好，表示這個主題與此組合內其餘的主 59.

(69) 題可能有正向的影響之趨勢，故亦是個可以做為模型選擇時的參考依據。. 進一步來看組合為{CC, FM, HC}的模型之學習曲線如圖 5.24、圖 5.25所示，整體而言準確率為上升趨勢，損失函數為下降趨勢，且均沒有比訓練期的表現來得差，則可推論此模型在測試資料上並沒有出現過度適應的現象。. 60.

(70) 圖 5.24. “氣候變遷(CC)＂組合式學習的最佳模型之學習曲線(準確率) (Details for this model: Dense_units=256; LSTM_units=256; Batch_size=10; Epochs=10). 圖 5.25. “氣候變遷(CC)＂組合式學習的最佳模型之學習曲線(損失函數) (Details for this model: Dense_units=256; LSTM_units=256; Batch_size=10; Epochs=10). 61.