組合式學習法之模型架構與參數

第五章實驗結果與討論

第二節組合式學習法之模型架構與參數

在上一節中已經確定了輸入的句子向量序列格式，本節的實驗由於主題數量亦會影響訓練資料的數量，則將組合訓練的模型架構分成兩個部分進行實驗，第一部分是1到3個主題同步學習，第二部分是4到5個主題同步學習，以選出適當的模型架構與參數。

（一） 1到3個主題同步學習

在圖 3.4所示之 LSTM 架構中，隱藏層的全連接層(Dense layer)和記憶層 (LSTM layer)的神經元個數對整個深度學習模型的性能有很大的影響力，因此，使用交叉驗證的方式作為指標，比較隱藏層之間神經元個數的搭配效果。本實驗使用五個主題之一的無神論(Atheism)作為範例，並以 MITRE 團隊的記憶層神經元個數128作為實驗起點，逐步增加至512個神經元(發現效能有下降則停止增加)，如圖 5.8、圖 5.9和圖 5.10所示。

圖 5.8 單一主題之長短期記憶網路的架構比較(Favg)

(Details for this model: Batch_size=10; Epochs=20)

圖 5.9 單一主題之長短期記憶網路的架構比較(準確率)

(Details for this model: Batch_size=10; Epochs=20)

圖 5.10 單一主題之長短期記憶網路的架構比較(損失函數)

(Details for this model: Batch_size=10; Epochs=20)

其中，可以發現當記憶層的神經元個數為128時，皆有不錯的效果，但由於在競賽中得到第一名的 MITRE 團隊(Zarrella & Marsh, 2016)所使用的類神經網路架構中，記憶層與全連接層的神經元個數相同(均為128)，而本研究作為輸入的句子向量長達10,000維度，推論應需要更龐大的記憶量，且亦有訓練成本之考量，故選擇記憶層與全連接層相同大小、均為256個神經元的模型架構。觀察圖 5.8、圖 5.9和圖 5.10，當 LSTM units 和 Dense units 均為256時，在 Favg、準確率和損失函數皆有最好的驗證結果，本研究將此架構作為1到3個主題同步學習的

圖 5.11 單一主題之長短期記憶網路的參數比較(Favg)

(Details for this model: Dense_units=256; LSTM_units=256)

圖 5.12 單一主題之長短期記憶網路的參數比較(準確率)

(Details for this model: Dense_units=256; LSTM_units=256)

圖 5.13 單一主題之長短期記憶網路的參數比較(損失函數)

(Details for this model: Dense_units=256; LSTM_units=256)

如圖 5.11和圖 5.12所示，根據競賽第二名與第八名的 pkudblab 團隊(Wei et al., 2016)和 DeepStance 團隊(Vijayaraghavan et al., 2016)所使用之單一主題訓練方法的訓練週期數為8到10，因此將8和10納入實驗週期數，然後嘗試著以10個單位遞增，增加至20時，發現模型的 Favg 與準確率的表現均比前面更好，繼續增加至30時，則能明顯地看出增量並沒有像10增加到20時這麼多，於是再增加測試一個中間值25，發現訓練週期數從25到30時，批量大小(Batch size)為20的 Favg 曲線有下降趨勢，而批量大小為8和10的曲線趨勢雖為上升，但並無太大的增量。依上述所言推斷，在訓練週期增加到30時，可能會有過度適應(Overfitting) 的情況發生，故將訓練週期數測試值集合設定為{8, 10, 20, 25}，批量大小的測試值集合則設定為{8, 10, 20}。

（二） 4到5個主題同步學習

接續前述，為了因應主題數量會影響訓練資料的數量，故4到5個主題同步學習的架構與1到3個主題同步學習的架構之測試值稍有不同，本實驗使用五個主題共同訓練作為範例，如圖 5.14、圖 5.15和圖 5.16所示。

圖 5.14 全部主題之長短期記憶網路的架構比較(Favg)

(Details for this model: Batch_size=10; Epochs=50)

圖 5.15 全部主題之長短期記憶網路的架構比較(準確率)

(Details for this model: Batch_size=10; Epochs=50)

圖 5.16 全部主題之長短期記憶網路的架構比較(損失函數)

(Details for this model: Batch_size=10; Epochs=50)

在4到5個主題同步學習時，由於資料量的增加，則將前述之1到3個主題同步學習的模型架構當作實驗起點(LSTM units 和 Dense units 均為256)，而將全連接層(Dense layer)和記憶層(LSTM layer)的測試值增加至1024個神經元。經過交叉驗證之後，發現當記憶層神經元個數從512到1024時，Favg 曲線有明顯地下降趨勢，在準確率的實驗裡亦有類似的情況，除了全連接層神經元個數為512的曲線有微微上升，其餘兩者的曲線趨勢均是下降，因而可推論出記憶層為1024時可能因為過多的神經元而讓模型的學習產生了反效果，故不選擇記憶層為1024之架構。然而，在三種不同神經元個數的記憶層中，全連接層的神經元個數在 1024時，Favg 和準確率表現最好的組合為搭配512個神經元的記憶層，這個組合在損失函數的曲線上亦有著最低的測試值，則將此架構做為4到5個主題同步學習的實驗架構。

圖 5.17 全部主題之長短期記憶網路的參數比較(Favg)

(Details for this model: Dense_units=512; LSTM_units=512)

圖 5.18 全部主題之長短期記憶網路的參數比較(準確率)

(Details for this model: Dense_units=512; LSTM_units=512)

圖 5.19 全部主題之長短期記憶網路的參數比較(損失函數)

(Details for this model: Dense_units=512; LSTM_units=512)

前述已經介紹了訓練週期數(Epochs)與批量大小(Batch size)，在此也使用同

在文檔中 Twitter使用者之立場偵測：基於目標集子集的分而治技術應用於深度學習方法 (頁 50-60)

第五章 實驗結果與討論

第二節 組合式學習法之模型架構與參數

第五章實驗結果與討論

第二節組合式學習法之模型架構與參數