• 沒有找到結果。

第五章 實驗結果與討論

第二節 組合式學習法之模型架構與參數

在上一節中已經確定了輸入的句子向量序列格式,本節的實驗由於主題數 量亦會影響訓練資料的數量,則將組合訓練的模型架構分成兩個部分進行實 驗,第一部分是1到3個主題同步學習,第二部分是4到5個主題同步學習,以選 出適當的模型架構與參數。

(一) 1到3個主題同步學習

在圖 3.4所示之 LSTM 架構中,隱藏層的全連接層(Dense layer)和記憶層 (LSTM layer)的神經元個數對整個深度學習模型的性能有很大的影響力,因 此,使用交叉驗證的方式作為指標,比較隱藏層之間 神經元個數的搭配效 果。本實驗使用五個主題之一的無神論(Atheism)作為範例,並以 MITRE 團隊的 記憶層神經元個數128作為實驗起點,逐步增加至512個神經元(發現效能有下降 則停止增加),如圖 5.8、圖 5.9和圖 5.10所示。

圖 5.8 單一主題之長短期記憶網路的架構比較(Favg)

(Details for this model: Batch_size=10; Epochs=20)

圖 5.9 單一主題之長短期記憶網路的架構比較(準確率)

(Details for this model: Batch_size=10; Epochs=20)

圖 5.10 單一主題之長短期記憶網路的架構比較(損失函數)

(Details for this model: Batch_size=10; Epochs=20)

其中,可以發現當記憶層的神經元個數為128時,皆有不錯的效果,但由於 在競賽中得到第一名的 MITRE 團隊(Zarrella & Marsh, 2016)所使用的類神經網路 架構中,記憶層與全連接層的神經元個數相同(均為128),而本研究作為輸入的 句子向量長達10,000維度,推論應需要更龐大的記憶量,且亦有訓練成本之考 量,故選擇記憶層與全連接層相同大小、均為256個神經元的模型架構。觀察圖 5.8、圖 5.9和圖 5.10,當 LSTM units 和 Dense units 均為256時,在 Favg、準確率 和損失函數皆有最好的驗證結果,本研究將此架構作為1到3個主題同步學習的

圖 5.11 單一主題之長短期記憶網路的參數比較(Favg)

(Details for this model: Dense_units=256; LSTM_units=256)

圖 5.12 單一主題之長短期記憶網路的參數比較(準確率)

(Details for this model: Dense_units=256; LSTM_units=256)

圖 5.13 單一主題之長短期記憶網路的參數比較(損失函數)

(Details for this model: Dense_units=256; LSTM_units=256)

如圖 5.11和圖 5.12所示,根據競賽第二名與第八名的 pkudblab 團隊(Wei et al., 2016)和 DeepStance 團隊(Vijayaraghavan et al., 2016)所使用之單一主題訓練方 法的訓練週期數為8到10,因此將8和10納入實驗週期數,然後嘗試著以10個單 位遞增,增加至20時,發現模型的 Favg 與準確率的表現均比前面更好,繼續增 加至30時,則能明顯地看出增量並沒有像10增加到20時這麼多,於是再增加測 試一個中間值25,發現訓練週期數從25到30時,批量大小(Batch size)為20的 Favg 曲線有下降趨勢,而批量大小為8和10的曲線趨勢雖為上升,但並無太大的增 量。依上述所言推斷,在訓練週期增加到30時,可能會有過度適應(Overfitting) 的情況發生,故將訓練週期數測試值集合設定為{8, 10, 20, 25},批量大小的測試 值集合則設定為{8, 10, 20}。

(二) 4到5個主題同步學習

接續前述,為了因應主題數量會影響訓練資料的數量,故4到5個主題同步 學習的架構與1到3個主題同步學習的架構之測試值稍有不同,本實驗使用五個 主題共同訓練作為範例,如圖 5.14、圖 5.15和圖 5.16所示。

圖 5.14 全部主題之長短期記憶網路的架構比較(Favg)

(Details for this model: Batch_size=10; Epochs=50)

圖 5.15 全部主題之長短期記憶網路的架構比較(準確率)

(Details for this model: Batch_size=10; Epochs=50)

圖 5.16 全部主題之長短期記憶網路的架構比較(損失函數)

(Details for this model: Batch_size=10; Epochs=50)

在4到5個主題同步學習時,由於資料量的增加,則將前述之1到3個主題同 步學習的模型架構當作實驗起點(LSTM units 和 Dense units 均為256),而將全連 接層(Dense layer)和記憶層(LSTM layer)的測試值增加至1024個神經元。經過交叉 驗證之後,發現當記憶層神經元個數從512到1024時,Favg 曲線有明顯地下降趨 勢,在準確率的實驗裡亦有類似的情況 ,除了全連接層神經元個數為512的曲線 有微微上升,其餘兩者的曲線趨勢均是下降,因而可推論出記憶層為1024時可 能因為過多的神經元而讓模型的學習產生了反效果,故不選擇記憶層為1024之 架構。然而,在三種不同神經元個數的記憶層中,全連接層的神經元個數在 1024時,Favg 和準確率表現最好的組合為搭配512個神經元的記憶層,這個組合 在損失函數的曲線上亦有著最低的測試值,則將此架構做為4到5個主題同步學 習的實驗架構。

圖 5.17 全部主題之長短期記憶網路的參數比較(Favg)

(Details for this model: Dense_units=512; LSTM_units=512)

圖 5.18 全部主題之長短期記憶網路的參數比較(準確率)

(Details for this model: Dense_units=512; LSTM_units=512)

圖 5.19 全部主題之長短期記憶網路的參數比較(損失函數)

(Details for this model: Dense_units=512; LSTM_units=512)

前述已經介紹了訓練週期數(Epochs)與批量大小(Batch size),在此也使用同

相關文件