國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
Figure 4.5: 最大池化圖示。左側特徵圖每一色塊內的 4 個激活值將由其中最大值取代,新的特徵 圖(右圖)因而變小。池化將在每特徵圖獨立進行。圖取自 [9]。
捲積層之後常接池化層,其運作圖示於圖 4.5。在池化層我們將資料(圖像)
切割成許多小區塊,每一區塊為如 2× 2 的小方塊。我們採用如圖 4.5 所示的「最 大池化」(max pooling),也就是將每一小區塊的所有激活值以其中最大值取代,
如此區塊內的數個神經元將簡化成一個帶最大激活值的神經元。文獻上提到的其 他池化方式包含平均池化(取平均激活值)、L2 池化(取激活值總和的平方根)
等 [15]。
完全連結的神經元層常接在捲積層及池化層後(見圖 4.3 末端),這裡我們將 展開(flatten)神經元成一維陣列,並可再接如上節所描述的多層感知器。
4.3 古典易辛模型相態的分類
這節我們討論使用 MLP 及 CNN 模型根據古典易辛模型的自旋組態預測所 對應的相態之結果。用來預測的自旋模型之邊長為 L = 32 及 L = 128,前者共 N = 1024 個自旋,後者共 N = 16384 個自旋。我們用以訓練的資料(自旋組態)
共 n = 175, 000 筆,涵蓋 35 個溫度值,每個溫度值平分 5000 筆資料。用以預測
(測試)的資料則有 70 筆,分別代表 70 個溫度值;這 70 筆自旋組態均未曾讓神
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
Figure 4.6: 用以訓練古典易辛模型的 MLP 架構。輸入層的神經元數目為自旋個數 L2(本圖以 L = 32 為例),第一層隱藏神經元數目為 64,第二層隱藏神經元數目為 32,第三層隱藏神經元數 目為 8,以上激活函數都採用 ReLU。而最後輸出層為 softmax 層,神經元數目為 2,代表兩種分 類。
0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
T
Tc PM
FM
Figure 4.7: MLP 學習 L = 32 古典易辛模型自旋組態的成果,共 10 次(由上至下)獨立的訓練 及相態分類的驗證。藍色點被分類為有序態(鐵磁態),紅色點被分類為無序態(順磁態)。直的 虛線標示臨界溫度 Tc= 2.269 位置。
經模型訓練過,也就是說,這些對神經模型而言是新資料。神經模型將僅依據自 旋組態來分類相態,溫度值並不揭露給神經模型。對兩種神經模型,選擇的最佳 化方法均為 Adam。
4.3.1 MLP 模型的學習結果
我們使用的 MLP 模型架構如下(圖 4.6):輸入層共 N 個神經元來接收輸 入的 N 自旋狀態,接著三層隱藏層,分別各有 64、32 及 8 個神經元,最後的 輸出層為含兩個神經元的 softmax 層。隱藏層的激活函數採用 ReLU。我們採用
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
T
Tc
PMFM
Figure 4.8: MLP 學習 L = 128 古典易辛模型自旋組態的成果,共 10 次(由上至下)獨立的訓練 及相態分類的驗證。藍色點被分類為有序態(鐵磁態),紅色點被分類為無序態(順磁態)。直的 虛線標示臨界溫度 Tc= 2.269 位置。
另 外, 待 輸 入 的 參 數 為 batch size (m) 及 epochs; 其 中 batch size 用 以 選 擇每次優化的資訊量,一般我們選遠比總資料筆數 n 少的量來分批優化,即 minibatch 的概念。這裡我們設定 m = 64,如此我們共有 2734 束資料。所謂一 個 epoch(期)即利用所有 [n/m] 束資料來完成一次最佳化的過程。m 值若小,
資料束數目則大,一個 epoch 的最佳化過程將較耗時。
因為我們建立的 MLP 模型含有三個隱藏層,涉及的神經元數及權重參數也 多;對於 L = 32,我們僅選擇一個 epoch 即觀察到很好的學習結果,驗證準確度
(validation accuracy)高達 97%。我們將 MLP 測試結果展示在圖 4.7,利用一樣 的參數(epoch、batch size 等)我們共進行 10 次獨立的訓練及驗證,10 次結果 均展示在圖 4.7。歸類為有序態(鐵磁態)以藍色點表示,歸類為無序態(順磁 態)則以藍色點表示;色點的位置依照其溫度值安排。我們可觀察到,僅有極少 數錯位的色點發生在臨界溫度 Tc 附近及低溫 T = 0.4 附近。在臨界點附近,自旋 組態圖可能因有限尺度效應而特徵不明顯,故提高相態辨識的困難度。然而低溫 相態誤判的情形,並沒有顯而易見的解釋。圖 4.8 展示大系統 L = 128 的相態分 類的學習結果,共 10 次結果,每次訓練期為 epochs = 10。同樣地,我們看到臨 界溫度及低溫處(T = 0.55 附近)出現零星色點錯位的情形。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
Figure 4.9: 用以訓練古典易辛模型的 CNN 架構。神經模型除輸入層及輸出層外,包含一捲積層,
給定 32 個 2× 2 捲積核,產生 32 張特徵圖。捲積層後展開神經元成一維陣列,直接連結到含 2 個神經元的輸出層。本例子顯示輸入的自旋組態資料維度為 128× 128 × 1,表示 L = 128 的自旋 模型組態,輸入的組態圖為單色(黑白圖)。
4.3.2 CNN 模型的學習結果
接著我們以 CNN 模型來學習自旋組態,這裡我們使用「淺層」的二維 CNN 模型,除輸入層及輸出層外,僅含一層有 32 個 2× 2 捲積核的捲積層,沒有再加 池化層; 神經模型架構示意於圖 4.9。
圖 4.10 及圖 4.11分別展示對 L = 32 及 L = 128 的相態預測結果,對 L = 32 訓練期同樣為僅 1 個 epoch,對 L = 128 訓練期為 epochs = 10。我們可觀察 CNN 模型的學習結果明顯與 MLP 模型好;圖 4.10 及圖 4.11錯位的色點僅零星 出現在臨界溫度附近,而 MLP 模型在低溫處誤判的情形,在 CNN 模型的成果圖 完全不出現。也就是說,以我們的古典易辛模型為例,所使用的淺層 CNN 模型 優於多層的 MLP 模型。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
T
Tc PM
FM
Figure 4.10: CNN 學習 L = 32 古典易辛模型自旋組態的成果,共 10 次(由上至下)獨立的訓練 及相態分類的驗證。藍色點被分類為有序態(鐵磁態),紅色點被分類為無序態(順磁態)。直的 虛線標示臨界溫度 Tc= 2.269 位置。
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
T
Tc
PMFM
Figure 4.11: CNN 學習 L = 128 古典易辛模型自旋組態的成果,共 10 次(由上至下)獨立的訓 練及相態分類的驗證。藍色點被分類為有序態(鐵磁態),紅色點被分類為無序態(順磁態)。直 的虛線標示臨界溫度 Tc= 2.269 位置。