卷積神經網路（Convolutional Neural Network, CNN）

Chapter 3 Method 7

3.2 人工神經網絡方法

3.2.2 卷積神經網路（Convolutional Neural Network, CNN）

卷積神經網路（Convolutional Neural Network, CNN），較常使用在影像辨識和訊息分析當中。通常 CNN 網絡會經過卷積層和池化層後，透過平坦層轉換成一維陣列後連接全連階層而做輸出。

卷積層可以透過濾波器（Filiter）讓想要強化的特徵更加明顯而將干擾的訊息消除，進而達到去除噪音及銳化的效果，最後通過活化函數輸出至下一層。在運算的過程中會影響輸出的大小有兩種原因；即 padding 和 strides。padding 設定為”SAME” 時，會在邊框外全部補上 0 的數值，這又稱為 zero-padding，這樣的好處是可以不讓靠近外圍的數值特徵被弱化；而設定為”VALID” 時，則會以原本的大小去做 fillter，這種時候輸出的大小就會被縮小，優點是可以讓運算負擔降低，進而縮短運算的時間。

FIG. 3.4. filiter的大小為 2 × 2 方陣，步長 stride 為 2，padding 為 VALID，此圖是參考 [17] 而重製。

池化層主要是把輸入資料以 kernel 大小進行分割成數個小等份後，每等份內的數值經由計算整合成一個數，可以達到縮小輸入資料的大小來降低訓練的參數，另一方面可以保留輸入值的主要特徵。最常見的池化方法有以下兩種：最大

池化（Max-Pooling）、平均池化（Mean-Pooling）。最大化池化為每小等份裡頭選出裡面的最大值當作輸出值；平均池化為每小等份裡做平均當作輸出值。

FIG. 3.5. 池化 kernel 的大小為 2×2 方陣，步長 stride 為 2，此圖是參考 [17] 而重製。

做完池化過程後會形成一維以上的陣列，因此在接到全連接成之前，會先把陣列轉換到一維，最後接續全連階層。相當於上一小節提到的多層感知器網絡相同，

每一層都含有多個節點，並和上一層以權重和偏壓來做連接計算，最後通過活化函數輸出至下一層。

以下是卷積神經網路的操作步驟：

· 對輸入值做獨熱編碼（one-hot encoding) 後輸入到卷積網絡中。

· 卷積濾波器為 q 個大小為 5 × 5 × 5 的卷積核，padding 選擇 SAME，並以 ReLU 函數作為激勵函數。

· 池化層使用平均池化，池化大小為 2 × 2 × 2。

· 最後連接一層全連階層當作輸出層，用 softmax 當作激勵函數。

· 最後以 Wolff algorithm 所產生出來的自旋組態當作測試集，經上述所記錄下的 Weight 和 Bias 做計算後，輸出一組向量並記算其向量長度。

· 把這組向量長度 ⃗|R| 繪製成直方圖，觀察是否有產生雙峰現象。

Chapter 4 數值結果

本研究使用 Wolff algorithm 演算法來產生出 q = 5 三維 Potts model 在 L = 8, 12, 16 的不同溫度下的自旋組態，然後再觀察此系統能量 (Energy) 和以人工神經網絡的方式來做分析。以下會分別介紹這兩種方法所求得的結果。

4.1 傳統方法的數值結果

以下是不同的溫度下計算出來的能量

T β L=8 L=12 L=16

T < Tc 1.428 0.70 ∼ −1130.97 ∼ −3824.19 ∼ −9063.27 T > Tc 1.515 0.66 ∼ −551.02 ∼ −1854.45 ∼ −4395.44

下圖的 FIG.4.1、FIG.4.2 和 FIG.4.3 都是使用傳統方法畫出能量值的蒙地卡羅時間序列分佈情形，並且依序使用 T > Tc、T ≃ T^c 和 T < Tc 三種不同的溫度所畫出來的能量分佈圖。從 FIG.4.2 可知其相變為一階相變。

FIG. 4.1. 當 T > T_c 此時 L = 12 和 L = 16 都無產生相變的現象發生，此時自旋組態分布較為亂序。

FIG. 4.2. 當 T ≃ T^c 時能量分佈產生一階相變的現象，L = 16 需要比 L = 12 反轉數十倍以上才較容易看到此現象。

FIG. 4.3. 當 T < T 此時 L = 12 和 L = 16 都無產生相變的現象發生，此時自旋組態分布接近於基態分佈。

4.2 類神經網絡的數值結果

當由 Wolff algorithm 演算法產生出來的自旋組態丟入已訓練完成的類神經網絡中後，由於三維 q = 5 的 Potts model 的相變為一階相變, 在 T = Tc 時我們會預測自旋組態對應的輸出向量 ⃗R 的長度在 1 和 ^√¹_q 會產生極值，並呈現雙峰分佈。

4.2.1 多層感知器的分析結果

FIG. 4.4. 當 T ≃ T^c，上面兩張圖都是在各取 10 組 random seed 之後再取平均所得到的數值。

由 FIG.4.4 可以看得出來，在 q = 5 , L = 12, 16 的情況下，當溫度接近於 T_c 時，都會產生雙峰分佈，此為一階相變的特徵，此結果也和觀測能量所得到的物理結果相同，並且也可以發現產生雙峰分布的部分也趨近於 1 和 √¹

5，這和我

們當初預估的數值相同，如果選擇更多 seed 取平均值的話會更接近這兩個數值。

FIG. 4.5. 上面兩張圖型分別是 L=12 和 L=16 在 T > T_c 時所繪製的向量長度直方圖。

由上圖 FIG.4.5 可以發現當溫度 T 偏離 Tc 時只能看到一個峰值，則無雙峰現象，並且峰值會落在預估相變之後的向量長度 √¹

5 附近。

4.2.2 卷積神經網絡的分析結果

卷積神經網絡是比多層感知器還要更複雜和精細的系統，因此當輸入的樣本數較少，卷積神經網絡在訓練的過程中雖然算損失函數越降越低但容易出現過適 (overfitting) 的現象，所以在訓練的過程中，要避免讓損失函數降至太低，以免在繪製直方圖時會出現其他的干擾數值。FIG.4.6 為 CNN 所得到的結果. 此圖也有明顯的雙峰現象。可知 CNN 和 MLP 一樣能夠用來辨別相變的種類。

FIG. 4.6. 當 T ≃ Tc，上面兩張圖都是在各取 10 組 random seed 之後再取平均所得到的數值。

Chapter 5 討論

這次我們使用 Wolff algorithm 演算法和類神經網絡來研究三維立方體晶格上的 q-state Potts model 。傳統的 Metropolis 演算法在每次翻轉的時候只會翻轉一個位置上的自旋組態，而對於 Wolff algorithm 演算法而言，則是多個位置上的自旋組態一起翻轉。所以在效率方面可以明顯地感受到後者的演算法會遠大於前者。因此，我們使用了 Wolff algorithm 產生出了自旋組態後，分別計算它的能量和使用類神經網絡的方法來判別三維的 potts 模型的相變情況。

由上一節的數值結果中我們使用 Wolff algorithm 產生出了自旋組態後所計算的能量圖上可以觀察到，而在 q=5，L=12 和 L=16 在 T ≃ T^c 時，可以明顯的看到一

凝態系統所需用來計算的時間。

另外在，多層感知器和卷積神經網絡的結果顯示，雖然兩者都在 Tc 的附近發現雙峰現象，但多層感知器所需要花費的時間相對於卷積神經網路來的更少，且在處理數據所需要的電腦效能來的低，並且在輸出的向量長度圖中雙峰現象比起卷積神經網路簡單明顯，因此可瞭解這種以低溫基態當作訓練集的模型，使用多層感知器可以在更短時間內達到相同的結果。

Reference

[1] R. B. Potts, Some Generalized Order-Disorder Transformations. Mathematical Pro-ceedings of the Cambridge Philosophical Society, 48(1), 106-109. (1951)

[2] R. J. Baxter, Potts model at the critical temperature, Journal of Physics C: Solid State Physics, 6, 23 (1973), L445–L448.

[3] F.-Y. Wu, The potts model, Reviews of modern physics, 54, 235 –Published 1 January(1982).

[4] A. Aharony and E. Pytte, First-and second-order transitions in the Potts model near four dimensions, Phys. Rev. B23, 362-367 (1981).

[5] B. Nienhuis, E. K. Riedel, and M. Schick, q-state Potts model in general dimension, Phys. Rev. B, 6055–6060 (1981)

[6] M. Fukugita and M. Okawa, Correlation length of the three-state Potts model in three dimensions, Phys. Rev. Lett., 13–15 (1989)

[7] O. F. de Alcantara Bonfim, Finite-size effects and phase transition in the three-dimensional three-state Potts model, J. Stat Phys (1991) 62: 105.

[8] http://latt.if.usp.br/technical-pages/twawesab/Text.html/node1.html

[9] E. Luijten, Introduction to Cluster Monte Carlo Algorithms, Lect. Notes Phys. 703, 13–38 (2006)

[10] E. Carlon, Computational Physics: Advanced Monte Carlo Methods.

http://itf.fys.kuleuven.be/~enrico/Teaching/monte_

carlo_2014.pdf. (2012).

[11] Sebastian Raschka, Python Machine Learning, Packt Publishing. (2017)

[12] Leon Bottou, Stochastic Gradient Descent Tricks, Lecture Notes in Computer Sci-ence (LNCS), Neural Networks, Tricks of the Trade, Reloaded (2012)

[13] N. Qian, On the momentum term in gradient descent learning algorithms, Neural networks, 12, 1, 145-151 (1999)

[14] John Duchi, Elad Hazan, and Yoram Singer, Adaptive subgradient methods for online learning and stochastic optimization, Journal of Machine Learning Research 12 (Jul): 2121–2159 (2011)

[15] Geoffrey Hinton, Nitish Srivastava, and Kevin Swersky, Lecture 6e rmsprop: Di-vide the gradient by a running average of its recent magnitude

[16] Diederik P. Kingma and Jimmy Ba, Adam: A Method for Stochastic Optimization, 3rd International Conference on Learning Representations, ICLR 2015,San Diego, CA, USA,Conference Track Proceedings,May 7-9. (2015)

[17] Chien-De Li, Applications of artificial neural networks in physics : a study of the phase transitions of two dimensional Potts models on the quare lattice, NTNU, PHD dissertation. (2018)

在文檔中三維鐵磁性帕茲模型的相變現象 (頁 20-0)