三維鐵磁性帕茲模型的相變現象

全文

(1)國立臺灣師範大學物理學系研究所碩士學位論文. 指導教授：江府峻教授. Phase Transitions of 3D Ferromagnetic Potts model. 三維鐵磁性帕茲模型的相變現象. 研究生：朱文萍撰. 中華民國 108 年 8 月.

(2) Abstract. This research mainly explores the phase transition of the three-dimensional q -states Potts model. We used Monte Carlo′ s method and combined with the Wolff algorithm to create spin configurations at different temperatures. We analyze whether there is a phase change phenomenon by using the traditional idea and the calculations in multilayer perceptron and convolutional neural network. In the part of the neural network, the ground state in the low temperature is used as the training set, and the critical temperature Tc is analyzed by examining whether there is a phase change phenomenon ⃗ of the last output vector yˆ. This method is not only more through the length |R| efficient than the training set used in other related works but also achieve the same results as known in the literature.. Keyword：Potts model、Phase Transitions、Wolff Algorithm、MLP、CNN.

(3) 摘要. 本次研究主要探討了三維的帕茲模型 (Potts model) 的相變現象。我們使用了蒙地卡羅的方法，搭配 Wolff 演算法製造出不同溫度下的自旋組態，並且透過傳統方法中的能量圖和類神經網絡中的多層感知器和卷積神經網絡的計算來分析是否有產生相變現象。而在類神經網絡的部分，使用了低溫中的基態當作是訓練 ⃗ 來判別臨界溫度 Tc 附近是否有發生相變集，藉由最後的向量輸出yˆ 的長度 |R| 現象。此種做法比起其它相關的類神經網絡在凝態物理的文獻中所使用的訓練集，來得更有效率，並且也可以達到和已知文獻上相同的結果。. 關鍵字：帕茲模型、像變、Wolff 演算法、多層感知器、卷積神經網絡.

(4) 致謝. 本論文可以完成，首要感謝的是我的指導教授江府峻老師。謝謝老師在我這兩年的研究所生涯中，給予很多鼓勵和專業領域上的教導，使我在課業跟專業知識上都受益良多。同時也感謝同實驗室的譚登瑞學長、黃崚瑋學長和李建德學長，適時的給予我意見和幫助，讓我可以順利的完成這篇論文。同時也感謝在口試期間，藍彥文教授、李紀倫教授、在百忙之中能抽空給我專業上的指證與寶貴的評論，使本論文更加完整。. 在研究所兩年的期間，要謝謝張家勳和詹敦浩在課業上給我的幫助和教誨。也謝謝蕭靜瑜、陳漢庭、鄧余平和彭兆宏這些日子的陪伴和支持，讓我度過了快樂又充實的兩年研究所生涯。. 最後我要感謝的是我的家人，謝謝我的父母，當我決心要離職讀研究所的時候，給予我關懷與支持；謝謝我的叔叔，這一路以來不管你在多忙，總是會默默的關心我，給我最大的支持；謝謝我的嬸嬸，在當初考研究所的時候關心並給我打氣，讓我可以順利的進到師範大學就讀。沒有你們給我的這一切，就沒有這兩年精彩的碩士生活，謝謝你們讓我能全新全意完成學業，由衷的感謝你們。. 最後將這篇論文獻給我最愛的家人及朋友，願你們一起與我分享這份喜悅與榮耀。.

(5) Abstract. 摘要致謝目次 Chapter 1. Model: 3D Ferromagnetic Potts model. 1.1. Hamiltonian . . .. 1.2. Phase Transitions . . .. Chapter 2 2.1. Chapter 3. . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . 2. Algorithm. 4. Wolff algorithm . . .. . . . . . . . . . . . . . . . . . . . . . . . . 4. Method. 7. 3.1. 傳統方法 . . .. 3.2. 人工神經網絡方法 . . .. Chapter 4. 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 . . . . . . . . . . . . . . . . . . . . . . 8. 3.2.1. 多層感知器（Multi-layer Perceptron，MLP）. . .. 3.2.2. 卷積神經網路（Convolutional Neural Network, CNN）. . .. 數值結果. . . . . . . . 9 . . . 15 18. 4.1. 傳統方法的數值結果 . . . . . . . . . . . . . . . . . . . . . . . . . 18. 4.2. 類神經網絡的數值結果 . . . . . . . . . . . . . . . . . . . . . . . 20. Chapter 5. Reference. 4.2.1. 多層感知器的分析結果 . . .. 4.2.2. 卷積神經網絡的分析結果 . . .. 討論. . . . . . . . . . . . . . . . . 20 . . . . . . . . . . . . . . . 21 22. 24.

(6) Chapter 1 Model: 3D Ferromagnetic Potts model. 1.1. Hamiltonian. Potts model 是 Ising 模型的推廣，最早是由 Cyrill Domb 所提出，其觀念是從 Ising model 的自旋方向只有同向和反向 (1或 − 1)，推廣成有相同機率指向 q 個方. 向 (1,2,3...q)，q 為自旋組態的數量，並平均分佈在一個圓上，其角度為： θ=. 2πn ,n q. = 0, 1, 2, ....q − 1,. 之後交給其學生 Renfrew Potts 做博士論文研究並以他的名字命名 [1]。 q -state Potts model 的 Hamiltonian 和 Partition Function 的公式如下:. βHg = −β. !. (i,j). Jij δ(si , sj ) − β. Z=. 這裡的 β =. 1 ，k kT. !. !. h i si. i. e−βH. 是波茲曼常數，T 則是溫度。Jij 為晶格點 i 和 j 之間的. 耦合強度，δ(si , sj ) 則為 si 和 sj 的 delta function，若 Jij = J > 0，則為鐵磁性； Jij = J < 0，則為反鐵磁性。hi 為在晶格點 i 處的外加磁場強度，而在本研究中我們設 hi = 0，即假設沒有外加磁場。 Potts 模型在很多領域上都廣泛的應用，例如社交行為 (Social Behavior)、生物膜 (Biological Membranes) 或群鳥 (Flocking birds) 的研究，這些都是屬於複雜性系統 1.

(7) (Complex Systems)，可由鄰近物質之間的交互影響，而從微觀尺度下的模型出發，. 來得到巨觀尺度的現象。. 1.2. Phase Transitions. 而一個系統可以是單相組成也可以是由多相系統所組成，而多相系統中藉由能量之間的轉換，產生不同相態之間的變化就稱之為相變。例如根據 Ehrenfest 的相變分類理論，一階相變為吉布斯能 G(T, P, N ) 對 T （溫度）微分所得的 S（熵）和對 P （壓力）微分所得的體積 V 一階微分不連續。 S = −( ∂G ) V = ( ∂G ) G(T, P, N ) = U + pV − T S , ∂T P,N ∂P T,N 其中 U 是內能且是總粒子數 N 的函數。而二階相變為 Cp（定壓比熱）、κ（等溫壓縮性）和 α（熱膨脹係數）對吉布斯能 G(T, P, N ) 一階微分連續，但二階微分不連續。. Potts model 對於不同的晶格維度和不同的自旋組態 q，會呈現不同的相變模. 式，調整晶格之間的鍵結強度，或改變外加磁場的強度，也都會影響到原本的相變模式。因此在過去這數十年以來，在 Potts model 的相變種類上的轉換上，有非常多的研究。對鐵磁性（Jij = J > 0）的 Potts model 且無外加磁場下而言，在 1973 年 R.J. Baxter [2] 和 F.Y. Wu [3] 推導出在二維的 Potts model q ≤ 4 時為二階. 相變，q ≥ 5 則為一階相變，而從 R. B. Potts 在 1951 發表的論文 [1] 中提到，所有的 q 在相變發生時滿足：. x0 x1. =1+. √. q. x0 = e−H0 β 為晶格內自旋組態有序排列；x1 = e−H1 β 為晶格內自旋組態無序排列由上式可以推得： βc = βc∗ = ln(1 +. 2. √. q).

(8) 並且由 Aharony 和 Pytte 在 1981 年的時候，用平均場理論驗證了在 d > 4 時，q ≤ 2 時為二階相變及 q ≥ 2 時為一階相變的正確性 [4]。之後再經過 [5][6][7]. 的研究發現，當 d = 3 及 q < 3 為會有一個臨界點從二階相變過渡到一階相變，如果畫出一個以 d（維度）為 X 軸，q (自旋組態數) 為 Y 軸的 X − Y 平面. 時，可以簡單的找出一條為 (d, qc (d)) 的函數，當 q(d) > qc (d) 時則為一階相變， q(d) ≤ qc (d) 則是二階相變。上述結果之總結為下圖：. FIG. 1.1. 此圖取自 F. Y. Wu 在 1982 發表的回顧性論文 [3]。以 qc (1) = 6，qc (2) = 4 和. qc (4) = 2 所畫製出來，並且假設 q(3) = 3 時為一階相變。. 3.

(9) Chapter 2 Algorithm 在此論文中，我們利用蒙地卡羅的方式，搭配 Wolff 演算法來產生在特定溫度的自旋組態，並計算出此溫度的能量，進而求出相變點。另一方面我們也把零溫下的狀態作為類神經網絡的訓練集，當網絡訓練完成時把上述產生出來的自旋狀態帶入並以分析，以下先來介紹 Wolff 演算法。. 2.1. Wolff algorithm. 當傳統的 Metropolis 演算法應用在易辛模型（Ising Model）接近 crtical point 時候，會產生效率緩慢，誤差值會越來越大的情形，因此使用群集演算法可增加效率且大幅降低誤差。簡單的來說，群聚演算法會先創造一個聚集，當在翻轉自旋數的時候，會同時翻轉在聚集裡面的晶格點上的自旋，這種方法可以解決 Metropolis 演算法在 crtical point 上面所遇到的問題，而本次研究所使用群集演算. 法是 Wolff 演算法 [8]。 Wolff 演算法一開始先選擇一個晶格點 i 並建立一個聚集，考慮此初始位置前後. 左右相鄰的 j 和 i 的自旋數是否相同，如果自旋數相同時有 Padd 的機率可以丟. 4.

(10) 入聚集裡頭，而沒有被丟入到聚集裡面的機率為 1 − Padd ，如果自旋數不相同時則不用考慮。上述 Padd ＝1 − e−βJ ，其中 β =. 1 T. 為模擬中的溫度之倒數 [9][10]。. FIG. 2.1. 以圓圈那點為初始位置，鄰近. FIG. 2.2. 聚集裡面的自旋組態隨機選擇. 位置相同的自旋組態會有機率加入到聚. 從 1 到 q 選擇一數 k 後，一起翻轉為. 集裡面，如圖的灰底部分。. k。. 上圖 FIG.2.1 和 FIG.2.2 是參考 [8] 而重製。. 當 T 很小 β → ∞ 時，Padd 趨近於 1，則聚集會非常的大，幾乎每個位置的自旋組態每一次都會翻轉；而當 T 很大 β → 0 時，Padd 趨近於 0，則聚集可能只會放入初始所選的晶格點，每次可能只會翻轉到一個位置的自旋組態。因此此種方法在極低溫和及高溫的時候效率並不如 Metropolis 演算法好，但如果 T 落在相變發生的溫度附近時，就可以達到很高的效率和準確度。 Wolff 演算法之運作流程如下 [10]:. · 任意選擇晶格上的任一位置並建立一個聚集。 · 考慮此初始位置前後左右相鄰的自旋數值是否相同，當相同時則此位置有. P = 1 − e−βJ 的機率可以丟入到聚集裡面。. 5.

(11) · 再從聚集內其他還未判斷過的位置出發，重複上述動作，直到聚集內的晶. 格點全部判斷完相鄰的自旋數值是否相同。 · 均勻隨機選擇從 1 到 q 之中的任一數 k。 · 聚集內晶格點上的自旋數全部翻轉成 k。. 完成上述所有動作後，為一次翻轉。並接續上述的第一個動作，重新開始下一個翻轉。而 FIG. 2.1 和 FIG. 2.2 中聚集裡面的自旋組態從 2 翻轉成 5。在原來 Wolff algorithm 方法裡頭自旋組態 2 不能翻轉為 2，但本次計算中可以，這樣的做法並. 不影響其結果。. 6.

(12) Chapter 3 Method. 當透過 Wolff 演算法產生出時間序列的自旋組態後，我們使用傳統的能量分析方法，來判別是否有相變的現象發生。之後我們也搭配類神經網絡中多層感知器網絡和卷積神經網絡來做向量長度的分析，當有一階相變發生時則會看到雙峰現象。在文獻上已經有很多關於上述三種方法的詳細說明，所以在此只會舉出此方法的一些相關知識和實際上的操作步驟。. 3.1. 傳統方法. 由上述已知 q -state Potts model 的 Hamiltonian 的公式如下:. βHg = −β. !. (i,j). Jij δ(si , sj ) − β. !. h i si. i. 而在本研究中假設無外加磁場（hi = 0），且 Jij 為 1，因此 Hamiltonian 可以簡化為：. 7.

(13) Hg = −. !. δ(si , sj ). (i,j). 因此我們可以根據上述公式，畫出關於能量值的蒙地卡羅時間序列，來判別在某個溫度 T 附近是否有相變發生。. 3.2. 人工神經網絡方法. 人工神經網絡又稱為神經網絡（Neural Network，NN），這是科學家透過生物學上對神經系統的研究所得到的啟發，而發展出一套用數學模型來模擬動物的神經系統。生物的神經系統由神經元構成，基本的神經細胞由樹突接收訊號，由細胞核來把資訊做整合後，當接受到的訊號量超過了某個閾值時，細胞體就會產生電流、最後由突觸把訊號傳遞至下一個細胞，而神經網絡就是模擬了神經細胞的訊號接收、整合、和輸出的功能，而本研究中我們使用了多層感知器（Ｍ ulti-layer Perceptron，MLP）網絡和卷積神經網絡 Convolutional Neural Networks，CNN）來. 做分析，並且來比較兩種網絡所得到相變現象的差異為何。. 8.

(14) 3.2.1. 多層感知器（Multi-layer Perceptron，MLP）. 多層感知器（Multi-layer Perceptron，MLP）[11] 是類神經網絡得一種。除了擁有輸入層和輸出層以外，至少包括一個隱藏層。每一層的神經元彼此之間沒有關聯，但跟上下兩層之間的每個神經元都各有連結。之間透過權重的大小，來表達神經元間彼此連結的強弱，進而達到分類的效果。一開始會先擁有一組輸入值（x）和與此數值相對應的的標籤值（ˆ y ），當輸入值帶入到類神經網絡中後，會經過一組權重（Wi,j ）和偏壓（bj ）後帶入激勵函數來判別接受訊號量的大小，之後進行反向傳播來比較輸出值（y）和標籤值（ˆ y ）的差異。整個過程見下圖：. FIG. 3.1. x(0) 代表輸入值，σ 表示激勵函數，y (0) 為輸出值，ˆ y (0) 為相對應的標籤值。在圖. 中，Loss 為損失函數，我們會在後面介紹 loss function。. 最後藉由最佳演化法來把差異調整到最小，進而求得一組訓練完成的權重和偏壓。而在本研究中我們會多加一層隱藏層，也就是多加一組權重和偏壓且有帶入激勵函數，整個網路架構如下圖所示：. 9.

(15) FIG. 3.2. 依據各種模型會使用不同的的激勵函數。而本研究在隱藏層裡使用的激勵函數 f 是 Relu 函數，而輸出層 g 所使用的則是 softmax 函數。. 圖中的損失函數（loss function）為計算輸出值和標籤值的差異程度，而均方誤差（Mean square error）和平均絕對值誤差（Mean absolute error）是在迴歸分析中常用的損失函數。而交叉熵（cross entropy）則通常多用在分類上的問題，本研究所使用的是分類交叉熵（Categorical cross entropy），其定義如下：. L(y(θ, x), yˆ) = −. q !. [yˆi log(y(θ, x))i ]. i=1. 而把損失函數的值最小化的常見方法為梯度下降法 (Gradient Descent, GD)。以下為梯度下降法的原理 (疊代公式) ∂L W = W − γ ∂W. 其中 W 為權重 (weight) 參數，L 為損失函數 (loss function)，γ 是學習率。. 由於梯度下降法容易遇到當樣本數過大時，所消耗的時間就會大幅增加。. 10.

(16) 因此衍生出隨機梯度下降法（Stochastic gradient descent, SGD) [12]，和梯度下降法最大的差別就是在於，隨機把訓練樣本數切成 n 個小等份（mini batch），並依序把每個等分（batch）輸入到類神經網絡中並且計算其損失函數。. 之後從隨機梯度下降法出發，又發展了很多適用於各種網絡的最佳演算法。如：動量法（momentum）[13]、適應性梯度演算法（AdaGrad）[14] 和 RMSprop [15] 等方法。其中以 Adaptive Moment Estimation (Adam) 較為常見的運用. 在各個網絡裡頭。其原理及疊代公式大致如下 [16]：. ∂Lt mt = β1 mt−1 + (1 − β1 ) ∂W t. ∂Lt 2 vt = β2 vt−1 + (1 − β2 )( ∂W ) t. 其中 mt 是梯度的一階動差函數，類似於動量法；vt 是梯度的二階動差函數，類似於 RMSprop。從上式出發，通常會另行定義 m ˆ t 和 vˆt. m ˆt =. mt 1−β1t. vˆt =. mt 1−β2t. 這是因為 m ˆ t 和 vˆt 的初始值為 0，容易使偏差值趨近於 0，因此使用一階和二階的偏差修正來改善這個問題。. 11.

(17) 而從 mt 和 vt ，權重 W 的疊代過程則變為. ˆt W = W − γ √m vˆt +ϵ. 在上式中為了避免分母為零，通常會加上一個很小的數 ϵ（ϵ ∼ 10−8 ）. Adam 上述的運算過程為 Adadelta 和 RMSprop 的衍生。之前提到的梯度下. 降法，容易產生當學習率過小時，需要更多的時間才可以找到最佳解；而當學習率過大，也有可能會造成找不到最好的極值。而 Adam 演算法可以讓每一次的學習率在一個確定的範圍內，讓權重的更新較為平穩，也是在這次的研究中所使用的演算法。由於一開始的輸入值為 T << Tc 時的基態做為 x 的訓練集，當有 q 個自旋數，就擁有 q 個基底，並且對應 q 個正交基底當做標籤值。因此預估當 T >> Tc 時 x 的輸入值最為亂序，所對應的輸出值（y）應為平均分佈，預估的向量值和向量長度如下所示： ⃗ = [1, 1, · · · 1] R q q q ". #$ q. ⃗ = |R|. %. √1 q. 其中 R 為輸出的向量。. 因此在一階相變發生時，輸出向量長度集中落在 1 和當繪製成直方圖時，會出現明顯的雙峰現象 [17] 。. 12. √1 q. 兩者之間，因此.

(18) 這次研究過程架設神經網絡的步驟如下：. · 使用 tensorflow 軟件架構擁有一層隱藏層的類神經網絡。 · 當有 q -state 狀態下以 T << Tc 時的基態做為 x 的訓練集，並且對應的是 q. 個正交基底當做標籤值（ˆ y ），並將各個基態和對應的標籤值各乘以 200 倍。以 q = 3 為例則為：. FIG. 3.3. 此圖是參考 [17] 而重製。. · 對輸入值做獨熱編碼（one-hot encoding) 後輸入到網絡中。 · 且選擇交叉熵當作損失函數的計算方法。 · 之後使用 Adam 最佳演算法來優化損失函數的數值。 · 並記錄下當損失數值最小時的權重和偏值。 · 最後以 Wolff algorithm 所產生出來的自旋組態當作測試集，經上述所記錄. 下的 Weight 和 Bias 做計算後，輸出一組向量並記算其向量長度。 13.

(19) ⃗ 繪製成直方圖，觀察是否有產生雙峰現象。 · 把這組向量長度 |R|. 14.

(20) 3.2.2. 卷積神經網路（Convolutional Neural Network, CNN）. 卷積神經網路（Convolutional Neural Network, CNN），較常使用在影像辨識和訊息分析當中。通常 CNN 網絡會經過卷積層和池化層後，透過平坦層轉換成一維陣列後連接全連階層而做輸出。卷積層可以透過濾波器（Filiter）讓想要強化的特徵更加明顯而將干擾的訊息消除，進而達到去除噪音及銳化的效果，最後通過活化函數輸出至下一層。在運算的過程中會影響輸出的大小有兩種原因；即 padding 和 strides。padding 設定為”SAME” 時，會在邊框外全部補上 0 的數值，這又稱為 zero-padding，這樣的好處是可以不讓靠近外圍的數值特徵被弱化；而設定為”VALID” 時，則會以原本的大小去做 fillter，這種時候輸出的大小就會被縮小，優點是可以讓運算負擔降低，進而縮短運算的時間。. FIG. 3.4. filiter 的大小為 2 × 2 方陣，步長 stride 為 2，padding 為 VALID，此圖是參考 [17] 而重製。. 池化層主要是把輸入資料以 kernel 大小進行分割成數個小等份後，每等份內的數值經由計算整合成一個數，可以達到縮小輸入資料的大小來降低訓練的參數，另一方面可以保留輸入值的主要特徵。最常見的池化方法有以下兩種：最大. 15.

(21) 池化（Max-Pooling）、平均池化（Mean-Pooling）。最大化池化為每小等份裡頭選出裡面的最大值當作輸出值；平均池化為每小等份裡做平均當作輸出值。. FIG. 3.5. 池化 kernel 的大小為 2×2 方陣，步長 stride 為 2，此圖是參考 [17] 而重製。. 做完池化過程後會形成一維以上的陣列，因此在接到全連接成之前，會先把陣列轉換到一維，最後接續全連階層。相當於上一小節提到的多層感知器網絡相同，每一層都含有多個節點，並和上一層以權重和偏壓來做連接計算，最後通過活化函數輸出至下一層。以下是卷積神經網路的操作步驟：. · 對輸入值做獨熱編碼（one-hot encoding) 後輸入到卷積網絡中。 · 卷積濾波器為 q 個大小為 5 × 5 × 5 的卷積核，padding 選擇 SAME，並以 ReLU 函數作為激勵函數。 · 池化層使用平均池化，池化大小為 2 × 2 × 2。 · 最後連接一層全連階層當作輸出層，用 softmax 當作激勵函數。. 16.

(22) · 最後以 Wolff algorithm 所產生出來的自旋組態當作測試集，經上述所記錄. 下的 Weight 和 Bias 做計算後，輸出一組向量並記算其向量長度。 ⃗ 繪製成直方圖，觀察是否有產生雙峰現象。 · 把這組向量長度 |R|. 17.

(23) Chapter 4. 數值結果. 本研究使用 Wolff algorithm 演算法來產生出 q = 5 三維 Potts model 在 L = 8, 12, 16 的不同溫度下的自旋組態，然後再觀察此系統能量 (Energy) 和以人工神經網絡的方式來做分析。以下會分別介紹這兩種方法所求得的結果。. 4.1. 傳統方法的數值結果. 以下是不同的溫度下計算出來的能量. T. β. L=8. L=12. L=16. T < Tc. 1.428. 0.70. ∼ −1130.97. ∼ −3824.19. ∼ −9063.27. T > Tc. 1.515. 0.66. ∼ −551.02. ∼ −1854.45. ∼ −4395.44. 下圖的 FIG.4.1、FIG.4.2 和 FIG.4.3 都是使用傳統方法畫出能量值的蒙地卡羅時間序列分佈情形，並且依序使用 T > Tc 、T ≃ Tc 和 T < Tc 三種不同的溫度所畫出來的能量分佈圖。從 FIG.4.2 可知其相變為一階相變。 18.

(24) FIG. 4.1. 當 T > Tc 此時 L = 12 和 L = 16 都無產生相變的現象發生，此時自旋組態分布較為亂序。. FIG. 4.2. 當 T ≃ Tc 時能量分佈產生一階相變的現象，L = 16 需要比 L = 12 反轉數十倍以上才較容易看到此現象。. FIG. 4.3. 當 T < Tc 此時 L = 12 和 L = 16 都無產生相變的現象發生，此時自旋組態分布接近於基態分佈。. 19.

(25) 4.2. 類神經網絡的數值結果. 當由 Wolff algorithm 演算法產生出來的自旋組態丟入已訓練完成的類神經網絡中後，由於三維 q = 5 的 Potts model 的相變為一階相變, 在 T = Tc 時我們會預測 ⃗ 的長度在 1 和自旋組態對應的輸出向量 R. 4.2.1. √1 q. 會產生極值，並呈現雙峰分佈。. 多層感知器的分析結果. FIG. 4.4. 當 T ≃ Tc ，上面兩張圖都是在各取 10 組 random seed 之後再取平均所得到的數值。. 由 FIG.4.4 可以看得出來，在 q = 5 , L = 12, 16 的情況下，當溫度接近於 Tc 時，都會產生雙峰分佈，此為一階相變的特徵，此結果也和觀測能量所得到的物理結果相同，並且也可以發現產生雙峰分布的部分也趨近於 1 和. √1 ，這和我 5. 們當初預估的數值相同，如果選擇更多 seed 取平均值的話會更接近這兩個數值。. 20.

(26) FIG. 4.5. 上面兩張圖型分別是 L=12 和 L=16 在 T > Tc 時所繪製的向量長度直方圖。. 由上圖 FIG.4.5 可以發現當溫度 T 偏離 Tc 時只能看到一個峰值，則無雙峰現象，並且峰值會落在預估相變之後的向量長度. 4.2.2. √1 5. 附近。. 卷積神經網絡的分析結果. 卷積神經網絡是比多層感知器還要更複雜和精細的系統，因此當輸入的樣本數較少，卷積神經網絡在訓練的過程中雖然算損失函數越降越低但容易出現過適 (overfitting) 的現象，所以在訓練的過程中，要避免讓損失函數降至太低，以免在. 繪製直方圖時會出現其他的干擾數值。FIG.4.6 為 CNN 所得到的結果. 此圖也有明顯的雙峰現象。可知 CNN 和 MLP 一樣能夠用來辨別相變的種類。. FIG. 4.6. 當 T ≃ Tc ，上面兩張圖都是在各取 10 組 random seed 之後再取平均所得到的數值。. 21.

(27) Chapter 5. 討論. 這次我們使用 Wolff algorithm 演算法和類神經網絡來研究三維立方體晶格上的 q -state Potts model 。傳統的 Metropolis 演算法在每次翻轉的時候只會翻轉一個位置上的自旋組態，而對於 Wolff algorithm 演算法而言，則是多個位置上的自旋組態一起翻轉。所以在效率方面可以明顯地感受到後者的演算法會遠大於前者。因此，我們使用了 Wolff algorithm 產生出了自旋組態後，分別計算它的能量和使用類神經網絡的方法來判別三維的 potts 模型的相變情況。由上一節的數值結果中我們使用 Wolff algorithm 產生出了自旋組態後所計算的能量圖上可以觀察到，而在 q =5，L=12 和 L=16 在 T ≃ Tc 時，可以明顯的看到一階相變的情形。而在類神經網絡方面，多層感知器和卷積神經網絡兩者輸出向量長度 R 所做的直方圖中也可以在 Tc 附近發現一階相變的現象發生。但在傳統的能量觀測圖上 L=16 比 L=12 所需時間要多好幾十倍。而另一方面類神經模型在 L=16 時，只需要一萬筆測試集的數據，就可以看到一階相變的情形。並且這種方式相對於其他文獻，使用偏離 Tc 的自旋組態作為訓練集的方法需要更少計算時間，因此可以看出這種訓練集所搭配的人工神經網路可以有效率地降低在研究. 22.

(28) 凝態系統所需用來計算的時間。另外在，多層感知器和卷積神經網絡的結果顯示，雖然兩者都在 Tc 的附近發現雙峰現象，但多層感知器所需要花費的時間相對於卷積神經網路來的更少，且在處理數據所需要的電腦效能來的低，並且在輸出的向量長度圖中雙峰現象比起卷積神經網路簡單明顯，因此可瞭解這種以低溫基態當作訓練集的模型，使用多層感知器可以在更短時間內達到相同的結果。. 23.

(29) Reference [1] R. B. Potts, Some Generalized Order-Disorder Transformations. Mathematical Proceedings of the Cambridge Philosophical Society, 48(1), 106-109. (1951) [2] R. J. Baxter, Potts model at the critical temperature, Journal of Physics C: Solid State Physics, 6, 23 (1973), L445–L448. [3] F.-Y. Wu, The potts model, Reviews of modern physics, 54, 235 –Published 1 January(1982). [4] A. Aharony and E. Pytte, First-and second-order transitions in the Potts model near four dimensions, Phys. Rev. B23, 362-367 (1981). [5] B. Nienhuis, E. K. Riedel, and M. Schick, q -state Potts model in general dimension, Phys. Rev. B, 6055–6060 (1981) [6] M. Fukugita and M. Okawa, Correlation length of the three-state Potts model in three dimensions, Phys. Rev. Lett., 13–15 (1989) [7] O. F. de Alcantara Bonfim, Finite-size effects and phase transition in the threedimensional three-state Potts model, J. Stat Phys (1991) 62: 105. [8] http://latt.if.usp.br/technical-pages/twawesab/Text.html/node1.html 24.

(30) [9] E. Luijten, Introduction to Cluster Monte Carlo Algorithms, Lect. Notes Phys. 703, 13–38 (2006) [10] E. Carlon,. Computational. Physics:. Advanced. Monte. Carlo. Methods.. http://itf.fys.kuleuven.be/~enrico/Teaching/monte_ carlo_2014.pdf. (2012). [11] Sebastian Raschka, Python Machine Learning, Packt Publishing. (2017) [12] Leon Bottou, Stochastic Gradient Descent Tricks, Lecture Notes in Computer Science (LNCS), Neural Networks, Tricks of the Trade, Reloaded (2012) [13] N. Qian, On the momentum term in gradient descent learning algorithms, Neural networks, 12, 1, 145-151 (1999) [14] John Duchi, Elad Hazan, and Yoram Singer, Adaptive subgradient methods for online learning and stochastic optimization, Journal of Machine Learning Research 12 (Jul): 2121–2159 (2011) [15] Geoffrey Hinton, Nitish Srivastava, and Kevin Swersky, Lecture 6e rmsprop: Divide the gradient by a running average of its recent magnitude [16] Diederik P. Kingma and Jimmy Ba, Adam: A Method for Stochastic Optimization, 3rd International Conference on Learning Representations, ICLR 2015,San Diego, CA, USA,Conference Track Proceedings,May 7-9. (2015). 25.

(31) [17] Chien-De Li, Applications of artificial neural networks in physics : a study of the phase transitions of two dimensional Potts models on the quare lattice, NTNU, PHD dissertation. (2018). 26.

(32)