人工神經網路在物理上的應用：二維正方形晶格上Potts model 相變之研究

全文

(1)國立臺灣師範大學理學院物理學系博士論文 Department of Physics College of Science National Taiwan Normal University Ph.D. Dissertation. 人工神經網路在物理上的應用：二維正方形晶格上 Potts model 相變之研究 Applications of artificial neural networks in physics : a study of the phase transitions of two dimensional Potts models on the square lattice. 李建德 Chien-De Li. 指導教授：江府峻博士 Advisor：Fu-Jiun Jiang, Ph.D. 中華民國一○七年十月 October, 2018.

(2) 摘要這篇論文主要探討了卷積神經網路(convolutional neural network)在二維正方形晶格上的 Potts model 之應用。我們使用卷積神經網路對蒙地卡羅演算法模擬出的自旋狀態加以分析。不同於相關文獻中常用的方法，在本次 ⃗ 研究中，我們使用低溫有序相中的自旋狀態作為訓練集，並以輸出向量𝑂 之長度𝑅做為主要觀測量。藉由此方法，我們得到了和已知文獻上一致的結果。此方法減少了以人工神經網路研究凝態模型時所耗費的計算資源。使用此方式訓練出的卷積神經網路除了可以偵測臨界溫度𝑇𝑐 外，亦可用來辨識相變的類型為一階或二階。. 關鍵字：蒙地卡羅模擬、相變、Potts model、人工神經網路. i.

(3) Abstract This thesis mainly discusses the application of convolutional neural network to the Potts model on the two-dimensional square lattice. We use the constructed convolution neural network to analyze the spin configurations which were obtained by the Monte-Carlo simulations. Our method is different from those used in the related literature. Here, the spin configurations in the ordered phase are empolyed as the training set. In addition, the norm of the output vectors 𝑅 is considered as the main observable. With this method, our determined results are consistent with the known ones in the literature. This method dramatically reduces the computational resources needed to study the condensed matter systems using the artificial neural network. Apart from detecting the critical temperature Tc , the convolution neural network built in our study can also be used to identify the nature of phase transition, namely whether they are first order or second order.. Keywords: Monte Carlo simulations、phase transition、Potts model、artificial neural network. ii.

(4) 內容摘要......................................................................................................................... i Abstract ..................................................................................................................ii Chapter 1. 導論................................................................................................ 1. Chapter 2. 模型................................................................................................ 4. Chapter 3. 研究方法........................................................................................ 8. 蒙地卡羅方法................................................................................................ 9 Metropolis 演算法 ....................................................................................... 14 Swendsen–Wang 演算法 ............................................................................. 15 學習.............................................................................................................. 17 獨熱編碼...................................................................................................... 19 人工神經網路.............................................................................................. 21 多層感知器.................................................................................................. 26 卷積神經網路.............................................................................................. 28 資料集與觀測量|𝑹| ..................................................................................... 31 直方圖方法.................................................................................................. 33 Chapter 4. 數值結果...................................................................................... 34. 蒙地卡羅方法之數值結果.......................................................................... 34 卷積神經網路之數值結果.......................................................................... 36 Chapter 5. 討論.............................................................................................. 38. 附錄...................................................................................................................... 40 參考文獻.............................................................................................................. 42. iii.

(5) Chapter 1 導論受惠於硬體計算機效能的增加及相關演算法的發展，機器學習（machine learning，ML）作為資料分析的工具在近幾年獲得了相當大的進展。例如群集分析（cluster analysis，CA）被用於購物網站上的推薦系統[1]；而人工神經網路（artificial neural network，ANN）可被用於手寫數字之辨識[2]。除了資訊科學領域中常見的問題以外，機器學習在近年來也提供其他學門不同於傳統方法的研究途徑。在化學領域中，支持性向量機（support vector machine，SVM）被用於藥物設計及定量構效關係（Quantitative structure–activity relationship， QSAR）等相關研究上[3]；在車流預測的研究中亦使用了深度學習的技術[4]。在物理上的多體系統中存在多種不同的相，不同相之間的相變過程是凝態領域中重要的研究課題。除了解析的理論分析外，蒙地卡羅（Monte Carlo， MC）[5-8]、精確對角法（exact diagonalization）[9]、隨機級數展開（stochastic series expansion ，SSE）[10]、張量網路（tensor network）[11]等數值方法的發展使物理學者能更深入的理解多體系統。由於機器學習技術的蓬勃發展，物理學家在近年來開始將機器學習的技術運用於相變的相關研究中[12-16]。在稍早的研究中，多數研究使用監督式學習（supervised learning）的方式進行[13, 14]。監督式學習使用帶有標籤的數據集進行訓練。在經過訓練後，可預測未知資料的標籤值。在先前的研究中，經過訓練後的人工神經網路成功的辨別易辛模型（Ising model）中的兩種相態，並具有計算臨界指數（critical exponent）的能力[13]。除此之外，非監督學習（unsupervised learning）也被應用於凝態領域中。. 1.

(6) 例如主成份分析（principal components analysis，PCA）以及自編碼器（autoencoder）被用於易辛模型以及 XY 模型的相變研究中[12, 16]，成功的使人工神經網路在不具備先備知識的情況下也可偵測在參數空間中相變點的位置。在本篇論文中，我們使用監督式學習方式來訓練人工神經網路，使人工神經網路具有偵測相變的能力。一般而言，用人工神經網路以監督學習的方式偵測相變需先使用蒙地卡羅方法生成在不同參數值下的微觀狀態，並將之作為訓練集訓練人工神經網路。以易辛模型為例：Carrasquilla 以及 Melko 把不同溫度下的自旋狀態分為高於臨界溫度以及低於臨界溫度兩類，並以此分類來訓練神經網路[13]。訓練完成的人工神經網路對於高於或低於臨界溫度的自旋組態可清楚分辨這些未知的輸入組態是處於低溫有序相，或是高溫無序相。值得一提的是，當人工神經網路難以分辨輸入組態時，則該輸入組態是處於臨界溫度。前段所述的方法使用上相當直觀，且具有計算臨界指數的能力，因此在近來作為研究手段被廣為接受，但它仍有其限制。為了使人工神經網路對未知的自旋狀態有足夠好的預測能力，需要大量處於有序及無序相的自旋狀態作為訓練集，因此訓練所需的計算資源較傳統的研究方式大上許多。「能否在減少訓練集的情況下，使人工神經網路保持辨別相變及其種類的能力？」便成為一個重要的課題，在本次研究中我們嘗試了另一種不同的作法來探討這個問題。這篇論文中主要的研究對象是二維正方形晶格上的鐵磁性 Q-state Potts model。Q-state Potts model 是易辛模型的推廣[17]。不同於易辛模型，Q-state Potts model 在每個晶格點上能夠有 Q 種不同的狀態。Q-state Potts model 依據交互作用參數之正負號可分為兩類：鐵磁性（ferromagnetism）Q-state Potts model 以及反鐵磁性（antiferromagnetism）Q-state Potts model。反鐵磁 Q-state Potts model 中每個晶格點上的自旋值傾向和其鄰近格點上的 2.

(7) 自旋值相異。反鐵磁 3-state Potts model 的行為尤其特別，根據文獻指出：反鐵磁 3-state Potts model 在二維正方形晶格上的臨界溫度為Tc = 0；而三維立方晶格上的反鐵磁 3-state Potts model 的相變類型和三維 XY 模型屬於同一種類型的相變[18, 19]。鐵磁性 Q-state Potts model 中每個晶格點上的自旋值傾向和其鄰近格點上的自旋值相同。對於不同的 Q 值而言，鐵磁性 Q-state Potts model 存在兩種不同的相變類型，分別是一階和二階相變，這兩種相變類型可以使用直方圖法進行區分[20]。不同於一般以臨界溫度作為分類基準的方法，本次研究中我們使用人造的 ⃗ 的長度 R 低溫有序相的自旋狀態作為訓練集，使用人工神經網路輸出向量 ⃗O 作為主要觀測量，並和傳統方法進行比較。此方法有效的降低訓練集的大小，利用 R 的直方圖，訓練完的人工神經網路亦有辨別相變種類為一階或二階的能力。為了驗證人工神經網路和傳統方法具有相同的能力，在這次的研究中我們分別實作這兩種方法，並將結果進行比對。本論文的編排如下：第二章簡介在這次研究的模型即二維鐵磁性 Q-state Potts model。第三章我們將描述在研究中所使用的相關技術與方法，其中關於蒙地卡羅方法及人工神經網路的介紹是參考文獻[2, 7]的內容。第四章則呈現利用傳統方法以及人工神經網路所得到的結果，在這章節的結果也發表於相關期刊[14]。第五章是結論與討論。另外，除了有特別指出外，本論文所提到的 Qstate Potts model 都是指鐵磁性 Q-state Potts models。. 3.

(8) Chapter 2 模型 Q-state Potts model 是將易辛模型（Ising model）可取之自旋值數量從兩個（1 或-1）增加至 Q 個（1、2、3……Q）的推廣。Potts model 最早由 Cyril Domb 所提出，並交由其學生 Renfrew Potts 作為論文題目進行研究並以此而命名[17]。 Q-state Potts model 的 Hamiltonian 如下式： 𝛽𝐻 = −𝛽 ∑ 𝐽𝑖𝑗 𝛿𝜎𝑖 ,𝜎𝑗 − 𝛽 ∑ ℎ𝑖 σi ⟨𝑖,𝑗⟩. (2-1). 𝑖. 其中𝛽是溫度𝑇之倒數，⟨𝑖, 𝑗⟩代表晶格上最鄰近的兩個晶格點𝑖, 𝑗，𝐽𝑖𝑗 為晶格點𝑖和 j之間的自旋-自旋交互作用之耦合強度，ℎ𝑖 為在晶格點𝑖處的外加磁場強度，𝜎𝑗 為在𝑗點上的 Potts variable，其形式如下： 𝜎𝑗 = exp (𝑖. 2𝜋𝑠𝑗 ) , 𝑠𝑗 = 1, 2, 3, … , Q 𝑄. (2-2). 在此系統中的磁化強度𝑚之定義為： 𝑚=. 1 ∑ 𝜎𝑖 𝐿2. (2-3). 𝑖. 若𝐽𝑖𝑗 = 𝐽 > 0 ，系統為鐵磁性；若𝐽𝑖𝑗 = 𝐽 < 0，則系統為反鐵磁性。. Q-state Potts model 以其豐富的臨界行為著稱。對於不同的晶格維度𝑑以及其可取值的數量 Q，Q-state Potts model 會呈現兩種不同的相變模式。若在晶格中隨機調整其鍵結強度、外加磁場強度，其相變類別亦會有所改變。承前段，Q-state Potts model 在不同的 d 以及 Q 的情況下，會呈現不同的相變種類。也就是說，相變類型可以視為 d 及 Q 之函數，這裡定義一臨界分量數 𝑄𝑐 (𝑑)，高過於此數值者為一階段相變，而小於或等於此數值者則為二階相變。在早期的平均場理論研究中指出當𝑄 ≥ 3時，鐵磁性 Potts model 在無外加 4.

(9) 磁場下為一階相變，此特性和維度𝑑無關[21]；然而在 1973 年，Baxter 指出𝑑 = 2的 Q-state Potts model 和 staggered ice-type model 等價[22]，因此在𝑞 > 4時是屬於一階相變，並預測 Q-state Potts model 的臨界溫度𝑇𝑐 為 𝑇𝑐 =. 1 ln(1 + √𝑄). (2-4). 而此結果亦由 Binder 使用蒙地卡羅方法所證實[23]。對於三維的系統，Rudnick 使用重整化群（Renormalization group，RG）方法預測𝑑 = 3, 𝑄 = 3的 Potts model 屬於一階相變[24]，而隨後蒙地卡羅以及 VRG（variational renormalization group）方法亦得出相同的結論[25-27]。除此之外，對於更高維度之系統，VRG 方法指出Q ≥ 2為一階段相變[28]。Wu 在其回顧性論文中[17]對上述結果進行統整，而得到以下之圖形：. Fig. 2.1 Potts model 之相變類型示意圖（取自 Wu（1982），The Potts model）。. 除了鐵磁性 Q-state Potts model 外，反鐵磁性 Q-state Potts model 也是相當有意思的研究題目。對於反鐵磁性 Q-state Potts model 而言，每個格點上的自旋. 5.

(10) 值傾向和鄰近格點的自旋值不同。當 Q 值非常大時，在任何溫度𝑇下，系統的 correlations 均呈現指數衰減[29]，即使是在零溫下系統仍是呈現無序的狀態。此一性質相當的直觀：當𝑄 ⟶ ∞時，每個格點可選取的的自旋值接近於連續隨機變數，兩格點上依連續型均勻分布選取到相同自旋值的機率趨近於 0。而此現象亦有嚴格的證明[30]。對於較小的𝑄值，情況則有所不同。Baxter 於 1982 年的論文中[31] 指出二維反鐵磁性 Potts model 的臨界溫度可以精確的用下式來表述： 2. (e−𝛽𝑐 + 1) = 4 − 𝑄. (2-5). 由此式可以看出，在 Q= 3時臨界溫度為零；在 Q< 3時具有有限溫度之臨界溫度。除解析的預測之外，此結果亦由蒙地卡羅方法以及 phenomenological renormalisation group 等數值方法驗證為正確的[8, 32]。對於三維的反鐵磁性 3-state Potts model，Ono 在 1986 年發表的論文中指出[33]在立方晶格的情況下，相變的種類和三維 XY 模型相同。隨機鍵結模型在 Potts model 的相關研究中也是相當常見的題目。S. Chen 在已知相變類型為一階相變的𝑄 = 8鐵磁性 Potts model 中隨機使用兩種鍵結強度，發現其相變類型會轉變為二階相變[34]。 Potts model 也被用於複雜網路（complex networks）以及生物模擬等相關研究上，對於採用不同的 degree distribution，其相變種類會有所改變。在 S.N. Dorogovtsev 的論文中有提到，當在 random Bethe lattices 上的 degree distribution 為肥尾分布時，系統的相變會趨於連續[35]。由於 Q-state Potts model 具有如此多樣化的臨界行為，因此在使用不同的方法探索相變理論時，Q-state Potts model 是一個很適合的模型。在這次的研究中，我們使用二維鐵磁性無外加磁場的 Q-state Potts model 作為研究的對象。當 6.

(11) 溫度𝑇 ≪ 𝑇𝑐 時，晶格點上的 Potts variable 傾向和其鄰近之格點有相同的數值，此時⟨|𝑚|⟩也接近於 1；當𝑇 > 𝑇𝑐 時，晶格點間的 Potts variable 則無此關係，每個格點上的 Potts variable 會均勻隨機取1, 2, 3, … Q這些正整數中之任一數值，此時⟨|𝑚|⟩會趨近於 0。此特性會隨著晶格大小𝐿的增加而更加明顯。. 7.

(12) Chapter 3 研究方法在這次的研究中我們使用了卷積神經網路來研究正方形晶格上的 Potts model。特別是我們把零溫的自旋狀態作為訓練集。而在有限溫度的自旋狀態則是使用 Swendsen-Wang 演算法產生，並利用訓練完成的神經網路對這些自旋狀態進行分析。在接下來的幾個小節中，我們將會介紹這次研究中使用的方法，以及其相關的背景知識，包含蒙地卡羅方法、Metropolis 演算法、SwendsenWang 演算法、感知器、多層感知器、卷積神經網路、直方圖方法以及資料集的標註方式。. 8.

(13) 蒙地卡羅方法蒙地卡羅方法（Monte-Carlo method，MC method）是一種透過多次隨機取樣求得數值結果的演算法。蒙地卡羅方法又被稱為隨機模擬方法，最早可追溯至 18 世紀法國數學家 Buffon 所提出的投針求𝜋問題，由於當時沒有計算機，因此這類方法並沒有獲得太多應用的機會。現代基於馬可夫過程的馬可夫鏈蒙地卡羅方法（Markov chain Monte Carlo，MCMC）直到二戰時期才被 Stanislaw Ulam 提出，並以蒙地卡羅（摩納哥大公國的一座城市，以大賭場聞名）命名，隨後被廣泛的應用於金融、生物以及資訊科學等各領域。在物理學上，蒙地卡羅方法多應用於統計力學中。從統計力學的觀點來看，一個處於特定熱力學參數下的多體系統可以有許多種微觀狀態。Gibbs 在 1902 年指出，當一個與熱庫達成熱平衡的系統的溫度為𝑇時，系統處於任意微觀狀態𝜇的機率為 𝑝𝜇 =. 1 −𝐸 /𝑘 𝑇 1 −𝛽𝐸 𝑒 𝜇 𝐵 = 𝑒 𝜇 𝑍 𝑍. (3-1). 上式中的𝐸𝜇 為微觀系統𝜇之能量，𝑘𝐵 為波茲曼常數（Boltzmann constant），其數值為1.38064852 × 10−23 𝐽 ⋅ 𝐾 −1 ，𝑇為溫度，一般常將1/𝑘𝐵 𝑇簡寫為𝛽，𝑍為配分函數（partition function）： Z = ∑ 𝑒 −𝛽𝐸𝜈. (3-2). 𝜈. 其中𝜈表示所有可能的微觀狀態。這樣的機率分佈被稱為波茲曼分佈（Boltzmann distribution），而𝑒 −𝛽𝐸𝜇 被稱為微觀狀態𝜇的波茲曼權重（Boltzmann weight）。測量一巨觀系統的物理量𝑂則意味著測量每個微觀狀態下的物理量 𝑂𝜇 ，並按波茲曼權重對其取期望值：. 9.

(14) ⟨𝑂⟩ =. 1 ∑ 𝑂𝜇 𝑒 −𝛽𝐸𝜇 𝑍. (3-3). 𝜇. 然而，「測量所有微觀狀態下的觀察量」這件事是難以達成的。以二維 2-state 2. Potts model 為例，微觀狀態的數量為2𝐿 ，在文獻中[7]有提及，𝐿 = 5約花費 8 小時才完成測量，當 L 增加至 6 時，計算時間將會成長至原本的 2048 倍，如此曠日費時的計算量顯然是無法被接受的。幸運的是，和選舉民調不需要做普查相同，想得到足夠可信的物理量並不需要窮舉所有的微觀態，我們需要的是對微觀態進行隨機取樣，並計算相應的物理量，這個過程可以下式描述 𝑂𝑀 =. −𝛽𝐸𝜇𝑖 −1 ∑𝑀 𝑖=1 𝑝𝜇𝑖 𝑂𝜇𝑖 𝑒 −𝛽𝐸𝜇𝑖 −1 ∑𝑀 𝑖=1 𝑝𝜇𝑖 𝑒. (3-4). 𝑂𝑀 為取樣次數𝑀次所得之算數平均值，𝑝𝜇𝑗 為取樣時挑選到微觀態𝜇𝑗 的機率，簡而言之，便是「怎麼選」微觀態。當選取到合適的𝑝𝜇𝑗 時，根據統計學的大數定律，若取樣次數𝑀趨近於無窮大，則𝑂𝑀 ⟶ ⟨𝑂⟩。而這類基於多次隨機取樣來估算期望值的方法便是所謂的蒙地卡羅方法。在蒙地卡羅方法中選取樣本的方式，也就是𝑝𝜇𝑗 ，是演算法中最重要的一環。取樣的方式得當，少量的樣本也可以獲得趨近於期望值的結果；取樣的方式不恰當，則可能在經歷非常多次的取樣後也得不到可信的估算值。因此「怎麼選」可說是蒙地卡羅演算法中最核心的部分了。選擇𝑝𝜇𝑖 的方式有很多種，其中常見的作法為重要性取樣法（importance sampling）。重要性取樣法的精神在於依樣本個別的權重進行取樣。以⟨𝑂𝑀 ⟩為例，當𝑝𝜇𝑖 = 𝑍 −1 𝑒 −𝛽𝐸𝜇𝑖 時，此式可簡化成： 𝑀. 1 𝑂𝑀 = ∑ 𝑄𝜇𝑖 𝑀. (3-5). 𝑖=1. 藉由使用重要性取樣方法，可以直接將波茲曼權重納入取樣的過程中，降低對 10.

(15) 統計結果影響較小（波茲曼權重較小）的狀態的取樣次數，增加對統計結果影響較大（波茲曼權重較大）的狀態的取樣次數，從而提高取樣的效率，避免在不重要的樣本上花費太多時間。然而重要性取樣也造成了新的問題：計算𝑝𝜇𝑖 需要配分函數𝑍來作為歸一化常數。在蒙地卡羅演算法中引入馬可夫鏈可以省去記算配分函數的過程。馬可夫鏈是一種遵守馬可夫性質的隨機過程。遵守馬可夫性質意味著下一個狀態的條件機率和過去的歷史無關。也就是說，給定當前狀態𝜇𝑖 的情況下，系統轉移至任意狀態𝜇𝑗 的轉移機率（transition probability）𝑃(𝜇𝑖 → 𝜇𝑗 )僅和狀態 𝜇𝑖 以及𝜇𝑗 有關，且轉移機率𝑃(𝜇𝑖 → 𝜇𝑗 )需滿足機率守恆條件： ∑ 𝑃(𝜇𝑖 → 𝜇𝑗 ) = 1. (3-6). 𝑗. 這一連串由初始狀態𝜇0 轉移至𝜇1 ，再轉移至𝜇𝑘 , … , 𝜇𝑀 的隨機過程即是馬可夫鏈。轉移機率可以寫作矩陣的形式： 𝑃1,1 𝐏=[ ⋮ 𝑃1,𝑁. ⋯ ⋱ ⋯. 𝑃𝑁,1 ⋮ ] 𝑃𝑁,𝑁. 𝐏𝑖,𝑗 = 𝑃(𝜇𝑖 → 𝜇𝑗 ). (3-7) (3-8). 而系統處於任意狀態的機率可以用一行向量表示： 𝑤1 (𝑡) 𝐰(𝑡) = [ ⋮ ] 𝑤𝑁 (𝑡). (3-9). 上式中的𝑤𝑖 (𝑡)表示系統在經過𝑡次轉移後處於第𝑖個狀態的機率，𝑡表示轉移的次數。馬可夫鏈的更新過程可表示成下列形式： 𝐰(𝑡 + 1) = 𝐏 ⋅ 𝐰(𝑡). (3-10). 當狀態的機率不再改變時，亦即𝐰(𝑡 + 1) = 𝐰(𝑡)時，代表系統處於平衡狀態， 11.

(16) 此時穩定分布的狀態𝛑，為轉移矩陣𝐏的特徵向量 (3-11). 𝛑 = 𝐏𝛑. 馬可夫鏈蒙地卡羅的主要精神是藉由模擬馬可夫過程，使取樣時各微觀態出現的機率在經過有限次數的迭代後，收斂至波茲曼分佈𝑝𝜇𝑖 = 𝑍 −1 𝑒 −𝛽𝐸𝜇𝑖 。然而，上段中的資訊僅描述了系統處於平衡態之條件，並不保證從任意初始狀態皆可收斂至平衡態。欲達到平衡態，轉移矩陣需滿足另一項條件：細緻平衡（detailed balance）。細緻平衡條件的數學形式如下： 𝑃(𝜇𝑖 → 𝜇𝑗 ) 𝑃(𝜇𝑗 → 𝜇𝑖 ). =. 𝑝𝜇𝑗 𝑝𝜇𝑖. =𝑒. −𝛽(𝐸𝜇𝑗 −𝐸𝜇𝑖 ). (3-12). 除細緻平衡條件外，欲使馬可夫鏈蒙地卡正確的進行取樣尚需遵守歷遍性（Ergodicity）條件。歷遍性條件要求：當系統達平衡狀態後，任意狀態𝜇𝑖 在經過有限次的轉移後，要能達到另一個任意狀態μ𝑗 。總結前段所述，一個可行的馬可夫鏈蒙地卡羅方法需滿足細緻平衡條件以及歷遍性條件。細緻平衡條件要求轉移矩陣𝐏的任意元素Pi,j與𝑃𝑗,𝑖 的比值需等於狀態𝜇𝑗 和𝜇𝑖 的波茲曼權重之比值。歷遍性條件要求在有限的𝑛次轉移中，系統有機會從狀態𝜇𝑖 轉移至另一個狀態𝜇𝑗 ，該條件的數學形式如下： (𝐏 𝑛 )𝑖,𝑗 ≠ 0. (3-13). 由於細緻平衡條件僅約束兩狀態間的轉移機率之比值，避免了計算配分函數的困境。實務上馬可夫鏈蒙地卡羅方法會將𝑃(𝜇𝑖 → 𝜇𝑗 )切分成兩個部分： 𝑃(𝜇𝑖 → 𝜇𝑗 ) = 𝑔(𝜇𝑖 → 𝜇𝑗 ) 𝐴(𝜇𝑖 → 𝜇𝑗 ). (3-14). 上式中的𝑔(𝜇𝑖 → 𝜇𝑗 )為選擇機率，代表在狀態𝜇𝑖 時挑中狀態𝜇𝑗 作為馬可夫鏈下一個狀態之候選狀態的機率；𝐴(𝜇𝑖 → 𝜇𝑗 )為接受機率，為確定接受候選狀態𝜇𝑗 作為 12.

(17) 下一個狀態的機率。藉由引入選擇機率以及接受機率，馬可夫鏈蒙地卡羅方法可依以下流程進行狀態轉移：（1）基於當前狀態𝜇𝑖 ，依選擇機率𝑔(𝜇𝑖 → 𝜇𝑗 )選擇一個狀態𝜇j 作為新狀態的候選狀態。（2）依接受機率𝐴(𝜇𝑖 → 𝜇𝑗 )決定是否採用𝜇𝑗 作為新的狀態，如採用，則將狀態轉移至𝜇𝑗 ，如不採用，則維持狀態𝜇𝑖 。絕大多數的馬可夫鏈蒙地卡羅方法均採取前段所敘述的策略進行取樣。不同馬可夫鏈蒙地卡羅方法之間最大的差異在於生成新狀態的方式，也就是選擇機率𝑔(𝜇𝑖 → 𝜇𝑗 )以及接受機率𝐴(𝜇𝑖 → 𝜇𝑗 )。採取不同生成方式的馬可夫鏈蒙地卡羅方法各有其優缺點，適用範圍也不同，這使得馬可夫鏈蒙地卡羅方法得以成功得應用至各種不同的領域中。在接下來的小節中將會介紹兩種常見於凝態研究中的馬可夫鏈蒙地卡羅方法，分別是 Metropolis 演算法以及 Swendsen–Wang 演算法，特別是我們會考慮古典自旋系統，並且介紹如何應用馬可夫鏈蒙地卡羅方法於這些系統上。. 13.

(18) Metropolis 演算法 Metropolis 演算法是最知名、應用最廣範的馬可夫鏈蒙地卡羅方法。它在 1953 年由美國物理學家 Nicholas Metropolis 以及其同事們所提出[36]。Metropolis 演算法以它簡潔、容易理解的特性而聞名，因此當人們在學習蒙地卡羅方法、理解在前一小節中提到的概念時，實作 Metropolis 演算法幾乎是必經的練習。在這小節中我們將簡短的介紹 Metropolis 演算法。 Metropolis 演算法滿足前一小節中提到的細緻平衡與歷遍性兩條件。歷遍性強調經過有限次的轉移後系統能從狀態𝜈轉移至另一個狀態𝜇，為了滿足歷遍性條件，選擇新狀態𝜇的方法是一大重點。Metropolis 演算法使用的方式是所謂的局域更新（local update），或單自旋更新（single-spin update）方法。局域更新方法以當前狀態𝜈為基礎，在𝑁個晶格點中隨機挑選一個，並改變其自旋值後作為新狀態𝜇，隨後依機率接受／駁回更新。Metropolis 演算法的選擇機率為： 𝑔(𝜇𝑖 → 𝜇𝑗 ) =. 1 𝑁. (3-15). 為符合細緻平衡條件，(3-14) 式在代入上式後變成： 𝑃(𝜇𝑖 → 𝜇𝑗 ) 𝑃(𝜇𝑗 → 𝜇𝑖 ). =. 𝑔(𝜇𝑖 → 𝜇𝑗 )𝐴(𝜇𝑖 → 𝜇𝑗 ) 𝑔(𝜇𝑗 → 𝜇𝑖 )𝐴(𝜇𝑗 → 𝜇𝑖 ). =. 𝐴(𝜇𝑖 → 𝜇𝑗 ) 𝐴(𝜇𝑗 → 𝜇𝑖 ). =. 𝑝𝜇𝑗 𝑝𝜇𝑖. =𝑒. −𝛽(𝐸𝜇𝑗 −𝐸𝜇𝑖 ). (3-16). 基於上式，Metropolis 演算法中使用了這樣的接受機率： 𝐴(𝜇𝑖 → 𝜇𝑗 ) = min(1, 𝑒. −𝛽(𝐸𝜇𝑗 −𝐸𝜇𝑖 ). Metropolis 演算法的過程為： 1.. 選定初始狀態𝜇0. 2.. 依𝑔(𝜇𝑖 → 𝜇𝑗 )抽選一晶格點. 3.. 改變該晶格點的自旋值作為新狀態𝜇1 14. ). (3-17).

(19) 4.. 計算𝜇0 及𝜇1 之能量. 5.. 依接受機率𝐴(𝜇𝑖 → 𝜇𝑗 ) = min(1, 𝑒. 6.. 重複步驟 1. ~ 5.. −𝛽(𝐸𝜇𝑗 −𝐸𝜇𝑖 ). )決定是否更新狀態. Swendsen–Wang 演算法 Swendsen–Wang 演算法是由 Robert H. Swendsen 與王建生在 1987 年所提出的蒙地卡羅演算法[37]。因其效能較局域更新蒙地卡羅演算法（如 Metropolis 演算法）高上許多而被廣泛採用於古典凝態系統的相關研究中。由於在模擬時會將鄰近晶格點加入叢集（cluster）中，並同時改變位於同一個叢集中晶格點所帶的自旋值，因此此方法又稱為叢集蒙地卡羅演算法。 Swendsen–Wang 演算法之運作流程如下[37-39]： 1.. 在所有相鄰且具有相同自旋值的晶格點間依照機率𝑝 = 1 − exp(−𝛽)生成鍵結，其中𝛽為溫度𝑇之倒數。如果可從一晶格點𝑖透過數個鍵結與晶格點𝑗相連接，則晶格點𝑖, 𝑗處於同一個叢集中（見 Fig. 3.1）。. 2.. 將處於相同叢集中的晶格點之自旋值均勻隨機的改變至{1, 2, 3 … … 𝑄} 之間的任意數值。重複此一過程直到所有叢集均被考慮過（見 Fig. 3.2）。. 3.. 清除所有的鍵結，回到步驟 1.。. 15.

(20) Fig. 3.1 二維正方形晶格 Potts model 在週期性邊界條件下組成 clusters 的示意圖。各個相鄰且具有相同自旋值的晶格點依照機率 p=1-exp(-β)生成鍵結。上圖中紅、綠、藍三色分別代表自旋值為 1、2、3，其中紫色框線所圍起的範圍即是 cluster。. Fig. 3.2 二維正方形晶格 Potts model 在週期性邊界條件下改變 cluster 之結果示意圖。上圖中紅、綠、藍三色分別代表自旋值為 1、2、3，其中紫色框線所圍起的範圍即是 cluster。由 Fig3.1、Fig3.2 可觀察到，有些 clusters 中的自旋值維持不變。. 16.

(21) 學習「學習」（或稱訓練）在機器學習領域中指的是電腦藉由演算法對資料集進行分析，並調整數學模型的參數，使模型逐漸能對未知資料進行預測的歷程。學習大略可以分為兩種類型，分別是「監督學習」及「非監督學習」二類。「監督學習」在學習過程中會提供輸入值及與其對應的標籤值（或稱真值），監督學習大多用於分類、回歸問題中；「非監督學習」則不提供標籤，僅提供輸入值，多用於處理聚類分析等問題。本次研究中使用的方法為監督學習。如前段所述，監督學習會提供輸入值與標籤，在學習過程中，會先將輸入值輸入模型、計算輸出值，並比較輸出值和標籤差異大小，藉由最佳化演算法調整模型中的參數，使數學模型的輸出值趨近於標籤值。估計輸出值和標籤相異的程度的函數被稱為損失函數𝐿（loss function）或成本函數（cost function）。均方誤差（mean squared error，MSE）是常用於回歸分析的一種損失函數，其函數定義如下：. MSE(𝑦(𝛉, 𝐱), 𝑦̂) = (y(𝛉, 𝐱) − 𝑦̂)2. (3-18). 上式中𝛉是模型中所有可供調整的參數（如：感知器中的權重、偏壓，這部分會在後續小節中提到）；𝐱是輸入值；𝑦是模型的輸出值且為輸入值和（可調）參數的函數；𝑦̂是標籤值。多分類問題通常使用具有 Q 分量的向量作為輸出（Q 為分類的數量），在此情況下多會採用交叉熵（cross entropy）作為損失函數[40]，交叉熵的定義如下： 𝑄. ̂) = − ∑[𝒚 ̂𝑖 log(𝒚(𝛉, 𝐱)𝑖 ) + (1 − 𝒚 ̂𝑖 )log(1 − 𝒚(𝛉, 𝐱)𝑖 )] 𝐿(𝒚(𝛉, 𝐱), 𝒚. (3-19). 𝑖=1. 最佳化演算法的功能為調整模型中的參數，使損失函數最小化。常見的最 17.

(22) 佳化演算法為隨機梯度下降法（stochastic gradient descent，SGD）[41]。隨機梯度下降法的運作流程如下： 1.. 隨機將訓練集切分為數個含有𝑛個樣本的「小批（mini batch）」。. 2.. 將小批中的資料輸入模型，並估算損失函數𝐿。. 3.. 計算損失函數對人工神經網路中可調整的參數𝛉之梯度∇𝛉 𝐿。. 4.. 將 3. 的結果乘以學習率λ來更新人工神經網路之參數值 𝛉 = 𝛉 − λ∇𝛉 𝐿。. 5.. 回到 2. 直到所有小批均被使用過為止。. 受隨機梯度下降法的啟發，電腦科學家們又發展出許多適用於人工神經網路的最佳化演算法，如：自適應時刻估計（Adaptive Moment Estimation， Adam）[42]、動量法（momentum）[43]以及 Adagrad[44]等方法，其中又以 Adam 在各種實際應用中效果最佳。在這次的研究中，我們使用 cross entropy 作為損失函數，Adam 作為最佳化演算法。. 18.

(23) 獨熱編碼獨熱編碼（one-hot encoding）是在機器學習領域中常使用的資料預處理技巧。獨熱編碼最主要的功用是將無序分類變數1以向量的格式來表述。以職業為例，古人將人民所從事之職業大略分為士農工商四種類別。到了現代仍有人以此作為粗略的分類方式來使用，此四類職業各具特色，並無高下優劣之分，無法以一特定的分數作為分類基準。對於這種無法以單一連續數值進行分類者，便應使用獨熱編碼，才能正確表述其非連續的自然特性。下表為將職業進行獨熱編碼後的結果：職業別. 獨熱編碼. 士. ［1, 0, 0, 0］. 農. ［0, 1, 0, 0］. 工. ［0, 0, 1, 0］. 商. ［0, 0, 0, 1］表格 1. 對於 Q-state Potts model 而言，每個晶格點上的自旋值亦可視為無序分類變數，因此在將其輸入至人工神經網路前，會先使用獨熱編碼之技巧對自旋狀態進行預處理。Fig. 3.3、Fig. 3.4 以 Q=3、L=10 的 2 維 Potts model 在𝑇 ≫ 𝑇𝑐 以及𝑇 ≪ 𝑇𝑐 時的自旋狀態為例，其中紅、綠、藍三色分別為自旋值 1、2、3，右側黑白方框依序為自旋值為 1、2、3 經編碼後的結果。要注意的是經過獨熱編. 1. 無序分類變數（unordered categorical variable）是兩兩之間無強度和順序的差別的變數，. 例如：性別（男女）、職業（士農工商）、科目（自然、國文、數學）等。與之相對的為有序分類變數，例如：等第（A+、A-、A……E）、電磁輻射種類（無線電、微波……）等有順序或強度差異的變數。 19.

(24) 碼後，𝐿 × 𝐿的 Q-state Potts model 會變為維度為𝐿 × 𝐿 × 𝑄的廣義向量（張量）。. Fig. 3.3 2D 3-state Potts model 於T ≪ Tc 時的三種自旋狀態之獨熱編碼示意圖。其中箭頭左側之方形表示在經過獨熱編碼前的自旋狀態，紅色、綠色、藍色分別代表自旋數值為 1、2、3；箭頭右側三個方形表示自旋狀態在經獨熱編碼後的結果，黑、白分別代表經獨熱編碼後數值為 0、1。. Fig. 3.4 2D 3-state Potts model 於𝑇 ≫ 𝑇𝑐 時的自旋狀態之獨熱編碼示意圖。其中箭頭左側之方形表示在經過獨熱編碼前的自旋狀態，紅色、綠色、藍色分別代表自旋數值為 1、2、3；箭頭右側三個方形表示自旋狀態經獨熱編碼後的結果，黑、白分別代表經獨熱編碼後數值為 0、1。. 20.

(25) 人工神經網路人工神經網路是一種使用電腦模擬生物神經網路的計算模型。人工神經網路有許多種類別，例如：卷積神經網路（CNN）、遞歸神經網絡（recurrent neural network，RNN）等，不同的人工神經網路適用於不同的場合，例如卷積神經網路適用於圖像辨識，遞歸神經網路適用於自然語言處理（natural language processing，NLP）。這些人工神經網路的共通點是：它們都是由許多人工神經元組合而成的[2]。人工神經元是將神經細胞的構造簡化而來的數學模型，在介紹人工神經元之前，必須先介紹神經細胞的構造及功能。神經細胞是生物體的神經系統中最基本的單元，神經細胞具有接收、整合、傳導、輸出電訊號的功能。神經細胞的型態相當多樣，典型的神經細胞包含以下構造：樹突、細胞體、軸突以及突觸。樹突的功能為接收電訊號；細胞體的功能為將在樹突接收的電訊號進行整合，並決定自身是否輸出電訊號；軸突負責將細胞體所產生的電訊號傳遞至突觸；突觸則將電訊號傳導至下一個細胞。Fig. 3.5 是神經細胞之結構示意圖。. Fig. 3.5 神經細胞結構示意圖。樹突接收訊號，經由細胞體整合訊號後經由軸突將訊號傳導至突觸，突觸將訊號傳導至下一個細胞。[維基百科神經元條目之例圖重繪] 21.

(26) 神經細胞依照功能大致可分為三類：感覺神經元、運動神經元、聯絡神經元。感覺神經元負責將受器接收到的訊號傳導至中樞神經系統；運動神經元將訊號由中樞神經系統傳導至肌肉、腺體等動器；聯絡神經元接收神經細胞元的電訊號，並將電訊號傳導至下一個神經細胞。藉由串接無數個聯絡神經元可構成脊隨、腦等中樞神經系統（central nervous system，CNS）[45]。人工神經元仿造了神經細胞接收、整合、輸出的功能。人工神經元接收數個訊號，並將各個訊號乘以相應的權重後加總，加入偏壓（bias）後輸入活化函數以決定輸出訊號的強度。Fig. 3.6 為人工神經元的示意圖。. Fig. 3.6 人工神經元示意圖。𝑥1 、𝑥2 、, 𝑥3 為第 1、2、3 個輸入值，𝑤1 、𝑤2 、𝑤3 為第 1、2、3 個輸入值的權重，b 為偏壓，f 為活化函數，y 為輸出值。. 人工神經元的輸出值可以視為輸入訊號之函數，可以寫成下列形式： 𝑦(𝐱) = 𝑓(𝐰𝐱 + b). (3-20). 上式中的𝐰以及𝐱是輸入值與權重的向量形式，兩者為人工神經元模型的參數，並可藉由最佳化演算法來調整模型中的這些參數。由人工神經元組合而成的神經網路可以處理分類、回歸等問題。 22.

(27) 承上段，人工神經網路是由一或多個人工神經元組合而成的，最簡單的人工神經網路是線性感知器。線性感知器是由一個人工神經元構成的人工神經網路。使用的活化函數為階梯函數： 1, 𝑓(z) = { 0,. 𝑧>0 𝑧≤0. (3-21). 透過選擇合適的參數，線性感知器可以處理線性可分問題。以安德森鳶尾花卉數據集2中的維吉尼亞鳶尾花與山鳶尾為例，首先將維吉尼亞鳶尾花以及山鳶尾的標籤設定為 0 和 1，接著設定使用花萼長度及花瓣長度兩個特徵作為輸入值的線性感知器，如 Fig. 3.7 所示。. Fig. 3.7 使用花萼長度、花瓣長度作為輸入值的線性感知器示意圖。. 藉由使用上圖中的感知器，在訓練結束後，輸入花萼長度以及花瓣長度，感知器會回傳１或０，分別表示帶有該特徵的花卉是屬於維吉尼亞鳶尾或山鳶尾。Fig. 3.8 是經過訓練後，花萼長度-花瓣長度散布圖。由此散布圖可以觀察到，線性感知器將此二維平面上切分為兩塊區域，當輸入值落在下方區域時，. 2. Anderson's Iris data set，是一個多變量數據集，記錄了山鳶尾、變色鳶尾、維吉尼亞鳶尾. 這三種花卉的花萼長度、花萼寬度、花瓣長度、花瓣寬度四個量。 23.

(28) 感知器的輸出值為 0，表示花卉種類為山鳶尾；當輸入值落在上方區域時，線性感知器的輸出值為 1，表示花卉的種類為維吉尼亞鳶尾。. Fig. 3.8 使用線性感知器對鳶尾花數據集進行分類的散布圖，橫軸為花萼長度，縱軸為花瓣長度，紅色虛線為線性感知器在此二維平面上的分類邊界，高於此虛線會被分類為維吉尼亞鳶尾，低於此虛線會被分類為山鳶尾。. 然而，並不是所有分類問題都可以用線性分類器解決的。線性分類器只適用於線性可分問題，最簡單的線性不可分問題為邏輯異或。Fig. 3.9 為 AND （合取）、NAND（Not And，與非）、OR（析取）、XOR（異或）四個邏輯運算子的真值表用整數表示的示意圖。由此示意圖可以觀察到：AND、NAND、OR 可以用一直線將四種輸入值（真真、真假、假真、假假）歸類為真／假兩個類；XOR 則無法。為了解決線性不可分問題，需使用不同的模型。將多個感知器結合的多層感知器是常使用的模型之一。. 24.

(29) Fig. 3.9AND、NAND、OR、XOR 四個邏輯算子的真值表以整數表示的二維散布圖。紅色菱形表示真，藍色圓形表示其值為假。藍色實線將此二維平面切分為真／假區域。XOR 無法用單一直線將平面分為真／假區域。. 25.

(30) 多層感知器多層感知器（Multi-layer Perceptron，MLPs）是一種人工神經網路。多層感知器每層均含有至少一個人工神經元，層中的神經元僅和前一層或後一層的神經元相連接。多層感知器中的人工神經元依功能作為區分的話可以分為三種：輸入層、隱藏層（或中間層）以及輸出層。輸入層單純作為輸入，並將訊號傳入隱藏層；隱藏層接收輸入層的訊號，經過整合後傳入輸出層或下一個隱藏層；輸出層接收隱藏層的訊號，經過整合、計算後輸出結果。多層感知器中每個人工神經元（除輸入層外）都有自己的權重及偏壓，層與層間訊號傳遞的過程可以用矩陣的方式描述： [𝐎𝑖+1 ]𝑘 = 𝑓([𝐎𝑖 ⋅ 𝐰𝑖,𝑖+1 + 𝐛i ] ) 𝑘. (3-22). 上式𝐎𝒊 為第𝑖層的輸出向量，𝐰𝑖,𝑖+1為第 i 層以及 i+1 層之間的權重，𝐛i 為第 i 層神經元的偏壓，𝑓為活化函數。下圖是多層感知器結構的示意圖。. Fig. 3.10 多層感知器的結構示意圖。多層感知器具有一輸入、輸出層以及數層隱藏層。. 多層感知器模型會依處理的問題採用不同的活化函數。一般而言隱藏層會使用 sigmoid 函數或 ReLU 函數，少數情況會使用 tanh 函數，輸出層則會視情況使用 sigmoid、階梯函數或 softmax 函數。函數的定義請參考附錄。 26.

(31) 多層感知器可以處理線性不可分問題。以 XOR 問題為例，使用一層節點數為 2 的隱藏層，以及一層節點數為 1 的輸出層，即可將 XOR 中的四個點進行分類。Fig. 3.11 是用於 XOR 分類問題的多層感知器結構示意圖。Fig. 3.12 是使用訓練完成後的多層感知器對平面上隨機數值進行預測後的結果。由 Fig. 3.12 可觀察到，多層感知器可以對線性感知器不可分的問題進行分類。. Fig. 3.11 用於 XOR 分類問題中的多層感知器結構。此多層感知器具有一輸入層、一節點數為 2 且活化函數為 sigmoid 函數的隱藏層以及一節點數為 1 且活化函數為 softmax 的輸出層。. Fig. 3.12 當輸入之數值為[0, 1), [0, 1)範圍內的隨機數時多層感知器的預測結果。 27.

(32) 卷積神經網路卷積神經網路是常見的人工神經網路架構之一。卷積神經網路一般由卷積層、池化層以及全連結層所組成，由於卷積運算的特性，卷積神經網路特別適合處理圖像辨識、語音辨識這類數據點間有時間或空間關係的問題。卷積是一種數學算子，卷積運算中的卷積核常作為圖像處理時的濾波器（filter）使用。卷積神經網路的卷積層使用數個大小為𝑛 × 𝑛的矩陣作為卷積核來對輸入資料進行卷積運算，並通過活化函數輸出至下一層。在學習的過程中逐步修改卷積核中矩陣元的數值，藉由此方法，可以將訓練集中共有的「圖像特徵」擷取並儲存於卷積核中。由於卷積神經網路所學習到的特徵是存於卷積核中，當特徵存在的位置不同時，卷積神經網路仍可偵測到該特徵。下圖是卷積運算的示意圖。. Fig. 3.13 卷積運算之示意圖。K 為卷積核心，可以觀察到經過卷積後，K 將 I 上的特定圖形擷取出來。. 池化層主要的作用是將二維資料以特定大小之方陣進行切分，並將每個方陣內的數值經計算聚合成一個數值。池化可有效的降低參數的數量，並具有降噪的功用。一般常見的池化方式有兩種，分別為最大池化以及平均池化兩種。 28.

(33) 最大池化會選取方陣中最大的數值作為輸出值；平均池化會將方陣內的所有數值的平均值作為輸出值，下圖為最大池化及平均池化之示意圖：. Fig. 3.14 最大池化之示意圖。最大池化會將範圍內最大的數值取出作為輸出值。. Fig. 3.15 平均池化示意圖。平均池化會將範圍內的數值的平均作為輸出值。. 全連結層與在前一小節中提到的多層感知器相同，每一層中均含有多個人工神經元，皆以權重和前一層的神經元進行連結，並通過活化函數輸出至下一層。輸出層中含有和分類數目相等的神經元，通常使用 softmax 作為活化函數。在本次研究中，我們採用的架構為一層卷積核、一層平均池化層以及一層全連接層（輸出層），並使用 python 的人工神經網路函式庫 Keras[46]進行實作，其中輸入與卷積層均使用獨熱編碼（one-hot encoding）將𝐿 × 𝐿的自旋狀態編碼成𝐿 × 𝐿 × 𝑄的形式。卷積層使用𝑄個大小為3 × 3的卷積核，活化函數使用 ReLU 函數，池化層使用平均池化，池化大小為2 × 2。全連接層僅包含一層輸出層，並採用 softmax 函數作為活化函數。其架構如 Fig. 3.16 所示。第𝑖個卷積核中的元素使用第 i 個分量為1/3、其他分量為 0 的向量來進行初始化。. 29.

(34) Fig. 3.16 這次研究中所使用的卷積神經網路示意圖，以 Q=3 為例。具有一卷積層、一平均池化層以及一層全連結層。. 30.

(35) 資料集與觀測量|𝑹| 在本篇論文中我們使用𝑇 ≪ 𝑇𝑐 的自旋狀態作為訓練集合，並給予其相應的標籤。對於 Q-state potts model 而言，𝑇 ≪ 𝑇𝑐 時最常出現的自旋狀態可分為 Q 種，同一種的狀態中所有的晶格點的自旋數值均會相同。以 Q=3 的情況為例， 𝑇 ≪ 𝑇𝑐 的狀態可分為如 Fig. 3.17 所示之三類：. Fig. 3.17 3-state Potts model 在𝑇 ≪ 𝑇𝑐 時的三種自旋狀態。. 使用這三類作為訓練集的結果是：人工神經網路可以將絕大多數的溫度遠 ⃗ 僅有一個分小於臨界溫度Tc 的自旋組態分至 Q 類中的任一種，此時輸出向量𝑂 量的數值為1，其他分量的數值為 0；當輸入之自旋組態的溫度遠高於臨界溫度 ⃗ 之各分量之數值 Tc 時，卷積神經網路無法分辨自旋狀態是哪種類別，輸出向量𝑂 1. 皆為𝑄。Fig. 3.18 為訓練集及其對應的標籤值。 ⃗ 會隨之變化，因此輸入不同溫度之自旋組態，人工神經網路之輸出向量𝑂 我們在此引入一個新的測量值：𝑅 ⃗| 𝑅 = |𝑂. (3-23). 輸入𝑇 ≪ 𝑇𝑐 的自旋組態時，𝑅之數值會接近 1，而在輸入𝑇 ≫ 𝑇𝑐 的自旋狀態時， 1. R 會趨近於. √𝑄. 。. 31.

(36) Fig. 3.18 實際使用的訓練集以及其對應到的標籤（經過獨熱編碼後的形式）。為了增加選取小批（學習小節）時的自由度，我們將每個自旋狀態及對應的標籤複製 200 個做為訓練集，並將小批的大小設定為 20。. 32.

(37) 直方圖方法直方圖方法是區分一階或二階相變的方法之一。[20, 47]藉由對不同晶格大小 L 下的觀測量|m|或 E 繪製直方圖，可以觀察到當T = Tc 時，一階相變與二階相變觀測量的分佈情況有著很大的差異。處於臨界溫度時，一階相變下自旋狀態的|m|或 E 的雙峰式分佈之特性會逐漸隨著晶格大小 L 增加而增強。換言之，隨著晶格大小 L 增加，中等數值出現的機率𝑃𝐿𝑚𝑖𝑛 會顯著的降低，數值處於兩側高點的機率𝑃𝐿𝑚𝑎𝑥 會顯著的增加，若 L 持續增加，最終𝑃𝐿𝑚𝑖𝑛 /𝑃𝐿𝑚𝑎𝑥 → 0：二階相變則不會出現此現象。因此直方圖方法可以作為區分一階或二階相變的一個有效方法。. 33.

(38) Chapter 4 數值結果為了研究二維 Q-state Potts model，我們使用 Swendsen–Wang 演算法生成. Q=2,3,4,5,10 的自旋狀態，並訓練卷積神經網路對這些自旋狀態進行分析。本章節將分別呈現採用傳統蒙地卡羅方法以及人工神經網路所得到的結果。上一章提及的直方圖方法可以用來判別相變是屬於一階或二階相變。為了和人工神經網路輸出之觀測量 R 進行比較，在本章中，我們繪製磁化量|m|以及在上一章節中提及的觀測量 R 的直方圖，並依此判斷對於正方形晶格上的 Potts model 在不同的 Q 值下的相變為一階相變或二階相變。. 蒙地卡羅方法之數值結果 Fig. 4.1 是 2-D 2-state Potts model 的磁化量|m|在T~Tc 的直方圖。在晶格大小 L 較小時（L=20），系統並沒有呈現雙峰分布，當系統的晶格大小逐漸增增加至 240 時，其分布也沒有太大的改變。基於上述結果，可以推斷 2-state Potts model 的相變過程的確屬於二階相變。 Fig. 4.2 是 2-D 10-state Potts model 的磁化量|m|在T~Tc 的直方圖。在晶格大小 L 等於 20 時|m|即呈現雙峰分布，當晶格大小 L 增加至 40 時，雙峰分布的強度也隨之明顯增加。這樣的結果顯示 10-state Potts model 的相變過程確實是一階相變。綜上所述，Fig. 4.1 與 Fig. 4.2 確實的指出在正方形晶格上的 Q=2, Q=10 的 Potts models 的相變過程分別為二階以及一階相變。然而 2-D 5-state Potts model 的磁化量|m|在T~Tc 的直方圖並不如 10-state Potts model 一樣明顯的顯示出一階相變的特性（見 Fig. 4.3），在文獻中指出，這是由於 2-D 5-state Potts model 接 34.

(39) 近一階與二階相變的邊界，其 correlation length 非常大，在晶格大小小於 correlation length 前，其臨界性質和二階相變較為接近，因此 Q=5 又被稱為弱一階相變（weakly first order phase transition）[23]。. Fig. 4.1 Q=2, L=20 及 240 之直方圖。. Fig. 4.2 Q=10, L=20 及 40 之直方圖。. Fig. 4.3 Q=5, L=20 及 240 之直方圖. 35.

(40) 卷積神經網路之數值結果 ⃗⃗ 的藉由使用在第三章提到訓練集標註之方法，卷積神經網路之輸出向量O 長度 R 在不同的 Q 值下，均隨著溫度增加而從 1 快速的下降至1/√𝑄。對於任意給定之 Q-state Potts model 而言，其相應的臨界溫度Tc 應位於一溫度區間 (T1 , T2 )，其中T1 以及T2 分別為 R 開始劇烈的下降與收斂至於1/√Q 時的溫度。卷積神經網路輸出的結果顯示：隨著晶格大小 L 增加，(T1 , T2 )區間會收縮至很小的範圍中。經由和文獻中[22]提及的臨界溫度𝑇𝑐 =. 1. 進行比對，可以發. ln(1+√𝑄). 現Tc 確實座落於(T1 , T2 )區間中，且具有相當高的精確度。. Fig. 4.4 不同(L, Q)數值下 R 對 T 之函數圖。黃色虛線為理論預估值。. 36.

(41) 除偵測臨界溫度Tc 外，在本次研究中亦嘗試使用觀測量 R 在（T1 ,T2 ）區間之直方圖來作為區分相變類型為一階或二階相變之依據。我們對 Q=10, L=10, 20, 80 及 Q=3,L=20, 40, 240 在其所對應的（T1 , T2 ）區間之 R 繪製直方圖，結果顯示當 L 持續增加時，Q=10 的 R 會迅速的呈現雙峰分佈，而 Q=3 情況下 R 之分佈則無此現象。此結果和使用傳統觀測量|𝑚|的結果一致。. Fig. 4.5 3-state Potts model 在不同晶格大小 L 下 R 的直方圖。. Fig. 4.6 10-state Potts model 在不同晶格大小 L 下 R 的直方圖。. 37.

(42) Chapter 5 討論在這次的研究中，我們使用蒙地卡羅模擬以及人工神經網路技術來研究二維正方形晶格上之 Q-state Potts model。由上一章節的數值結果中可以得到結論：以卷積神經網路之輸出向量長度 R 做為主要觀測量和使用傳統觀測量|m|一樣可偵測臨界溫度Tc 以及辨別相變為一階或二階相變。在其他文獻中使用 T>Tc 以及 T<Tc 的自旋狀態作為訓練集的方式需要較多的計算資源，使得計算尺度無法和傳統方式相比擬。藉由改用低溫自旋狀態作為訓練集，訓練時所需的資源較先前的方式大幅減少，強化了人工神經網路應用於凝態系統的能力。除了使用在第三章中提及的卷積神經網路架構之外，我們也嘗試了改一些人工神經網路的超參數，以確保數值結果並非使用人工「微調」出來的。例如：改變卷積核之大小，由原本的的 3×3 改變為 2×2、改變卷積核心之初始值等等。調整後的模型之能力與原先的版本並無顯著差異（見 Fig. 5.1），足見在本次研究中使用的方法並不會過度依賴人工神經網路模型的超參數。值得一提的是，對於弱一階相變 Q=5，由於其 correlation length 極大，使用傳統序参数（order parameter）或本次研究中使用的觀測量 R 均難以偵測出其一階相變之特徵。最近一年的文獻中曾提出一些新的分析方法[48]，希望能在晶格大小 L 不大的情況下偵測到一階段相變，但仍有改善的空間。人工神經網路作為研究凝態系統的新工具，在小尺度下偵測弱一階相變將會是我們未來的一個研究重點之一。 38.

(43) 除此之外，使用人工神經網路研究凝態系統仍有許多問題值得探索的，例. Fig. 5.1 用大小為 2x2 的卷積核後的數值結果。. 如檢驗 R 計算二階相變之 critical exponent 的能力等等，這些相關的應用仍需要更多詳細的數值研究。. 39.

(44) 附錄表格 2 常用的單變數活化函數函數名稱. linear. step. 方程式. 函數圖形. 輸出區間. f(x) = x. 0, f(x) = { 1,. (−∞, +∞). x<0 x≥0. {0, 1}. 1 1 + 𝑒 −𝑥. sigmoid. f(x) =. tanh. f(x) = tanh(x). (0, 1). (−1, 1). 40.

(45) ReLU. 0, f(x) = { x,. x<0 x≥0. [0, ∞). Leaky ReLU. λx, f(x) = { x,. x<0 x≥0. (−∞, ∞). 表格 3 常用的多變數活化函數函數名稱. Softmax. Maxout. 方程式. f(𝑧)𝑗 =. 輸出區間. 𝑒 𝑧𝑗 for 𝑗 = 1, … , 𝐾 𝑍𝑘 ∑𝐾 𝑘=1 𝑒 f(𝐱) = max(xi ). 41. (0, 1). (−∞, ∞).

(46) 參考文獻 [1] Park, D. H., Kim, H. K., Choi, I. Y. and Kim, J. K. A literature review and classification of recommender systems research. Expert Systems with Applications, 39, 11 (2012), 10059-10072. [2] Rashid, T. Make your own neural network. CreateSpace Independent Publishing Platform, 2016. [3] Chen, N. Support vector machine in chemistry. World Scientific, 2004. [4] Polson, N. G. and Sokolov, V. O. Deep learning for short-term traffic flow prediction. Transportation Research Part C: Emerging Technologies, 79 (2017), 1-17. [5] Chen, S., Ferrenberg, A. M. and Landau, D. Monte Carlo simulation of phase transitions in a twodimensional random-bond Potts model. Physical Review E, 52, 2 (1995), 1377. [6] Ferreira, S. J. and Sokal, A. D. Antiferromagnetic Potts Models on the Square Lattice: A HighPrecision Monte Carlo Study. Journal of Statistical Physics, 96, 3 (August 01 1999), 461-530. [7] Newman, M. and Barkema, G. Monte carlo methods in statistical physics chapter 1-4. Oxford University Press: New York, USA, 1999. [8] Wang, J.-S., Swendsen, R. H. and Kotecký, R. Antiferromagnetic potts models. Physical review letters, 63, 2 (1989), 109. [9] Caffarel, M. and Krauth, W. Exact diagonalization approach to correlated fermions in infinite dimensions: Mott transition and superconductivity. Physical Review Letters, 72, 10 (03/07/ 1994), 1545-1548. [10] Sandvik, A. W. Stochastic series expansion method with operator-loop update. Physical Review B, 59, 22 (06/01/ 1999), R14157-R14160. [11] Orús, R. A practical introduction to tensor networks: Matrix product states and projected entangled pair states. Annals of Physics, 349 (2014/10/01/ 2014), 117-158. [12] Zhang, W., Liu, J. and Wei, T.-C. Machine learning of phase transitions in the percolation and XY models. arXiv preprint arXiv:1804.02709 (2018). [13] Carrasquilla, J. and Melko, R. G. Machine learning phases of matter. Nature Physics, 13, 5 (2017), 431. [14] Li, C.-D., Tan, D.-R. and Jiang, F.-J. Applications of neural networks to the studies of phase transitions of two-dimensional Potts models. Annals of Physics, 391 (2018), 312-331. [15] Van Nieuwenburg, E. P., Liu, Y.-H. and Huber, S. D. Learning phase transitions by confusion. Nature Physics, 13, 5 (2017), 435. [16] Wetzel, S. J. Unsupervised learning of phase transitions: From principal component analysis to variational autoencoders. Physical Review E, 96, 2 (2017), 022140. [17] Wu, F.-Y. The potts model. Reviews of modern physics, 54, 1 (1982), 235. 42.

(47) [18] Gottlob, A. P. and Hasenbusch, M. TheXY model and the three-state antiferromagnetic Potts model in three dimensions: Critical properties from fluctuating boundary conditions. Journal of Statistical Physics, 77, 3-4 (1994), 919-930. [19] Wang, J.-S., Swendsen, R. H. and Kotecký, R. Three-state antiferromagnetic Potts models: a Monte Carlo study. Physical Review B, 42, 4 (1990), 2465. [20] Billoire, A. First order phase transitions of spin systems. arXiv preprint hep-lat/9501003 (1995). [21] Kihara, T., Midzuno, Y. and Shizume, T. Statistics of Two-Dimensional Lattices with Many Components. Journal of the Physical Society of Japan, 9, 5 (1954/09/15 1954), 681-687. [22] Baxter, R. J. Potts model at the critical temperature. Journal of Physics C: Solid State Physics, 6, 23 (1973), L445. [23] Binder, K. Static and dynamic critical phenomena of the two-dimensionalq-state Potts model. Journal of Statistical Physics, 24, 1 (1981), 69-86. [24] Rudnick, J. expansion for the free energy of the continuous three-state Potts model: evidence for a first-order transition. Journal of Physics A: Mathematical and General, 8, 7 (1975), 1125. [25] Herrmann, H. J. Monte Carlo simulation of the three-dimensional Potts model. Zeitschrift für Physik B Condensed Matter, 35, 2 (June 01 1979), 171-175. [26] Jensen, S. J. K., Mouritsen, O. G., Hansen, E. K. and Bak, P. Crossover from first-order to secondorder phase transitions in a symmetry-breaking field: Monte Carlo, high-temperature series, and renormalization-group calculations. Physical Review B, 19, 11 (06/01/ 1979), 5886-5901. [27] Blöte, H. W. J. and Swendsen, R. H. First-Order Phase Transitions and the Three-State Potts Model. Physical Review Letters, 43, 11 (09/10/ 1979), 799-802. [28] Andelman, D. and Berker, A. N. q-state Potts models in d dimensions: Migdal-Kadanoff approximation. Journal of Physics A: Mathematical and General, 14, 4 (1981), L91. [29] Salas, J. and Sokal, A. D. Absence of phase transition for antiferromagnetic Potts models via the Dobrushin uniqueness theorem. Journal of Statistical Physics, 86, 3 (February 01 1997), 551-579. [30] Georgii, H.-O. Gibbs measures and phase transitions. Walter de Gruyter, 2011. [31] Baxter, R. J. Critical antiferromagnetic square-lattice Potts model. Proceedings of the Royal Society of London. A. Mathematical and Physical Sciences, 383, 1784 (1982), 43-54. [32] Nightingale, M. P. and Schick, M. Three-state square lattice Potts antiferromagnet. Journal of Physics A: Mathematical and General, 15, 1 (1982), L39. [33] Ono, I. Phase Transitions of Antiferromagnetic Potts Models. Progress of Theoretical Physics Supplement, 87 (1986), 102-111. [34] Chen, S., Ferrenberg, A. M. and Landau, D. P. Monte Carlo simulation of phase transitions in a two-dimensional random-bond Potts model. Physical Review E, 52, 2 (08/01/ 1995), 1377-1386. 43.

(48) [35] Dorogovtsev, S. N., Goltsev, A. V. and Mendes, J. F. F. Potts model on complex networks. The European Physical Journal B, 38, 2 (March 01 2004), 177-182. [36] Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H. and Teller, E. Equation of state calculations by fast computing machines. The journal of chemical physics, 21, 6 (1953), 10871092. [37] Swendsen, R. H. and Wang, J.-S. Nonuniversal critical dynamics in Monte Carlo simulations. Physical review letters, 58, 2 (1987), 86. [38] Luijten, E. Introduction to cluster Monte Carlo algorithms. Springer, City, 2006. [39] Landau, D. P. and Binder, K. A guide to Monte Carlo simulations in statistical physics. Cambridge university press, 2014. [40] Mehta, P., Bukov, M., Wang, C.-H., Day, A. G., Richardson, C., Fisher, C. K. and Schwab, D. J. A high-bias, low-variance introduction to machine learning for physicists. arXiv preprint arXiv:1803.08823 (2018). [41] Bottou, L. Stochastic Gradient Descent Tricks. Springer Berlin Heidelberg, City, 2012. [42] Kingma, D. P. and Ba, J. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014). [43] Qian, N. On the momentum term in gradient descent learning algorithms. Neural networks, 12, 1 (1999), 145-151. [44] Duchi, J., Hazan, E. and Singer, Y. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 12, Jul (2011), 2121-2159. [45] Russell, P., Hertz, P. and McMillan, B. Biology: The Dynamic Science, Volume 1 (Units 1 & 2). Nelson Education, 2013. [46] Chollet, F. c. c. o. a. o. Keras (2015). [47] Peczak, P. and Landau, D. P. Monte Carlo study of finite-size effects at a weakly first-order phase transition. Physical Review B, 39, 16 (06/01/ 1989), 11932-11942. [48] Iino, S., Morita, S., Sandvik, A. W. and Kawashima, N. Detecting signals of weakly first-order phase transitions in two-dimensional Potts models. City, 2018.. 44.

(49)