中華大學

(1)

中華大學碩士論文

題目：改良式蟻拓尋優法求解旅行者推銷員問題

系所別：科技管理研究所學號姓名： M09103032 吳育盈指導教授：謝玲芬博士

中華民國九十三年六月

(2)

(3)

(4)

(5)

(6)

改良式蟻拓尋優法求解旅行者推銷員問題

學生：吳育盈指導教授：謝玲芬

摘要

蟻拓尋優法（ant colony optimization ，簡稱 ACO）是模仿蟻群工作型態所設計出的一種啟發式演算方法（heuristics algorithm），主要的目的是求解如二次指派問題（quadratic assignment problem）、網路途程問題（network routing problem）、排程問題系統（job shop scheduling problem）、車輛途程問題（vehicle routing problem）、旅行銷售員問題（traveling salesman problems）…等組合最佳化的問題。經由證實，ACO 在求解旅行銷售員(traveling salesman problems, 簡稱TSP)問題上有不錯的驗證成效，但是，目前尚無法完全降低螞蟻搜尋路徑過程中，可能產生的過早收斂情形與停滯現象，只能以不同的更新方式間接減少此情況，有鑑於此，本論文以全域更新法（global update）為搜尋範圍的考量，擬定改善更新費洛蒙的機制，將螞蟻選擇行走下一個城市的兩大依據-費洛蒙素（pheromone）與城市間距離，設定一個可控制的反差指數(contrast exponent)值，提出有別於其它 ACO 更新方法之反差指數全域更新法（Contrast Exponent Global Update），此目的主要是拉開蟻群行走途程的差異性，使後續螞蟻不致於因走到差異性不大的較長途程，而產生了停滯不前的現象，並驅使蟻群往較短途程走，而求得最短路徑解。

在驗證方面，本論文共分成兩個階段來進行，第一階段，取國際題庫 TSPLIB 之 St70 為測試的資料數據，並在使用同樣參數下比較全域更新法

（global update）與反差指數全域更新法（Contrast Exponent Global Update）

求解旅行者推銷員問題之執行後的差異，並從兩者的執行成效中找出可降低搜尋路徑過長或過早收斂的關鍵因素；第二階段的驗證，則參考螞蟻循環較佳更新法（iteration-best）與螞蟻排序較優更新法(

AS

_rank)對費洛蒙的更新模式，選出行走較短途程的優秀螞蟻，加入本論文所提出的反差指數值，同樣從國際資料庫TSPLIP 中取 KroA100 及 KroA200 的執行數據，與螞蟻循環較佳更新法（iteration-best）一同驗證執行成效並對照比較兩者執行後的差異，

證明本論文所提之反差指數全域更新法是可以加入其它 ACO 的更新模型，

並且可提高求解最短路徑。

關鍵字：旅行者推銷員問題、蟻拓尋優法、反差指數

(7)

Improvement of TSP Solution by Revised Ant Colony Optimization.

Student：Yu-Ying Wu Advisor：Ling-Feng Hsieh

Abstract

Ant Colony Optimization (ACO) is a general purpose heuristics algorithm in spire by the study of the behavior of Ant Colonies, it is based on a cooperative search paradigm that is applicable to the solution of combinatorial optimization problems, such as quadratic assignment problem, network routing problem, job shop scheduling problem, vehicle routing problem and Traveling Salesman Problems (TSP), etc.the savant to make a study of ACO from 1991【27】proposed a pheromone updating method for ACO system to promote solution quality of shortest path of Traveling Sales Problem. To reduce stagnation phenomenon and accelerate convergence for ACO, we designed a new pheromone updating method called Contrast Exponent Global updating method. The method is designed base on Global updating rules of ACO and is enhanced by two contrast exponents that can increase contrast of pheromone increment.

We verified the new model with St70 of TSPLIB. The average shortest path solution of TSP is found and the effect is getting better and better by increasing power of contrast exponents. The Global updating method can be applied to improve other ACO models. For instance the Iteration-Best and

AS

_rank Model that also deposits pheromone to the best ants of iteration with Global updating method was selected to corroborate with Contrast Exponent Global updating method. we practice series of TSP experiment for Contrast Exponent the Global updating method by Contrast Exponent, we prove that the Contrast Exponent Global updating method not only reduce stagnation phenomenon and accelerate convergence, but also improve solution quality of shortest path of TSP.

Keywords： Travel Salesman Problem、 Ant Colony Optimization、Contrast

Exponent

(8)

誌謝

一陣陣蟬叫聲迴繞在鳳凰花的枝幹上，才驚覺日子已過了大半，矇矓的遠山，縹緲似霧，夾雜著昏暗不明的路燈，熱切而熟悉的人聲，曾陪我渡過八百多個日子的地方，如今記憶中只剩下一片模糊的幸福，退化成陰沈的淡綠，如五月的湖水。

短短兩年，晃眼即過，還沒好好認識週遭的每一個人，便又要隨赴職場奮鬥，要感謝的人太多，首要感謝的是吾師謝老師的耐心指教，沒有她的細心指導，本論文無以如梓完成，還有炯彬、仕明、慶忠、家祥學長們的幫忙，

著實令人永誌難忘，特別要感謝的是珮瑜學姐，在我最需要樹立信心的時候，

給予我心靈上最大的慰藉，讓我有繼續往前走的勇氣，還有林老師、王老師、

陳老師等，曾接受到幫忙的人太多，無以計數，在此深表謝意，曾有的友伴佩雯、孟沄、一斌等同窗之誼，為我的求學之路增添了幾許光彩。人與人的相遇是偶然的緣份，每個偶然和偶然之間，雖淹沒舊的記憶，卻勾起了新的思潮，最難忘的事情將永遠不會被時間的洪流所吞噬，在此曾有過的每一分、

每一秒的記憶都將永遠深植在我的心中。

人生的路途就是如此微妙，只因它沒有定則，即使事先描繪好的計劃，

在行徑每一處渡頭、每一個關口、每一個轉角，仍得稍停片刻，決定是否要快步衝過，或是低頭躡足行走，每經一個抉擇，都意味著可能帶來的轉機與蛻化的喜悅，無決毅精誠，就無以竟其功，每個階段，總有溫暖的太陽熙照，

也會有狂風颶雨交替而來，經歷一場又一場的生命歷鍊之後，免不了要修修補補，在夜深人靜時，為自己的思想作調整，替昨天所行走過的步履量測，

再為明日的腳程鋪路。

吳育盈謹識於中華科管所

中華民國93 年 6 月 21 日

(9)

目錄

摘要 ………i

Abstract………ii

誌謝………iii

目錄………iv

圖目錄………vi

表目錄………vii

數學符號總表 ………viii

第一章緒論………1

1.1 研究背景與動機 ………2

1.2 研究目的 ………2

1.3 研究流程 ………3

1.4 研究範圍與限制 ………4

1.5 論文架構 ………4

第二章文獻探討………5

2.1 非決定性多項式（NP-Complete）………5

2.2 旅行者推銷員問題（traveling salesman problem）………7

2.3 蟻拓尋優法的介紹（ant colony optimization）………11

2.3.1 蟻拓尋優法的演算方式介紹………14

2.3.2 歷年費洛蒙更新方法介紹………19

2.4 貪婪演算法………22

第三章反差指數全域更新法的構建 ………26

3.1 反差指數全域更新法………26

3.1.1 反差指數的測試………27

3.1.2 加入反差指數值之其它 ACO 模式的測試 ………29

3.2 加入反差指數之其它 ACO 模型的比較 ………33

3.3 重要參數值的設定………34

第四章驗證結果 ………36

4.1 St70 的測試結果與分析………36

4.2 KroA100 與 KroA200 的測試結果與分析………39

4.3 歸納結果與整理………42

第五章結論與未來展望 ………44

5.1 結論………44

5.2 後續研究與建議………45

(10)

參考文獻………47

附錄附表一TSPLB St70 城市座標表 ………51

附表二、TSPLB KroA100 城市座標表………52

附表三、TSPLB KroA200 城市座標表………54

附表四、螞蟻行走途程表………58

(11)

圖目錄

圖 1.1 研究流程圖………3

圖 2.1 推銷員拜訪站地圖………6

圖 2.2 自然界螞蟻覓食的行為圖 ………11

圖 2.3 自然界螞蟻覓食行為圖解 ………11

圖 2.4 有向圖形 ………24

圖3.1 St70 測試流程圖 ………28

圖3.2 α 與 β 的參數設定參考圖………34

圖4.1 序號 1~6 之反差指數趨勢圖 ………37

圖4.2 序號 7~11 之反差指數趨勢圖………38

圖4.3 序號 12-16 之反差指數趨勢圖………38

圖4.4 KroA100 之次代最佳及反差指數更新法求解趨勢圖 ………40

圖4.5 KroA200 之次代最佳及反差指數更新法求解趨勢圖 ………41

圖 5.1 反差指數研究領域關係圖 ………46

(12)

表目錄

表3.1 啟發式演算法執行 TSP 結果一覽表 ………30

表 3.2 Q-Learning 螞蟻演算法與基本螞蟻演算法執行比較表 ………32

表3.3 Ant-Q 全域最佳更新與次代最佳更新比較表………32

表4.1 St70 實驗結果分析表 ………37

表4.2 KroA100 實驗結果分析表 ………40

表4.3 KroA200 實驗結果分析表 ………41

(13)

數學符號總表

數學符號意義

G(N,E) 設一圖形 G，N 為所有城市的集合，E 為所有城市間路徑的集合。

dij 從城市i 到城市 j 的距離。

dij dij 稱為非對稱（asymmetric）的旅行者推銷員問題，指兩城市間的距離是受到方向性的限制。

dij=dij 稱為對稱（symmetric）的旅行者推銷員問題，

指兩城市間的距離不受方向性的限制。

2ⁿ 求解時間的計算量呈指數上升。

n

³ 或 n^k 求解時間的計算量呈 n 的次方上升。

n 城市數目。

Cij 從i 城市到 j 城市所耗用的成本，1 i n， n

j 1

0

X_ij 1 1 表示可由 i 城市到 j 城市，0 表示無法由 i 城市到j 城市，且1 i n，1 j n。

n 0 i

ij 1

X 此為確保每一個城市都被拜訪一次。

n 0

j Xij 1 此為確保每一個城市都被拜訪一次。

n s j

ij

ijX 1

C 避免旅行的途徑產生迴路，確保所走的路徑是

符合經濟性的。

m 設共有m 隻螞蟻。

ij

表示螞蟻的視覺能力，在此所代表的是兩個城市間距離的倒數 1/dij，意指越近的城市越容易看得見。

ij

表示螞蟻間群聚的行為，在此指蟻群行走過程中沿途所所釋放的費洛蒙素。

與控制費洛蒙 _ij與城市 i 到城市 j 間路徑 _ij的重

要關係程度，且 0 及 0 。

allowedk 此稱為允許集合（allowed local），指螞蟻所行走的每個城市必需為可行走的範圍。

(14)

ρ 費洛蒙蒸發的權重係數，其值介於1 與 0 之間。

) t (

p_ij^k 表示在時間(t 之內，螞蟻由城市 i 行走到下一) 個城市j 所依據的機率函數。

ik 螞蟻由城市 i 行徑所有城市 k 沿途所釋放的費洛蒙素。

) 1 t

ij(

蟻群在t+1 的時間裡，由城市 i 到城市 j 陸續所累積的費洛蒙素。

m 1 k

k

ij( ,tt 1) 自第k 隻螞蟻開始，共有 m 隻螞蟻在時間 t 與 1

t 的時間間距裡，從城市i 到城市 j 陸續所留下之費洛蒙素。

) s , r (

AQ 指的是螞蟻由城市r 到城市 s 沿途所釋放的費洛蒙素，並以值予以適當的加權。亦可以 _ij 表示之。

) s , r (

HE 城市r 到城市 s 的距離的倒數 1/dij，並以值設定其重要程度。此亦可以 _ij 表示之。

) z , r (

AQ 表示螞蟻從城市 r 開始，陸續行走之共有 z 個城 市的費洛蒙素總合。

代表的是一個學習精神的折扣因子，指後續螞蟻循此路徑的學習重要程度，此值通常介於0 和1 之間。

q 表示一個由亂數取得的隨機值，且0 q 1。 q o 代表的是一個門檻值，且0 q₀ 1。

) 1

( 表示經由時間蒸發的費洛蒙素值。

old

ij(t) 先前蟻群沿途所留下且經由一段時間蒸發後，

所殘留之舊的費洛蒙素。

蟻群可行走的範圍。意思與allowedk同。

* ij

此是由所有搜尋路徑的螞蟻中，選出之尋得較短路徑之優秀螞蟻的費洛蒙素參考值。

優秀螞蟻的數量。

Q 表費洛蒙素的累積量，為一常數值，通常將此

設置在1、10、100…等整數值。

W 表示為費洛蒙素累積量，與Q 的意思相同。

dij

/

Q 將費洛蒙素的累積量除上城市i 到城市 j 之間的距離作為費洛蒙更新的依據。

(15)

L k 表第k 隻螞蟻行走路徑之沿途所釋放的費洛蒙素總和。

Lk

Q 將費洛蒙素的累積量除上第k 隻螞蟻行走路徑

之沿途所釋放的費洛蒙素總和，來作為費洛蒙更新的依據。

kgb

L /

W 從開始到目前為止的搜尋過程，由第k 隻螞蟻

從城市r 到城市 s 所留下的費洛蒙素。

kib

L /

W 截至目前為止，以螞蟻循環搜尋較短路徑的方

式，由行走最短路徑的第k 隻螞蟻所留下的費洛蒙素。

Lu

Q ) u

( 將所有螞蟻依照行走路徑的長短作名次的排

序， u 代表名次，指的是要更新的螞蟻總數再加 1。此表示費洛蒙的更新是依照名次的順序作為新依據。

L*

Q 由行走較短路徑之優秀螞蟻群在城市r 到城市

s 間所添加的費洛蒙素來作為更新的依據。

代表行走最短行程的優秀螞蟻的數量。

＊此表優秀之意。

min 指將費洛蒙素的值設在某一下限範圍。

max 指將費洛蒙素的值設在某一上限範圍。

ν 設定成控制螞蟻行走距離的全域反差指數。

γ 設定成控制城市間距離的區域反差指數。

(16)

第一章緒論

旅行者推銷員問題（traveling salesman problem，簡稱 TSP）是屬於一個組合最佳化的問題，它的難題在於求解過程所需的時間往往遠超過可以容忍的範圍，因此，許多學者紛紛提出不同演算法方式來解決這類高難度最佳化求解問題。近年來的研究學者藉由觀察自然界物理的現象，嘗試應用這些自然法則來解決人類世界中各式各樣的問題，一般常見的解決方式有模擬退火法（simulated annealing，簡稱 SA）、類神經方法（neural network，簡稱 NN）、塔布搜尋法（tabu search，

簡稱 TS）、基因演算法（genetic algorithms，簡稱 GA）、蟻拓尋優法(ant colony optimization，簡稱 ACO)等，經由驗證，這些由物理現象所發展的計算方式雖無法保證可得到百分百正確的解，但可得的解逼近於最佳解，並且可隨著求解問題的不同，在不改變原始方程式主軸下作一些變更，以快速取得求解成效，這類的求解方式又可稱之為啟發式解法（heuristics algorithm）。啟發式解法不僅在計算上較為簡潔，它的主要精神是可以避免數學規劃模式需時甚久、不夠效率及避免簡單的啟發式解法(simple heuristics)落入局部最佳解的缺失。

蟻拓尋優法（ACO）的靈感是源於自然界真實螞蟻覓食過程所衍生的一種啟發式演算法，自 1991 年由 Dorigo 和 Coloni 等人觀察自然界螞蟻覓食行為，發表第一篇文章 Distributed Optimization by Ant Colonies【 34】之後，後續的學者便積極地投入該領域的研究。經由歷年實驗證明發現，利用螞蟻往返覓食之間所發展出的蟻行演算方式，在求解最佳組合化的問題上均有不錯的效果，尤其在求解旅行者推銷員問題上可得到近似較佳解【38】。本論文以蟻拓尋優法（ ant colony optimal）的演算方式為基礎，以全域性（global）的搜尋範圍作考量，擬定改善蟻拓尋優法中費洛蒙的更新機制，提出一個可減少螞蟻在探索路徑過程中，產生的停滯現象與過度收斂情形之更新方法，名為反差指數全域更新法（contrast exponent global update），並以求解旅行者推銷員問題來驗證本論文所提出更新方法的求解效果，

同時將反差指數值加入其它 ACO 模式，驗證其同樣可達成求解最短 路徑的效果。

(17)

1.1 研究背景與動機

為使蟻拓尋優法在求解過程時，減少可能產生的停滯現象或過早收斂的情形，自 1991 年開始陸續已有研究專家提出各種更新費洛蒙機制來改善此一狀況，更新方式依所搜尋的領域可分為兩大類，分別為局部更新方法（local update）與全域更新方法（ global update），因全域更新方法較能參考到全域性的資訊【34】，故後續的研究學者多以全域性的搜尋作為改良費洛蒙的更新方式，然而，無論依據那一種更新方式所作的改善模式，由文獻資料顯示，以蟻拓尋優法所求出的 TSP 解仍有可能產生程度大小不一的停滯現象或過早收斂情形，為減少此情況發生，本論文嘗試找出可降低此情形的關鍵所在，研擬出一套以全域更新方法作為搜尋最短路徑之費洛更新方式，並嘗試將加權指數值設定在其它的更新模式，驗證其適當地以反差指數值加權其它 ACO 的更新模式中，亦能在求解旅行者推銷員問題上有不錯的求解效果。

1. 2 研究目的

本論文主要的研究目的，是從歷年研究學者相繼所提出之蟻拓尋優法之費洛蒙更新機制中，針對蟻群搜尋路徑過程，目前尚無法完全避免發生之過早收斂情形與停滯現象問題，找出可降低此情況的關鍵因素，提出反差指數全域更新法(contrast exponent global update)的更新方式，以加入可控制之反差指數值來降低蟻群選擇錯誤路徑的機會，此不僅降低了停滯問題發生的機率，以權數的方式來控制蟻群行走途程的重要程度大小，亦可驅使後續蟻群沿著前面已找到較短路徑的螞蟻所留下的費洛蒙素行走，使求解速度提高，而儘早發現可行解。

本論文所提出的方法，用在旅行者推銷員問題上可求得最短路徑，用在其它組合最佳化問題上，例如二次指派問題（quadratic assign problem，簡稱 QAP）、工作站排程問題（job sop scheduling problem）、

路徑規劃問題（vehicle routing problem，簡稱 VRP）…等，找出問題中影響求解時間的關鍵因素，如同本論文在蟻群求解 TSP 問題，加入可控制之權數以反應其重要程度，將可降低實際應用上可能產生的不確定性問題。

(18)

1. 3 研究流程

實驗結果符合理論所預期

歸納結論與法則設定研究的領域與問題

是

否文獻的回顧與研究

模式的建立與參數的設定

程式撰寫

實驗與對照比較

探討與分析

圖 1.1 研究流程圖

(19)

1.4 研究範圍與限制

一般的更新模式都以配合全域更新法為基礎來更新費洛蒙素,本論文的研究主軸亦針對全域更新法作改善，並讓原本基於全域更新法的各種 ACO 模型配合新的更新方式也可以得到改善。由於執行的時間因素，在研究的驗證上，我們只取中型的國際題庫 TSPLP 之 St70 與 KroA100、KroA200 來對照比較歷年的實驗數據，並未選取 TSPLB 之大型問題作為測試資料，在反差指數的交叉組合上，我們亦僅設定在 0 到 6 的加權值，然後配合本研究所提出的更新方式逐一驗證。此外，自 1997 年開始有研究學者提出另一種設置上下限的更新模型

（max-min ant system，簡稱 MMAS）【47】，此領域因與傳統 ACO 的更新方式迥然不同，因此，在驗證比較上，我們只取 ACO 更新模型的範圍作對照比較，歷年文獻經由 MMAS 所驗證出的效果，本論文則僅當參考值，不再另行與之比較。

1. 5 論文架構

本論文共分成五個章節，第一章為緒論，說明本研究之背景與動機、研究目的、研究方法與研究範圍限制；第二章為文獻探討，主要介紹螞蟻理論與歷年來費洛蒙更新方法的介紹，及本論文會用到的法則-貪婪法則（greedy method）；第三章為反差指數全域更新法的建構，

主要是提出本論文的驗證模式與蟻拓尋優法的參數值設定範圍，並選出歷年更新的模式，將本研究所提出之反差指數值加入此 ACO 模型的更新方式，驗證其執行效果；第四章介紹執行後的結果與其分析研究；第五章則針對本論文的執行驗證作一總結，並對後續研究者提出相關建議，最後附上參考文獻與附錄，希冀能對後續研究人員提供些微的助益。

(20)

第二章文獻探討

本章共分成四小章節，將本論文所驗證使用之蟻拓尋優法的領域與求解 TSP 的範圍及歷年的費洛蒙更新模式逐一作介紹。由於蟻拓尋優法屬一 NP-Complete 問題，故第一章節以一簡單旅行者推銷員問題

（traveling salesman problem，簡稱 TSP）將 NP 問題的屬性與分類作一概要介紹；因本論文欲以 TSP 當成所提出之反差指數費洛蒙更新方法（contrast exponent global）的驗證對象，故在第二章節裏，本論文將對 TSP 問題與其研究領域作一概要介紹；第三章則介紹歷年來研究學者所提出之蟻拓尋優法及費洛蒙的更新模式。第四章則介紹貪婪演算法（greedy method）的求解原理，本論文讓蟻群依據此求解原理，

同時利用螞蟻正向回饋的精神（positive feedback）【40】讓後續蟻群能依循前面螞蟻行走最短路徑時所留下的費洛蒙素，陸續找到最短路徑。

2 .1 非決定性多項式 NP-Complete

NP 是英文 nondeterministic polynomial 的縮寫，意思是「非決定性多項式」。屬於 NP-Complete 裏的問題之一的旅行者推銷員問題 (traveling salesman problem)，不僅是組合最佳化問題中最具代表性的，亦是目前廣為人們所討論的研究對象，本論文以一簡單的旅行者推銷員問題例子來說明 NP-Complete 的意義，首先，先以數學符號來定義所設的假設條件；

一、設有一圖形 G，設 N 為所有城市的集合，E 為所有城市間路徑的集合，故此圖可表示成 G（N,E）。

二、在此例中，設共有 A、B、C…G 共 7 個城市，城市之間不受方向性的限制。

三、假設圖形中任意城市 i 與城市 j 可相互連通，兩者路徑距離可表示成d ，且兩城市的距離是屬於對稱（symmetric）的。 _ij

四、推銷員須從 A 城市出發並設法用最短總距離拜訪其它的城市站之

(21)

後再回到原點 A，過程中不可重覆拜訪同一個城市站。

當第一眼看到此圖，一般的直覺想法是：行經每站的路徑或許是 A B C D E F G A ，計算其總距離長為 255

（35+30+40+40+20+30+30+30=255），但它是否是是最短總距離？對 7 個城市來說，我們可算出將會有 6!=720 條不同的組合排法可得到路徑長，因此例只有 7 個城市，還不難算出它共有幾種的行走路徑組合，但計算數目若為 20 個城市，由 )ⁿ

e (n n 2 21 . 1

!

n 算出將會有

1017

21 . 1

!

19 種的路徑組合，隨著城市數目越大，可行走的路徑組合亦將隨之增加，若以每秒鐘排一次，所計算出的的組合排法時間將會有 3.84 x 10⁹年（一年約為 3.15 x 10⁷秒），如此的求解過程是過於龐大的，後續的研究學者便將此隨著求解問題條件的增加，求解時間 呈倍數成長之相關問題定義為 O(n)（order 即 O 縮寫的來源），即任 何求 n 個數的和或平均值，其計算量可縮寫成 O(n)來表示之，例如對 旅行者推銷員問題而言，若有 n 個城市，則將會有(n-1)!的排法，便 可定其計算量為 O(n!)。至於求解時間呈倍數的指數問題，一般以 n³ 與 2ⁿ來表示，2ⁿ表示計算量呈指數上升，n³或 n^k 表示計算量呈 n 的次 方上升，以目前的計算工具而言，呈次方上升的計算量會較求解問題

圖 2.1 推銷員拜訪站地圖【 23】

(22)

個呈指數上升的計算量問題，簡化為一個呈次方上升的計算量問題。在學術上，習慣將此相關求解問題分成二類【23】；

一、P-complete 類：在一個求解參數為 n 的問題，若能找到可以以次 方上升的計算量的求解方式，即目前已發展出多項式的時間演算法加以求解的問題，便稱之為 P-complete （ P 為英文多項式 Polynomial 第一個英文字）。

二、NP-complete 類：在一個求解參數為 n 的問題，若不能找到可以 以次方上升的計算量的求解方式，意即求解問題方法仍為指數時間演算法之問題。目前仍未發展出任何多項式時間之演算法。

綜合以上所述，隨著求解問題條件增加，其求解的時間亦隨之變大或呈倍數上升的，便可稱此求解問題是屬於一個 NP 的問題。若求解的結果近乎於完全正確的解，我們便稱此問題為一 NP-Complete 的問題；若求解過程較為繁複且所得的結果非正確的解，而是傾向可作參考的最佳解狀態，我們便稱此問題是屬於 NP-Hard 的問題。一般而言，NP-Hard 與 NP-Complete 的解雖非完全為正確解，但通常均具有 對照與參考的價值。

2.2 旅行者推銷員問題

旅行者推銷員問題是廣泛被討論的組合最佳化的問題

（combinatorial optimization problem，簡稱 COP），較早是由 Hassler Whitney 於 1934 所提出【42】，它的求解方式是使推銷員在最短時間內拜訪所有受訪點之最短總距離，並限制所有旅行城市中之每一城市只能拜訪一次且不可重複，最後必須回到原起始點，此又稱之為漢彌爾頓（hamilitonian circuit）路線。典型的 TSP 問題是：假設有一地圖顯示著 n 個城市與各城市之間的路徑距離，有一推銷員開車到 n 個 指定的城市站去推銷貨物，他必須在最短的時間或行徑最短總距離之內，拜訪所有應被拜訪的城市站再回到原點，且不可重覆推銷同一個城市。整理如下所述；

一、設一圖形 G，其 N 為所有城市的集合，A 為所有城市間路徑的集合，故此圖可表示成 G（N,A）。

二、假設圖形中任意兩個城市(,ij) N，arc(,ij) A，城市i 到城市 j 之路徑可相互連通，城市與城市的距離可表示成d 。 _ij

(23)

三、若兩個城市間的距離是受到方向性的限制，我們即稱此為非對稱

（asymmetric）的旅行者推銷員問題，即d_ij d_ij。若城市之間不受方向性的限制，我們便稱此為對稱（symmetric）的旅行者推銷員問題，即d_ij d_ij。

四、TSP 的求解目的是求出最短時間內拜訪所有點之最短總距離。

TSP 的數學模式【42】可表示如下；

n ：城市數目。

C ：從 i 城市到 j 城市所耗用的成本，ij 1 i n，1 j n。

0

X_ij 1 ，1 i n，1 j n。

1：表示可由 i 城市到 j 城市。

0：表示無法由 i 城市到 j 城市。

Minimize：

n 0 i

n o

j CijXij （2.1）

Subject To：

n 0 i

ij 1

X （2.2）

n 0 j

ij 1

X （2.3）

n s j

ij

ijX 1

C （2.4）

n j 1 , n i 1 1 , 0

X

（2.5）

(24)

其中 S 表城市集合 n 的一個子集合，且 S 不為空集合。在限制式

（2.2）與（ 2.3）所表示的是確保每一個城市都被拜訪一次，限制式

（2.4）是避免旅行的途徑產生迴路，確保所走的路徑是符合經濟性的。

求解 TSP 問題的方法大致上可分為；

一、確切法（exact algorithm）；茲列舉幾項為代表。

(一)窮舉搜尋法（exhaustive search method）。

(二)分枝界限法（branch and bound method）。【11】

(三)動態規劃法（dynamic programming）。【7】

(四)切割平面法（cutting plane）。【15】

二、啟發式解法（heuristic algorithm）；

(一) 傳統啟發式解法；

1.路線構建模組（tour construction）。

(1) 最近鄰點法（nearest neighbor procedure）。【5】

(2) 差入法（insertion）。

(3) 節省法（savings method）。【10】

2.路線改善模組（Tour Improvement）。【18】

(1) K-opt 節線交換法。

(2) Or-opt 節線交換法。

(3) Lin & Kernighan 節線交換法。

3.綜合法（composite procedure）。【2】

(1) 起始解求解+2-opt。

(2) 起始解求解+3-opt。

(3) 起始解求解+2-opt+Or-opt。

(25)

(二)一般啟發式解法；茲列舉幾項為代表。

1. 模擬退火法（simulated annealing）。【17】

2. 門檻接受法（neural network）。【13】

3. 塔布搜尋法（tabu search）。【14】

4. 基因演算法（genetic algorithms）。【3】

5. 蟻拓尋優法(ant colony optimization)。【1】

經由文獻數據得知，啟發式解法雖無法得到百分百正確的解，但結果往往傾向最佳解，並比傳統演算方法來得實際，故一般均採用啟發式的方法來求解 TSP 問題，其中尤以蟻拓尋優法 (ant colony optimization)在求解排列組合上均有不錯的效果【34】，而求解 TSP 問題時，可從一國際資料庫 TSPLIB 取得可供驗證的數據，因此，後續的研究學者較常將蟻拓尋優法用在求解 TSP 的驗證上。

以蟻拓尋優法求解 TSP 問題前，需先找出該演算法與所解問題之間的關聯性，如此所求出的解才不致於偏離問題的主軸，而 TSP 問題與蟻拓尋優法兩者的限制條件正好有相似之處，蟻群覓食的行為過程與旅行者拜訪所有受訪點的目的都是希望能在有限的時間或成本內達成總路徑最短的目標，因此很適合將 TSP 當成求解問題與測試之用。

在後續的研究顯示，蟻群的演算法中有許多不同的變更模式，幾乎都是針對求解旅行者推銷員問題來作改變的。以蟻拓尋優法求解 TSP 問題前，須先設定三個條件；

一、一個可接受的值：當 ACO 演算法在求解的過程中所得到的解已符合所要求的值，意即一個足以滿足求解的品質時則可以停止運算。

二、執行固定的遞迴次數：為使螞蟻能多點搜尋最佳解，最好將其設定成每隻螞蟻均須執行固定的遞迴數後才可停止。

三、演算已經達到收斂狀態時須停止：當演算持續運作一段時間之後，

所求的解已經近乎沒有改變，這時通常表示演算法已落入某局部最佳解(local optimal)中，此時最好立即停止運算。

(26)

2 .3 蟻拓尋優法的介紹（ant colony optimization）

蟻拓尋優法（ant colony optimization）是一個嶄新的近似求解法，它的求解方式是透過自然界螞蟻搜尋食物的過程，利用螞蟻的觸角具有觸覺與嗅覺之功能，尋覓彼此之間行走時，沿途所遺留下來的一種稱之為「費洛蒙素」（pheromone）的化學物質，如此達到相互傳達標的物所在，而越短之路徑將使螞蟻通過時間較短，導致最短路徑上累積之費洛蒙量越多，最後利用正向回饋（positive feedback）的精神，

使所有的螞蟻趨於行走最短路徑，尋得目標所在。【40】

圖 2.2 自然界螞蟻覓食的行為【34】

圖 2.2 所顯示的是螞蟻在自然界覓食的行為過程，我們將此圖設定行走數值與時間，作進一步的分析與解說如下；

圖 2.3 自然界螞蟻覓食行為圖解【35】

蟻巢

障礙物障礙物

障礙物食物

食物

(27)

圖 2.3 之（a）所顯示的是初始情況下，分別有兩條路徑 D 與 C，

路徑的距離分別為 D 等於 1 與 C 等於 0.5，且沒有任何螞蟻走過這兩條路徑，因此這兩條路徑上沒有任何分泌物-費洛蒙素的存留。圖 2.3

（b）顯示在時間點為零的時候，對任何一隻螞蟻而言，選擇路徑 D 與路徑 C 的可能性機率是相同的，所以會有一半的螞蟻選擇走路徑 D，而另一半則選擇走路徑 C。經過一段時間之後如圖 2.3 之（c）所示，走路徑 C 的螞蟻因行走的路徑較短已率先抵到食物所在地，而走路徑 D 的螞蟻因行程較長故只走到該路徑的中途，當到達食物所在地之走 C 路徑的螞蟻搬運食物欲返回巢穴時，它們同樣有 D 和 C 兩條路徑可以選擇，但因路徑 C 留存有分泌物-費洛蒙素，而路徑 D 的螞蟻群則因蟻群還在尋覓行走的階段而尚未覓得食物，未留下回程的分泌物-費洛蒙素，這時選擇路徑 D 與路徑 C 的比率分別為 1 比 2，由此我們可以判斷大部份的蟻群會選擇比率為 2 的路徑 C 回家。第二次當蟻群們再度出發覓食時，選擇路徑 D 與路徑 C 的比率就變成 2 比 4，

螞蟻選擇路徑 C 的機會較大，整個過程持續進行一段時間之後，路徑 C 的費洛蒙素較路徑 D 的費洛蒙相對提高，最終使所有的螞蟻選擇走上路徑 C，也就是兩條路徑中較短的一條。

螞蟻群藉由彼此訊息的傳遞機制，讓整個蟻群找到了覓食路徑中較短的一條，此稱之為正向的回饋精神（positive feedback）。在整個覓食及搬運路徑的過程當中，並沒有任何一隻螞蟻知道哪一條路徑較短，但是透過蟻群間的訊息分享，讓整個群體系統逐漸找出一條最佳路徑。由以上的敘述可知，蟻拓尋優法的特色有三；

一、確實的回饋精神（positive feedback）：透過費洛蒙素的聯繫，使得蟻群之間能夠快速相互傳達訊息，並且發現新的起始解。

二、分散的計算方式：即所謂的多點搜尋，可在已知解的範圍之內搜尋新的解，並避免過早的收斂。

三、使用貪婪法則（greedy algorithm）：在發展起始解的時候，使用貪心搜尋的方式較能提早發現可接受的解。

(28)

蟻拓尋優法應用在求解 TSP 問題時，首先，須將自然界真實螞蟻的覓食行為予以人工化，並使所求問題本身與蟻拓尋優法符合三項相似原理，如下；

一、求解問題本身必須是可以以路徑表示的。

二、求解時必須先決定費洛蒙素的分泌與存留方式。三、決定的路徑必須是以選擇機率方式所計算出。

無論是以何種螞蟻演算模型求解旅行者推銷員問題，首先須確認的是，求解 TSP 問題的城市數與蟻群數目兩者間有無關聯性，同時須設定所要搜尋的範圍與步驟，本論文整理其步驟如下；

一、選定區域搜尋範圍並已知有 n 個城市站，城市之間彼此有道路相連，而道路本身有遠近距離之分。

二、假設共有 m 隻螞蟻，每隻螞蟻必須拜訪 n 個城市，且不可重複拜訪相同的城市，最後必須回到原所在的城市。

三、由於自然界中的螞蟻是沒有視覺能力的，因此，必須以其它方式來輔助螞蟻所要依循的方向，在蟻拓尋優法中， _ij通常用來表示螞蟻的視覺能力，此所代表的是兩個城市間距離的倒數，意指越近的城市越容易看得見。【15】

四、螞蟻之間的群聚的行為，在蟻拓尋優法中是以 _ij表示，代表螞蟻在時間t 到t 1的間距內，參考先前蟻群所遺留下來的軌跡密度值作為行走的依據，軌跡密度值即沿途蟻群所釋放的費洛蒙素。

五、設與兩個參數值，來控制費洛蒙 _ij及城市 i 與 j 之間路徑 _ij的重要關係程度，且 0 及 0 。

六、螞蟻所行走的每個城市必需為可行走的範圍，此稱為允許集合

（allowed local）。

(29)

2.3.1 蟻拓尋優法的演算方式介紹

較早提出蟻拓尋優演算方法的，是由 Dorigo、Colorni、Maniezzo 等人，在 1991 年提出仿自然界之螞蟻覓食行為應用在求解組合最佳化問題時，具有不錯的求解成果之螞蟻系統（ant system，簡稱 AS）【34】，

奠定了蟻拓尋優法的基本演算模式。隨後 1995 年由 Gambardella 和 Dorigo 等【35】提出，透過搜尋到較短路徑的螞蟻之經驗，使得後續的蟻群可根據尋得較短路徑之螞蟻沿途所釋放費洛蒙素 AQ(r,s)陸續也找到最短路徑， AQ(r,s)指的是螞蟻由城市r 到城市 s 沿途所釋放的費洛蒙素，並以值將這種具協同學習精神效果予以適當的加權，

) s , r (

AQ 也就是後續研究學者通稱的 _ij 值。利用費洛蒙素 AQ(r,s) 所產生的蟻群間正向回饋精神，所求解較短路徑的效果便稱之為 Ant Q-value ，亦即作者所提出的 Q-learning ；往後更由 Dorigo 和 Gambardella 將 AS 及 Ant-Q 的定義作一整合，統稱為蟻拓尋優法（ant colony optimization，簡稱 ACO）【38】，後續的研究學者便將螞蟻理論的演算方法通稱為蟻拓尋優法（簡稱 ACO）。除了 AS、Ant-Q、

ACO 演算模型外，近年較受注意的是將螞蟻行走的路徑優劣作一排序後，再進行更新的螞蟻排序演算模型（簡稱AS_rank），以及將費洛蒙的更新設置上下限制值的 Max-Min AS 演算模型（簡稱 MMAS），以下便將 AS、Ant-Q、ACO 及 MMAS 的演算方法作逐一介紹；

一、基本螞蟻演算模型（ant system，簡稱 AS）

0

)]

t ( [ )]

t ( [

)]

t ( [ )]

t ( [ )

t ( p

allowedk

k

ik ik

ij ij

k

ij otherwise

allowed

j _k

（2.6）

（2.6）式之p^k_ij(t)表示在時間(t 之內，螞蟻由城市 i 行走到下一個) 城市 j 所依據的機率函數。此機率函數是由螞蟻行走時沿途所釋放的費洛蒙素 _ik與城市間距離的d 所求得，並以權數與值來設定其重_ij 要程度大小，蟻群所行走的範圍 k 亦必須是可行走的，以allowed 表_k

(30)

) 1 t , t ( )

t ( . ) 1 t

( _ij _ij

ij （2.7）

m 1 k

k ij k

ij( ,tt 1) (t,t 1) （2.8）

（2.7）式表示的是，因螞蟻在搜尋路徑的過程中會不停地移動，造成費洛蒙素不斷地更替與累積，也可能因時間與距離等其它因素產生費洛蒙蒸發的情況，故以 ρ 表示蒸發的權重係數，其值介於 1 與 0 之間。（2.8）式表示的是自第 k 隻螞蟻開始，共有 m 隻螞蟻在時間 t 與

1

t 的時間間距裡，從城市i 到城市 j 所留下之費洛蒙素。【34】

二、Ant Q-Learning 演算模型

Ant Q-Learning 的演算模型是 AS 演算模型的延伸， Ant Q-Learning 所強調的是透過蟻群間費洛蒙素的傳遞，達到互相搜尋較短路徑的學習精神。在 Q-learning 的 Ant Q 指的便是 AQ(r,s)，所代表的是聚集的學習精神，亦即藉由螞蟻從城市i 到城市 j 延途所釋放的費洛蒙素，傳遞彼此較短路徑的訊息，此亦稱之為是正向回饋的精神

（positive feedback）。【35】

otherwise q q if )

t ( P

)]

s , r ( HE [ )]

s , r ( AQ [ max

s arg ^o

k ij )

r ( J

u k （2.9）

由（2.9）式可知，螞蟻選擇行走下一個城市 s，是先算出各路徑的機率，再取亂數來決定實際行走的城市，在(2.9)式中的 AQ(r,s)代表的是費洛蒙素，HE(r,s)則是城市r 到城市 s 的距離的倒數，並以與值適當地設定兩者的重要程度。 q 代表的是一個門檻值，且_o

1 q

0 ₀ ，q 則表示一個由亂數取得的隨機值，且0 q 1，若 q 值小於q ，則螞蟻將依據_o AQ(r,s) HE(r,s) 所算出的值中之最大者作為選擇下一個城市行走，這是因為AQ(r,s) HE(r,s) 所算出的值越大，表示城市s 被選為下一個行走城市的機率就越大，若 q 值大於q ，則依_o

) t (

P_ij^k 所算出的機率值決定行走，P_ij^k(t)就是由（2.6）式所求出。在此， Ant Q-Learning 提出了一個新的狀態轉移規則（transition rule）來控制

(31)

螞蟻收斂與探索的程度，如（2.9）式，隨著q 值設得越大，_o q q_o的機率將越大，下一隻螞蟻直接循著先前螞蟻所走的較佳路徑之可能性就越高，如此將使收斂的速度加快，減少因探索行為所可能產生的停滯不前的現象，因此，將q 值調整在最適當的值才能得到較好的求解。 _o

) z , r ( AQ Max )

s , r ( AQ )

s , r ( AQ ) 1 ( ) s , r (

AQ z J(s) （2.10）

（2.10）式表示螞蟻的學習精神是由 AQ(r,s)所組成， AQ(r,s)是螞蟻由城市r 到城市 s 所累積的費洛蒙素，其中包含因蒸發所殘留的費洛蒙，在此式中所代表的是指費洛蒙未蒸發的係數，(1 )表示經由時間蒸發的費洛蒙素值，此外， AQ(r,z)表示螞蟻從城市 r 開始， 陸續行走之共有z 個城市的費洛蒙素總合，值所代表的是一個學習精神的折扣因子，指後續螞蟻循此路徑的學習重要程度，此值通常介於 0 和 1 之間，值越大表示此路徑值得後續蟻群學習程度就越大，

值得蟻群選擇去行走，反之則越小。

三、蟻群聚集演算模型（ant colony system，簡稱 ACS；又稱 ACO）

ACS 的演算法是依據 AS 與 Ant-Q 的演算基礎所提出，後續學者亦將 AS 與 Ant-Q 的結合通稱為蟻拓尋優法（ant colony optimal，簡稱為 ACO），它最大的特色是讓螞蟻在探索路徑的過程中，使用局部更新的方式（local update）來更新蟻群間的費洛蒙值，如此將使蟻群快速尋得局部較短路徑解。【38】

otherwise q q if )

t ( P

)]

t ( [ )]

t ( [ max

s arg ^o

k ij

ij ) ij

r ( J

u k （2.11）

) 1 t , t ( )

t ( . )

t

(

_ij^k

m

1 k old ij new

ij （2.12）

（2.11）式的演算方式與（2.9）相同，唯一不同的地方在於（2.11）

式中的費洛蒙素 _ij並未給予設定權重值。(2.12)式所指的則是蟻群搜

(32)

蟻群沿途所留下且經由一段時間蒸發後，所殘留之舊的費洛蒙素

old

ij(t) ，加上由總數 m 隻螞蟻在 t 到 t+1 的時間間距內，經城市 i 到城市 j 所累積的費洛蒙素，所計算出來的費洛蒙素的總合，此以

m 1 k

k

ij( ,tt 1)表示之。

四、螞蟻排序演算模型（AS_rank）

螞蟻排序演算模型是近年較受到後續學者注意與討論的範圍，此模型與其它模型最大的差別在於選擇更新方式的不同，螞蟻排序演算模型的更新方式又可分成精英螞蟻更新法（AS_elite）與螞蟻排序較優更新法（AS_rank），兩者的更新方式均由目前所有搜尋路徑的螞蟻中，依照其所求得的距離長短作一優劣排序後，再選擇行走較短的前w 隻螞蟻來作更新，如此，將不會因行走較長距離的螞蟻被考慮到更新的範圍內，而產生過早停滯的現象。【31】

其它 j if 0

] [ ] [

] [ ] [ ) t ( p

h

ih ih

ij ij k

ij （2.13）

* ij ij ij

ij(t 1) (t) （2.14）

m 1 k

k ij

ij （2.15）

0 其它 L

Q

k k

ij （2.16）

0L 其它 Q

* *

ij （2.17）

(33)

（2.13）式的計算方法與(2.6)相同，在此則不另加敘述，其中所代表的是蟻群可行走的範圍。(2.14)式表示的是費洛蒙素 _ij(t,t 1)是由蟻群在時間t 與t 1的間距裏陸續所累積的，為一蒸發係數值， _ij由

（2.15）式所求得，共由 m 隻螞蟻所求得的費洛蒙素總合，其中 _ij^k是採用全域更新方法所求得，如（2.16）。在此要注意的是 _ij^*值，此是由所有搜尋路徑的螞蟻中，選出之尋得較短路徑之優秀螞蟻的費洛蒙素參考值，計算方法如（2.17）式，表優秀螞蟻的數量。將行走途程較短的優秀螞蟻 _ij^*列入更新的參考值，主要的目的是協助其它蟻群走向更佳的途徑。

五、設上下限值之螞蟻系統演算法（Max-Min ant system，簡稱 MMAS）

0

)]

t ( [ )]

t ( [

)]

t ( [ )]

t ( [ )

t ( p

allowedk

k

ik ik

ij ij

k

ij otherwise

allowed

j _k

（2.18）

best ij ij

ij(t 1) (t) （2.19）

max ij

min

ij(t 1) (t 1) （2.20）

MMAS 讓螞蟻依機率值作為選擇下一個城市的依據，與 ACO 的

演算方式是一樣的，如（2.6）所示，其與 ACO 最大的差別在於 MMAS 只選出行走途程較短之最優秀螞蟻來作更新（2.19），此是為了降低使用多隻螞蟻搜尋路徑時所可能產生的停滯不前現象，同時將費洛蒙素的限制在一個範圍內更新，此稱為 Max-Min，更新的設置範圍可依問題的屬性來設定，如此，主要是為了引導後續蟻群的探勘行為，增加搜尋到較短路徑的機會。【47】

由於蟻拓尋優法在求解最佳組合上有不錯的效果，因此後續研究人員紛紛將此應用在各式各樣的組合問題上，如二次指派問題

（quadratic assign problem，簡稱 QAP）中的 AS-QAP、MMAS-QAP、

HAS-QAP【28】，與工作站之排程問題（job-sop scheduling problem）

【29】的 AS-JSP、路徑規劃之路敬規劃問題（vehicle routing problem）

(34)

的AS_rank+2-opt【30】…等。另外，對於蟻拓尋優法的更新方式之 _ij的設定，大致上可分為全域更新方法（global update）與局部更新方法

（local update）兩大類，在下一個章節，本論文將介紹截至目前為止，

有關全域更新法與局部更新法的費洛蒙更新領域的模式。

2.3.2 歷年費洛蒙更新方法介紹

螞蟻在搜尋的過程當中，為避免螞蟻群行走同一條路徑而喪失了探索其它路徑的機會，主要的解決方式，便是在累積的費洛蒙 _ij更新上作調整。自 1992 年陸續已有研究專家提出各種強化更新費洛蒙素的方式，主要依搜尋的範圍分為兩大類；

一、局部更新方法（local update）；

(一)螞蟻密度模式（ant density model）：以之前有多少螞蟻走過作為第k 隻螞蟻選擇行走下一個城市的依據。【34】

0 其它 ) Q

1 t , t

k(

ij （2.21）

Q：指在時間 t 到時間 t 1之內，螞蟻從城市i 到城市 j 所留下的費洛蒙素。依據歷年的研究數據顯示，Q 通常表一常數值，

通常將此設置在 1、10、100…等整數值。

(二)螞蟻質量模式（ant quality model）：以城市之間的距離作為螞蟻選擇行走下一個城市的依據；【34】

0 其它 d

Q )

1 t ,t

( _ij

k

ij （2.22）

dij

/

Q ：在時間t 到t 1的間距裡，由第k 隻螞蟻從城市 i 到城市 j 所留下的費洛蒙素，d 指螞蟻行走城市 i 到城市 j 之間的_ij 距離。Q 為費洛蒙素累積量。

(35)

二、全域更新方法（global update）；

（一）螞蟻週期模式（ant Cycle）：以所有螞蟻走過全部路徑的總和作為行走下一步的依據；【34】

0 其它 L

Q )

1 t ,t

( _k

k

ij （2.23）

Lk

Q ：L 表示由第 k 隻螞蟻走過所有城市路徑之沿途所釋_k 放的費洛蒙素總和。Q 為費洛蒙素累積量。

1. 全域性較佳更新模式（global-best）：從開始到目前為止的搜尋過程，依所行走最短路徑的第k 隻螞蟻所留下的費洛蒙素來作更新；【35】

0 其它

) s , r (

AQ Lkgb

W

（2.24）

kgb

L /

W ：從開始到目前為止的搜尋過程，由第k 隻螞蟻從城市r 到城市 s 所留下的費洛蒙素。W 表示為費洛蒙素累積量，與Q 的意思相同。 AQ(r,s)表由城市r 到城市 s 所沿途所釋放的費洛蒙素，此亦與 _ij的意思相同。

2. 螞蟻循環較佳方式（iteration-best）：到目前為止，以螞蟻循環搜尋路徑的過程中，由行走最短路徑的第k 隻螞蟻所留下的費洛蒙素；【35】

0 其它

) s , r (

AQ Lkib

W

（2.25）

kib

L /

W ：截至目前為止，以螞蟻循環搜尋較短路徑過程，

由行走最短路徑的第k 隻螞蟻所留下的費洛蒙素。 W 的意

(36)

思與Q 相同，表費洛蒙素累積量。 AQ(r,s)表由城市r 到城市s 所沿途所釋放的費洛蒙素，此等同於前面所提的 _ij。 3. 螞蟻排序較優更新法（AS_rank）：此更新法是將名次問題考

慮進去，是依照螞蟻行走的距離長短，用名次方式作優劣排序後，再作更新；【31】

0 其它

u

ij L^u

Q ) u

( （2.26）

Lu

Q ) u

( ：將所有螞蟻依照行走路徑的長短作名次的排序，

u 表名次，指要更新的螞蟻總數再加 1，此表示費洛蒙的更新是依照名次的順序作為新依據。

4. 精英螞蟻更新法（AS_elitise）：以行走路徑最短的優秀螞蟻在城市之間所添加的費洛蒙素作為更新方式；【31】

0 其它

*

ij L^*

Q （2.27）

L*

Q ：由行走較短路徑之優秀螞蟻群在城市r 到城市 s 間，

所添加的費洛蒙素作為更新的依據。代表行走最短行程的優秀螞蟻的數量。＊在此表示為優秀之意。

（二）設置上下限值之費洛蒙素更新方法（Max-Min update role）：此方法與其它 ACO 更新方式略有不同，其主要是將沿途螞蟻所釋放的費洛蒙素設置上下限值，以防止費洛蒙素產生的過少或過多情形玵發生過早收斂與停滯的現象。【41】

max ij

min

ij(t 1) (t 1) （2.28）

(37)

min：將費洛蒙素設在某一下限範圍，若費洛蒙素在時間t 與t 1的間距裡小於或等於所設的下限值，則 _ij的量等於

min下限值。

max：將費洛蒙素的值設在某一上限範圍，若費洛蒙素在時間t 與t 1的間距裡大於或等於所設的上限值，則 _ij的量等於 _max的上限值。

依文獻資料顯示，以全域更新方法為搜尋範圍的螞蟻週期（ant cycle）更新方法較能參考到全域性的資訊，讓費洛蒙素遍佈了不錯的參考值與探索其它路徑的機會，但是全域性的更新過程，仍有可能參考到搜尋較長路徑之螞蟻，將其更新到費洛蒙路徑的資訊裏，而影響到後代的更新結果，使求解增加了路徑成本及過早停滯現象

（stagnation），為減少發生此情形，1997 年由 Stϋtzle 和 Hoos 發表，

針對費洛蒙素的更新值作變化，將費洛蒙素的更新方式設置上下限值

（Max-Min update role）【46】，以避免蒸發的問題使得費洛蒙素的值過度縮小，亦可避免因過度擴大費洛蒙值而產生停滯現象，使探索

（exploration）其它路徑的功能更為顯著，此方法通稱為設置上下限值的螞蟻演算模型（Max-Min Ant System，簡稱 MMAS），它與一般 ACO 更新方法的區別，主要在於 MMAS 對沿途所留下的軌跡密度值 設置了極大值（ _max）與極小值（ _min）的限制，ACO 則針對蟻群探索 的優劣作更新。 MMAS 引進了特殊的軌跡平滑機制（ trail-smoothing mechanism），即螞蟻行經較長時間而產生停滯現象時，可根據線性比例來調整當前路網中的軌跡強度，對於城市間距離d 的軌跡強度可按_ij 照 _max與 _ij(t)的差值按比例增大。

2.4 貪婪演算法

貪婪演算法（greedy method）【22】指在面對每個抉擇的時候都作出眼前看似最好的決策，決策一旦作出就不可再作更改，此作出貪婪決策的依據，我們便稱之為貪婪法則（greedy criterion）。貪婪演算法的精神在於每一步面臨選擇時,永遠都在眾多選擇中選其對已身最有利的決定，並能因選擇局部最好的解而引導後續的選擇亦達到更好，可稱作是以上往下(top-down)的方式逐步構造最佳解。在最小擴張樹

(38)

法【42】即是一個很典型的貪婪演算法，同時亦被廣泛應用在求解最短路徑問題（shortest problem）、背包問題（knapsack problem）、排程問題（scheduling）…等。

在螞蟻搜尋路徑的過程當中，我們便可利用貪婪法則的精神，使蟻群選擇下一站城市時，依據前面螞蟻走過所陸續累積的費洛蒙素強弱來決定行走，在此必須注意的是，貪婪演算法並不能保證所得到最終效果會是最優的，它的目的是在有限的時間或其它的成本限制下求得局部最佳解。貪婪搜尋的原則是：

一、選出目前所有路徑活動中最早完成的，即行走距離較短，可快速求得解的活動。

二、盡可能地挑出行走據點之最短距離。

三、選擇所耗時間最短、成本最低的。

貪婪演算法較常應用的領域之一是求解最短路徑（shortest paths），此與本論文以蟻拓尋優法求解旅行者推銷員問題的目的頗為相似，故以下以求解最短路徑之簡單例子，闡述貪婪演算法的運作過程，首先定義假設條件；

一、設有一有向圖形 G（N,A），N 為所有城市的集合，A 為所有城市間路徑的集合，此設共有 6 個城市站。

二、圖形中任意兩城市各自有距離成本（如圖 2.6）。

三、設起始城市為 1。

四、目的求起始城市至城市站 3 的最短總路徑成本。

(39)

若以一般求解最短路徑（shortest path）法，由圖 2.4 逐一演練所有可行路徑，可計算出共有 A、B、C、D 四種繞行方式，各自行走的路徑成本為；

A. 1 3 = 總路徑成本 45

B. 1 2 3 = 總路徑成本 50+10=60

C. 1 4 5 2 3 =總路徑成本 20+15+20+10=55 D. 1 4 5 3 =總路徑成本 20+15+35=70

由上列可知繞行最短路徑為 A，其總路徑成本為 45。貪婪法則的作法則是以當前與下一站的最短距離來選擇作為到達下一站的依據。

根據貪婪法則的原理，最終所得到的解為； 1 4 = 總路徑成本 10

1 4 5 = 總路徑成本 20+15=25 1 4 5 2 =總路徑成本 20+15+20=45

1 4 5 2 3 =總路徑成本 20+15+20+10=55

由上列可看出，利用貪婪法則所求算出最短路程為 55，與一般求解最短路徑方法所求出的總路徑成本為 45，兩者的最終結果的差異性並不是很大。一般求解較短路徑方式，是至少必須將每個城市站的距

圖 2.4 有向圖形

(40)

離都一一求算過後，才知道最短路徑為何，以圖 2.4 的城市數目而言，

或許尚能求算得出每種路徑組合，一旦城市數目增加，則可能相對地增加求算的時間。貪婪法則在此提供一套可快速求得近似解的方式，

在求解過程中，如例子所示，均以當前與下一站之最短距離來作為選擇到達的依據，求解相對可減少許多。

(41)

第三章反差指數全域更新法的構建

本章節共分成四小章節，主要敘述本論文提出的反差指數全域更新法（contrast exponent global update）應用在旅行者推銷員的研究架構。第一小節介紹本論文提出更新方法的源由；第二小節介紹如何驗證反差指數更新法能提高求解最短路徑的成效，並將反差指數值加入其它 ACO 更新模型後的測試方式；第三小節介紹反差指數更新法選擇螞蟻循環較佳更新法的源由與驗證的方式；第四小節則介紹蟻拓尋優法之參數設定的方向與設置錯誤所可能產生的影響。

本論文的研究方法，分成兩個階段來進行，第一階段為測試階段，

主要是驗證本論文所提出之反差指數全域更新法（contrast exponent global update）求解 TSP 的過程中，是否能如預期地提升求解最短路徑的效果，並嘗試找出目前所有蟻拓尋優法的更新模型中，尚無法完全避免的過早收斂情形與停滯現象之關鍵因素，同時驗證本論文以指數的方式來設定蟻群行走距離長短優劣的權重，增加後續螞蟻傾向最短路徑行走，是可以達到快速求解的效果。透過費洛蒙的作用，我們將可瞭解到費洛蒙素是如何幫助執行系統累積經驗以進行螞蟻之間的溝通，同時引導下一隻螞蟻選擇較短路徑解。經由第一階段的測試，

確認反差指數可提高求解最佳的路徑解之後，本論文將在第二階段的測試中，根據螞蟻循環最佳更新模式（iteration-best）的原理與螞蟻排序較優更新法（AS_rank）的精神，選出經由蟻群循環行走路徑後的前 6 隻行走距離較短的優秀螞蟻，加入反差指數（contrast exponent）值作費洛蒙素的更新，並從 TSPLIB 的國際題庫中選出較大執行數據 KroA100 與 KroA200，驗證反差指數值加入其它 ACO 更新模型後，

同樣是可以提升求解 TSP 的效果的。

3.1 反差指數全域更新法

由於全域更新（global update）的搜尋考量與本論文所要的目標式較能有相對應的關係，因此，本論文仍以廣泛的路徑範圍作考量，

基於全域性搜尋的法則，建構出另一種費洛蒙素的更新方法，名為「反 contrast exponent global update），將螞蟻走過所

(42)

有的路徑加入一個可控制的加權指數，同時視城市與城市間距離的重要性來決定給予多少權重指數，目的是要拉大較短路徑與較長路徑之間費洛蒙素的反差，避免螞蟻因行走到費洛蒙釋放比例差異不大之較長的路徑，而間接影響到後續螞蟻選擇了錯誤的路徑，藉由反差指數值拉大路徑的差異性可減少增加蟻群求解較短路徑的時間。更新方式如下所示；

0 其它 d L

Q )

1 t ,t

(

^v_k _ij

k

ij （3.1）

ij v

ij d L

Q ：以 ν 和 γ 的指數值來控制第 k 隻螞蟻走完所有路徑總和

所留下的費洛蒙素與城市之間的距離。

L ：表第 k 隻螞蟻行走路徑之沿途所釋放的費洛蒙素總和。 k

d ：表城市 i 到城市 j 的距離。 ij

ν：設定成控制螞蟻行走距離的全域反差指數。

γ：設定成控制城市間距離的區域反差指數。

(3.1)式表示全域更新法可視為反差指數全域更新方法的一個特例, 當 γ 為 0 與 ν 為 1 時,反差指數全域更新法則將等同於全域更新法，

隨著 γ 值與 ν 值的遞增,將可得到反差指數對提升最短路徑的求解效果。

3.1.1 反差指數的測試

在第一階段的研究測試，首先，本論文以 20 隻螞蟻之間的互動來制定整個系統的催化過程，並以國際題庫 TSPLP 之 St70 作為執行的數據，為了能使螞蟻行走的總路徑受到反差指數的控制而能搜尋到較短路徑，本論文把所提出的反差指數全域更新方法中之全域反差指數 ν 值和區域反差指數 γ 值設成從 0 到 6，並以交叉組合的方式，找出可得較短路徑的反差指數值。

(43)

執行 St70 的流程圖如下；

選定程式庫

ACO 參數設定

比較全域更新法與反差指數更新法的結果執行完成、記錄完整數據

執行程式設定反差指數

數據進階分析與歸納反差指數特性完成所有反差

指數組態

圖 3.1 St70 測試流程圖是

否

中 華 大 學

中 華 大 學 碩 士 論 文

題目：改良式蟻拓尋優法求解旅行者推銷員問題

系 所 別： 科 技 管 理 研 究 所 學號姓名： M09103032 吳育盈 指導教授： 謝 玲 芬 博士

中華民國九十三年六月

改良式蟻拓尋優法求解旅行者推銷員問題

學生：吳育盈 指導教授：謝玲芬

摘要

AS

Improvement of TSP Solution by Revised Ant Colony Optimization.

Student：Yu-Ying Wu Advisor：Ling-Feng Hsieh

Abstract

AS

Keywords： Travel Salesman Problem、 Ant Colony Optimization、Contrast

誌謝

目錄

圖目錄

表目錄

數學符號總表

n

第一章 緒論

1.1 研究背景與動機

1. 2 研究目的

1. 3 研究流程

1.4 研究範圍與限制

1. 5 論文架構

第二章 文獻探討

2 .1 非決定性多項式 NP-Complete

2.2 旅行者推銷員問題

2 .3 蟻拓尋優法的介紹（ant colony optimization）

2.3.1 蟻 拓 尋 優 法 的 演 算 方 式 介 紹

) 1 t , t ( )

t ( . )

t

(

MMAS 讓螞蟻依機率 值作為選擇下 一個城 市的依據，與 ACO 的

2.3.2 歷 年 費 洛 蒙 更 新 方 法 介 紹

2.4 貪婪演算法

第三章 反差指數全域更新法的構建

3.1 反差指數全域更新法

0 其它 d L

Q )

1 t ,t

(

3.1.1 反 差 指 數 的 測 試

中華大學

中華大學碩士論文

系所別：科技管理研究所學號姓名： M09103032 吳育盈指導教授：謝玲芬博士

學生：吳育盈指導教授：謝玲芬

第一章緒論

第二章文獻探討

2.3.1 蟻拓尋優法的演算方式介紹

MMAS 讓螞蟻依機率值作為選擇下一個城市的依據，與 ACO 的

2.3.2 歷年費洛蒙更新方法介紹

第三章反差指數全域更新法的構建

3.1.1 反差指數的測試