第三章 基於均值移動之自適應共變異數矩陣演算法
3.1 想法起源與概念
本節解釋本論文的想法起源,並解釋方法流程。在正式介紹演算法以前,這 一節說明觀察到的傳統CMA-ES 缺點並提出一個想法來改善。
文獻[1]經由雙球型函式的實驗指出 CMA-ES 效能與區域搜尋的代表「梯度 上升法」相近,比較的標準是使用收斂至最佳解的成功率,關於實驗的函式如圖 所示:
(a) (b)
圖 3.1 雙球型函式等高線圖。(a)兩個相同大小的圓,收斂域大小相同。梯度法的 成功率約為50%。(b)最佳解在灰色區域的收斂域比較小。梯度法的成功率約為
30%。
在預設樣本數(population)等於 14 下,不管最佳解收斂域的大小比例為何,
CMA-ES 頂多只比梯度法多了 5%成功率。文獻上指出大樣本數有助於 CMA-ES 增加成功率[18],增加樣本數最明顯的是克服雜訊的能力,例如在附上雜訊的球 形函式即拉斯齊金(Rastrigin’s)函式。但在無雜訊的雙球型函式實驗裡使用大樣本 數等於500 時,圖(b)的成功率反而更差,約只有 10%,小於梯度法的 30%。甚至 在實驗雙拉斯齊金函式時,不管大或小樣本數都無法得到好的效能。顯然即使增 加樣本數也無法在各種狀況全面的增加全域搜尋能力,甚至效能更差,這說明了 CMA-ES 的全域搜尋能力缺陷,無法單靠增加樣本數解決。
除了上段文獻的實驗結果外,本論文再經由觀察傳統CMA-ES 在搜尋行為上 的現象及限制,而提出一種改進的方法。經由實驗發現,在兩個相當的區域最小 解中間,平均值軌跡只會有短暫徘徊行為並由隨機效果收斂至其中一個區域最小 解,並不會持續往兩個解方向擴張,無法經由同時比較兩個區域最小解的大小來 決定收斂至真正的最小解,如圖 3.2 (b)。
20
(a) (b)
圖 3.2 傳統 CMA-ES 實驗結果圖。起始點在圖中央座標(0,0)位置,白色線條 為其平均值軌跡,背景顏色越深代表適應值越好,右上是區域最佳解;左下是全 域最佳解。(a)徘徊且比較後收斂至全域最佳解。(b)沒有搜尋左下的全域最佳解就
直接收斂至右上區域最佳解。
本論文認為上述缺失是由於取樣分佈被固定於常態分布的限制所造成。在統 計學習(statistic learning)學上[20],簡單的常態模型已不夠處理複雜問題,進階的 方法是由常態混合模型來做處理,常態模型是常態混合模型的一個特例,而常態 混合模型可以有效近似多峰的機率分佈函數,並表現出重要特徵:峰的數量和位 置。這是簡單常態機率分佈模型所不能及的,本論文認為若替換掉CMA-ES 的常 態取樣分布以更有彈性的常態混合取樣分布取代,可以改善上段所述缺失。
在 近 年 已 有 少 數 文 獻 試 圖 將 CMA-ES 轉 成 多 重 區 域 搜 尋 樣 式 , 例 如 PS-CMA-ES 利用粒子群演算法將全域搜尋能力提高[5]。本論文與這些方法不同 的是採用更改取樣分佈的機率模型為出發點,在做完取樣後,對所有樣本做一次 特殊的分群。每一個群的涵義若從一般角度來講,一個新分出來的群正代表著一 個新的CMA-ES,也就是利用群創造出多重 CMA-ES 進行多重區域搜尋;從本論 文 2.5 節混合機率模型的角度來講,一個新群就是一個新的混合模型組件,此舉
21
可以消除CMA-ES 只有一個常態分布時無法同時對多個方向搜尋的缺陷。
在分群演算法方面,由於CMA-ES 每一代的樣本點數頂多十幾點,假如使用 參數型分群法,一般都是使用最大可能性估計(maximum likelihood estimator)為基 礎,例如常態混合模型分群法[10]。利用這些小樣本得出的最大可能性常態模型 的結果通常非常差,即強健性(robust)不足,畢竟最大可能性估計器許多良好特性 只有在大樣本數才出現,例如漸進有效估計器(asymptotically efficient estimator) 的特性。有鑑於此,本論文選擇使用非參數型分群法,這一類型方法在強健性方 面比基本的參數型方法好是文獻所公認的[10, 24]。