學習行為是嘗試描述個體在面對重複決策問題時所使用到的簡單學習法則。
對於消費者學習行為,指消費者從自身的購買經驗或觀察別人所學習到產品與價 格的差異,及忠誠度或轉換成本的考量,持續調整而使下次購買決策得到更高的 報酬。已有許多經濟與行銷領域之研究分析支持,即使簡單的適應學習法則能幫 助解釋人類行為。Hopkins(2007)、Hehenkamp(2002)提到消費者對價格的 學習行為,將會影響到廠商的價格決策與之間的競爭互動。對於學習行為,需多 文獻以嘗試應用不同的演算法來模式化學習行為,
Kuenzel 與 Muster(2007)(文獻)以食品類商品為例分析在消費者對商品 涉入程度不同,也會影響其與群體互動程度,自然會影響其學習行為。
目前已有許多研究應用不同的演算法來呈現個體面對不同決策問題時,所對 應的適應學習模式。例如Furtado(2009)應用 ABMS 建構犯罪活動系統,該研
究應用蟻群最佳化演算法來模式化罪犯的活動適應學習行為,與真實犯罪資料相 較分析下,結果具有相同的型態(Pattern)。Zhang(2009)應用 ABMS 建構廠 商古諾競爭市場,該研究應用群體演算法模式廠商的競爭適應學習行為,結果指 出廠商最後的最佳均衡策略與過去經濟理論之預測相同。
Vila (2008)認為消費者購買決策具有策略式學習行為,而基因演算法的 概念與策略學習行為模式不謀而合(J. Kennedy, 1999; Marsh & Onof, 2008),因而 應用基因演算法(GA)模式化消費者行為。該研究主要認為是顧客從事購買決 策時,會對該決策行動進行思考、推理其行動得到高報酬背後的因果關係及結構,
通常包括更高層次的記憶與群體學習兩個能力。記憶為清楚的了解各種購買情況 下所應採取的決策,同時會記憶自身與所觀察到的最佳購買決策。顧客策略式學 習行為模式主要指購買行動後,藉由蒐集價格資訊幫助決定最佳購買決策,例如 針對購買商品時,會觀察及參考所屬社群中朋友或網路上的建議,學習到群體中 較佳的購買策略,經過思考後,來調整並逐漸形成自己的最佳購買策略。在某些 實務上此產品為高單價商品,消費者對此類商品為經常購買及價格記憶較深刻,
會進行策略式的比較。以下是為讀者介紹幾種可做為學習行為之演算法。表2-1 說明兩種行為模式之比較。
表 2-1 行為模式之比較
適應性行為模式 自我式 策略式
產品特性 價格較低、日常生活用品 價格較高
演算法 強化學習 群體演算法 、蟻群演算法
學習方式
自我式學習 從自我過去經驗學習
群體式學習
會透過觀察與搜集資訊進行 學習
代表性學者 Roth and Erev(1995) Kennedy 及 Eberhart(1995),
Dorigo(1992)
學習特性 學習是行為重複強化的 結果
學習是透過認知的重組、具有 了解背後因果結構的推理能
力
行為複雜程度 較簡單 較複雜
一、強化學習(Reinforcement learning)
強化學習(Reinforcement learning 簡稱,RL)早期是從神經機械學所發展出 來並且應用於統計學、心理學、類神經學與電腦科學,在近五到十年中,它更被 大量地借用到機器學習與人工智慧的社群當中,做為模擬人類學習行為其中的一 種演算法。RL 是從心理學的角度出發,透過觀察人類在陌生環境下持續不斷嘗 試錯誤的現象所發展而來,為了能更瞭解「強化」的特性,Roth and Erev 首先 引入兩個在心理學中描述人類學習行為的基本法則做為架構RL 的起點,包括當 決策過後的報償值越大,個體的印象就會愈深刻,所以相對上的學習效果也就愈 大的「效果律」(Law of Effect),可表示成個體的決策過程決定於某策略佔其 策略集合的相對機率大小。而練習律(Law of Exercise)為個體表示為學習曲線 在初始時比較陡,隨時間經過會趨於平滑,描述個體隨時間經過會透過「練習」
逐步篩選出最適策略的動態過程(Erev & Roth, 1998; Sarin & Vahid, 2001)。
個體在決策的過程中常常會受到過去經驗與社會環境等外在因素的干擾,而 為了能夠更準確的進行決策,個體會進行訊息收集與過濾的工作。就強化學習而 言,其中心思想認為觀察別人之方式,因成本過高而減損其價值等因素,因此其 訊息收集的來源為個體決策後所實現的報酬,並不會觀察別人行為。隨時間經過,
過去擁有較佳表現的策略再次被選擇的機率也相對較大,簡單地講,RL 只關心 個體本身的歷史經驗。基本RL 的流程請參照圖 2-2。
圖 2-2 強化學習流程圖
在以代理人基計算建模中,以Roth and Erev 於 1995 提出的強化學習為最具 代表性。下面說明 Roth and Erev 所提的強化學習演算法。個體之策略集合 k
(k=1,…n),在t 期時,個體對於每個可選擇的策略各具有一個傾向(Propensity)
以
表示, =
1, , ...,
2
n I
n,RL 是以傾向的高低做為選擇策略的標準,若 傾向權數越大,則表示個體選擇該策略的機率愈大。一開始所有可選擇策略的初 始傾向大小可相同或隨機。根據效果律所隱含的基本特性,RL 的策略選擇是由 各策略傾向與總傾向的比值所決定,該比值表示每個策略被選擇機率的大小,所 以在t 期個體選擇策略的邏輯(Logit)法則如下:
n
=1
exp ( ( ) ( ) =
exp ( ( )
i i
j j
x t t
t
公式 2-1其中β為選擇行動的理性程度,其值設定愈高表示選擇高傾向行動的機率也 愈高。化學習之個體只須專注本身過去歷史報酬即可。因此個體決策後所產生的 報酬就是心理學家認定可以讓人「強化」學習的關鍵因素,每次決策過後,依據
學習問題計算出報酬(Payoff)
u t
i( ),RL 會將報酬(該策略學習到的部分)加二、群體學習(Swarm Algorithm)
近幾年來許多科學家發現群體昆蟲在其特有的合作模式下展現出令人驚奇 的效率,而相繼投入研究螞蟻、蜜蜂、魚群、鳥群及黃蜂等之群體生活,如學者 發現蜂群(Honeybee Colony)在其蜂巢成長達到某一限度時,自然開始將巢一 分為二,繼續繁殖,這樣的模式如同企業成長到某一規模時,該精簡或分割某些 部門或人力出去情況。又如白蟻在建構自己的巢穴時,在環境溫差變化很大的情 況下(如白天氣溫高達 50 攝氏度,夜間氣溫降到零攝氏度以下),白蟻群能合作 建構出結構十分複雜,溫度卻始終保持在攝氏 25 度左右的巢穴。再如女王蜂
(Queen Wasp)為避免某些重要之黃蜂離開風巢獨立門戶,會授予黃蜂繁殖的 權利,同時需考慮當時的氣候及物資,決定是否提供更好的引誘來留下黃蜂?這 就如同企業之管理者如何留下菁英份子是有異曲同工之妙。最為成功的為蟻群合 作建立覓食路徑之行為機制,往往能產生最短的搬運路徑,及鳥群合作覓食的行 為機制所產生大家很有效率的找到食物位置。
對於群居昆蟲(動物)中每個個體只受一些簡單的規則控制,卻能在分散與 自主管理模式下的擁有迅速適應環境及有強大的抗擊能力,人類是否其實也是如 此?群居昆蟲(動物)提供學者一個有效的概念,藉由建立可彼此互動的分散式 代理人,將昆蟲(動物)的群體行為模擬成一個有效的演算法,來解釋鳥群、魚 群或蟻群等生物間的移動模式(Engelbrecht, 2005),試圖將群體的行為模式化成各 種數學式及演算法,以期能套入及解決人類生活中之各項問題,或呈現一些人類 群體的行為,例如。模擬蟻群行為在經濟行為與犯罪行為上(Furtado, Melo, Coelho, Menezes, & Perrone, 2009; A. Kirman, 1993)及組織科學等(Brabazon, A., Silva, A., Sousa, T., O'neill, M., Matthews R., and E. Costa ,2005),希望能提供新的思考模 式及管理方法。
群體演算法(Particle Swarm Algorithm)由 Kennedy 及 Eberhart 於 1995 年所 提出(J Kennedy, Eberhart, & Shi, 2001),主要為透過模擬鳥群群體在一區域中尋 找食物位置的行為模式所發展出之最佳化演算法,因此可將區域中之鳥視為求解
p
gd :個體 i 所觀察到其他個體到目前為止之最佳策略。x
id :個體 i 目前所使用的策略。此基本模式早期已證明適用於許多實數解之最佳化問題,而由 PSA 中可了 解到鳥在尋找食物最佳位置時,調整決策的方式包括「自我認知」及「社會認知」
兩部份,自我認知主要以自身過去最好的決策經驗作為參考,而社會認知為參考 群體之中表現最佳的個體作為參考,做為下次決策調整的方向。這樣的行為模式 與人的行為模式不謀而合(Brabazon, A., Silva, A., Sousa, T., O'neill, M., Matthews R., and E. Costa ,2005)。
三、蟻群演算法理論
蟻群和許多的昆蟲社會一樣,是一種分配的系統,每個簡單的個體組成一個 高度結構化的組織,當這樣的一個組織產生時,蟻群就能完成複雜的工作,這些 複雜的組織遠遠超過單一個體螞蟻所能完成的工作,蟻群的行為和牠們的組織在 一些研究人員眼中是有趣的學問,因為牠們的分散式組織模式,可以有效的解決 困難的最佳化問題,其它藉由群體行為合作模式發展成解決一最佳化問題,有鳥 群及蜂群等。
螞蟻是一種近乎全盲的生物,牠們可以不透過視覺的輔助,只依靠一種稱為
「費洛蒙」(pheromone)的物質來溝通,牠們能夠在食物與蟻巢之間建立出一條 最短的路徑,這一種溝通的機制稱為「stigmergy」,其原本的定義是激厲工作者
(工蟻)來完成牠們預期得到的結果,後來經由觀察兩種白蟻的環境,修改其定 義成為促成間接的溝通(indirect communication)。
蟻群演算法,最早是由Dorigo於1992年提出,最早稱為蟻群系統(Ant System,
簡稱AS)。是藉由模擬真實螞蟻覓食行為的一種啟發式演算法,具有全域搜尋、
逃離區域最佳解及分散式計算的特性。蟻群演算法在它搜尋最佳解的過程中,與 問題中特定的區域性搜尋法相互結合,達到能在廣大的問題空間中,朝向最有可