第二章 背景知識與相關研究
2.3 賽局理論(Game Theory)
賽局理論又名為博弈理論或對策理論,是一門探討多個個體(兩個以上)決策問題 之數理模型。賽局理論中,假設了在賽局中的參與者都是理性(rational)且自私 (selfish)的。賽局中不會有理性的參與者犧牲小我來增進整體利益,並且自私的參
9
與者會去思考其他對手的決策將會如何影響自己所獲得的回報,進而去選擇最有 利的策略,即當參與者在做決策時都是意圖最大化自己的利益值(utility)。賽局理 論源自經濟學領域,藉由將某些問題模組化成賽局的形式來預測未來的時局走向,
隨著賽局理論的研究發展,賽局理論的應用也發展到社會科學、生物科學、政治 學以及軍事領域,近年來則是廣泛的應用在電腦科學。不同的是,工程領域多利 用參與者的策略以及利益函數的設計,來將賽局走向引導到想要解決的問題。
2.3.1 賽局的分類
賽局的模式可以按其特徵分類,同一賽局也可能擁有不同的分類。以下依賽局進 行的方式或者是模型設定的不同介紹幾種常見的賽局分類 :
合作/非合作賽局 (Cooperative/Non-cooperative Games)
一般而言,合作與非合作賽局的分別在於參與者之間的行為互相影響時,是 否有一個具約束力的協議,如果有就是合作賽局,若否就是非合作賽局。非 合作賽局中強調的是個體的理性,藉由自私的行為來選擇適合的策略。非合 作賽局並非不能達到合作賽局的效果,如果賽局的設計者能夠讓參與者以理 性自私的方式增進自己利益的同時,也增加了某個整體利益的目標函式,這 種藉由非合作來達到彼此合作的結果這也是一種可行的辦法。由於非合作賽 局的現實情境遠比合作賽局來的多,而且在理論的發展上也比合作賽局來的 成熟,因此大部分的學者皆是以非合作賽局為研究對象。
靜態/動態賽局 (Static/Dynamic Games)
參與者的行動若有先後次序的區別,則可將賽局分成靜態賽局與靜態賽局兩 種。在靜態賽局中,參與者必須同時選擇他們的決策。而動態賽局則是參與 者在選擇策略時有先後順序之分,並觀察前面參與者的行動來選擇適當的策 略。動態賽局又可依參與者的決策原則分成最適回應與較適回應兩種決策機 制。最適回應是指參與者從目前可選擇的策略中選擇回報最高的策略,較適
10
回應則是選擇可以獲得較好回報的策略。
完全/不完全資訊賽局 (Complete/Incomplete Information Games)
若每一位參與者完全了解其他參與者所有可以選擇的策略和利益我們就稱 為完全資訊賽局;相反的,若是對於策略和利益了解的不夠精確或者只是了 解部分的參與者的偏好,而非所有參與者,稱為非完全資訊賽局。
完美/不完美資訊賽局(Perfect/Imperfect Information Games)
在賽局中,若每位參與者都知道所有其它參與者做的決策資訊,則稱為完美 資訊的賽局。;相反的,若有參與者無法知道所有其它參與者做的決策資訊,
則稱為不完美資訊賽局。
單次/重複賽局 (One-shot/Repeat Games) :
賽局中,若只進行一次決策就決定所有參與者的報酬,此種賽局稱為單次賽 局;賽局中的參與者若有進行多次決策的機會,則稱為重複賽局。
2.3.2 賽局的定義
一個賽局可以由以下數個部分所組成:
參與者集合𝑃 = (𝑝1, 𝑝2, … , 𝑝𝑛) (Player Set):賽局中能夠選擇決策決定行動的 個體,稱之參與者。𝑃為賽局中所有參與者𝑖所組成的集合,𝑛代表參與者的 總數,表示位參與者。
策略集合𝑆𝑖 (Strategy Set):賽局中參與者𝑝𝑖的決策原則,𝑆𝑖為參與者𝑝𝑖所有可 能選擇的策略所組成的集合(𝑠𝑖 ∈ 𝑆𝑖)。每位參與者的策略集合可以不同。
策略組態𝑆 = (𝑠1, 𝑠2, … , 𝑠𝑛) (Strategy Profile):策略組態𝑆為參與者當前所選 擇的策略所組成之向量,描述當前賽局中所有參與者選擇的策略,也可稱為 賽局的結果(outcome)。其中𝑠𝑖代表賽局中對應到參與者𝑝𝑖當前所選擇的策略。
若站在參與者𝑝𝑖的角度也可以將策略組態表示為s = (𝑠𝑖, 𝑆−𝑖),𝑆−𝑖代表除了𝑝𝑖 以外所有參與者的策略組態。
11
效用函數u(S), u(𝑠𝑖, 𝑆−𝑖) (utility function):參與者𝑝𝑖在某個策略組態中所能獲 得的利益,𝑆−𝑖代表除了pi之外其他人所選擇的策略組態。不同研究者對效 用函數的定義並不一致。有的學者將效益函數定義為利益值 [ATL+10],因 此希望極大化效用函數值。有的學者則將效用函數定義為成本支出,因此希 望效用函數值愈小愈好 [Ros73] 與 [BFF+08]。我們的方法亦是將效用函數 定義為成本。
2.3.3 賽局的均衡
在非合作賽局中存在一種特殊的策略組態,在此策略組態下沒有任何一個參與者 能夠因為獨自改變自身的策略而獲得更高的利益,此類策略組態被稱之為納許均 衡(Nash equilibrium)。
Definition 2.1 納許均衡
若pi,i1,,n ∀𝑠𝑖′𝜖𝑆𝑖,使得u(𝑠𝑖, 𝑆−𝑖) ≥ u(s𝑖′, 𝑆−𝑖),則s = (𝑠1, 𝑠2, … , 𝑠𝑛)為納許 均衡。
賽局中每位參與者所獲得的效益跟其他參與者所做的決策有關,賽局在參與 者彼此相互影響之下有可能沒有辦法達到穩定狀態。因此賽局中是否存在納許均 衡通常也被視為賽局設計優劣的準則。一個賽局可能存在數個納許均衡,並非唯 一。上述所指之納許均衡為純策略(pure-strategy)之均衡。純策略指的是參與者一 次只能選擇一個策略。相對於純策略之外還有混合策略(mixed-strategy)的均衡解。
混合策略中,參與者加入比例和機率的要素選擇策略。現今研究多以純策略為主,
因為無法提供有力的模型以說明參與者如何隨機化決策。另外賽局的納許均衡與 問題的最佳解並非若且為若的關係。
有一類的賽局稱為潛力賽局(potential game) [MS96]。潛力賽局內所有參與者
12
想改變策略的動機可以用一個全域函數(global function)來表示,稱之潛力函數 (potential function)。
Definition 2.2 潛力賽局(Potential Game):
如果一個賽局Γ是潛力賽局,那麼至少存在一個潛力函數π,使得∀𝑝𝑖 ∈ 𝑃: ∀𝑠𝑖, 𝑠𝑖′∈ 𝑆𝑖 ∷ sgn(u(s𝑖′, 𝑆−𝑖) − u(𝑠𝑖, 𝑆−𝑖)) = sgn(π(s𝑖′, 𝑆−𝑖) − π(𝑠𝑖, 𝑆−𝑖))。
sgn(𝜌) = {
1 if 𝜌 > 0, 0 if 𝜌 = 0,
−1 if 𝜌 < 0.
潛力賽局中存在某一種特例稱為確切潛力賽局(exact potential game)。在確切 潛力賽局中,如果參與者因改變策略而增加某個數量的利益值,那麼潛力函數也 可以提升同樣數量的值。
Definition 2.3 確切潛力賽局(Exact Potential Game)
如果一個賽局Γ是確切潛力賽局,那麼至少存在一個確切潛力函數π,使得∀𝑝𝑖 ∈ 𝑃: ∀𝑠𝑖, 𝑠𝑖′∈ 𝑆𝑖 ∷ u(s𝑖′, 𝑆−𝑖) − u(𝑠𝑖, 𝑆−𝑖) = π(s𝑖′, 𝑆−𝑖) − π(𝑠𝑖, 𝑆−𝑖)。
Monderer 等人 [MS96] 證明了潛力賽局中必定存在純策略的納許均衡,因 此潛力賽局可被用來證明賽局中納許均衡的存在,並且確切潛力賽局中有著稱為 finite improvement property 的性質。
Definition 2.4 finite improvement property (FIP)
Finite improvement property 為賽局的一種性質。如果任何參與者為了增進自己利
益而偏離原先策略,均會同時增進一個有其上限的整體利益值,則此賽局會以有 限步驟收斂至納許均衡。13