賽局理論 - 中台日防空識別區現狀與釣魚台爭議解決可能性之研究

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節賽局理論

文明的發展總是少不了來自人類好勝與追求進步的動機。例如，在日常生活中，競賽會驅使人類在人際互動中積極追求勝利，這就是賽局理論的發展來源。

基本上，賽局理論套用國際關係上的例子是屢見不鮮，尤其賽局理論係在理性條件下，推論並預測競爭者可能的行動，從而了解事件的全貌，作出最適當的決定。對於國際關係而言，賽局理論的應用是一套解決爭端利器，即可藉由充分的資訊、累積的經驗、縝密的分析、最佳的策略、適當的規劃等步驟，取得賽局的「解」，建構賽局的均衡點，從而順利解決國際紛爭。

(一) 賽局理論及其發展

賽局理論的研究開始於策梅洛(Ernst Friedrich Ferdinand Zermelo，

1913)、博雷爾(Félix-Édouard-Justin-Émile Borel，1921)及諾伊曼(John von Neumann，1928)，後來由諾伊曼和摩根斯坦(1944，1947)首次對其系統化和形式化（參照 Myerson, 1991）。⁹ 隨後納許(John Forbes Nash Jr.，1950, 1951) 利用不動點定理證明了均衡點的存在，為現代賽局理論的奠定了一般性的基礎。

賽局理論是研究人類行為的科學，是一種『策略性思考』的系統性知識，屬於『理性選擇分析』的研究途徑，透過策略推估尋求自己的最大勝算或利益，從競爭中求生存。雖然接受人們自利的動機，但對價格機能發揮完全作用的環境和條件提出質疑。

基本上，賽局的要素包括：主體、行動、評價及資訊。¹⁰ 「主體」係指能夠自行選擇手段或方法的參與者(players)；「行動」是為了實現目的或達到結果所採取的策略(strategies)；「評價」則是指目的或結果(outcomes)的價值評判，

一般亦以「報酬」稱之；至於「資訊」的掌握則為影響整個賽局取向的重要因素。

在賽局裡，參與者(主體)、策略(行動)與報酬(評價)共同被設定為遊戲規則，而

9 Myerson, R., 〝Game Theory: Analysis of Conflict,〞（Cambridge and London: Harvard University Press: 1991）, pp.1-2.

10 謝玉容譯，清水武治著，《賽局理論圖解》。（台北：商周出版，2012 年），頁 10。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

且該模型建構的目的，就是使用這些遊戲規則來決定賽局的「解」，以達到均衡 (equilibria)的狀態。¹¹

至於賽局特徵大致可分為「合作賽局」及「非合作賽局」；前者，參與者之間具有約束力，彼此會提攜或請託；後者，參與者之間不具有約束力，彼此沒有提攜等情事。至於賽局表示的方式，一種是依據賽局要素來表達，稱為「標準型」，可用報酬矩陣來表示；另一種是將選擇行動的機會(決策點)以及參與者所選擇的各行動以賽局樹表達，稱為「展開型」，兩者都是研究分析賽局常見的方式。

基本上，賽局理論植基於衝突雙方，透過溝通進行長期互動，可說是一套「動態的獎懲策略」。如果套用到「國際關係」上，以「善意」回應「善意」之外，

也要適當運用籌碼，發出「意向清楚」的「可信威脅」。因為短期的「非合作賽局」，將難以導向「合作」的結果。也就是說，有限重複囚徒困境參與者容易選擇背叛策略，因為他們不會有下一次的賽局，也不會遭致報復，所以只有在無限重複囚徒困境賽局中才會有『合作』的可能出現。另外，在雙方互動過程中，適時「互釋善意」尤其重要，而善意的「起始」更是最終能否導向「合作」的基礎。

綜上，反映在國際衝突的戰略上顯示，加強防禦力並不足以阻嚇別國進攻，

而要有反擊力才有用，因為不會反擊，對攻方造成損傷有限，例如北韓發展核彈就是出於這種考量。賽局理論是在目標衝突下，建構各行動者間策略互動模型的一種有效方式。賽局理論的優點，在於它的精簡性(parsimony)與抽象層次(level of abstraction)。因為賽局理論是以嚴謹且明確的人類行為理論為基礎，這項理論藉由經驗的累積產生相關的假設，解釋並預測對手的行為並做出最適的策略，相當適合作為爭端解決的分析研究工具。

(二) 賽局應用的基礎

11 前揭書，頁 16。

黃東煬、陳立譯，Ronen Palan 著，《全球政治經濟學：當代的理論》，（台北：韋伯文化，2006 年），頁 177。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在賽局裡，參與者、策略與報酬被設定為遊戲規則，而且該模型建構的目的，

就是使用這些遊戲規則來決定賽局的「解」，以達到均衡的狀態。因此，賽局在實務應用上，首先要了解「均衡」的意義，也就是現代賽局立論的思考方式與架構：「納許均衡」。再依據所得資訊及推論，對「策略」選擇進行研究(如，報酬矩陣、逆向歸納法等)，透過策略操作(如、威脅、協調、談判等)擬定行動計畫，

達到獲得賽局的解之目的。¹²

另外，在賽局理論裡，最精典的範例有「囚徒困境」、「懦夫賽局」等，對於本論文研究極具助益，將併為說明應用。

1. 納許均衡(Nash equilibrium)

納許均衡係為了解決非合作賽局所建立的方法，為廣泛用於現代賽局理論的思考方式。在納許均衡中，如果其他參與者的選擇是已知的，每位參與者所使用的策略是面對他人的優勢策略。也就是說，當參與者看到別人的行動後，他也不會改變他原來的行動就是納許均衡，如果還想改變，就不是納許均衡。也就是說，

納許均衡是「雙方都做出最適反應」的狀態，一旦達到納許均衡，賽局各參與者都不會想要偏離這種「安定狀態」。

另在賽局裡，參與者的策略可以是單純策略(pure strategy)或混合策略 (mixed strategy)。單純策略的運作方式，是參與者的每項行動決定都是確定的，而不與其它策略作整合，對手容易看穿所採取的策略，因此往往無法達到納許均衡。為了不讓對手看穿要採取的策略，避免陷入不利處境，諾曼發展出「混和策略」，混合策略的運作方式，有兩種。一是依機率選取的單純策略，例如：

剪刀、石頭、布是三個單純策略是確定的，但當玩遊戲時，隨機選擇這三個策略時，是混合策略。二是以某種比例組合設個單純策略，例如：陳列某商品時，不單單陳列 A 公司或 B 公司，而是採比例陳列方式陳列。¹³

12 謝玉容譯，清水武治著，《賽局理論圖解》。（台北：商周出版，2012 年），頁 30-39。

13 同前註。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

比較甲方策略 A 及策略 B 的報酬發現，無論乙方採取哪一種策略，策略 B 的報酬都是比較高的，這種情形表示策略 B 優於策略 A。同理，從這表格中可發現甲方的最優勢策略就是「策略 D」。

(2) 逆向歸納法

逆向歸納法(backward induction)又稱反推法(rollback)，為在動態賽局中，從最後一個階段的賽局行為分析，循序反向推論回前一個階段，直到最前面的階段也就是起始點的分析方法。逆向歸納法的邏輯是，假設行為者是理性的，

他所做的每一行為都是最適策略，在每一個階段所做的行為都是考慮到後一個階段所做的行為。逆向歸納法會消除不合理的策略、不可信的威脅與承諾。

逆向歸納法的運用可以找出唯一一組的子賽局完全均衡，逆向歸納法的使用是參與者沿賽局樹逆行，去除不符合理性的行為，最後選擇的行動便是子賽局完全均衡。也就是說子賽局完全均衡是逆向歸納法的結果。¹⁵

(三) 囚徒困境賽局

1. 賽局典範

最早是由 Duncan R. Luce 和 Howard Raiffa 發展出來，主要的內容是說，

有 A、B 兩個囚徒被懷疑犯下一件刑案，但必須有人承認犯罪才能定其罪刑。警察將其隔離偵訊，並告知兩人認罪條件，如果一方自首，一方緘默，自首者將被釋放，而另一方將被判 20 年。相反者亦然。但若兩人皆緘默，則將被判 1 年。

若兩人皆自首，則將判為 10 年。如果將「判刑年數」以負數表示，「無罪釋放」

以 0 表示。「-1」代表被判刑 1 年。「-20」代表被判刑 20 年。「-10」代表被判刑 10 年。

當 B 選擇緘默時，A 選擇自首所獲得的報酬比保持緘默為大。倘若 B 選擇自首時，A 選擇自首所獲得的報酬仍然大於緘默。所以對 A 來說自首策略是優於緘

15 同前註。

‧

CC、CD、DC、DD。其中 C(cooperate)表示合作策略，D(defect)表示背叛策略。

假設這項賽局是非合作性的（non-cooperative）賽局，且每個參與者僅能選擇

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在一次式(one-shot)囚徒困境賽局的結果是（D,D）（即敵對、背叛）。因為，

不管他的對手選擇合作或是背叛（優勢策略），總是能藉由背叛取得最大利益，

而且沒有一位行動者能夠藉由改變策略且產生新的結果，來改善他們的情境（納許均衡）（黃東煬、陳立譯，2006：121）。囚徒困境之所以讓人覺得特別是，儘管(D,D)是一種均衡的結果，沒有具備任何參與者應該要將其策略改變的動機。

另外一種結果是，兩位行動者偏好(C,C)(即合作)甚於(D,D)（因為 CC 的報酬大於 DD）。囚徒困境的難題在於雙方若不以符合本身最佳利益的策略行動而是追求合作，雙方都會得到最佳利益。¹⁶

綜上，如果只是一次式的囚徒困境賽局，兩國或是兩位參與者，他們所採取的策略就是保護自己的對抗策略。但若是無限重複囚徒困境賽局，便可能會為了更長遠的利益，而選擇互相合作。就如同我國選舉的諺語『選舉是一時的，朋友是永遠的』。

囚徒困境賽局的雙方可能合作營造「雙贏」，也可能不採取合作而造成「雙輸」。在警察審訊囚犯採取抗拒從嚴、坦白從寬的策略下，因囚犯被隔離時，多害怕對方招了而自己沒招時，會使自己刑責加重，對方則無罪開釋，結果囚犯雙方最後皆採取認罪策略而雙雙被關進牢裡。納許以此證明人性在被隔離的限制因素下，產生的各謀自己利益的謀略，形成「囚徒困境」現象，反而造成雙輸的局面。

這點應用到國際談判上，雙輸或雙贏是決定在兩方能否掌握充分資訊，瞭解敵情及有沒有溝通互信基礎，由於輸贏一線間，更加提醒競爭者應相互間培養相互信賴、溝通、合作的重要。納許均衡的定義為『一組互為最適反應的組合』，到達均衡時『任一參賽者均無誘因單方面偏離此均衡』。這種賽局雖然每個參與者都有優勢策略可以在抵抗對方可能的反制策略下，使自己獲得最大得益，可是如果雙方皆採妥協策略，則每一方都可以獲得基本生存較好的利益。

16 高德源譯，Jack Donnelly 著，《現實主義與國際關係》。(台北：弘智文化)，2002 年，頁 26-29。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

綜上，此類賽局中，每位參與者都有其優勢策略(D，背叛策略)，但均衡的

在文檔中中台日防空識別區現狀與釣魚台爭議解決可能性之研究 - 政大學術集成 (頁 46-57)

賽局理論

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 賽局理論

(一) 賽局理論及其發展

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

(二) 賽局應用的基礎

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

(三) 囚徒困境賽局

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

第二節賽局理論

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學