第三章 從自私到利他
第二節 重覆性賽局
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
「現實」一點,以解釋更接近現實時人們會怎麼選擇?
針對囚徒兩難的主要問題,我們可以先試著讓這個遊戲具有重 覆性。
第二節 重覆性賽局
實際上我們在現實生活中,確實比較常遇到重覆性賽局的例 子。今天你和一個人合作,下次再遇上他,有機會和他合作的機率 很高。在現代這個人口眾多、交通發達、通訊便利的時代,因為人 群與環境的大量流通,和同一個人重覆合作的情況不是那麼明顯,
但是在古早的部落時代,人口流動困難,甚至一輩子認識的可能只 有幾十人,和同一個人合作的機率便提高許多。而且我們必須知道,
演化發展是配合部落時代生活而發展出來的;現代文明出現的時間 還太短,演化尚未做出相應的改變。因此,重覆性賽局確實一定程 度地能表現合作與否的情況;至少和一次性賽局相比,重覆性賽局 符合實際情況得多。
在七十年代,有位學者 Axelrod 舉辦了一個比賽,進行次數為 兩百次的重覆賽局,徵求各種程式來進行,並選出分數最高者。最 後勝出的程式,是一為賽局理論專家 Anatol Rapoport 寫的程式,它 的運作方式非常簡單;一開始先合作,對方合作的話之後就跟著合
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
作,對方欺騙之後就跟著欺騙3。這程式被稱為「一報還一報」。
這種比賽方式,會讓各種程式彼此面對,進行兩百次賽局之後,
分數較高者再進行對決。這種方式雖然簡陋,但很類似演化;穩定 的程式獲勝並留存,再和其他穩定程式繼續競爭,適者生存。而最 後獲勝的程式,據 Axelrod 自己所說,「具備善良、報復、原諒、清 晰的特質」4。善良是指面對陌生人首先會願意合作;報復是指對手 背叛則一定反擊;原諒是指只要對手肯示好合作,就不計前嫌;清 晰是行動非常規律,讓對手很好判斷。這種簡單而規律的程式的勝 出,至少表示出賽局不是只要自私就好的;完全欺騙類型的程式拿 不到什麼好成績,因為它們沒多久就會被發現只會欺騙,而也被對 手欺騙,兩方都不討好,在整體而言分數便很低。
這至少反駁了一般賽局理論讓人焦慮的解答:自私是最有利 的。重覆性賽局證明了不是這麼回事:信譽才是最有利的。只要個 體需要為行為負責,並行動成為日後其他人對這個體的判斷之一,
一時的自私就不是什麼好事。
不過單純一報還一報也不是最佳解。當兩個「一報還一報」彼 此面對時,很容易可以開始合作;但如果一方不小心犯錯,另一方 就會開始報復,而陷入惡性循環,跟兩個完全欺騙的人面對時好不 了多少。因此,為了讓彼此有原諒的空間,一個新的程式出現了。
3 《性、演化、達爾文》,頁 233。
4 《德性源起》,頁 65。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
這個程式很像「一報還一報」,但是會原諒對手。它有大約三分 之一的機率,對單一的欺騙不予計較。這種程式被稱為「慷慨」。因 為它的原諒驅使更穩定的合作,它打敗了「一報還一報」,獲得更好 的成績。
不過有趣的是,在「一報還一報」和「慷慨」發展起來之後,
也帶動了「完全合作」的興起;因為它們可以和「慷慨」等程式良 好合作而取得高分。雖然它們完全贏不了「完全欺騙」,但在一報還 一報等程式把「完全欺騙」給清除掉之後,「完全合作」就獲得了出 人意料的好成績。然而當「完全合作」發展得越來越普及,「完全欺 騙」又再次找到可以欺負的對手而發展起來。整體情況變成一個不 穩定平衡。
這種情況更像現實的狀況。而且,這種多種程式此消彼長,而 非單一程式獲得贏面的情況,讓一個新的程式脫穎而出,獲得最佳 解:這個程式更天真,被設計者戲稱為「傻瓜」,一開始根本不被認 為有贏面。它的方針也很簡單,如果贏了,就繼續;如果輸了,就 換邊,並偶爾試試另一種選擇是否更好。這種程式在面對「完全欺 騙」時討不了好,只會彼此欺騙,還偶爾合作讓自己輸得更慘。但 是當它遇上「一報還一報」時,就會開始建立起穩定的合作。當它 遇上「慷慨」時,不但可以合作,偶爾的欺騙還會獲得原諒,而偷 偷拿點更多的分數;當它遇上「完全合作」時,更是可以欺負老好 人,獲得最多的分數。
如果沒有「一報還一報」等程式把「完全欺騙」給打壓下去,「傻
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
瓜」是不可能發展起來的。只有當情況變成不穩定平衡時,「傻瓜」
才能夠脫穎而出。可是,現實世界本來就是不穩定平衡;各式各樣 的人都有,我們隨機地遇上不同的人,和不認識的人合作,熟悉對 方,建立長期關係。更符合現實情況的實驗證明了,單一賽局根本 只是特例中的特例,實際情況自私一點都不討好。在上述的不穩定 平衡中,「完全欺騙」只能欺負「完全合作」和「傻瓜」,對其他程 式都不討好;而且即使它能欺負「傻瓜」,它的總分也不高。單一賽 局告訴我們,欺騙是唯一合理的選擇;但是重覆性賽局告訴我們,
實際上根本不是如此。合作才是比較好的選擇,因此演化必然會帶 給我們這種趨勢。
當然,「傻瓜」不是一個多麼有道德的程式。相比之下「一報還 一報」都比它道德,「一報還一報」重視信譽,但「傻瓜」只是穩定 的投機者。它當遇上「完全合作」時,它可是會把「完全合作」吃 得死死的。但是我們必須要知道,雖然「傻瓜」脫穎而出,但是它 也有不利的地方。實際情況還是一個不穩定平衡,而導致這個不穩 定平衡發展起來的要素,還是「一報還一報」的信譽,與「慷慨」
的原諒。
或許會有人質疑,既然「傻瓜」才是最好的策略,那為什麼還 要顧及「一報還一報」和「慷慨」有什麼特質?但是,個體不是死 板的程式;人可以偶爾慷慨一下,偶爾投機一下。偶爾的投機確實 不錯,但是必須要先穩固起不穩定平衡的環境,才會出現「完全合 作」好讓「傻瓜」去欺負。由這多種程式彼此消長形成的平衡情況,
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
才是演化上的穩定策略;各種行為傾向各佔一定比例,此比例會稍 微變動但大體上不會改變。因此,對演化來說,發展起「信譽」和
「原諒」的特質是有必要的。如果沒有這兩個特質塑造起的不穩定 平衡,「傻瓜」也只會被「完全欺騙」給欺負;而當只剩下「完全欺 騙」時,彼此的成績又是那麼的低,因為兩者都欺騙只會永無止境 地只獲得一分。
因此,演化上的穩定策略,是帶給人們信譽、原諒和偶爾的投 機取巧。演化當然不完全道德,但是它要求我們有前兩者的特質,
而投機取巧只是偶爾拿來欺負老好人。演化要求我們以信譽和原諒 塑造起環境氛圍、建立不穩定平衡。因此,演化帶給我們的道德感,
是信譽和原諒,且個體會希望大家都這麼想,好讓眾人能彼此穩定 合作以讓大家都獲得高分,並讓「完全合作」的老好人出現。
因此,我們會想要讓自己擁有信譽與原諒的特質,並提倡它們,
是符合演化的要求的,是演化帶給我們的天性。演化讓我們獲得最 大勝利的方式,是給我們這樣的道德感(並允許一下偶爾的投機取 巧),而不是自私。或許這才是終極的自私,但是這不重要;重要的 是我們會有要求信譽和原諒的道德感。
也就是說,信譽和原諒,這些互惠性利他行為,是演化帶給我 們的特質。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y 第三節 道德要求與正義感
只是提倡信譽與原諒,雖然可以達成不穩定平衡,但是對於不 符合道德的行動卻沒有太大的約束力。「完全欺騙」在不穩定平衡中 得不到好成績,但是它還是可以大行其道。
不過,重覆性賽局並非就是現實。在重覆性賽局中,參與程式 不能選擇它的對手;會遇上哪個對手是隨機的。然而在現實中,我 們是有權挑選對手的。經濟學者 Robert Frank 曾經進行一個實驗,
讓一群陌生人在一個房間中,給他們三十分鐘彼此認識,之後讓他 們判斷,誰在囚徒兩難遊戲中會合作、誰會欺騙。結果,眾人都能 夠相當程度地判斷出其他人的合作意願5。
在現實中,我們是可以挑選對手的;就算不經由事先判斷,當 一個人欺騙你,你再和他合作的意願一定不會高。為此,Philip Kitcher 設計了一個「選擇性的囚徒兩難」6;他設計了兩個只和未欺騙過自 己的對手進行遊戲的程式,但一個傾向合作,一個傾向欺騙。結果 很明顯的,傾向合作的程式在彼此相遇後,很快就持續合作,排擠 會欺騙的程式,並藉由合作獲得高分。被排擠的欺騙型程式,因為
5 《德性源起》,頁 90。
6 同上,頁 89。
‧
‧
‧
9 Dennis L. Krebs, An evolutionary reconceptualization of Kohlberg’s model of moral development.
In R. Burgess & K. MacDonald (Eds.) Evolutionary Perspectives on Human Development (CA: Sage Publications, 2005), p255.
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
或許會有人認為,如果有足夠的智能,人類就可以找出即使以 長遠來看,仍然對自己最有利的做法,而不會選擇因短期利益背叛 對方反而受到社會譴責的行為,因此不需依靠道德感。也就是說,
演化只要發展足夠的智力,不必要發展道德;是故道德感不見得是 演化產生的。
但是,真的要靠智能的發展來找出最有利的做法是非常難的;
環境帶來的不確定性太多,要找出最佳解等於要擁有幾乎預言未來 的程度。簡單地舉信譽相關的例子,今天如果知道以後絕對不會再 和某人合作,就比較有可能不顧後果地欺騙對方;但是要確保絕對 不會再和對方合作是幾乎不可能的。更何況,和某人合作之後便不 再遇到對方,不是人類歷史上普遍出現的情況,演化自然不會朝這 個方向努力。既然無法確保未來的可能,而難以判斷出有利的做法 為何,那麼演化自然就只好用比較普遍的方式:讓生物有某種行為
環境帶來的不確定性太多,要找出最佳解等於要擁有幾乎預言未來 的程度。簡單地舉信譽相關的例子,今天如果知道以後絕對不會再 和某人合作,就比較有可能不顧後果地欺騙對方;但是要確保絕對 不會再和對方合作是幾乎不可能的。更何況,和某人合作之後便不 再遇到對方,不是人類歷史上普遍出現的情況,演化自然不會朝這 個方向努力。既然無法確保未來的可能,而難以判斷出有利的做法 為何,那麼演化自然就只好用比較普遍的方式:讓生物有某種行為