• 沒有找到結果。

淺談 「囚徒困局」 現象的應用

N/A
N/A
Protected

Academic year: 2022

Share "淺談 「囚徒困局」 現象的應用"

Copied!
5
0
0

加載中.... (立即查看全文)

全文

(1)

李國偉

如果你去問一些數學家, 數學是在作什 麼? 大部份可能會回答, 數學是處理形與數 的學問, 它的組織方式包括了定義、 定理、 證 明這些東西。 但是人類有關數學性的活動, 不 僅僅是純數學家關心研究的那些題材, 而是 更廣泛的會與人類文化及生活息息相關。 所 以在一般我們認為可以產生數學問題的物理、

化學題材外, 一些人生現實、 文化、 社會的現 象裡, 也不是完全沒有數學的蹤影, 端看我們 如何用數學的工具來捕捉描述這些現象而已。

例如: 當我們在高速公路塞車的時候, 如果大 家都規規矩矩的排在車道內, 而有一個人違 規行駛路肩, 那他必定會佔到便宜。 但是如果 每個人都有相同的想法, 也都付諸行動的話, 則情況必然更為惡化, 人人都沒有便宜可佔。

這種情形其實經常出現在我們的生活裡, 就 是如果每個人守規矩做事, 那麼第一個不守 規矩的人會討到便宜; 但是如果每個人都不 守規矩的話, 後果反而對人人均不利。 這個現 象的背後是否隱藏某些數學的訊息? 為什麼 我們要如此問呢? 因為當一件事反覆的在各 處發生時, 它背後就很可能有某種結構存在;

而當這種特殊結構存在時, 我們就有可能用 數學工具把它形式化, 再加以分析。 講題裡所 謂的 「囚徒困局」 就是一個這種類型的例子。

我們先來舉個例子說明為什麼叫 「囚徒 困局」: 假使你和你的朋友作了一些於法不容 的事, 結果被警察逮到關了起來。 這時進來一 位檢察官, 他對你說如果你乖乖認罪, 幫警方 指證你的朋友的話, 你將可獲無罪開釋。 如果 你不招, 而你的朋友招供的話, 你將會被判五 年牢獄。 假使你們兩個人都不招的話, 因為還 有相當的證據在警方手中, 足夠判你們兩個 人每人兩年。 如果你們兩個分別都招供了, 因 為證據確鑿, 對不起, 每人都得坐四年牢。 這 樣的條件另一位檢察官正在跟你的朋友說明, 請問在這種局面下, 你是招也不招?

現在我們把這個問題分析一下, 首先將 這些利害關係製成一張表。 其中的數字對, 左 邊數字的絕對值表示你的坐牢年數, 右邊數 字的絕對值表示你朋友的坐牢年數。 因為坐 牢總是件倒楣事, 所以用負數代表滿意的程 度, 因此負得越多處罰得越厲害。

26

(2)

你的朋友 不 招 招 你自己

不 招 −2, −2 −5, 0 招 0, −5 −4, −4 讓我們來分析一下, 如果你的朋友招了, 你若不招會關五年, 你若招了會關四年, 所以 招供對你有利。 倘若你的朋友不招, 你若不招 會關二年, 你若招了就可以撒鴨子跑了, 當然 還是招供對你有利。 總而言之, 無論你的朋友 招還是不招, 你都會發現招供對你比較有利。

你的朋友應該不比你更笨, 相同的邏輯思考, 也會使他選擇招供, 於是你們就哥倆好的到 牢裡四年。 如果你們別那麼邏輯, 但是有決不 出賣朋友的江湖義氣, 兩人都死不招認, 反倒 可以只關二年。 這種 「困局」 是該歸咎於理性 的邏輯嗎?

我們再舉一個例子, 假使你要跟一位鑽 石商作交易, 但是因為某種不方便的理由, 你 們不能面對面做生意。 你們約好分別把貨款 與鑽石放在指定的地方, 再各自去拿自己的 目的物。 在這種秘密的交易裡, 誠信變成非 常的重要, 否則豈不陪了夫人又折兵? 不過 誰不是先照顧自己的利益呢? 倘若你放一袋 廢紙, 而不是一袋鈔票, 對方如果也耍詐, 你 至少不會損失; 對方如果老老實實放了一袋 鑽石, 那你就大賺了一票。 因此不論你的對手 如何行動, 你都是耍詐比較有利。 同樣這套邏 輯, 你的對手也不是不會理解, 所以他也決定 耍詐, 結果你們兩個誰也沒佔到什麼便宜, 倒 不如開始就誠實的交易, 還彼此都能得到想 得的東西。 這種狀況我們也可用一張表來展 示各人的滿意程度。

合 作 耍 詐 合 作 2, 2 −1, 4 耍 詐 4, −1 0, 0

這張表與前面那張結構其實是一樣的, 如果 我們把第一張表的每一個數加 4, 就得到第二 張表。 我們可以更一般性的觀察下列的表:

C D

C R, R L, T D T , L P , P

其中 C 表示合作 (cooperation), D 表示耍 詐 (defection)。 R、T 、L、P 是一些數值, 分 別表示報酬 (reward)、 誘惑 (temptation)、

損失 (loss)、 懲罰 (punishment)。 這些數值 要滿足兩個條件: (1) (T + L)/2 < R; (2) T > R > P > L。 第一個條件的作用使 得你們不值得約好, 彼此交替著一次合作一 次耍詐, 因為那樣不會比老老實實合作好。 第 二個條件才是關鍵, 只要它成立, 我們前面的 推論方法都可以行得通, 也就會帶入一種 「囚 徒困局」 裡。

在以下的討論中, 我們固定一張會導致

「囚徒困局」 的表。 如果交易只進行一次, 無 論如何還是耍詐比較不會損失。 但是如果雙 方確實有必要進行一連串的交易, 事先並不 知道何時會終了, 那麼又該採取怎麼樣的交 易策略呢? 當然我們討論策略時, 並不需要 背負道德的包袱, 也就是說交易的雙方都是 絕對的以自我為中心。 譬如交易進行若干次 之後, 如果你有可靠的消息說對方已經病重,

(3)

下次是他最後一次交易, 那你會毫不猶豫的 拿一袋廢紙去。

當然, 策略有很多種, 而且策略的好壞要 看你是跟什麼樣的對手交易。 譬如對方是一 個永遠耍詐的人, 那你只好毫不猶豫的跟他 耍詐下去。 如果你的對手是一位報復性強的 人, 也就是他首先會與你合作, 一直等到你耍 一次詐, 他就跟你沒完沒了的耍詐下去。 對付 這種人, 你應該先跟他合作, 等你賺得差不多 了, 就詐他一次, 吃他一票。 自此之後, 就陪 他耍詐, 保持不吃虧的情況。 既然沒有永遠居 優勢的策略, 該如何決定合作還是耍詐, 便成 為一個有趣的問題。

1979 年 美 國 密 西 根 大 學 政 治 系 教 授 Robert Axelrod 作了一項研究, 他找了十 四位在對策論 (game theory) 發表過論文 的教授, 告訴他們要針對 「囚徒困局」 來一 次策略的大競賽。 也就是請他們各自送來一 個策略的電腦程式, 然後彼此捉對兒廝殺, 每 個人的目標是要攫取最多的分數。 每一個參 賽者的程式, 對於對手的 C 或 D, 可以回 應以 C 或 D, 而且能記憶住跟他交鋒的全 部歷史, 回應的辦法也允許採取隨機的方式。

事實上在送進來的十四個程式之外,Axelrod 加了一個完全採用隨機步驟的程式叫 RAN- DOM。 在這些送進來的策略中, 有的只要兩 行 BASIC 指令就寫完了, 也有的用了六、

七十行。 每一個程式都要跟其他任一個程式 (還包括一個自己的複製品) 廝殺兩百回合。

結果出人意料的, 兩行的程式居然能獲得極 高的分數。 這是由資深對策論教授 Anatol Rapoport 所提出的, 他的辦法是第一步一

定合作, 之後作對手前一步作的動作。 這個策 略可名為 TIT FOR TAT(以牙還牙)。

有一位名叫 Johann Joss 的人, 他的策 略與 TIT FOR TAT 非常相似, 只是有十分 之一的機會他會在對手合作過後, 突然耍一 次詐。 如果把 JOSS 與 TIT FOR TAT配 對比賽, 如表所列:

TIT FOR TAT JOSS

C C

C C

C C

· ·

· ·

· ·

C C

C D ← 1/10 次的耍詐

D C

C D

· ·

· ·

· ·

C D

D D ← 1/10 次的耍詐

D D

· ·

· ·

· ·

一 開 頭 兩 者 都 採 取 合 作 的 態 勢, 但 JOSS 的方法會有十分之一耍詐的機會。 於 是到了某一次交易, 突然 JOSS 耍了一次 詐, 使得兩邊本來合作的態勢打破, 而形成

(4)

CD,DC,CD,· · · 的交易關係。 過了一陣, 因為 JOSS 十分之一機會的耍詐, 再一次的 D, 便使得兩邊交易關係完全陷入相互耍詐 的死胡同。 JOSS這種方法在與各種不同的 對手比賽時, 因為他會不期然的突襲對方, 往 往導致像與 TIT FOR TAT 對陣時互信的 瓦解。 所以長期累積下來, JOSS所獲得的點 數就比不過 TIT FOR TAT。

在這一輪策略大賽中, 像上面的例子提 供了特別值得深思的課題。 Axelrod 總結整 個賽局的經驗說:

「從這場競賽裡獲得一項啟示, 就 是在各種力量競爭的環境中, 如 何降低回音效應是非常重要的。 策 略分析的高手必須深入三個層次:

第一層是動作的直接反應, 此項最 為明顯, 因為耍詐一定贏過合作。

第二層是間接的效應, 也就是考慮 對手會不會懲罰你耍的詐, 絕大部 份的參賽者都考慮了這一層。 但是 第三層要考慮在回應對手的耍詐 中, 有可能重複或擴大自己前面想 佔人便宜的動作。 因此以直接效應 而言, 耍一次詐可能有利, 甚至把 二次效應考慮進去也顯現不出弱 點。 真正的代價或許要在第三層效 應時才付出, 使得一次孤立的耍詐 動作, 因為回音效應而陷入彼此互 懲的漩渦。 參賽的好些策略沒有體 會到這種長期影響, 結果變成自己 在懲罰自己, 對手的作用只是使這 種自我懲罰延遲幾步而已。· · · 從

分析策略賽局中, 我們可以獲得 不少啟示, 知道應該如何去因應勢 力競爭的環境。 即使研究策略的專 家, 包括政治學、 社會學、 經濟學、

心理學、 數學的專家, 也往往犯了 過分強勢的錯誤, 寬容心不夠, 也 太不相信對方善意的回應。」

Axelrod 認為第一次競賽已經提供了足 夠深思的議題, 因此不妨來一次更大規模的 競賽, 看看大家能不能由第一次的教訓中, 謀 求更大的改進。 於是他除了邀請第一次的參 賽者外, 更在電腦或賽局的專門雜誌上登廣 告徵求競賽者。 參賽的人都被告知第一次競 賽的經驗教訓, 而且如果有人以為第一次的 十四個策略中哪一個最為有利, 也可以用那 個策略參賽。結果有六十多個參賽者, 有趣的 是只有 Rapoport 自己再送入 TIT FOR TAT。

經過一場捉對大廝殺後, 原本在前一輪 中得分較高的那些策略方法, 幾乎全都遭遇 悽慘。 唯獨 TIT FOR TAT 仍然高居領先 地位, 表面上看起來令人費解的是, 當 TIT FOR TAT 與別人對壘時, 頂多處於不吃虧 的狀況, 絕不會超越它的對手。 但是從長期總 體的效應來看, 它卻能得到最高的分數。 Ax- elrod檢討了排名在前的策略的特長, 歸納出 下面幾個要素:

1. 絕不會主動先耍詐。

2. 不會對人家的善意回應毫無回饋, 也就是 說當對方耍了你一次詐之後, 又再度對你 作善意回應時, 你不會因為舊恨而跟他糾 纏下去, 你會用寬容的態度還以善意的回 應。

(5)

3. 但是對人家的耍詐行動, 你會毫不遲疑的 立即加以反擊。

第二次競賽更進一步啟發 Axelrod 可以用類 似的方法作一次生態環境的模擬。 開始時的 參賽策略可以想像是一群原始的生命體, 經 過一輪競賽後, 得分多的策略在下一輪中可 以用較多的份數參賽。 這種設計的意義是模 擬演化過程裡, 較適者可以有較多的後代。

這種生態賽局經過上千輪的實驗後, 也 有一些有趣的現象浮現。 在前面說明的第二 次競賽中, 也有一些經常主動耍詐攻擊人的 策略, 會獲得相當高的分數。 這些策略在生態 賽局中的前兩百輪, 取得相當大的優勢, 數量 很可觀的增加, 因為這個段落裡比較軟弱的 策略被他吃定了。 但是隨著弱肉被強食之後, 剩下的還有大量的像 TIT FOR TAT 的策 略, 就不再有便宜可佔了。 等到一千五百輪之 後, 這些窮凶惡極的生物終於滅絕。

總結這些競賽的經驗, 會體認出 TIT FOR TAT 所以處處會取得優勢, 基本上它 是一個會導引合作的策略。 除了前面說的三 種特性外, 它還有一個特性就是明確, 跟它交 手的策略很快就能察覺到不容易剝削它。 像 是 RANDOM 那樣的策略, 因為太無章法可 循, 對手只好把它當作一個非常不合作的敵 人處理了, 因此它的積分一直是敬陪末座的。

Axelrod 寫了一本書叫做 「合作的演 化」, 把賽局導引出合作的例證, 再進行了深

入的考察。 他發現在一片兇狠的生態環境中, 只要有一小撮誘導合作的生物, 就可以存活 下去。而且它們如果具有像 TIT FOR TAT 的四種優點, 便可以在演化中漸漸取得上風, 大量的繁殖下去。 而且有趣的是, 在一大堆惡 漢中來了一小撮合作者, 它們能存活繁殖。 但 是一旦合作者取得上風, 就不在會被惡漢入 侵破壞。

Axelrod 的研究有很大的啟示作用, 從 較侷限的模擬例證中可體認出, 合作的產生 並不需要有道德的動機, 但是一旦有了立足 點, 從實際利益上合作者也會獲得好的報應。

這種教訓運用到人類社會、 政治、 經濟的研究 裡, 實在頗有耐人咀嚼的地方。

我們從簡單的 「囚徒困局」 模式出發, 瞭 解一些有關選擇的難題。 然後利用反覆操作

「囚徒困局」 的模式, 更引發了有關生態演化 方面極具啟發性結果。 雖然這種過程裡, 我們 並沒有證明一大堆困難的定理, 其實它仍然 是數學的精彩應用。 數學提供了概念的架構 與模擬的工具, 以及分析組織的方法。 希望從 這個例證中, 能使讀者了悟到數學應用的宏 大範圍。

—本文作者任職於中央研究院數學研究所—

參考文獻

相關文件

社會組的學生不全是數學低手, 有些因 為物理、 化學沒有競爭力才考社會組的, 他們 本來可以高分進商學院, 現在數學好派不上 用場, 要和不擅長數學的考生比文史科所以

徐利治先生 認為 “數學教育本應具有文化教育功能 (培養人的優秀文化素質的功能) 與技 能教育功能”。 他說:“數學還具有文化功能, 這卻是人們容易忽視的。 學習數學不僅能夠掌握數 學知

Sperner (當時他只得 25 歲) 發現了一個相當簡單 的證明, 他利用組合學的方法證明了 Brouwer 不動點定理 (見 [1, 7]) 。 他的證明可說是相 當優美, 其應用也不單於此。 本文將簡單介紹

這是一本歷史性的數學書籍, 談論數學 上的偉大定理及其幕後的數學天才。 涵蓋的 年代從西元前 440年的 Hippocrates 到西元 1874 年的 Cantor。 透過對數學上一些天才

眾所周知: 數學結論 (命題、 定理、 公式、...) 的給出往往是數學家們深思熟慮、 甚至終 生不懈的努力使然, 而這些結論產生的方法多是由具體的抽象、 特例的推廣以及不完全歸納所

“0”這個東西, 在數學上是再簡單不過 了。 可是, 一旦把它放到無限數學中去, 有時 連大數學家也受不了。 十七世紀, 牛頓創立 微 積分的初期, 由於沒有嚴謹的分析理論基

Haken 兩位數學家 合力解決。 以往的數學問題其證明方式都是 透 過嚴密的邏輯推論, 找出重要而關鍵的性 質再給予適當的證明。 但四色問題的證明過 程, 卻是由數理邏輯歸納出一些性質,

由於極值定理保證了連續函數在閉區間上一定有最大或最小 值的存在,根據費馬定理,這些點若不是臨界點 (包含不可 微分的點)