若對方沉默、背叛會讓我獲釋,所以會選擇背叛。
若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。
二人面對的情況一樣,所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結果二人同樣服刑2年。
這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優(yōu)解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結果也比兩人背叛對方、判刑2年的情況較佳。但根據(jù)以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結果二人判決均比合作為高,總體利益較合作為低。這就是“困境”所在。例子漂亮地證明了:非零和博弈中,帕累托最優(yōu)和納什均衡是相沖突的。
一般形式
整理囚徒困境的基本博弈結構,可更清楚地分析囚徒困境。實驗經(jīng)濟學常用這種博弈的一般形式分析各種論題。以下是實現(xiàn)一般形式的其中一例:
有兩個參與者和一個莊家。參與者每人有一式兩張卡片,各印有“合作”和“背叛”。參與者各把一張卡片文字面朝下,放在莊家面前。文字面朝下排除了參與者知道對方選擇的可能性1。然后,莊家翻開兩個參與者卡片,根據(jù)以下規(guī)則支付利益:
一人背叛、一人合作:背叛者得5分(背叛誘惑),合作者0分(受騙支付)。
二人都合作:各得3分(合作報酬)。
二人都背叛:各得1分(背叛懲罰)。
用支付矩陣表格展示支付如下(以紅和藍分別表示二參與者):
一般形式囚徒困境的支付矩陣合作背叛