囚徒困境 摘抄
罗伯特•阿克斯洛德(Robert Axelrod)在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿勒斯洛德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。
阿克斯洛德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。
最佳确定性策略被认为是“以牙还牙”,这是阿纳托•拉普伯特(Anatol Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%-5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。
通过分析高分策略,阿克斯洛德指定了策略获得成功的几个必要条件。
友善
最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。
报复
但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。
宽恕
成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。
不嫉妒
最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数)。
因此,阿克斯洛德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克斯洛德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。
尽管以牙还牙始终被认为是最可靠的基本策略,但是在重复囚徒困境的20周年纪念赛中,来英国南安普敦大学的一个小组(由尼古拉斯•詹宁斯(Nicholas Jennings)[1]领导,包括了拉蒂普•达什(Rajdeep Dash)、萨瓦帕里•拉姆琼(Sarvapali Ramchurn)、亚历克斯•罗杰斯(Alex Rogers)斯和皮鲁克里士南•维特林根(Perukrishnen Vytelingum))介绍了一个新的策略,这个策略证明了它比以牙还牙更成功。这个策略依赖于程序之间的合作,为单一程序中获得了最高的点数。南安普敦大学提交了60个程序参与竞赛,这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被作出,一个程序将总是合作,其他程序则总是背叛,保证背叛者得到最大的点数。如果程序识别出它在操作一个非南安普敦参与者,这程序将持续地背叛,企图去最小化竞争程序的得分。结果[5],这个策略以获得前3位结束了竞赛,也得到了大量接近底部的位置。虽然这个策略显著地证明了比以牙还牙有效,但是这是因为利用了下述事实:在这个特殊的竞赛中,多重通道是被允许的。在一方只能控制单一参与者的竞赛中,以牙还牙确实是更好的策略。
如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你。因此,你们都将在最后的回合背叛。这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛。依此类推。为了合作以保持请求,这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。
当博弈参与者能学会估计其他参与者背叛的可能性,他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示,总体上,缺乏经验的参与者与其他参与者的互动,或者是典型的好,或者是典型的坏。如果他们在这些经验的基础上行动,(通过更多的背叛或合作,否则)他们可能在未来的交易中受损。随着经验逐渐丰富,他们获得了对背叛可能性的更真实的印象,变得更成功地参与博弈。不成熟的参与者经历的早期交易对他们未来参与的影响,可能比这些交易对成熟的参与者的影响要大得多。这个原理部分地解释了,为什么年轻人的成长经验这么具有影响力,以及为什么他们特别容易被欺负,有时他们本身最后也成为欺凌弱小者。
群体中背叛的可能性,可以被合作的经验所削弱[6],因为先前的博弈建立了信任。因此自我牺牲行为可以,例如,加强团体的道德品质。如果团体很小,积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。这与相似的困境有关:鼓励那些你将援助的人,从可能使他们处于危险的境地的行为中得到满足。这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。
是敌是友?”是一个竞赛表演节目,从2002年到2005年在美国竞赛表演广播网(Game Show Network)放映。这是一个用真人进行的囚徒困境博弈例子,不过情景是人造的。这个竞赛表演有三对人参与竞争。当每对人被淘汰时,他们做一个囚徒困境博弈,决定如何分他们的奖品。如果他们都合作(“朋友”),他们的奖品就被平分。如果一个合作而另一个背叛(“敌人”),背叛者得到所有的奖品,合作者什么都得不到。如果都背叛,那么两人都一无所获。注意,这个支付矩阵与前述标准的支付矩阵不同,因为发生“都背叛”的情形和“我合作而对手背叛”的情形,其损失是一样的。和标准囚徒困境的稳定均衡相比,“都背叛”是不稳固的均衡(weak equilibrium)。如果你知道你的对手将成为“敌人”,这时你的选择无法影响你的奖品。在某种意义上,“是敌是友”拥有一个介于“囚徒困境”和“小鸡”之间的支付模型。
这个支付矩阵是:
如果参与者都合作,每人得到 +1。
如果都背叛,每人得到 0。
如果甲合作而乙背叛,甲得到0而乙得到 +2。
是敌是友对于想对囚徒困境作现实分析的人将是有用的。注意到,参与者只能进行一次,所以所有涉及重复进行博弈的观点都不适用,“以牙还牙”策略也无法发展出来。
在是敌是友中,每个参赛者被允许做一个声明,使另一半友在双方秘密决定合作或背叛之前,确信他的友善。可能“打破制度”的方法将是一个参与者告诉他的对手:“我会选择做敌人。如果你相信我后来会和你分奖品的话,就选择做朋友。否则,如果你选择做敌人,我们都回空手而回。”一个更贪婪的版本将是:“我将选择做敌人。我会给你百分之X,剩下的百分之(100-X)归我。所以,要或不要,要么我们都得到一些,要么我们都一无所获。”(在最后通牒博弈中时。)现在,奸计就是去尽量减少那个百分之X,并保持另一个竞争者仍然选择做朋友。基本上,这个参与者必须知道这个界限,在这里他的对手从看到他一无所获中得到的效用,要超过他从肯定能赢得的金钱中得到的效用,如果他顺利的话。
在竞赛中这个方法从未被试验过;可能是因为裁判们不会允许,而且即使允许,不平等厌恶也会由于这个规则的使用而导致较低的期望收益。(最后通牒博弈中尝试了这个方法,结果导致对高而不平等的出价的拒绝——在一些案例中,相当于两周的工资优先于两个参与者一无所获被决绝。)
真实的囚徒困境事件也会在商业活动中出现。两个互相竞争的公司必须决定用多少资源去做广告。甲公司的广告效率部分地决定于乙公司发布的广告。同样的,乙公司来源于广告的收益,也受到甲公司发布的广告的影响。如果甲乙两个公司都选择在既定期间内作广告,广告的作用就会被抵消,收益会保持不变,并且费用会由于广告成本而增加。两个公司都将从削减广告中获益。但是,如果乙公司选择不作广告,甲公司就能通过作广告获得很大的好处。当甲公司和乙公司都使用优势策略时,囚徒困境就出现了,所以结果可想而知。优势策略是这样的行动:它产生最好的结果,无论对手公司做出什么决定。在这个真实的囚徒困境中,要甲公司和乙公司合作是不可能的,因为对双方公司来说都有过分足够的动机去“欺骗”,以获得他们的最佳结果。这也是真实的:双方公司最终将变得比他们合作的结果更糟糕。不过,对公众大有好处的合作行为,有时会在商业环境中出现。
参看文献
罗伯特·阿克斯洛德和威廉·汉密尔顿,《合作的进化》("The Evolution of Cooperation"),出自《科学》(Science),1981年,第211期:1390-1396页。
罗伯特·阿克斯洛德,《合作的进化》(The Evolution of Cooperation),Basic Books出版社,ISBN 0465021212。
罗伯特·阿克斯洛德,《合作的复杂性》(The Complexity of Cooperation),普林斯顿大学出版社,1997年,ISBN 0691015678。
理查德·道金斯,《自私的基因》(The Selfish Gene),第二版——有两章关于合作的进化,1990年,ISBN 0192860925。
格罗夫曼和普,《重复囚徒困境博弈的贝叶斯模型》("Bayesian Models for Iterated Prisoner's Dilemma Games"),1975年,出自《一般系统》(General Systems),第20期:185--194页。
哈丁·加勒特, 《公共地悲剧》("The Tragedy of the Commons"),出自《科学》(Science),1968年,第162期:1243-1248页。
科勒普斯、戴维、罗伯特·威尔逊、保罗·米尔格罗姆和约翰·罗伯茨,《有限重复囚徒困境中的理性合作》("Rational Cooperation in the Finitely Repeated Prisoners' Dilemma"),出自《经济理论杂志》(Journal of Economic Theory),1982年,第27(2)期:245-252页。
保罗·米尔格罗姆,《阿克斯洛德的合作的进化》("Axelrod's The Evolution of Cooperation"),出自《兰德经济学杂志》(Rand Journal of Economics),1984年,第15(2)期:30-59页。
威廉·庞德斯通,《囚徒困境:约翰·冯诺依曼、博弈论和炸弹之谜》(Prisoner's Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb),Doubleday出版社,1992年,ISBN 0385415672。如标题所指出的,这是一个广泛流行的入门介绍。
阿纳托·拉帕波特和阿尔伯特·查马哈,《囚徒困境》(Prisoner's Dilemma),密歇根大学出版社,1965年。此书解释了许多实验,实验中进行了囚徒困境心理博弈。
汤姆·费尔霍夫,《交易者困境:囚徒困境的连续版本》("The Trader's Dilemma: A Continuous Version of the Prisoner's Dilemma"),《计算机科学讲义》(Computing Science Notes)93/02,1998年,荷兰爱因霍芬科技大学,数学和计算机科学系。
新方法赢得囚徒困境比赛(来自Wired.com)。
阿克斯洛德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。
最佳确定性策略被认为是“以牙还牙”,这是阿纳托•拉普伯特(Anatol Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%-5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。
通过分析高分策略,阿克斯洛德指定了策略获得成功的几个必要条件。
友善
最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。
报复
但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。
宽恕
成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。
不嫉妒
最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数)。
因此,阿克斯洛德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克斯洛德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。
尽管以牙还牙始终被认为是最可靠的基本策略,但是在重复囚徒困境的20周年纪念赛中,来英国南安普敦大学的一个小组(由尼古拉斯•詹宁斯(Nicholas Jennings)[1]领导,包括了拉蒂普•达什(Rajdeep Dash)、萨瓦帕里•拉姆琼(Sarvapali Ramchurn)、亚历克斯•罗杰斯(Alex Rogers)斯和皮鲁克里士南•维特林根(Perukrishnen Vytelingum))介绍了一个新的策略,这个策略证明了它比以牙还牙更成功。这个策略依赖于程序之间的合作,为单一程序中获得了最高的点数。南安普敦大学提交了60个程序参与竞赛,这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被作出,一个程序将总是合作,其他程序则总是背叛,保证背叛者得到最大的点数。如果程序识别出它在操作一个非南安普敦参与者,这程序将持续地背叛,企图去最小化竞争程序的得分。结果[5],这个策略以获得前3位结束了竞赛,也得到了大量接近底部的位置。虽然这个策略显著地证明了比以牙还牙有效,但是这是因为利用了下述事实:在这个特殊的竞赛中,多重通道是被允许的。在一方只能控制单一参与者的竞赛中,以牙还牙确实是更好的策略。
如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你。因此,你们都将在最后的回合背叛。这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛。依此类推。为了合作以保持请求,这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。
当博弈参与者能学会估计其他参与者背叛的可能性,他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示,总体上,缺乏经验的参与者与其他参与者的互动,或者是典型的好,或者是典型的坏。如果他们在这些经验的基础上行动,(通过更多的背叛或合作,否则)他们可能在未来的交易中受损。随着经验逐渐丰富,他们获得了对背叛可能性的更真实的印象,变得更成功地参与博弈。不成熟的参与者经历的早期交易对他们未来参与的影响,可能比这些交易对成熟的参与者的影响要大得多。这个原理部分地解释了,为什么年轻人的成长经验这么具有影响力,以及为什么他们特别容易被欺负,有时他们本身最后也成为欺凌弱小者。
群体中背叛的可能性,可以被合作的经验所削弱[6],因为先前的博弈建立了信任。因此自我牺牲行为可以,例如,加强团体的道德品质。如果团体很小,积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。这与相似的困境有关:鼓励那些你将援助的人,从可能使他们处于危险的境地的行为中得到满足。这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。
是敌是友?”是一个竞赛表演节目,从2002年到2005年在美国竞赛表演广播网(Game Show Network)放映。这是一个用真人进行的囚徒困境博弈例子,不过情景是人造的。这个竞赛表演有三对人参与竞争。当每对人被淘汰时,他们做一个囚徒困境博弈,决定如何分他们的奖品。如果他们都合作(“朋友”),他们的奖品就被平分。如果一个合作而另一个背叛(“敌人”),背叛者得到所有的奖品,合作者什么都得不到。如果都背叛,那么两人都一无所获。注意,这个支付矩阵与前述标准的支付矩阵不同,因为发生“都背叛”的情形和“我合作而对手背叛”的情形,其损失是一样的。和标准囚徒困境的稳定均衡相比,“都背叛”是不稳固的均衡(weak equilibrium)。如果你知道你的对手将成为“敌人”,这时你的选择无法影响你的奖品。在某种意义上,“是敌是友”拥有一个介于“囚徒困境”和“小鸡”之间的支付模型。
这个支付矩阵是:
如果参与者都合作,每人得到 +1。
如果都背叛,每人得到 0。
如果甲合作而乙背叛,甲得到0而乙得到 +2。
是敌是友对于想对囚徒困境作现实分析的人将是有用的。注意到,参与者只能进行一次,所以所有涉及重复进行博弈的观点都不适用,“以牙还牙”策略也无法发展出来。
在是敌是友中,每个参赛者被允许做一个声明,使另一半友在双方秘密决定合作或背叛之前,确信他的友善。可能“打破制度”的方法将是一个参与者告诉他的对手:“我会选择做敌人。如果你相信我后来会和你分奖品的话,就选择做朋友。否则,如果你选择做敌人,我们都回空手而回。”一个更贪婪的版本将是:“我将选择做敌人。我会给你百分之X,剩下的百分之(100-X)归我。所以,要或不要,要么我们都得到一些,要么我们都一无所获。”(在最后通牒博弈中时。)现在,奸计就是去尽量减少那个百分之X,并保持另一个竞争者仍然选择做朋友。基本上,这个参与者必须知道这个界限,在这里他的对手从看到他一无所获中得到的效用,要超过他从肯定能赢得的金钱中得到的效用,如果他顺利的话。
在竞赛中这个方法从未被试验过;可能是因为裁判们不会允许,而且即使允许,不平等厌恶也会由于这个规则的使用而导致较低的期望收益。(最后通牒博弈中尝试了这个方法,结果导致对高而不平等的出价的拒绝——在一些案例中,相当于两周的工资优先于两个参与者一无所获被决绝。)
真实的囚徒困境事件也会在商业活动中出现。两个互相竞争的公司必须决定用多少资源去做广告。甲公司的广告效率部分地决定于乙公司发布的广告。同样的,乙公司来源于广告的收益,也受到甲公司发布的广告的影响。如果甲乙两个公司都选择在既定期间内作广告,广告的作用就会被抵消,收益会保持不变,并且费用会由于广告成本而增加。两个公司都将从削减广告中获益。但是,如果乙公司选择不作广告,甲公司就能通过作广告获得很大的好处。当甲公司和乙公司都使用优势策略时,囚徒困境就出现了,所以结果可想而知。优势策略是这样的行动:它产生最好的结果,无论对手公司做出什么决定。在这个真实的囚徒困境中,要甲公司和乙公司合作是不可能的,因为对双方公司来说都有过分足够的动机去“欺骗”,以获得他们的最佳结果。这也是真实的:双方公司最终将变得比他们合作的结果更糟糕。不过,对公众大有好处的合作行为,有时会在商业环境中出现。
参看文献
罗伯特·阿克斯洛德和威廉·汉密尔顿,《合作的进化》("The Evolution of Cooperation"),出自《科学》(Science),1981年,第211期:1390-1396页。
罗伯特·阿克斯洛德,《合作的进化》(The Evolution of Cooperation),Basic Books出版社,ISBN 0465021212。
罗伯特·阿克斯洛德,《合作的复杂性》(The Complexity of Cooperation),普林斯顿大学出版社,1997年,ISBN 0691015678。
理查德·道金斯,《自私的基因》(The Selfish Gene),第二版——有两章关于合作的进化,1990年,ISBN 0192860925。
格罗夫曼和普,《重复囚徒困境博弈的贝叶斯模型》("Bayesian Models for Iterated Prisoner's Dilemma Games"),1975年,出自《一般系统》(General Systems),第20期:185--194页。
哈丁·加勒特, 《公共地悲剧》("The Tragedy of the Commons"),出自《科学》(Science),1968年,第162期:1243-1248页。
科勒普斯、戴维、罗伯特·威尔逊、保罗·米尔格罗姆和约翰·罗伯茨,《有限重复囚徒困境中的理性合作》("Rational Cooperation in the Finitely Repeated Prisoners' Dilemma"),出自《经济理论杂志》(Journal of Economic Theory),1982年,第27(2)期:245-252页。
保罗·米尔格罗姆,《阿克斯洛德的合作的进化》("Axelrod's The Evolution of Cooperation"),出自《兰德经济学杂志》(Rand Journal of Economics),1984年,第15(2)期:30-59页。
威廉·庞德斯通,《囚徒困境:约翰·冯诺依曼、博弈论和炸弹之谜》(Prisoner's Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb),Doubleday出版社,1992年,ISBN 0385415672。如标题所指出的,这是一个广泛流行的入门介绍。
阿纳托·拉帕波特和阿尔伯特·查马哈,《囚徒困境》(Prisoner's Dilemma),密歇根大学出版社,1965年。此书解释了许多实验,实验中进行了囚徒困境心理博弈。
汤姆·费尔霍夫,《交易者困境:囚徒困境的连续版本》("The Trader's Dilemma: A Continuous Version of the Prisoner's Dilemma"),《计算机科学讲义》(Computing Science Notes)93/02,1998年,荷兰爱因霍芬科技大学,数学和计算机科学系。
新方法赢得囚徒困境比赛(来自Wired.com)。
还没人赞这篇日记