摘 要:“囚徒困境”博弈是完全信息静态博弈的典型例子,被认为是上策纳什均衡,具有必然性,但在现实中非纳什均衡也同样出现。本文就“囚徒困境”中非纳什均衡出现的问题,对博弈的前提假设完全理性、完全信息以及概率进行了分析,得出的结论是:完全理性中的整体思维方式和概率为零的事件的发生以及完全信息等于一致信念时引起的不确定性,都可能导致非纳什均衡出现,而其出现的可能性则取决于采取整体思维方式的人的比例。
关键词:囚徒困境;完全理性;概率;完全信息;整体思维方式
The Analysis about the Probability and Reasons of Non-Nash Equilibrium in Prisoners’ Dilemma
Abstract: The prisoners’ dilemma, which is the representative example of complete information static game, is deemed to dominant-strategy Nash equilibrium and has the inevitability, but in fact non-Nash equilibrium also appears. To the question of non-Nash equilibrium in prisoners’ dilemma, this paper makes an analysis to Game Theory’s hypothesis: complete rationality, complete information and probability, and gets a result: systems thinking style in complete rationality, the happen of the event of zero probability, and the uncertainty that is brought out when complete information is concordant beliefs, all can bring the appearance of non-Nash equilibrium, and the probability of appearance is decided by the proportion of men who think in systems thinking style.
Key Words: prisoners’ dilemma; complete rationality; probability; complete information; systems thinking style
“囚徒困境”博弈是图克(Tucker)1950年提出的一个著名的博弈模型,是完全信息静态博弈的典型例子。
一、 “囚徒困境”博弈及其纳什均衡
囚徒困境博弈的基本情况如下:警察抓住了两个合伙犯罪的罪犯,但却缺乏足够的证据指证他们所犯的罪行。如果其中至少有一人供认犯罪,就能确认罪名成立。为了得到所需的口供,警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟,并给他们同样的选择机会;如果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判1年徒刑;如果两人中有一人坦白认罪,则坦白者从轻认罪,立即释放,而另一人则将重判8年徒刑;如果两人同时坦白认罪,则他们将被各判5年监禁。
如果分别用-1、-5和-8 表示罪犯被判刑1年、5年和8年的得益,用0表示罪犯被立即释放的得益,则两囚徒的得益矩阵如下:
囚 徒2
坦白 不坦白
囚徒1 坦白 -5,-5 0,-8
不坦白 -8,0 -1,-1
在上图中,“囚徒1”、“囚徒2”分别代表本博弈中的两个博弈方,也就是两个罪犯;他们各自都有“不坦白”和“坦白”两种可选择的策略;因为这两个囚徒被隔离开,其中任何一人在选择策略时都不可能知道另一人的选择是什么,因此不管他们决策的时间是否真正相同,我们都可以把他们的决策看作是同时做出的。其中矩阵中第一个数字代表决策结果后囚徒1的得益,第二个数字代表决策结果后囚徒2的得益。
博弈的结果是:由于这两个囚徒之间不能串通,并且各人都追求自己的最大利益而不会顾及同伙的利益,双方又都不敢相信或者说指望对方有合作精神,因此只能实现对他们都不理想的结果(各判5年),并且这个结果具有必然性,很难摆脱,因此这个博弈被称为“囚徒困境”。[1]
二、 非纳什均衡出现的可能性及其原因分析
1、完全理性与非纳什均衡
囚徒困境博弈的一个假设是博弈方具有完全理性的行为能力。完全理性来源于经济学中的理性人假设,即博弈方都以个体利益最大化为目标,且有准确的判断选择能力,也不会“犯错误”。以个体利益最大为目标被称为“个体理性”,有完美的分析判断能力和不会犯选择行为的错误称为“完全理性”。具体地说来,完全理性包括追求最大利益的理性意识、分析推理能力、识别判断能力、记忆能力和准确行为能力等多方面的完美性要求,其中任何一方面不完美就不属于完全理性。[1]我们可以看出,这是一个要求非常严格的假设。即便如此,完全理性仍在一个方面没有做出规定(至少是没有意识到或明确地规定出来),就是思维方式,也即是博弈方是以将问题分解的方式来思考问题呢,还是以系统的整体的方式来思考问题的。我引用《第五项修炼》上的一段话来表达这两种思维方式的不同。
自幼我们就被教导把问题加以分解,把世界拆成片片段段来理解。这显然能够使复杂的问题容易处理,但是无形中,我们却付出了巨大的代价——全然失掉对“整体”的连属感,也不了解自身行动所带来的一连串后果。于是,当我们想一窥全貌时,便努力重整心中的片段,试图拼凑所有的碎片。但是就如物理学家鲍姆(David Bohm)所说的,这只是白费力气;就像试着重新组合一面破镜子的碎片,想要看清镜中的真像。经过一阵子努力,我们甚至干脆放弃一窥全貌的意图。
现在我们以系统的整体的思维方式来重新分析囚徒困境博弈。警察的目的是获得证据,以使囚徒获得应有的惩罚,囚徒的目的是“获取”最少的惩罚。双方的这种矛盾使得囚徒有串通的倾向,为了离间两个囚徒,警察确立了模型中的规则(且不论这些规则和设置合不合理)。对每个囚徒来说,要想达到自身的目的,而不考虑整个模型设置的让双方都坦白的目的,很显然是不行的。囚徒该如何选择呢?答案是不坦白。如果囚徒看出了该模型的目的,若选择坦白,以自推人,对方也会选择坦白,必然落入警察的圈套,此所谓鹬蚌相争,渔翁得利。当两博弈方都用整体思维来考虑这个问题时,相互配合 是其最好的选择,因为在完全理性假设前提下,自己选择坦白而另一方选择不坦白,这种机会是没有的,这种饶幸心理也是取不得的,剩余的只有要不都坦白,要不都不坦白,所以相互配合是其最好的选择,结果一定是不坦白。此所谓兄弟阋于墙,外御其侮,这也是空城记能够唱成的原因。如果任何博弈方不是采用系统的思维方式来思虑这个问题的,因为一方用分解的思维方式来思考囚徒困境,他会选择坦白,那么另一方不管用什么思维方式来思考这个问题,选择坦白都是最好的,因此其结果必然是都坦白。
为什么分解思维方式在这儿会犯错误呢?问题在于1 1=2。1 1=2大家不会有任何的质疑,依照逻辑,N个1相加等于N,大家也一样不会有疑问。举个例子,把一块砖放在另一块砖的上面,这是大家很容易接受也很容易办到的事情,但万丈高楼却不是一块砖一块砖地盖起来的,大家首先需要的是整体设计。我们回来说1 1=2,在数学方面这是没有质疑的,但把它运用到经济学领域,其逻辑是否就一定像在数学领域一样可靠?这其实要回到斯密,斯密当年做出理性人的假设,从理论建设的角度来说,他是为了他的观点的成立。依靠这个大家从不质疑的逻辑,他完成了他的看不见的手,但是市场失灵出现了,问题的原因一定程度上是由于这个逻辑的可靠性。从概率方面来说,符合逻辑是一种可能,不符合逻辑也是一种可能,掷筛子(随机)同样是一种可能。斯密的理性人假设是为了把符合逻辑变成唯一的可能。但当符合逻辑变成唯一的可能后,市场失灵仍然会出现。在《第五项修炼》上有一个啤酒的实验例子,当情人啤酒的需求增长一倍后,大家(零售商、批发商和厂家)的理性反应却弄出来一个痛苦的结局:情人啤酒堆积如山,不得不低价出售。这说明当符合逻辑变成唯一的可能后,市场失灵仍然会出现。因此,1 1=2的逻辑在经济学领域缺乏完全的可靠性。
2、概率与非纳什均衡
从概率上来说,都坦白的概率是非常大的,可能很接近1或者等于1。但概率没有表示出事件到底是怎么样发生的,它只表示了发生的可能。概率等于1代表的是事件发生的可能性是100%,而不是事件发生了;同样,概率为0代表的是事件发生的可能性为0,但这不能就此说事件不会发生了。例如,我们掷飞镖,从
理论上讲,对于圆盘上每一点来说概率都为0,但只要我们把飞镖掷到了圆盘上,对于圆盘上的被掷到的那一点来说,被掷到的概率为0,但它还是被掷到了,事件还是发生了。这有点像红军的爬雪山过草地,在蒋介石看来,并且从当时的
历史和实际来看,红军的爬过雪山走过草地的可能性为0,但正是这个0的概率,使
中国的历史走到了今天。反过来,我们也可以说概率等于1的事件不一定就发生。
在概率论中,随机变量分为离散型随机变量和连续型随机变量两种。对于离散型随机变量,由于其对概率为0的可能值不会包括在内,这使我们习惯性地把概率为0的可能值视为不会发生。也正是由于此,我们无法找到概率为0的离散型随机变量,也就无法证明它会发生。
对于任意的连续型随机变量 ,对于任何常数 和 ( ), 。对于随机变量的取值范围内的任何一点来说,其概率为 ,显然为0;对于某一事件来说,其发生的值假定为 ,那么,我们得出在概率为0的 点事件发生了。
在大家都认为都坦白的概率等于1时,其实其前提是大家都是以分解的思维方式来考虑
问题的。现在我们假定在
社会中用整体思维方式考虑问题的人占所有社会人的比例为 ( ),用分解思维方式考虑问题的为 。假定用系统思维方式考虑问题的人相遇时,囚徒困境的结果是都不坦白。假定一方坦白,另一方不坦白的概率为0。假定两种不同的思维方式相遇或都用分解思维方式时,结果都是坦白。那么警察能够达到目的的概率为 。
在双方都知道对方是什么样的思维方式的前提下,一方坦白另一方不坦白的博弈结果,因为其概率为0,所以不会对我们的概率(统计)结果有什么明显的
影响。然而就某一次博弈来说,我们无法确定最后的结果是什么,只能说一切皆有可能发生。
3、 完全信息与非纳什均衡
关于完全信息,我的问题是完全信息是等于共同知识还是等于一致信念?共同知识指的是“所有参与人知道,所有参与人知道所有参与人知道,所有参与人知道所有参与人知道所有参与人知道……”的知识。一致信念是指这种情况,即使所有参与人“共同”享有某种知识,每个参与人也许并不知道其他参与人知道这些知识,或者并不知道其他人知道自己拥有这些知识。[2]
张维迎在《博弈论与信息
经济学》中关于完全信息的表述为:完全信息是指
自然不首先行动或自然的初始行动被所有参与人准确观察到的情况,即没有事前的不确定性。信息是参与人有关博弈的知识,特别是有关“自然”的选择、其他参与人的特征和行动的知识。谢识予在《经济博弈论》在的表述为:各博弈方都完全了解其他博弈方各种情况下得益的博弈称为“完全信息(Complete Information)博弈”。我们可以看出,张维迎认为完全信息即没有事前的不确定性,也就是说完全信息等于共同知识。谢识予认为只要各博弈方都完全了解其他博弈方各种情况下得益就是完全信息,可以说他认为完全信息等于一致信念。
当完全信息等于共同知识时,就如上面的
分析。但当完全信息只等于一致信念时,情况就会变得比较复杂。
在完全信息等于一致信念的情况下,我们假定囚徒困境中的博弈方只知道各博弈方在各种情况下得益,任何一方都不知道另一方知道不知道自己知道这些得益以及以后的情况 。如果我们假定双方都以对方不知道自己知道这些得益为前提来思考这个博弈,那么情况会怎么样呢?因为囚徒困境中的均衡是一个上策纳什均衡,在分解思维方式下,不管自己还是对方知道不知道这些信息,自己的上策都是坦白,所以在信息方面不用考虑那么多。但在整体思维方式下,如果完全信息仅仅是一致信念,以后的信息就可以说是具有不确定性。在面临不确定性时,我们的完全理性假设就不成立,因为不确定性是指决策者根本不知道某一变量有几个可能的取值,更不知道每一可能值发生的概率;Knight(1921)指出有限理性的根基是所谓的“根本的不确定性”。可以和完全理性并存的是不完全信息或称风险,即决策者知道某一变量所有可能的取值,以及每一值发生的概率。[3]因此,完全信息应该等于共同知识,否则我们无法在完全理性条件下分析囚徒困境;要不分析将变得非常复杂,结果也是未知。
三、 基本结论
通过以上的分析,本文认为,完全理性中的整体思维方式和概率为零的事件的发生以及完全信息等于一致信念时引起的不确定性,都可能导致非纳什均衡出现,而其出现的可能性则取决于采取整体思维方式的人的比例。
参考文献:
[1] 谢识予.经济博弈论[M].上海:复旦大学出版社,2002.
[2] 张维迎.博弈论与信息经济学[M].上海 :上海三联书店上海人民出版,2002.
[3] 杨小凯.不完全信息与有限理性的差别[N].经济学信息报.2001-11-23.