摘要
本文主要介绍进化博弈理论的基本动态模型:对称博弈模仿者动态模型和非对称博弈模仿者动态模型及其相关结论。为了便于理解,在文中引用了一些简单的例子说明它们之间的区别与联系。在此基础上文中还介绍了理论家们对随机动态所进行的相关研究及其所取得的理论成果。最后本文比较了经典博弈理论② 与进化博弈理论在动态概念上的差别。
关键词:进化稳定策略⑩;模仿者动态;随机稳定均衡
进化博弈理论至少自Lewontin(1960)用于解释生态现象就已经产生了,并被广泛应用于生态学、社会学及经济学等领域来研究群体行为的演化过程及其结果。进化博弈理论从有限理性的个体出发,以群体为研究对象,认为现实中个体并不是行为最优化者,个体的决策是通过个体之间模仿、学习和突变等动态过程来实现的。进化博弈理论强调系统达到均衡的动态调整过程,认为系统的均衡是达到均衡过程的函数,也就说均衡依赖于达到均衡的路径。动态概念在进化博弈理论中占有相当重要的地位,许多博弈理论家对群体行为调整过程进行了广泛而深入的研究,根据他们考虑问题的角度不同而提出了不同的动态模型,如Weibull(1995) 提出的模仿动态(Imitation Dynamics)模型;Börgers and Sarin(1995,1997)等提出的强化动态 ③(Reinforcement Dynamics)模型等等。但到目前为止,在进化博弈理论中应用最多的还是由Taylor and Jonker(1978)提出的模仿者动态(Replicator Dynamics)模型。模仿者动态是进化博弈理论的基本动态,它能较好地描绘出有限理性个体的群体行为变化趋势,由之得出的结论能够比较准确地预测个体的群体行为,因而倍受博弈论理论家们的重视。本文集中介绍确定性模仿者动态概念、模型及其与经典博弈动态概念的区别。
一、确定性模仿者动态
一般的进化过程都包括两个可能的行为演化机制:选择机制(Selection Mechanism)和突变机制(Mutation mechanism)。选择机制是指本期中能够获得较高支付的策略,在下期被更多参与者选择;突变是指参与者以随机(无目的性)的方式选择策略,因此突变策略可能获得较高支付也可能获得较低支付,突变一般很少发生。新的突变也必须经过选择,并且只有获得较高支付的策略才能生存(Survive)下来。按所研究的群体数目不同,进化博弈动态模型可分为两大类:单群体(Monomorphic Population)动态模型与多群体(Polymorphic Populations)动态模型。单群体动态模型是指所考察的对象只含有一个群体,并且群体中个体都有相同的纯策略集,个体与虚拟的参与人④ 进行对称博弈。多群体动态模型 ⑤是指所考察的对象中含有多个群体,不同群体个体可能有不同的纯策略集,不同群体个体之间进行的是非对称博弈。博弈中个体选择纯策略所得的支付不仅随其所在群体的状态变化而变化,而且也随其他群体状态的变化而变化。下面重点介绍单群体与多群体动态模仿者动态模型。
1.1、单群体确定性模仿者动态模型
单群体模仿者动态模型是由Taylor and Jonker (1978)在考察生态演化现象时首次提出的。他们把一个生态环境中所有的种群看作为一个大群体,而把群体中每个种群都想象或程式化为一个特定的纯策略。群体在不同时刻所处的状态一般用混合策略来表示。所谓模仿者动态是指使用某一纯策略的人数所占比例的增长率等于使用该策略时所得支付 ⑥与群体平均支付之差,或者与平均支付成正比例。为了说明的方便,本文首先给出一些符号,然后给出Taylor and Jonker (1978)模仿者动态公式的推导过程。
假定群体中每一个个体在任何时候只选择一个纯策略,比如,第j个个体在某时刻选择纯策略(当然由于突变或策略转移,同一个体在不同时刻可以选择不同的纯策略)。
表示群体中各个体可供选择的纯策略集;N表示群体中个体总数;表示在时刻t选择纯策略i的个体数。
表示群体在时刻t所处的状态,其中表示在该时刻选择纯策略i的人数在群体中所占的比例,即。
表示群体中个体进行随机配对匿名博弈时,群体中选择纯策略的个体所得的期望支付。
表示群体平均期望支付。
下面给出连续时间模仿者动态公式,此时动态系统的演化过程可以用微分方程来表示。在对称博弈中每一个个体都认为其对手来自于状态为x 的群体。事实上,每个个体所面的对手是代表群体状态的虚拟个体 ⑦。假定选择纯策略的个体数的增长率等于⑧,那么可以得到如下的等式:
由定义可知,两边对t微分可以 ⑨:
两边同时除以N得到:
上式就是对称博弈模型中模仿者动态公式的微分形式。可以看出,如果一个选择纯策略的个体得到的支付少于群体平均支付,那么选择纯策略的个体在群体中所占比例将会随着时间的演化而不断减少;如果一个选择策略的个体得到的支付多于群体平均支付,那么选择策略的个体在群体中所占比例将会随着时间的演化而不断地增加;如果个体选择纯策略所得的支付恰好等群体平均支付,则选择该纯策略的个体在群体中所占比例不变。
从上面的公式推导过程可以看出,Taylor and Jonker提出的模仿者动态仅仅考虑到纯策略的继承性,而没有考虑到混合策略的可继承性。Bomze(1986)证明了如果允许混合策略也可以被继承,那么在模仿者动态下,进化稳定策略 等价于渐近稳定性。另外,下面不加证明⑾ 地给出Hofbauer et al. (1979); Zeeman (1980)提出并证明的一个命题,“在模仿者动态下,对称博弈中每一个ESS都是渐近稳定的”。这个命题的逆命题并不成立,下面用Fudenberg(1995)的一个反例来给予说明,考察表Ⅰ矩阵所示的对称博弈:
该博弈有唯一对称的纳什均衡 ⑿(
),且均衡时的期望支付为
。这个均衡并不是进化稳定均衡,因为它能够被策略
侵入;又因为在平衡点处雅可比行列式的特征根是
和
,该均衡状态是动态系统的汇⒀ (Sink),因此均衡是渐近稳定的,所以对称博弈的渐近稳定均衡并不一定是进化稳定均衡。
从模拟者动态方程可以看出,支付函数的正向变换或者位移变换
⒁只改变群体演化速度而不
影响群体演化路径。因而,在进行
分析时,可以对支付矩阵进行必要的简化处理。
另外,由此还可以求出
的两个种群相对增长率:
上式说明:个体博弈时,获得相对较多支付的群体则具有更高的增长率。
1.2、多群体模仿者动态模型
Selten(1980)引入角色限制行为(Role Conditioned Behavior)而把群体分为单群体与多群体,不同群体根据个体可供选择的纯策略集不同来划分。多群体时,不同群体中的个体有不同纯策略集、不同群体平均支付及不同群体演化速度。因而,多群体模仿者动态公式推导比较复杂,下面给出多群体模仿者动态方程(参阅
文献[24]):
其中,上标j
表示第j个群体,其中K表示有K个群体;
表示第j个群体中选择第
个纯策略的个体数占该群体总数的百分比;
表示群体j在某时刻所处的状态,
表示第j个群体以外的其他群体在t时刻所处的状态;
表示群体j中个体行为集中的第i个纯策略;x表示混合群体的混合策略组合,
表示混合群体状态为x时群体j中个体选择纯策略
时所能得到的期望支付;
表示混合群体的平均支付。
多群体模型并不是对单群体模型的简单改进,由单群体到多群体涉及到一系列的如均衡及稳定性等问题的变化。Selten(1980)证明了“在多群体博弈中进化稳定均衡都是严格纳什均衡⒂ ”的结论,这就说明在多群体博弈中,传统的进化稳定均衡概念就显示出其局限性了。同时,在模仿者动态下,同一博弈在单群体与多群体时也会有不同的进化稳定均衡。下面就利用一个例子来给予说明。
1.3、单群体与多群体的区别
考察表Ⅱ矩阵所示的对称博弈:其中行代表虚拟参与人,也就是群体状态;列代表个体。由经典博弈
理论知道,这个博弈有两个非对称纳什均衡(A,B)、(B,A)和一个混合策略纳什均衡
(即群体中一半个体选择策略A,另一半个体选择策略B)。由于本文仅考察单一群体情形,即群体中个体无角色(Role)区分,因此不可能分离出两类个体,所以这个系统不可能收敛到非对称纳什均衡(A,B)、(B,A)。在模仿者动态下,尽管没有单个个体选择混合策略,但这个混合策略纳什均衡却是该动态系统唯一进化稳定均衡且是渐近稳定均衡,下面证明它的渐近稳定性。
令
表示在时刻t群体中选择策略A的个体所占比例,那么此时群体中选择策略B的个体所占的比例为
,选择策略A所得的期望支付为
,而选择策略B所得的期望支付为
,群体平均期望支付为
。
于是就可以得到如下一维模仿者动态方程:
从微分方程可以得出,当
时,如果群体中选择纯策略A的个体数少于一半时,选择A的个体数就会增加;当
时,群体中选择纯策略A个体数保持不变;当
时,如果群体中选择纯策略A的个体数大于一半时,选择策略A的个体数就会减少。也就是说,只要群体中偏离一半选A,一半选B,系统就会自动回复到混合策略均衡
。因此混合策略纳什均衡是渐近稳定的,图Ⅰ是该动态系统的相图。
下面引入个体角色区分继续
分析上面的博弈,单群体时由于群体中个体无角色区分,因而无法分离出不同群体的个体;多群体时就不同了,不同角色的个体可以从群体中分离出来。尽管博弈的支付矩阵没有变化,但却有不同的模仿者动态方程 ⒃。
同样,该博弈有两个非对称的纳什均衡(A,B);(B,A)和一个混合策略纳什均衡
。单群体时,博弈不可能收敛到两个非对称纳什均衡;多群体时,由于个体之间有角色区分,因而群体中就可以分离出不同角色的个体,这样就不能排除两个非对称纳什均衡。在单群体中混合策略是渐近稳定的,但在这里混合策略纳什均衡却不满足稳定性条件。通过解模仿者动态微分方程可以得到,该动态有五个平衡点
,由各平衡点处雅可比行列式的特征根可以判断出:平衡点
是系统的源(Source);平衡点
是系统的汇(Sink);平衡点
是系统的鞍点(Saddle Point)。图Ⅱ是该系统的相图。显然,混合策略纳什均衡不是渐近稳定的,也不是进化稳定策略。
二、随机动态的深入
研究 以上给出了模仿者动态理论及其相关的结论,为了进一步了解进化博弈动态理论的最新研究成果,下面简要地介绍博弈论理论家们把随机因素纳入到进化模型的几种方式。从理论意义上说,在确定性动态下,所有纳什均衡都是动态系统的不动点(Fixed-Point),并且所有严格纳什均衡都是渐近稳定的不动点,因此不利于系统在严格纳什均衡之间的选择;从现实意义上说,
经济系统常常会受到许多随机冲击的
影响,环境的不断变化、个体的试验及新旧更替等都会对群体行为产生随机影响,仅用确定性模仿者动态来描述系统行为的变化显然是不够的。要更准确地描绘一个系统的动态变化,就必须对随机动态系统进行研究。随机性动态是指把在系统向均衡演化过程中受到的不可忽略的随机冲击影响纳入动态模型的动态。Foster and Young (1990)首次把随机因素纳入到进化动态模型,开创了对随机动态系统研究的先河。他们认为,现实中,尽管单个随机因素对系统的影响很小,但这些影响却可能产生累积的效果,从而定量地改变动态系统的渐近行为,因而忽略随机因素对系统的影响而研究确定性动态系统是不对的。他们利用维纳过程(Weiner Process)来描述随机因素的影响,并把这种随机影响直接加到确定性模仿者动态的群体分布水平上,同时提出了“随机稳定集(Stochastic Stable set)”这一描述随机系统均衡的概念。这个概念的提出把传统确定性动态模型中的ESS拓展到随机性动态系统中,它是一个比进化稳定策略更精炼的概念。Fudenberg and Harris(1992)认为 Foster and Young 把随机冲击直接加到确定性模仿者动态群体分布水平上,并且认为策略单纯形的边界起反射作用⒄ 是没有说服力的。他们通过假定支付函数受到群体水平或者累积冲击的影响,利用与 Foster and Young同样的维纳过程引入了随机因素。Kandori, M. G. Mailath, and R. Rob (1992,KMR) 利用Foster and Young的处理技巧首次分析了有限数目个体的离散随机动态系统。并在惯性、近视及试验、突变假说的基础上,利用达尔文动态系统 ⒅通过假定不变突变率引入随机因素。Bergin and Barton (1996)认为,KMR假定突变率是常数,这一假设与现实是不相符合的。因为现实中突变要么来自于试验;要么来自于
计算、推理错误;要么来自于个体的进出,而这些因素都会影响到突变率。于是他们在随机动态系统中引入了随系统状态变化而变化的突变率,并在此基础上来研究随机动态系统。此后有许多博弈论理论家从不同的方面对随机动态系统进行了深入的研究,并得出了许多有用的结论。
三、进化动态与动态博弈的异同
动态概念在进化博弈
理论与经典博弈理论 ⒆都占有相当重要的地位,但它们却存在着根本的区别。进化动态把参与人行为演化过程看作一个时间演化系统,重点
研究参与人行为的调整过程。经典博弈的动态是以参与人行动所传递的信息为依据,重点研究参与人在预期信息下的决策结果。具体地说:
3.1、理论基础不同
经典博弈理论的动态概念是建立在古典
经济学理性人假定的基础上,通过引入参与人的互动行为而提出来的。经典博弈理论认为,理性人能够对环境的任何变化作出快速、准确的反应,只要拥有决策所需的信息,经济系统就会迅速达到均衡。经典博弈理论所谓的动态是建立在参与人行动次序基础上,认为:后行动者可以通过观察先行动者的行动来获得有关后者的偏好、支付函数等方面的信息来修正自己的信念,并由此来选择自己的最优行动;先行动者也会预期到自己的行动会暴露自己偏好、支付等方面的信息,因而他会在此预期下来最优化自己的决策。显然,经典博弈所谓的动态也就是考察理性人对信息传递的处理。进化博弈理论是建立在有限理性参与人假定的基础之上,认为现实中参与人并不能免费获得决策所需要的信息,也不具有无限的信息处理能力,所以参与人并不满足理性要求。现实中参与人需要经过非常复杂的模仿、试验、
学习及创新等过程来作出决策,最优化
计算只是
影响决策因素之一。
3.2、对动态的理解不同
与古典经济学理论一样,经典博弈理论来源于经典牛顿线性力学,认为时间是可逆的,即无论在什么时候,只要给定相同的条件就会得出相同的结果。因为理性参与人具有无限的计算能力,在给定信息下,能够迅速地计算出最优决策,这种最优化结果只与外界的条件有关而与时间是无关的,因而不需要对系统达到均衡的过程进行
分析,只要通过对不同均衡的比较来达到发现经济运行
规律的目的,进而预测并指导参与人行动。该理论所说的动态也就是参与人信念调整的最优反应动态,根本不需要把时间纳入到其模型之中,最多在参与人的策略互动过程中加入折现因子来考察参与人的最优反应。进化博弈理论则是来源于生物进化论,认为有限理性的参与人并不能对环境变化作出迅速、准确的反应,而是通过试验、模仿及学习等方式而选择决策,其决策受其所处环境的影响。系统达到均衡并不能通过行为主体一次性决策来完成,而需要一个复杂的渐进过程。进化博弈理论重点强调系统达到均衡的渐进过程,认为系统一旦达到某一个均衡就可能被“锁定或稳定”于该均衡状态,只有来自于外部强大的冲击才能使系统离开原来的均衡。这种认为均衡是受达到均衡路径制约的观点与诺斯的路径依赖及混沌经济学的分析
方法具有某种程度的相似之处。
3.3、动态均衡概念不同
经典博弈理论的基本均衡概念----纳什均衡主要针对完全信息静态博弈提出的,在动态博弈中就显示出其局限性了。这个定义只考虑到其他参与人决策对自己的影响而没有考虑自己的决策对其它人的影响。现实中参与人的行动有先后顺序,后行动者
自然会根据先行动者的选择所传递的信息来调整自己的选择;先行动者自然也会理性地意识到自己的行动会传递自己有关信息(不完全信息时)。Selten(1965)把这种信息的传递过程纳入到博弈模型中,提出了动态博弈的基本均衡概念---子博弈精练纳什均衡(Subgame Perfect Nash Equilibrium)。与纳什均衡相比,子博弈精练纳什均衡虽然可以剔除静态博弈中不可置信的威胁,但不能够从根本上解决博弈中多重均衡
问题,其最大的缺陷在于没有削弱参与人理性要求。Kreps and Wilson(1982)把信息和不确定性引入到动态博弈中而提出“序贯均衡”把子博弈精练均衡与贝叶斯均衡结合起来。进化博弈理论重点研究群体行为的动态调整过程。其基本的均衡概念----进化稳定策略的直观思想是,如果一个群体的行为模式能够消除任何小的突变群体,那么这种行为模式一定能够获得比突变群体更高的期望支付,那些选择获得较低支付策略的群体随着时间的演化最终会从原群体中消失。进化稳定策略[4]是一个邻域概念,与动态系统的渐近稳定性及吸引子有相似的性质,主要描述系统局部的动态性质,因而可以把影响均衡过程的各种因素纳入到其动态模型中,特别是Foster and Young(1990)提出的随机稳定均衡(Stochastic Stability Equilibrium)概念把影响经济系统的各种随机因素都纳入到其模型中,使得由该理论均衡概念所得的预测结果更准确、更真实地描述参与人群体行为。
3.4、研究的起点不同
虽然,经典博弈理论加入了个体之间行为的互动性,但依然是从单个理性消费者或生产者出发来研究资源的最优化配置问题,这种研究方法 ⒇的最大缺陷就是无法实现由个体行为到集体行为的转化。一个明显的例子就经典博弈理论中囚徒困境博弈,在该博弈中两个囚徒都从个体理性出发,但得到了集体非理性均衡的结论。也就是说,经典博弈理论无法从研究个体最优行为过渡到集体最优的资源配置。与此不同,进化博弈理论则直接以参与人的群体为其研究的逻辑起点,在考虑到影响参与人行为的
社会因素、文化因素、民族习俗及个体生活习惯等因素的基础上进一步考察群体中有限理性个体的行为互动关系,通过研究群体中个体行为的互动关系来进一步研究社会资源的配置问题。这种研究方法很巧妙地避开由个体行为向集体行为转化问题,因而能够更加真实地反应现实人的决策过程及其决策结果。
3.5、所用数学工具不同
经典博弈理论建立在信息可以免费获取、参与人有无限信息处理能力及参与人是完全理性的等假定下而得出经济系统常常处于均衡状态的结论。在任何时候、任何条件下,参与人都能够迅速解出最优决策,因此在该理论中主要利用微积分中最优化理论来分析参与人的决策行为,通过跨时期最优化计算来把静态理论动态化。进化博弈理论由于要考虑影响系统达到均衡的各种因素,并且主要考察系统在达到均衡过程中所受到确定或随机因素的影响,因此该理论需要用较高深的数学工具如:动力系统理论、微(差)分方程理论、拓扑理论、混沌理论等来分析均衡过程。
注释:
①本文为2002年中国经济学年会的入选论文。张良桥:广东省顺德职业技术学院,邮编:528300。 |
②本文把源于冯·诺意曼和摩根斯滕经纳什发展而成的博弈称之为经典博弈论,可参阅文献[1],[2]。 |
③其实质就是个体与群体进行博弈,即个体通过对群体选择不同策略的个体数的观察来确定自己的选择。Selten(1980)通过对个体引入角色限制,首次考察了非对称博弈中的均衡问题,并证明了“在非对称博弈中进化稳定均衡等价于严格纳什均衡” |
④其实质就是个体与群体进行博弈,即个体通过对群体选择不同策略的个体数的观察来确定自己的选择。 |
⑤Selten(1980)通过对个体引入角色限制,首次考察了非对称博弈中的均衡问题,并证明了“在非对称博弈中进化稳定均衡等价于严格纳什均衡” 。 |
⑥在这里所说的支付与生态学里所说的繁殖成活率或适应度(fitness)是一个等价的概念。 |
⑦在许多进化博弈理论的文献中,都认为个体与自然(Nature)进行博弈。 |
⑧在这里是模仿者动态的最基本的假定,由此可以得到以后的所在的结论。 |
⑨ |
⑩进化稳定策略与纳什均衡策略之间的区别在文献[4]中有详细的介绍。 |
⑾由于该命题的证明要用到动力系统的熵理论,在此就不给出证明,可参阅文献[10]。 |
⑿所谓纳什均衡是指一个策略组合,在该组合下任何参与人单独偏离都不会变动比不偏离好,也就是说,在给定其它参与人选择条件下,每一个参与人都选择了使自己获得最大期望效用或利润的决策。事实上,这个博弈也有两个非对称的纳什均衡,但由于我们所考察的是对称博弈,群体中不可能分离出两类不同的参与者,所以博弈结果不可能趋于非对称的纳什均衡。另外,由于进化稳定策略集是纳什均衡的子集,所以要找进化稳定策略首先需要找出纳什均衡,然后找进化稳定策略。 |
⒀ 一个稳定状态叫做汇(Sink),如果在该状态的雅可比矩阵的特征根都在单位圆内(离散时)或者有负实部(连续时)。 |
⒁由模仿者动态方程进行支付变换,可得 |
⒂ 所谓严格纳什均衡即是严格占优纳什均衡。给定对手选择的情况下,每个人都通过选择严占优的策略而组成的纳什均衡 |
⒃ |
⒄ Foster and Young认为由于系统总会受到迁移和背景突变因素的影响,所以可以假定系统不可能达到策略单纯形的边界,当系统接近边界就会离开即边界就象一面镜子起着反射作用。 |
⒅ |
⒆进化博弈理论与经典博弈理论的区别在文献[3]中有详细的介绍 |
⒇该理论的核心概念----纳什均衡是指假定其他人选择不变的情况下,每个个体都选择使得自己获得最大支付的策略。从数学上来讲,纳什是通过应用角谷静夫不动点定理来证明纳什均衡存在性的,并且一般的求解过程就是通过求单个个体期望支付函数的偏导数(即假定其他参与人选择不变的数学体现)并解联立方程组(纳入互动关系)得出的 |
参考文献
[1] 王则柯(1999):《博弈论评话》,中国经济出版社。
[2] 张良桥(2001):《进化稳定均衡与纳什均衡:兼谈进化博弈理论的发展》,《经济科学》,3,103-111。
[3] Bergin, J. and L. L. Barton (1996): Evolution With State-Dependent Mutations, Econometrica, 64, 943-956.
[4] Börgers, T. and R. Sarin (1997): Learning Through Reinforcement and Replicator Dynamics, Journal of Economic Theory, 77, 1-14.
[5] Foster, D., and P. Young(1990):Stochastic Evolutionary Game Dynamics, Theoretical Population biology, 38, 219-232.
[6] Fudenberg, D. and C. Harris (1992): Evolutionary Dynamics with Aggregate Shocks, Journal of Economic Theory, 57, 420-441.
[7] Kandori, M. G. Mailath, and R. Rob (1993): Learning, Mutation, and Long-run Equilibria in Games, Econometrica, 61, 29-56.
[8] Kreps and Wilson(1982):“Sequential Equilibrium”,Econometrica.
[9] Lewontin, R. C. (1960): Evolution and the Theory of Games. Journal of Theoretical Biology, 1, 382-403.
[10] Maynard Smith, J. and G. R. Price(1973): “The Logic of Animal Conflicts”, Nature, 246, 15-18.
[11] Selten, R. , (1980): A Note on Evolutionarily Stable Stratifies in Asymmetric Animal Conflicts, J. Theoret . Biol. 84, 93-101.
[12] Selten, R., (1965): Spieltheoretische Behandlung Eines Pligopolmodells mit Nachfagetragheit, Zeitschrift fur die gesamte Staatswissenschaft, 12, 301-324.
[13] Taylor, P. D. and L. B. Jonker (1978): Evolutionarily Stable Strategy and Game Dynamics, Math Biosci. 40, 145-156.
[14] Weibull, J. (1995): Evolutionary Game theory, Cambridge, MIT Press.
The basic theories of dynamics in evolutionary games
Abstract:This paper mainly introduce the basic dynamics models of evolutionary game theory: symmetric replicator dynamic model, asymmetric replicator dynamic model and some conclusions. For better understanding, Some simple examples are applied to describe the differences between them. Based on the models, this paper also introduces theorists’ research and their progress on stochastic evolutionary dynamics. Finally, We also give the differences between the concepts of dynamics of classic game theory and evolutionary game theory.
Keywords: Evlutionarily stable strategy; Replicator dynamics; Stochastic Stability Equilibrium