摘要
人既不同于简单的生物也不同于传统经济学所假定的完全理性经济人,而是具有逻辑推理能力的高等智能生物。现实中参与人是有限理性的,因而,其决策过程既不能利用简单的模仿者动态所能准确描述的,也不能完全依赖于最优化计算,人类实际的决策过程是一个复杂的模仿、学习的渐进过程。本文主要论述学术界对人类实际决策过程研究成果,重点分析了两类学习模型即支付强化学习模型及信念强化学习模型,并对后两类模型在预测参与人决策的效果进行了比较。
关键词:最优化,模仿者动态,支付强化模型,信念强化模型
引言
传统经济学建立于完全信息、理性人等假定基础上,此时参与人就相当于功能良好的计算机,无论环境发生任何变化,理性人在既定信息下总可以找到一条达到均衡的最优路径,所以传统理论根本不必考虑达到均衡的路径,不必分析人类的决策过程,只需应用比较静态法来研究均衡之间的关系。然而,现实中参与人并不满足完全理性要求,信息也不可能免费获得,参与人在多数情况下并不可能进行最优化计算。心理学家西蒙(Simon)认为考虑到参与人有限的知识水平、有限的推理能力、有限的信息收集及处理能力,经济主体的决策行为受到其所处的社会环境、过去的经验、日常惯例等因素的影响,参与人只可能采取模仿、学习等直观方法来进行决策。进化博弈理论从西蒙的“有限理性”出发,以群体为研究对象来研究参与人的实际决策过程,参与人的决策过程受到各种各样因素的影响,为了得到更加准确的决策结果他们就必须收集、处理这些信息,这种信息的收集与处理过程就是参与人的学习过程。经济学家借用进化博弈理论的研究方法来研究参与人的决策过程时,主要从二个方面来提出动态模型的:一是直接借用描述生态现象的模仿者动态模型来分析简单的决策过程;另一是描述具有逻辑思维及推理能力的参与人复杂的学习模型。
一、模仿者动态模型
进化博弈理论来源于对生态现象的研究,它的产生至少可以追溯到1960年代生态学家Lewontin用于解释生态现象,被经济学家应用它来研究人类行为却只有近十几年的时间。进化博弈理论的基本均衡概念----进化稳定策略是由Maynard Smith and Price(1973)在研究生态现象时提出来的,该概念的提出标志着进化博弈理论的产生。其基本思想是群体处于一种能够承受外部任何小突变因素影响而不偏离的状态就是进化稳定状态,其中小突变因素即是指存在一个与稳定状态有关的突变边界,当突变因素不超过这个边界时,系统就不会偏离原状态。进化稳定策略概念中由于引进了突变因素而较静态的纳什均衡概念更好地解释现实现象,并且较好地解决了经典博弈理论中棘手的均衡选择问题。进化稳定策略是一个可以描述系统的局部动态性质的静态概念,即系统一旦进化稳定策略的吸引域,除非足够大的突变冲击,否则系统就不会离开稳定状态,也就是说该均衡概念并没有考虑到吸引域之外的变化。因此,要更全面地考察系统的行为就必须考察系统是如何达到吸引域的,即必须分析系统对动态过程。动态概念在进化博弈理论中占有相当重要的地位,许多进化博弈理论家从不同的侧面对生态演化及参与人的决策过程进行了考察并提出了许多动态模型,其中最重要的动态模型就是由Taylor and Jonker(1978) 在研究生态演化现象时提出的模仿者动态模型(Replicator Dynamics Model),详细讨论可以参阅文献[1]。
生态学家在研究生态演化现象时,常常把同一生态环境中所有种群看作为一个大群体而把其中的每一个种群都程式化单个纯策略,个体之间随机配对且进行重复、匿名博弈;个体在博弈中所得的支付即适应度是用其后代数量来表示的;假定个体是无性繁殖,即每一个后代都继承其单亲的策略;更成功的种群其后代数在群体中所占的比例变得越来越高而更不成功的种群体后代数会变得越来越低。
模仿者动态模型是在考察生态现象时提出来的,它能够较好描述生态演化的动态过程,借用模仿者动态模型来描述参与人复杂的决策过程就需要作出相应的转换。因为,在不考虑突变的情况下,生物行为一般是由其基因完全决定,种群演化过程遵循简单的适者生存不适者淘汰规律,模仿者动态模型在描述生物演化行为时获得了巨大的成功,这种简单的演化动态用于描述参与人的行为时就显示出了局限性。首先,人是具有思维能力、推理能力的高级智能生物,其行为方式远比其他生物复杂,人的行为不仅受到其先天性遗传基因的影响,更重要的是受到后天学习因素的影响。因此,由简单的模仿者动态难以描述参与人复杂的决策过程。其次,由适应度而引致的动态过程是通过种群后代数的变化而调整的,也就是说更成功的策略者会得到更多的后代,这就隐含了频率的调整是一个自动过程,群体中个体是不需要经过选择的。在经济过程中参与人的行为是通过复杂的学习过程来完成的,由适应度机制来代替参与人学习机制需要对动态模型进行相应的改进。再次,在模仿者动态模型中,群体的策略频率是根据他们的适应度来调整的,结果所有高于群体平均支付的策略都有高于群体平均的速度增长,即使这些策略并不是最优反应策略。在经济过程中,常常假定理性参与人通过学习和模仿来选择其最优反应策略,在这一个过程中,只有选择最优反应策略者才可能增长,这就提出了问题即:学习和模仿过程是否仍然可以利用上述的模仿者动态方程来描述呢?最后,我们在什么时候可以用学习和模仿机制来代替基因演化机制,在进化模型中,有限理性的参与人可能不具有察觉由进化动态而引起循环的能力。当然,模仿者动态可以描述人类简单的决策行为,但要更完整地描述参与人复杂的决策行为就需要深入人类的学习过程进行更为深入的研究。
二、
学习模型
借用描述简单生态演化现象的进化博弈动态模型来
研究复杂的参与人决策过程,在多数情况都不会得到令人满意的结论。人类具有一般生物所不具有的逻辑思维、推理及学习能力,人不仅能够适应环境而且能够改造环境、创造环境,因此人类行为的演化并不是纯粹生态意义上的进化,而是一种“文化的演进”(Cultural Evolution)。人类为了适应自己所处的环境(包括
自然环境及
社会环境)会充分发挥自己的主观能动性,他们不仅能够从过去一代或几代的行为中吸取经验与教训,而且能够在多数情况下根据自己所处的条件进行较为复杂的
计算、模仿、试验使自己更好地适应环境。在决策过程中,参与人选择策略时常常会受到来自于模仿、交流等社会活动及一些个人无法控制的心理因素的
影响(过分自信、过分悲观等),因此决策过程隐含了策略选择在群体中分布随时间而演化的过程,这个分布实际上是参与人对来自于博弈的
历史经验反应,参与人对经验的反应过程实际是参与人的学习过程。
实验
经济学家对参与人在重复博弈中的学习过程进行广泛的研究并提出了许多模型。一般而言,他们主要围绕参与人是如何学习而提出模型,虽然各种模型在形式上不同,但学习模型主要不外乎两大类:一类是基于强化(Reinforcement-based)学习模型;另一类是基于信念(Beliefs-based)学习模型。基于强化学习模型认为:由于参与人所能利用的信息有限,并且有些信息可能无法得到;有些信息即使可以得到,但相对于潜在的收益成本太高,因此这类模型并不要求参与人形成有关其他参与人可能行动的信念(对手是谁对参与人来说并不重要,即不要求参与人拥有有关对手的任何知识),只要求强化的力量来自于参与人过去行动的支付,随着时间的演化参与人调整自己的行为,使得能够获得较高支付的行为更多地被采用。Roth and Erev(1995),Slonim and Roth(1998)等都深入研究过并
应用这类学习模型来
分析实验中所观察到的结果。基于信念学习模型认为在重复博弈中参与人通过对博弈历史的观察,很明显地形成有关其他参与人未来行动的信念,在给定信念下每个参与人选择使自己得到合意(Aspiration Levels)期望支付的策略。Cheung and Friedman(1997), Crawford and Broseta(1998)等研究了纯粹的信念学习模型并利用它来解释实验对象的经济行为。
2.1、基于强化学习模型
基于强化学习模型要求参与人用过去行动的支付来度量强化的强度。一般而言有两种度量强度的
方法,在研究强化模型的早期,如Bush and Mosteller(1955),Cross(1983)等认为强化的强度来源于过去行动累积的支付或者标准化后的累积支付;另一种度量方法如Mookerjhee and Sopher(1994,1997),Sarin and Vahid (1997)等认为强化的强度应该来源于过去行动的平均支付,而不是累积的支付。尽管这两种对强度的处理方法在形式上不同,但其实质是一样的,即如果一个行动所得到的支付较大(少)增长,那么以后选择该行动的概率就以较大(少)的幅度增长。
下面我们以两种方式给出Roth and Erev (1995,1998)的强化学习模型,即强化强度来源于过去行动累积支付及平均支付。为了简便起见假定参与人仅有两个可供选择的策略α(α=A,B)。在重复博弈的第t时期,参与人在信息集I有一个非负的初始强化强度
选择行动α,则在t时期参与人在信息集I选择两行动的强度总和
可写为
。 在第t 1时期,把在t时期选择某行动A,B所得的支付直接加到t时期选择行动的强度:
也可以用一个式子来表示,令
为示性函数即当x=y时其函数值为1,否则函数值为0。
上式可变为
如果认为强化强度直接来源过去行动的平均支付,那么上式可以变为
因此在每一时期,参与人都通过行动所得到的支付来增加选择这两种行动的强度。假定在第一时期初始强度是外生的。t时期在信息集I时选择策略α的概率与强度的对应关系如下:
参与人依据此概率来选择行动,显然这个模型并不要求参与人知道博弈支付及对手的任何信息,只须知道自己在过去各时期的支付或者选择不同行动的累积支付。
2.2、信念学习动态模型
在强化学习模型中没有把博弈双方的相互影响考虑进去,但在多数情况下这种影响是存在的。因此一个合理的模型应考虑到这些因素,即博弈双方都会从对手行动历史来推断博弈支付矩阵的结构而形成有关对手未来行动的信念或者推断(conjectures)。在给定这些信念,参与人选择能够获得合意期望支付的行动。下面我们给出Fudenberg and Levine(1995,1998)提出的基于信念学习模型。为了方便,我们仍然假定参与人的行动空间为S,对手仅有两个可供选择的行动α(α=C,D);在每一个信息集参与人对对手行动所形成的信念可以用一个非负的信念权重(Belief Weights)来表示。t 时期参与人在信息集I形成的有关对手选择行动α的信念权重用
表示。在信息集I的信念权重
定义为对手选择两种行动的信念权重之和,即
。对任何
,在t 1时期参与人通过如下方式修正自己的信念权重:
其中参与数δ表示对手过去行为与现在行为对参与人信念形成影响的相对强度。δ=0表示在博弈的各时期对手的行为对参与人信念形成有相同的影响,如虚拟博弈;δ=1表示只有最近的行为对参与人的信念形成产生影响,如古诺模型;
表示最近的行为对参与人的影响大而过去的行为对参与人的影响少,说明参与人的记忆是不断衰退的;
则与上述的所说的情形正好相反。t时期在信息集I参与人形成有关对手选择行动α的概率与信念权重有如下的对应关系:
给定这些概率,每个参与人都可以估算出可供选择的每一个纯策略s的期望支付
,然后参与人根据期望支付选择在t时期的行动;给定信念
参与人在t时期选择纯策略s的概率
定义为:
其中S表示参与人的行动空间,参数λ表示参与人对信念的重视程度。λ=0表示在每一个信息集不论期望支付多大,参与人都以相同的可能性选择纯策略s;随着λ的增大,他的行动越来越接近于最优反应行为;当出现
这种极限情况时,说明参与人选择最优反应行动。
强化模型和信念模型自五十年代开始就被看作两类不同的模型,其原因在于:
(1),两类学习模型来自于不同的领域,强化模型主要来源于心
理学领域而信念模型则主要来自于决策论及博弈论。
(2),两类学习模型所利用的信息完全不同,信念模型只需利用对手过去行动的历史,并不反映参与者自己过去行为的支付,强化模型只需参与者自己过去行为的支付,并不反映对手行动的历史。
2.3、两类学习模型的比较
事实上,正如两条有同一源头河流一样,强化模型与信念模型是某一学习模型的两种特殊情形,它们的联系是非常紧密的,Fudenberg and Levine (1995),Cheung and Friedman(1997)都指出,利用虚拟博弈信念①或者对手选择的历史信息所计算出的期望支付与利用参与人过去行动实际支付所计算出的期望支付几乎是一样的。据此Camerer and Ho(1999)提出了包含两类模型的一个更一般的模型----经验加权吸引模型(EWA)。在此模型中他们引入了两个关键变量、三个重要参数及两个修进规则。两个变量是
,变量
可以解释为过去经验的“等价观察”(Observation-Equivalents)数;变量
表示t时期后参与人i对策略
的吸引(Attraction)。
第一个修进规则为:
参数
度量以前经验相对于一个新时期的折旧率。
第二个规则是对吸引水平(Level of Attraction)的修进,该规则假定在每个时期参与人不仅对被选择策略所得实际支付进行强度的修进,而且对未被选策略假想的(Hypothetical)支付也进行强度的修进(传统的强化模型认为强化强度仅来自参与人过去被选策略的支付)。修进规则如下:
其中I是一个示性函数,参数δ表示相对于实际支付(实际支付的权重为1)参与人对假想的支付的权重,参数φ表示参与人对以前吸引的折旧率,上式表示参与人对以前吸引的经验加权规则。这就是Camerer and Ho(1999)所提出的EWA学习模型。
在上面的模型中,当
时,EWA模型就对应于累积强化学习模型;当
时,EWA模型就对应于信念模型。Camerer and Ho利用实验数据通过极大自然估计来拟合出这些参数并得出
的值接近于0.5,
的值介于0.8到1之间,
的值介于0到
之间。因此他们所提出的模型比纯粹强化模型和信念模型的适应范围更广,并且在预测实验对象的行为时可以利用已有的数据进行拟合而得出参数的估计值,使得模型有更大的灵活性、更高的预测精度。
许多实验经济学家对两类学习模型预测实验对象行为的准确程度进行了大量的研究。Mookherjee and Sopher(1994)利用实验②数据比较了两类模型的优劣,他们的数据来自于分钱(Matching Pennies )博弈,结果得出强化模型能够更好预测实验对象的行为;Mookherjee and Sopher(1997)通过一些更复杂的实验③进一步研究实验对象的行为也得出了类似的结论;Erev and Roth(1998)利用一个仅有一个混合策略均衡的博弈来分析实验对象的累积行为,他们发现强化模型比信念模型的预测更准确,较好的信念模型是那些类似于强化模型的模型;Camerer and Ho(1996,1999)考察了既包括强化模型又包括信念模型的更一般的模型,即经验加权吸引学习模型(Experience-weighted Attraction Leaning ),通过极大自然法估计出模型的参数,他们得出这种混合模型比单纯的学习模型与单纯的信念更好地描述对象的行为。Feltovich(2000)认为:Mookherjee and Sopher仅利用他们自己的实验数据来对两类模型进行比较,同时他们利用不同的博弈或者不同的拟合度标准而得出的结论不一定能准确地反应实验对象的行为,因此他们所得出的结论是难以令人信服的。Erev and Roth仅利用事前选择好的信念模型而发现强化模型的预测要比信念的预测准确,这只能说明他们所选择的信念模型“运气不佳”(Bad Luck); Feltovich通过对非对称信息博弈中实验对象行为的考察得出:两类学习模型对行为预测的准确程度不仅与依赖于所选博弈而且依赖于所选的拟合度标准,但就实验对象进行非对称信息博弈而言,两种类型的学习模型都比静态的纳什均衡更好地描述实验对象的行为。纵观以前的研究给我们留下一个基本印象就是在有关零和博弈的实验中,强化学习模型优于信念学习模型;在有关协调博弈的实验中信念模型优于强化学习模型。
进化博弈
理论的学习与经典博弈论中的学习模型不同,经典博弈论所说的学习模型一般是指贝叶斯学习模型,完全预见学习模型等,这类模型要求参与人是完全理性的且有很强的计算、推理能力,即要求参与人能够在一个维数特别大的概率空间中利用复杂的贝叶斯法则计算出最优决策,这是现实人无法做到的。进化博弈学习模型并不对参与人的理性作任何要求,特别是强化学习模型根本不需要知道自己的对手及其任何信息,因此这类学习模型比较接近现实,在实验经济学中被大多数经济学家所接受。
结论
本文论述了人类决策过程的两类模型----模仿学习模型及强化学习模型,前者来源于生态演化理论通过简单的模仿而学习;后者主要用于描述复杂人类决策过程的模型。人类的行为是相对复杂的,人类决策受到各种因素的影响,人类获得这些因素的信息过程也就人类的学习过程,强化学习模型能够较好地描述参与人的实际决策过程。一般而言,强化学习模型作为均衡预测理论的一种替代工具已经被越来越多的实验经济学家所使用。许多研究表明学习模型比静态的纳什均衡能够更好地描述实验对象的行为。
注释: ① 所谓虚拟博弈即是指参与人以相同的权重认为博弈的
历史对未来行动的
影响,不考虑记忆随着时间而减退。
② 他们在实验中把实验对象分为两类,他们告知其中一类对象在博弈结束时所得到的支付(这就给出了强化
学习的足够的信息,但没给出有关信念的信息);告知另一类实验对象实际的支付矩阵、对手所作出的选择及参与人自己所得的支付(这就给出了信念学习的足够信息)。实验结果表明,前一类参与人在实验过程中所得的结果与强化模型的结果一致;后一类型对象的实验结果表明:强化学习模型与信念模型都不能对实验结果给予很好的描述。
③ 这一次他们利用4x4和6x6博弈进行实验。
参考文献 [1] 张良桥,郭立国(2003):《论模仿者动态》,《中山大学学报
自然科学版》,3。
[2] Bush, R., and F. Mosteller (1955): Stochastic Models for Learning, New York: John Wiley & Sons.
[3] Camerer, C., and T. H. Ho(1996): Experience-Weighted Attraction Learning in Games: Estimates from Weak-Link Games, mimeo.
[4] Camerer, C., and T. H. Ho(1999): Experience-weighted Attraction Learning in Formal Games, Econometrica, 67, 827-874.
[5] Cheung, Y, -W., Friedman, D. (1997): Individual Learning in Normal Form Games: Some Laboratory Results, Games and Economic Behavior, 19, 46-76.
[6] Cross, J. G. (1983): A
Theory of Adaptive Economic Behavior, New York/ London: Cambridge University Press.
[7] Erev, I. And A. E. Roth(1998): Predicting How People Play Games: Reinforcement Learning in Experimental Games With Unique , Mixed Strategy Equilibria, American Economic Review, 88, 848-881.
[8] Feltovich, Nick(2000): Reinforcement-Based Vs Belief-Based Learning Models in Experimental Asymmetric-information Games, Econometrica, 68, 605-641 .
[ 9] Fudenberg, D. and D. K. Levine (1995): Consistency and Cautious Fictitious Play, Journal of Economic Dynamics and control, 19, 1065-1089.
[10] Fudenberg, D. and D. K. Levine (1998): Learning in Games, European Economic Review, 42, 631-639.
[11] Mcallister, P. H. (1991): Adaptive Approaches to Stochastic Programming, Annals of Operations Research, 30,45-62.
[12] Mookherjee, D.,and B. Sopher (1997): Learning and Decision Costs in Experimental constant Sum Games, Games and Exonomic Behavior, 10, 202-217.
[13] Mookherjee, D.,and B. Sopher (1997): Learning and Decision Costs In Experimental Constant Sum Games, Games and Economic Behavior, 19, 79-132.
[14] Roth, A. E.,Erev. L., (1995): Learning in Extensive-form Games: Experimental Data and Simple Dynamic Models in the Intermediate Term, Games and Economic Behavioral Sciences, Special Issue: Nobel Symposium, 8, 164-212.
[15] Sarin, P.,and F. Vahid (1997): Payoff Assessments Without Probabilities: Incorporating ‘Similarity’ Among Strategies, Working Paper, Department of Economics, Texas A & M University.