第5章 CHAPTER 5 策略多样性在公共品合作 演化中的作用 5.1引言 囚徒困境博弈是非合作博弈理论中最为经典的双人博弈,它充分说明了个体理性与集体理性的矛盾。但是在真实的社会生活中,多人的博弈也是普通的现象。比如群体集资修建大坝等社会公益性质活动。探讨进行多人博弈的种群演化动力学也是近年来演化博弈领域研究的热点。其中,公共品博弈(public goods game,PGG)是一个经典的多人参与的博弈,经常用来刻画多人博弈中的合作困境[32,56,58,62]。 公共物品(public goods)是指那些可供全体居民或部分居民消费或受益,但不需要或不能够让这些居民按市场方式分担其费用或成本的产品。公共物品的私人供给实际上是供给各方的博弈过程,供给的结果是博弈的均衡解。和私人物品不同,公共物品具有非竞争性和非排他性,所以在其私人供给过程中往往产生外部性和搭便车行为,不易实现社会需求的最优水平。正是由于公共物品的利他性等特性使得公共物品的提供往往处于不足的状态[66,85,118]。 公共品博弈也经常被视为多人囚徒困境博弈(multiperson prisoners dilemma)。在一个经典公共品博弈中,通常假设有N个个体组成博弈的主体,每个个体可以采取合作策略(贡献c),也可以采取背叛策略(贡献0)。在所有的个体都完成策略选择后,所有合作者的贡献值将被累加,并乘以一个放大系数r。最后,这些贡献将被平均地分配给所有N个个体,无论他们贡献与否。显而易见,当每个个体都贡献c时,这个集体所收集的贡献值数额得到最大化。但是,因为每个个体都是追求利益最大化的[147148,150], 因此,每个理性的个体都不可避免地面临着背叛的诱惑,即采取背叛策略却享有最后的公共利益分配。因为背叛者的收益总是高于合作者的收益,理性的个体都会选择背叛策略,这就导致出现“公共品悲剧”(tragedy of the commons)。在这种情形下,合作的困境也就产生了。如前所述,这种群体的公共品博弈在真实的社会生活中存在诸多,因此我们在这里采取此种模型作为研究对象。 关于探究合作行为是如何在公共品博弈中产生和演化的是一个热门的话题。这方面的研究已取得了较多成果,包括惩罚机制[88,96,148],自愿参与机制,声誉[56,88,95],以及不同的网络拓扑结构[5,8,29,42]。Hauert等发现自由参与机制可以有效地抑制背叛策略的传播,从而提高系统稳态时的合作水平[58,113]。他们的研究发现引进“loner”策略可以产生合作、背叛和“loners”三种策略的循环占优,从而提高了规则网络上的合作水平。另外,Santos和Pacheco提出的博弈数目和群体大小的多样性有效地促进了公共品博弈上合作行为的产生和演化[143]。 值得注意的是,在前面提及的诸多博弈类型及其研究中,通常只假设个体采取合作(贡献全部数额c)或者背叛(零贡献数额)两种策略。但是在现实社会中,由于个体的差异等现实原因,除了贡献c和贡献0两种选择外,个体还可能有贡献其他数额的可能。这种现象在经济和社会生活中比较常见。比如在集体集资修建大坝等公共设施时,群体中的成员由于经济实力、个体意愿等原因,可以贡献任何数额,而不只是局限于c和0。也许虽然不及最大值c,但是任意数额的贡献于集体是有益的,而且这种现象也是真实存在的。 受此启发,我们以此建模,假设每个个体都可以贡献一个[0,c]区间中的任意数值。为简便起见,我们取值c为1并且称贡献值为合作度,因此个体的策略可以呈现多样化选择。真实社会系统中的个体本就呈现出异质性,生物多样性也意味着个体之间在很多方面会存在较多的差别,因此基于现实的角度建立更加符合真实种群系统的模型,才更有助于深入地探讨合作现象产生的深层次的根源。 另外,我们定义了两种特殊个体: 利他主义者altruist(A)和极端自私者egotist(E)。具体地,利他主义者的合作度高于其所有邻居; 反之,极端自私者的合作度低于所有邻居个体。本章将在复杂网络上的演化公共品博弈中研究个体的异质合作度对合作演化的影响,并重点比较各种配置方案下合作演化的情况。 5.2博弈模型描述 考虑到前面提及的个体差异,关于个体的初始财富,我们假设两种不同的情况。一种是每个个体被随机赋予一个财富数值,这个数值取值自区间[0,1]。另一种是所有个体的财富都是相同的。为了消除复杂网络结构对结果的影响,我们采用简单的网格结构。假设每个个体的度为k,而且每个个体都参与k+1轮公共品博弈。 假设个体i的初始财富为ci,他的合作度为δi,那么对于个体x来说,在参加完其邻居节点y组织的PGG后,他获得的收益是 Pxy=r∑ki=0ciδik+1-cxδxk+1(5.1) 式中,r是公共品博弈的放大系数,k是个体x的邻居数目。那么个体x的总收益就是从k+1个PGG中得到的收益总和 Px=∑y∈ΩxPxy(5.2) 在每轮博弈结束后,假设所有个体采取同步更新策略。即当个体x进行策略更新时,那么他将随机选择一个邻居节点y。如果y个体的收益低于个体x,那么x将在下轮博弈继续采用其当前的策略,反之,如果y个体的收益高于个体x,那么x按如下概率Wxy学习y的策略,即在下轮采取其策略: Wxy(δx←δy)=Py-PxM(5.3) 式中,M表示两个个体收益的最大可能差值。可以看到,M对于策略的改变作用很大。为了较明确地给出上述公式中两个个体收益的最大可能差值M的取值范围,下面用对估计方法进行理论分析。 首先研究对估计方法并提供对估计的表达形式。为了清楚起见,在图5.1中显示了空间方格代表性的配置结构,并计算出不同策略配置情况下个体的收益情况。比如,设定一个个体占据B节点,同时个体A占据在A节点。A个体参与由其邻居个体x,y,z,B以及他自己组织的5个公共品博弈。这种情况下,A个体的收益可以写成如下形式: Pa=r∑ci∈Ωaciδik+1-(k+1)caδa(5.4) 5.1彩图 图5.1空间方格代表性的配置结构 类似地,个体B的收益如下 Pb=r∑ci∈Ωbcjδjk+1-(k+1)cbδb(5.5) 这样, |Pa-Pb|≤8rk+1+k+1-3rk+1(cb-ca)(5.6) 因为0≤δ≤1以及0≤c≤1,所以可以得到 |Pa-Pb|≤5rk+1+k+1(5.7) 为了使我们的计算结果能够在其他规则网络中推广,进行了归一化处理,η=r/(k+1)和k=4,这样可以得到 |Pa-Pb|≤5η+5(5.8) 因此,M=5η+5。 5.3动力学结果分析 基于上述基本模型的介绍,下面分别以二维空间方格网络为种群结构来研究个体策略多样性对于对合作行为演化的影响。 在数值仿真中采用的网络大小为N=104,网络的平均度为k=4。初始时候,每个个体的合作度被随机赋予一个介于0~1的随机数值。在这个工作中,我们采用的是同步更新的规则。合作水平是系统经过106步时间演化之后再取2000步的取样平均。初始财富的分布如何影响策略的演化也是我们关心的问题。因此,我们对比研究两种情况: 所有个体初始财富相同,初始财富异质化。即,一种情况是所有个体的初始财富完全相同; 另一种情况是所有个体的初始财富是被随机赋予的随机数值,为了研究方便起见,假设这些随机数值在0~1均匀分布。 首先研究了在两种不同的初始财富情形下,系统稳态时的合作水平随着博弈参数η的变化,如图5.2所示,图中蓝线代表初始财富异质的情形,红线代表初始财富相同的情形。由于博弈参数η是财富放大系数,因此η越大,越有利于合作行为的涌现。从结果可以看到,系统的合作水平随着博弈参数η增大而呈现单调增长,只是增长的速度与个体的初始财富有关。当个体的初始财富相同时,系统稳态时个体的平均合作度比初始财富异质的个体的平均合作度高。 5.2彩图 图5.2对应不同的初始财富情况,系统中合作者比例随着参数η的变化情况 我们知道在混合均匀的种群中,η>1时合作行为涌现。在我们的研究中,当个体的初始财富相同时,合作行为占优发生在η>0.2。当个体的初始财富异质时,合作行为占优发生在η>0.3。虽然个体的初始财富对于系统的合作水平有影响,但无论哪种情况下,策略的多样性都是促进合作行为的涌现。 为了直观地理解策略多样性在公共品博弈中对合作演化的影响,在图5.3中画出了系统平衡态时对应于不同η值的个体的合作度的分布斑图,其中图(a)~(d)种群的初始财富异质,图(e)~(h)种群的初始财富相同,斑图取100×100的方格。对比图5.3(a)~(d)、图5.3(e)~(h),可以看到,当η>0.15以后,由较高的合作度的个体组成的团簇开始出现,而且随着η的增大,这些团簇也越来越大。除了一些由较少的低合作度的个体聚集外,系统的平均合作度达到了几乎为1的一种状态。也就是说,当个体的初始财富相同时,系统中个体的合作水平得到了极大的促进和提高。但是从图5.3(a)~(d)中可以看到,种群的平均合作度也是达到了一个较高的数值,只是相比初始财富相同的情况较低。 5.3彩图 图5.3不同初始财富和财富放大系数对系统演化过程的影响 另外,从图中还可以发现,当初始财富异质时,系统稳态时种群中的个体的合作度呈现出多样化的情形,对应于图中的情形就是图5.3(a)~(d)中颜色的多样化。而当个体的初始财富相同时,系统稳态时种群中个体的合作度呈现出较为单一的情形,对应于图5.3(e)~(h)中颜色的单一化。 对于上述结果,可以给出如下解释。因为在个体的策略更新时,我们假设个体选择学习其具有较高收益的邻居个体的策略。这样一来,个体都倾向于学习收益较高的个体,当系统达到稳态时,个体的合作度将呈现出单一化的趋势,也就是出现了图5.3(d)和图5.3(h)中的结果。为了验证图5.3的结果,我们统计了个体的合作度的分布,见图5.4,图中X轴代表个体的合作度,Y轴代表选择某种合作度的个体在种群中的比例,图(a)~(d)初始财富异质,图(e)~(h)初始财富相同。从图5.4(a)可以看到个体的合作度的分布呈现的多样化,与图5.3(a)~(d)是一致的。同样,在η<0.25时,种群中大多数个体的合作度都接近1,这个结果在图5.4(b)中同样得到了验证。 在这里我们研究的对象是个体与其邻居个体之间的合作或者背叛行为,而不是依据群体的合作度数值来区分。比如,两个个体的X和Y合作度分别是0.2及0.6,但如果X个体的邻居个体的合作度都比其低,Y个体的邻居个体的合作度都比他高,那么我们称X个体为altruist,Y个体为egotist,虽然Y个体的合作度比X个体高。但博弈行为是发生在博弈的个体之间的,所以与博弈对象的策略比较才是有意义的,而不是单纯地对比两个不相干的个体的合作度。接下来我们研究这两种个体在种群中的演化情况。演化结果如图5.5所示,红线代表altruist个体,蓝线代表egotist个体,图(a)为初始财富异质的情况,图(b)为初始财富相同的情况。 5.4彩图 图5.4不同初始财富和财富放大系数对系统平均合作度的影响 5.5彩图 图5.5系统到达平衡态时对应不同的初始财富情况和η,两种个体在种群中的演化情况 从图5.5中可以看到,在η较大的区间范围内,这两种节点所占的比例都很小。E的合作度总是比邻居周围节点的合作度低,这样一来,他获取的暂时收益比较高。因为策略更新是基于收益的,所以他的邻居个体会模仿他的策略,最终他们都将获得较低的收益。也就是说,E的行为不可能得到长期维持。 类似于社会系统中的情形,假如两个个体进行博弈,但其中一个个体的频繁的背叛行为也会让这种博弈关系破裂,因为没有哪个个体可以接受长期的不合作行为。因此,通过研究可以发现,A和E只是种群中个体所采取的一种临时的角色或策略,而不是长期的策略行为。也正因为如此,在统计中A和E两种节点在种群中占据的比例都非常小。 另外值得注意的是,在η较大的区间范围内,A节点的比例低于E节点的比例。具体地,当η<0.2时,A节点的数目高于E节点的数目。但随后,A节点的数目低于E节点的数目。我们知道A节点会得到比其邻居低的收益,因为他的合作度低于其邻居个体; 相反,E节点会得到高于其邻居个体的收益。这样一来,A节点会学习其获取较高收益的邻居个体的策略,从而放弃其当前策略。因此,A节点的数目会减少; 相反,E节点的策略容易被其邻居个体学习模仿,E节点的数目会短期增加。但是前面的分析已经指出,较低的合作度对合作双方都不能带来长期的高收益,E节点的数目势必会再次减少。这样,种群中这两种类型的节点在系统稳态时占据的比例都会很小。 还有就是节点呈现一个上升的趋势,也许可以这样解释: 随着η的增大,合作水平的升高,个体的平均收益在增加,所以,当某个个体的贡献度略低于自己邻居的时候,其收益比邻居虽然高,但是两者之间的差值同各自的收益比起来所占的比例变小了,所以其邻居学习他的策略的概率也不会很大,所以当η增加时,两种特殊节点所占的比例都不会下降到0。 最后,可以换一个角度理解我们的模型,可以从最后通牒博弈模型的角度来分析。最后通牒博弈模型是另一种被广泛用来研究合作行为的博弈模型[152]。最后通牒博弈是一种由两名参与者进行的非零和博弈。在这种博弈中,一名参与者向另一名参与者提出某种资源的分配方案。前者通常可以称为提议者,后者则可以称为响应者。如果响应者同意这一方案,则按照这种方案进行资源分配; 如果不同意,则两人都将不能获得任何收益。 按照理性人假设,响应者应该接受任何给自己的为正的分配方案,即使分配给自己的是最小的单位,因为如果响应者拒绝的话,他将什么都得不到。我们的模型可以看作是最后通牒博弈模型的一种推广。在我们的模型中,个体贡献一定比例的财富给整个群组而不是给某个其他个体。我们的模型可以从某种意义上建立这两种模型之间的联系。 5.4本章小结 本章研究了策略多样性在公共品博弈中对合作演化的影响。在以往的类似研究中,个体通常是纯策略者,即合作者或者背叛者。我们的模型与以往的研究不同,在这里我们赋予每个个体一个合作度,而不再是简单的合作或背叛两种策略选择。这个假设从数学上可以看作是一种混合策略,可以表示个体以一定的概率使用合作或者背叛策略。 但是,我们的假设和混合策略不同。我们假设的是个体由于自身的异质性,使得个体之间有能力和策略上的差异。具体表现为个体可以贡献的财富的数量和合作度的不同。这种异质性是在真实的世界中广泛存在的。我们的初衷就是研究个体的差异性对于种群中合作行为的影响。 通过对比,我们发现策略的多样性选择是有利于合作演化的。与纯策略假设相比,在我们的结果中合作行为更容易出现,并且合作行为更容易在群体中占据优势。另外,我们研究了两种特殊类型的节点的数目: 自私者,即他的合作度低于其周围所有邻居节点的合作度的个体; 利他者,即他的合作度高于其周围所有邻居节点的合作度的个体。数值仿真分析表明,这两种类型的个体在种群中占的比例都很小。这说明不可能有很高比例的个体的合作度会一直低于或高于其周围个体的合作度,这只是一种暂时的策略选择。某种意义上,这也说明了种群中的个体是有对于公平的追求,个体不可能接受长期比周围其他个体付出要多的情况。 另外,个体的初始财富分布对个体决策行为的影响也是我们关注的问题。我们考虑了两种情况: 所有的个体的初始财富是相同的数值,以及所有个体的初始财富是被随机分配的,也就是异质财富分布。研究结果表明这两种情况对比下,个体的初始财富相同更能促进合作行为的产生和演化。也就是说,当个体的初始财富呈现差异性时,种群成员个体愿意提供公共品的意愿会降低,这也许仍然体现了个体对于公平的追求。