百科问答小站 logo
百科问答小站 font logo



有限次博弈是否存在合作关系? 第1页

  

user avatar   divinites 网友的相关建议: 
      

当然存在合作,也不需要行为经济学上的解释就能达成, @epsilon-delta 说的就是正解,我举个例子阐述一下。其实我认为这么明目张胆的说“只有无限期才会存在合作”,都是通用的四个小方格式的博弈论图示闹腾的,为了抖机灵让问题丧失了一般性(这个机灵就是,你看无论有几次博弈,一千次一万次一亿次,只要是有限次,我都能严格证明合作是不存在的!出乎意料之外,又在情理之中)。就像下面这样:

我和同学一起吃饭,说好饭钱不分彼此,共同支付。显然我们都想喝香槟,但是自己单独的时候是不会买的。于是都想自己点,然后让对方为自己掏一部分钱。于是最后的均衡俩人都买。


显然最后的均衡就是两个都买,因为谁不买谁吃亏。应用到任意次数的有限次博弈也是一样的,反正最后一轮,肯定是大家都买,那么倒数第二轮,大家还是都买……于是从第一轮开始大家都买。


那么现实中大学同学,四年后大家很大概率都各奔东西,这也是有限博弈啊。这是四年前我们就知道的事情,为什么在大学生活中没有处处都是囚徒困境呢?


事实上在日常的博弈中,均衡往往并不止一个,比如说,如果两个人之一不高兴了选择冷战,一个宿舍的人,冷战起来感觉不好,所以只要有一个人冷战,两个人都获得很低的效用。


所以这就不再是一个四小方格的博弈,而是存在两个纳什均衡,双方都买和双方都冷战。那么这个时候反而有合作的希望了,我们就看一个最简单的,只有两期的重复博弈,假定折现率为1。


这个时候每个人的策略就是:我第一回合选择合作策略——不买,如果你选择买,我下一回合就和你冷战,如果你选择不买,那么第二回合是最后一回合,我无论如何都选择非合作策略——买。


如果我在第一回合偏离,我获得10,然后第二回合获得-50, 加起来就是-40。

如果我第一回合合作,获得0,第二回合选择买,获得-30, 加起来还是-30。


这个时候均衡状态就是第一回合大家都默契的不买,但是在毕业分手饭的时候狂点……


其实就是,只要游戏中存在不止一个纳什均衡,那么动态博弈中,一方就可以通过挪到更坏的均衡这个可信的威胁来达到前期的合作。我们生活中的常态基本上也是这样的,真正的囚徒困境是极少极少的,无论夫妻之间,同学之间,还是同事之间,往往都有着很大的策略集,和很多的潜在的纳什均衡。比如『不理对方,如果对方先开口找自己说话,就对对方冷嘲热讽一番』 如果俩人都采用这个策略,也是一个纳什均衡……

就算是囚徒困境的场景,每个囚徒要不要考虑到卖了对方之后,对方在狱中会指使对方家人对自己的报复呢?要不要考虑自己的朋友之间的压力呢?再说除了坦白和不坦白,是不是还有一些模棱两可的词汇呢?现实中的策略总是很多的,高度抽象简化之后就变成了两个策略和四个小方格的payoff,信息是丢失了的。于是在做经济学实验的时候,人类是用自己在复杂的环境下养成的习惯,去做高度抽象和理论化的囚徒困境和公共品提供等实验,然后得出来不那么符合理论预测的结果,不是很正常的么?这并不意味着理论的失效,也不代表理性人假设被推翻。


很多时候,理性人原则表面上失效了,只是因为我们还没有完全的理解我们的理性在何处。


总结起来,就是因为存在各种非常差的纳什均衡,我们才会在有限次的合作中也有动机保持合作,很少被真的囚徒困境所困扰。


user avatar   wu-you-77 网友的相关建议: 
      

我们可以先看一个有限次重复博弈存在合作的例子。

博弈中有两个玩家,1和2,每个玩家在每一次博弈中有三个行动选项,C(合作),D(欺骗),和P(惩罚),每一次博弈的收益矩阵如下:

首先我们分析一下这个博弈。在这个博弈中,如果没有策略P,那么它就是一个标准的囚徒困境,C是劣势策略,策略组(D,D)是唯一的纳什均衡。但是在有策略P的情况下,它有两个纯策略纳什均衡(D,D)和(P,P),以及一个混合纳什均衡,为了简便起见,我们仅考虑纯策略。

现在我们假设玩家1和2重复以上的这个博弈次,。每个玩家在这个有限次重复博弈的最终收益为各次博弈收益的加总,即:,其中是玩家在第t次的选择,就是它第t次博弈的收益,为方便起见,暂时不考虑折现。我们注意到在这个有限次重复博弈中,至少存在两个子博弈精炼均衡(路径),两人一直玩(D,D)或者一直玩(P,P)。

考虑一个最简单的情形,重复博弈两次,即。玩家1和2同时采用如下策略:

  1. 第一轮,选择C(合作);
  2. 第二轮,选择D(欺骗);但是如果第一轮中有人没有选择C(合作),那么第二轮选择P(惩罚)。

通过逆向归纳,我们可以验证这个策略组合是一个子博弈精炼均衡。在第二轮,不管是同时选择D还是P都是纳什均衡,因此是合理的。第一轮,如果选择合作,第二轮会以(D,D)结束,那么玩家i的总收益是4+2=6,而如果玩家i在第一轮选择D(欺骗),第二轮会以(P,P)结束,它的总收益就只有5。所以虽然合作是劣势策略,但是却出现在了均衡路劲中。一般的的有限次博弈中,类似的策略组合,即一开始合作,最后一轮选择(D,D),如果最后一轮之前一旦出现不合作的情况,之后一直(P,P)直到游戏结束,是一个存在合作的子博弈精炼均衡。

更一般的情况下,有限次重复博弈如果存在多个子博弈精炼均衡,我们可以用最差的子博弈均衡路径作为不合作的惩罚,以此来支持合作出现在均衡路径中。

=======

有时间的话,可能会补充一点更一般的分析。

参考资料:

教授的notes

Jean-Pierre Benoit and Vijay Krishna : "Finitely Repeated Games," Econometnca, 53, 905-922,1985




  

相关话题

  一个快递箱,有一个快递员有100件快递要投递,你排在快递员后面有一件快递要取,你有权要求他先让你取吗? 
  有数学问题在哪里请教? 
  如何理解张维迎书中对「赢家诅咒」和「共同价值拍卖」的这段描述? 
  计算机软件的边际成本几乎为零,所以计算机软件的实际定价应该极低,对吗? 
  如何解释一个关于纳什均衡的问题? 
  经济学理论模型在设计函数形式时应该注意哪些问题? 
  围棋存在先手必胜/后手必胜的情况,又是否所有回合制游戏只要算力达到了就一定有先手必胜或者先手必输法则? 
  拥堵费能否缓解堵城之困? 
  中专生适合看曼昆的经济学原理吗? 
  经济学博士怎样开始自己的研究? 

前一个讨论
有哪些值得推荐的研究魏晋南北朝相关的学者?
下一个讨论
有哪些「上帝算法」?





© 2024-11-22 - tinynew.org. All Rights Reserved.
© 2024-11-22 - tinynew.org. 保留所有权利