百科问答小站 logo
百科问答小站 font logo



有限次博弈是否存在合作关系? 第1页

  

user avatar   divinites 网友的相关建议: 
      

当然存在合作,也不需要行为经济学上的解释就能达成, @epsilon-delta 说的就是正解,我举个例子阐述一下。其实我认为这么明目张胆的说“只有无限期才会存在合作”,都是通用的四个小方格式的博弈论图示闹腾的,为了抖机灵让问题丧失了一般性(这个机灵就是,你看无论有几次博弈,一千次一万次一亿次,只要是有限次,我都能严格证明合作是不存在的!出乎意料之外,又在情理之中)。就像下面这样:

我和同学一起吃饭,说好饭钱不分彼此,共同支付。显然我们都想喝香槟,但是自己单独的时候是不会买的。于是都想自己点,然后让对方为自己掏一部分钱。于是最后的均衡俩人都买。


显然最后的均衡就是两个都买,因为谁不买谁吃亏。应用到任意次数的有限次博弈也是一样的,反正最后一轮,肯定是大家都买,那么倒数第二轮,大家还是都买……于是从第一轮开始大家都买。


那么现实中大学同学,四年后大家很大概率都各奔东西,这也是有限博弈啊。这是四年前我们就知道的事情,为什么在大学生活中没有处处都是囚徒困境呢?


事实上在日常的博弈中,均衡往往并不止一个,比如说,如果两个人之一不高兴了选择冷战,一个宿舍的人,冷战起来感觉不好,所以只要有一个人冷战,两个人都获得很低的效用。


所以这就不再是一个四小方格的博弈,而是存在两个纳什均衡,双方都买和双方都冷战。那么这个时候反而有合作的希望了,我们就看一个最简单的,只有两期的重复博弈,假定折现率为1。


这个时候每个人的策略就是:我第一回合选择合作策略——不买,如果你选择买,我下一回合就和你冷战,如果你选择不买,那么第二回合是最后一回合,我无论如何都选择非合作策略——买。


如果我在第一回合偏离,我获得10,然后第二回合获得-50, 加起来就是-40。

如果我第一回合合作,获得0,第二回合选择买,获得-30, 加起来还是-30。


这个时候均衡状态就是第一回合大家都默契的不买,但是在毕业分手饭的时候狂点……


其实就是,只要游戏中存在不止一个纳什均衡,那么动态博弈中,一方就可以通过挪到更坏的均衡这个可信的威胁来达到前期的合作。我们生活中的常态基本上也是这样的,真正的囚徒困境是极少极少的,无论夫妻之间,同学之间,还是同事之间,往往都有着很大的策略集,和很多的潜在的纳什均衡。比如『不理对方,如果对方先开口找自己说话,就对对方冷嘲热讽一番』 如果俩人都采用这个策略,也是一个纳什均衡……

就算是囚徒困境的场景,每个囚徒要不要考虑到卖了对方之后,对方在狱中会指使对方家人对自己的报复呢?要不要考虑自己的朋友之间的压力呢?再说除了坦白和不坦白,是不是还有一些模棱两可的词汇呢?现实中的策略总是很多的,高度抽象简化之后就变成了两个策略和四个小方格的payoff,信息是丢失了的。于是在做经济学实验的时候,人类是用自己在复杂的环境下养成的习惯,去做高度抽象和理论化的囚徒困境和公共品提供等实验,然后得出来不那么符合理论预测的结果,不是很正常的么?这并不意味着理论的失效,也不代表理性人假设被推翻。


很多时候,理性人原则表面上失效了,只是因为我们还没有完全的理解我们的理性在何处。


总结起来,就是因为存在各种非常差的纳什均衡,我们才会在有限次的合作中也有动机保持合作,很少被真的囚徒困境所困扰。


user avatar   wu-you-77 网友的相关建议: 
      

我们可以先看一个有限次重复博弈存在合作的例子。

博弈中有两个玩家,1和2,每个玩家在每一次博弈中有三个行动选项,C(合作),D(欺骗),和P(惩罚),每一次博弈的收益矩阵如下:

首先我们分析一下这个博弈。在这个博弈中,如果没有策略P,那么它就是一个标准的囚徒困境,C是劣势策略,策略组(D,D)是唯一的纳什均衡。但是在有策略P的情况下,它有两个纯策略纳什均衡(D,D)和(P,P),以及一个混合纳什均衡,为了简便起见,我们仅考虑纯策略。

现在我们假设玩家1和2重复以上的这个博弈次,。每个玩家在这个有限次重复博弈的最终收益为各次博弈收益的加总,即:,其中是玩家在第t次的选择,就是它第t次博弈的收益,为方便起见,暂时不考虑折现。我们注意到在这个有限次重复博弈中,至少存在两个子博弈精炼均衡(路径),两人一直玩(D,D)或者一直玩(P,P)。

考虑一个最简单的情形,重复博弈两次,即。玩家1和2同时采用如下策略:

  1. 第一轮,选择C(合作);
  2. 第二轮,选择D(欺骗);但是如果第一轮中有人没有选择C(合作),那么第二轮选择P(惩罚)。

通过逆向归纳,我们可以验证这个策略组合是一个子博弈精炼均衡。在第二轮,不管是同时选择D还是P都是纳什均衡,因此是合理的。第一轮,如果选择合作,第二轮会以(D,D)结束,那么玩家i的总收益是4+2=6,而如果玩家i在第一轮选择D(欺骗),第二轮会以(P,P)结束,它的总收益就只有5。所以虽然合作是劣势策略,但是却出现在了均衡路劲中。一般的的有限次博弈中,类似的策略组合,即一开始合作,最后一轮选择(D,D),如果最后一轮之前一旦出现不合作的情况,之后一直(P,P)直到游戏结束,是一个存在合作的子博弈精炼均衡。

更一般的情况下,有限次重复博弈如果存在多个子博弈精炼均衡,我们可以用最差的子博弈均衡路径作为不合作的惩罚,以此来支持合作出现在均衡路径中。

=======

有时间的话,可能会补充一点更一般的分析。

参考资料:

教授的notes

Jean-Pierre Benoit and Vijay Krishna : "Finitely Repeated Games," Econometnca, 53, 905-922,1985




  

相关话题

  博弈为什么不能无限重复下去? 
  对一个落后的经济体而言,市场自由和政府干预哪种政策相对更有利于它的发展? 
  什么是逆向选择和道德风险? 
  高频交易者之间是否存在纳什均衡 ( Nash equilibrium )? 
  Algorithmic Game Theory 和经济学中的 Game Theory 相似度大吗? 
  国内本科运筹学课程的教育都存在哪些问题? 
  能不能从经济学角度分析下野味市场? 
  如何对高微 mas collel(MWG) game theory 进行一个逻辑上的总结? 
  身边有哪些让你感觉到winter is coming 的迹象? 
  非线性优化中的 KKT 条件该如何理解? 

前一个讨论
有哪些值得推荐的研究魏晋南北朝相关的学者?
下一个讨论
有哪些「上帝算法」?





© 2024-11-25 - tinynew.org. All Rights Reserved.
© 2024-11-25 - tinynew.org. 保留所有权利