问题

有限次博弈是否存在合作关系?

回答
在经济学和博弈论的世界里,关于“有限次博弈是否存在合作关系”这个问题,一直是一个引人入胜且颇具争议的话题。简单地说,这就像在问,如果我知道游戏有终点,并且双方都清楚这个终点,那么我们还能不能真正地、可持续地合作下去?

要深入探讨这个问题,我们得先理解什么是“有限次博弈”。顾名思义,就是一场游戏(或者说,一个互动过程)有明确的结束点,而且所有参与者都知道这个结束点会在什么时候到来。比如,两个人轮流出价,而事先约定好,经过一定轮数后,如果没有达成协议,就意味着交易失败。

大家可能的第一反应是,有限次博弈很难有真正的合作。为什么这么说呢?主要原因在于“最后通牒效应”以及由此引发的“逆向归纳法”。

想象一下,你和你的对手玩一场有限次的博弈。作为玩家,你当然希望在这场博弈中获得最大的利益。现在,我们假设这个博弈有 N 轮。在最后一轮(第 N 轮),博弈的结果会直接影响到双方的最终收益,而且游戏就此结束。在这最后一轮,你会怎么做?

如果在这最后一轮,你发现无论你怎么出价,你的对手如果不接受,他也不会有任何损失(因为游戏结束了,没有后续了),而你如果成功让对手接受,你就能获得一些收益。那么,你是不是会倾向于给对手一个非常非常不利的条件,甚至是一个“最后通牒”?因为对手知道,如果他拒绝,也没有下文,而接受,至少还有点好处,哪怕很少。

更进一步,现在我们把目光移到倒数第二轮(N1 轮)。你会怎么想?你会预见到在最后一轮会发生什么。你知道在最后一轮,你可能会对对手施加一个很苛刻的条件。为了避免在最后一轮被对手“占便宜”(尽管“占便宜”这个词在这里有点怪,因为是双方都理性追求自身利益),对手可能会在 N1 轮就做出一些让步,以便在 N 轮时,他能够稍微好过一点。

以此类推,如果我们运用“逆向归纳法”(Backward Induction),也就是从游戏的最后一步往前推导,我们会发现,在每一轮,参与者都会预见到下一轮会发生的“非合作”行为,从而在当前轮就采取有利于自己的、甚至是“机会主义”的行动。最终,这种推导会一直回溯到第一轮,得出结论:在有限次博弈中,最理性的行为是不合作。

最经典的例子就是“重复囚徒困境”的有限次版本。在一次性的囚徒困境中,无论对方怎么做,你最理性的选择总是背叛,因为背叛总能带来比合作更高的收益(在任何情况下)。当这个囚徒困境被重复多次,但参与者知道确切的重复次数时,情况就变得复杂起来。根据逆向归纳法,最后一轮的决定会影响到前一轮,一直推到第一轮,结果仍然是,即使是重复有限次的囚徒困境,最“理性”的均衡策略也是从第一轮就开始背叛。

那么,这是否意味着在有限次博弈中,合作就完全不存在了呢?

不一定。尽管理论上理性的最优策略是“不合作”,但在现实世界中,合作仍然可能出现,只是其基础和可持续性与无限次博弈有所不同。以下是一些可能促成有限次博弈中合作的因素:

1. 信息不完全或不对称:
不确定游戏的结束次数:如果玩家们不确定游戏到底还有多少轮,而是认为游戏可能会在“某个时候”结束,但不知道具体是哪一轮,那么“最后通牒效应”就不那么显著了。一旦游戏被视为“可能无限次”的,即使只是概率性的,那么合作就有了存在的空间。
不确定对方的理性程度:如果一方认为对方可能并非完全理性的“经济人”,而是会受到情感、声誉或其他非理性因素的影响,那么他们可能会选择合作,以期引导对方也做出合作的反应。
不确定对方的策略:即使知道游戏轮次,但如果不知道对方的具体策略,比如对方是否会像理论预测的那样进行逆向归纳,那么冒险进行一两轮的合作,以探知对方意图,也是一种可能的策略。

2. 声誉和信任的建立(尽管有限):
即使在有限次博弈中,如果参与者认为在博弈结束后,他们可能还会与同一批人(或与他们有联系的人)进行进一步的互动,那么他们在当前的有限次博弈中的合作行为,可以被视为一种“声誉投资”。良好的声誉可能会为未来的互动带来好处。
例如,一家公司可能在与一个短期客户进行交易时,即使知道这是一个“一次性”合作,但如果该客户的口碑很好,或者该客户能够影响到潜在的长期客户,那么公司仍会选择提供良好的服务和产品,以维护自己的品牌声誉。

3. 情感和心理因素:
人并非总是纯粹的理性计算者。在许多实际场景中,人们会受到公平感、互惠感、信任感等情感因素的影响。即使知道博弈有终点,但如果在早期阶段通过合作获得了积极的体验,他们也可能愿意在后续轮次继续合作,直到明显的“背叛”信号出现。
“公平”或“互惠”的心理机制,可能会让人们在最后一两轮才真正开始考虑“占便宜”,而不是从一开始就将所有牌都亮出来。

4. 交易成本和执行成本:
在某些情况下,执行“非合作”策略(例如,在最后时刻提出苛刻条件)可能也会产生额外的交易成本或执行成本。如果这些成本高于潜在的收益,那么保持一定程度的合作可能更有效率。

5. “模范”行为的传播:
在一个群体中,如果有人在有限次博弈中展现出合作行为,并且这种行为被证明是有益的(即使只是微小的益处),或者能够激发对方的合作,那么这种行为可能会被其他人模仿和学习。

总结一下:

从纯粹的、基于完美理性和信息完整性的理论角度来看,有限次博弈中的“逆向归纳法”倾向于导向“不合作”的均衡。这意味着,理论上,合作在有限次博弈中是脆弱的,并且随着游戏接近尾声,合作的动力会逐渐减弱,直至消失。

然而,在现实世界的复杂环境中,由于信息的不确定性、声誉的考量、心理因素以及交易成本等多种原因,有限次博弈中仍然可能出现合作。这种合作可能不会像无限次博弈那样坚固和普遍,但它的存在是不可否认的。它更多地是一种“试探性”的合作,一种“以退为进”的策略,或者是一种对未来(可能存在的)互动的一种投资。

所以,与其说有限次博弈“不存在”合作,不如说,在有限次博弈中,合作的条件和逻辑与无限次博弈截然不同。它不是基于对无限期互惠的承诺,而是基于对短期利益的权衡、对未来潜在互动的顾虑,以及对人类非纯粹理性行为的洞察。

网友意见

user avatar

当然存在合作,也不需要行为经济学上的解释就能达成, @epsilon-delta 说的就是正解,我举个例子阐述一下。其实我认为这么明目张胆的说“只有无限期才会存在合作”,都是通用的四个小方格式的博弈论图示闹腾的,为了抖机灵让问题丧失了一般性(这个机灵就是,你看无论有几次博弈,一千次一万次一亿次,只要是有限次,我都能严格证明合作是不存在的!出乎意料之外,又在情理之中)。就像下面这样:

我和同学一起吃饭,说好饭钱不分彼此,共同支付。显然我们都想喝香槟,但是自己单独的时候是不会买的。于是都想自己点,然后让对方为自己掏一部分钱。于是最后的均衡俩人都买。


显然最后的均衡就是两个都买,因为谁不买谁吃亏。应用到任意次数的有限次博弈也是一样的,反正最后一轮,肯定是大家都买,那么倒数第二轮,大家还是都买……于是从第一轮开始大家都买。


那么现实中大学同学,四年后大家很大概率都各奔东西,这也是有限博弈啊。这是四年前我们就知道的事情,为什么在大学生活中没有处处都是囚徒困境呢?


事实上在日常的博弈中,均衡往往并不止一个,比如说,如果两个人之一不高兴了选择冷战,一个宿舍的人,冷战起来感觉不好,所以只要有一个人冷战,两个人都获得很低的效用。


所以这就不再是一个四小方格的博弈,而是存在两个纳什均衡,双方都买和双方都冷战。那么这个时候反而有合作的希望了,我们就看一个最简单的,只有两期的重复博弈,假定折现率为1。


这个时候每个人的策略就是:我第一回合选择合作策略——不买,如果你选择买,我下一回合就和你冷战,如果你选择不买,那么第二回合是最后一回合,我无论如何都选择非合作策略——买。


如果我在第一回合偏离,我获得10,然后第二回合获得-50, 加起来就是-40。

如果我第一回合合作,获得0,第二回合选择买,获得-30, 加起来还是-30。


这个时候均衡状态就是第一回合大家都默契的不买,但是在毕业分手饭的时候狂点……


其实就是,只要游戏中存在不止一个纳什均衡,那么动态博弈中,一方就可以通过挪到更坏的均衡这个可信的威胁来达到前期的合作。我们生活中的常态基本上也是这样的,真正的囚徒困境是极少极少的,无论夫妻之间,同学之间,还是同事之间,往往都有着很大的策略集,和很多的潜在的纳什均衡。比如『不理对方,如果对方先开口找自己说话,就对对方冷嘲热讽一番』 如果俩人都采用这个策略,也是一个纳什均衡……

就算是囚徒困境的场景,每个囚徒要不要考虑到卖了对方之后,对方在狱中会指使对方家人对自己的报复呢?要不要考虑自己的朋友之间的压力呢?再说除了坦白和不坦白,是不是还有一些模棱两可的词汇呢?现实中的策略总是很多的,高度抽象简化之后就变成了两个策略和四个小方格的payoff,信息是丢失了的。于是在做经济学实验的时候,人类是用自己在复杂的环境下养成的习惯,去做高度抽象和理论化的囚徒困境和公共品提供等实验,然后得出来不那么符合理论预测的结果,不是很正常的么?这并不意味着理论的失效,也不代表理性人假设被推翻。


很多时候,理性人原则表面上失效了,只是因为我们还没有完全的理解我们的理性在何处。


总结起来,就是因为存在各种非常差的纳什均衡,我们才会在有限次的合作中也有动机保持合作,很少被真的囚徒困境所困扰。

user avatar

我们可以先看一个有限次重复博弈存在合作的例子。

博弈中有两个玩家,1和2,每个玩家在每一次博弈中有三个行动选项,C(合作),D(欺骗),和P(惩罚),每一次博弈的收益矩阵如下:

首先我们分析一下这个博弈。在这个博弈中,如果没有策略P,那么它就是一个标准的囚徒困境,C是劣势策略,策略组(D,D)是唯一的纳什均衡。但是在有策略P的情况下,它有两个纯策略纳什均衡(D,D)和(P,P),以及一个混合纳什均衡,为了简便起见,我们仅考虑纯策略。

现在我们假设玩家1和2重复以上的这个博弈次,。每个玩家在这个有限次重复博弈的最终收益为各次博弈收益的加总,即:,其中是玩家在第t次的选择,就是它第t次博弈的收益,为方便起见,暂时不考虑折现。我们注意到在这个有限次重复博弈中,至少存在两个子博弈精炼均衡(路径),两人一直玩(D,D)或者一直玩(P,P)。

考虑一个最简单的情形,重复博弈两次,即。玩家1和2同时采用如下策略:

  1. 第一轮,选择C(合作);
  2. 第二轮,选择D(欺骗);但是如果第一轮中有人没有选择C(合作),那么第二轮选择P(惩罚)。

通过逆向归纳,我们可以验证这个策略组合是一个子博弈精炼均衡。在第二轮,不管是同时选择D还是P都是纳什均衡,因此是合理的。第一轮,如果选择合作,第二轮会以(D,D)结束,那么玩家i的总收益是4+2=6,而如果玩家i在第一轮选择D(欺骗),第二轮会以(P,P)结束,它的总收益就只有5。所以虽然合作是劣势策略,但是却出现在了均衡路劲中。一般的的有限次博弈中,类似的策略组合,即一开始合作,最后一轮选择(D,D),如果最后一轮之前一旦出现不合作的情况,之后一直(P,P)直到游戏结束,是一个存在合作的子博弈精炼均衡。

更一般的情况下,有限次重复博弈如果存在多个子博弈精炼均衡,我们可以用最差的子博弈均衡路径作为不合作的惩罚,以此来支持合作出现在均衡路径中。

=======

有时间的话,可能会补充一点更一般的分析。

参考资料:

教授的notes

Jean-Pierre Benoit and Vijay Krishna : "Finitely Repeated Games," Econometnca, 53, 905-922,1985

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有