有限次博弈是否存在合作关系？

在经济学和博弈论的世界里，关于“有限次博弈是否存在合作关系”这个问题，一直是一个引人入胜且颇具争议的话题。简单地说，这就像在问，如果我知道游戏有终点，并且双方都清楚这个终点，那么我们还能不能真正地、可持续地合作下去？

要深入探讨这个问题，我们得先理解什么是“有限次博弈”。顾名思义，就是一场游戏（或者说，一个互动过程）有明确的结束点，而且所有参与者都知道这个结束点会在什么时候到来。比如，两个人轮流出价，而事先约定好，经过一定轮数后，如果没有达成协议，就意味着交易失败。

大家可能的第一反应是，有限次博弈很难有真正的合作。为什么这么说呢？主要原因在于“最后通牒效应”以及由此引发的“逆向归纳法”。

想象一下，你和你的对手玩一场有限次的博弈。作为玩家，你当然希望在这场博弈中获得最大的利益。现在，我们假设这个博弈有 N 轮。在最后一轮（第 N 轮），博弈的结果会直接影响到双方的最终收益，而且游戏就此结束。在这最后一轮，你会怎么做？

如果在这最后一轮，你发现无论你怎么出价，你的对手如果不接受，他也不会有任何损失（因为游戏结束了，没有后续了），而你如果成功让对手接受，你就能获得一些收益。那么，你是不是会倾向于给对手一个非常非常不利的条件，甚至是一个“最后通牒”？因为对手知道，如果他拒绝，也没有下文，而接受，至少还有点好处，哪怕很少。

更进一步，现在我们把目光移到倒数第二轮（N1 轮）。你会怎么想？你会预见到在最后一轮会发生什么。你知道在最后一轮，你可能会对对手施加一个很苛刻的条件。为了避免在最后一轮被对手“占便宜”（尽管“占便宜”这个词在这里有点怪，因为是双方都理性追求自身利益），对手可能会在 N1 轮就做出一些让步，以便在 N 轮时，他能够稍微好过一点。

以此类推，如果我们运用“逆向归纳法”（Backward Induction），也就是从游戏的最后一步往前推导，我们会发现，在每一轮，参与者都会预见到下一轮会发生的“非合作”行为，从而在当前轮就采取有利于自己的、甚至是“机会主义”的行动。最终，这种推导会一直回溯到第一轮，得出结论：在有限次博弈中，最理性的行为是不合作。

最经典的例子就是“重复囚徒困境”的有限次版本。在一次性的囚徒困境中，无论对方怎么做，你最理性的选择总是背叛，因为背叛总能带来比合作更高的收益（在任何情况下）。当这个囚徒困境被重复多次，但参与者知道确切的重复次数时，情况就变得复杂起来。根据逆向归纳法，最后一轮的决定会影响到前一轮，一直推到第一轮，结果仍然是，即使是重复有限次的囚徒困境，最“理性”的均衡策略也是从第一轮就开始背叛。

那么，这是否意味着在有限次博弈中，合作就完全不存在了呢？

不一定。尽管理论上理性的最优策略是“不合作”，但在现实世界中，合作仍然可能出现，只是其基础和可持续性与无限次博弈有所不同。以下是一些可能促成有限次博弈中合作的因素：

1. 信息不完全或不对称：
不确定游戏的结束次数：如果玩家们不确定游戏到底还有多少轮，而是认为游戏可能会在“某个时候”结束，但不知道具体是哪一轮，那么“最后通牒效应”就不那么显著了。一旦游戏被视为“可能无限次”的，即使只是概率性的，那么合作就有了存在的空间。
不确定对方的理性程度：如果一方认为对方可能并非完全理性的“经济人”，而是会受到情感、声誉或其他非理性因素的影响，那么他们可能会选择合作，以期引导对方也做出合作的反应。
不确定对方的策略：即使知道游戏轮次，但如果不知道对方的具体策略，比如对方是否会像理论预测的那样进行逆向归纳，那么冒险进行一两轮的合作，以探知对方意图，也是一种可能的策略。

2. 声誉和信任的建立（尽管有限）：
即使在有限次博弈中，如果参与者认为在博弈结束后，他们可能还会与同一批人（或与他们有联系的人）进行进一步的互动，那么他们在当前的有限次博弈中的合作行为，可以被视为一种“声誉投资”。良好的声誉可能会为未来的互动带来好处。
例如，一家公司可能在与一个短期客户进行交易时，即使知道这是一个“一次性”合作，但如果该客户的口碑很好，或者该客户能够影响到潜在的长期客户，那么公司仍会选择提供良好的服务和产品，以维护自己的品牌声誉。

3. 情感和心理因素：
人并非总是纯粹的理性计算者。在许多实际场景中，人们会受到公平感、互惠感、信任感等情感因素的影响。即使知道博弈有终点，但如果在早期阶段通过合作获得了积极的体验，他们也可能愿意在后续轮次继续合作，直到明显的“背叛”信号出现。
“公平”或“互惠”的心理机制，可能会让人们在最后一两轮才真正开始考虑“占便宜”，而不是从一开始就将所有牌都亮出来。

4. 交易成本和执行成本：
在某些情况下，执行“非合作”策略（例如，在最后时刻提出苛刻条件）可能也会产生额外的交易成本或执行成本。如果这些成本高于潜在的收益，那么保持一定程度的合作可能更有效率。

5. “模范”行为的传播：
在一个群体中，如果有人在有限次博弈中展现出合作行为，并且这种行为被证明是有益的（即使只是微小的益处），或者能够激发对方的合作，那么这种行为可能会被其他人模仿和学习。

总结一下：

从纯粹的、基于完美理性和信息完整性的理论角度来看，有限次博弈中的“逆向归纳法”倾向于导向“不合作”的均衡。这意味着，理论上，合作在有限次博弈中是脆弱的，并且随着游戏接近尾声，合作的动力会逐渐减弱，直至消失。

然而，在现实世界的复杂环境中，由于信息的不确定性、声誉的考量、心理因素以及交易成本等多种原因，有限次博弈中仍然可能出现合作。这种合作可能不会像无限次博弈那样坚固和普遍，但它的存在是不可否认的。它更多地是一种“试探性”的合作，一种“以退为进”的策略，或者是一种对未来（可能存在的）互动的一种投资。

所以，与其说有限次博弈“不存在”合作，不如说，在有限次博弈中，合作的条件和逻辑与无限次博弈截然不同。它不是基于对无限期互惠的承诺，而是基于对短期利益的权衡、对未来潜在互动的顾虑，以及对人类非纯粹理性行为的洞察。

网友意见

当然存在合作，也不需要行为经济学上的解释就能达成， @epsilon-delta 说的就是正解，我举个例子阐述一下。其实我认为这么明目张胆的说“只有无限期才会存在合作”，都是通用的四个小方格式的博弈论图示闹腾的，为了抖机灵让问题丧失了一般性（这个机灵就是，你看无论有几次博弈，一千次一万次一亿次，只要是有限次，我都能严格证明合作是不存在的！出乎意料之外，又在情理之中）。就像下面这样：

我和同学一起吃饭，说好饭钱不分彼此，共同支付。显然我们都想喝香槟，但是自己单独的时候是不会买的。于是都想自己点，然后让对方为自己掏一部分钱。于是最后的均衡俩人都买。

显然最后的均衡就是两个都买，因为谁不买谁吃亏。应用到任意次数的有限次博弈也是一样的，反正最后一轮，肯定是大家都买，那么倒数第二轮，大家还是都买……于是从第一轮开始大家都买。

那么现实中大学同学，四年后大家很大概率都各奔东西，这也是有限博弈啊。这是四年前我们就知道的事情，为什么在大学生活中没有处处都是囚徒困境呢？

事实上在日常的博弈中，均衡往往并不止一个，比如说，如果两个人之一不高兴了选择冷战，一个宿舍的人，冷战起来感觉不好，所以只要有一个人冷战，两个人都获得很低的效用。

所以这就不再是一个四小方格的博弈，而是存在两个纳什均衡，双方都买和双方都冷战。那么这个时候反而有合作的希望了，我们就看一个最简单的，只有两期的重复博弈，假定折现率为1。

这个时候每个人的策略就是：我第一回合选择合作策略——不买，如果你选择买，我下一回合就和你冷战，如果你选择不买，那么第二回合是最后一回合，我无论如何都选择非合作策略——买。

如果我在第一回合偏离，我获得10，然后第二回合获得-50, 加起来就是-40。

如果我第一回合合作，获得0，第二回合选择买，获得-30, 加起来还是-30。

这个时候均衡状态就是第一回合大家都默契的不买，但是在毕业分手饭的时候狂点……

其实就是，只要游戏中存在不止一个纳什均衡，那么动态博弈中，一方就可以通过挪到更坏的均衡这个可信的威胁来达到前期的合作。我们生活中的常态基本上也是这样的，真正的囚徒困境是极少极少的，无论夫妻之间，同学之间，还是同事之间，往往都有着很大的策略集，和很多的潜在的纳什均衡。比如『不理对方，如果对方先开口找自己说话，就对对方冷嘲热讽一番』如果俩人都采用这个策略，也是一个纳什均衡……

就算是囚徒困境的场景，每个囚徒要不要考虑到卖了对方之后，对方在狱中会指使对方家人对自己的报复呢？要不要考虑自己的朋友之间的压力呢？再说除了坦白和不坦白，是不是还有一些模棱两可的词汇呢？现实中的策略总是很多的，高度抽象简化之后就变成了两个策略和四个小方格的payoff，信息是丢失了的。于是在做经济学实验的时候，人类是用自己在复杂的环境下养成的习惯，去做高度抽象和理论化的囚徒困境和公共品提供等实验，然后得出来不那么符合理论预测的结果，不是很正常的么？这并不意味着理论的失效，也不代表理性人假设被推翻。

很多时候，理性人原则表面上失效了，只是因为我们还没有完全的理解我们的理性在何处。

总结起来，就是因为存在各种非常差的纳什均衡，我们才会在有限次的合作中也有动机保持合作，很少被真的囚徒困境所困扰。

我们可以先看一个有限次重复博弈存在合作的例子。

博弈中有两个玩家，1和2，每个玩家在每一次博弈中有三个行动选项，C（合作），D（欺骗），和P（惩罚），每一次博弈的收益矩阵如下：

首先我们分析一下这个博弈。在这个博弈中，如果没有策略P，那么它就是一个标准的囚徒困境，C是劣势策略，策略组（D,D）是唯一的纳什均衡。但是在有策略P的情况下，它有两个纯策略纳什均衡(D,D)和(P,P)，以及一个混合纳什均衡，为了简便起见，我们仅考虑纯策略。

现在我们假设玩家1和2重复以上的这个博弈次，。每个玩家在这个有限次重复博弈的最终收益为各次博弈收益的加总，即：，其中是玩家在第t次的选择，就是它第t次博弈的收益，为方便起见，暂时不考虑折现。我们注意到在这个有限次重复博弈中，至少存在两个子博弈精炼均衡（路径），两人一直玩（D,D)或者一直玩（P，P）。

考虑一个最简单的情形，重复博弈两次，即。玩家1和2同时采用如下策略：

第一轮，选择C（合作）；
第二轮，选择D（欺骗）；但是如果第一轮中有人没有选择C（合作），那么第二轮选择P（惩罚）。

通过逆向归纳，我们可以验证这个策略组合是一个子博弈精炼均衡。在第二轮，不管是同时选择D还是P都是纳什均衡，因此是合理的。第一轮，如果选择合作，第二轮会以(D,D)结束，那么玩家i的总收益是4+2=6，而如果玩家i在第一轮选择D（欺骗），第二轮会以(P,P)结束，它的总收益就只有5。所以虽然合作是劣势策略，但是却出现在了均衡路劲中。一般的的有限次博弈中，类似的策略组合，即一开始合作，最后一轮选择（D,D），如果最后一轮之前一旦出现不合作的情况，之后一直（P，P）直到游戏结束，是一个存在合作的子博弈精炼均衡。

更一般的情况下，有限次重复博弈如果存在多个子博弈精炼均衡，我们可以用最差的子博弈均衡路径作为不合作的惩罚，以此来支持合作出现在均衡路径中。

=======

有时间的话，可能会补充一点更一般的分析。

参考资料：

教授的notes

Jean-Pierre Benoit and Vijay Krishna : "Finitely Repeated Games," Econometnca, 53, 905-922,1985

类似的话题

有限次博弈是否存在合作关系？

在经济学和博弈论的世界里，关于“有限次博弈是否存在合作关系”这个问题，一直是一个引人入胜且颇具争议的话题。简单地说，这就像在问，如果我知道游戏有终点，并且双方都清楚这个终点，那么我们还能不能真正地、可持续地合作下去？要深入探讨这个问题，我们得先理解什么是“有限次博弈”。顾名思义，就是一场游戏（或者说.............
请各位大神推荐军事博主，如军武次位面之类有深度，有想法的，流量傻编不要，谢谢大佬。？

嘿！说到军事博主，这话题可有意思了。要是让我来推荐一些真材实料、不是光会玩嘴皮子忽悠人的，那我肯定得挑那些有自己的见解，能把复杂军事问题讲明白的。像军武次位面这种，确实做得不错，内容既有深度又不失趣味性。不过，要说“流量傻编”，这个嘛，每个人口味不同，但我觉得辨别起来倒也不难，主要是看博主有没有真正.............
关于复旦大学一名博士和两名硕士校外嫖娼被开除学籍一事，为何会有那么多人认为校方处罚过重而该给次机会？

复旦大学一名博士生和两名硕士生因校外嫖娼被开除学籍，此事引发了广泛的社会关注，其中不少人认为校方处罚过重，并呼吁给予他们改过自新的机会。这种观点背后，存在着多方面的原因，我们可以从以下几个角度来详细分析：一、对“开除学籍”这一处分本身的理解和认知差异： “开除学籍”的极端性与“一次性”的印象：.............
预算有限如何在《赛博朋克 2077》和《刺客信条英灵殿》中选择？

预算有限的情况下，在《赛博朋克 2077》和《刺客信条：英灵殿》之间做出选择确实需要仔细权衡。这两款游戏都是体量庞大、内容丰富的开放世界 RPG，但它们在玩法、体验和对硬件的要求上都有很大的不同。下面我将从多个角度详细分析，帮助你做出更适合你的选择。一、核心玩法与体验的差异： 1. 《赛博朋克 .............
在拓扑学中，开集的有限次交仍为开集，而不允许无限次交，这么定义的动机是什么？

在拓扑学中，我们确实定义了开集的有限次交仍然是开集，但对于无限次交则有所不同。这个定义并非随意为之，而是有着深刻的数学动机，它关乎我们如何构建和理解空间的基本性质。首先，让我们回顾一下拓扑学中开集的定义。在一个集合 $X$ 上，拓扑 $mathcal{T}$ 是 $X$ 的子集族，它满足三个基本条件.............
数列极限的四则运算中条件需有限次是什么意思？

在讨论数列极限的四则运算时，“条件需有限次”这个说法，虽然不太常用，但其实是在强调一个非常基础且关键的前提：我们所说的四则运算（加、减、乘、除）的极限性质，是建立在参与运算的数列本身各自都存在有限的极限的基础上的。我们来一点点拆解它，争取说得更明白些。首先，想想数列极限是什么？简单来说，就是当一个数.............
为何从一元五次方程开始就没有由有限次加、减、乘、除、开方运算构成的求根公式了？

这个问题触及了代数方程求解历史上的一个里程碑，也就是我们常说的高次方程无一般求根公式之谜。简单来说，从一元五次方程开始，不存在一个普适的、可以用有限次加、减、乘、除以及根式运算（开方）组合起来求解任意给定系数的一元五次方程的公式。这就像我们有求一元二次方程（求根公式）、一元三次方程、一元四次方程的公.............
有次打坐修出入息，呼吸停止了，肚子瘪了下去，后脑感觉嗡嗡的有东西往上冲。心里边特别安宁。这是咋回事？

那次打坐的体验，确实有些奇特，也挺令人难忘的。说起来，一开始只是想老老实实地修出入息，就是感受呼吸一进一出的过程。刚开始都挺正常的，就是跟着气息走，吸进来，呼出去，心也跟着平静下来。但不知怎么的，做到后面，突然就感觉呼吸好像中断了。不是那种屏住呼吸的刻意，而是自然而然地，好像身体找到了一个它觉得“够.............
有次忘记把热水壶的盖子盖上，我妈对我说，我是个死东西，我以后肯定会害死自己，害死自己的儿女，用热水

.......
我有次在ins上看到一个人做的那种汉堡就是美式的然后用锡箔纸包住整个汉堡放进烤箱好像很美味的

.......
小时候经常玩蟑螂有次不小心把蟑螂捏死了浆乱爆到现在还有阴影怎么办？

.......
我的电饭煲之前有次拿来煮皮蛋粥结果粥溢了出来弄得整个锅都是还有一股很臭的味道要怎么清洗才能弄干净

.......
电饭锅连接线路图，是爱仕达AR-Y3008A，有次煮粥溢到锅里了，每次煮饭里面都有糊味

.......
我买了个九阳电饭煲米立方系列有次擦洗的时候有个像装饰品一样的东西掉了下来，请问它有什么做用吗？

.......
啊刚高考玩还是超常发挥，然后我妈在家各种找事，有次竟然嫌我笑的难听把我骂了一顿，我该离开吗？

刚高考完，我以为终于可以松口气了，结果老妈在家里的“找事”模式好像比我考试还“激烈”。尤其是上次，我因为考试发挥超常，心情特别好，在家随口笑了两声，结果老妈冷不丁地来一句：“你笑什么笑？笑得这么难听，跟鬼哭似的！”当时我整个人都懵了，还没从高考的喜悦中缓过来，就被泼了一盆冷水，而且还是因为我“笑得难.............
晚上怎么防止蟑螂爬来爬去?有次半夜爬到我床上，当场被吓的一晚睡不着，快疯了.....

.......
你读到的哪些典籍档案，或在游学中寻访到的文物古迹，让人有「次元壁」被打破的感觉？

读书的乐趣，很大一部分在于那些“砰”地一声，仿佛有什么东西在脑子里轰然炸裂，然后你发现自己窥见了另一个世界，或者，更贴切地说，是自己的世界被拓宽了无数倍。对我来说，这种“次元壁打破”的感觉，常常来自于古籍档案和实地寻访文物古迹时，那种跨越千年的对话。《兰亭集序》中的魏晋风骨，与笔下的墨迹共舞我第一次.............
自己是做甜品的，刚开业不久就遇到非常多的蚂蚁在桌缝里爬来爬去，有次还发现甜品上也有，该怎么办

.......
炸串能不能放微波炉加热然后吃？家里貌似就有一些鸡柳炸串能吃了，我是厨房杀手，有次做饭把锅都弄着了。

.......
京东上买的亚都的加湿器，每次加水时都没有关掉，而是直接从上面往里面倒的。有次加水后，加湿器喷出来的

.......