在「扩展式博弈」中，「序贯理性」「子博弈精炼」和「逆向归纳法」的联系与区别是什么？

在博弈论的分析中，尤其是在处理“扩展式博弈”（ExtensiveForm Games）这类描述了一系列决策步骤和信息披露的博弈时，“序贯理性”（Sequential Rationality）、“子博弈精炼”（Subgame Perfection）和“逆向归纳法”（Backward Induction）是三个核心概念，它们之间既紧密联系，又各有侧重。要理解它们，我们不妨一步步地拆解。

序贯理性：个体决策的“当下最优”

首先，我们来看看“序贯理性”。这个概念的本质是关于个体在每个信息集上的最优决策。在扩展式博弈中，玩家会在不同的时间点做出决策，而且他们所拥有的信息可能随着博弈的进行而变化。

核心思想：无论博弈进行到哪个阶段，玩家都应该选择一个能够最大化其期望收益的策略，前提是他们相信其他玩家也会如此行事。更重要的是，这种最优性是条件性的——它取决于玩家在当前信息集所拥有的信息，以及他们对未来所有玩家行动的预期。

怎么理解？想象你在一个多层迷宫里探险，每个岔路口都需要你做出选择。序贯理性意味着，你在任何一个岔路口，都应该根据你当前所拥有的关于迷宫布局（也就是你所处的信息集）以及你对后面所有岔路口可能发生情况的判断，来选择那个最有可能让你最终到达宝藏的路径。即使你之前做了一个选择，导致你进入了一个你并不期望的岔路口，你在那个新的岔路口依然要做出最优的决策，而不是因为之前的选择“不理想”就随意乱选。

关键点：
信息集（Information Set）：这是序贯理性的关键所在。玩家的决策是在特定的信息集上做出的，他们可能无法区分同一个信息集中的不同节点，但他们会根据该信息集内的所有可能性来选择。
对未来的预期：序贯理性要求玩家不仅考虑当下的选择，还要考虑这个选择对未来博弈走向的影响，以及其他玩家在未来可能采取的策略。
自我实现的最优性：它是一个关于个体理性行为的假设，强调在每个可能出现的决策点上都做出符合自己利益最大化的选择。

子博弈精炼：对序贯理性的全局升华

接下来是“子博弈精炼”。这个概念是对序贯理性的一种更强的要求，它不仅仅关注全局最优，更是将这种理性应用到博弈的每一个“子博弈”中。

核心思想：一个博弈的子博弈精炼策略组合，是所有子博弈中的序贯理性策略组合。

怎么理解？在扩展式博弈中，当我们从某个信息集开始，并且这个信息集只包含一个博弈节点（即玩家知道自己处于这个精确的节点上），那么从这个节点开始到博弈结束的整个过程，就构成了一个“子博弈”。子博弈精炼就是要确保，在每一个可能的子博弈的起始点，玩家的行为都符合序贯理性。

举个例子，如果一个博弈可以被看作是一个包含若干独立小博弈的大博弈，那么子博弈精炼要求，不仅在大博弈的起始处玩家要理性，在进入任何一个小博弈的起始处，玩家也都要严格遵循序贯理性的原则。即使某个子博弈在最优策略组合下永远不会发生，子博弈精炼依然要求在该子博弈的起始点存在一个序贯理性的策略。

与序贯理性的关系：
包含与被包含：子博弈精炼要求的是“所有子博弈都是序贯理性的”，所以子博弈精炼策略组合必然是序贯理性的。但反过来，一个序贯理性的策略组合不一定是子博弈精炼的，因为它可能在一些永远不会发生的子博弈中包含了非理性的策略。
“不可威胁”性：子博弈精炼的核心在于消除了“虚张声势”或“不合逻辑的威胁”。在一个子博弈中，如果某个策略不是序贯理性的（比如包含了某种不合理的威胁或承诺），那么包含这种策略的全局策略就不是子博弈精炼的。

关键点：
子博弈的识别：理解子博弈精炼的前提是能够准确识别博弈中的所有子博弈。
淘汰非序贯理性策略：它是一个筛选机制，剔除了那些即使在非发生状态下也包含非理性决策的策略。

逆向归纳法：实现子博弈精炼的工具

最后，“逆向归纳法”。这更多的是一种求解和验证子博弈精炼策略的方法，而不是一个独立于子博弈精炼的策略概念。

核心思想：从博弈的最后一步开始，向前推导，逐一确定每个信息集上的最优策略。

怎么理解？想象你在下棋，你知道最终的胜利条件。逆向归纳法就像是倒着思考：最后一步最可能发生什么？如果到了最后一步，某个玩家会怎么选择才能赢？知道了这一步，我们就可以往前推一步，看在倒数第二步时，玩家为了能导向那个“最优的最后一步”，会怎么做。如此一步步回溯，直到博弈的起点。

操作过程：
1. 找到“最终节点”的子博弈：在博弈树的末端，那些直接导致游戏结束的节点，形成了一些最简单的子博弈（通常只有一个决策点）。
2. 在这些末端子博弈中应用序贯理性：对于在这些末端子博弈中做出决策的玩家，确定他们的最优选择。
3. 向前回溯：将这些末端子博弈的最优结果作为已知信息，向前移动到更早的决策节点。在这些节点上，玩家会考虑他们当前的选择导向的未来可能结果（这些结果已经根据序贯理性确定），并选择能最大化其期望收益的策略。
4. 重复此过程：一直回溯到博弈的起始点。

与子博弈精炼的关系：
实现工具：逆向归纳法是找到子博弈精炼策略的一种主要方法，尤其适用于有限、完美信息（即玩家在任何时候都知道博弈进行到哪一点）的博弈。
保证子博弈精炼性：如果一个博弈可以使用逆向归纳法来求解，并且其假设条件都满足，那么通过逆向归纳法得到的策略组合就一定是子博弈精炼的。

关键点：
工具而非目标：它是一种方法论，用于找到符合子博弈精炼要求的策略。
适用性：对有限博弈、完美信息博弈效果显著。在无限博弈或不完美信息博弈中，应用逆向归纳法会变得复杂，甚至需要其他工具（如不动点定理）来辅助。

联系与区别总结

让我们用一个表格来梳理一下它们之间的关系：

| 特征 | 序贯理性 (Sequential Rationality) | 子博弈精炼 (Subgame Perfection) | 逆向归纳法 (Backward Induction) |
| | | | |
| 本质 | 个体在任何信息集上的最优决策 | 所有子博弈中的序贯理性 | 求解子博弈精炼策略的方法 |
| 作用对象 | 单个信息集上的决策 | 整个博弈树上的策略组合（通过要求所有子博弈的序贯理性实现） | 博弈树中的决策节点和策略 |
| 要求强度 | 相对“基础”的理性要求 | 对序贯理性在所有可识别子博弈上的延伸，更强的理性要求 | 实现子博弈精炼的手段，其有效性依赖于博弈的结构 |
| 是否是策略？ | 是，描述了玩家在特定信息集上的决策规则 | 是，描述了玩家在整个博弈过程中的行动计划，要求在所有子博弈中都理性 | 是求解方法，但最终产出的是符合子博弈精炼要求的策略 |
| 与其他关系 | 子博弈精炼的必要条件；逆向归纳法是在子博弈精炼的框架下进行的 | 蕴含序贯理性；通常通过逆向归纳法来寻找和证明 | 是寻找和证明子博弈精炼策略的主要工具，依赖于序贯理性来一步步推导 |
| 可能的问题 | 在不存在的子博弈中可能包含非理性策略 | 对不存在的子博弈也做出了理性要求，有时显得过于苛刻 | 对有限、完美信息博弈效果好，对其他类型博弈应用受限，有时会产生“非直觉”结果 |

核心的区别与联系在于：

序贯理性是一个关于局部（信息集）最优决策的基本假设。
子博弈精炼将这种理性推广到整个博弈的每一个“局部”（子博弈），从而消除了不合逻辑的威胁和承诺，保证了策略的整体可信度。
逆向归纳法则是实现和证明子博弈精炼策略的有力工具，它提供了一种从博弈末端向前推导的系统方法，确保了每个节点的决策都是基于对未来最优结果的合理预期。

你可以把它们想象成：序贯理性是“在任何一个房间里都要做最聪明的选择”，子博弈精炼是“不管你最终会进入哪个房间，你都必须确保你在每个可能进入的房间里都做了最聪明的选择”，而逆向归纳法则是“从房间尽头的地图开始，一步步往前推，规划出你到达每个房间时最聪明的路线”。

正是因为有了子博弈精炼和逆向归纳法这样的概念，我们才能更深入地分析博弈参与者的理性行为，尤其是在那些包含复杂时间序列和信息不对称的现实博弈场景中。

网友意见

sub-game perfection要求类似动态规划：在path上每个子问题(sub game)的local solution (NE)都是整体问题(whole game tree) 的global solution (SPE)的一部分

sequential rationality是对解的性质做要求，每个solution都等于best reply的联立不动点

sub-game perfection的问题主要两类

一个是over sensitive

PBE（Out,L,l, pi<1/3）就不是sub-prefect

另一个就是sub game perfection does not prescribe best replies at all information sets

Kreps and Wilson的sequential equilibrium比sub perfection更接近动态规划,要求考虑到all information sets上的Nash Equ作为requirement ；同时用颤抖手的perfection对belief做要求

然后问题来了，perfection在normal form和extensive form上的要求不一样

AKA,有的战略可能在extensive form上满足perfection但在normal form上不满足，反之亦然

于是更进一步的考虑就是properness，结论就是van Damme （1984）

每个proper equilibrium 都有一个等价的quasi-perfect equilibrium

类似的话题

在「扩展式博弈」中，「序贯理性」「子博弈精炼」和「逆向归纳法」的联系与区别是什么？

在博弈论的分析中，尤其是在处理“扩展式博弈”（ExtensiveForm Games）这类描述了一系列决策步骤和信息披露的博弈时，“序贯理性”（Sequential Rationality）、“子博弈精炼”（Subgame Perfection）和“逆向归纳法”（Backward Induction.............
清灭亡时领土多大，只剩一个紫荆城，清朝是否在扩展疆域方面贡献巨大？

关于清朝的疆域变迁，需要从历史背景、扩张过程、灭亡时的领土状况以及其在疆域扩展中的贡献进行详细分析。以下是基于历史事实的详细说明：一、清朝建立初期的疆域清朝建立于1644年，其初始疆域主要集中在华北地区，包括：核心区域：北京、天津、河北、山东、山西等华北地区；东北地区：清朝入关前控制了辽东半岛.............
清灭亡时领土多大，只剩一个紫禁城，清朝是否在扩展疆域方面贡献巨大？

晚清的疆域与清朝的扩张：一个复杂的历史谜题关于清朝灭亡时，中国究竟还剩下多少土地，以及清朝在扩张疆域方面是否做出了巨大贡献，这的确是一个值得深入探讨的复杂问题。简单地说，清朝灭亡时，其统治下的疆域虽然依旧辽阔，但早已不是鼎盛时期，所谓的“只剩一个紫禁城”更是无稽之谈。至于其扩张疆域的贡献，也并非简单.............
namecheap二级域名扩展在哪里

.......
三国杀在每个扩展包都引入了哪些新概念？

聊起三国杀的扩展包，那可真是说到我心坎里去了！每一张新牌、每一个新机制，就像是给咱们老游戏注入了新鲜血液，总能带来不少惊喜。与其说它们是“新概念”，我更觉得是不断解锁的“新玩法”，让游戏更有深度、更有策略。要说详细，咱们就得一张张、一包包地捋。最早的那些扩展，更像是基础牌的补充和优化，但也在悄悄地埋.............
win7笔记本，外接扩展显示器，如何在不缩小外接显示器像素的同时去除外接显示器的桌面背景黑边？

咱这台win7笔记本，接了个外接大屏，看着是爽，就是那屏幕两侧老是留着两道黑边，有点碍眼。网上搜了搜，不少人提到了啥“分辨率”、“缩放”，但咱的要求是，外接屏的画面得跟它本来的像素点一个对一个，不给它偷工减料，也不能给它放大，就得是它自己该有的那个清晰度。同时，又得把那两道该死的黑边给去掉，让整个屏.............
如何在阿里云Centos7服务器下安装部署Nginx+PHP+Mysql+PHP扩展

.......
日本在扩军，中国却在裁军，你对此怎么看？

关于日本扩军和中国裁军这一现象，确实是一个值得深入探讨的议题。这其中涉及到的不仅仅是两国国防力量的此消彼长，更折射出两国不同的战略考量、国际环境以及国内政治经济因素。首先，我们来看看日本的“扩军”表现。要理解日本的“扩军”，我们不能简单地将其等同于传统的、以侵略为导向的军备扩张。自二战以来，日本奉行.............
美国在扩张过程中为什么要建立新的州，而不是将新领土划入原有的靠近边界的州？

美国在扩张过程中，建立新的州而非简单地将新领土划入原有临近州，这背后是一系列深思熟虑的政治、经济和社会考量，而非偶然。这个决策过程，如同美国建国之初的许多制度设计一样，体现了对权力制衡、代表性以及未来国家形态的精妙构想。核心驱动力：平衡权力与确保代表性最根本的原因在于对权力平衡的追求，以及确保各地区.............
荷兰在扩张时期为什么会输？

关于荷兰在扩张时期的“失败”与否，其实这是一个挺有意思的话题。我们不能简单地说荷兰“输了”，因为那个时代，尤其是17世纪，对荷兰来说是黄金时代，他们在海洋贸易、金融和文化上都取得了令人瞩目的成就。但是，如果我们将“扩张时期”理解为试图建立和维持一个庞大的海外殖民帝国，并与当时的欧洲主要强国（比如英国.............
近几年法学硕士和法律硕士，是在扩招还是缩招？

近几年法学硕士（学术型学位，简称法硕）和法律硕士（专业学位，简称法学硕士或者非法学硕士，根据报考方向区分）的招生情况，总体而言，可以看作是在进行结构性调整和精细化管理，而不是简单的“扩招”或“缩招”。要详细说清楚，需要区分这两个学位类型，并结合近年来的政策导向来分析。首先，我们来区分一下“法学硕士.............
华为表示今年将招聘 1 万多名应届生，为什么其他互联网大厂纷纷裁员，华为却在扩招？

逆势而上：华为为何在寒冬中逆势扩招？当众多互联网大厂纷纷挥舞着“优化”的镰刀，收紧招聘闸门，甚至进行大规模裁员时，华为却高调宣布今年将招聘一万多名应届生，仿佛在寒冬中燃起一团炽热的篝火，引发了广泛的关注和讨论。是什么让华为在行业普遍低迷的背景下，选择了一条截然不同的道路？这背后，是战略的考量，是对未.............
明朝在军事扩张方面是否不亚于汉唐？

明朝在军事扩张方面的表现确实与汉唐时期存在显著差异，其规模、范围和方式均不及汉唐。以下从多个维度详细分析明朝与汉唐在军事扩张上的异同：一、汉唐时期的军事扩张特点1. 汉朝（前206年220年）西汉时期：汉武帝（前141年前87年）通过“开疆拓土”政策，征服匈奴，设立河西四郡（敦煌、张掖.............
为什么阿拉伯语在西方扩张比东方成功？

为何阿拉伯语在西方扩张比东方更为成功？回顾历史的长河，阿拉伯语的传播轨迹并非一条直线，其在不同地域的扩张呈现出鲜明的差异。从历史学者的视角审视，我们可以发现，相较于东方，阿拉伯语在西方世界的“落地生根”和影响力更为持久和广泛。这并非偶然，而是多种复杂因素相互作用的结果。首先，我们需要明确“西方”与“.............
如何看待德尔塔毒株在全美扩散，密苏里州医疗濒临崩溃？

德尔塔毒株在美国的肆虐，尤其是在密苏里州等地造成的严峻形势，确实是一个值得我们深入探讨的公共卫生危机。这不仅仅是一个病毒变异的问题，它触及到了疫苗接种策略、医疗资源分配、公众行为惯性以及社会信任等多个层面。要理解这一切，我们需要剥开层层表象，看到其背后的复杂性。首先，我们得承认德尔塔毒株的“狡猾”和.............
苹果带回美国2500亿美金，并在美国扩大生产，请问有和影响，后续发展预测？

苹果公司将2500亿美元巨额利润带回美国，并计划在美国本土扩大生产规模，这绝对是一则重磅消息，其潜在影响深远且复杂。我们可以从多个维度来剖析这一事件，并尝试预测其后续发展。一、苹果带回巨额资金的直接影响：美国经济的短期刺激：这2500亿美元的回流，并非直接撒钱，而是意味着苹果公司在海外赚取.............
美国澳大利亚发布联合声明，称「美国将扩大在澳军事存在」，你怎么看？

美国和澳大利亚发布联合声明，宣布美国将扩大在澳大利亚的军事存在，这是一个具有重大战略意义的举动，可以从多个层面进行解读和分析。核心内容与背景： “扩大军事存在”的具体含义：这通常意味着在澳大利亚境内部署更多美军人员、增加轮换的军事装备（如轰炸机、军舰、潜艇等），以及在澳大利亚的军事设施（如基地.............
印内政部长叫嚣作为印度「自力更生」运动一部分，人民党将扩大在斯里兰卡和尼泊尔等南亚国家势力，何解？

印度内政部长近期的一番表态，声称要将印度人民党（BJP）的势力拓展至斯里兰卡和尼泊尔等南亚国家，这背后有着复杂的地缘政治考量和印度国内的政治驱动。要理解其“何解”，我们需要从多个层面进行剖析。一、印度的“自力更生”与地区影响力扩张的逻辑首先，这位内政部长提到的“自力更生”（Atmanirbhar B.............
如何看待哈佛大学团队用卫星数据，声称新冠肺炎自2019年8月已在武汉扩散？

哈佛大学团队利用卫星数据声称新冠肺炎自2019年8月已在武汉扩散的说法，是一个非常复杂且具有争议性的议题，需要从多个维度进行详细分析。一、哈佛大学团队的原始研究内容与方法论首先，我们需要了解哈佛大学团队（具体而言是哈佛大学T.H. Chan公共卫生学院的学者们）的这项研究究竟做了什么。这项研究并非.............
如何扩大自己在知乎的知名度？

想在知乎上闯出名堂，这事儿可得好好说道说道。这不是随便写写文章就能搞定的，背后得有策略、有干劲。咱们一步一步来，把我自己的经验和一些大家都在用的招数，掰开了揉碎了跟你聊聊。第一步：找准你的“地盘”——定位与内容知乎上什么都有，什么人都有。你想让别人认识你，首先得让人知道你是“谁”，在“哪个领域”有说.............