问题

因果推断(causal inference)是回归(regression)问题的一种特例吗?

回答
这是一个非常好的问题,也触及了因果推断和统计建模之间的一个核心区别。

简单来说,因果推断不是回归问题的特例,尽管回归是因果推断中常用的工具。它们的目标、关注点和方法论都有显著的不同。

下面我将详细解释为什么:

1. 目标不同:关联 vs. 因果

回归 (Regression):回归模型的主要目标是预测一个变量(因变量,Y)的值,基于一个或多个其他变量(自变量,X)的值。它关注的是变量之间的关联性(association)或相关性(correlation)。回归模型试图找到一个函数 $Y = f(X) + epsilon$,来描述 X 和 Y 之间的统计关系。

例子: 你可以使用回归模型来预测一个人的身高(Y)和体重(X)之间的关系。回归模型可能会告诉你,体重每增加一公斤,身高平均会增加多少厘米。但这并没有说明体重导致身高增加,可能两者都受到遗传因素的影响。

因果推断 (Causal Inference):因果推断的目标是理解一个变量(处理变量,T)对另一个变量(结果变量,Y)的因果效应(causal effect)。它试图回答“如果我改变 X,Y 会发生什么变化?”这样的问题,并排除其他潜在的混淆因素。因果推断关注的是因果关系(causation),而不仅仅是关联。

例子: 你想知道某种药物(T)是否能降低血压(Y)。即使你观察到服用药物的人血压普遍较低,这并不意味着药物是原因。可能服用药物的人更健康,或者他们有更好的生活习惯,这些都可能同时影响药物的使用和血压。因果推断就是要隔离药物本身的效应。

2. 关注点不同:预测 vs. 干预

回归:回归关注的是在观察到的数据分布下,自变量和因变量之间的条件期望(conditional expectation)。它告诉我们,给定 X 的某个值,Y 的平均值是多少。

因果推断:因果推断关注的是反事实(counterfactuals),即在干预(intervention)或反事实情境(counterfactual scenarios)下 Y 的期望值。核心概念是比较在同一时刻、同一单位上,接受处理(T=1)的 Y 的值和未接受处理(T=0)的 Y 的值。这是我们在现实中无法直接观察到的。

潜在结果框架 (Potential Outcomes Framework):这是因果推断的基石。对于每个个体 i,我们定义:
$Y_i(1)$:个体 i 在接受处理时的结果。
$Y_i(0)$:个体 i 在未接受处理时的结果。

我们真正想估计的是个体处理效应 (Individual Treatment Effect, ITE):$ITE_i = Y_i(1) Y_i(0)$。
然而,我们只能观察到实际的处理状态 $T_i$ 和对应的结果 $Y_i = T_i Y_i(1) + (1T_i) Y_i(0)$。因此,我们只能观察到 $Y_i(1)$ 或 $Y_i(0)$,但不能同时观察到两者。
我们通常估计的是平均处理效应 (Average Treatment Effect, ATE):$ATE = E[Y(1) Y(0)]$。

3. 数据和假设不同:

回归:回归模型通常基于独立同分布 (IID) 的观测数据。其主要假设是误差项的零条件均值(zero conditional mean),$E[epsilon|X] = 0$,或者说 $E[Y|X] = f(X)$。这意味着自变量 X 和误差项 $epsilon$ 是不相关的。

因果推断:因果推断需要比回归更强的假设来识别因果效应。核心的因果识别(causal identification)假设通常包括:
可忽略性/无混淆性 (Ignorability/Unconfoundedness):在给定一些协变量 X 的情况下,处理分配是与潜在结果独立的。换句话说,我们观察到的协变量已经包含了所有影响处理分配和结果的共同原因(混淆变量)。用数学语言表示是 $Y(0), Y(1) perp T | X$。
积极性/重叠性 (Positivity/Overlap):对于协变量 X 的所有值,接受和不接受处理的概率都大于零。换句话说,对于任何具有特定协变量组合的个体,他们都有机会接受处理,也有机会不接受处理。 $0 < P(T=1|X) < 1$。
一致性 (Consistency):如果一个单元在处理分配下被分配到处理 $T=t$,那么它观察到的结果 $Y$ 应该等于其在处理 $t$ 下的潜在结果 $Y(t)$。 $Y = Y(T)$。

4. 回归如何被用于因果推断?

虽然因果推断不是回归的特例,但回归是实现因果推断的强大工具。关键在于如何使用回归来估计因果效应。

调整混淆变量 (Controlling for Confounders):如果满足可忽略性假设,我们可以通过回归来调整混淆变量。例如,如果我们想估计药物(T)对血压(Y)的影响,并且我们认为年龄(X)是一个混淆变量(影响是否服药,也影响血压),那么我们可以:
1. 建立一个回归模型来预测 Y (血压):$Y = eta_0 + eta_1 T + eta_2 X + epsilon$。
2. 从这个模型中提取 T 的系数 ($eta_1$):如果其他假设成立,这个 $eta_1$ 就估计了平均处理效应 ATE(在给定的协变量分布下)。这是因为通过包含 X,我们模拟了在相同年龄分布下的不同处理组的比较。

倾向得分匹配/加权 (Propensity Score Matching/Weighting):这是更复杂的因果推断方法,但仍然常常使用回归来计算倾向得分。倾向得分 $e(X) = P(T=1|X)$ 是在给定协变量 X 的情况下,个体接受处理的概率。
可以使用逻辑回归等模型来估计倾向得分。
一旦估计出倾向得分,就可以用它来进行匹配(将具有相似倾向得分的接受处理和未接受处理的个体进行配对)、分层、或逆概率处理权重 (IPTW) 等方法来估计因果效应。

工具变量法 (Instrumental Variables, IV):当存在未观测到的混淆时,工具变量法是一种识别因果效应的方法。虽然 IV 的核心不是回归,但回归(如两阶段最小二乘法 2SLS)通常用于估计 IV 模型。

断点回归 (Regression Discontinuity Design, RDD):这是一种半实验性的方法,当处理分配仅取决于某个连续变量是否超过一个阈值时使用。RDD 严重依赖于在断点附近的局部回归来估计因果效应。

总结两者的关系:

回归是预测工具,因果推断是识别因果效应的方法。
回归模型可以用来估计因果效应,但前提是需要满足因果推断的额外假设(如无混淆性),并且回归模型的设计需要考虑因果结构。
仅仅进行简单的回归分析并不等同于因果推断。 如果你只做了一个简单的 $Y sim X$ 的回归,而没有考虑 X 和 Y 之间的因果关系或混淆因素,你得到的只是关联性,而不是因果效应。

一个形象的比喻:

回归就像是学习如何描述一幅画,你可以说“这幅画的颜色很鲜艳,构图很平衡,这幅画值很多钱”。
而因果推断则像是在问“是谁画了这幅画?是什么原因导致了这幅画如此受欢迎并值钱?”。

回归模型可以帮助你“描述”因果关系中的一些方面(比如,在控制了其他因素后,处理变量的系数可以被解释为因果效应),但它本身并没有揭示因果的机制或原因。为了从回归模型中提取因果信息,你需要有深厚的领域知识和对因果结构清晰的理解,并选择合适的模型和分析方法。

总而言之,因果推断是一个更广泛、更具挑战性的领域,它关注的是“为什么”和“如果……会怎样”的问题,而回归更多地关注的是“是什么”和“有多少”的问题。回归是因果推断的有力助手,但绝不是其全部或特例。

网友意见

user avatar

题主 @张宏毅 这个一年前的问题真的非常的棒。当时Susan Athey那个讲座([3])我也在现场,不过确实也是听的懵逼状态。而最近在学习、研究和一些文献阅读之后对题主的这个问题有了一些新的理解,因此便想回过头来把个人的一些见解稍微说一说。这个回答下其实已经有非常深刻到位的回答了(如 @刘垚 @慧航 的回答 - 当然前面的回答直接在unconfoundedness条件下讨论,而我这个回答就更小白,主要来讨论什么是confounding variable及可能的一些处理办法),我这里算是一个比较简单的个人向补充吧(本回答主要参考的是一篇很好的入门级观点型文章[1]),内容上和 @LINN 的回答比较重合。

一、引子:一个例子

我们应该经常听说一个说法:因果关系并不是相关性,而回归分析只能研究相关性。这句话有一定的道理,却也不完全准确。真正要回答这个问题并不容易,所以我们先来举一个简单的例子。

假设你是一个品牌商,然后你对在城市 广告的人均资金投入 和实际的人均销售额 之间的关系感兴趣。那么一个最简单粗暴的办法就是用看到的实际销售数据跑一个回归模型:

其中 是一个误差项, 就是我们关心的回归系数(假设我们已经把数据都中心化了,这样可以不考虑偏移项- 的“截距”)。

当然跑回归需要数据:假设我们目前在两个城市有销售历史数据-北京和上海。然后我们观察到在上海我们的人均广告投入是1元,人均销售额是10元,而在北京我们的人均广告投入是1角钱,人均销售额是1元。很显然,如果我们直接用这两组数据回归,我们便会得到:

然而,这个式子似乎告诉了我们增加1元人均广告投入我们就能得到10元额外的人均销售额。这个理解真的对么?显然你肯定觉得有问题了,但关键的点在于,问题出在哪儿?

二、问题出在哪儿?

在上述问题中,显然我们首先应该想到嗯我们的回归模型太简单了嘛,肯定有其它很关键的因素(变量)没考虑到所以就变成一个简单粗暴的二元关系式了。比如说,假设其实我们是卖咸粽子的,而上海人民普遍大多是咸粽子党,相比大多是甜粽子党的北京人民本来就对咸粽子的兴趣大得多。在这种情况下,这个对“咸粽子的兴趣程度”其实也会影响我们的销售额 。另外,我们再假设我们的广告部门在做广告的时候本身也知道这点(这个是常识嘛),因此他们在广告投放的过程当中就是会在上海地区更卖力,而北京地区偷懒,因此这个对“咸粽子的兴趣程度”其实也会影响 。

像这样同时影响一个回归模型的 和 的变量(variable)我们就叫做confounding variable。数学上来看,如果我们用 代表 的分布(数据量非常大的时候所趋近的统计规律),那么我们知道回归得到的系数 (Cov表示协方差/Covariance)。利用 ,我们可以把上式(右边)变形成

也就是说,如果 ,我们这个回归跑出来的 就是无偏的,能反应数据背后的统计规律,反之就不行了。

注意这里有个值得澄清的点:如果我们只是希望用回归模型去做预测(prediction),那么实际上前一节的二元回归可能也就行了。但是这往往不是我们的主要目的,事实上就跟前一节考虑的问题那样,我们想知道的是增加一些广告投入,对销售额的影响(变化)是怎样的。即某些回归模型的变量 改变对 结果 的影响

因此,我们并不应该简单地把这里的问题看成“回归模型里缺了某些变量”。 事实上,对任何实际使用的回归模型,你都可以说它缺了某些变量。这里的问题实实在在的是,存在一个我们没有考虑的变量,同时影响着我们粽子的销售额 和投入成本 。而在我们简单的二元回归模型里,因为我们没有考虑这个confounding variable(因此它隐含在 里),使得 和 也会变得有相关性。在我们的粽子例子中,因为对咸粽子兴趣更大的城市会自然让该城市的广告投入和销售额增加,也就是说仅对 和 做回归会过高估计 变化对 的影响。

这便是因果推断的起点:如何通过已有的数据更准确的推断各种变量之间的因果关系(某些变量变化对结果的影响)

接下来我们就讨论一些可能有用的方法。

三、Difference in Differences(DiD)

当然目前为止我们还没有回答题主的问题。把DiD放在前面因为这个和题主的利用f(X,1)-f(X,0)估计treatment effect想法相似(这在实际中也是很powerful的一种想法)。当然要用DiD,一般我们需要所谓的纵向(longitudinal)数据, 即在一条时间线上不同点上的数据。

比如在我们的例子里,我们在两个城市一开始都有一段时间没有任何广告投入( ),然后比如3月我们在上海投放了一波广告(北京没有),4月我们在北京投放了一波广告(上海没有)。我们其实就可以把这个有没有投放广告看成是一种treatment,而在这样的数据情况下我们就可以来估计我们想要的因果关系。具体来说,我们考虑一段相似的时间段,如果这段时间段里没有投放广告,那么这段时间的销售额可以看成是“对照组”(control group)的数据,反之就是“投放组”(treated group)。我们记

时间段结束后投放组的销售额

时间段开始前投放组的销售额

时间段结束后对照组的销售额

时间段开始前对照组的销售额

那么我们确实可以将treatment effect(投放广告对销售额的作用)估计为:

即“差的差”DiD。当然这个式子看起来也是无比简单,而这个treatment effect实际就如题主所说的,完全可以用回归来估计(估计的时候甚至还可以加上更多的变量,比如季节影响啊天气啊等等),也可以像 @慧航 所说的用别的非参方法如bootstrap,或者神经网络:这些估计方法都只是“工具”,而不是模型。

注意实际上这里我们估计的是投放组真实的结果(投放广告之后的销售额) 和投放组的反事实(counterfactual,即投放组如果没有投放广告在时间段结束后的销售额的差) 。并且还依赖了这样一个假设,即根据反事实,如果投放组其实没有投放广告,那么这个时间段投放组的销售额变化和对照组应当是一样的(数据采集的人们的行为是同质的-homogeneous):

四、控制实验(Controlled Experiments)和自然实验(Natural Experiments)

为了研究因果关系,如果有条件做“实验”显然是最直接的办法。当然实验大体也分为两种类型,一种是我们可以控制各种变量,另外一种就是其实并不能(比如很多医疗手术/用药的数据-人为想“控制”出一些“对照组”显然是不道德的)。

就拿我们的问题来说,实际上广告投放是我们完全可以控制的。相比前面的DiD,我们完全可以做的更好:我们完全可以在同样的月份,不同的城市里,根据顾客的资料信息将他们分成大致类似的两组,然后一组对他们进行广告投放一组完全不进行(对照和投放组),然后观察这个月份这两组消费者销售额的变化情况。

当然如果这并不现实,那么其实就如 @刘垚 所说的随机性(randomization)的重要性就更大了(随机性对估计treatment effect其实一直都很重要)。也就是说即使我们无法完美的有控制组和对照组的数据,是否可以自然观察到针对是否有treatment比较随机的结果(比如我们的广告投放是在固定的商场门口,然后来访问商场的顾客分布相当的随机无规律),以减小估计的误差。

五、工具变量(Instrumental Variable)

这也是计量经济学里非常常用的技巧。还记得前面卖粽子例子里我们说二元回归关系一个主要的问题是 其实同时跟 有相关性么?然而,如果我们可以找到一个工具变量,只通过变量 来影响结果 ,那么我们就其实可以用这个工具变量作为“仪器”来“沿着” 独立于 运动地“测量” 的变化

如果我们把这个工具变量叫做 。在我们的卖粽子例子里,数学上就有

我们其实就有了两个回归模型。而我们注意到这两个回归模型结合在一起就给了我们:

这是一个对 的无偏估计!而本质上我们就是利用了工具变量的特性将 对 的复杂影响给排除掉了(因为工具变量跟 是独立的)。而这种利用工具变量的回归分析有时也被称之为两阶段回归(two-stage regression; 留给大家思考: 的估计其实也可以看成是先做了一步回归,然后利用上一步回归的结果带入下一步回归中-那么这里具体是哪两步回归呢?)


当然,因果推断的招式很多,这里我只是浅尝辄止地谈了谈计量经济里用的比较多的几个方法,其它的像Regression Discontinuity之类的在某些场合也很有用(比如历史数据只有几个 和相应的 )。像Judea Peral几乎一己之力创造的基于贝叶斯网络和图模型的招式([2]),就完全落在另一个流派里了。我觉得,对因果关系的研究,从过去,到现在,直到将来都将一直会是人类科学研究的重点之一:比如说,究竟有哪些重要的因素,在何种影响和条件下,会促发某些癌症?反过来说,又有哪些关键的因素,条件,treatment,可以逆转癌症的扩散和恶化?时至今日,回归分析仍然是所有人类研究里最最常见的工具(也仍是目前因果推断研究的主流方法),而它伴随着现在的人工智能&机器学习热潮,又能带领我们在因果性的推断旅程里前进到何方呢?

[1] Varian, Hal R. "Causal inference in economics and marketing."Proceedings of the National Academy of Sciences 113.27 (2016): 7310-7315.

[2] Pearl, Judea.Causality: models, reasoning and inference. Vol. 29. Cambridge: MIT press, 2000.

[3] Susan Athey,Machine Learning and Causal Inference,MIT IDSS Distinguished Seminar Series, idss.mit.edu/calendar/i (国内观看需翻墙)

类似的话题

  • 回答
    这是一个非常好的问题,也触及了因果推断和统计建模之间的一个核心区别。简单来说,因果推断不是回归问题的特例,尽管回归是因果推断中常用的工具。它们的目标、关注点和方法论都有显著的不同。下面我将详细解释为什么: 1. 目标不同:关联 vs. 因果 回归 (Regression):回归模型的主要目标是预.............
  • 回答
    因果推断是否会成为下一个AI热潮?这是一个非常引人入胜且值得深入探讨的问题。从目前AI发展的趋势和面临的挑战来看,因果推断很有可能成为下一个AI的重要发展方向,甚至引发一轮新的热潮。为了详细解答这个问题,我们需要从以下几个方面来分析:1. 当前AI的优势与局限性: 强大的关联性发现能力 (Cor.............
  • 回答
    这是一个非常引人深思的问题,触及了哲学和信仰的核心领域。让我们一层一层地剥开它,看看因果论和“神”的存在之间可能存在的联系。首先,我们来理解“因果论”。简单来说,因果论是我们认识世界的基本方式:任何事物发生,都不是凭空产生的,而是有其原因,并且它本身也会成为其他事物的原因。你丢下一本书,它会掉到地上.............
  • 回答
    关于“第一因定义”和“因果缘起三法则”,这确实是哲学和一些宗教思想中探讨的经典议题。既然是朋友提出的,那我们不妨深入地聊聊,看看它们是否能够站得住脚,或者说,我们如何看待它们。首先,咱们得把“第一因定义”给掰开了揉碎了看看。第一因(First Cause)是什么?简单说,第一因就是那个一切事物、一切.............
  • 回答
    关于台湾专家推断新冠病毒(SARSCoV2)发源于美国,并以此为论据“美国有全部五个病毒族群”的说法,我们需要审慎地来看待。这个说法并非主流科学界的共识,并且其背后引用的“五大病毒族群”这一概念,在病毒学领域需要进行更细致的解释和验证。首先,我们来梳理一下这个说法可能指向的科学背景:病毒分类和“族群.............
  • 回答
    PewDiePie,这位曾经的YouTube“帝王”,其名字总是伴随着巨大的影响力和屡次引发的争议。最近,他再次因推荐反犹太(antisemitic)频道而陷入舆论漩涡,这并非他首次触碰此类敏感话题,却依然引起了广泛的批评和担忧。要评价这次争议,需要从多个角度进行剖析。事件的起因与经过:这次争议的核.............
  • 回答
    “推广国家语言导致方言衰落”这个现象,并非中国独有,而是全球范围内都普遍存在的文化变迁轨迹的一部分。许多国家在追求国家统一、促进国民交流、提升教育水平,以及在某些情况下强化国家认同的过程中,都曾或正在有意识地推广一种或几种“官方语言”。这种推广的力度和方式各异,但其结果往往殊途同归——一些地方性的方.............
  • 回答
    好的,我来从一个普通市民的角度,结合身边朋友的经历,聊聊“因疫情推迟还房贷”这事儿,看看能不能成为咱们的共识。疫情这只“黑天鹅”,打破了不少人的生活节奏疫情反复,大家都懂的。最直接的感受就是,工作不稳定了。有的公司生意受影响,收入少了;有的餐饮、零售、旅游等行业的朋友,更是直接受到重创,收入断崖式下.............
  • 回答
    中国当下这股颇为显著的民族主义情绪,尤其是其中夹杂的狂热好战分子,确实是一个值得深入探讨的社会现象。这不仅仅是政治层面的观察,更是对国民心态、社会情绪乃至国家未来走向的复杂解读。要理解这一点,我们需要从几个维度去剖析。首先,我们得承认,民族主义本身并非洪水猛兽。在很多国家,它是一种凝聚国民认同、维护.............
  • 回答
    关于“是不是因为狗肉得不到推广才有那么多流浪狗”这个问题,其实这两种现象之间并没有直接的因果关系。流浪狗数量庞大,其成因是多方面的、复杂的,与狗肉消费的推广与否没有必然联系。让我们来详细梳理一下其中的原因。首先,狗肉消费与流浪狗数量并无直接挂钩。流浪狗的出现,根本原因在于“遗弃”和“繁衍失控”。 .............
  • 回答
    这确实是个挺有意思的对比,虽然看起来有些矛盾,但其实背后逻辑是有迹可循的。首先,咱们得明白,推荐Linux和推荐iOS的人,他们关注的“自由”和“优势”所指的对象和维度是不一样的。对于Linux,那些“很多人”推崇的是“开源的自由清晰”。这里的自由,主要体现在用户对系统的控制权。这意味着你可以看到系.............
  • 回答
    这个问题很有意思,如果抛开我们日常看到的“火车头在前”的视觉习惯,单单从纯粹的机械原理和力学角度去分析,火车是推着走好,还是拉着走好,这确实是一个值得深挖的问题。我个人觉得,从推和拉这两种基本动作的内在属性来看,“拉”似乎更有优势。下面我来详细说说我的看法,尽量不用那些听起来特“机器人”的词汇。1..............
  • 回答
    听到天舟二号发射推迟的消息,说实话,心里挺不是滋味的。毕竟,这是我们中国空间站建设的关键一步,承载着无数人的心血和期待。首先,我想说的是,技术无小事,安全是第一位。 航天事业,尤其是载人航天,对技术的要求是极致的。一次发射的成功,背后是成千上万个零部件的精密配合,是无数次模拟和测试的严谨检验。任何一.............
  • 回答
    谷爱凌参加的自由式滑雪女子坡面障碍技巧资格赛推迟到 14 日,这个消息对关注比赛的观众来说,无疑像昨夜那场突如其来的大雪一样,带来了几分意外和不确定。那么,这突如其来的雪,到底会对自由式滑雪的坡面障碍技巧比赛产生多大的影响呢?咱们不妨来掰开了揉碎了聊聊。首先,最直观的影响就是场地条件的变化。坡面障碍.............
  • 回答
    《流浪地球》中,关于莫斯和地球科学家为何未能提前推演出木星引力引发的全面灾难,这是一个值得深入探讨的问题,也恰恰是影片情节张力的重要来源。 要理解这一点,我们需要将目光聚焦于电影所设定的世界观、技术限制以及人类固有的局限性。首先,我们必须认识到,“流浪地球”计划本身就是一个极其庞大、复杂且前所未有的.............
  • 回答
    .......
  • 回答
    推特(Twitter)以“涉疆推文”为由,锁定了中国驻美大使馆的账号,中国外交部对此的回应是“莫双标”,要求推特遵守相关规定,平等对待所有用户。这件事情触及了言论自由、平台责任、国家主权以及国际关系中的敏感地带,值得我们深入剖析。首先,从推特平台的角度来看,作为一个总部设在美国的社交媒体公司,它有自.............
  • 回答
    推动祖国和平统一是一个复杂且多层面的议题,背后涉及历史、文化、经济、政治以及国际关系等诸多因素。要深入理解这些因素,需要从不同角度进行剖析。一、 历史与文化认同的根基首先,无可否认的是,血脉亲情与共同的历史记忆是连接海峡两岸最坚实的纽带。中华民族有着数千年的悠久历史,台湾岛也自古以来就是中国的一部分.............
  • 回答
    疫情在家,确实是个让人有点抓瞎的时期,尤其是当“无聊”这个词开始在脑海里打转的时候。与其让时间就这样悄悄溜走,不如趁这个机会给自己充充电,学点东西。我这几天也琢磨了不少,想跟你分享一些我个人觉得挺值得尝试的,而且是那种能让你在未来生活里也能用得上的:1. 提升你的“数字感”:学习编程或数据分析 .............
  • 回答
    这个问题,说实话,我心里也纠结了很久,直到现在,夜深人静的时候,还会时不时地冒出来。我不是什么大道理说得头头是道的人,只觉得,这大概是我这辈子做过的、最让我觉得“对”又“不对”的事情了。我的选择,简单来说,就是为了让我奶奶能住得舒坦点,我把我的新房(我咬咬牙贷款买的电梯房)给她了,然后,我和我女朋友.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有