百科问答小站 logo
百科问答小站 font logo



因果推断(causal inference)是回归(regression)问题的一种特例吗? 第1页

  

user avatar   qinhanzhang 网友的相关建议: 
      

题主 @张宏毅 这个一年前的问题真的非常的棒。当时Susan Athey那个讲座([3])我也在现场,不过确实也是听的懵逼状态。而最近在学习、研究和一些文献阅读之后对题主的这个问题有了一些新的理解,因此便想回过头来把个人的一些见解稍微说一说。这个回答下其实已经有非常深刻到位的回答了(如 @刘垚 @慧航 的回答 - 当然前面的回答直接在unconfoundedness条件下讨论,而我这个回答就更小白,主要来讨论什么是confounding variable及可能的一些处理办法),我这里算是一个比较简单的个人向补充吧(本回答主要参考的是一篇很好的入门级观点型文章[1]),内容上和 @LINN 的回答比较重合。

一、引子:一个例子

我们应该经常听说一个说法:因果关系并不是相关性,而回归分析只能研究相关性。这句话有一定的道理,却也不完全准确。真正要回答这个问题并不容易,所以我们先来举一个简单的例子。

假设你是一个品牌商,然后你对在城市 广告的人均资金投入 和实际的人均销售额 之间的关系感兴趣。那么一个最简单粗暴的办法就是用看到的实际销售数据跑一个回归模型:

其中 是一个误差项, 就是我们关心的回归系数(假设我们已经把数据都中心化了,这样可以不考虑偏移项- 的“截距”)。

当然跑回归需要数据:假设我们目前在两个城市有销售历史数据-北京和上海。然后我们观察到在上海我们的人均广告投入是1元,人均销售额是10元,而在北京我们的人均广告投入是1角钱,人均销售额是1元。很显然,如果我们直接用这两组数据回归,我们便会得到:

然而,这个式子似乎告诉了我们增加1元人均广告投入我们就能得到10元额外的人均销售额。这个理解真的对么?显然你肯定觉得有问题了,但关键的点在于,问题出在哪儿?

二、问题出在哪儿?

在上述问题中,显然我们首先应该想到嗯我们的回归模型太简单了嘛,肯定有其它很关键的因素(变量)没考虑到所以就变成一个简单粗暴的二元关系式了。比如说,假设其实我们是卖咸粽子的,而上海人民普遍大多是咸粽子党,相比大多是甜粽子党的北京人民本来就对咸粽子的兴趣大得多。在这种情况下,这个对“咸粽子的兴趣程度”其实也会影响我们的销售额 。另外,我们再假设我们的广告部门在做广告的时候本身也知道这点(这个是常识嘛),因此他们在广告投放的过程当中就是会在上海地区更卖力,而北京地区偷懒,因此这个对“咸粽子的兴趣程度”其实也会影响 。

像这样同时影响一个回归模型的 和 的变量(variable)我们就叫做confounding variable。数学上来看,如果我们用 代表 的分布(数据量非常大的时候所趋近的统计规律),那么我们知道回归得到的系数 (Cov表示协方差/Covariance)。利用 ,我们可以把上式(右边)变形成

也就是说,如果 ,我们这个回归跑出来的 就是无偏的,能反应数据背后的统计规律,反之就不行了。

注意这里有个值得澄清的点:如果我们只是希望用回归模型去做预测(prediction),那么实际上前一节的二元回归可能也就行了。但是这往往不是我们的主要目的,事实上就跟前一节考虑的问题那样,我们想知道的是增加一些广告投入,对销售额的影响(变化)是怎样的。即某些回归模型的变量 改变对 结果 的影响

因此,我们并不应该简单地把这里的问题看成“回归模型里缺了某些变量”。 事实上,对任何实际使用的回归模型,你都可以说它缺了某些变量。这里的问题实实在在的是,存在一个我们没有考虑的变量,同时影响着我们粽子的销售额 和投入成本 。而在我们简单的二元回归模型里,因为我们没有考虑这个confounding variable(因此它隐含在 里),使得 和 也会变得有相关性。在我们的粽子例子中,因为对咸粽子兴趣更大的城市会自然让该城市的广告投入和销售额增加,也就是说仅对 和 做回归会过高估计 变化对 的影响。

这便是因果推断的起点:如何通过已有的数据更准确的推断各种变量之间的因果关系(某些变量变化对结果的影响)

接下来我们就讨论一些可能有用的方法。

三、Difference in Differences(DiD)

当然目前为止我们还没有回答题主的问题。把DiD放在前面因为这个和题主的利用f(X,1)-f(X,0)估计treatment effect想法相似(这在实际中也是很powerful的一种想法)。当然要用DiD,一般我们需要所谓的纵向(longitudinal)数据, 即在一条时间线上不同点上的数据。

比如在我们的例子里,我们在两个城市一开始都有一段时间没有任何广告投入( ),然后比如3月我们在上海投放了一波广告(北京没有),4月我们在北京投放了一波广告(上海没有)。我们其实就可以把这个有没有投放广告看成是一种treatment,而在这样的数据情况下我们就可以来估计我们想要的因果关系。具体来说,我们考虑一段相似的时间段,如果这段时间段里没有投放广告,那么这段时间的销售额可以看成是“对照组”(control group)的数据,反之就是“投放组”(treated group)。我们记

时间段结束后投放组的销售额

时间段开始前投放组的销售额

时间段结束后对照组的销售额

时间段开始前对照组的销售额

那么我们确实可以将treatment effect(投放广告对销售额的作用)估计为:

即“差的差”DiD。当然这个式子看起来也是无比简单,而这个treatment effect实际就如题主所说的,完全可以用回归来估计(估计的时候甚至还可以加上更多的变量,比如季节影响啊天气啊等等),也可以像 @慧航 所说的用别的非参方法如bootstrap,或者神经网络:这些估计方法都只是“工具”,而不是模型。

注意实际上这里我们估计的是投放组真实的结果(投放广告之后的销售额) 和投放组的反事实(counterfactual,即投放组如果没有投放广告在时间段结束后的销售额的差) 。并且还依赖了这样一个假设,即根据反事实,如果投放组其实没有投放广告,那么这个时间段投放组的销售额变化和对照组应当是一样的(数据采集的人们的行为是同质的-homogeneous):

四、控制实验(Controlled Experiments)和自然实验(Natural Experiments)

为了研究因果关系,如果有条件做“实验”显然是最直接的办法。当然实验大体也分为两种类型,一种是我们可以控制各种变量,另外一种就是其实并不能(比如很多医疗手术/用药的数据-人为想“控制”出一些“对照组”显然是不道德的)。

就拿我们的问题来说,实际上广告投放是我们完全可以控制的。相比前面的DiD,我们完全可以做的更好:我们完全可以在同样的月份,不同的城市里,根据顾客的资料信息将他们分成大致类似的两组,然后一组对他们进行广告投放一组完全不进行(对照和投放组),然后观察这个月份这两组消费者销售额的变化情况。

当然如果这并不现实,那么其实就如 @刘垚 所说的随机性(randomization)的重要性就更大了(随机性对估计treatment effect其实一直都很重要)。也就是说即使我们无法完美的有控制组和对照组的数据,是否可以自然观察到针对是否有treatment比较随机的结果(比如我们的广告投放是在固定的商场门口,然后来访问商场的顾客分布相当的随机无规律),以减小估计的误差。

五、工具变量(Instrumental Variable)

这也是计量经济学里非常常用的技巧。还记得前面卖粽子例子里我们说二元回归关系一个主要的问题是 其实同时跟 有相关性么?然而,如果我们可以找到一个工具变量,只通过变量 来影响结果 ,那么我们就其实可以用这个工具变量作为“仪器”来“沿着” 独立于 运动地“测量” 的变化

如果我们把这个工具变量叫做 。在我们的卖粽子例子里,数学上就有

我们其实就有了两个回归模型。而我们注意到这两个回归模型结合在一起就给了我们:

这是一个对 的无偏估计!而本质上我们就是利用了工具变量的特性将 对 的复杂影响给排除掉了(因为工具变量跟 是独立的)。而这种利用工具变量的回归分析有时也被称之为两阶段回归(two-stage regression; 留给大家思考: 的估计其实也可以看成是先做了一步回归,然后利用上一步回归的结果带入下一步回归中-那么这里具体是哪两步回归呢?)


当然,因果推断的招式很多,这里我只是浅尝辄止地谈了谈计量经济里用的比较多的几个方法,其它的像Regression Discontinuity之类的在某些场合也很有用(比如历史数据只有几个 和相应的 )。像Judea Peral几乎一己之力创造的基于贝叶斯网络和图模型的招式([2]),就完全落在另一个流派里了。我觉得,对因果关系的研究,从过去,到现在,直到将来都将一直会是人类科学研究的重点之一:比如说,究竟有哪些重要的因素,在何种影响和条件下,会促发某些癌症?反过来说,又有哪些关键的因素,条件,treatment,可以逆转癌症的扩散和恶化?时至今日,回归分析仍然是所有人类研究里最最常见的工具(也仍是目前因果推断研究的主流方法),而它伴随着现在的人工智能&机器学习热潮,又能带领我们在因果性的推断旅程里前进到何方呢?

[1] Varian, Hal R. "Causal inference in economics and marketing."Proceedings of the National Academy of Sciences 113.27 (2016): 7310-7315.

[2] Pearl, Judea.Causality: models, reasoning and inference. Vol. 29. Cambridge: MIT press, 2000.

[3] Susan Athey,Machine Learning and Causal Inference,MIT IDSS Distinguished Seminar Series, idss.mit.edu/calendar/i (国内观看需翻墙)




  

相关话题

  怎么在不减少变量下消除多重共线性? 
  如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper? 
  自动化专业就业方向是什么,会变成程序猿吗? 
  假设,十年后人工智能足以取代教师医生律师,体力劳动,中低级脑力劳动,这个世界该如何应对? 
  如何看待 24 岁北航博士侯涛刚毕业后受聘北京交通大学副教授? 
  AI 算法在芯片设计方法学和 EDA 工具中有哪些应用和潜力? 
  为什么在SGD中使用L1正则化很难获得稀疏性? 
  如果人工智能迎来下一个寒冬,你认为会是卡在什么问题上? 
  回归与相关有什么区别? 
  算法工程师的落地能力具体指的是什么? 

前一个讨论
attention跟一维卷积的区别是啥?
下一个讨论
我们目前的时代距离人工智能具有自我意识还有多远?





© 2024-12-25 - tinynew.org. All Rights Reserved.
© 2024-12-25 - tinynew.org. 保留所有权利