百科问答小站 logo
百科问答小站 font logo



有没有大神可以系统的讲一下内生性问题和工具变量? 第1页

  

user avatar   divinites 网友的相关建议: 
      

工具变量因为太好用了,所以经常被简单化成一个神奇的黑箱子——有了内生性,然后拿满足条件的工具变量过滤一下,就得到了「真实」的参数。

其实工具变量能够解决内生性的原理是很直接的,今天我就用「朴素」的话来开这个黑箱子

所谓内生性,直观的理解就是:你想研究的那个变量不纯粹。

书本上的定义就是解释变量和残差项之间存在关联。这个听起来很不直观,凭什么存在关联就内生了。换了个角度来想,对于最简单的回归方程: 而言,我们的目的就是想要一个「干净而纯粹」的参数 ,这就是我们回归的意义。但是如果在残差项——也就是我们所不能控制的项 里面有一个变量,能够默默的影响 的话,那直观上我们会觉得 就不准了。

因为在残差里面有一个我们无法控制的手在默默操纵着我们感兴趣的变量 ,这就是「内生」,体系内部自己生成了我们感兴趣的变量的一部分,它不再是一个纯粹的外来的扰动。

至于度量误差、互为因果、遗漏变量这些,都是内生性的具体表现形式。内生性是很容易有「感觉」的,比如我们想研究打游戏和学习成绩之间的关系,用一个回归:

这么一个回归感觉上似乎就有点怪怪的。其内生性在于,打游戏挤占了学习时间,可能影响考试成绩不假;但是给定我的预期考试成绩——比如我已经很牛了,再复习就那么回事,那为什么不娱乐一下自己呢?

前者的逻辑会导致打游戏时间越多,考试成绩下降;后者的逻辑会导致考试成绩越高,打游戏时间越高。一个正相关,一个负相关,这么一加总,总效应可能是正,可能是负,可能抵消了。

但是其实我们想研究的,是其他条件不变,打游戏时间增加一点,对考试成绩的影响

然后我们就想找一个工具变量,根据定义,工具变量应该影响打游戏时间,但是和其他控制变量无关——也就是这个变量只通过影响打游戏时间来影响考试成绩。

显然爸妈的管束强度不满足,因为爸妈的管束强度有逻辑可以直接影响考试成绩。

老师布置的作业多少也不满足,因为作业多少也有逻辑可以直接影响考试成绩。

然后我们可以把目光投向一个经常使用的工具变量:天气。

天气好的时候,户外运动的机会多一些,那么其他条件不变,打游戏的时间就减少了;而天气不好,一个月都阴雨连绵,那么可能打游戏的时间就多了。

天气也没有反向因果,总不能说我的考试成绩会影响天气吧?

所以我们能从逻辑上看到一个月之内的天气好坏,和当月打游戏时间的一个单向的关系。

然后天气的变化,显然和一个人对知识的掌握程度没什么关系,如果你觉得有关系,可以接着往下看。并且天气显然是无法操纵的自然现象,符合外生性。所以这个回归的参数,应该是『纯粹』的:

上面这个回归拥有一切理想的性质:自变量外生且不为人所控制,是一个真正的「外生变量」。但是唯一的一个小小的缺憾是:这不是我们感兴趣的问题,我们不想研究天气对考试成绩的影响,我们想知道打游戏对考试成绩的影响

这就是工具变量的作用了:用一个外生但是我们不感兴趣的变量,来模拟出来我们感兴趣的变量

工具变量常用的两步OLS是这样的,首先我们用打游戏时间当因变量,天气当自变量回归一次:

得到参数 ,然后把天气的数据代入进去得到一个人造的打游戏时间数据:

注意这里面这个打游戏时间,其实本质上是用天气模拟出来的,也就是这个人造的变量,它所有的变化,都来自于天气。

然后我们回归:

这个时候得到的 ,教科书上认为是「纯粹」的。

其实想一想,上面这个式子,和直接回归 这个有区别么?让 , ,两个式子完全一样。本来就没有任何区别,因为人工做出来的打游戏时间,本质上只是天气的套壳。

那我们回归了一个寂寞啊?

我们确实回归了一个寂寞——直接回归得到一个 ,但是这个 我们不感兴趣;折腾了两个阶段,我们的目的是把 封装进那个人工做出来的游戏时间的变量,从而分离出了 这个我们感兴趣的参数,仅此而已。换句话说,这一切的目的就是「用干净的工具变量打造一个壳」。

毫无疑问,天气和打游戏之间存在一个正相关的关系,那么也就是我们可以用天气来拟合打游戏时间,就像一块蘑菇,有一部分坏掉了,有一部分是好的,我们现在要做的,就是把坏的部分切掉,让好的部分慢慢的长成原来的蘑菇。

在 这个式子里面,坏的、不可控的部分,都在那个 里面,而天气是完全外生的。所以我们就用外生的工具变量,来拟合出来一个理想中的「打游戏时间」变量。因为天气是外生的,所以这个拟合出来的打游戏时间也是外生的。

所以两步OLS的第一步回归其实是一个拟合、预测的过程。理论上来说,不用OLS,用其他的复杂的机器学习的方法也是一样的,只是后来处理第二阶段的标准误可能会有点麻烦——因为无论是用线性的OLS,还是非线性的机器学习,反正完全由外生变量加参数预测出来的值,那也一定是外生的。有这个就够了。

在这里,我们就是用『天气』这个变量,来打造「打游戏时间」这个壳,因为我们感兴趣的始终是「游戏时间」和「成绩」之间的关系,也就是只有这个关系中的参数,对我们的研究才有意义。

打造出来这个壳之后,把这个壳放到原来的回归方程里面,逻辑就很通顺了,这个时候这个壳虽然名字还是打游戏时间,但是内在已经被『天气』这个外生变量所充满,所以它必然是外生的,一个OLS直接得出真实的参数,结束。


排他性

但是,尽管这个壳的名字是「打游戏时间」,其本质仍然只是「天气」而已。所以天气的局限性,就是这个工具变量的局限性。考虑到心理学的机制,天气阴雨连绵可能影响心情,然后影响学习效率,然后影响学习成绩。

那么当我们回归: 的时候,这个参数真的是准的么?

其实可能是偏大了。因为游戏时间这个壳下面,隐藏的是天气,而天气不仅仅通过影响游戏时间而影响考试成绩,还会通过上面说的心理学机制,也来影响考试成绩。

我们本意是想研究游戏时间和考试成绩的关系,结果现在叠加上了天气的心理学机制,那自然就不准了。这里的工具变量的问题,就来自于违反了渠道的排他性——工具变量应该只通过影响自变量而影响因变量,现实中因为数据不是实验的来的,这一点往往做不到。

所以,工具变量并不是满足了统计学上的排他,就真的一定是无偏的——因为统计学上不显著可能有很多的原因,有可能是通过某些巧妙的方式凑出来的无关,但是内在的逻辑依然是有关的。当使用工具变量的时候,我们还是要关注这个回归的本质到底是什么。在上面这个例子,本质上就是天气对考试成绩的回归。

弱工具变量

在这里我们也能看出来工具变量的实质。因为它自己是纯净外生的,所以可以根据参数放大或者缩小,拟合成我们感兴趣的自变量,然后参与回归,获得『真』参数的工具。命名为「工具变量」可谓实至名归。

然后就很好理解弱工具变量的问题所在了。弱工具变量就是工具变量本身和我们感兴趣的自变量联系非常弱——联系非常弱,意味着当用来打造自变量壳的时候,潜在的置信区间会非常大,也就是这个壳的稳定性堪忧——解释度很强,显著性很高的强工具变量,就好比看一本武林秘籍,如果缺了一页纸,没准你能从其他的页里面精确的推断出缺页写的是什么,然后把武功练全;而弱工具变量就好比只拿到一页纸,然后要从这一页纸的信息里面,直接复原出整本武功秘籍,一般这么做的人都走火入魔了。




  

相关话题

  博弈为什么不能无限重复下去? 
  如何看待史上最大庞氏骗局主犯麦道夫狱中去世,曾诈骗 3.7 万人 650 亿美元获刑 150 年? 
  日本在印度经济发展中的参与度如何?具体体现在哪些方面?及未来发展? 
  经济效率指的是,在不损害其他人的经济福利的前提下,已无法再增进某个人的经济福利。这个概念应该如何理解? 
  我这种情况还有必要买车吗? 
  假如现在房子价值持续降低,该如何利用这个大赚一笔? 
  在设计计量经济学模型时,怎么判断是否应该对变量取对数? 
  中国 GDP 被高估还是低估了? 
  从财务角度考虑,健身房、美容院年卡要不要办? 
  为什么大家都把美联储加息说成“靴子落地”? 

前一个讨论
三十岁一事无成是种怎样的体验?
下一个讨论
哪些动漫里有关于新年等节日的情节?





© 2024-05-02 - tinynew.org. All Rights Reserved.
© 2024-05-02 - tinynew.org. 保留所有权利