@童话李 说的很有意思,答案中列举的三点其实内在是统一的。
无论是拟自然试验,还是工具变量,还是断点回归,其实都是在利用『非策略化』的因素来消除数据的内生性问题。
举个例子,就说投资和GDP之间的关系,投资是自变量,GDP是因变量,这个就很有内生性,因为经济发展会吸引投资,投资会促进经济发展。那么引入什么外生冲击呢?美国国会就是一个角斗场,很多议员为了选票,都在拼命的给自己的选区要资源。因为议员之间的斗争是很随机的,那么资源的分配就可以看作是一个外生的,不可预测的冲击,所以是『非策略化』的,那么这个时候通过国会斗争来的这笔钱就是一笔『纯净』的,不是因为经济发展而被吸引过来的的投资,而经济发展被吸引来的投资并没有发生变化,前后一差分,我们得到的关系就是这笔『纯净』的投资和当地发展之间的关系。
工具变量法的例子,比如要研究殖民地的制度建设和经济发展之间的关系,好的制度可能会导致经济发展,而经济发展也反过来能养得起好的制度,直接回归肯定不对。怎么办呢,用殖民地的死亡率来做工具变量。在非常恶劣的地区,殖民者因为不想待久,所以自然就不会想着去建立好的制度,而殖民地的死亡率和当地经济发展没有关系,于是殖民地的死亡率就可以作为制度的工具变量去消除内生性问题。
为什么这么说呢?比如说考大学,如果你直接拿一本和二本的毕业后收入进行比较,发现明显差异,人们会不服,因为可能一本的学生能力和二本是有差异的。怎么办呢?
断点回归,就利用了没有人能精确控制自己的分数刚刚好上一本线这个特点,所以一本线上下20分左右的学生,我们基本上可以认为其能力是非常近似的,那么这个时候一本线就是一个断点,断点周围正负20分的考生,都可以看作是随机的被分配给一本或者二本,那么我们就可以排除掉能力的影响,看同样能力的人分配到一本和二本四年后的收入差异。
断点回归和工具变量之间是突变和渐变之间的关系。断点回归依赖于一个明确的断点,比如一本线,一本线上和下哪怕是0.5分,都是截然不同的两个学校;而工具变量所表达的关系,则可以是一个趋势,比如说下雨和在家看电视,我们知道下雨会导致更大的概率在家看电视,但是我们不能说下雨所有人就一定在家看电视。所以下雨只能成为工具变量,而不能作为断点。用图来表示的话,断点回归泾渭分明,但是代价是只能用断点左右的一部分数据;而工具变量是层次渐进,比断点要模糊,但是能用的数据范围更大。
归根结底,因为经济学中的人都是『策略性』的,所以人所产生的数据可能会有内生性问题,解决的方法,就是找到人策略性之外所无法预料和控制的因素来进行关系识别。
这些东西刚开始看觉得都超级有趣,看过100篇文章都用几个类似的设定后就觉得非常无聊了。
1. 找Shock。大部分会起名字quasi-natural experiment。原理是:一件与被解释变量不相关的冲击来临,导致解释变量变化了。此时被解释变量变动就极有可能是因为解释变量变化所导致的。大部分Difference in Difference的设定都在这个范畴内。比如我国今年的反腐,就作为一个policy shock,被很多中国研究所使用。
2. 工具变量。非常多了,社会研究里面用一个城市与另一个城市的航线开通当做外生工具变量,这个变量很大程度上是被航空公司单独决定的,但却会提升两个城市之间的交通便利性。便以此来研究交通便利如何影响城市间的贸易。(但问题是,航空公司开通一个航线就完全不是受贸易影响么,反正我不认账)。
生儿子生女儿。一个烂大街的变量,因为生儿子生女儿是无法被控制的,但是家族企业里,头胎是儿子的话,股权集中度就是高。这个变量用来研究股权集中度相关的一系列研究。
3. RDD,所谓断点回归。一个经典例子是投票的设定。投票一般以50%作为分界点。50.01%与49.99%是完全不一样的结果。但问题是这两者之间并没有实际上的区别,很大程度上就是有噪声导致结果不同。因此会取49%到51%这个区间内的结果,观察两遍不同的政策会不会导致截然不同的结果。
以上