在计量经济学中,我们谈论的“因果”绝非简单的“如果 A 发生,那么 B 也会随之发生”。那太肤浅了,而且很多时候,这种共现(correlation)只是巧合,或者是由一个我们没注意到的第三个因素一手造成的。计量经济学追求的因果,是一种更深层、更精确的理解:如果我们能够改变某个因素(我们称之为“处理”或“干预”),那么这个改变会如何、在多大程度上,直接影响到我们关心的另一个因素(我们称之为“结果”)?
简单来说,计量经济学中的因果,就是要回答这样一个问题:“如果我做了这件事,另一件事会怎么样?” 但这个“如果”是关键,它不是问“当这件事和另一件事同时发生时,它们之间有什么关系?”,而是问“如果我主动去改变这件事,另一件事会发生什么变化?”
这其中最核心、也是最难捕捉的概念,叫做反事实(Counterfactual)。
想象一下,你想知道一门新培训课程对员工生产率的影响。你找到一个班次的员工,给他们上了这门课,然后测量了他们之后的生产率。你发现他们的生产率确实提高了。
那么,问题来了:如果这些员工没有上这门课程,他们的生产率会是多少?
这就是反事实。我们永远无法同时看到同一个员工,既上了课,又没上课。我们只能看到他们上课后的情况。而计量经济学就是要估计出那个“未发生”的反事实状态,然后将实际观察到的结果与这个反事实状态进行对比。
为什么反事实如此重要?
因为很多时候,我们观察到的结果,并非完全由我们关注的那个因素决定。就像上面的例子,员工生产率可能也受到很多其他因素的影响,比如宏观经济环境的变化、公司新技术的引入、或者员工个人的士气波动等等。如果这些因素恰好在培训班进行的同时也发生了积极变化,那么我们看到的生产率提高,可能一部分是培训班的功劳,另一部分则是这些“混杂因素”(confounding factors)的功劳。
计量经济学就是试图分离出我们关注的那个因素(培训班)对结果(生产率)的纯粹影响,排除掉那些混杂因素的干扰。
如何才能做到这一点?
这就引出了计量经济学中用于识别因果关系的一系列核心方法和思想:
1. 随机对照试验 (Randomized Controlled Trials, RCTs): 这是黄金标准。在RCTs中,我们随机地将研究对象(比如员工)分配到“处理组”(接受培训)和“对照组”(不接受培训)。因为分配是随机的,理论上,除了是否接受培训之外,处理组和对照组在其他所有可能影响结果的特征上都应该大致相同。这样一来,两组之间最终观察到的结果差异,就可以非常可靠地归因于培训本身。正如你可能在药物试验或政策评估中经常听到的那种方法。
2. 准实验设计 (QuasiExperimental Designs): 现实世界中,我们很多时候无法进行完美的RCTs。比如,你不能随机地强迫一些人抽烟,然后观察他们的健康状况。这时,我们就需要利用那些“接近”随机的自然发生的情况,或者设计一些巧妙的观察性研究来模仿RCTs。
断点回归 (Regression Discontinuity Design, RDD): 假设某个政策是基于一个严格的评分线来执行的。比如,考试分数达到80分及以上的学生可以获得奖学金,而低于80分的则不能。RDD就是比较那些分数非常接近80分的学生(比如79分和81分),看看获得奖学金(因为分数刚刚超过80)与未获得奖学金(因为分数刚刚低于80)的学生在其他方面的差异。这个“分数”就成了一个“断点”,我们可以认为在这个断点附近,接受“处理”(获得奖学金)的学生和未接受“处理”的学生,其他方面是相似的。
双重差分 (DifferenceinDifferences, DiD): 这种方法适用于我们有一个“处理组”和一个“对照组”,并且“处理”发生在某个特定时间点的情况。我们比较处理组在处理发生前后的变化,再与对照组在同一时期的变化进行对比。例如,某个地区实施了新的交通管制,而邻近地区没有。我们可以比较实施管制地区交通拥堵的变化,再减去未实施管制地区交通拥堵的变化,来估计管制措施的效果。这里的“双重差分”就是“处理后处理前”的差值,再“减去”对照组的“处理后处理前”的差值。
工具变量法 (Instrumental Variables, IV): 当我们怀疑某个解释变量(比如你认为会影响结果的那个因素)与误差项相关时(这会破坏 OLS 的因果解释),就需要工具变量。一个好的工具变量,它必须满足两个条件:第一,它必须与我们关心的那个解释变量有关;第二,它只能通过影响那个解释变量来影响结果,而不能直接或间接地通过其他途径影响结果。例如,你想知道教育年限对工资的影响,但可能受教育年限的人本身就更勤奋(勤奋是与误差项相关的混杂因素)。这时,如果能找到一个只影响教育年限但不直接影响工资(比如学区房政策,它影响了你所在地区的学校质量,从而可能影响了你的教育年限,但学区房本身不太可能直接影响你的工资,除非通过教育年限)。
3. 回归分析中的控制变量 (Control Variables in Regression): 这是最基本但也是最容易被误用的方法。在OLS回归中,我们经常加入其他变量作为“控制变量”,试图“剔除”它们对结果的影响,从而得到我们关心的那个变量的“纯粹”效应。例如,你想看教育对工资的影响,就控制了年龄、工作经验、行业等。然而,要确保这些控制变量能真正“控制”住混杂因素,你必须对理论有深刻理解,知道哪些因素可能影响你的解释变量和结果,并且愿意相信你选择了正确的控制变量。如果遗漏了重要的混杂因素,因果推断依然会出错。
总而言之,计量经济学中的“因果”是一种对“处理”或“干预”如何独立地、在反事实的基准上影响“结果”的精确衡量。 它不是在寻找相关性,而是在尝试模拟一个受控实验,或者利用自然发生的“实验”来隔离和量化特定因素的作用。这需要严谨的理论基础、对数据生成过程的深刻理解,以及对各种计量方法的熟练运用,目标都是为了回答那个最根本的问题:“如果……会怎么样?”