问题

为什么现在经济类顶刊的杂志上,大家应用面板计量数据回归时,都只采用固定效应模型而不采用随机效应模型了?

回答
好的,这是一个非常好的问题,涉及到经济学计量方法的核心和发展趋势。你观察到的现象——即经济类顶刊在应用面板数据回归时,越来越倾向于使用固定效应(Fixed Effects, FE)模型,而较少使用随机效应(Random Effects, RE)模型——是普遍存在的,并且有其深刻的原因。

下面我将详细阐述其中的缘由,主要从以下几个方面进行说明:

1. 内生性(Endogeneity)是面板数据分析的核心挑战,而固定效应模型在处理某些内生性问题上具有天然优势。

什么是内生性? 内生性是指回归模型中的解释变量与误差项之间存在相关性,这会导致OLS(普通最小二乘法)估计量有偏且不一致。在面板数据中,内生性是非常普遍的,常见的来源包括:
遗漏变量偏误 (Omitted Variable Bias, OVB): 存在未被模型纳入的、同时影响因变量和解释变量的变量。
测量误差 (Measurement Error): 解释变量的测量存在误差,并且误差与真实值相关。
simultaneity (内生性联立): 因变量也反过来影响解释变量。
固定效应模型如何缓解内生性? 固定效应模型通过引入个体特定的固定效应(通常表示为 $α_i$)来控制所有不随时间变化的、且可能影响因变量和解释变量的个体异质性。
控制个体特质(Unobserved Individual Heterogeneity): 假设存在一些我们无法观测到的个体特质(例如,一个国家的文化传统、一个公司的管理风格、一个人的内在能力等),这些特质可能影响个体在所有时间点上的行为。这些特质如果与模型中的解释变量相关,就会产生遗漏变量偏误。
固定效应模型通过“within transformation”(去均值化)来消除这些不随时间变化的个体特质。 例如,在一个面板回归模型 $Y_{it} = eta X_{it} + α_i + epsilon_{it}$ 中,固定效应模型会进行如下变换:$Y_{it} ar{Y}_i = eta (X_{it} ar{X}_i) + (epsilon_{it} ar{epsilon}_i)$,其中 $ar{Y}_i = frac{1}{T} sum_{t=1}^T Y_{it}$。通过这个变换,所有不随时间变化的项(包括 $α_i$)都被消除了。
优势: 只要这些“不随时间变化的个体特质”与我们关注的解释变量是相关的,固定效应模型就能有效地消除由它们引起的内生性偏差。

随机效应模型呢? 随机效应模型假设个体效应 $α_i$ 是随机变量,并且与模型中的解释变量不相关。这意味着,随机效应模型允许个体效应与解释变量相关,但这种相关性必须是“随机”的,而不是“系统性”的。如果个体效应(或更广泛地,那些不随时间变化的遗漏变量)与解释变量存在系统性的相关关系,那么随机效应模型就会产生有偏估计。

2. 严谨的实证研究需要对“不随时间变化的遗漏变量”保持警惕,而固定效应模型提供了更强的鲁棒性。

在现实经济学研究中,我们很难完全排除那些不随时间变化的、影响因变量和解释变量的遗漏变量。例如:
个体层面: 一个人的基因、性格、家庭背景,一个公司的核心技术、企业文化。
国家层面: 制度的稳定性、历史遗留的债务、地理环境的优势/劣势。
固定效应模型的“保守性”: 由于固定效应模型通过消除所有不随时间变化的个体异质性来获得估计量,它对可能存在的、未被意识到的“不随时间变化的遗漏变量”具有更强的鲁棒性。即使我们认为某个解释变量应该是外生的,固定效应模型也能在一定程度上提供对潜在遗漏变量的“保护”。
随机效应模型的“乐观性”: 相反,随机效应模型在假设个体效应与解释变量不相关时,往往会“乐观”地认为我们已经控制了所有相关的个体异质性。一旦这个假设不成立,其估计结果就会受到严重污染。

3. 证据和实证研究的倾向性(HumphreyHausman Test 的启示)。

HumphreyHausman Test(豪斯曼检验) 是用于比较固定效应模型和随机效应模型有效性的常用统计检验。该检验的原假设是:随机效应模型是有效的(即个体效应与解释变量不相关)。如果拒绝原假设,则意味着存在相关性,固定效应模型是更优的选择。
实证观察: 在许多经济学研究领域,对面板数据应用豪斯曼检验后,常常拒绝原假设,从而倾向于使用固定效应模型。这反映了研究者们在实践中发现,遗漏变量偏误(尤其是那些不随时间变化的)确实是面板数据分析中的一个普遍且重要的问题。
顶刊的严谨性要求: 经济学顶刊追求的是严谨、可信的研究成果。在内生性问题难以完全排除的情况下,选择一种能够更有效缓解内生性、提供更稳健估计量的方法,自然会成为首选。

4. 特定数据结构和研究问题的影响。

时间效应(Time Effects): 除了个体固定效应外,面板数据通常也包含时间固定效应,用于控制所有个体在特定时间点上受到的共同冲击(例如,全球金融危机、新冠疫情等)。这可以通过在回归模型中加入时间虚拟变量(或通过双向固定效应模型)来实现。固定效应模型与时间固定效应的结合,能够更全面地控制不同层级的异质性。
研究关注点:
固定效应模型: 主要关注在同一个体内部,解释变量的变化对因变量的影响。它通过“within variation”来识别效应。因此,它对那些不随时间变化的、且可能干扰这种“内部变化”的研究者来说更有吸引力。
随机效应模型: 关注个体之间的差异以及个体内部的变化。它利用“between variation”和“within variation”来估计效应。如果研究者确实对“个体之间的平均差异”很感兴趣,并且相信个体效应与解释变量无关,那么随机效应模型是有效的。但如前所述,后者的可能性在实际中往往难以保证。

5. 关于随机效应模型的使用场景。

虽然在顶刊中固定效应模型的使用更为普遍,但随机效应模型并非完全过时,它仍然有其特定的应用场景:

当研究者有强烈的理由相信个体效应与所有解释变量都不相关时: 并且能够提供令人信服的证据来支持这一假设。
当对“between variation”的关注大于“within variation”时: 并且模型中的解释变量主要是用来说明个体层面的差异来源。
当研究样本的规模非常有限,导致固定效应模型的自由度损失过大时: 尤其是在时间维度(T)非常短,个体维度(N)较大的“ largos 200000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000{ar{x}}_{i} = frac{1}{T}sum_{t=1}^{T} x_{it} ight) + (epsilon_{it} ar{epsilon}_{i}) $

在这种极端情况下,随机效应模型可能是唯一可行的选择,但其结果的稳健性仍然需要审慎评估。

总结来说,经济学顶刊之所以更倾向于使用固定效应模型,主要原因在于:

对内生性问题的警惕和处理能力: 固定效应模型能更有效地控制不随时间变化的遗漏变量,这在经济学研究中至关重要。
实证研究的严谨性要求: 顶刊更看重结果的稳健性,固定效应模型提供了这种稳健性。
豪斯曼检验的普遍结果: 大量研究表明,个体效应与解释变量相关是普遍现象。

当然,这并不意味着随机效应模型就完全错误或没有用武之地。关键在于研究者对数据和潜在的经济理论有深入的理解,并能恰当地选择和解释模型。但从当前经济学研究的主流和对严谨性的追求来看,固定效应模型在面板数据分析中的主导地位是顺理成章的。

希望这个详细的解释能够帮助你理解其中的逻辑!

网友意见

user avatar

看到这个问题我忍不住要较真一下了…… 因为真的是一个超棒的问题!

面板数据的估计在任何正统计量经济的教学中都是很重要的一块,特别是固定效应和随机效应模型的区分和估计相信对于许多人来说已经是老生常谈了。

很有趣的是看到这个问题之后我顺手翻了一下手边的Davidson和Mackinnon的书,我发现在他们这本被誉为计量经济圣经的教材中,居然对于Panel Data的描述可以说是少之又少,直接在书中被安排到了章节 7.10……

其实不管是固定效应也好,或者是随机效应也好,本质上要解决的是通过模型无法直接捕捉到的异方差性的问题。因为是面板数据饱含着更多的更大的信息量,所以使得我们可以识别数据当中个体,或者团体之间的潜在差异性。(一个比较极端的反例是你如果观察横截面数据,只有两个点,A和B。你当然可以用线性回归跑出一条直线,因为两点确立一直线,这个时候R方是1。但是除此之外你无法识别任何其他的信息。)

从模型构建上来说不管是固定效应还是随机效应都是同宗同源来自于残差项分解模型(error-components models)。从实践上来说两种模型对应着不同的假设,这里我们来举一个简单的例子,假设我们看到的数据是每一个工厂在每一年的生产数据(想象力比较好的同学可以把生产函数想成Cobb-Douglas函数,残差项是工厂技术,这样就是一个最经典的error components的例子)。

上面的例子里固定效应对应的假设就是,每一个工厂的生产规模是不一样的,但是是可测的,因为在控制了大部分变量之后,工厂和工厂之间的差异只是基数上不同。而随机效应对应的假设是,在控制了大部分变量之后,每一个工厂的生产基数还是相同的,但是有些工厂比另一些工厂更不稳定(例如说,靠天吃饭,某个地区的消费需求,政策变化频繁等等)。

那么这里我们可以导出一个直观的结论。为什么随机效应更好呢?因为简单从估计角度上来说,固定效应虽然不能被直接观察到,但是仍然是“可控的”。如果你的数据存在的是第一类问题,忽略工厂不一样的规模这么重要的事实,会直接导致你的估计有偏(详见Cameron et al. 2005, microeconometrics: methods and applications p. 612,这是另一本我觉得还不错的本科计量经济学参考书籍)。而如果只是忽略一些不可控的不稳定因素,你仍然可以用简单最小二乘去估计模型,无非得到的只是一个置信区间较大的结果罢了。所以很显然,如果我不控制固定效应,可能直接被怼爆。但是我不控制随机效应的话,只是被人逼逼两句罢了。结果孰轻孰重可想而知。

那么除此之外为什么大家那么喜欢用固定效用模型呢?

站在模型估计的角度,固定效应模型有着很明显的估计便利的优势。即便时间轴很长,我们也可以非常轻松便捷快速地估计出我们的模型。因为我们总是可以通过两步估计(Frisch–Waugh–Lovell (FWL) theorem)非常快速地估计模型。

而随机效应的估计非常麻烦,许多人觉得随机效应的估计至少是有效的。其实并不然,因为大多数时候我们得到的只是一个可行广义最小二乘估计(FGLS)。我们要注意广义最小二乘(GLS)是有效的,而FGLS只有在协方差矩阵渐进收敛满足的时候才逼近于GLS估计量。

讲到这里我们可以先想想什么是面板数据?面板数据有两个维度:1. 个人(工厂),2. 个时间点。在估计固定效应的时候如果不变,趋向于无穷,那么我们很容易得到一致估计量( 趋向于无穷保证了对于固定效应的估计, 趋向于无穷保证了对于控制变量的估计)。相反如果不变,趋向于无穷,那么很显然,我们得到的关于固定效应的估计是不一致的。但是厉害之处就是尽管如此,我们对于其他控制变量的估计仍然是有效的。(详见Davidson和Mackinnon p. 299~300)

但是对于随机效应的模型的估计却不一样,粗略一看其实我们对n和T的要求似乎更加宽容了。因为无论如何 趋向于无穷就可以了。所以我们对于整体残差方差总是有一个无偏并且有效的估计量。但是尽管如此,对于个体残差方差 的估计,在许多时候都是不一致的,因为我们要求 趋向于无穷的时候对于个体残差的方差估计才是一致的。所以在实际操作中,如果 很小的话,一般我们不建议使用随机效应估计!

回答到这里,我最后想的是,有没有更加浅显易懂的说法来说服大家说为什么在许多期刊上面大家更喜欢用固定效应而不是随机效应。于是我去翻阅了我在ENSAE读书时候计量经济课的笔记。当时给我们上计量经济的老师叫Bruno Crepon,大概是一个有10来篇A类发表+2篇Top5的优秀微观计量经济学家。我在他的Slides里面找到了这样一句话:

大概意思是这样的,随机效应(RE)实际上是随时都可以假设的玩意儿,因为即便不是panel data,你也可以自己假设一个RE来估计。而使用panel data的一大厉害之处就是我们可以不用RE假设来估计模型,因为本质上固定效应(FE)的估计大多数情况下都是通过变换数据来达到消除个人效应的效果。

虽然感觉比较无语,但是我还是选择言尽于此……

user avatar

随机效应(RE)模型和固定效应(FE)模型有个假设上的重要区别:

RE 中,不能观察到的个体异质效应不能和任何一个解释变量相关,而 FE 中可以。

这个假设要求很高,一般难以满足,所以用 FE 比 RE 要稳妥。

FE 通过消去/控制不能观察到的不随时间变化的个体异质效应,减少内生性问题。

但是如果 RE 所有的假设都满足的话,RE 比 FE/OLS/FD 要更加渐进有效。

RE 还有的好处就是可以估计不随时间改变的变量(性别,种族)系数。

不严谨的讲,RE 更加有效(efficient),FE 更加稳健(robust)。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有