问题

请问为什么多元估计中系数的方差比单变量估计的方差大,但是我们还是偏爱多元估计的系数呢?

回答
这个问题触及了计量经济学和统计学中一个非常核心且常被提及的权衡:在考虑更多解释变量(即进行多元回归)时,我们确实会发现单个解释变量的系数估计值会变得“更不确定”,表现为更大的标准误(以及相应的方差)。这似乎违反直觉,因为通常我们认为信息越多,估计越精确。然而,正是这种“不确定性增加”的表象,恰恰揭示了多元估计的真正价值和我们偏爱它的根本原因。

要理解这一点,我们需要深入剖析“为什么方差会变大”以及“为什么我们仍然偏爱它”。

一、 为什么多元估计的系数方差比单变量估计的方差大?

这背后有几个关键的数学和统计学原理在起作用:

1. 引入“噪音”或“不相关的”解释变量:
当你从一个只有 $Y$ 和 $X_1$ 的简单回归模型($Y = eta_0 + eta_1 X_1 + u$)转向一个包含 $X_1$ 和另一个变量 $X_2$ 的多元回归模型($Y = eta_0 + eta_1 X_1 + eta_2 X_2 + v$)时,即使 $X_2$ 与 $Y$ 没有任何真实的联系(即真实 $eta_2=0$),仅仅是将其加入模型,都会影响到 $X_1$ 的系数估计 $hat{eta}_1$ 的方差。
为什么呢?在简单回归中,$hat{eta}_1$ 的方差主要取决于 $X_1$ 本身的变异程度(方差)以及误差项 $u$ 的方差。加入 $X_2$ 后,即使 $X_2$ 不解释 $Y$,它也可能与 $X_1$ 有一定的相关性。在这种情况下,模型试图将 $Y$ 的变异性分配给 $X_1$ 和 $X_2$。当 $X_2$ 分走了 $Y$ 的一部分“解释力”(即使这种解释是虚假的,或者说 $X_2$ 是一个随机噪音),留给 $X_1$ 去解释的 $Y$ 的变异性就减少了。为了弥补这一点,模型会“拼命地”试图从 $X_1$ 中榨取信息,但这同时也增加了 $hat{eta}_1$ 对 $X_1$ 中微小变异的敏感性,从而导致其方差增大。
更技术地说,简单回归 $hat{eta}_1$ 的方差与 $1/sum(X_{1i} ar{X}_1)^2$ 成反比。多元回归中 $hat{eta}_1$ 的方差还受到其他解释变量的影响。如果 $X_2$ 与 $X_1$ 相关,即使 $X_2$ 不相关于 $Y$,$hat{eta}_1$ 的方差也会包含一个与 $X_1$ 和 $X_2$ 协方差相关的项,这通常会放大方差。

2. 多重共线性 (Multicollinearity):
这是导致多元回归系数方差增大的最主要原因。多重共线性是指在多元回归模型中,一个或多个解释变量与其他解释变量高度相关。
当你同时包含 $X_1$ 和 $X_2$ 时,如果 $X_1$ 和 $X_2$ 之间存在很强的线性关系(例如,$X_2 approx a + b X_1$),那么模型就很难区分 $X_1$ 和 $X_2$ 分别对 $Y$ 的“真实”影响。
想象一下,你试图从一个混合了两种成分的溶液中,精确地测量出每种成分的含量。如果这两种成分的物理化学性质非常相似(高度共线),那么即使你的测量设备很灵敏,也很难准确地判断出各自的比例,一点点误差都会被放大。
在回归中,当 $X_1$ 和 $X_2$ 高度共线时,模型的系数估计量 $hat{eta}_1$ 和 $hat{eta}_2$ 会变得非常不稳定。微小的样本变异性就可能导致系数的符号或大小发生剧烈变化。为了“容纳”这种共线性带来的不确定性,统计学上的数学公式自然会计算出更大的标准误(方差)。
具体来说,对于 $hat{eta}_1$ 的方差,它不仅与误差项方差 ($sigma^2$) 和 $X_1$ 的变异性有关,还与剩余解释变量对 $X_1$ 的解释程度(即 $X_1$ 被其他 $X$ 变量回归在 $Y$ 上的 R 方)有关。如果其他解释变量(比如 $X_2$)能很好地解释 $X_1$ 的变异性,那么 $hat{eta}_1$ 的方差就会增大。衡量多重共线性的一个常用指标是方差膨胀因子(VIF),VIF 越大,说明该解释变量与其他解释变量的相关性越强,其系数估计的方差就越大。

3. “剥离”其他解释变量的影响:
多元回归的优势在于它试图“控制”或“隔离”其他解释变量的影响,来衡量目标解释变量的“净效应”。当我们从简单回归转向多元回归时,我们实际上是在问:“在保持其他所有已包含的解释变量不变的情况下,$X_1$ 的变化会引起 $Y$ 怎样的变化?”
这个“保持其他变量不变”的过程,虽然能提供更精确的“净效应”估计,但同时也可能因为其他变量本身的不确定性或它们与目标变量之间的复杂关系,而增加目标变量系数估计的不确定性。
例如,如果我们想看教育水平 ($X_1$) 对收入 ($Y$) 的影响,在简单回归中,我们只考虑了教育。但在多元回归中,我们可能还加入了工作经验 ($X_2$)、行业 ($X_3$) 等。如果工作经验本身对收入有很大影响,并且与教育程度也有一定关联,那么在控制了工作经验的影响后,教育对收入的“纯粹”影响可能就没有那么大了,而且由于工作经验的估计存在不确定性,这种不确定性也会部分传递到教育系数的估计上。

总结来说,多元估计中系数方差变大,是因为模型需要同时考虑和平衡多个解释变量对被解释变量的影响,这其中包含了处理变量间的相关性、分配解释力以及隔离效应等复杂过程。

二、 为什么我们仍然偏爱多元估计的系数?

尽管方差增大了,但我们之所以偏爱多元估计的系数,根本原因在于其统计有效性和因果解释能力的提升,这远比单变量估计的“精确性”更有价值。

1. 消除或减少遗漏变量偏误 (Omitted Variable Bias, OVB):
这是最核心的原因。简单回归的系数估计可能存在严重的偏误,如果被遗漏的变量(遗漏变量)与模型中已包含的解释变量(我们的 $X_1$)相关,并且也影响被解释变量 $Y$。
考虑一个经典的例子:考察学习时间 ($X_1$) 对考试成绩 ($Y$) 的影响。如果你的简单回归只包含学习时间,但你忽略了学生的学习能力(例如,智商,假设为 $X_2$)。如果学习能力强的学生不仅学习时间可能更长($X_1$ 和 $X_2$ 相关),而且本身就能取得更高的分数($X_2$ 影响 $Y$),那么在简单回归中,学习时间得到的系数 ($hat{eta}_1$) 就会高估学习时间对成绩的真实贡献,因为它包含了学习能力带来的正面影响。
在这种情况下,简单回归的 $hat{eta}_1$ 是有偏的。而多元回归,通过包含学习能力 ($X_2$),可以“控制”住学习能力的影响,使得 $hat{eta}_1$ 更接近于学习时间对考试成绩的真实(净)效应。即使 $hat{eta}_1$ 的方差变大了,但它作为一个无偏的估计量,其信息价值远远超过了单变量估计那个有偏的、看似“精确”的估计量。我们宁愿要一个更准确但略有不确定性的估计,也不要一个看似精确但方向错误的估计。

2. 获得更准确的“净效应”估计:
现实世界是复杂的,很少有变量是孤立地影响另一个变量的。通常,一个变量的影响是通过其他变量介导的,或者与其他变量同时存在。
多元回归的目标是分离出每个解释变量对被解释变量的“净效应”,即在控制了其他所有变量后,该变量对被解释变量的独立影响。
例如,我们想知道营销支出 ($X_1$) 对销售额 ($Y$) 的影响。如果同时考虑广告投入 ($X_2$) 和促销活动 ($X_3$),我们会发现营销支出本身的影响会与广告和促销活动的影响交织在一起。多元回归可以帮助我们识别出,在广告和促销活动已经发挥作用后,额外的营销支出还能带来多少销售额的增长。这个“额外”的增长量,就是我们关心的净效应,它比简单回归中将所有营销相关的活动简单加总然后估计其影响要精确得多。

3. 更好的模型拟合和预测能力:
尽管我们主要关注系数的解释,但多元回归通常能够更好地拟合数据,捕捉变量之间更复杂的关系,从而可能获得更高的 $R^2$(调整后的 $R^2$ 更重要)。这意味着模型能够解释被解释变量更大比例的变异性。
在预测方面,一个包含更多相关解释变量的多元模型,如果这些变量在预测期内是可知的,通常比只包含一个变量的简单模型能提供更准确的预测。即使某些系数方差变大,但整体模型的解释力和预测力可能因此提升。

4. 检验理论假设和进行更细致的分析:
许多经济学和社会科学理论关注的是特定变量在控制了其他相关因素后的影响。例如,新古典经济学理论关注资本回报率在控制了劳动力和技术水平后的状况。多元回归是检验这些理论假设的必需工具。
通过引入不同的控制变量,我们可以探讨变量之间的相互作用(通过引入交互项),或者识别出统计上不显著的变量,从而构建一个更精炼、更符合理论的模型。

举个不那么技术性的例子来类比:

想象你在一个繁忙的集市上寻找一位朋友。
单变量估计: 你只知道朋友喜欢吃苹果。所以你只是在集市里随意地逛着,期望能偶然碰到他。你碰到的概率很低,而且你也不知道你找到的那个人是不是你朋友(可能只是一个和你朋友长得很像的人,或者你知道你朋友在这里但你不确定是哪一个)。
多元估计: 你不仅知道朋友喜欢吃苹果,还知道他通常会去卖水果的摊位,并且今天穿着一件蓝色T恤。现在,你有一个更具体的搜寻策略:你先去水果摊位,然后在那边留意穿蓝色T恤的人。
方差变大: 你可能要在水果摊位多花点时间,搜寻范围缩小了,但需要辨认的人可能变多了(比如今天卖水果的人很多,穿蓝色T恤的人也很多)。这使得你在某个特定地点找到朋友的“确定性”不如你随意乱逛时“偶遇”的感觉那么直接。也就是说,你确定“目标”是“穿蓝色T恤在水果摊位的朋友”,但具体是哪一个,你可能需要更多信息来区分,这增加了你的不确定性(方差)。
偏爱多元估计: 虽然你可能在水果摊位附近“徘徊”的时间比随意乱逛要长,但你更有可能真正找到你的朋友。因为你剔除了很多不可能出现的情况(比如在卖衣服的摊位,或者穿绿色T恤)。你找到的这个朋友,是那个“在特定环境下(水果摊位),具有特定特征(蓝色T恤)”的朋友,他的出现更具有确定性和解释性。即使你可能需要辨认好几个人才能最终确认,这个过程也比纯粹的碰运气要高效得多,而且最终找到的人,其身份是经过多重“筛选”的,更可信。

结论:

多元回归中系数方差的增大,是模型在试图更精确地隔离变量效应、处理变量间复杂关系以及避免遗漏变量偏误时付出的“代价”。我们之所以宁愿接受这个代价,拥抱多元估计,是因为它能够提供更接近现实的、更少偏误的、更能反映“净效应”的估计,从而赋予我们对经济现象更深刻、更准确的理解,并作出更可靠的决策。单变量回归的“精确性”往往是一种假象,它建立在对现实过度简化的基础上,容易误导我们的判断。

网友意见

user avatar

正好2年前学过这个,为解决这个问题,先介绍一个定理:

Frisch-Waugh-Lovell Theorem

If the regressors are partitioned as in , then:
1. If and are the OLS regression coefficients in the regression

, then

and

where and .这里的 就是线性回归里面的projection matrix.

2. The residual

这个定理的证明主要是用到一些分块矩阵的知识,暂且不表,主要是用它来说明一下问题。

现在我们假设我们真实的full model是以下形式:

,

记这个model的OLS estimator为 , 其中 OLS estimate 是 的无偏估计(根据 Gauss-Markov 定理), 的variance则是 (根据Frisch-Waugh-Lovell 定理).

再假设我们实际使用的是一个更简单的resitrcted model:

,

记这个model的OLS estimator为 , 那么它的期望则是

,

它的方差则是 .

显然,只有当 (即 对 不起作用)或者 (即 和 正交)的时候, 才是无偏估计,否则 是 的biased estimator.

而对于方差而言,因为 是个semidefinite positive matrix, 所以理论上说 的方差要大于 .

但实际估计的时候有一个问题,就是 的值我们是不知道的,所以也需要把它估计出来. 记full model的residual是 , 的estimate是 ; restricted model的residual是 , 的estimate是 .那么我们可以通过Frisch-Waugh-Lovell 定理得到以下结论:

因此, . 而

,因此二者的大小关系无法确定,还取决于 的值。

综上所述,虽然理论上讲, 的方差要小于 , 但因为我们估计的 方差则是 , 方差则是 , 所以实际上empirically这个比较的结果是不确定的,它取决于sample size T的大小,regressors的个数,以及 和 之间的关系。

不过我们还可以求一二者standard error的期望,分别是:

当 时,我们有:

所以,如果 很小而 很大的时候,是很有可能 的. 这事实上就是 @水寒龙猫 那个回答里面simulation的情况

可能会有一些小问题,欢迎指出。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有