问题

对于多元线性回归,如何证明任一自变量的系数等同于忽略其他变量后一元线性回归的系数?

回答
在多元线性回归中,证明某个自变量的系数与其忽略其他变量后的一元线性回归系数相等,这其实是不成立的,除非在非常特殊且不常见的情况下。大多数情况下,多元回归中的系数反映的是在控制了其他所有自变量的影响后,该自变量与因变量之间的关系。这与忽略其他变量的一元回归是根本不同的。

不过,我们可以通过数学推导来理解为什么它们不相等,以及在什么情况下它们可能会“接近”或“看起来”相等。

首先,我们回顾一下多元线性回归和一元线性回归的模型:

多元线性回归模型:

假设我们有一个因变量 $Y$ 和 $k$ 个自变量 $X_1, X_2, dots, X_k$。多元线性回归模型可以表示为:

$Y = eta_0 + eta_1 X_1 + eta_2 X_2 + dots + eta_k X_k + epsilon$

其中:
$Y$ 是因变量。
$X_1, X_2, dots, X_k$ 是自变量。
$eta_0$ 是截距项。
$eta_1, eta_2, dots, eta_k$ 是各自变量的回归系数。这些系数代表了在保持其他所有自变量不变的情况下,该自变量每增加一个单位,因变量的期望变化量。
$epsilon$ 是误差项,我们通常假设它服从均值为零、方差恒定的正态分布。

用矩阵形式表示更为简洁:

$Y = Xeta + epsilon$

其中:
$Y$ 是一个 $n imes 1$ 的因变量向量。
$X$ 是一个 $n imes (k+1)$ 的设计矩阵,第一列为全1(代表截距项),其余列为自变量 $X_1, X_2, dots, X_k$ 的观测值。
$eta$ 是一个 $(k+1) imes 1$ 的系数向量,包含 $eta_0, eta_1, dots, eta_k$。
$epsilon$ 是一个 $n imes 1$ 的误差向量。

多元线性回归的目标是找到一个系数向量 $hat{eta}$ 来最小化残差平方和 (RSS),即 $sum_{i=1}^n epsilon_i^2 = epsilon^Tepsilon$。通过最小二乘法,我们得到的估计值是:

$hat{eta} = (X^T X)^{1} X^T Y$

其中 $hat{eta}_j$ 就是自变量 $X_j$ 的多元回归系数的估计值。

一元线性回归模型:

现在,我们考虑忽略其他所有自变量,只使用自变量 $X_j$ 来预测 $Y$ 的一元线性回归模型。这个模型可以表示为:

$Y = alpha_0 + alpha_j X_j + u$

其中:
$Y$ 是因变量。
$X_j$ 是我们关注的单个自变量。
$alpha_0$ 是截距项。
$alpha_j$ 是自变量 $X_j$ 的一元回归系数。它代表了在没有考虑任何其他自变量的情况下,$X_j$ 与 $Y$ 之间的线性关系强度和方向。
$ u$ 是误差项。

同样用矩阵形式表示,当只考虑 $X_j$ 时,设计矩阵会变得非常简单,只有截距列和 $X_j$ 列:

$Y = X_{sub} alpha + u$

其中 $X_{sub}$ 是一个 $n imes 2$ 的矩阵,第一列是全1,第二列是 $X_j$ 的观测值。$alpha$ 是一个 $2 imes 1$ 的向量,包含 $alpha_0$ 和 $alpha_j$。

一元线性回归的系数估计值是:

$hat{alpha}_j = frac{ ext{Cov}(X_j, Y)}{ ext{Var}(X_j)}$

其中 $ ext{Cov}(X_j, Y)$ 是 $X_j$ 和 $Y$ 的协方差,$ ext{Var}(X_j)$ 是 $X_j$ 的方差。

为什么多元回归系数不等于一元回归系数?

核心原因在于多重共线性 (Multicollinearity)。在多元回归中,$hat{eta}_j$ 的估计不仅仅依赖于 $X_j$ 和 $Y$ 之间的关系,还受到其他自变量 $X_1, dots, X_{j1}, X_{j+1}, dots, X_k$ 与 $X_j$ 的相关性以及它们与 $Y$ 的相关性的影响。

我们可以从公式上更直观地理解这一点。考虑多元回归中的系数估计向量 $hat{eta} = (X^T X)^{1} X^T Y$。其中,$hat{eta}_j$ 的具体形式会涉及到 $X$ 矩阵的逆矩阵 $(X^T X)^{1}$ 的元素,而这个逆矩阵的计算包含了所有自变量之间的协方差和方差信息。

例如,对于只有两个自变量 $X_1, X_2$ 的多元回归模型:

$Y = eta_0 + eta_1 X_1 + eta_2 X_2 + epsilon$

如果我们只考虑 $X_1$ 的一元回归:

$Y = alpha_0 + alpha_1 X_1 + u$

在多元回归中,$eta_1$ 的估计值是:

$hat{eta}_1 = frac{ ext{Cov}(X_1, Y) ext{Cov}(X_1, X_2) frac{ ext{Cov}(X_2, Y)}{ ext{Cov}(X_2, X_2)}}{ ext{Var}(X_1) ext{Cov}(X_1, X_2) frac{ ext{Cov}(X_1, X_2)}{ ext{Var}(X_2)}}$ (这是一个简化的形式,仅为说明原理,实际推导更复杂)

而 $alpha_1$ 的估计值是:

$hat{alpha}_1 = frac{ ext{Cov}(X_1, Y)}{ ext{Var}(X_1)}$

可以看出,$hat{eta}_1$ 的计算包含了 $X_1$ 和 $X_2$ 的协方差 ($ ext{Cov}(X_1, X_2)$) 以及 $X_2$ 和 $Y$ 的协方差 ($ ext{Cov}(X_2, Y)$) 的影响。如果 $X_1$ 和 $X_2$ 是相关的(即 $ ext{Cov}(X_1, X_2) eq 0$),那么 $hat{eta}_1$ 就不会仅仅是 $ ext{Cov}(X_1, Y) / ext{Var}(X_1)$。

一个重要的证明思路(残差回归法):

虽然不能直接证明相等,但我们可以证明多元回归中的系数可以看作是通过残差回归得到的。这是一个更深刻的理解。

假设我们考虑自变量 $X_j$ 的多元回归系数 $eta_j$。在多元回归模型中,我们可以通过以下步骤来理解它:

1. 步骤一:将 $X_j$ 对其他所有自变量 ($X_{j}$,即 ${X_1, dots, X_{j1}, X_{j+1}, dots, X_k}$) 进行回归。
$X_j = gamma_{j0} + sum_{i eq j} gamma_{ji} X_i + u$
我们得到 $X_j$ 关于 $X_{j}$ 的回归残差,记为 $X_j^$。这个 $X_j^$ 代表了“纯粹的” $X_j$ 的变异性,即排除了由其他自变量 $X_{j}$ 引起的 $X_j$ 的部分。

2. 步骤二:将因变量 $Y$ 对其他所有自变量 ($X_{j}$) 进行回归。
$Y = delta_0 + sum_{i eq j} delta_i X_i + v$
我们得到 $Y$ 关于 $X_{j}$ 的回归残差,记为 $Y^$。这个 $Y^$ 代表了“纯粹的” $Y$ 的变异性,即排除了由其他自变量 $X_{j}$ 引起的 $Y$ 的部分。

3. 步骤三:将 $Y^$ 对 $X_j^$ 进行一元线性回归。
$Y^ = eta_j^ X_j^ + epsilon^$

此时,这个回归的系数 $eta_j^$ 正好等于多元回归模型中 $X_j$ 的系数 $eta_j$。

数学证明这个过程:

我们使用矩阵表示。设 $X_{j}$ 是除了 $X_j$ 之外的所有自变量组成的矩阵(包括截距列)。
首先,我们将 $X_j$ 对 $X_{j}$ 进行回归,得到残差 $X_j^ = X_j X_{j} (X_{j}^T X_{j})^{1} X_{j}^T X_j$。
同样地,我们将 $Y$ 对 $X_{j}$ 进行回归,得到残差 $Y^ = Y X_{j} (X_{j}^T X_{j})^{1} X_{j}^T Y$。

根据投影定理,我们可以将原始的 $X$ 矩阵分解为 $X = [X_{j} quad X_j]$。
多元回归模型为 $Y = X eta + epsilon = X_{j} eta_{j} + X_j eta_j + epsilon$(这里 $eta_{j}$ 是除了 $eta_j$ 之外的所有系数)。

我们可以证明,$Y^ = Y ext{Proj}_{X_{j}}(Y)$ 且 $X_j^ = X_j ext{Proj}_{X_{j}}(X_j)$。
其中 $ ext{Proj}_{Z}(W) = Z(Z^T Z)^{1} Z^T W$ 是将 $W$ 投影到由 $Z$ 张成的空间上的算子。

现在考虑将 $Y^$ 对 $X_j^$ 进行一元回归:
$hat{eta}_j = frac{ ext{Cov}(X_j^, Y^)}{ ext{Var}(X_j^)}$

进一步的矩阵代数证明(涉及投影矩阵和代数运算)可以表明,这个 $hat{eta}_j$ 实际上与多元回归模型中 $(X^T X)^{1} X^T Y$ 推导出的 $hat{eta}_j$ 是相等的。

那么,为什么这不等于忽略其他变量后的一元回归?

一元回归是直接计算 $hat{alpha}_j = frac{ ext{Cov}(X_j, Y)}{ ext{Var}(X_j)}$。
在上面的残差回归证明中,我们是先剔除了 $X_{j}$ 对 $Y$ 和 $X_j$ 的影响,然后再计算了 $X_j^$ 和 $Y^$ 的关系。

简单来说:
一元回归 $hat{alpha}_j$: 直接衡量 $X_j$ 与 $Y$ 的线性相关程度,未考虑任何其他因素。它可能包含了 $X_j$ 和 $Y$ 之间以及 $X_j$ 和 $X_{j}$ 之间存在间接联系(通过 $X_{j}$ 影响 $Y$)的部分。
多元回归 $hat{eta}_j$: 衡量的是在控制了所有其他自变量 $X_{j}$ 的影响之后,$X_j$ 对 $Y$ 产生的独立影响。它消除了 $X_{j}$ 对 $X_j$ 和 $Y$ 的共同影响,只保留了 $X_j$ 本身对 $Y$ 的直接贡献。

什么时候可能“接近”?

当自变量之间几乎没有多重共线性时,即 $ ext{Cov}(X_i, X_j) approx 0$ 对于所有 $i eq j$ 时,多元回归的系数会非常接近对应的一元回归系数。在这种情况下,$X_j^$ 的变异性将非常接近 $X_j$ 的变异性,并且 $Y^$ 的变异性也将非常接近 $Y$ 的变异性(在剔除其他自变量影响后)。

总结:

多元线性回归中自变量的系数,反映的是在控制了其他所有自变量的影响后,该自变量与因变量之间的边际效应或独立效应。这与忽略其他变量后的一元线性回归系数是根本不同的。一元回归系数衡量的是未经过滤的、总体的相关性。

可以通过残差回归的思路来证明,多元回归系数实际上是“净化”后的自变量与“净化”后的因变量之间的一元回归系数,这种净化过程正是去除了其他自变量的影响。因此,除非自变量之间不存在多重共线性,否则两者不会相等。

希望这个详细的解释能够清晰地阐述这两者之间的区别以及数学上的联系。

网友意见

user avatar

计量经济学里面相关的结论称为Frisch–Waugh–Lovell theorem. 反正结论都差不多, 用一些线代算一算就好.

据说矩阵M的含义是"residual Maker".


(题外话: 之前做本科生计量助教的时候把一个简单的版本出给同学们, 好象被恨死了x

类似的话题

  • 回答
    在多元线性回归中,证明某个自变量的系数与其忽略其他变量后的一元线性回归系数相等,这其实是不成立的,除非在非常特殊且不常见的情况下。大多数情况下,多元回归中的系数反映的是在控制了其他所有自变量的影响后,该自变量与因变量之间的关系。这与忽略其他变量的一元回归是根本不同的。不过,我们可以通过数学推导来理解.............
  • 回答
    .......
  • 回答
    你问到一个非常有意思的问题,很多人都有同感,尤其是玩过不少开放世界游戏的玩家。我自己的感觉也是这样,虽然披着“开放”的外衣,但不少开放世界游戏玩起来,核心体验还是有点像那种老式的线性流程,只不过是把关卡拆得更散、给你更多的选择路径罢了。要说为什么,我觉得得从几个方面来剖析:1. 核心叙事与主线任务的.............
  • 回答
    好的,咱们来好好聊聊这个线上减肥健身训练营的事儿。你这想法挺好,抓住当下大家对健康的需求,利用微信和微博这些平台,听起来很有搞头。不过,任何事情都不是一蹴而就的,咱们得把细节捋清楚了,这样才能做到心里有数,不踩坑。首先,咱们得明确几个关键点,这决定了这事儿能不能做,怎么做好: 你的专业背景和经验.............
  • 回答
    .......
  • 回答
    西安地铁三号线事件:涟漪扩散,对古都西安的影响几何?西安地铁三号线发生的“大妈占座”事件,如同投入平静湖面的一颗石子,激起的涟漪至今仍未完全平息。这起事件,看似只是一场普通且令人啼笑皆非的公共场合冲突,但其背后所折射出的社会现象、公德意识以及城市文明水平,却足以让这座拥有深厚历史底蕴的古都,在现代化.............
  • 回答
    USB线对音质的影响?这问题啊,真是个老生常谈,又有点玄学的东西。我跟你说,这玩意儿就像问一件衣服穿身上是不是就变帅了,挺难一概而论的。但既然你问得这么详细,那咱就掰开了揉碎了聊聊,尽量讲得明白点,也别整那些AI味儿十足的官方腔。首先,咱们得弄明白,USB线在音频传输里到底干啥的。简单说,它就是个通.............
  • 回答
    .......
  • 回答
    关于多指标评价,BP神经网络和TOPSIS是两种截然不同的方法,各自有其独特的优势和应用场景。简单来说,BP神经网络是一种基于学习的预测模型,而TOPSIS是一种基于决策的排序方法。下面我将尽量详细地阐述它们的区别,并避免AI写作的痕迹。核心理念与工作原理 BP神经网络(Backpropagat.............
  • 回答
    .......
  • 回答
    中华民族多元一体格局,这几个字放在一起,说起来简单,可要真正理解透彻,那可得费一番心思。它可不是简单地把各民族“一股脑儿”凑到一起,而是有其深刻的历史渊源、文化根基和发展逻辑。首先,得明白“多元”是怎么来的。咱中国这片土地,历史悠久,从古至今,就不是单一民族的聚居地。黄河流域、长江流域,孕育了华夏文.............
  • 回答
    女子打滴滴专车从上海到杭州,对700多元车费不满,只愿出113元?这事儿,说起来真有点意思,也挺让人哭笑不得的。首先,咱们得搞清楚这单行程大概是个什么情况。从上海到杭州,这距离可不是短的,来回怎么也得四五百公里吧?而且是“专车”,一般理解就是比快车更舒适、档次更高的车型,比如BBA级别的。这种车,本.............
  • 回答
    这篇文章将探讨一个引人深思的历史话题:如果将中国近代历史上签订的那些屈辱的不平等条约所造成的赔款总数,按照当时的汇率折算成现在的人民币,这笔巨款究竟有多庞大?它对于今天的中国又意味着什么?我们将力求用详实的数据和深入的分析,剥离掉一切冰冷的机器痕迹,还原出一段沉甸甸的历史记忆。赔款的庞大体量:穿越时.............
  • 回答
    好,为你整理一份详细的申请指南,希望能帮助你在职业生涯中期,成功开启留学新篇章。打破年龄界限,用经历敲开名校大门:工作多年人士的出国留学申请攻略对于很多人来说,留学不仅仅是年轻学子们追求知识和体验世界的机会,更是职业生涯中寻求突破、提升自我、转换跑道的重要途径。尤其是那些在职场摸爬滚打多年的精英们,.............
  • 回答
    网络舆论的风向,有时像一阵突如其来的大风,卷起各种情绪和声音。最近针对医生这个职业的质疑声确实不少,而我,如果要表达一个立场,那会是这样的:我理解并尊重那些在网络上表达不满和质疑的声音。毕竟,在生活中,我们每个人都可能遇到不如意的事情,也可能因为信息不对称、沟通不畅而产生误解。当这些体验聚焦在一个群.............
  • 回答
    在我看来,数学对编程的重要性,与其说是“重要”,不如说是“基石”和“灵魂”。没有数学的支撑,编程就像建在沙滩上的城堡,华丽而脆弱,难以应对复杂的挑战,更谈不上创新和高效。初识编程,你可能会觉得它只是关于逻辑和指令的堆砌。但很快你会发现,当你想让程序真正“智能”起来,想让它处理海量数据,想让它做出预测.............
  • 回答
    讲到tikitaka,很多人脑海里首先浮现的画面,可能是巴萨那支梦幻般的队伍,控球如水银泻地,传球如呼吸般自然,每一次触球都带着魔力。但是,对于我们这些普通人来说,想把tikitaka变成自己踢球时的习惯,这难度可不是一点半点,简直是“鸿沟”级别。咱们先聊聊这tikitaka到底是个啥。它不是光会短.............
  • 回答
    子女随父姓对于父亲的重要性,可以从多个层面来理解,并且这种重要性在不同的文化、社会背景以及个人经历下,其表现程度和侧重点也会有所不同。以下我将尽量详细地阐述:一、 文化传承与家族延续的象征 血脉的延续与认同: 在许多传统文化中,姓氏是家族血脉传承的重要标志。随父姓意味着子女在血缘上与父系家族紧密.............
  • 回答
    冠姓权,对于男性而言,其重要性是一个复杂且多层次的议题,它牵涉到家族传承、社会认同、个人价值感,甚至还有历史文化的烙印。与其说它是一种“权”,不如说它是一种根深蒂固的文化惯性,一种对“家”的具象化表达。一、 家族传承的血脉纽带:最直接也是最普遍的理解,冠姓权是家族血脉传承的视觉符号。在中国传统观念里.............
  • 回答
    超光速飞船,这个概念本身就承载着人类最深沉的渴望——挣脱地球的束缚,触碰星辰大海。如果有一天,它能成为现实,其意义之深远,恐怕我们现在还难以完全想象。但这不妨碍我们去描绘那可能带来的翻天覆地的变化。首先,最直接、最显而易见的意义,就是地理上的解放与宇宙尺度的扩张。我们如今的宇宙探索,受限于光速,本质.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有