在多元线性回归中,证明某个自变量的系数与其忽略其他变量后的一元线性回归系数相等,这其实是不成立的,除非在非常特殊且不常见的情况下。大多数情况下,多元回归中的系数反映的是在控制了其他所有自变量的影响后,该自变量与因变量之间的关系。这与忽略其他变量的一元回归是根本不同的。
不过,我们可以通过数学推导来理解为什么它们不相等,以及在什么情况下它们可能会“接近”或“看起来”相等。
首先,我们回顾一下多元线性回归和一元线性回归的模型:
多元线性回归模型:
假设我们有一个因变量 $Y$ 和 $k$ 个自变量 $X_1, X_2, dots, X_k$。多元线性回归模型可以表示为:
$Y = eta_0 + eta_1 X_1 + eta_2 X_2 + dots + eta_k X_k + epsilon$
其中:
$Y$ 是因变量。
$X_1, X_2, dots, X_k$ 是自变量。
$eta_0$ 是截距项。
$eta_1, eta_2, dots, eta_k$ 是各自变量的回归系数。这些系数代表了在保持其他所有自变量不变的情况下,该自变量每增加一个单位,因变量的期望变化量。
$epsilon$ 是误差项,我们通常假设它服从均值为零、方差恒定的正态分布。
用矩阵形式表示更为简洁:
$Y = Xeta + epsilon$
其中:
$Y$ 是一个 $n imes 1$ 的因变量向量。
$X$ 是一个 $n imes (k+1)$ 的设计矩阵,第一列为全1(代表截距项),其余列为自变量 $X_1, X_2, dots, X_k$ 的观测值。
$eta$ 是一个 $(k+1) imes 1$ 的系数向量,包含 $eta_0, eta_1, dots, eta_k$。
$epsilon$ 是一个 $n imes 1$ 的误差向量。
多元线性回归的目标是找到一个系数向量 $hat{eta}$ 来最小化残差平方和 (RSS),即 $sum_{i=1}^n epsilon_i^2 = epsilon^Tepsilon$。通过最小二乘法,我们得到的估计值是:
$hat{eta} = (X^T X)^{1} X^T Y$
其中 $hat{eta}_j$ 就是自变量 $X_j$ 的多元回归系数的估计值。
一元线性回归模型:
现在,我们考虑忽略其他所有自变量,只使用自变量 $X_j$ 来预测 $Y$ 的一元线性回归模型。这个模型可以表示为:
$Y = alpha_0 + alpha_j X_j +
u$
其中:
$Y$ 是因变量。
$X_j$ 是我们关注的单个自变量。
$alpha_0$ 是截距项。
$alpha_j$ 是自变量 $X_j$ 的一元回归系数。它代表了在没有考虑任何其他自变量的情况下,$X_j$ 与 $Y$ 之间的线性关系强度和方向。
$
u$ 是误差项。
同样用矩阵形式表示,当只考虑 $X_j$ 时,设计矩阵会变得非常简单,只有截距列和 $X_j$ 列:
$Y = X_{sub} alpha +
u$
其中 $X_{sub}$ 是一个 $n imes 2$ 的矩阵,第一列是全1,第二列是 $X_j$ 的观测值。$alpha$ 是一个 $2 imes 1$ 的向量,包含 $alpha_0$ 和 $alpha_j$。
一元线性回归的系数估计值是:
$hat{alpha}_j = frac{ ext{Cov}(X_j, Y)}{ ext{Var}(X_j)}$
其中 $ ext{Cov}(X_j, Y)$ 是 $X_j$ 和 $Y$ 的协方差,$ ext{Var}(X_j)$ 是 $X_j$ 的方差。
为什么多元回归系数不等于一元回归系数?
核心原因在于多重共线性 (Multicollinearity)。在多元回归中,$hat{eta}_j$ 的估计不仅仅依赖于 $X_j$ 和 $Y$ 之间的关系,还受到其他自变量 $X_1, dots, X_{j1}, X_{j+1}, dots, X_k$ 与 $X_j$ 的相关性以及它们与 $Y$ 的相关性的影响。
我们可以从公式上更直观地理解这一点。考虑多元回归中的系数估计向量 $hat{eta} = (X^T X)^{1} X^T Y$。其中,$hat{eta}_j$ 的具体形式会涉及到 $X$ 矩阵的逆矩阵 $(X^T X)^{1}$ 的元素,而这个逆矩阵的计算包含了所有自变量之间的协方差和方差信息。
例如,对于只有两个自变量 $X_1, X_2$ 的多元回归模型:
$Y = eta_0 + eta_1 X_1 + eta_2 X_2 + epsilon$
如果我们只考虑 $X_1$ 的一元回归:
$Y = alpha_0 + alpha_1 X_1 +
u$
在多元回归中,$eta_1$ 的估计值是:
$hat{eta}_1 = frac{ ext{Cov}(X_1, Y) ext{Cov}(X_1, X_2) frac{ ext{Cov}(X_2, Y)}{ ext{Cov}(X_2, X_2)}}{ ext{Var}(X_1) ext{Cov}(X_1, X_2) frac{ ext{Cov}(X_1, X_2)}{ ext{Var}(X_2)}}$ (这是一个简化的形式,仅为说明原理,实际推导更复杂)
而 $alpha_1$ 的估计值是:
$hat{alpha}_1 = frac{ ext{Cov}(X_1, Y)}{ ext{Var}(X_1)}$
可以看出,$hat{eta}_1$ 的计算包含了 $X_1$ 和 $X_2$ 的协方差 ($ ext{Cov}(X_1, X_2)$) 以及 $X_2$ 和 $Y$ 的协方差 ($ ext{Cov}(X_2, Y)$) 的影响。如果 $X_1$ 和 $X_2$ 是相关的(即 $ ext{Cov}(X_1, X_2)
eq 0$),那么 $hat{eta}_1$ 就不会仅仅是 $ ext{Cov}(X_1, Y) / ext{Var}(X_1)$。
一个重要的证明思路(残差回归法):
虽然不能直接证明相等,但我们可以证明多元回归中的系数可以看作是通过残差回归得到的。这是一个更深刻的理解。
假设我们考虑自变量 $X_j$ 的多元回归系数 $eta_j$。在多元回归模型中,我们可以通过以下步骤来理解它:
1. 步骤一:将 $X_j$ 对其他所有自变量 ($X_{j}$,即 ${X_1, dots, X_{j1}, X_{j+1}, dots, X_k}$) 进行回归。
$X_j = gamma_{j0} + sum_{i
eq j} gamma_{ji} X_i + u$
我们得到 $X_j$ 关于 $X_{j}$ 的回归残差,记为 $X_j^$。这个 $X_j^$ 代表了“纯粹的” $X_j$ 的变异性,即排除了由其他自变量 $X_{j}$ 引起的 $X_j$ 的部分。
2. 步骤二:将因变量 $Y$ 对其他所有自变量 ($X_{j}$) 进行回归。
$Y = delta_0 + sum_{i
eq j} delta_i X_i + v$
我们得到 $Y$ 关于 $X_{j}$ 的回归残差,记为 $Y^$。这个 $Y^$ 代表了“纯粹的” $Y$ 的变异性,即排除了由其他自变量 $X_{j}$ 引起的 $Y$ 的部分。
3. 步骤三:将 $Y^$ 对 $X_j^$ 进行一元线性回归。
$Y^ = eta_j^ X_j^ + epsilon^$
此时,这个回归的系数 $eta_j^$ 正好等于多元回归模型中 $X_j$ 的系数 $eta_j$。
数学证明这个过程:
我们使用矩阵表示。设 $X_{j}$ 是除了 $X_j$ 之外的所有自变量组成的矩阵(包括截距列)。
首先,我们将 $X_j$ 对 $X_{j}$ 进行回归,得到残差 $X_j^ = X_j X_{j} (X_{j}^T X_{j})^{1} X_{j}^T X_j$。
同样地,我们将 $Y$ 对 $X_{j}$ 进行回归,得到残差 $Y^ = Y X_{j} (X_{j}^T X_{j})^{1} X_{j}^T Y$。
根据投影定理,我们可以将原始的 $X$ 矩阵分解为 $X = [X_{j} quad X_j]$。
多元回归模型为 $Y = X eta + epsilon = X_{j} eta_{j} + X_j eta_j + epsilon$(这里 $eta_{j}$ 是除了 $eta_j$ 之外的所有系数)。
我们可以证明,$Y^ = Y ext{Proj}_{X_{j}}(Y)$ 且 $X_j^ = X_j ext{Proj}_{X_{j}}(X_j)$。
其中 $ ext{Proj}_{Z}(W) = Z(Z^T Z)^{1} Z^T W$ 是将 $W$ 投影到由 $Z$ 张成的空间上的算子。
现在考虑将 $Y^$ 对 $X_j^$ 进行一元回归:
$hat{eta}_j = frac{ ext{Cov}(X_j^, Y^)}{ ext{Var}(X_j^)}$
进一步的矩阵代数证明(涉及投影矩阵和代数运算)可以表明,这个 $hat{eta}_j$ 实际上与多元回归模型中 $(X^T X)^{1} X^T Y$ 推导出的 $hat{eta}_j$ 是相等的。
那么,为什么这不等于忽略其他变量后的一元回归?
一元回归是直接计算 $hat{alpha}_j = frac{ ext{Cov}(X_j, Y)}{ ext{Var}(X_j)}$。
在上面的残差回归证明中,我们是先剔除了 $X_{j}$ 对 $Y$ 和 $X_j$ 的影响,然后再计算了 $X_j^$ 和 $Y^$ 的关系。
简单来说:
一元回归 $hat{alpha}_j$: 直接衡量 $X_j$ 与 $Y$ 的线性相关程度,未考虑任何其他因素。它可能包含了 $X_j$ 和 $Y$ 之间以及 $X_j$ 和 $X_{j}$ 之间存在间接联系(通过 $X_{j}$ 影响 $Y$)的部分。
多元回归 $hat{eta}_j$: 衡量的是在控制了所有其他自变量 $X_{j}$ 的影响之后,$X_j$ 对 $Y$ 产生的独立影响。它消除了 $X_{j}$ 对 $X_j$ 和 $Y$ 的共同影响,只保留了 $X_j$ 本身对 $Y$ 的直接贡献。
什么时候可能“接近”?
当自变量之间几乎没有多重共线性时,即 $ ext{Cov}(X_i, X_j) approx 0$ 对于所有 $i
eq j$ 时,多元回归的系数会非常接近对应的一元回归系数。在这种情况下,$X_j^$ 的变异性将非常接近 $X_j$ 的变异性,并且 $Y^$ 的变异性也将非常接近 $Y$ 的变异性(在剔除其他自变量影响后)。
总结:
多元线性回归中自变量的系数,反映的是在控制了其他所有自变量的影响后,该自变量与因变量之间的边际效应或独立效应。这与忽略其他变量后的一元线性回归系数是根本不同的。一元回归系数衡量的是未经过滤的、总体的相关性。
可以通过残差回归的思路来证明,多元回归系数实际上是“净化”后的自变量与“净化”后的因变量之间的一元回归系数,这种净化过程正是去除了其他自变量的影响。因此,除非自变量之间不存在多重共线性,否则两者不会相等。
希望这个详细的解释能够清晰地阐述这两者之间的区别以及数学上的联系。