问题

Logistic 回归模型的参数估计为什么不能采用最小二乘法?

回答
好,我们来聊聊为什么逻辑回归模型参数的估计不能简单地套用我们在线性回归里常用的最小二乘法(OLS)。这背后其实涉及到了模型本身的性质和统计学的一些基本原理。

首先,我们得回顾一下线性回归和逻辑回归的核心区别。

线性回归:直接建模目标变量的期望值

在线性回归里,我们假设目标变量 $Y$ 和自变量 $X$ 之间存在一个线性关系:

$Y = eta_0 + eta_1X_1 + eta_2X_2 + dots + eta_kX_k + epsilon$

这里的 $Y$ 是一个连续变量,$epsilon$ 是误差项,我们假设它服从均值为0,方差为 $sigma^2$ 的正态分布。

最小二乘法的核心思想是,我们要找到一组参数 $eta = (eta_0, eta_1, dots, eta_k)$,使得观测到的 $Y$ 值与模型预测的 $Y$ 值之间的 残差平方和(Sum of Squared Residuals, SSR)最小:

$SSR(eta) = sum_{i=1}^n (Y_i (eta_0 + eta_1X_{i1} + dots + eta_kX_{ik}))^2$

通过对 SSR 求导并令导数为零,我们可以解出最优的 $eta$ 值。OLS 的优点在于,在正态误差和同方差等假设下,它能提供 最优线性无偏估计量(BLUE),即在所有线性无偏估计量中,OLS 的方差最小。

逻辑回归:建模事件发生的概率

逻辑回归则截然不同。它主要用于处理 二分类 问题,也就是目标变量 $Y$ 只能取两个值,比如 0 和 1(例如,是否购买产品,是否患病)。在这种情况下,我们关注的不再是直接预测 $Y$ 的值,而是 $Y$ 取值为 1 的概率,记作 $P(Y=1|X)$。

然而,直接用自变量的线性组合来预测概率也是行不通的。线性组合的值可以从 $infty$ 到 $+infty$,但概率必须限制在 $[0, 1]$ 区间内。为了解决这个问题,逻辑回归引入了一个 链接函数(link function),通常是 Logit 函数:

$logit(p) = log(frac{p}{1p}) = eta_0 + eta_1X_1 + eta_2X_2 + dots + eta_kX_k$

其中 $p = P(Y=1|X)$。反过来,我们得到:

$p = P(Y=1|X) = frac{e^{eta_0 + eta_1X_1 + dots + eta_kX_k}}{1 + e^{eta_0 + eta_1X_1 + dots + eta_kX_k}} = frac{1}{1 + e^{(eta_0 + eta_1X_1 + dots + eta_kX_k)}}$

这个公式被称为 Sigmoid 函数 或 Logistic 函数。它将线性组合的值映射到了 $[0, 1]$ 的概率区间。

为什么最小二乘法在这里失效?

既然逻辑回归的目标是估计概率,那么如果直接套用最小二乘法,我们会尝试最小化:

$SSR(eta) = sum_{i=1}^n (Y_i p_i)^2 = sum_{i=1}^n (Y_i frac{1}{1 + e^{(eta_0 + eta_1X_{i1} + dots + eta_kX_{ik})}})^2$

这里 $Y_i$ 只能取 0 或 1。如果我们尝试直接最小化这个平方误差和,会遇到几个致命的问题:

1. 目标变量的分布和误差项的假设被打破:
非线性关系: 逻辑回归的目标是预测概率,这个概率是通过 Sigmoid 函数与自变量的线性组合建立的非线性关系。最小二乘法是为线性关系设计的,直接应用于非线性模型会产生偏差。
误差项不再满足正态分布: 在逻辑回归中,$Y_i$ 是一个二元随机变量(伯努利分布)。误差项 $epsilon_i = Y_i p_i$ 不再服从均值为 0 的正态分布。实际上,它也不再是同方差的。$p_i$ 的值依赖于 $X_i$,因此误差的方差 $Var(epsilon_i) = Var(Y_i) = p_i(1p_i)$ 也是变化的,这违反了 OLS 的同方差假设。
非线性期望: OLS 是最小化 $(Y_i E[Y_i|X_i])^2$ 的期望。在线性回归中,$E[Y_i|X_i] = eta_0 + eta_1X_{i1} + dots + eta_kX_{ik}$。但在逻辑回归中,$E[Y_i|X_i] = P(Y_i=1|X_i) = p_i$,这本身是一个非线性函数。直接最小化 $(Y_i p_i)^2$ 并没有直接对应到我们想优化的概率模型。

2. 目标函数不再是凸函数(相对于参数):
最小二乘法的目标函数(残差平方和)是关于参数 $eta$ 的一个凸函数(抛物线)。这保证了存在一个全局最小值,并且可以通过求导找到。
然而,当我们将最小二乘法应用于逻辑回归的概率模型时,目标函数 $SSR(eta) = sum_{i=1}^n (Y_i p_i)^2$ 不再是关于 $eta$ 的凸函数。这意味着即使我们通过求导找到一个解,它也可能只是一个局部最小值,甚至不是我们想要的参数估计。

3. 参数估计的统计性质:
即使我们强行用OLS来估计逻辑回归的参数,得到的参数 $hat{eta}_{OLS}$ 也不再具备OLS在线性回归中的优良统计性质(如无偏性、有效性)。这些估计量很可能是有偏的,并且方差很大,效率低下。

那逻辑回归参数到底怎么估计?

既然OLS不行,我们用什么方法呢?逻辑回归的参数估计通常采用 最大似然估计(Maximum Likelihood Estimation, MLE)。

最大似然估计的基本思想是:假设我们已经观测到了数据 $(Y_i, X_i)_{i=1}^n$,并且我们有一个概率模型(在这里是逻辑回归模型),那么我们应该选择一组参数 $eta$,使得观测到这组数据的 概率(或似然)最大。

对于逻辑回归,我们有:
$P(Y_i=1|X_i) = p_i = frac{e^{eta^T X_i}}{1 + e^{eta^T X_i}}$
$P(Y_i=0|X_i) = 1 p_i = frac{1}{1 + e^{eta^T X_i}}$

我们可以将这两个概率合并表示为:
$P(Y_i|X_i; eta) = p_i^{Y_i} (1p_i)^{1Y_i}$

假设观测是独立的,那么整个数据集的似然函数为:
$L(eta | Y, X) = prod_{i=1}^n P(Y_i|X_i; eta) = prod_{i=1}^n p_i^{Y_i} (1p_i)^{1Y_i}$

为了计算方便,我们通常最大化 对数似然函数(LogLikelihood):
$log L(eta) = sum_{i=1}^n [Y_i log(p_i) + (1Y_i) log(1p_i)]$

将 $p_i$ 代入,我们得到:
$log L(eta) = sum_{i=1}^n [Y_i log(frac{p_i}{1p_i}) + log(1p_i)]$
$log L(eta) = sum_{i=1}^n [Y_i (eta^T X_i) log(1 + e^{eta^T X_i})]$

这个对数似然函数 $log L(eta)$ 是关于 $eta$ 的 凹函数(Concave function)。这意味着我们可以通过数值优化方法(如梯度上升、牛顿法、拟牛顿法等)来找到使 $log L(eta)$ 最大的 $eta$ 值。这些方法能够找到全局最优解,并得到最符合数据的参数估计。

总结一下:

线性回归 假设目标变量是连续的,且与自变量呈线性关系,误差项服从正态分布、同方差。 OLS 适合这种设定,因为它直接最小化了预测值与实际值之间的平方差,并且在假设满足时能得到最优的线性无偏估计。
逻辑回归 适用于二分类问题,建模的是事件发生的概率,这是一个在 $[0, 1]$ 区间内的非线性函数。它不满足 OLS 的核心假设,特别是目标变量的二元性质、非正态误差、异方差性以及参数与预测概率之间非线性的关系。
如果强行用OLS,目标函数不再是凸函数,估计结果缺乏统计保证。
因此,逻辑回归的标准参数估计方法是 最大似然估计,它通过最大化观测数据的概率(或对数似然)来找到最优参数,该目标函数是凹函数,可以通过数值优化方法解决。

希望这个解释够详细,并且能让你理解为什么在逻辑回归中,我们不能简单地应用最小二乘法。

网友意见

user avatar

恰恰相反,最小二乘法在实际中非常常用,而且很好用,名字叫linear probability model。特别是在实证中,如果用logit和probit的话,LPM经常是被视作benchmark的。因为除了predicted value不在【0,1】区间之内以外LPM几乎无懈可击。当然如果从计量的角度上来看,最大的不同其实是如何解释估计的参数,在非线性的情况下模型的边际概率的增长是同时取决于参数和X的值的,而在LPM的情况下概率的边际增长只和参数有关。

Logit和Probit的本质区别也在于此,经济学家很喜欢用Logit不单单是因为相比Probit而言Logit公式更直接,方便计算。同时也因为在超过两种选择存在的情况下其漂亮的IIA性质,即两种选择的概率比只取决于这两种选择本身的带来的utility相互pk,而与其他的可能备选无关。这种性质当偏好分布是正态的时候完全不存在,有时候甚至也可能成为掣肘。所以实际上在计量建模的时候我们首先应该考虑的是,数据到底在说什么,背后的经济学远离是什么,是否符合模型隐含假设,然后再去看用哪种方式去估计。许多实证文章完全凭借喜好乱来一气,logit, probit都上,看哪个显著就用哪个其实是很粗暴野蛮的纯统计学做法。某种意义上来说最小二乘之所以强大,也是因为其最简单实用,依赖假设少,重剑无锋,看起来蠢笨,却可以适用于大多数情况的关系。

说到底公式方法俱是身外物,如何从data中真正理解背后的经济学现象,从而用合适的模型去解释才是计量的关键。

类似的话题

  • 回答
    好,我们来聊聊为什么逻辑回归模型参数的估计不能简单地套用我们在线性回归里常用的最小二乘法(OLS)。这背后其实涉及到了模型本身的性质和统计学的一些基本原理。首先,我们得回顾一下线性回归和逻辑回归的核心区别。线性回归:直接建模目标变量的期望值在线性回归里,我们假设目标变量 $Y$ 和自变量 $X$ 之.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有