问题

最大似然估计和最小二乘法怎么理解?

回答
最大似然估计(Maximum Likelihood Estimation, MLE)和最小二乘法(Least Squares Method, LSM)是统计学和机器学习中两种非常核心且常用的参数估计方法。虽然它们在解决问题时有相似之处,但底层的思想和适用的场景有所不同。下面我将详细解释这两种方法。

一、 最大似然估计(Maximum Likelihood Estimation, MLE)

核心思想:

最大似然估计的核心思想是:“在给定的模型下,选择最有可能产生我们观测到的数据的参数值。”

换句话说,我们手里有一堆数据(观测值),并且我们假设这些数据是遵循某个概率分布的,这个概率分布由一些未知的参数决定(例如,一个正态分布的均值和方差,一个二项分布的概率)。MLE就是要找到一组参数,使得我们观测到的这组数据出现的概率最大。

详细解释:

1. 模型(Probability Distribution/Likelihood Function):
首先,我们需要对数据生成的过程做出一个假设,即假设数据服从某个概率分布。这个分布有一个或多个需要估计的参数(我们称之为 $ heta$)。
例如,如果我们观察到一系列抛硬币的结果(正面/反面),我们可以假设这是一个二项分布,其参数是硬币正面朝上的概率 $p$。
对于一组离散数据 $x_1, x_2, ldots, x_n$,假设它们是独立同分布(i.i.d.)地从某个概率分布 $P(x| heta)$ 中抽取的。
对于一组连续数据 $x_1, x_2, ldots, x_n$,假设它们是独立同分布(i.i.d.)地从某个概率密度函数 $f(x| heta)$ 中抽取的。

2. 似然函数(Likelihood Function):
似然函数 $L( heta | x_1, ldots, x_n)$ 定义为在给定观测数据 $x_1, ldots, x_n$ 的情况下,参数 $ heta$ 的概率(或概率密度)。
由于我们假设数据是独立同分布的,所以观测到这一系列数据的联合概率是各个数据出现概率的乘积:
离散数据:$L( heta | x_1, ldots, x_n) = P(x_1| heta) imes P(x_2| heta) imes ldots imes P(x_n| heta) = prod_{i=1}^n P(x_i| heta)$
连续数据:$L( heta | x_1, ldots, x_n) = f(x_1| heta) imes f(x_2| heta) imes ldots imes f(x_n| heta) = prod_{i=1}^n f(x_i| heta)$
注意:似然函数 $L( heta | mathbf{x})$ 是关于参数 $ heta$ 的函数,而我们通常说的概率密度函数(PDF)或概率质量函数(PMF) $f(x| heta)$ 是关于数据 $x$ 的函数(在参数 $ heta$ 给定的情况下)。虽然数学表达式形式上类似(都是乘积),但它们关注的对象和意义不同。

3. 最大化似然函数:
我们的目标是找到一个参数值 $hat{ heta}$,使得似然函数 $L( heta | x_1, ldots, x_n)$ 的值最大。
即,$hat{ heta}_{ ext{MLE}} = arg max_{ heta} L( heta | x_1, ldots, x_n)$。
为什么要最大化这个乘积?因为这个乘积代表了“在参数 $ heta$ 下,我们观测到的这组数据出现的可能性有多大”。MLE就是要找到最有可能解释我们数据的参数。

4. 对数似然(LogLikelihood):
在实际计算中,直接最大化乘积的形式通常比较困难(容易出现数值溢出,且求导复杂)。由于对数函数是单调递增的,最大化 $L( heta)$ 等价于最大化 $log L( heta)$。
因此,我们通常最大化对数似然函数:
$ell( heta | x_1, ldots, x_n) = log L( heta | x_1, ldots, x_n) = sum_{i=1}^n log P(x_i| heta)$ (离散)
$ell( heta | x_1, ldots, x_n) = log L( heta | x_1, ldots, x_n) = sum_{i=1}^n log f(x_i| heta)$ (连续)
将乘积变成求和,求导就变得容易了。

5. 求解方法:
可以通过对对数似然函数 $ell( heta)$ 关于参数 $ heta$ 求导,令导数等于零,然后解方程来找到最大值点。
对于一些分布,可能没有解析解,需要使用数值优化方法(如梯度下降、牛顿法等)来寻找最大值。

MLE 的优点:

渐近性质良好: 在许多情况下,当样本量增大时,MLE 估计量具有一致性(收敛到真实参数)、渐近正态性(服从正态分布)和渐近有效性(方差最小)。
应用广泛: 适用于各种概率分布的参数估计,是许多统计模型和机器学习算法的基础。
直观的解释: 思想清晰,就是找到最能解释数据的参数。

MLE 的缺点:

需要模型假设: 必须预先设定数据的概率分布模型,如果模型选错,结果可能不准确。
计算可能复杂: 对于复杂的模型,可能需要数值优化方法。
可能存在偏差: 对于小样本,MLE 可能不是无偏估计量。



二、 最小二乘法(Least Squares Method, LSM)

核心思想:

最小二乘法的核心思想是:“找到一组参数,使得模型预测值与实际观测值之间的差异(残差)的平方和最小。”

与MLE不同,最小二乘法通常直接关注的是模型的预测误差,而不是数据的概率分布。它假设我们有一个模型,该模型根据输入变量预测输出变量,而这个模型包含一些需要估计的参数。

详细解释:

1. 模型(Regression Model):
我们假设输入变量 $mathbf{x} = (x_1, x_2, ldots, x_m)$ 和输出变量 $y$ 之间存在某种关系,并且这个关系可以用一个模型来表示。
最常见的是线性模型:$y approx mathbf{w}^T mathbf{x} + b$ 或更一般的形式,如 $y = f(mathbf{x}; oldsymbol{ heta})$,其中 $oldsymbol{ heta}$ 是模型的参数。
对于一组观测数据 $(mathbf{x}_i, y_i)$,我们希望找到参数 $oldsymbol{ heta}$,使得模型预测值 $hat{y}_i = f(mathbf{x}_i; oldsymbol{ heta})$ 尽可能地接近实际观测值 $y_i$。

2. 残差(Residuals):
对于每个观测点 $i$,模型预测值与实际观测值之间的差异称为残差:$e_i = y_i hat{y}_i = y_i f(mathbf{x}_i; oldsymbol{ heta})$。

3. 最小化残差平方和(Sum of Squared Residuals, SSR):
最小二乘法的目标是找到参数 $oldsymbol{ heta}$,使得所有残差的平方和最小化。为什么是平方和?
避免正负抵消: 直接求和残差可能会因为正负残差相互抵消而导致误差看似很小,即使实际预测效果很差。平方后,所有误差都是正数,能够真实反映误差的大小。
惩罚较大的误差: 平方操作会不成比例地惩罚较大的误差,使得模型更倾向于避免大的预测错误。
数学上的便利性: 平方项是可导的,便于使用微积分的方法求解。
因此,我们定义损失函数为残差平方和(SSR)或称为成本函数(Cost Function):
$SSR(oldsymbol{ heta}) = sum_{i=1}^n e_i^2 = sum_{i=1}^n (y_i f(mathbf{x}_i; oldsymbol{ heta}))^2$
我们的目标是找到使 SSR 最小的参数:
$hat{oldsymbol{ heta}}_{ ext{LS}} = arg min_{oldsymbol{ heta}} sum_{i=1}^n (y_i f(mathbf{x}_i; oldsymbol{ heta}))^2$

4. 求解方法(以线性回归为例):
对于线性模型 $y = mathbf{w}^T mathbf{x} + b$,我们可以将参数写成一个向量 $oldsymbol{ heta} = (mathbf{w}, b)$。或者为了统一,我们给 $mathbf{x}$ 添加一个常数项 1,使模型变为 $y = mathbf{ heta}^T mathbf{x}'$,其中 $mathbf{x}' = (mathbf{x}, 1)$。
写成矩阵形式:$mathbf{y} = mathbf{X} oldsymbol{ heta} + oldsymbol{epsilon}$,其中 $mathbf{y}$ 是观测到的 $y$ 值向量,$mathbf{X}$ 是包含输入特征(每行一个样本,每列一个特征,第一列全为1代表常数项)的矩阵,$oldsymbol{ heta}$ 是参数向量,$oldsymbol{epsilon}$ 是误差向量。
最小二乘的目标是最小化 $||mathbf{y} mathbf{X} oldsymbol{ heta}||^2$。
对损失函数关于 $oldsymbol{ heta}$ 求导并令导数等于零,可以得到解析解(正规方程):
$hat{oldsymbol{ heta}}_{ ext{LS}} = (mathbf{X}^T mathbf{X})^{1} mathbf{X}^T mathbf{y}$

LSM 的优点:

直观且易于理解: “最小化误差”是很容易理解的目标。
计算效率高(对于线性模型): 特别是对于线性回归,存在直接的解析解,计算速度快。
对异常值敏感度相对较低(相比绝对偏差): 虽然平方会放大大的误差,但相比于直接取绝对值,在某些情况下可能更平滑。
与概率模型(高斯噪声)联系: 当假设观测误差服从均值为零、方差恒定的正态分布时(即 $y_i sim N(f(mathbf{x}_i; oldsymbol{ heta}), sigma^2)$),最小二乘法恰好是最大似然估计。这是两者在某些场景下联系起来的关键。

LSM 的缺点:

对异常值敏感: 平方操作会不成比例地放大较大的误差,使得模型容易受到异常值的影响。
模型假设: 主要用于预测关系,不直接考虑数据的概率分布,但其最优性推导常依赖于特定的误差分布假设(如高斯分布)。
非线性模型可能需要迭代: 对于非线性模型,最小化平方和可能需要迭代优化方法,失去了解析解的优势。



三、 最大似然估计(MLE)与最小二乘法(LSM)的关系与区别

联系:

1. 高斯噪声下的等价性: 最重要的联系是,当假设观测误差服从独立同分布的均值为零、方差为 $sigma^2$ 的正态分布时(即 $y_i = f(mathbf{x}_i; oldsymbol{ heta}) + epsilon_i$,其中 $epsilon_i sim N(0, sigma^2)$),最小二乘法实际上就是该模型下的最大似然估计。
在这种情况下,似然函数是 $L(oldsymbol{ heta}, sigma^2 | mathbf{y}, mathbf{X}) = prod_{i=1}^n frac{1}{sqrt{2pisigma^2}} expleft(frac{(y_i f(mathbf{x}_i; oldsymbol{ heta}))^2}{2sigma^2} ight)$。
最大化这个似然函数(关于 $oldsymbol{ heta}$ 和 $sigma^2$)等价于最小化 $log L(oldsymbol{ heta}, sigma^2 | mathbf{y}, mathbf{X})$。
经过一番推导,你会发现最小化这个负对数似然函数(关于 $oldsymbol{ heta}$)恰好就是最小化残差平方和 $sum_{i=1}^n (y_i f(mathbf{x}_i; oldsymbol{ heta}))^2$。

2. 优化目标: 两者都是通过某种形式的“最小化差异”或“最大化可能性”来找到最佳参数。

区别:

1. 出发点:
MLE: 从概率分布的角度出发,寻找最能解释观测数据的参数。强调的是数据的“生成过程”和“概率”。
LSM: 从模型预测误差的角度出发,寻找使预测值与真实值偏差最小的参数。强调的是模型的“拟合度”和“预测精度”。

2. 普适性:
MLE: 更为普适。它可以应用于任何有明确概率分布假设的参数估计问题,不仅仅限于回归问题。例如,估计泊松分布的参数,高斯混合模型的参数等。
LSM: 主要用于解决回归问题,即预测连续变量。虽然也可以推广,但其核心思想直接与“预测误差平方和”关联。

3. 模型假设:
MLE: 需要明确指定数据的概率分布模型。
LSM: 本身不强制要求数据的概率分布,它关心的是模型预测与实际值之间的差距。但其理论最优性的推导通常会引入关于误差分布的假设(如高斯)。

4. 对异常值的处理:
MLE: 对异常值的敏感度取决于所选的概率分布。例如,如果选择高斯分布,MLE 也会对异常值敏感。但如果选择更鲁棒的分布(如学生t分布),MLE 的鲁棒性会提高。
LSM: 由于平方项的存在,对异常值比较敏感。

5. 损失函数的选择:
MLE: 损失函数(负对数似然)是根据概率分布的性质推导出来的。
LSM: 损失函数(残差平方和)是直接定义出来的,目标是最小化误差。

总结:

你可以将最小二乘法看作是最大似然估计在“假设误差服从独立同分布高斯分布的回归问题”下的一个特例。在许多常见场景下,它们的结果是相同的。然而,当你需要处理非高斯噪声、需要根据数据生成过程来选择模型,或者面临其他非回归问题时,MLE 提供了更灵活和更具理论指导意义的方法。而最小二乘法因其简单直观和计算高效,在回归任务中仍然是极其重要和广泛应用的。

网友意见

user avatar

最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。

最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为least square,其实英文的字面意思是“平方最小”。这时,将这个差的平方的和式对参数求导数,并取一阶导数为零,就是OLSE。

user avatar

谢邀,这个问题下的答案很多是直接从机器学习领域过来回答的,很有启发性,让我了解了在别的领域是如何理解这两种方法的。论及本质,其实两者只是用不同的度量空间来进行的投影,如同 @颢卿 的答案所提到的那样,OLS的度量是L2 norm distance,而极大似然的度量是Kullback-Leibler divergence.


不过这种高度抽象的统一框架,主要功能就是让人听起来很优雅很爽,满足了人对形式美的追求,缺点也很明显:

  1. 不在概率论方面下一些功夫不太能真正理解
  2. 无法直接拿过来应用

所以在大多数情况下,我们介绍这两种方法的时候,可能并不需要讲解这么抽象的东西。好,下面我们开始说人话^_^


设想一个例子,教育程度和工资之间的关系。我们观察到的数据无非就是一个教育程度,对应着一个工资。我们希望的自然是找到两者之间的规律:如果把教育程度的初中、高中、大学、研究生及博士定义为1234的话,我们希望找到类似于工资=1000 +2000x教育程度 的这种规律,其中1000和2000是我们需要从数据里面发现的,前者称之为底薪,后者称之为教育增量薪水。

如果我们就观察到两个数据,那解起来很简单,直接把两个数据带进去,二元一次方程组,就得到底薪和教育程度增量薪水之间的关系。这个在图上就体现为两点决定一条直线:

但是如果现在有三个数据,怎么办呢?如果这三个点不在一条线上,我们就需要作出取舍了,如果我们取任意两个点,那么就没有好好的利用第三个点带来的新信息,并且因为这三个点在数据中的地位相同,我们如何来断定应该选用哪两个点来作为我们的基准呢?这就都是问题了。这个时候我们最直观的想法就是『折衷』一下,在这三个数据,三条线中间取得某种平衡作为我们的最终结果,类似于图中的红线这样:

那怎么取平衡呢?那我们现在必须引入误差的存在,也就是我们要承认观测到的数据中有一些因素是不可知的,不能完全的被学历所解释。而这个不能解释的程度,自然就是每个点到红线在Y轴的距离。


但是我们尽管痛苦的承认了有不能解释的因素,但是我们依然想尽可能的让这种『不被解释』的程度最小,于是我们就想最小化这种不被解释的程度。因为点可能在线的上面或者下面,故而距离有正有负,取绝对值又太麻烦,于是我们就直接把每个距离都取一个平方变成正的,然后试图找出一个距离所有点的距离的平方最小的这条线,这就是最小二乘法了,简单粗暴而有效。


而极大似然则更加的有哲理一些。还用上面的例子,我们观察到了三个点,于是我们开始反思,为什么我们观察到的是这三个点而不是另外三个?大千世界,芸芸众生,这么多人都有不同的工资,不同的学历,但是偏偏这三个点让我给观察到了。这肯定说明了某种世界的真相。


什么世界的真相呢?因为我们观察到了这三个点,反过来说,冥冥之中注定了这三个点被我们观察到的概率可能是最大的。所以我们希望找到一个特定的底薪和教育增量薪水的组合,让我们观察到这三个点的概率最大,这个找的过程就是极大似然估计。


具体的做法很简单,因为底薪和教育增量薪水虽然我们不知道,但是它一定存在,所以是个固定的值,能够随机变动的就是我们观察不到的神秘误差,那么给定一组底薪和教育增量薪水,必然存在一个唯一的误差与之对应,共同组合成了我们看到的数据。比如说,我们观察到一个人是:

高中毕业(学历变量=2) 工资 4500,如果我们假定工资=1000 +2000x教育程度的话,那么理论上工资应该是5000,而我们观察到了4500,所以这个时候误差为500。而误差=500,根据我们假设的误差的概率函数,总是存在一个概率与之相对应的(这个概率的分布我们可以假设)。而极大似然估计,就是把我们观察到每个样本所对应的误差的概率乘到一起,然后试图调整参数以最大化这个概率的乘积。


其背后的直觉是:假想有一个神秘的超自然力量,他全知全能,自然也知道真实的数据背后的规律。他在你抽样之前先做了一次复杂的计算,把无数个可能的抽样中,最可能出现的那个抽样展示给你。于是你根据这个抽样,逆流而上,倒推出来了数据背后的真实规律。


总结一句话,最小二乘法的核心是权衡,因为你要在很多条线中间选择,选择出距离所有的点之和最短的;而极大似然的核心是自恋,要相信自己是天选之子,自己看到的,就是冥冥之中最接近真相的。^_^

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有