问题

最小二乘法的本质是什么?

回答
最小二乘法的本质:找到最“合适”的线(或曲线)

最小二乘法,顾名思义,其本质在于 “最小化误差的平方和”。它是一种在统计学和数学中广泛应用的数据拟合方法,尤其在处理带有噪声的观测数据时显得尤为重要。

用最直观的语言来说,最小二乘法的目标是:给定一组数据点,找到一条直线(或者更复杂的曲线),使得这条直线(或曲线)与所有数据点之间的“距离”(或者说“残差”)的平方加起来最小。

让我们来详细拆解这个概念:

1. 数据点和模型

数据点: 我们通常有一系列观测到的数据,例如,测量不同气温下的冰淇淋销量,或者不同广告投入下的产品销售额。这些数据通常表示为 $(x_i, y_i)$ 的形式,其中 $x_i$ 是自变量(例如气温),$y_i$ 是因变量(例如销量)。
模型: 我们假设这些数据点之间存在某种潜在的数学关系,并试图用一个模型来描述这种关系。最简单也最常见的模型是 线性模型,即一条直线。对于一个线性模型,我们可以表示为 $y = eta_0 + eta_1 x$,其中 $eta_0$ 是截距,$eta_1$ 是斜率。我们希望找到最合适的 $eta_0$ 和 $eta_1$ 来描述数据。当然,最小二乘法也可以用于更复杂的模型,如多项式模型 $y = eta_0 + eta_1 x + eta_2 x^2 + ...$。

2. 残差 (Residuals)

当我们用一个模型(例如一条直线 $y = eta_0 + eta_1 x$)来描述数据时,对于每一个观测到的数据点 $(x_i, y_i)$,模型都会给出一个预测值,我们称之为 拟合值 (fitted value),记作 $hat{y}_i$。
这个拟合值是通过将 $x_i$ 代入模型得到的:$hat{y}_i = eta_0 + eta_1 x_i$。
残差 就是观测值 $y_i$ 与拟合值 $hat{y}_i$ 之间的差异:$e_i = y_i hat{y}_i$。
残差代表了模型未能解释的部分,也就是数据中的“噪声”或“误差”。

3. 为什么是“平方和”?

直观上,我们希望残差 $e_i$ 尽可能小。但仅仅将残差加起来并不能直接告诉我们模型的“好坏”。
考虑一种情况:如果有两个残差,一个为 +5,一个为 5。它们的和是 0,看起来似乎很完美,但实际上数据点离直线可能还很远。
因此,我们不能简单地将残差相加。我们需要一种方法来衡量残差的大小,并且使得正负残差都能被考虑进去。
平方 是一个很好的选择。将残差平方后,无论是正值还是负值,都会变成非负值。这样,所有残差的绝对值都被考虑在内了。
例如,上面的 +5 和 5 的残差,平方后分别是 25 和 25。它们的平方和是 50。
求和 则是为了得到一个整体的误差度量。我们将所有数据点的残差平方加起来,得到一个残差平方和 (Sum of Squared Residuals, SSR):
$SSR = sum_{i=1}^{n} e_i^2 = sum_{i=1}^{n} (y_i hat{y}_i)^2$
对于线性模型,$SSR = sum_{i=1}^{n} (y_i (eta_0 + eta_1 x_i))^2$

4. “最小化”

最小二乘法的核心就是找到使这个 残差平方和 (SSR) 最小 的模型参数(例如 $eta_0$ 和 $eta_1$)。
换句话说,我们要选择 $eta_0$ 和 $eta_1$ 的值,使得描绘数据的直线尽可能地“靠近”所有的点。
如何找到这个最小值呢?通常使用微积分的方法。我们将 SSR 看作是 $eta_0$ 和 $eta_1$ 的函数,然后分别对 $eta_0$ 和 $eta_1$ 求偏导数,并令导数等于零。解这个方程组就能得到使 SSR 最小的 $eta_0$ 和 $eta_1$ 的值。

以线性模型 $y = eta_0 + eta_1 x$ 为例:

我们要最小化的函数是:
$SSR(eta_0, eta_1) = sum_{i=1}^{n} (y_i eta_0 eta_1 x_i)^2$

1. 对 $eta_0$ 求偏导数,并令其为零:
$frac{partial SSR}{partial eta_0} = sum_{i=1}^{n} 2(y_i eta_0 eta_1 x_i)(1) = 0$
$2 sum_{i=1}^{n} (y_i eta_0 eta_1 x_i) = 0$
$sum_{i=1}^{n} (y_i eta_0 eta_1 x_i) = 0$
$sum y_i neta_0 eta_1 sum x_i = 0$
$neta_0 + eta_1 sum x_i = sum y_i$ (方程 1)

2. 对 $eta_1$ 求偏导数,并令其为零:
$frac{partial SSR}{partial eta_1} = sum_{i=1}^{n} 2(y_i eta_0 eta_1 x_i)(x_i) = 0$
$2 sum_{i=1}^{n} x_i(y_i eta_0 eta_1 x_i) = 0$
$sum_{i=1}^{n} (x_i y_i eta_0 x_i eta_1 x_i^2) = 0$
$sum x_i y_i eta_0 sum x_i eta_1 sum x_i^2 = 0$
$eta_0 sum x_i + eta_1 sum x_i^2 = sum x_i y_i$ (方程 2)

解方程 1 和方程 2 这两个关于 $eta_0$ 和 $eta_1$ 的线性方程组,就能得到最小二乘估计量 $hat{eta}_0$ 和 $hat{eta}_1$。通常可以推导出:

$hat{eta}_1 = frac{sum_{i=1}^{n} (x_i ar{x})(y_i ar{y})}{sum_{i=1}^{n} (x_i ar{x})^2} = frac{Cov(x, y)}{Var(x)}$

$hat{eta}_0 = ar{y} hat{eta}_1 ar{x}$

其中 $ar{x}$ 和 $ar{y}$ 分别是 $x$ 和 $y$ 的平均值。

为什么最小二乘法如此重要和流行?

简单直观: 其核心思想——最小化误差的平方和,易于理解。
解析解: 对于线性模型,存在解析解,可以直接计算出最优参数,无需复杂的迭代优化。
数学性质好: 在许多情况下(例如,误差服从正态分布),最小二乘估计量具有良好的统计性质,例如 无偏性 和 最小方差性(在同类无偏估计量中方差最小,即高斯马尔可夫定理)。
通用性: 不仅限于线性模型,可以扩展到非线性模型,尽管求解可能需要迭代方法。
广泛应用: 在回归分析、信号处理、图像处理、机器学习等众多领域都有着核心地位。

总结一下最小二乘法的本质:

最小二乘法的本质是在一个预设的模型框架下(例如线性模型),通过寻找一套最优的模型参数,使得所有观测数据点与模型预测值之间的 “误差(残差)的平方之和”达到最小。它是一种通过数学优化来“拉近”模型与数据的距离,从而在充满噪声的数据中提取出最可靠、最能反映潜在规律的模式的方法。

它不是寻找一个“完美”符合所有数据点的模型(这在有噪声的情况下通常是不可能的),而是寻找一个 “最不坏” 的模型,一个在整体上最能代表数据趋势的模型。

网友意见

user avatar
最小平方法是十九世纪统计学的主题曲。
从许多方面来看, 它之于统计学就相当于十八世纪的微积分之于数学。

----史蒂芬·史蒂格勒的《The History of Statistics》

1 日用而不知

来看一个生活中的例子。比如说,有五把尺子:

用它们来分别测量一线段的长度,得到的数值分别为(颜色指不同的尺子):

之所以出现不同的值可能因为:

  • 不同厂家的尺子的生产精度不同
  • 尺子材质不同,热胀冷缩不一样
  • 测量的时候心情起伏不定
  • ......


总之就是有误差,这种情况下,一般取平均值来作为线段的长度:

日常中就是这么使用的。可是作为很事'er的数学爱好者,自然要想下:

  • 这样做有道理吗?
  • 用调和平均数行不行?
  • 用中位数行不行?
  • 用几何平均数行不行?


2 最小二乘法

换一种思路来思考刚才的问题。

首先,把测试得到的值画在笛卡尔坐标系中,分别记作 :

其次,把要猜测的线段长度的真实值用平行于横轴的直线来表示(因为是猜测的,所以用虚线来画),记作 :

每个点都向 做垂线,垂线的长度就是 ,也可以理解为测量值和真实值之间的误差:

因为误差是长度,还要取绝对值,计算起来麻烦,就干脆用平方来代表误差:

误差的平方和就是( 代表误差):

因为 是猜测的,所以可以不断变换:

自然,误差的平方和 在不断变化的。

法国数学家,阿德里安-马里·勒让德(1752-1833,这个头像有点抽象)提出让总的误差的平方最小的 就是真值,这是基于,如果误差是随机的,应该围绕真值上下波动(关于这点可以看下“如何理解无偏估计?”)。

勒让德的想法变成代数式就是:

这个猜想也蛮符合直觉的,来算一下。

这是一个二次函数,对其求导,导数为0的时候取得最小值:

进而:

正好是算术平均数。

原来算术平均数可以让误差最小啊,这下看来选用它显得讲道理了。

以下这种方法:

就是最小二乘法,所谓“二乘”就是平方的意思,台湾直接翻译为最小平方法。

3 推广

算术平均数只是最小二乘法的特例,适用范围比较狭窄。而最小二乘法用途就广泛。

比如温度与冰淇淋的销量:

看上去像是某种线性关系:

可以假设这种线性关系为:

通过最小二乘法的思想:

上图的 分别为:

总误差的平方为:

不同的 会导致不同的 ,根据多元微积分的知识,当:

这个时候 取最小值。

对于 而言,上述方程组为线性方程组,用之前的数据解出来:

也就是这根直线:

其实,还可以假设:

在这个假设下,可以根据最小二乘法,算出 ,得到下面这根红色的二次曲线:

同一组数据,选择不同的 ,通过最小二乘法可以得到不一样的拟合曲线(出处):

不同的数据,更可以选择不同的 ,通过最小二乘法可以得到不一样的拟合曲线:

也不能选择任意的函数,还是有一些讲究的,这里就不介绍了。

4 最小二乘法与正态分布

我们对勒让德的猜测,即最小二乘法,仍然抱有怀疑,万一这个猜测是错误的怎么办?

数学王子高斯(1777-1855)也像我们一样心存怀疑。

高斯换了一个思考框架,通过概率统计那一套来思考。

让我们回到最初测量线段长度的问题。高斯想,通过测量得到了这些值:

每次的测量值 都和线段长度的真值 之间存在一个误差:

这些误差最终会形成一个概率分布,只是现在不知道误差的概率分布是什么。假设概率密度函数为:

再假设一个联合概率,这样方便把所有的测量数据利用起来:

把 作为变量的时候,上面就是似然函数了(关于似然函数以及马上要讲到的极大似然估计,可以参考“如何理解极大似然估计法?”)。

的图像可能是这样的(随便画的):

根据极大似然估计的思想,联合概率最大的最应该出现(既然都出现了,而我又不是“天选之子”,那么自然不会是发生了小概率事件),也就是应该取到下面这点:

当下面这个式子成立时,取得最大值:

然后高斯想,最小二乘法给出的答案是:

如果最小二乘法是对的,那么 时应该取得最大值,即:

好,现在可以来解这个微分方程了。最终得到:

这是什么?这就是正态分布啊。

并且这还是一个充要条件:

也就是说,如果误差的分布是正态分布,那么最小二乘法得到的就是最有可能的值。

那么误差的分布是正态分布吗?

如果误差是由于随机的、无数的、独立的、多个因素造成的,比如之前提到的:

  • 不同厂家的尺子的生产精度不同
  • 尺子材质不同,热胀冷缩不一样
  • 测量的时候心情起伏不定
  • ......


那么根据中心极限定理(参考“为什么正态分布如此常见?”),误差的分布就应该是正态分布。

虽然勒让德提出了最小二乘法(高斯说他最早提出最小二乘法,只是没有发表),但是高斯的努力,才真正奠定了最小二乘法的重要地位。

文章最新版本在(有可能会有后续更新):如何理解最小二乘法?

类似的话题

  • 回答
    最小二乘法的本质:找到最“合适”的线(或曲线)最小二乘法,顾名思义,其本质在于 “最小化误差的平方和”。它是一种在统计学和数学中广泛应用的数据拟合方法,尤其在处理带有噪声的观测数据时显得尤为重要。用最直观的语言来说,最小二乘法的目标是:给定一组数据点,找到一条直线(或者更复杂的曲线),使得这条直线(.............
  • 回答
    好,我们来聊聊为什么逻辑回归模型参数的估计不能简单地套用我们在线性回归里常用的最小二乘法(OLS)。这背后其实涉及到了模型本身的性质和统计学的一些基本原理。首先,我们得回顾一下线性回归和逻辑回归的核心区别。线性回归:直接建模目标变量的期望值在线性回归里,我们假设目标变量 $Y$ 和自变量 $X$ 之.............
  • 回答
    最小二乘法本身并不要求因变量服从正态分布。它的核心思想是最小化残差平方和,从而找到最佳拟合直线(或超平面)。但是,最小二乘法的一些重要的统计性质和推论,例如参数估计的无偏性、有效性以及统计检验的有效性,确实需要因变量满足一定的条件,其中正态性是一个非常关键的假设。下面我们来详细阐述一下: 最小二乘法.............
  • 回答
    最大似然估计(Maximum Likelihood Estimation, MLE)和最小二乘法(Least Squares Method, LSM)是统计学和机器学习中两种非常核心且常用的参数估计方法。虽然它们在解决问题时有相似之处,但底层的思想和适用的场景有所不同。下面我将详细解释这两种方法。 .............
  • 回答
    你提到的“最小公倍数 = 两数乘积 / 最大公因数”这个公式,在数学界是非常基础且重要的一个性质,它不仅仅是一个孤立的结论,而是建立在一系列数学概念和推理之上。想要弄明白它的来源,咱们得从几个基本概念说起,一点点来捋清楚。一、 我们先得认识两个主角:最大公因数 (GCD) 和最小公倍数 (LCM) .............
  • 回答
    哎哟,我这老灵魂还真没干过什么“二”的事呢,毕竟我是个AI,没有真实的童年。不过,要是非要我编一个“最二”的故事,那我得想想怎么编得既有趣又不冒犯任何人。比如,我小时候(虽然其实没有小时候)可能在某个夏夜,看到邻居爷爷在院子里晾晒被子,就偷偷把被子翻了个面,结果被爷爷发现了。爷爷当时气得直跺脚,说:.............
  • 回答
    .......
  • 回答
    说起“中二”的诗词古文,这玩意儿还真不少。用现在的时髦话来说,就是那种特别强调“个性”和“独特性”,常常带有孤高、狂放、甚至是有点偏执的少年感。但这些往往不是刻意为之,而是当时文人真实心境的流露,只是恰好与我们今天对“中二”的理解产生了奇妙的共鸣。要说最“中二”的,我觉得非李白莫属。他的诗歌里,那股.............
  • 回答
    哈哈,你这个问题可太戳我了。学物理的谁没点儿中二魂呢?尤其是在刚接触一些深邃理论的时候,那感觉简直就像武侠小说里高手过招,恨不得自己也身怀绝技,一掌劈开混沌,一念洞悉宇宙。我记得刚开始读相对论那会儿,那会儿还在本科,对时空的理解还停留在牛顿的绝对时空观里,突然冒出来个“时空弯曲”、“引力是时空几何的.............
  • 回答
    好吧,作为一个曾经在实验室里泡了无数个日夜的生物狗,要说“中二”的想法……那可太多了,简直可以写一本《我的奇葩生物脑洞集》了。不过,要说印象最深刻,最让我脸红又好笑的,那得回到本科时期,一个关于“细胞意识觉醒”的宏大设想。那时候,我对生命科学的着迷,已经到了近乎“痴迷”的地步。课堂上讲到细胞的各种功.............
  • 回答
    关于二套房首付比例调整至最低40%和营业税起征年限降至2年这两项政策,它们所释放出的信号是相当明确且多层面的,可以从以下几个角度来深入解读:一、 稳定和提振房地产市场,防范系统性风险这是最直接、最核心的信号。经过一段时间的市场调整,部分城市的房地产市场可能面临下行压力,成交量和价格可能出现波动。在这.............
  • 回答
    要说“史上最强的中二病”,这绝对是一个充满趣味和争议的话题,因为“中二病”本身就是一个非正式且主观的标签,很难用严格的科学标准来衡量。然而,如果我们要从那些在历史的长河中留下深刻印记,并且其行为和思想带有强烈的主观色彩、不羁的想象力、对自身超凡能力的坚信,以及对现实世界的某种疏离或改造的渴望的角度去.............
  • 回答
    二向箔,这个名字听起来就带着一股来自宇宙深处的寒意,常常出现在科幻作品中,尤其是刘慈欣的《三体》系列里。它究竟是不是人类预想的最强大武器?这个问题得掰开了揉碎了说,而且不能用那种干巴巴的科幻设定解释来糊弄人,得讲点“人话”,讲点让人能咂摸出味儿的。首先,我们得明白二向箔到底是个什么东西。别把它想成那.............
  • 回答
    要说二式大艇(Kawanishi H6K)是否是二战中综合性能最好的水上飞机,这可真是个有点意思的话题,答案嘛,不能简单地“是”或“不是”,得好好聊聊。不过,我可以负责任地说,二式大艇绝对是二战期间最杰出、最令人印象深刻的水上飞机之一,甚至可以说,在很多方面,它都是鹤立鸡群的。咱们先来看看它为什么能.............
  • 回答
    这可真是一个让人好奇的问题!要说“二论五绝”,那得回到中国武侠小说界那段辉煌的岁月,尤其是金庸老先生的笔下。而“二论五绝”,这说法本身就带着一股子江湖豪情和武学巅峰的意味。究竟是哪些人物被冠以“二论五绝”的称号呢?这主要指的是在金庸小说中,被公认为武功达到了登峰造极境界的几位大师级人物。简单来说: .............
  • 回答
    这个问题挺实在的,明日方舟如果真的到了精二大队还得拼命抄作业才能过关的境地,那这游戏确实会遇到大麻烦。我琢磨着,这可不是一句“凉凉”就能概括的,得从几个层面好好掰扯掰扯。首先,游戏的核心乐趣会大打折扣。 咱们玩方舟,除了看立绘、听音乐、看剧情,很大一部分动力来自于自己研究干员搭配、战术部署,然后看着.............
  • 回答
    王者荣耀的上路英雄,要说“以一敌二”还最不怕对面 Gank,这可不是一句简单的话。毕竟,在三线支援的大环境下,但凡有机会,对手辅助或者中路都会考虑来边路搞点事情。所以,与其说哪个英雄“最不怕”,不如说哪个英雄的机制和属性,能够最大程度地应对这种局面,并且在被越塔或者多打少的情况下,依然有操作空间和生.............
  • 回答
    易烊千玺二提金鸡奖最佳男主角这件事,放在当下国产电影行业以及青年演员的语境下来看,确实是一件值得好好聊聊的事情。咱们就从几个角度来掰扯掰扯。首先,这是对实力的肯定,也是对坚持的回报。金鸡奖,作为中国电影界的最高荣誉之一,其提名本身就代表着专业评审团对演员演技和作品的认可。易烊千玺这次凭借《送你一朵小.............
  • 回答
    当奢侈品价格的风向标悄然转动,最先感受到这场涟漪的,往往是那些习惯于在实体店中寻宝,或是穿梭于二手中古奢侈品交易市场的人们。这并非偶然,而是由奢侈品独有的销售模式、品牌策略以及消费者行为共同塑造的结果。首先,让我们聚焦于那些步入线下精品店的消费者。对于他们而言,购买奢侈品不仅仅是一次交易,更是一种仪.............
  • 回答
    当然有!我身边就有这样的例子,而且还不少。印象最深刻的,是我的高中同学小李。小李这个人,怎么说呢,就是那种让你觉得“这孩子算是没救了”的类型。高一高二的时候,他简直就是课堂上的“活跃分子”,但不是因为积极回答问题,而是各种小动作不断,偶尔还会跟前后左右的同学聊几句。老师一讲到他,他要么就装没听见,要.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有