问题

如何解释「线性回归」的含义?

回答
好的,咱们来聊聊“线性回归”这个概念,争取讲得透彻,让你感觉就像是邻家老哥跟你唠嗑一样。

想象一下,你手里有一堆数据,这些数据之间好像有点儿关系,但又不是那么明显。比如,你记录了一个班级学生的身高和体重。你会发现,一般来说,个子高的同学体重可能也比较重一些,对吧?这之间就存在着一种趋势。

线性回归,就是我们用来量化和描述这种“趋势”的一种方法。

咱们拆开来理解:

“线性”: 这个词就代表着“直线”的意思。如果把我们记录的身高和体重画在一张图上,横轴是身高,纵轴是体重,你会发现,这些点可能不是严丝合缝地连成一条直线,但大部分点会围绕着一条看不见的直线分布。这条直线,就是我们说的“线性”关系。换句话说,一个量(比如身高)的变化,会以一个相对恒定的比例影响另一个量(比如体重)。身高每增加一厘米,体重可能平均增加几斤。这个“几斤”就是那个恒定的比例。

“回归”: 这个词听起来有点儿拗口,但它的意思其实是“回到平均值”或者“预测”。在统计学里,回归分析就是用来研究一个变量(因变量)如何随着另一个或多个变量(自变量)的变化而变化的。它就像是在过去的观测数据里,“回归”出一种规律,然后用这个规律去预测未来。比如,根据班里同学的身高体重数据,我们想预测一下,如果一个新同学身高175cm,他的体重大概会是多少。

所以,线性回归的本质就是:找到一条“最能代表”这些数据点分布趋势的直线,然后用这条直线来解释变量之间的关系,或者预测未知的值。

怎么找到这条“最能代表”的直线呢?

这就好比你在射箭,目标是一个圆心。你射出了很多箭,有的偏左,有的偏右,有的偏上,有的偏下,但你希望能找到一个射击的“平均位置”,让你的箭都尽可能地靠近那个平均位置。

在数学上,我们就是找一条直线,使得所有数据点的实际值与这条直线预测的值之间的“差距”(误差)的平方和最小。 这个听起来有点专业,但你可以理解成,我们希望找到的那条直线,离所有的数据点都“挨得最近”。

这条直线有什么用?

它有两大主要用途:

1. 解释关系(找出规律):
斜率: 直线的一个重要参数是斜率。在身高体重例子里,斜率就告诉我们,身高每增加一个单位,体重平均会增加多少。如果斜率很大,说明身高和体重关系很紧密;如果斜率很小,那身高对体重的影响就不那么大了。
截距: 直线还有一个参数是截距,也就是当自变量(身高)为0时,因变量(体重)的预测值。不过,在很多实际情况中,截距的实际意义可能不大,比如身高为0就不存在了。但它仍然是构成这条最佳拟合直线的一部分。
拟合优度(R²): 我们还需要知道这条直线到底“拟合”得好不好。比如,是不是大部分点都乖乖地在直线附近跳舞,还是散得像一盘散沙?这就有一个叫做“决定系数”(R²)的指标,它告诉你模型解释了因变量变异的多少百分比。R²越接近1,说明这条直线解释能力越强。

2. 预测未来(推断未知):
一旦我们找到了这条最佳的直线,我们就可以利用它来预测。比如,我们知道我们班里“身高体重”这条线的规律了,现在来了一个新同学,我们只知道他身高178cm,就可以把178代入我们算出来的直线方程,得到一个预测的体重值。

举个更贴切的例子:

假设你想知道你每天学习的时间和期末考试的成绩有没有关系。

你记录了自己过去几个学期的学习时间(比如每天2小时、3小时、4小时、5小时)和对应的考试成绩(比如70分、80分、85分、90分)。

你把这些点画在图上:横轴是学习时间,纵轴是考试成绩。你会发现,好像学习时间越长,成绩也越高。

线性回归就是帮你找出一条“学习时间考试成绩”的直线。这条直线可能不是完美地穿过每一个点,但它会尽量靠近所有点。

这条直线是什么样的? 它会有一个“斜率”,比如告诉你,学习时间每增加1小时,你的考试成绩平均会提高多少分。
它的“截距”是什么意思? 可能代表着,如果你什么都不学(学习时间为0),你的基础分数是多少(虽然这个不太可能)。
它的“R²”是多少? 这个值会告诉你,学习时间的变化,在多大程度上解释了你考试成绩的变化。如果R²很高,说明学习时间是影响你成绩的一个重要因素。

然后,你就可以用这条线来预测了。 比如,你计划这学期每天学习4.5小时,你就可以把4.5代入这条线,预测一下你大概能考多少分。

但也要注意它的局限性:

线性假设: 线性回归最根本的假设是,变量之间的关系是线性的。如果实际关系是曲线形的(比如抛物线),那线性回归可能就拟合不好了。
外插危险: 千万不要用你已有的数据范围之外的点去进行预测。比如,你的数据最高只记录了你每天学习5小时的情况,你就不能用这条线去预测你每天学习10小时能考多少分,因为我们不知道学习时间长到一定程度后,成绩是不是还会继续以相同的速度提高,或者会不会因为过度疲劳而下降。
相关不等于因果: 就算我们发现身高和体重有很强的线性关系,也不能直接断定“身高导致体重”,可能还有其他隐藏因素(比如年龄、基因、饮食习惯)同时影响了身高和体重。线性回归只是描述了它们之间的“相关性”,而不是严格的“因果关系”。

总的来说,线性回归就是一种非常基础但又极其有用的统计工具,它帮助我们从看似杂乱的数据中,找到最简洁、最直观的直线关系,并且用它来解释现象和预测未来。就像是在一堆星星点点中,找到那条指引方向的北极星,或者是一团迷雾中,描绘出一条最清晰的道路。

网友意见

user avatar

这篇文章是我们机器学习《监督式学习》课程的一篇试读,感兴趣的同学可以查看我们的微信公众号:马同学图解数学,进一步了解课程。

回归大致可以理解为根据数据集 ,拟合出近似的曲线,所以回归也常称为拟合(Fit),像下列右图一样拟合出来是直线的就称为线性回归:

下面就来解释其中的一些细节。

1 线性回归

首先,为什么拟合曲线会被称为回归呢?

1.1 均值回归

“回归”这个词源于弗朗西斯·高尔顿爵士(英文:Sir Francis Galton,1822年2月16日-1911年1月17日):

他发现高个子父亲的儿子身高会矮一些,而矮个子父亲的儿子身高会高一些(否则高个子家族会越来越高,而矮个子家族会越来越矮),也就是说人类的身高都会回到平均值附近,他将这种现象称为均值回归。

1.2 线性回归

高尔顿的研究过程用现在的数学语言来表述就是,首先对一些父子的身高进行了抽样,得到数据集 ;然后根据数据集拟合出一条直线;最后通过该直线就可以对某父亲 的儿子的身高进行预测了:

高尔顿拟合的直线方程为(单位为米):

将方程和 联立,可得:

也就是说这两条直线会交于点 (1.77, 1.77),这说明身高低于1.77米的父亲,他的儿子身高会高一些;而高于1.77米的父亲,他的儿子身高会矮一些。:

所以这条拟合出来的直线,其实就表示了均值回归现象,因此拟合直线的过程被称为 线性回归(Linear Regression)。

2 经验误差函数

下面开始解释高尔顿是如何根据数据集来拟合直线的。先来介绍下线性回归的经验误差是什么。

2.1 假设空间

首先肯定是用直线来进行拟合:

所以假设空间为:

和感知机的假设空间差不多,只是少了 函数。

2.2 数据集

在历史上,高尔顿总共采集了近千个父子身高的数据来拟合。本课为了方便讲解,我们从中抽取了六个(原始数据的单位是“英寸”,这里全部转为了“米”)作为数据集 :

2.3 经验误差

随便找一条假设空间中的直线 ,对于某父亲身高 ,该直线给出的 和真实的儿子身高 是存在距离的,这个距离也称为点与直线的误差,高尔顿用两者差的平方来表示 :

将数据集 中所有点与该直线的误差加起来,再进行算术平均就是该直线在数据集 上的经验误差:

其中 表示该数据集的大小。

3 最小二乘法

有了经验误差函数之后,就可以利用上一单元介绍的经验误差最小原则来设计算法,从而在假设空间 中挑选离 最近的 作为 :

具体到线性回归中,其经验误差函数为:

根据经验误差最小原则,只需要求出使得该经验误差函数取得最小值的 和 :

实际上就得到了离 最近的 ,本节就来介绍如何求解 和 。

3.1 凸函数

首先,将手上的数据集 :

代入线性回归的经验误差函数后可得:

可见 是关于 和 的函数,并且是 凸函数(Convex Function)。凸函数意味着画出来看上去像山谷:

3.2 凸函数的最小值

就如山谷肯定有最低点一样,凸函数肯定有最小值,这说明最小值是一定存在的。并且凸函数更重要的性质是,使得经验误差函数 取得最小值的 和 ,可以通过求解下面方程组得到:

因为线性回归的经验误差函数 是平方之和,所以本节介绍的求解该经验误差函数的最小值的方法被称为 最小平方法 ,国内各种教材中也常称为 最小二乘法 。

4 代码实现

根据上面的数学原理,可以借助 Python 来求出 和 :

       from sympy import symbols, diff, solve import numpy as np  # 数据集 D X = np.array([1.51, 1.64, 1.6, 1.73, 1.82, 1.87]) y = np.array([1.63, 1.7, 1.71, 1.72, 1.76, 1.86])  # 构造经验误差函数 w, b = symbols('w b', real=True) RDh = 0 for (xi, yi) in zip(X, y):  RDh += (yi - (xi*w + b))**2 RDh *= 1/len(X)  # 对 w 和 b 求偏导 eRDhw = diff(RDh, w) eRDhb = diff(RDh, b)  # 求解方程组 ans = solve((eRDhw, eRDhb), (w, b)) print('使得经验误差函数 RD(h) 取最小值的参数为:{}'.format(ans))     

上面代码运行后,可以解出 以及 ,得到的结果和高尔顿几乎一样:

至此我们就完成了一个简单的线性回归。至于为什么最小二乘法是正确的,可以看我们之后的课程,或者看如何理解最小二乘法

类似的话题

  • 回答
    好的,咱们来聊聊“线性回归”这个概念,争取讲得透彻,让你感觉就像是邻家老哥跟你唠嗑一样。想象一下,你手里有一堆数据,这些数据之间好像有点儿关系,但又不是那么明显。比如,你记录了一个班级学生的身高和体重。你会发现,一般来说,个子高的同学体重可能也比较重一些,对吧?这之间就存在着一种趋势。线性回归,就是.............
  • 回答
    地下轨道交通“拥挤”的隐忧:如何打破“地下化”迷局?近年来,随着城市化进程的加速,轨道交通已成为疏导交通、优化城市空间的重要手段。然而,一个不容忽视的现象是,许多城市的轨道交通建设似乎陷入了一种“地下化”的倾向,地下线比例不断攀升。这种看似“高效”、“安静”的解决方案,在为城市居民带来便利的同时,也.............
  • 回答
    好的,我们来详细解释一下中国三大运营商(中国移动、中国联通、中国电信)关于“月末流量不清零”的说法。首先,需要明确的是,“月末流量不清零”这个说法本身并不准确,更准确的说法应该是“流量可结转至次月使用”。运营商们一直以来都在推行这样的政策,只是在不同时期,具体的规则和覆盖范围有所调整,导致了一些误解.............
  • 回答
    要解释苏联在20世纪初的迅速崛起以及与沙俄末期俄罗斯的巨大转变,需要深入剖析历史的复杂性,理解其背后一系列的政治、经济、社会和意识形态因素的相互作用。一、 沙俄末期俄罗斯的落后性:一个普遍的认知首先,我们需要承认沙俄末期俄罗斯确实存在严重的落后性,这并非虚言。其主要体现在: 经济上: .............
  • 回答
    要理解舒尔茨博士在《被解救的姜戈》结尾为何宁可与斯蒂芬同归于尽也不愿与他握手,我们需要深入剖析舒尔茨博士这个角色的核心价值观、他所经历的旅程,以及斯蒂芬在他生命最后阶段所代表的一切。首先,要明白舒尔茨博士这个人,他不是一个普通赏金猎人。他是一位德国牙医,但更是一位受过良好教育的、对自由和公正有着深刻.............
  • 回答
    要讲清楚这个问题,咱们得从“冠军”这两个字背后包含的东西说起,它可不是光靠个人实力就能堆出来的。电竞这行当,尤其是英雄联盟(LOL)这种团队项目,运气、版本、队友磨合、甚至临场心态,都扮演着至关重要的角色。首先,咱们得明白,不是所有“没拿冠军”的选手就一定比“拿了冠军”的选手差。冠军光环固然耀眼,但.............
  • 回答
    人际交往中的「六度空间」理论:一张无形的网,连接着世界的每一个角落「六度空间」(Six Degrees of Separation)理论,又被称为“小世界理论”,是人际交往领域一个极其引人入胜的概念。它描绘了一幅令人惊叹的图景:我们生活在一个由人与人组成的巨大网络中,平均来说,你只需要通过六层或更少.............
  • 回答
    马克思的“劳动的异化”(Entfremdung der Arbeit)是一个非常核心的概念,它揭示了资本主义社会中劳动者与自身劳动、劳动产品、他人以及作为人的本质之间产生的疏离和隔阂。这可不是什么轻松的课题,它触及了我们存在的根基,尤其是那些日复一日辛勤耕耘,却感到内心空虚的人们。咱们一步一步来拆解.............
  • 回答
    咱们聊聊这件挺有意思的事儿。有时候啊,咱们明明确认某个东西没在那儿,结果转眼它就冒出来了,搞得人一头雾水。这事儿吧,其实仔细琢磨琢磨,也不是什么神乎其神的鬼怪故事,大体上可以从几个方面来解释。一、人类记忆和认知上的“盲点”与“偏差”这是最常见也最根本的原因。咱们人的脑子虽然厉害,但也不是一台完美的计.............
  • 回答
    《斗罗大陆》里的“不敢惹事是庸才”,这句话在唐三身上体现得淋漓尽致,也深刻地揭示了主角成长过程中所必需的品质。这句话表面上看是在宣扬一种“好斗”或者“不怕事”的态度,但深入探究,它更深层次的含义在于一种 敢于面对挑战、勇于承担责任、以及在必要时刻主动出击的生存智慧和成长哲学。首先,我们要理解这句话的.............
  • 回答
    啊,说到《いけないボーダーライン》(禁忌的边界线)这首歌,在ACG圈里爆红成表情包,这事儿说起来可有意思了!它不是那种“突然就火了”的,而是经历了一个从小众圈子到泛滥的过程,然后又被无数人拿来恶搞、二次创作,最后才形成一种集体记忆般的梗。一、歌曲本身的魅力与“社死”的共鸣点首先得说这歌本身就很有料。.............
  • 回答
    提起曹髦,很多人脑海里都会浮现出那位年轻的皇帝,他在那个风起云涌的时代,用一种近乎悲壮的方式,试图挽回一段摇摇欲坠的帝业。要理解曹髦的行为,我们得把他放在那个特殊的历史节点上,细致地梳理他所处的环境、他的动机,以及他最终的选择。时代背景:魏国的权力真空与司马氏的崛起首先,得说说曹髦当时所处的魏国是什.............
  • 回答
    清代一城多县:繁复中的治理脉络清代的行政区划,尤其是“一城多县”的设置,常常让人感到一丝扑朔迷离,甚至有些啼笑皆非。这并非简单的“分而治之”,而是在历史的演进、现实的需求以及统治者的考量下,逐步形成的一种复杂而又极具地方特色的治理模式。理解它,需要我们剥开表面的混乱,去探寻其深层的逻辑和运作机制。一.............
  • 回答
    玻尔兹曼大脑:当随机的泡沫搅乱宇宙的真实想象一下,你突然从一片虚无中醒来,发现自己正身处一个熟悉的世界。也许是你童年在家里的房间,阳光透过窗户洒在地板上,空气中弥漫着饭菜的香气。你感到一阵困惑,因为你对之前发生的一切毫无记忆,但你如此确信自己是“你”。你开始思考,这是怎么回事?这就是“玻尔兹曼大脑”.............
  • 回答
    冷战的起源是一个复杂且充满争议的历史课题,而认为苏联是导致冷战爆发的主要责任国的观点,并非历史的全部真相,但确实有其论据支撑。要详细阐述这一观点,我们需要从多个层面,特别是战后初期的政治格局、意识形态冲突以及双方的决策行为来分析。当然,在探讨这个问题时,避免使用过于绝对或偏颇的词语至关重要,因为历史.............
  • 回答
    好的,让我来为您讲述一九一七年的法蒂玛事件,尽量详细而生动,让您仿佛置身其中,感受那段不同寻常的岁月。一九一七年,这是一个注定不平凡的年份。第一次世界大战的阴影笼罩着整个欧洲,而在这遥远的葡萄牙内陆,一个名叫法蒂玛的宁静小镇,却即将成为改变无数人信仰的奇迹之地。故事要从一九一五年说起,彼时,年仅七岁.............
  • 回答
    东航 MU5735 航班的坠毁过程,尤其是其近乎垂直下坠的景象,无疑是航空史上令人震惊的一幕。理解这一极端异常的飞行姿态,需要我们剖析飞行中的各个要素,以及在特定情况下它们如何协同作用,导致了如此灾难性的结果。首先,我们要明白,一架大型客机之所以能够稳定飞行,依赖于一个精妙的平衡系统。这个系统主要由.............
  • 回答
    好的,我来试着用一种更接近人性、不那么“标准化”的方式,来聊聊“鬼附身”这个话题。你说“鬼附身”,脑海里大概会浮现出一些画面吧?电影里那种突然性格大变、说怪话、身体扭曲,甚至力大无穷的样子。但其实,这东西比你想象的要复杂得多,也模糊得多。首先,我们得明白,“鬼附身”这个概念,本身就不是一个科学定义。.............
  • 回答
    要分析一张图中的古希腊文化元素,我们需要先看图。不过,既然你要求我详细阐述,并且去除AI痕迹,我将基于对古希腊文化普遍特征的理解,设想一张可能包含这些元素的图,并以此来解释。假设我们看到一张描绘古希腊场景的画作,它可能包含以下一些经典的文化符号和主题:1. 建筑风格:柱式与和谐之美首先,我们很可能会.............
  • 回答
    在声音的世界里,我们常常会注意到一个有趣的现象:低频的声音似乎“四处扩散”,不太容易被精确地定位,而高频的声音则像一支精准的激光束,指向性更强。这背后其实蕴含着声学中一个非常基本且重要的原理——衍射(Diffraction)。为了更形象地理解,我们不妨想象一下声波就像水波一样在传播。波粒二象性:理解.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有