问题

线性回归中的 ANOVA 的作用是什么?

回答
在进行线性回归分析时,我们常常会听到“方差分析”(ANOVA)这个术语,它并非独立于回归模型之外的一个概念,而是与回归模型紧密相连,为我们揭示模型整体的表现提供了关键的视角。简单来说,ANOVA在线性回归中扮演着一个“裁判”的角色,它通过对比不同来源的变异,来判断我们建立的回归模型是否真的能够有效地解释因变量的变化。

想象一下,我们要预测一个人的体重(因变量),并认为身高(自变量)对体重有影响。我们收集了一组数据,然后利用线性回归拟合出一条直线。这条直线告诉我们,随着身高的增加,体重也呈现出某种趋势。但是,仅仅知道这条直线本身并不能完全告诉我们它的“好坏”。毕竟,即使是随机的散点图,我们也能勉强画出一条“最佳拟合”线。

这时,ANOVA就派上用场了。它就像一个精密的测量工具,将我们观察到的因变量(体重)的总变异,分解成两个主要的部分:

首先是模型可解释的变异,或者我们常说的回归变异。这部分变异是指,通过我们建立的线性回归模型(也就是那条最佳拟合直线),能够“解释”掉的因变量的变异。简单来说,就是我们预测的体重与所有体重平均值之间的差异。如果我们的模型有效,那么预测值应该能很好地捕捉到实际体重随着身高变化而变化的部分。

其次是模型无法解释的变异,也就是我们常说的残差变异,或者误差变异。这部分变异是指,即使我们考虑了身高这个因素,仍然无法通过回归模型来解释的因变量的变异。这些“剩下了”的变异,可能源于我们没有纳入模型的影响因素(比如饮食、运动习惯等),也可能是纯粹的随机波动。

ANOVA的核心思想就是比较这两部分变异的相对大小。它会计算一个统计量,通常被称为F统计量。这个F统计量,本质上是将“模型可解释的变异”除以“模型无法解释的变异”(经过自由度调整后)。

如果F统计量很大,意味着模型可解释的变异远大于模型无法解释的变异。这就像说,我们通过身高这个因素,“抓住”了体重的大部分变化规律,只有很小的部分是随机误差或者其他未考虑因素造成的。这强有力地证明了我们建立的线性回归模型是具有统计学意义的,能够有效地解释因变量的变化。
反之,如果F统计量很小,则说明模型可解释的变异与模型无法解释的变异差不多,甚至后者更大。这就像说,身高这个因素对体重的影响微乎其微,大部分体重变化的原因都无法通过我们的模型来解释。在这种情况下,我们可能需要怀疑这个回归模型是否真的有效,或者是否需要考虑其他的解释变量。

ANOVA通过这个F统计量,以及与之关联的p值,帮助我们做出一个统计上的判断:我们是否有足够的证据拒绝“因变量的变异与自变量之间没有线性关系”的原假设。如果p值很小(通常小于0.05),我们就认为回归模型整体上是显著的,能够有效地解释因变量。

更进一步说,ANOVA在多重线性回归中尤为重要。当我们引入多个自变量时,ANOVA可以告诉我们,至少有一个自变量对因变量产生了显著的影响。它评估的是整个模型的拟合程度,而不仅仅是单个自变量的效应。

所以,ANOVA在线性回归中的作用,就是提供一个量化的、基于变异分解的框架,来评估我们建立的回归模型是否能够“抓住”数据的基本模式,是否比仅仅依靠平均值来预测因变量有显著的提升。它帮助我们回答了那个根本性的问题:“我建立的这个模型,真的有用吗?”

网友意见

user avatar

为啥还有这么多学统计的人来反驳我的答案?你们不翻一下答案,反对我的都是学统计的,学计量的一个也没有吱声。我下面列举的这些都是仔细学过高级(微观)计量的人的共识。不同领域处理方法不一样,我已经补充了,争论下去实在没有必要。

题主一开始把这个问题只归了两类,“计量经济学”和“数学”好吗?压根没有归到“统计学”这一类。就好象我知道我的统计学知识不够不去统计板块答题一样,希望学统计的不要在不了解计量经济学的前提下妄自回答计量经济学的问题。

你们看一下题主的问题是,“做线性回归的时候,回归结果中都会包含ANOVA的分析”,在做线性回归的时候啊!他问的是线性回归结果里面那张ANOVA表好吗?你们学统计的一个个煞有介事的介绍ANOVA的应用是闹哪样。

要说统计,虽然我不是统计的phd,但是学计量的基础就是统计。谁不是从实分析 泛函分析 概率 统计一点一点读上来的?不要以为学计量的人都是土鳖好不,说过了,解决的问题不一样,处理方法不一样,仅此而已。

最后一次修改,懂的自然懂,反正我也没有必要也没有任何激励去给你们学统计的宣传计量的最新进展。

===================================

特别声明,本人以下回答只针对计量经济学领域!我看到题主没有把统计学放到分类里面,只有计量经济学才敢于这么回答的。统计我懂的只是皮毛,但是要说计量~

其实很多人对计量经济学的理解还是统计学在经济学中的应用。为什么统计学在心理学、社会学上都有应用,偏偏没发展出计量心理学、计量社会学?有计量史学(cliometrics),但是计量史学还都是计量经济学的应用。

因为阿,计量经济学跟统计学技术手段类似,但是解决的问题是不一样的。计量经济学更注重解释,而非预测;计量经济学更关注因果,而非相关;计量经济学更关注经济理论,是用数据match理论,而非用数据发现理论。

所以在最开始的时候,经常听说有统计学家和计量经济学家没办法交流。为什么?因为解决的问题不一样,其技术手段也不一样。比如

@TJ Zhou

对我的反驳,你们好好看看评论里面我们的讨论就知道,我们看似都在讨论线性回归,但是讨论的问题根本不是一个问题。

我为什么说R2不重要?不只是我说,计量领域的懂一点的都这么说。为什么?因为R2很大程度上度量的是u的方差跟x的方差大小的问题。但是计量领域绝大多数情况下根本不关心你的u的方差有多大好吗?有更直接的指标看x对y的影响,干嘛还要看R2呢?

当然现在是有很多做统计的转而做计量经济学,其实也是用统计的方法解决经济的问题,并不是说计量经济学就是统计的分支了,计量经济学是经济学好吗?

记得前段时间有个国际著名计量经济学家,之前是某统计学院院长,在学院大会上说了一句“在我是个统计学家之前,我是个经济学家。”结果统计学院一大堆人都在吐槽这句话。计量经济学跟统计学的差别可见一斑了。

烦请反驳我的

@TJ Zhou

还有那位觉着我没有深入理解统计方法的

@赵卿元

同学仔细看看我的回答。我如果在这个方面没有一点底气和信心,敢说这么绝对的话?敢专门发个专栏说R2在计量里面不重要?我找骂是不是?

还有那个

@斯逸卿

的“如果y对a、b、c、d回归,系数都显著。这个显著只是在统计意义上显著,可能经济意义上不显著,表现为R方的增量很小。”导致R方增量很小的原因很有可能是你增加的d相对于u来说本身就没有多少variation,归根结底还是要看u的variance。当然你说预测可以理解了,但是经济学上d明明可以解释y,你忽略它就不对了吗!

=================================

分解方差。

现在很少有人看这个了。

方差分析跟R2一样,对你的模型的解释能力几乎没有任何参考意义。

===================

回答评论里面的问题,答案是没有什么能评估模型的解释能力。

先说R2为什么不可以。

我们假设一个最简单的数据生成过程(DGP),y=x*b+u,其中x~N(0,1),b=1,u~N(0,1)。这个时候你可以做出0.5的R2。但是如果u~N(0,2),那么你只能做出0.25的R2。但是这两个DGP仅仅是误差项的方差改变了而已,我们关注的是b不是吗?就算R2小到只有0.0001,也许只是u的方差太大了,但是x对y还是有解释能力的对不对?而且解释能力跟R2无关。

方差分析有同样的问题。组内的方差其实就是误差项啊~

看一个模型的解释能力,要看的东西很多,但是没有一甚至几个假设检验或者指标可以直接看出来。计量经济学模型也是依赖假设的,关注一下现实的问题,看看你建立的模型跟现实是否符合才能看出模型是不是有解释能力。

比如你要问一下,识别是不是清楚?有没有内生性?做probit的时候有没有异方差?有没有sample selection的问题?有没有其他机制可以导致你做出来的回归结果?如果你做GMM,你的矩条件是否合理?等等等等。

所以,看模型解释能力看什么?看现实问题。

==============================

其实要说没用,还是有用的,看的人只是很少,不是没有。

比如当你研究歧视的时候,男女的工资差异可以分为两部分,一部分是你观察到的男女的差别,比如教育等,还有一部分就是误差项了。

在这个背景下,比较观察到的组间方差和观察不到的组内方差是有意义的。

================================

哇塞!斯坦佛的phd

@赵卿元

都来反驳我唉!

其实吧,这个问题就是计量跟统计的差别,计量关注因果,统计关注相关。计量关注统计量是不是显著,而不是这个模型的拟合程度(R2),这个是最关键的差别。要不然R2最高的方法就是OLS,还要发明工具变量、面板固定、随机效应、联立方程什么的模型干嘛?

经济学家不是不关注误差项。在计量经济学家看来,误差项的方差是多少并不重要,重要的是你的误差项里面有什么。你的误差项方差再大,如果不是系统性的误差,不影响你的x的外生性,爱怎么大怎么大,系数显著就好。但是如果你的误差项里面有系统性的误差,你的误差项方差再小,你的模型也是错的,你估计出来的系数完全不是你想要的东西。在这种情况下,你甚至说不清楚你估计出来的是什么东西~

还有,ANOVA其实就是特殊情况下的OLS模型,上面我举例子了,经济学也有可能用到ANOVA,我没说这个东西绝对没用,只是在计量领域,用处不大~至于我有没有用过ANOVA,只有我自己知道~

============================

顺便吐槽一下吧,改天修改一下发到我的专栏里去。

计量经济学中那些从统计学、初级计量里面带来的恶习

1、随意删变量

什么?某个变量不显著?删掉!呵呵~这个变量如果理论上对你的y有影响,但是做不出显著,一可能是你的模型错了,二可能是数据没有足够的variation做出显著。如果删掉,你其他的估计都会受到“遗漏变量”的影响,估计的系数理论上都不对的~

2、多重共线性

这个多少跟第一条有关系。什么?你的模型有多重共线性?好严重啊!删变量吧!

为什么不能删变量第一条已经说了。

解决多重共线性最好的办法是增加样本,别的好像没办法了。

至于有人用“主成份分析法”,呵呵,你还知道你估计的东西是啥不?

3、变量筛选

也跟第一条有关系,做很多很多回归,把显著的变量留下来,不显著的删掉。不解释了,参见第一条。

4、异方差

都21世纪了,你还在线性模型里面检验异方差?没听说过white heteroskedasticity robust的统计量吗?这个还需要检验?还需要加权最小二乘?

只有非线性模型中异方差是致命的,线性模型中异方差可以很方便的用white或者Newey-west来解决。

5、R2

这个多少跟主题有关。实际情况是,时间序列你做出低于90%的R2都不正常,但是微观数据你做出50%的R2都很困难。

OLS是在给定的数据和变量条件下R2最高的,因为他是个线性投影。工具变量估计是一个非正交投影,所以R2肯定比OLS的要低。但是我们还是要发展IV之类的方法,这也从侧面反映了R2不重要。

所以你如果用R2去比较模型,完全没有意义。

6、Box-Jenkins

不是专业做时间序列的,不做过多评价。但是基于ACF、PACF图的什么“截尾”、“拖尾”是很不靠谱的方法,已经是共识了。

==========================

这篇回答只限内部讨论,请知乎的小编不要再把这篇发到微博上去了。里面有八卦,不想传开,如果小编感兴趣,去转专栏里面的文章吧。p.s. 上次你们在微博上推我的文章,曲解我的意思好不好!以后你们公开推别人的回答,可不可以征询一下作者的意见!

user avatar

(多图)补充:统计基础上的简单解释+几个简单例子


好吧,研究僧又学了一遍线性回归,觉得本科学的都是渣。

重新补充一点。

首先假设模型是

通常我们看到的ANOVA表是这样的。


这里的SSR(X1)代表的是 the part of Y could be represented by X1

SSR(X2)代表的是 the part of Y could be represented by X2

SSE(residuals) 代表的是 the part of Y could not be represented by X1 and X2

F value 代表的是

用来检验是否significant。

最末尾的p-value是指的是在超出所求F* 后的概率,所以越小越好。

所以anova最简单的作用就是衡量是否是significant 检验。



这里是分割线

——————————————————————————————————


线性回归博大精深,浅浅的学习也学了一个学期,只能简单的说一下,如果题主希望具体了解,这里推荐几本书。蒋毅的《统计建模与R软件》,以及全英的书 《Applied Linear Regression Models Fourth Edition》 Michael H. Kutner&Christopher J. Nachtsheim&John Neter,《Introduction to Mathematical Statistics Fifth Edition》 Robert V. Hogg&Allen T. Craig,有需要可以看一下。再推荐一个网站,可以逛下论坛上下课什么的。网址为: Dataguru炼数成金



如维基百科所言:

方差分析(Analysis of variance,简称ANOVA)为资料分析中常见的统计模型。

方差分析依靠F-分布为机率分布的依据,利用平方和(Sum of square)与自由度(Degree of freedom)所计算的组间与组内均方(Mean of square)估计出F值,若有显著差异则考量进行事后比较或称多重比较(Multiple comparison),较常见的为Scheffé's method、Tukey-Kramer method与Bonferroni correction,用于探讨其各组之间的差异为何。


再引用WolframAlpha里的定义




如图,这是一个最简单的Anova表。

SSR是拟合值与期望的平方和,SSE是原值与拟合值的平方和,SSTO是原值与期望的平方和。

如图。


如图,这是一个最简单的anova F检验

简单来说,就是用所得到的数据带入检验统计量,得到统计量的值,再来和标准值作对比,或算出p-value,来判断是原假设(h0)还是备择假设(ha)。

原假设与备择假设又名零假设与对立假设。

引维基概念:

假设检验是推论统计中,除了估计之外,另一个重要的工作。我们一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出适当的推论。

统计上对参数的假设,就是对一个或多个参数的论述。而其中我们欲检验其正确性的为零假设(null hypothesis),零假设通常由研究者决定,反应研究者对未知参数的看法。相对于零假设的其他有关参数之论述是对立假设(alternative hypothesis),它通常反应了执行检定的研究者对参数可能数值的另一种(对立的)看法(换句话说,对立假设通常才是研究者最想知道的)。

假设检验的种类包括:t检验,Z检验,卡方检验,F检验等等。


再用R软件里构造一个例子。anova在R软件里为anova() 的函数

样本:

代码以及结果


以上我们可以得知residuals, r-square, 回归方程,通过所得数据大小来判断这个样本是否符合线性条件,以及在到之后的调整。

可以清晰地从图中看出所用样本的关系。

四幅图分别是:

1. 图中表示数据的残差图和它的拟合直线,由图可知,此样本数据不是线性的。

2. 上图为qq plot,用来验证数据是否为正态分布,由图可知,上述数据并不是很符合正态分布

3. 图为标准化残差与预测值的残差图,由图可知,样本数据不是线性的

4. 标准化残差对杠杆值散点图:杠杆值是帽子矩阵的对角线元素,还含有lowess曲线和Cook距离曲线。


其实这只是很小的一部分,还有很多其他的相关量。


如果有什么不懂,可以随便问,我尽量答~希望能帮到题主。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有