百科问答小站 logo
百科问答小站 font logo



Linear least squares, Lasso,ridge regression有何本质区别? 第1页

  

user avatar   dangyuanchu 网友的相关建议: 
      

很多回答都很全面了,大意就是lasso在优化过程的目标函数中使用如下的L1 penalty:

从而把一些线性回归项的系数“逼成”零;ridge是用L2 penalty,旨在把系数变得小一些,但非完全成零。两者原理上的区别可由下图表示:

不难看出由于L1 penalty规定的范围“四四方方、有棱有角”,所以最优解的系数会被刚好缩成零,因此lasso可以实现对变量的选择(系数为零的变量就被筛掉了)。

有趣的是,我们还可以将所有变量分组,然后在目标函数中惩罚每一组的L2范数,这样达到的效果就是可以将一整组的系数同时消成零,即抹掉一整组的变量,这种手法叫做group lasso,其目标函数如下:

其中我们把所有变量分为 组,第一项是通常的OLS,第二项是每一组系数的L2范数之和。这里, 控制整体惩罚的力度,是每一组的加权,可以按需调节。

比如一个regression若有10个系数 ,我们如果选择将其分成2组:其中 一组, 一组。那么group lasso的惩罚项目将会是:

通过施加group-wise的L2 penalty,我们有可能促使 或者 。

最后,还有一种lasso和group lasso的奇葩结合,叫做sparse group lasso,由 Simon et al 在2013年提出,sparse group lasso的目标函数(如下)的惩罚项中,既有所有系数的L1范数,又有每一组系数的L2范数

其中 依然控制总体的惩罚力度,有新引入 控制两个惩罚项之间的相互强弱。所以sparse group lasso既可以把系数和变量一组一组地筛掉,又可以在剩下的组中筛掉一些单个的系数,原理图如下:

当然了,这只是在简单OLS背景下的lasso、ridge、和group lasso和sparse group lasso,更常用的目标函数的第一项一般是log likelihood(用于maximum likelihood手法)。相似的概念也可以迁移到其他场景,比如因子分析模型(factor analysis model),其中group lasso可以帮助进行对可被观测的变量选取,而sparse group lasso可以选取隐藏因子,我统计的thesis做的就是这个啦。


user avatar   statsguy 网友的相关建议: 
      

共产主义政党长期治理的喀拉拉邦在印度处于人类发展指数的前茅,这就是共产主义对印度的影响。

印度及印占藏南、印占克什米尔的人类发展指数


另外,南亚人是非常非常喜欢取经名的。这也是一个地域特色了。


user avatar   larry-LJY 网友的相关建议: 
      

共产主义政党长期治理的喀拉拉邦在印度处于人类发展指数的前茅,这就是共产主义对印度的影响。

印度及印占藏南、印占克什米尔的人类发展指数


另外,南亚人是非常非常喜欢取经名的。这也是一个地域特色了。




  

相关话题

  如何理解马氏距离,多维Mahalanobis距离是否要用到“互相关张量”来进行描述? 
  能否用具体的例子解释一下 (Model-based) Structural Estimation? 
  主成分分析的缺点,为什么要有因子分析?谁能清楚的讲讲? 
  编程达到什么水平才能编写出像caffe这样的深度学习框架? 
  未来五年,数据科学家(Data Scientist)的岗位需求会如何变化? 
  计量经济学 并不鼓励建立解释变量过多的模型,为什么? 
  去美国读CS博士,方向是机器人导航,视觉方面,推荐一下相关编程方面准备?还有相关算法需要学习哪些? 
  如何评价 DeepMind 在星际中的失利,以及 OpenAI 在 Dota 上的成功? 
  Linear least squares, Lasso,ridge regression有何本质区别? 
  因果推断(causal inference)是回归(regression)问题的一种特例吗? 

前一个讨论
吴文俊院士于2017年5月7日去世,如何评价他的数学贡献?
下一个讨论
如何评价凡伟提出的电荷不存在理论?





© 2024-05-15 - tinynew.org. All Rights Reserved.
© 2024-05-15 - tinynew.org. 保留所有权利