首页

Linear least squares, Lasso,ridge regression有何本质区别？第1页

dangyuanchu 网友的相关建议:

很多回答都很全面了，大意就是lasso在优化过程的目标函数中使用如下的L1 penalty：

从而把一些线性回归项的系数“逼成”零；ridge是用L2 penalty，旨在把系数变得小一些，但非完全成零。两者原理上的区别可由下图表示：

不难看出由于L1 penalty规定的范围“四四方方、有棱有角”，所以最优解的系数会被刚好缩成零，因此lasso可以实现对变量的选择（系数为零的变量就被筛掉了）。

有趣的是，我们还可以将所有变量分组，然后在目标函数中惩罚每一组的L2范数，这样达到的效果就是可以将一整组的系数同时消成零，即抹掉一整组的变量，这种手法叫做group lasso，其目标函数如下：

其中我们把所有变量分为组，第一项是通常的OLS，第二项是每一组系数的L2范数之和。这里，控制整体惩罚的力度，是每一组的加权，可以按需调节。

比如一个regression若有10个系数，我们如果选择将其分成2组：其中一组，一组。那么group lasso的惩罚项目将会是：

通过施加group-wise的L2 penalty，我们有可能促使或者。

最后，还有一种lasso和group lasso的奇葩结合，叫做sparse group lasso，由 Simon et al 在2013年提出，sparse group lasso的目标函数（如下）的惩罚项中，既有所有系数的L1范数，又有每一组系数的L2范数

其中依然控制总体的惩罚力度，有新引入控制两个惩罚项之间的相互强弱。所以sparse group lasso既可以把系数和变量一组一组地筛掉，又可以在剩下的组中筛掉一些单个的系数，原理图如下：

当然了，这只是在简单OLS背景下的lasso、ridge、和group lasso和sparse group lasso，更常用的目标函数的第一项一般是log likelihood（用于maximum likelihood手法）。相似的概念也可以迁移到其他场景，比如因子分析模型（factor analysis model），其中group lasso可以帮助进行对可被观测的变量选取，而sparse group lasso可以选取隐藏因子，我统计的thesis做的就是这个啦。

statsguy 网友的相关建议:

共产主义政党长期治理的喀拉拉邦在印度处于人类发展指数的前茅，这就是共产主义对印度的影响。

印度及印占藏南、印占克什米尔的人类发展指数

另外，南亚人是非常非常喜欢取经名的。这也是一个地域特色了。

larry-LJY 网友的相关建议:

共产主义政党长期治理的喀拉拉邦在印度处于人类发展指数的前茅，这就是共产主义对印度的影响。

印度及印占藏南、印占克什米尔的人类发展指数

另外，南亚人是非常非常喜欢取经名的。这也是一个地域特色了。

Linear least squares, Lasso,ridge regression有何本质区别？的其他答案点击这里