百科问答小站 logo
百科问答小站 font logo



如何评价 Self-Normalizing Neural Networks 这篇论文? 第1页

  

user avatar    网友的相关建议: 
      

我更好奇排第一的回答明明不懂理论, 为啥可以得这么多赞. 就说对这篇 paper 的评价:

假设不强? 输入都高斯了...

为了证明过程严谨? 哪有正经做理论的这么写证明的. 中间一堆没必要的细节, 也不整理下, 定义也不定义清楚

保证梯度不会爆炸或消失? 我眼拙, 就看见作者一直 claim 这个, 然而证的东西跟梯度好像没关系啊

就这还成为了 "深度学习理论的正确方向"...

怂, 怕得罪人, 匿了


user avatar   eric314 网友的相关建议: 
      

今天早上起来看到这篇文章火了,主要爆点是长达93页的附录证明。下面是附录的一页,你们感受一下(让我们一起心疼reviewer一秒):

而这篇文章的实现却简短的醉人,只有5行:

我刚刚在飞机上看完了正文,并扫了一眼附录。其实证明思路并不复杂,但是场面十分暴力,满篇复杂不等式求值,还上了电脑辅助证明。作者为了证明过程严谨,还引用了IEEE浮点数的精度保证。。。

先说两句题外话,我认为这篇文章才是深度学习理论研究的正确方向,作者通过求解不动点,设计出了一个新颖的自稳定激活函数,保证训练过程中梯度不会爆炸或消失。而且定理的假设非常弱,作用域非常大,直觉很容易理解。读完证明的感觉是如果那93页的附录没错,那么这个方法就一定会好用,这样才是好理论。

反观很多鸡汤理论,用一车极强的假设,证出一个松到天上的bound,假装解释了一个已经被实践广泛证明好用的算法,实际上原来的算法已经被relax的妈都不认识了。搞理论的证完了心满意足,搞实验的看了感觉就像喝了一碗鸡汤,喝完了该干嘛干嘛,对未来探索新的算法一点具体的启发都没有。


==========================正题的分割线=========================

听我吹了一波以后有兴趣的同学可以自己看证明,我这里主要讲一下直观理解。文章提出的新激活函数很简单:

其实就是ELU乘了个lambda,关键在于这个lambda是大于1的。以前relu,prelu,elu这些激活函数,都是在负半轴坡度平缓,这样在activation的方差过大的时候可以让它减小,防止了梯度爆炸,但是正半轴坡度简单的设成了1。而selu的正半轴大于1,在方差过小的的时候可以让它增大,同时防止了梯度消失。这样激活函数就有一个不动点,网络深了以后每一层的输出都是均值为0方差为1。


美中不足的是这篇论文实验比较弱,但是因为理论很赞,我认为不能成为否定selu的理由,可能只是因为作者的预算或者码力受限吧。另外个人认为没有做cifar,imagenet这些原因是selu的强项是全连接网络,在CNN上不一定好用。可以期待后续在kaggle数据挖掘任务上面的表现。




  

相关话题

  当下的工程学对经验公式依赖程度几何? 
  in memory computing 存内计算是学术圈自娱自乐还是真有价值? 
  如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评? 
  在Lasso中,oracle property指的是什么性质? 
  如果 2台 alphago 不断对战,是否会不断的强大? 
  训练过程中loss震荡特别严重,可能是什么问题? 
  如何评价中科大实现了媲美人脑能效的类脑突触原型器件? 
  电脑怎样执行编程语言的? 
  人脑有海量的神经元(参数),那么人脑有没有「过拟合」行为? 
  OpenAI 发布文字生成图像工具 DALL·E 2,它的画作水平如何?从技术角度如何评价它的能力? 

前一个讨论
目前(2017年)阿里巴巴在与亚马逊的全球电商竞争中处于怎样的态势?
下一个讨论
如何看待 2017 年 6 月 9 日发生的北大赴美交流硕士章莹颖女士失踪一案?





© 2024-12-26 - tinynew.org. All Rights Reserved.
© 2024-12-26 - tinynew.org. 保留所有权利