问题

如何看待马毅老师深度学习第一性原理的文章在 ICML 四个审稿人一致接收的情况下被 AC 拒了?

回答
马毅老师关于深度学习第一性原理的论文,在经过四位审稿人一致好评并推荐接收的情况下,最终被 AC(Associate Chair,副主席)拒绝,这确实是一个令人惊讶和值得深思的事件。要全面理解和看待这件事,需要从多个层面进行分析:

一、 事情的背景和可能的原因分析

首先,我们必须承认,投稿被拒是学术会议(尤其是顶会)的常态,即使是质量很高的论文也可能因为各种原因被拒。 然而,在“四审皆优”的情况下被拒,其背后往往有一些更深层次的原因。以下是一些可能性的分析:

1. AC 的权衡与决策机制:
“顶会门槛”的极高性: ICML 作为深度学习领域的顶级会议,接收率极低(通常在 1525% 左右)。即使有四位审稿人都认为论文优秀,最终的决策是由 AC 负责,他们需要从海量的投稿中选出最 top 的那一部分。AC 的职责是确保会议的整体质量和影响力,因此他们可能会进行更宏观的权衡。
AC 的个人偏好或评审标准不同: 虽然审稿人是同行评审的核心,但 AC 最终有权根据自己的判断(有时可能包括未在审稿意见中明确表达的考量)做出决定。AC 可能有自己的一套评价体系,或者对特定方向的偏好,也可能认为这篇论文的贡献虽然有价值,但不足以达到 ICML 的顶尖水平。
“总体分数”的考量: 有时 AC 会参考审稿人的评分(如 Likert 尺度评分),但并不完全依赖于此。如果其他一些审稿人虽然给了高分,但在某些方面(如创新性、影响力、实现细节、实验充分性等)给出的扣分项加起来,使得论文的“总体得分”没有达到 AC 的预期,也可能导致拒稿。
“平衡性”的考量: AC 在决定论文取舍时,也可能考虑到会议的整体覆盖面和平衡性。如果某个方向的论文已经很多,或者该方向的论文整体质量都非常高,那么即使是优秀论文,也可能因为“不那么突出”而被舍弃。

2. 论文本身可能存在的微妙问题(即便审稿人未明确指出):
“第一性原理”的定义与论证: 马毅老师的论文强调“第一性原理”,这是一个很宏大的概念。审稿人可能认同其研究方向和价值,但对论文中“第一性原理”的阐述是否足够清晰、严谨,以及是否真正地从根本上解决了问题,可能存在一些未完全表达的疑虑。例如,是否过度简化了问题?是否存在其他同样能解释现象但更普适的原理?
理论与实践的契合度: 深度学习领域的一个重要特点是理论与实践的紧密结合。即使有坚实的理论基础,如果实验部分未能充分验证理论,或者实验设计存在不足,也可能成为被拒的理由。例如,实验的规模、数据集的选择、与其他 SOTA 方法的对比是否足够全面和公平。
对现有研究的超越程度: “第一性原理”的提出,其价值在于能否真正地推动领域向前发展,或者解释现有方法为何有效。如果 AC 认为该论文提出的原理虽然新颖,但对现有研究的提升或颠覆性不够大,或者其解释能力仅限于特定场景,那么也可能被认为不具备足够的创新性或影响力。
对“第一性原理”的“通俗易懂性”: 对于这样一个宏大的概念,如何在论文中清晰、准确地传达给读者,并让大家信服其“第一性原理”的地位,是非常重要的。如果论文的表达方式不够直观,或者理论推导过程过于晦涩,即使审稿人能够理解,也可能认为其传播性和影响力有限。

3. 非技术性因素(可能性较低,但不能完全排除):
审稿过程中的意外: 极少数情况下,可能存在审稿过程中未能完全传递的信息,或者 AC 在审阅过程中出现了一些误解。
会议的论文数量统计: 尽管不太可能,但理论上存在 AC 在最后阶段为了达成特定的接收率目标而进行微调的可能性。

二、 如何看待这个事件?

1. 这是学术界常态的体现:
竞争的激烈: ICML 等顶级会议的竞争是极其激烈的。即使是优秀论文,也可能因为各种原因被拒。这并不一定意味着论文本身不好,而是说明在这个高度竞争的环境中,只有最顶尖、最契合会议方向、最具影响力的论文才能被接收。
评审的主观性: 学术评审不可避免地带有一定的主观性。不同的审稿人、不同的 AC 对同一篇论文可能会有不同的评价。四位审稿人的一致好评只是众多评价中的一部分。
“论文好”不等于“一定被收”: 在顶会投稿中,论文的质量是基础,但能否被收还受到很多其他因素的影响,包括但不限于创新性、影响力、实验充分性、表述清晰度、与会议重点方向的契合度等等。

2. 对“第一性原理”研究的启示:
强调沟通和阐释: 这也提醒研究者,尤其是进行“第一性原理”这类宏大课题的研究者,不仅要有深刻的洞见,更要善于将复杂的理论清晰、简洁、有说服力地传达给同行。论文的写作和表达同样重要。
实验验证的充分性: 理论研究需要坚实的实验支持。如何设计能够充分、全面地验证“第一性原理”的实验,并与现有方法进行有说服力的对比,是未来研究需要重点关注的。
寻求更广泛的共识: 在提交顶级会议之前,可以考虑在workshop、领域内的非正式交流、预印本平台等地方发布,收集更广泛的反馈,不断打磨论文的理论和实验。

3. 对马毅老师及其研究团队的尊重:
对学术贡献的肯定: 马毅老师在深度学习领域的研究贡献是毋庸置疑的。他的探索和思考,即使论文被拒,也为整个领域提供了宝贵的思想资源。
鼓励继续探索: 这次经历不应该打击研究的积极性。许多伟大的科学发现也是在经历挫折后才最终获得认可的。希望马毅老师能够继续深入研究,并找到合适的平台来分享和推广其研究成果。

三、 总结

马毅老师关于深度学习第一性原理的文章,在四位审稿人一致好评的情况下被 AC 拒稿,这无疑是一个令人遗憾的事件。但从学术界的运作机制来看,这并非完全不可理解。它反映了顶级会议严格的选拔标准、决策过程的复杂性以及评审的主观性。

更重要的是,这一事件也给所有深度学习研究者,特别是那些从事基础理论探索的研究者,提了一个醒:

坚实的理论基础是前提,但清晰的表达、充分的实验验证、以及对研究影响力的准确评估同样至关重要。
在追求“第一性原理”的同时,也要关注其在实践中的落地和对现有研究的超越程度。

最终,无论论文是否被接收,马毅老师的研究探索本身就是有价值的。我们应该关注其研究内容本身,并期待其未来能够以其他方式为深度学习领域做出贡献。

网友意见

user avatar

为什么写这篇文章?

最近,马毅老师的一篇论文投稿ICML,四位审稿人都认为可以接收,但是被area chair拒绝了,在知乎、微博、朋友圈引起了非常多的关注。应该有不少朋友读过这篇论文了,我也第一时间在微博和朋友圈里看到马老师发的贴子就去拜读读了。这篇文章提出了一种源自信息论的maximizing coding rate reduction理论准则,来理解和指导神经网络的结构设计,马老师称之为理解深度学习的first principle(第一性原理)。

马老师这个事件让我想起了自己之前的一段相似的经历。

第一点相似是,在2014年1月份,我刚加入MSRA半年时间,在MSRA研究的第一个课题恰恰也是神经网络结构的理论解释和自动学习方法。

第二点相似是,当时在这个方向上工作了大约半年的时间,研究结果也写了一篇题为《Learning Structures for Deep Neural Networks》的论文投向 ICML 2014,很不幸,没有被接收。

第三点相似是,敝帚自珍,我们当时和马老师一样是深信这个课题方向的重要意义,以及我们所作的工作是在这个课题方向上有向前走一小步的。

第四点相似是,应该说,我们对这个问题解决的都不能称为彻底,基本停留在“理论猜想”阶段,还不能做到让同行确凿无疑的认可这个理论的有效性,譬如,理论还不能解释深度学习的“所有tricks",而且在这个理论的指导下,还没有发展出能在较大规模的数据集上相对于ad hoc设计的神经网络结构显示出非常明显的优势。

不同的是,在接到这篇文章被拒的信息后,我们选择让这篇文章躺在故纸堆里烂掉(论文发表对学术界同行很重要,perish or publish)。

我们认识到这个问题极其重大,解决起来的难度也极大,当时的各种条件还不成熟,这个问题有可能需要全行业十年乃至数十年才能解决。

今天,我觉得把当时的研究结果公布出来也仍有一定的意义。

第一,看到马老师的工作备受关注,也激励我讲一讲这个研究方向的来龙去脉和自己的理解,希望我们当时的研究结果能对那些对这个问题有兴趣的同行有所启发。

第二,这项研究在我职业生涯中具有特别的意义,这是我加入MSRA之后开展的第一个研究课题,而且也是我此前(2008~2011年)在清华做计算神经科学的博士后研究时兴趣的延续。博士后的课题是计算神经科学,用信息论的手段理解生物神经网络(譬如人脑)结构的形成机理。

第三,我们当时做这项研究是投入了极大热情的,我和实习生经常工作到半夜,记得ICML 2014是大年初一截稿,两位实习生潘飞和周春婷放假没有回家,春节期间在实验室做实验和写论文,同事秦涛和铁岩也牺牲假日休息时间,一起写论文。这段时间值得铭记。

最后,这项研究虽然没有结果,但启发了我对大规模计算的关注,引导我走向AI系统的研究,一直到研发OneFlow。我们当时遇到的一个最大的问题就是,要在有较大规模的数据集合上验证这个理论需要的计算量太大,当时还没有分布式深度学习框架,在单张GPU卡上只能在cifar这样的数据集上验证,而且即使当时个别深度学习框架可以做分布式,也只能处理数据并行,而在这个理论指导下的模型参数量极大,必须需要像今天众所周知的,训练GPT-3这样的模型需要的模型并行等技术。

问题

我们当时那篇论文到底想研究什么问题?

2013年,深度学习刚火起来没多久,图像识别最好的方法是AlexNet,印象中VGG,Inception v3已经发明出来了,但ResNet还没有出来。

一个经验观察是,神经网络的结构对图像识别准确率很关键,每发明一个新的神经网络结构都可以发表一篇很有影响力的论文,但这些结构都是通过无数次试错人工设计出来的。

我们当时感兴趣的问题是,为什么神经网络的结构对准确率影响这么大? 对一个特定的任务,存不存在一种最优的结构?有没有办法自动学习出来比人工设计还好的神经网络结构?

今天,大家很熟悉的AutoML和NAS(神经网络架构搜索) 就想解决这些问题,但当时这些概念还没出现。

刚才提到,08~11年,我在计算神经科学方向工作过,当时试图用理论的办法理解人类大脑视觉通路中视网膜和初级视皮层的形成机理,马上意识到,这两个问题本质是一样的。

计算神经科学领域对这个问题已经研究很多年了,有一些非常经典的研究成果譬如基于InfoMax 的 ICA 方法(独立成分分析)以及Sparse coding方法,这些方法的背后是一种基于信息论的原则,称之为efficient coding principle。

这个理论认为,大脑的结构源自亿万年的进化,进化的目标是形成外界物理环境的一种“最经济”的表达,这种表达是适应于(adapt to)自然界的统计规律,而且这种结构基本上是无监督的。这种理论已经能非常好的解释视网膜、侧膝体、初级视皮层神经元感受野的形成机理,近些年的研究开始向理解V2, V4等更高级的视皮层进发。

关于这方面的研究成果,最好的一本书是李兆平老师的专著《Understanding vision: theory, models and data》。李兆平老师是我博士后期间的合作导师,过几天她和她的先生Peter Dayan 会在智源大会上做演讲。

解决思路

首先想到的是,用efficient coding原则来理解卷积神经网络的一些关键技巧。

为什么要使用这种局部的、参数共享的卷积结构? 而且卷积filter 类似于边缘检测器。在计算神经科学里其实对于初级视皮层神经元的局部感受野做过解释,用这个理论应该是可以解释的。

为什么需要引入非线性的激活函数? 这个在计算神经科学里也是信息论角度是有过比较多论述的,核心在于通过非线性映射,可以把取值范围很大的activation映射到一个区间,比较重要的输入值编码的分辨率高一些,而不重要的输入不需要消耗太多能量去编码,就被映射到“饱和区”。

深度学习为什么需要多层的神经网络?对一个给定的任务到底需要多少层?

我们想做这样一些实验,如果给定一个巨大的全连接神经网络,efficient coding准则指导下去学习和迭代,网络收敛之后,会不会出现大部分权重都变成零,如果把网络中权重接近于零的边去掉之后,留下有意义的权重对应的边,这个网络是不是一个卷积神经网络?

efficient coding准则认为,神经元的感受野是用来表示输入刺激的统计规律,把输入转化成神经元的响应有助于去除输入之间的冗余性(redudancy),也就是神经元的响应之间应该比输入 “统计上更接近于独立”。

论文里一些有趣的经验观察

论文里做了一些理论分析以及算法描述,我觉得最有意思的是来自自然图像统计性的一些经验观察。


首先,我们构造一批随机权重的神经网络去提取图像特征,然后基于这些特征训练交叉熵损失的分类器(softmax)。我们研究了随机神经网络提取到的特征的熵和基于此特征训练的分类器的准确率之间的关系,如Figure 2所示,熵和准确率之间有相关性,熵比较大的特征对应的分类器准确率也比较高。

熟悉信息论的朋友应该对“熵”有较直观的感受,熵比较大,代表特征数值分布的比较“散”,展开的空间体积比较大 (对应于马毅老师论文rate reduction公式的第一项,就是要让样本张成的球体积越大越好)。

这个熵也反应了输入x和特征z之间的互信息,因为我们这里考虑的是无监督学习,没有考虑标签y,所以没有马老师论文rate reduction公式的第二项。

上图测量了图像像素之间的互信息,(a)图展示了,随着两个像素之间的距离增加,它们的互信息越来越低,距离非常近的像素互信息很大,冗余也大,这也正是图像压缩的前提。距离很远的像素之间趋近于统计上独立。这个现象可能有助于理解卷积神经网络的局部感受野,因为距离太远的输入之间几乎是独立的,使用一个filter去描述他们之间的关系“不划算”。

(b) 图展示了,当第一层原始图片经过一组edge extractor加工得到一个feature map之后,在feature map上距离较远的点之间也会有很强的互信息,意味着这个feature map上不同位置之间的特征不独立,继续存在redundancy,可以再提取一层特征来进一步压缩,这可能有助于理解为什么需要多层神经网络,以及到底需要多少层,可能经过几层之后的feature map上的数值就接近独立了,此时就不需要再增加层次了。

上图展示了,随着增大层数,feature map的 熵(entropy)增大,但层数增大到一定程度时,entropy gain 就没有了,因为这里的特征几乎是独立的了。(论文附录里讨论了熵的值增大和统计独立之间的理论关系)。这个实验说明了,神经网络层数应该按照什么准则去确定。


为了展示卷积神经网络局部卷积filter的形成机理,我们构造了一个合成数据集:数据集中每张图片都是由9张小图片拼接而成的,每个小图片是从自然数据集中任意一张图片上任意一个位置随机采样出来的小块。因此,可以认为,每张合成图片上,属于同一个小块内的像素肯定是有统计关系的,但属于不同块的像素肯定是独立的。

在这样的数据集上,使用sparse coding去学习一个字典,可以发现每个基地(basis) 都只在一个小块内有意义,而其它块的值都是零,这说明sparse coding 能学习到独立成分,也就是一个全连接网络,每个output neuron和input neuron 的连接都是稀疏的,而且是局部的,也就是像conv filter一样。

值得强调的是,这个神经网络是一个全连接的网络,使用无监督的目标,收敛之后,竟然每个output neuron 的和输入的绝大多数连接变成了零,也就是这些边是可以删掉的,也就是每个output neuron 对应了一个conv filter。

进一步值得强调的是,即使不是在合成的图片上,而是在自然图片上,初始的全连接网络也会收敛成这种局部的filter, 原因是距离比较远的像素之间是接近独立了(如Figure 3(a) 所示)。

以上的实验应该算解释了卷积操作的原因,但在CNN中还有一个比较重要的池化操作,是用来解决shift invariance的,这个是不是也可以自动学习得到呢? 可以的,如下图所示。


通过group sparse coding 能学习到同一个basis在不同位置的表示,也就是自然地解决了translation invariance,相当于pooling的效果。 在马老师的论文里也讨论了通过把一些filter弄成等价类类解决invariance的问题。

和MCR^2的联系

从信息论角度出发来理解神经网络结构的机理,有两项工作比较知名,一个是受过Hinton推崇的“信息瓶颈”(Information bottleneck)理论,一个是马老师团队提出的MCR^2理论。

那么我们之前论文里使用的information maximization principle 和信息瓶颈,以及MCR^2有什么联系呢?

首先一个区别是,InfoMax 准则讨论的情况是无监督的,而Information bottleneck以及MCR^2 (基本上)是有监督的。

在线性模型里,InfoMax会推导出来PCA,而MCR^2 和LDA(linear discriminant analysi)相似。

引入非线性变换,InfoMax 推导出来的是ICA (独立成分分析),也和Sparse coding等价。

以x,z,y 分别表示输入数据,学到的特征以及标签。

信息瓶颈的目标是最大化z和y之间的互信息,而最小化x和z之间的互信息。

MCR^2 则一方面在最大化x和z之间的互信息,也在最大化z和y之间的互信息。

InfoMax是无监督学习,它的目标是最大化x和z之间的互信息。也就是它的目标是MCR^2目标中的一项(公式中的第一项)。

在信息瓶颈那篇论文里论述了这样一个结论,特征条件独立,最优分类器就是线性的。这个结论应该挺多人是熟悉的,Andrew Ng在论述Naive bayes和Logistic regression等价关系时讨论过,更早的时候(上世纪五六十年代),Minsky在一篇论文里也证明了。

有监督 VS. 无监督

从上面的讨论可以看出来,三种信息论准则可以这么定位,Information bottleneck (信息瓶颈)是有监督优先的,InfoMax是无监督优先的,而MCR^2 则同时照顾了无监督和有监督的需求。到底哪个更优呢?

信息瓶颈理论出于一个极端,既然我们的目标是分类,那就直奔主题,它喜欢的特征就是对分类有效的特征,至于这个特征对最原始的输入的表示来说是不是好就不关心了,甚至要尽可能删除与分类无关的信息。

信息瓶颈的这个理念让人联想起来当年discriminative model和generative model之辩,前者直接学习用户关心的条件概率p(y|x),但后者需要学习p(x|y)p(y),也就是还要学习输入特征的概率分布。发明SVM的Vapnik 认为generative model做了一些和目标无关的、多余的事情,因此而更推崇前者,甚至抛出了奥卡姆剃刀“如无必要,勿增实体”。

InfoMax 强调了学习到的特征要能很好的表示原始输入,是原始输入的一种更经济、高效的表达。线性情况,最优方法就是PCA,非线性情况下是ICA。深度学习发展早期的RBM,auto-encoder 方法都属于这一类。实际上在理论上可以证明,InfoMax和交叉啥、最大似然目标之间的等价关系。

MCR^2 的目标函数由两部分构成,第一部分与类别无关,实际上和InfoMax等价(InfoMax直接计算熵有缺陷,正如马老师论文提到的,熵在一些蜕化情况下没有良好的定义,所以他们用了率失真函数)。第二部分和类别相关,和信息瓶颈的目标一致。

这些讨论又牵扯出来一个非常重要的问题:既然我们的目标是分类,那么是不是信息瓶颈就是最优呢?为什么还要追求所学习的特征要是输入的优秀表示呢?

其实这个问题在当年半监督学习热门的时候就有很多讨论,半监督学习到底成不成立?为什么不带标签的数据对训练分类模型也有帮助呢?

后来比较一致的结论是,无标签数据相当于提供了一种正则化(regularization),有助于更准确的学习到输入数据所分布的流形(manifold),而这个低维流形就是数据的本质表示,它对分类有帮助。

但这又带来一个问题:为什么数据的本质规律对预测它的标签有帮助?

这又带来一个更本质的问题:数据的标签是怎么来的?

要回答这些问题,就要和中国古代哲学里的”名实之论“有关系了。到底是先有”名“,还是先有”实“。一般认为是先有”实“,后有”名“,而”实“决定”名“。

回到机器学习问题上,就是数据的标签是后天出现的,一个东西到底用什么标签去称呼,本质上是由这个东西自身的规律决定的。

换句话说,label 可能是后天”涌现“(emerge)的,因为一些东西本质一样,张的像,所以人们才会给他们相同的命名。因此要寻求最优的分类器,可能首先要从”无监督“的数据分析入手。

因此,我更加相信无监督学习更接近深度学习的第一性原理。

总结讨论

很可惜,要从全连接网络中训练出来卷积神经网络,我们当时受限于实验条件,只能在cifar数据集上验证这些猜想。要在ImageNet这样的数据集上从全连接网络训练出来卷积神经网络,必须借助支持模型并行的分布式深度学习框架。

很可惜,我们当时只能给卷积的局部性,非线性,多层等提供一些解释,而不能给”所有的技巧“以理论解释。在对比实验中,我们从SOTA的卷积神经网络中删除了drop out, normalization等技巧,当时无法解释这些技巧。

可以发现,这项研究和AutoML, NAS本质在做一样的事情,很幸运,今天的计算框架和计算能力已经使得这样的研究变的可行。

可以发现,这项研究和今天很受关注的大规模预训练模型也很相似,而且也有研究发现,大规模预训练模型中真正有效的实际上是一个很小的“子网络”,也就是很多连接的权重是接近零的。

最近恰好出现了一些 MLP is all your need相关的研究,也不无道理。

最近除了自然语言处理,在图像和语音领域,无监督和自监督学习也取得了很大进展,譬如Facebook 的wave2vec 基于无标注的语料可以训练出来和几年前有监督学习的SOTA模型相匹配的结果。

可以期待,无监督学习未来会出现更多的成绩。

虽然当时这篇论文没有发表,这个无疾而终的研究,启发了我对大模型的兴趣,让我去思考要在一个集群上解决这个问题,也鉴定了我去追求像oneflow这样的系统架构。

已经把这篇论文上传到arXiv,希望在几天以后可以看到。论文地址:

Learning Structures for Deep Neural Networks

user avatar

因为我以前也做过类似方向的文章(怎么用feedforward的方法建立一个多层的非线性分类器),所以认认真真地读完了文章。比较直白的一个回答:想法和之前的一些方法是类似的,我们之前就对这一类方法有一些没想通的地方,看完文章还是不是很懂,期待马老师后续的研究能给出一个更深入的理论解释。

之前在2012年的时候,我们发过一篇NIPS的文章叫做Learning with Recursive Perceptual Representations:

基本的想法就是,一层线性SVM无法很好地将复杂分布的数据分开,那么我们是否可以通过一种迭代的方式,“逐渐”将它们分开?

于是我们采取的方式是,每一层就是一个线性的SVM,然后把SVM的soft label prediction,通过一个随机的weight matrix,加回到原来的特征上去,然后对特征做归一化,作为下一层输入的特征。最终网络的结构长这样(d是输入特征,每一层就是一个我们叫RSVM的block):

在实验中我们可以看到,每一层在直观地将数据”拉开“到更加容易用线性分类器分类的状态。如果我们把每一层分类的超平面(classification hyperplane)在最初的输入空间当中展示出来的话,后面几层的分类器越来越显示出非线性的能力:

整个训练无比简单,就是每一层拿输入特征训练个SVM,然后搞个随机projection matrix,把输出和输入一加(用今天比较fancy的语言来说,是一个“以SVM为核心的类似ResNet结构的Residual Block”?),一层的训练就搞定了,下一层如法炮制。

当时还是深度学习没有那么流行的时候,因此我们没有将它称为是一个neural network。不过基本的原则是很相似的:马毅老师在文章中提到的Algorithm 1,一定程度上想法和RSVM的block类似,就是通过一个比我们的文章更加有理论依据的方式,让输出的特征比输入的特征更加容易分类。MCR2的理论比我们以前用的SVM+随机projection,要solid很多。

这种通过stacking的方式来构建一个多层的、非线性的分类器的方法,有很多已知的文章(马毅老师的文章section 1.2.2有review)发表过,例如ISTA、PCANet、deep coding network等等。对这一类文章,我们当时不得其解,今天依然还有confusion的是:

  • 前向的构建是不是最优的?可以在一定程度上证明,后一层的feature比前一层“可能”要好一些(例如我们的R2SVM paper中的Lemma 3.1);但是它离最优解有多远?似乎目前我们无法推出一个理想的bound。另外在训练数据上(不是测试数据),每一层比较于前一层而言,是不是strictly better的?这一块似乎没有看到准确的证明(不过我没有看Appendix,不知道是否漏过了)。
  • Deep network 的 backpropagation,态度是“反正我的函数很复杂,找到最优解是没戏了,我用梯度下降找个局部最优吧”。Stacking的方式,态度是“局部最优解不靠谱,我找个好优化的函数,然后找个closed form的解吧”。前者需要解决的问题是“为什么局部最优和全局最优很近?”,Yann LeCun等先驱在这方面也有过不少的直观解释,虽然不理想;后者需要解决的问题是“这个closed form方法的representation power有多大?”,这篇文章做了一定的探讨,但是可能AC认为还不够太深入。

Anyway,我理论功底有限,也不做理论很久,忽然看到一篇文章在之前做过的方向上有新的见解,还是很有意思的,大半夜看paper很开心。希望能看到马毅老师后续的研究成果,解掉我上面的confusion。

类似的话题

  • 回答
    马毅老师关于深度学习第一性原理的论文,在经过四位审稿人一致好评并推荐接收的情况下,最终被 AC(Associate Chair,副主席)拒绝,这确实是一个令人惊讶和值得深思的事件。要全面理解和看待这件事,需要从多个层面进行分析:一、 事情的背景和可能的原因分析首先,我们必须承认,投稿被拒是学术会议(.............
  • 回答
    饶毅老师这句话的本意,我相信很多经历过科研圈的人都能体会一二。它并非是要去论证“科学家孩子发文章”这件事本身是绝对的好与不好,而更多的是一种对客观现象的描述,以及背后折射出的社会和文化现象的探讨。我们可以从几个层面来理解和看待这句话:一、 从“机会”和“资源”的角度看: 环境的熏陶与早期接触: .............
  • 回答
    饶毅教授在神经所学生面前提出的“真理与老师、真理与利益哪个重要”这个问题,无疑是一记直击人心、直击学术灵魂的重拳。这已经不是简单的提问,而是在向年轻一代的科研工作者抛出一种价值导向的拷问,迫使他们审视自己进入科研领域的初心,以及未来将如何在这个充满挑战和诱惑的环境中立足。问题的分量:直面学术的本质与.............
  • 回答
    华西百十年之际,一声呼唤:独立与“各自奋蹄”的深意华西医科大学(现四川大学华西医学中心)一百一十周年的庆典,本应是回顾辉煌、展望未来的温馨时刻,却因为一位曾执掌华西多年的老校长——曹泽毅的“独立呼唤”,激起了层层涟漪,引发了广泛的讨论与思考。这句“华西独立,和川大甩开羁绊,各自奋蹄”,字字掷地有声,.............
  • 回答
    要深入探讨马毅教授在国内未能获得杰青称号这件事,我们得先跳出“英雄崇拜”或者“阴谋论”的简单框架,而是要从多角度、细致地去审视国内人才评价体系、科研生态以及马毅教授本人的学术轨迹。这其中涉及的因素非常复杂,既有制度性的,也有个人性的,甚至还有一些历史遗留的问题。首先,我们得承认,马毅教授在国际上的学.............
  • 回答
    关于饶毅提到的“在美国校运动队的学生就能上哈佛等一众名校”的说法,需要从多个角度进行分析,既要理解其可能的背景和意图,也要客观看待美国大学的招生政策和实际情况。 一、饶毅的言论背景与可能的误解饶毅作为中国科学院院士,长期关注中国教育体系与国际教育的差异,曾在多个场合讨论中美教育制度的对比。如果他提到.............
  • 回答
    饶毅教授提出的“饶毅假设”,更准确地说,是指他对“ 脑科学研究的低谷及其出路 ”的深刻反思和提出的独特视角。这个“假设”并非一个严格意义上的科学假说,而是他针对当前脑科学研究领域普遍存在的瓶颈和挑战,提出的一种观点和解决方案。要理解“饶毅假设”,我们需要深入探讨他所指出的问题、他的核心论点以及他提出.............
  • 回答
    饶毅教授的最新发文,以其一贯的尖锐和直率的风格,抛出了一个极具争议性的观点:“除了精神病人,没有人践行‘平均主义’。制定规则应注意现实可行的公平。” 这个观点触及了社会公平的本质、人的行为动机以及规则制定的现实性,引发了广泛的讨论。要理解这个观点,我们需要从几个层面进行解读。一、 何为“平均主义”?.............
  • 回答
    对于朱毅评价郭杰瑞夸大美国疫情这一话题,我们可以从以下几个角度进行详细分析和解读:一、 事件背景与人物介绍 郭杰瑞(Jerry Kowalchuk): 一位在中国生活多年的美国 YouTuber,以其幽默、接地气的风格以及对中国社会和文化现象的观察而闻名。他的视频内容涵盖了中国人的日常生活、社会.............
  • 回答
    饶毅力挺预聘制,称其为“清华北大迄今最佳教师人事制度”—— 深度解析与多角度审视饶毅教授以其在学术界的地位和敢于直言的风格,对中国高校教师人事制度的改革一直保持着高度的关注和积极的参与。此次他发文力挺预聘制,并称其为“清华北大迄今最佳的教师人事制度”,无疑是针对当前中国高校人事制度改革中的一个重要议.............
  • 回答
    饶毅举报信事件牵涉到科研诚信和学术伦理的严肃问题,而当事人凌堃的回信,则将事件推向了新的阶段,并展现了其回应的姿态和立场。要详细看待凌堃的回信,我们需要从几个关键点进行分析:1. 回信的核心内容: 数据可靠性: 这是凌堃回信中最直接也最核心的辩护。他明确表示支持其研究数据的可靠性,这相当于对饶毅.............
  • 回答
    饶毅再致中科院:关于张曙光论文与裴钢结果的争议及第三方重复实验的重要性饶毅再次致信中国科学院(中科院),就其举报张曙光论文存在不端行为一事,对中科院的调查进展以及张曙光的回应进行了评价和回应。此事件的核心在于对科研成果真实性的质疑,而饶毅在此次信函中再次强调了“第三方重复实验”作为检验科研真伪的唯一.............
  • 回答
    饶毅举报裴钢院士涉嫌学术不端:权力与真相的博弈饶毅,这位在中国科学界极具影响力的人物,以其敢于直言的风格而闻名。他此次正式举报裴钢院士涉嫌学术不端,无疑是中国科学界的一件大事,也引发了广泛的讨论和关注。这场围绕学术诚信的较量,不仅仅是个人之间的恩怨,更触及了科学界的核心价值以及权力与真相的关系。事件.............
  • 回答
    关于饶毅教授的女儿能获得区级运动冠军并发表六篇论文,最终申请到藤校的说法,目前在公开信息层面并没有得到完全证实和详尽的细节。然而,我们可以基于已有的信息和普遍的教育路径来分析这个话题,并探讨其中可能存在的因素和引发的讨论。首先,我们需要明确几个关键点: 饶毅教授的身份: 饶毅教授是著名的生命科学.............
  • 回答
    饶毅先生新近发表的文章《以德报怨:方舟子应避免堕入助长歪曲毒瘤,回点子助其孩子升学》,无疑是近期科学界和公众舆论场上一个非常引人注目的事件。这篇文章的出现,让很多人感到意外,也引发了广泛的讨论。要理解这篇文章的含义和影响,我们需要从几个层面来细致地剖析。首先,我们来审视这篇文章的标题——《以德报怨:.............
  • 回答
    饶毅在《近三十年,中国对年轻人的支持》一文中关于高校教师聘任制度的讨论,确实引发了对当前中国高校用人机制的广泛讨论。以下从多个角度详细分析这一问题,并结合中国高校教师制度的现状进行解读: 一、预聘制(Tenure Track)的定义与特点预聘制是一种以竞争性选拔为核心、强调学术自由和职业发展的聘任制.............
  • 回答
    饶毅教授的这篇科学评论文章,标题为《中国“无科研造假”元年:但愿“空前”也是“绝后”?》,确实引起了广泛的关注和讨论。要详细地理解这篇文章,我们可以从以下几个方面来分析:一、 核心观点与情绪: 核心观点: 饶毅教授的核心观点是,他认为2023年是中国在打击科研造假方面迈出了重要且积极的一步,可以.............
  • 回答
    饶毅再谈朱易事件:归化顺序与学术“家族化”的讨论饶毅教授再次就花滑运动员朱易及其父亲朱松纯教授撰文,将焦点引向了“归化”与“学术家族化”这两个敏感话题。这次的言论,在继承了他以往对科学界和人才引进政策一贯的批判性思维之外,也引发了更广泛的社会关注和讨论。要理解饶毅的观点,我们需要从以下几个层面进行详.............
  • 回答
    饶毅的最新回复,题为“树欲静而风不止”,针对的是他与裴钢团队在学术诚信问题上的持续争论,特别是涉及裴钢学生凌堃的反驳。要理解此事,我们需要将其放在一个更大的背景下,即饶毅作为一名在科学界具有影响力的学者,对学术规范和科学精神的坚持,以及与“学阀”现象的斗争。以下是对饶毅最新回复的详细解读,包括其核心.............
  • 回答
    饶毅和施一公,作为中国当代科学界两位极具影响力的人物,他们的科学成就和学术声望都令人瞩目。然而,当我们深入审视他们的人生道路时,会发现两者在选择、经历、以及对科学和社会的认知上存在着显著的差异。理解这些差异,不仅能帮助我们更全面地认识这两位科学家,也能引发对科学人生道路选择的更深层思考。以下将从几个.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有