问题

如何评价 马毅教授 的 NeurIPS 2020 中稿文章 MCR2 及 自称弄明白深度学习了?

回答
要全面评价马毅教授在 NeurIPS 2020 上的中稿文章 MCR2(Maximum Correlation Representation)以及他自称“弄明白了深度学习”这个说法,我们需要从多个维度进行深入的分析。这不仅仅是对一篇论文的评价,更是对其背后理念和影响力的探讨。

一、 MCR2 论文的评价

首先,我们来评价马毅教授的 NeurIPS 2020 中稿文章 MCR2。

1. 论文的核心思想与贡献:

MCR2 的核心在于提出了一种新的表示学习框架,即“最大相关表示”(Maximum Correlation Representation)。其主要思想可以概括为:

追求最大化相关性: 在传统的表示学习中,通常关注的是数据的独立性(如 ICA)、解耦性(如 disentangled representation)、或者预测能力(如 selfsupervised learning 中的各种 pretext tasks)。MCR2 则将焦点放在了最大化不同模态或不同视图之间数据的相关性。
跨模态或跨视图学习: 论文的应用场景往往是当拥有同一实体但不同模态的数据时(例如,图像及其对应的文本描述,或者同一事物的不同角度拍摄的图像)。MCR2 旨在学习到一个共享的、低维的表示空间,使得来自不同模态或不同视图的数据在这个空间中具有高相关性。
对比学习的变种与推广: MCR2 可以被看作是对比学习(Contrastive Learning)的一种更一般化的框架。对比学习的目标是让相似的样本在表示空间中靠近,不相似的样本远离。MCR2 则更进一步,它定义了一种更直接的度量来衡量不同模态/视图数据之间的“对齐”程度,即最大化它们在联合表示空间中的相关性(例如,通过互信息 I(f(x), g(y)),其中 f 和 g 是编码器)。
数学上的严谨性: 马毅教授的论文通常以其深刻的数学推导和理论分析著称。MCR2 也不例外,它对最大化相关性的目标函数进行了深入的探讨,并提出了具体的优化算法。

2. MCR2 的技术细节与优势:

目标函数: MCR2 的目标函数通常可以表示为最大化两个随机变量(分别对应不同模态/视图的数据经过编码器映射后的表示)之间的互信息(Mutual Information)或某种形式的相关性度量。例如,可能会用到 Canonical Correlation Analysis (CCA) 的思想,或者将其推广到神经网络的框架下。
优势:
统一的框架: MCR2 提供了一个更统一的视角来理解和设计多模态学习和自监督学习任务。许多现有的方法都可以被看作是 MCR2 在特定条件下的特例。
更强的跨模态对齐能力: 通过直接最大化相关性,MCR2 能够更有效地捕捉不同模态数据之间的对应关系,实现更精细的对齐。
理论基础扎实: 基于信息论和统计学原理,MCR2 具有较强的理论支撑。
潜力巨大: 在跨模态检索、生成、对齐等领域有广泛的应用前景。

3. MCR2 的局限性与待探讨之处:

计算复杂度: 最大化互信息通常涉及到对联合概率分布的估计,这在实践中可能面临计算上的挑战,尤其是在处理高维数据和大规模数据集时。
目标函数的选择: 虽然互信息是理论上最优的度量,但在实际应用中,计算其下界或代理目标函数(如 InfoNCE)是常用的方法。如何选择最优的目标函数及其代理仍然是一个研究方向。
与其他方法的比较: 虽然 MCR2 可以统一许多方法,但具体到某个应用场景,是否一定优于专门设计的任务仍然需要大量实验验证。例如,对比学习中的 SimCLR, MoCo 等在自监督学习中取得了巨大成功,MCR2 需要证明其在这些领域的优越性或互补性。
可解释性: 虽然表示学习旨在学习有意义的表示,但对 MCR2 学习到的表示的具体意义和可解释性仍需进一步研究。

4. NeurIPS 2020 的接受:

MCR2 被 NeurIPS 2020 接受,这本身就说明了该工作在学术界得到了认可。NeurIPS 是机器学习领域最顶级的会议之一,其审稿标准非常严格。这表明 MCR2 的研究方向和提出的方法具有创新性和学术价值。

二、 马毅教授自称“弄明白了深度学习”的评价

这个说法是引起广泛关注和讨论的焦点。我们需要审慎地理解其含义,并避免过度解读。

1. “弄明白了”的可能含义:

理论上的重大突破: 最直接的理解是,马毅教授认为他已经发现了深度学习背后一个核心的、普适的原理,能够解释深度学习为何有效,甚至指导未来的发展。这可能与他的 MCR2 框架有关,他可能认为最大化相关性是深度学习(尤其是在表示学习和自监督学习中的成功)的一个关键驱动力。
解决核心问题的关键: 深度学习领域存在许多未解之谜,例如为何过参数化的模型能泛化,为何梯度下降有效,为何存在平坦的局部最小值等。马毅教授可能认为他找到了解决其中一个或多个关键问题的钥匙。
统一的理论框架: 他可能觉得 MCR2 提供了一个统一的理论框架,可以将现有的各种深度学习方法(如自监督学习、多模态学习、甚至某些方面的监督学习)纳入其中,从而更清晰地理解整个领域。
个人理解上的顿悟: 也可能是马毅教授在长期研究中,通过 MCR2 等工作,个人对深度学习的运行机制和原理有了深刻的、系统性的理解,并因此产生了“弄明白了”的感受。这种“弄明白了”更偏向于个人层面的认知升华。

2. 评价这个说法的角度:

积极解读:
科学探索的勇气和自信: 敢于提出“弄明白了”这样的说法,体现了研究者深厚的学术功底和敢于挑战难题的勇气。这是一种积极的学术精神。
引领方向的潜力: 如果马毅教授的理论确实具有普遍性,那么他的工作可能会为深度学习领域带来新的视角和发展方向,甚至解决一些长期存在的瓶颈问题。
对表示学习的新贡献: MCR2 作为一个有价值的表示学习框架,本身就对深度学习领域做出了贡献,而“弄明白了”的说法则暗示了这一贡献可能更加深远。

审慎解读与质疑:
“弄明白了”的定义: 深度学习是一个极其复杂且仍在快速发展的领域。是否存在一个“完全弄明白了”的状态本身就是一个值得商榷的问题。很多研究者可能认为,我们离完全理解深度学习还有很长的路要走。
是否普适? 即使 MCR2 是一个重要的进展,它是否能解释 所有 深度学习的成功?例如,在很多强监督学习任务中,直接的监督信号仍然是主要的驱动力,这与最大化相关性的逻辑可能有所不同。
过度自信或语言的艺术? “弄明白了”可能是一种修辞手法,用以强调其工作的突破性,而非字面意义上的完全掌握。但一旦说出口,就容易引起误解和争议。
需要时间检验: 任何重大的科学理论都需要时间的检验,需要被社区广泛接受和验证。马毅教授的说法是否正确,还需要后续的研究和大量实验来证明。其他研究者是否能复现和扩展他的理论,是关键。

3. MCR2 与“弄明白了深度学习”的联系:

最有可能的情况是,马毅教授认为他的 MCR2 框架(或从中衍生的更普遍的原理)是理解深度学习关键方面(尤其是表示学习和自监督学习)的一个核心机制。他可能认为,通过最大化相关性,深度学习模型能够学习到数据中真正有用的、鲁棒的、可泛化的表示,这解释了为什么某些类型的深度学习能够取得巨大成功。

三、 综合评价

MCR2 是一篇高质量的学术论文: 被 NeurIPS 2020 接收,其提出的最大相关表示框架具有理论创新性和实际应用潜力,为表示学习领域提供了新的视角和工具。
“弄明白了深度学习”是一个大胆且有争议的说法: 它可能反映了马毅教授对其研究成果的深刻认知和自信,暗示了其工作可能触及了深度学习的核心原理。然而,深度学习的复杂性使得“弄明白了”这一说法需要非常谨慎地对待。它更可能是一种对核心机制的把握,而非对整个领域的全盘透彻理解。
未来需要更多验证: MCR2 的长期影响以及“弄明白了深度学习”这一说法的准确性,都需要在未来的学术研究中得到进一步的检验、扩展和验证。社区需要时间来消化、吸收和发展马毅教授的工作。

总结来说, 马毅教授的 MCR2 论文无疑是 NeurIPS 2020 上一篇重要的研究工作,它提出的最大相关表示框架为表示学习提供了一个新的理论视角。而他关于“弄明白了深度学习”的说法,则是一个极具挑战性和吸引力的论断。它激励着我们去深入思考深度学习的核心驱动力,但也需要我们以科学的严谨态度去审视,并期待未来的研究能进一步揭示其价值和意义。这更像是一个研究者在探索过程中,找到了通往理解深度学习关键路径的一把“钥匙”,并以此宣告他看到了更广阔的风景。

网友意见

user avatar

我理解深度学习的第一性原理不是结构,而应该是搞明白当前bp优化为何能达成各种效果。

网络结构是带有问题先验的,隐含了归纳偏置在里头,好比我为了快速计算某个分子的结构,放弃量子力学重头算方法,做了很多近似,哪怕近似很有效,都不能称之为第一性,或者原理

第一性原理,应该指的是我放弃结构,无脑mlp的情况下,在无穷尽数据上,暴力跑梯度下降,或者脑洞更加新的优化方法,能够带来多大的泛化,好比我计算dna也跑量子力学一样

如果能够在这条朴素的道路上,证明优化器能够在特定数据上,把无脑瞎连的mlp跑成包含特定结构的网络,那么这才是第一性原理

马老师这篇文章,与其说叫原理,不如说只是定义了一个适配他搞的那套优化器的网络结构,其并不是第一性的,因为他定义的数据压缩的方式明显是带有个人感情色彩的,换一个定义结构立马改变

user avatar

另一篇从信息论角度解释deep learning的文章,这篇文章就谦虚得多

arxiv.org/pdf/1905.0660

而且还给了整个研究思路的解释,方便读者理解

lizhongresearch.miraheze.org

user avatar

主要得看这篇文章,原文不叫first principle ,好像是撞名了,但很明显马毅老师很喜欢这个名字,那就这么叫了:


那篇 Learning Diverse and Discriminative Representations via the Principle of Maximal Coding Rate Reduction 其实只是个前菜。要理解这两篇文章,最好别去硬啃,容易磕着牙,直接看他最近的视频讲解更容易:

可以看出来,马毅老师真的是非常激动,对这个发现的喜爱溢于言表。

PPT在这里

太长不看版

文章通过建构的方法直接基于数据建立了一个神经网络。其实这个神经网络是整个优化过程的展开。也就是说,优化过程中更新一步,相当于加了一层,如果优化1000步,就等于构建了一个1000层的神经网络。因为优化的每一步都是几何可解释的,所以这个神经网络的每一层也就是可解释的。等于说你亲手一层一层的建立了一个神经网络,那你当然知道这一层做了些什么。

神奇的地方在于,展开之后的这个神经网络,直接包含了ResNet,Batch Norm,也就意味着这两个东西效果好是必然的。同时也和Switched Transformer的结构相似,当然区别是这是建构出来的,不是猜出来的。

我们平时使用的神经网路,是猜出来的结构,然后用反向传播法去改正一个错误的模型(初始化的模型),正如那个罗丹的故事:有人问罗丹雕塑的技巧是什么?罗丹回答“把多余的石头去掉”。反向传播大抵就是做的这个事情,根据模型犯的错去把它改对了。

而这个ReduNet,是正向的构建,像造房子一样,一块砖一块瓦的去建造。

所以反向传播是让错误越来越少,但问题是一开始就是一团浆糊,不知道错在哪里。而正向传播是让正确越来越多,你知道你这么做是正确的。

问题的构造

为了把问题简单化,我们就只考虑分类问题。从几何上看,模型的任务就是要把高维混乱的数据,分到几个圈圈里:

正如我们在经典的概率学习方法中所做的那样,通过把数据点映射成feature,我们要

让不同类的feature相互之间隔的远一些,同时把同类的feature聚得笼一些。使用核函数也好,神经网络也好,各种奇奇怪的映射,最终都是为了能映射出符合这两个条件的data representation,也就是数据点的feature。

那么直观的说,如果我们能测量这些feature占据的高维空间的大小,那只需要让所有的feature占据的空间张的很开,同时让同类的feature占据的空间缩得很小就可以了。

于是作者提出使用这个编码长度公式来测量这个空间的大小。公式计算的是编码整个数据集的feature所需要的比特数,而这个公式正是从测量整个数据集的feature的球填充推出来的,所以用来测量数据集的feature张开的空间的大小,还是比较合理的。

训练的目标函数

有了这个编码长度公式,那就好办了。直接根据“把整个feature占据的空间拉大,把同类feature占据的空间压缩”的逻辑建立优化目标(这个是一个argmax的问题):

就是数据集内所有数据的feature,那么在初始化的第一步,在使用normalization的情况下,可以认为就是normalize过的原始数据。之后这个Z会被更新,就变成了feature。以下统称为feature。

左边那部分 计算的是整个数据集中的feature张开的空间,所以整个Z都放进去了。那么我们希望这个R越大越好。

右边那部分的 计算的是同类的feature张开的空间,所以里面有一个 。这个东西做的事情是把属于第 类的feature筛选出来。所以这个包含的就是我们的ground truth了,在训练的时候,我们知道每一个feature的类别标签,当然就可以进行筛选。把同一类的feature筛选出来,然后计算他们张开的空间,我们希望他们越集聚越好,所以项前面是负号,相当于要minimize这个。

训练的过程

然后maximize这个公式就完事了,而我们更新的目标就是 。然后就是用gradient ascent更新:

其中 是layer的意思,也就是说每更新一次,相当于走了一层,也相当于把上一层输出的feature进行了一次变换。而后面那个限制条件,意思是更新完之后对 进行一次normalization,这样可以让的scale是一致的。

经过一通求导操作,得到这个简化的梯度公式:

简化后的梯度公式做了两个变换,左边那部分其实就是对整个feature空间作一次扩张操作,也就是 ,意思是对第 层的feature空间进行expansion。右边那部分是对同类别的feature空间分别作压缩操作,也就是 ,意思是对第 层属于第 类的feature空间进行compression.

这就是他的可解释性,每走一层,或者说每更新一步,你都知道你在做什么:扩张整个feature空间和压缩各个类别的feature空间。

以上就是训练的过程了,那么训练完之后得到了什么呢?如果不考虑训练数据的话,训练完之后我们就得到了每一层的和,这两个东西,你看公式,是不是要和feature去相乘的?这就是我们训练出来的权重了,于是权重的意义也就是完全可解释的了。

而权重是直接从训练数据中计算出来的,本质上来说是在做数据的自回归:

如何进行推断

那么如何进行推断呢?在上面的公式里,因为我们有了,也就是ground truth,我们可以对每一类的feature进行筛选和计算。但跑inference的时候,就没有了,所以我们就要用类似于gating的方法用softmax构造一个筛选器:

刚才说了,优化的目标是让 这个数变大,那么很自然的就可以想到,直接可以用这个数结合softmax构造一个筛选器。哪个类别的 让我更大,就认为我属于那一类。这个softmax,其实就是网络结构中经常出现的routing或者gating。

如果把整个网络结构展开,我们就能得到这样的一个计算图:

就是第l层的feature,他经过三条通路的计算之后相加,然后normalization之后传给下一层。

其中那个 就是我们的softmax, 就是优化的步长, 是normalization操作。

经过几百层的操作之后,就得到一个被变换过的feature,然后用这个feature去找训练数据feature的平均值的最近邻居,就知道是属于哪一类的了。

以上是文章的关键部分,后面文章还进一步解决了如何应用在图像上,如何解决平移不变性问题,如果用傅立叶变换加速等等,没认真看了,大家感兴趣的自己去看看。

理论价值

这个ReduNet完全就是一步一步推出来的,每一步的计算都是有理有据的。那么大家看看上面那个计算图,可以发现这个图可以直接解释:

ResNet:注意第三个通道,feature和 相乘然后又和其他两个通路相加,这个其实就是维护了恒等关系,或者说是在学习残差。

Batch Norm:注意最后的normalization,那个其实就是batch norm。

Gating:可以解释 swin transformer, LSTM, GRU等等带 routing 和 gating 的网络。

因为一开始的问题设定,网络做的事情我们是知道的,所以不存在遗忘问题,也就是说,每走一步,就学到了新东西。如果你想让网络学更多,比如加入一个分类,那就加一个类别接着训,之前的分类成果不会损失。如果是用反向传播法训练神经网络,你再加一个类进去继续训练,会产生遗忘问题。所以训出来的网络更robust。

那么是不是完全解决了深度学习问题,让神经网络变得可解释了?我看不见得,深度学习通过反向传播学习一通操作之后,里面的微结构是乱套的,很多层甚至没什么作用,纯粹的累赘,是高度非结构化的。应该说,这篇文章做的事情,是构建了一个可解释的神经网络,但他仍然没有办法去解释反向传播学出来的神经网络在干嘛,这两个神经网络很看起来差不多,但在内部很可能做的不是一件事情。

我的猜测是,传统的神经网络做了很多乱七八糟的事情,当然也包括ReduNet做的事情,所以很多问题都得到了很好的解释,比如Resnet,batchnorm,gating。但传统神经网络还有在做其他的很多事情,这些是ReduNet没覆盖的。

那么很可能的是,传统神经网络做的那些玄妙的事情都是浪费时间,是错的。到头来只要做ReduNet解决的那一个问题就可以了,也就是说,我们可能最后没有必要去理解一个错的东西。这个还需要更多的工作去证明和扩展,比如把同样的思路用在各种任务上刷榜。如果这被证明是对的,那么就真的是神经网络的第一性原理了,只要关注这一个原理就行了。不过暂时还不能下结论。

实践价值

实践价值有一些,比如可以使用那个目标函数作为loss加到你的网络里面,这就是那篇 Learning Diverse and Discriminative Representations via the Principle of Maximal Coding Rate Reduction 做的事情,可以让训练出来的网络鲁棒性更强。

至于这个ReduNet,更多的是理论验证用途,实践价值还需要一些打磨,比如如何用gpu加速,如何用batch训练等等。ReduNet代码都公开了,github上有,大家可以跑着玩玩:

两个都可以的,我跑的是第二个,不难懂,其实第一个好像更容易懂。

可能理解的不到位,请大家指正

user avatar

这个东西自身的推导没问题,唯一的问题是它不是用bp训练出来的神经网络,所以说它可以解释bp训练的神经网络就很奇怪。

最后构造出来的那个redunet,应该是可导的,如果把这个东西再用bp finetune一下,然后准确率提高了,岂不是很尴尬。。。

user avatar


马毅老师【@UCBerkeley EECS教授】,这则问题可以结合他在之前发过的另一篇博文-如右图;先纠正某个留言,文中马老师当然不是在说过拟合,他是在调侃如今非线性随机模型普遍的掣肘;学术层面做机理模型课题较多,因此他历来批判统计模型也就可以理解,其实UCB整体在这个领域都存在批判统计模型的风向,有很多ref 。

回归工程意义的讨论,深度学习中常见的判断多个因素对单一事件成功与否的影响,倘若构建不了机理模型,那么单纯从数据面推进通常就是先散点图初步观察关系,而后做具体的相关性分析、多因素方差或者因子分析,至于接着做的end-to-end层间分类模型就很多了:机器学习类的神经网络、SVM分类等,或者如果是连续的转为回归都是可以的。当然,文中的MCR2原理针对尤其是自监督学习方法的representations是值得期待的(论文有列举实验场景),自监督方法不依赖于人工标签注释,且是通常集中在有数据良好表示(如平滑度,稀疏性和分解)的预设先验上,尤其用于聚类分析。另外在表示学习方面,人脑自身的学习本质也提示我们,大型注释数据集并不是必需,我们可以自发的从未标记的数据集中学习(自监督方法),并使用数据样本本身的关联关系来构造伪标签;那么在多样性的学习范式下提供统一化的高效率representations就很有意义了;论文中也讲到【“MCR2原理的宗旨就是为学习多样性和判别性特征提供理论保障,可以从有限的退化类子空间分布样本中精确计算,并可以统一地学习监督、自我监督和非监督设置中的内在表示” - provide theoretical guarantees for learning diverse and discriminative features. The coding rate can be accurately computed from finite samples of degenerate subspace-like distributions and can learn intrinsic representations in supervised, self-supervised, and unsupervised settings in a unified manner. Empirically, the representations learned using this principle alone are significantly more robust to label corruptions in classification than those using cross-entropy, and can lead to state-of-the-art results in clustering mixed data from self-learned invariant features.】

通常意义的机理模型似乎更适合描述小而精密或是抽象的对象或系统;而大系统/超大系统是由若干小系统构成的,倘若单独针对小系统/小层/小block建模,那么小系统模型误差的积累也会导致大系统的模型误差更大,甚至完全失去指导意义;则这个时候,经验性知识和统计数据集就会变得重要了。AI智能化往往针对大系统,在这些大型应用场景下,操作客观现象收集与经验知识的数据化,可能比采用纯粹的数学模型更有效。所以机理模型只有参数全对了才能得出解,已知参数需要覆盖全局计算的条件,但神经网络为代表的非机理模型(黑箱or灰箱)输入则是以大数据为主,输出则是用于推理结果成功与否的概率模型。

Btw:猜想马毅老师可能处于两者歧义点。非机理模型与机理模型处在输入参数变化的两端,非机理模型处于输入参数不全的一端,而机理模型处在输入参数完全的一端。即非机理模型的黑箱和灰箱慢慢变成机理模型的白箱:)另外,马老师应该也有隐指国内算力刷分多有小数据集作弊问题。

user avatar

简单看了一下方法部分,实验没有看。简单说一下对论文工作的直觉吧,可能又要得罪人了。

(1)论文设计了一个信息论准则去判断网络对问题信息/结构的表达的质量,其中考虑了有损编码,所以使用了率失真函数去代替普通的信息熵。这个代价函数基本可以看作互信息的一个扩展,用率失真函数替代信息熵。所以,这个函数本质:在要求有损表示效率(信息熵最小)的前提下,达到不同类别之间的最小互信息,即尽量分离不同类别的表示空间。这从思想上和传统的ICA之类的东西有互通之处,论文后面也提到与constrastive learning的思想的比较,也是这个意思,本质还是在构造最优化的解耦表示,只不过作者认为可以用信息论的测度来度量解耦表示的性能而已。

(2)我没有看实验,但是就我的信息论知识,简单通信系统的率失真函数R的计算都是困难的,如果是大数据,那么R应该怎么算,我不清楚,也不知道论文是怎么完成计算的。之所以没有看实验,因为论文提出的方法是显然合理的,不用看实验,也能想象到结果应该是支持的。

(3)论文从思想上没有什么问题,直观而且合理。但是从作者说的试图去挖掘深度学习的本质这个目标看,论文的深度达不到这个目的,因为信息论的方法没有触及问题的本质,这和论文中提到的信息瓶颈的工作类似,信息瓶颈所展示的特征,依然是个表面现象,比如其实验给出的网络训练的二阶段特征,其实其背后有更底层的机制,但是IB这个工作没有看到这个底层机制。同样,这篇论文在思想深度上和IB的工作差不多,也是给出了一个现象性的描述,没有触及本质。

(4)论文讨论的是一类特殊问题,偏重对不同类别数据的表示问题,但是这远远不是深度网络的全部,深度网络可以处理更为广泛的问题,对于其他问题,论文这个方法可能就不适用了,因为并不是所有问题都是要去区分不同类别的数据的,所以论文考察的内容具有局限性,这也是我认为论文没有触及深度网络的本质的原因,因为论文没有考察最一般的问题。比如,我就不好去想象,谷歌的Alphafolder系统中,如何可以用这个准则去判断网络对于蛋白构型规律的表示如何可以用这个准则去度量,AlphaGo又如何去判断估值和策略网络对围棋问题的表示是否高效。所以,还是要去找更本质的角度来考察深度网络问题。

(5)themaximal coding rate reduction (MCR2) is a fundamental principle for learning discriminative low-dim representations in almost all learning settings, 结论中的这句话,我认为是高估了,论文对深度网络的认识还没有触及核心问题, 这个准则应该是达不到fundamental principle的深度的,因为所谓fundamental,应该是针对网络的,而不是针对数据的,如果存在一个fundamental principle,那么一定是定义在网络自身之上,而不应该是依赖于问题数据的。从这一点看,马老师提出的这个准则应该不是fundamental的。

马老师似乎是把一个网络真正的first principle控制下的网络表现出来的部分行为特征当成了first principle本身。举个例子,如果要从一个点走到另一个点,我们知道物理系统是按照the least action principle行动的,马老师看到了质点在平面上走了个直线,于是他说,我知道了,原则就是前进方向一直指向目标点。但是,如果是在Poincare disk走呢?

(6)简单说,物理的知识告诉我们,first principle从来都是路径依赖的,即它依赖于系统走过的轨迹,而马老师的目标函数显然只定义于网络的终端,与路径过程无关,与网络结构无关,对网络结构没有约束,从这一点就可以判断,这不是first principle.

类似的话题

  • 回答
    要全面评价马毅教授在 NeurIPS 2020 上的中稿文章 MCR2(Maximum Correlation Representation)以及他自称“弄明白了深度学习”这个说法,我们需要从多个维度进行深入的分析。这不仅仅是对一篇论文的评价,更是对其背后理念和影响力的探讨。一、 MCR2 论文的评.............
  • 回答
    饶毅教授“反智的应试教育容易产生愤青”的言论,可以从多个维度进行评价和深入探讨。这句话触及了教育体制、人才培养以及社会心理等多个层面,具有相当的启发性。一、 理解饶毅教授言论的背景和核心观点首先,我们需要理解饶毅教授作为一位杰出的生命科学家,他对教育的关注和立场。他长期以来致力于批判中国教育体制中存.............
  • 回答
    饶毅教授的文章《五十年来中国高校的考评方式:0次学术考评是否最佳?》是一篇非常有启发性和深刻性的文章,它触及了中国高等教育体系中一个长期存在且备受争议的问题——学术考评机制。要评价这篇文章,我们需要从其核心论点、分析的深度、提出的问题以及可能的解决方案等多个角度来审视。一、 对饶毅教授文章的评价总的.............
  • 回答
    要深入探讨马毅教授在国内未能获得杰青称号这件事,我们得先跳出“英雄崇拜”或者“阴谋论”的简单框架,而是要从多角度、细致地去审视国内人才评价体系、科研生态以及马毅教授本人的学术轨迹。这其中涉及的因素非常复杂,既有制度性的,也有个人性的,甚至还有一些历史遗留的问题。首先,我们得承认,马毅教授在国际上的学.............
  • 回答
    饶毅先生是一位在中国科学界具有广泛影响力和争议性的人物。要评价他,需要从多个维度去理解他的贡献、风格、以及他在社会上的角色。以下将尽量详细地阐述:1. 学术成就与贡献: 神经科学领域的杰出贡献: 饶毅先生是著名的神经科学家,他在果蝇和线虫的神经发育、神经行为等领域取得了重要的研究成果。他对神经元.............
  • 回答
    饶毅教授因其在中国科学界的独特地位和影响力,以及他本人过往的经历,他的签证问题以及中国专家集体缺席国际会议的事件,确实引发了广泛的关注和讨论。要评价这些事情,我们需要从多个角度来审视,包括饶毅个人的情况、签证政策的普遍性、对中国科研交流的影响以及背后的深层原因。一、 饶毅教授的情况:个人选择与客观现.............
  • 回答
    2016年初的“脸谱出征”:一次互联网亚文化群体与国际平台的碰撞2016年1月20日,一个在中文互联网圈里,尤其是贴吧文化中颇具影响力的小群体——“李毅吧”,组织了一场被其成员称为“出征”的行动,目标是Facebook。这次事件,放在当时的历史语境下,可以视为一次在中国互联网亚文化群体与国际化社交平.............
  • 回答
    饶毅文《北京大学与香港大学的差别之一》之反思:名誉教授的价值何在?饶毅教授的这篇《北京大学与香港大学的差别之一》,以其一贯的直言不讳,为我们剖析了高等教育界一个值得深思的现象:高校是否应该授予商人“名誉教授”? 这篇文章不仅仅是对具体个案的点评,更是对当前高等教育与社会资源互动模式的一种批判性审视。.............
  • 回答
    杨毅老师的这篇公众号文章《我长大了才知道,岳飞的可恶》,确实是一篇非常有冲击力、也引发广泛讨论的文章。从一个球迷、一个历史爱好者甚至是一个普通人的视角出发,去重新审视一位被我们从小到大奉为民族英雄的人物,这种视角本身就非常新颖,也很有勇气。文章最让我印象深刻的地方,在于它并没有停留在简单地“反驳”岳.............
  • 回答
    饶毅写这篇《为什么方是金不能准确评论施一公的成就?》,其实切入点很巧妙,不是直接开骂方舟子,而是从“评论”的角度,探讨了“谁有资格”以及“如何做出准确评论”这个更宏观的问题。他用施一公的例子来说明,这背后其实隐藏着对知识、学术评价体系乃至公知现象的深刻反思。饶毅文章的几个核心观点:1. 专业背景与.............
  • 回答
    饶毅教授这句“我和川普两个人之间,肯定是我代表正义!!!”确实是一句相当有冲击力的话,也因此引发了不少讨论。要评价这句话,咱们得从几个层面来细看。首先,从说话的语境和饶毅教授的身份来看。饶毅教授是享有盛誉的神经科学家,他在科学界的地位和专业素养是不容置疑的。同时,他也以直言不讳、敢于批评著称,尤其是.............
  • 回答
    陆毅在《人民的名义》里饰演的侯亮平,这个角色可以说是整部剧的灵魂人物之一,承担着推动剧情发展、揭露腐败的关键任务。评价他的演技,我觉得得从几个层面去看:首先,他成功塑造了一个有血有肉、内心复杂的人物。 侯亮平不是那种脸谱化的正面人物,他有自己的成长背景,有自己的原则,也有作为丈夫和父亲的温情。陆毅在.............
  • 回答
    弘毅投资 9 亿英镑收购 PizzaExpress:一场豪赌,回报几何?弘毅投资以 9 亿英镑的天价拿下英国老牌披萨连锁 PizzaExpress,这笔交易无疑在资本市场激起了一圈不小的涟漪。对于弘毅投资而言,这既是一次雄心勃勃的全球化扩张尝试,也充满了未知与挑战。那么,这笔巨额投资能否为弘毅带来理.............
  • 回答
    .......
  • 回答
    马苏起诉黄毅清诽谤罪,这是一起备受关注的事件,涉及到公众人物的声誉、网络言论的边界以及法律的适用。要评价此事,需要从多个维度进行分析。事件背景回顾:首先,我们需要回顾一下事件的起因。马苏是知名女演员,而黄毅清是某知名人士的前夫,以其在网络上(尤其是在微博上)频繁发表言论而闻名。在黄毅清与前妻的离婚纠.............
  • 回答
    评价杨毅在东部抢七赛后微博内容的详细分析需要结合当时具体的比赛情况、他表达的观点以及他的影响力来综合考量。由于我无法实时获取最新的微博内容,我将基于杨毅作为资深篮球评论员的过往风格和常见的评论方向,为您提供一个可能的评价框架和分析角度。首先,我们需要明确杨毅在篮球评论界的定位和风格: 资深评论员.............
  • 回答
    方舟子指控饶毅与管坤良实验室论文造假事件,是一场在科学界引起广泛关注的争议。要评价此事,我们需要从多个维度进行剖析,包括事件的起因、双方的核心论点、证据的呈现、过程中的争议点以及最终的影响。事件的起因与背景:这场风波可以追溯到方舟子一贯以来对中国科学界科研不端行为的“打假”立场。饶毅作为中国生命科学.............
  • 回答
    好的,咱们就来好好聊聊饶毅11月16号在《锵锵三人行》上说的那些事儿。能请到饶毅老师上节目,本身就是一件挺有分量的事,他作为在中国科学界非常有影响力的学者,讲话总是能引发很多讨论。他那天在节目里,具体说的内容可能每个人听了都有不同的侧重点,但我印象比较深的是围绕着科学界的一些现状、科研人员的处境以及.............
  • 回答
    凤凰传奇的曾毅,虽然不是以他那标志性的说唱而闻名,但他在这段组合中扮演的角色,以及他所贡献的“说唱”部分,其实是相当有意思,值得好好说道说道的。咱们不能用那种纯粹的嘻哈标准去要求他,凤凰传奇的风格本来就不是走那条路的。曾毅的说唱,更像是一种“叙事性点缀”和“节奏性烘托”如果说玲花的声音是凤凰传奇那高.............
  • 回答
    中传大一新生朱轩毅的《八号机另类定格机战》:一次充满潜力与创意的初体验在中国传媒大学的数字媒体艺术专业,每年的大一结课作业都是对新生们四年学习成果的一次初步检验。而朱轩毅同学的flash动画作品《八号机另类定格机战》,无疑是其中一抹亮眼的色彩,足以让人感受到这位未来新锐身上蕴藏的巨大潜力。作为一名全.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有