问题

ICML 2018 有哪些值得关注的亮点?

回答
ICML 2018,即第35届国际机器学习会议,于2018年7月10日至7月16日在斯德哥尔摩举行。那一年,机器学习领域继续蓬勃发展,ICML 2018也汇聚了大量前沿的研究成果和行业趋势。要详细讲述其亮点,我们可以从几个维度来分析:

1. 研究主题和热点方向:

深度学习的持续主导地位与深入探索: 深度学习无疑仍然是ICML的核心。但2018年的重点不再仅仅是构建更大的模型或在特定数据集上刷新记录,而是更加关注深度学习的内在机制、理论基础、鲁棒性、可解释性以及实际应用中的挑战。
Transformer和自注意力机制的深化应用: 虽然Transformer模型在2017年被提出,但在ICML 2018,其影响力开始更加显著地扩散到NLP之外的领域,例如计算机视觉。关于如何更有效地利用自注意力机制、处理长序列、优化计算效率的研究开始涌现。
生成模型(Generative Models)的进步: GANs(生成对抗网络)和VAEs(变分自编码器)仍然是热门话题。除了在图像生成上的精进,研究者们也在探索如何提高生成模型的稳定性和控制性,例如更精细的条件生成、更少的模式坍塌等。
强化学习(Reinforcement Learning)的新进展: 强化学习在游戏、机器人等领域的成功刺激了更多理论和应用的探索。值得关注的方向包括:样本效率的提升、离线强化学习、多智能体强化学习、以及如何将强化学习应用于更复杂的现实世界问题。
联邦学习(Federated Learning)的兴起: 随着用户隐私意识的提高和移动设备的普及,联邦学习开始崭露头角。研究聚焦于如何在不将原始数据传输到服务器的情况下,训练高质量的机器学习模型,例如通信效率、模型聚合算法、设备异质性等问题。
可解释性(Interpretability)和公平性(Fairness)的关注度提升: 随着机器学习模型在关键领域(如医疗、金融)的应用,对模型“黑箱”问题的担忧日益增加。ICML 2018上有不少研究探讨如何理解模型的决策过程,以及如何确保模型的决策是公平且无偏见的。
图神经网络(Graph Neural Networks GNNs)的爆发: GNNs开始被广泛应用于处理结构化数据,如社交网络、分子结构、知识图谱等。研究聚焦于开发更强大的GNN架构、更有效的消息传递机制以及在不同图结构上的应用。

理论与算法的回归与深化: 除了应用驱动的研究,对机器学习理论基础的探索也备受关注。
统计学习理论与在线学习: 对模型泛化能力、收敛性、最优性等理论分析的研究依然是重要的组成部分。
优化算法的改进: 尤其是在深度学习场景下,如何开发更高效、更鲁棒的优化器(如Adam的变种、自适应学习率方法)是持续的研究热点。
信息论在机器学习中的应用: 利用信息论的工具来理解学习过程、设计新的学习算法或评估模型性能。

2. 重要论文和工作(举例说明,这部分需要回顾当年的优秀论文,无法完全穷尽):

关于Transformer的改进和应用扩展: 可能有论文提出新的Transformer变体,以解决长序列处理的瓶颈,或者将其成功应用于了计算机视觉的特定任务。例如,一些工作可能尝试将Transformer的思想与卷积网络结合,或者探索其在序列生成中的更精细控制。
GANs的稳定性与可控性: 可能会有论文提出新的GAN训练技术,例如更优的损失函数设计(如WGANGP的进一步改进),或者提供更好的生成样本质量和多样性。例如,可能有一些工作专注于条件GAN的生成细节控制。
强化学习的样本效率提升: 可能会有关于基于模型(modelbased RL)的强化学习方法的进展,通过学习环境的模型来减少与真实环境交互的样本数量。或者有新的离线强化学习算法,能够在没有与环境交互的情况下从已有的数据中学习策略。
联邦学习的理论和实践: 可能会有论文提出新的联邦平均算法(Federated Averaging, FedAvg)的变种,以应对设备不平衡、通信延迟等挑战。也可能有一些工作在隐私保护方面做出贡献,例如差分隐私在联邦学习中的应用。
GNNs在不同任务上的突破: 可能有论文展示GNNs在药物发现、材料科学、知识图谱推理等领域的成功应用,并提出了新的GNN模型来更好地捕捉图的结构信息。例如,一些工作可能探索图卷积的变种或消息传递的聚合方式。
可解释性方法的创新: 可能会有新的方法来解释深度学习模型(如LIME, SHAP的进一步发展或新方法的提出),或者如何度量和改进模型的公平性。

3. 会议亮点和趋势:

工业界的广泛参与和贡献: ICML一向是学术界和工业界交流的重要平台。2018年,来自Google Brain, DeepMind, Facebook AI, Microsoft Research等顶尖AI实验室的研究者贡献了大量重要的论文,尤其是在将前沿研究转化为实际应用方面。
开源社区的影响力: 开源框架(如TensorFlow, PyTorch)的成熟使得研究成果更容易复现和传播,很多论文也伴随着开源代码的发布,进一步推动了社区的进步。
跨学科的融合: 机器学习与统计学、计算机视觉、自然语言处理、机器人学、生物学、社会科学等领域的交叉研究越来越普遍,这显示了机器学习作为一种通用技术正在渗透到各个学科。
对人工智能伦理和安全性的初步关注: 虽然当时“AI伦理”这个词可能还没有像现在这样广为提及,但对模型偏见、公平性、鲁棒性等方面的研究,已经为后续的AI安全和可信AI研究奠定了基础。
计算能力与模型规模的协同发展: 随着算力的提升,研究者能够训练更大规模的模型,但也更加关注如何通过更高效的算法和模型设计来降低计算成本。

总而言之,ICML 2018是一场承前启后、蓬勃发展的盛会。它标志着深度学习的深入探索,强化学习和生成模型的持续突破,以及联邦学习和图神经网络等新兴领域的崛起。同时,会议也更加注重理论基础的夯实、模型的可解释性和公平性,以及学术界与工业界的紧密合作,为后续几年机器学习的发展指明了重要的方向。

要更具体地了解“值得关注的亮点”,建议查阅ICML 2018的官方论文列表和最佳论文奖项,以及当时关于会议的综述性文章或博客。例如,可以搜索“ICML 2018 best paper”来了解当年的重量级工作。

网友意见

user avatar

赶NIPS中间来回答一下问题



arxiv:

本科真正意义上第一批工作

想法比较简单 resnet我可以写成

这个左边项把n理解成artificial time的话可以看成求导

所以我们把resnet理解成求解ODE,并且把大多数的网络都对应到了ODE的求解算法

然后我们发现了一件事情,所有网络都是单步法,几乎没有网络考虑了多步法,也就是说大家都在考虑对右端项的逼近

所以我们就用了多步法,从另一个维度我们换了逼近 ,用了线性多步法也就是我们的网络架构是

就这么每层引入一个参数就提升了网络效果,我们56层网络效果和110层的resnet效果一样


特别像强调的是请大家看下我们“”Explanation on the performance boost via modified equations.“”这一部分,这一部分的release了一个很high level的idea


我之前也写过文章,优化也可以用ode来看

优化算法新观点

我们想强调步长->0来看可能很多时候是无法理解加速效果的,因为在极限意义下逼近的动力系统和离散的会有gap,有时候是有好处的【比如我们的例子】,有时候是有坏处的【推荐一篇最近的这个方向文章我很喜欢,有时间我介绍下Direct Runge-Kutta Discretization Achieves Acceleration

我们的分析手段是所谓的修正方程


我们在随机比如dropout上做了一些分析,对应到了随机微分方程

我们用收敛推荐推导出来了stochastic depth深度变深要概率趋于1/2和他们实验一致很surprising


PDE-Net是一个反过来的工作,用dl来做数值pde


我们发现卷积核和数值格式很类似,给了卷积和数值格式的联系,我们的好处是

  • 我们不希望是black box model我们可以知道我们的网络在simulate什么pde【有些应用肯定是不希望用black box的】
  • 同时不想传统pde,又慢又没有精度

而且做了data driven的格式有很多很惊人的地方,比如用很简单的差分格式就handle了highly nonlinear的equation,我觉得之前我都不敢想象

这个方向在图形学,数值pde都有很多人在做,我整理了一下文献

© 2prime

然后后续工作我们正在赶nips,应用在low level的图像处理中

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有