ICLR 2021 有什么值得关注的投稿？

ICLR 2021 (International Conference on Learning Representations) 是机器学习领域最顶级的会议之一，汇聚了全球最前沿的研究成果。即使会议已经结束，回顾其备受关注的投稿仍然能帮助我们了解当时的研究热点和未来的发展趋势。

以下是一些在 ICLR 2021 上备受关注的投稿方向和具体论文的详细介绍，我会尽量覆盖当时讨论度高、影响力大、或者开创性强的研究：

核心关注方向与亮点：

ICLR 2021 的研究涵盖了机器学习的各个方面，但以下几个方向尤其受到关注：

大规模预训练模型 (Largescale Pretrained Models): 继 GPT3 之后，如何更高效、更安全、更有效率地训练和应用大规模语言模型（LLMs）以及其他模态的大规模模型是焦点。
自监督学习 (SelfSupervised Learning SSL): 如何在没有大量标注数据的情况下学习强大的表征，以降低对标注数据的依赖，并且在下游任务中表现出色。
模型的可解释性与公平性 (Interpretability and Fairness): 随着模型越来越强大，理解其决策过程、确保其公平性成为了重要的研究课题。
强化学习的理论与应用 (Reinforcement Learning RL): 在复杂环境下的智能体学习，包括探索、样本效率、离线 RL 等。
图神经网络 (Graph Neural Networks GNNs): 在图结构数据上的表示学习，以及解决现实世界中的图相关问题。
对抗鲁棒性与安全 (Adversarial Robustness and Security): 如何提高模型对对抗性攻击的抵抗能力。
模型压缩与效率 (Model Compression and Efficiency): 如何在保持性能的同时，减小模型大小和计算成本，使其能在资源受限的环境下部署。
多模态学习 (Multimodal Learning): 融合不同类型的数据（如文本、图像、音频）进行学习。

备受关注的投稿论文详情：

以下是一些在 ICLR 2021 上引起广泛讨论和关注的论文，我会尽量详细介绍它们的研究内容、创新点以及影响：

1. 大规模预训练模型及其应用 (LLMs & Beyond)

论文类别： LLMs, Transfer Learning, NLP
重要性：在 GPT3 掀起 LLMs 热潮后，ICLR 2021 继续深入探讨 LLMs 的能力、局限性以及更广泛的应用。
具体例子：

"Fewshot Learning with SelfAttention Augmentation" (可能不是一篇单独的，但代表了一类研究方向): 这类研究探索如何利用 Transformer 的自注意力机制来增强 fewshot learning 的能力，即模型只需少量示例就能学习新任务。核心思想是让模型通过自注意力来“学习如何学习”，或者从少量样本中提取更具泛化性的信息。
"Language Models are FewShot Learners" (虽然 GPT3 的论文主要发表在 NeurIPS 2020，但 ICLR 2021 有大量基于其思想的研究): 这篇论文（虽然不是 ICLR 2021 的新投稿，但影响深远）展示了无需梯度更新，仅通过自然语言提示就能让大型语言模型执行各种下游任务的能力。ICLR 2021 上很多投稿都是基于这一思路，例如如何设计更好的提示（Prompt Engineering）、如何将特定领域的知识融入提示等。
"Scaling Laws for Transfer" (可能代表了对预训练模型迁移能力的研究): 这类研究关注在不同模型规模、数据量和计算资源下，预训练模型在下游任务上的迁移学习效果如何变化，以及是否存在可以预测的“缩放法则” (Scaling Laws)。理解这些法则有助于更有效地训练和部署大规模模型。

2. 自监督学习的理论与实践 (SelfSupervised Learning)

论文类别： SSL, Representation Learning, Computer Vision, NLP
重要性： SSL 是 ICLR 2021 的一个核心主题。研究者们致力于开发更强大的 SSL 方法，以减少对昂贵标注数据的依赖。
具体例子：

"BYOL: Bootstrap Your Own Latent" (NeurIPS 2020, 但在 ICLR 2021 持续受到关注和引用): BYOL 是一种无需负样本的自监督学习方法，通过两个神经网络（Online 和 Target 网络）交互进行学习。Target 网络是 Online 网络的指数移动平均 (EMA) 版本，通过预测 Target 网络输出的表示来优化 Online 网络。这种“在线学习自身”的机制被证明非常有效。
"SimCLR v2: Big SelfSupervised Models are Strong SemiSupervised Learners" (NeurIPS 2020, 同样影响巨大): SimCLR 系列是对比学习的代表。SimCLR v2 进一步探索了数据增强策略、更大的模型以及如何将这些大规模自监督模型用于半监督学习，取得了显著的半监督学习效果。它表明，强大的自监督表示可以极大地提升少量标注数据的学习效率。
"SwAV: Unsupervised Learning of Visual Representations by Contrasting Cluster Assignments" (NeurIPS 2020, 依然是热点): SwAV 提出了一种基于聚类的自监督学习方法。它将编码器的输出现表示进行量化，然后通过预测不同图像的“簇分配”来学习。这种方法在样本效率和效果上都表现出色。
新的对比学习或非对比学习方法： ICLR 2021 上涌现了大量新的 SSL 方法，它们可能在数据增强策略、负样本设计、模型架构或优化目标上进行创新，旨在进一步提升表示的质量和泛化能力。

3. 模型的可解释性与公平性 (Interpretability & Fairness)

论文类别： Explainable AI (XAI), Fairness, Ethics in AI
重要性：随着 AI 在关键决策领域的应用，理解模型的“黑箱”机制以及确保其公正无偏至关重要。
具体例子：

"Towards Understanding Representation of Attributes in Neural Networks" (可能代表了对网络内部表示的分析): 这类研究尝试解析神经网络在学习过程中，如何表示和存储数据的不同属性（如颜色、形状、文本中的情感极性等）。通过可视化、激活最大化等技术，来理解模型内部的“语义空间”。
"Fairnessaware Representation Learning" (可能代表了如何在学习表示时就考虑公平性): 这类研究提出新的目标函数或训练策略，使得学习到的表示既能保留任务相关信息，又能最小化对敏感属性（如性别、种族）的依赖，从而减少模型在下游任务中的歧视性行为。
"Counterfactual Explanations" (一种重要的 XAI 方法): 提出了更鲁棒、更一致的“反事实解释”，即描述需要改变输入数据的哪些最小部分，才能使模型的预测结果发生改变。这有助于用户理解“如果…会怎么样”。

4. 强化学习的理论与应用 (Reinforcement Learning)

论文类别： RL, Decision Making, Robotics, Game Theory
重要性：强化学习在解决复杂决策问题上展现出巨大潜力，ICLR 2021 关注其理论基础、样本效率和实际应用。
具体例子：

"Offline Reinforcement Learning" (例如，基于数据集的离线 RL): 随着大量历史数据的积累，如何在不与环境交互的情况下，仅从固定的离线数据集中学习有效的策略成为热点。关键挑战是如何处理数据中的“分布偏移”问题。
"ModelBased Reinforcement Learning" (基于模型的 RL): 研究如何学习环境的模型，然后利用这个模型进行规划或生成样本，以提高样本效率。这包括学习更准确、更具预测性的世界模型。
"Safe Reinforcement Learning" (安全强化学习): 如何确保 RL 智能体在学习过程中不执行危险的操作，尤其是在真实世界应用中。这可能涉及约束优化、风险评估等技术。
"MultiAgent Reinforcement Learning" (多智能体强化学习): 研究多个智能体在同一环境中协作或竞争的学习问题。这在自动驾驶、游戏AI等领域有广泛应用。

5. 图神经网络 (Graph Neural Networks)

论文类别： GNNs, Graph Representation Learning, Recommendation Systems, Social Networks, Drug Discovery
重要性： GNNs 在处理非欧几里得数据（如社交网络、分子结构）方面具有天然优势，其研究和应用都在快速发展。
具体例子：

"Graph Transformers" (例如，将 Transformer 引入 GNN): 借鉴 Transformer 的自注意力机制，设计能够处理图结构数据的 Transformer 模型。这使得 GNN 能够捕捉节点间更长距离的依赖关系。
"Heterogeneous Graph Neural Networks" (异构图神经网络): 研究如何处理包含多种节点类型和边类型的异构图。这类图在现实世界中更为普遍，例如知识图谱。
"Benchmarking GNNs" (GNNs 的基准测试与比较): 研究者们也在致力于建立更全面、更可靠的 GNN 基准测试集和评估框架，以推动 GNN 研究的规范化和进步。
GNNs 在特定领域的应用：例如，在药物发现中预测分子性质，在推荐系统中捕捉用户与物品的复杂关系，在物理模拟中预测粒子行为等。

6. 对抗鲁棒性与安全 (Adversarial Robustness & Security)

论文类别： Adversarial Attacks & Defenses, Robustness, Security
重要性：确保模型在面对恶意输入时仍然保持可靠性是至关重要的。
具体例子：

"Robust Training Methods" (例如，对抗训练的改进): 改进各种对抗训练方法，使其更有效、更高效，并且能够抵御更强的对抗性攻击。这可能包括设计新的数据增强策略或正则化项。
"Certified Robustness" (认证鲁棒性): 目标是开发能够提供数学保证，证明模型在某个特定扰动范围内的鲁棒性的方法。这通常比经验性评估更强大。
“Understanding Adversarial Examples” (理解对抗样本的本质): 研究对抗样本为何能欺骗模型，以及模型在何种程度上可以被绕过。

7. 模型压缩与效率 (Model Compression & Efficiency)

论文类别： Model Compression, Quantization, Pruning, Knowledge Distillation, Efficient Architectures
重要性：随着模型规模的不断增大，在边缘设备或资源受限环境中部署模型面临巨大挑战。
具体例子：

"QuantizationAware Training" (感知量化训练): 在训练过程中就考虑量化对模型性能的影响，从而训练出可以在低精度（如8位整数）下运行的模型。
"Efficient Attention Mechanisms" (高效注意力机制): Transformer 的自注意力机制计算复杂度较高，研究者们提出各种近似或稀疏化的注意力机制，以降低计算量和内存占用。
"Neural Architecture Search (NAS) for Efficiency" (面向效率的神经架构搜索): 利用 NAS 技术搜索更高效、更轻量级的模型架构，以适应不同的计算资源。

如何找到 ICLR 2021 的重要投稿（自己查找的技巧）：

1. 官方网站与论文列表：访问 ICLR 2021 的官方网站，通常会提供所有录用论文的列表，并附有链接到论文的预印本（如 arXiv）或会议论文集。
2. 论文引用情况：在浏览论文时，关注那些被大量其他论文引用的工作。这通常表明了该工作的影响力和重要性。可以使用 Google Scholar, Semantic Scholar, arXiv 等工具来查看论文的引用次数。
3. 会议最佳论文奖项：关注会议颁发的最佳论文奖项，这些论文通常是该届会议中最具创新性和影响力的工作。
4. 活跃的讨论社区：机器学习领域的许多研究者会在 Twitter, Reddit (r/MachineLearning), Hugging Face 等社区讨论重要的论文。关注这些社区的讨论可以快速了解热点。
5. 相关领域的综述文章：一段时间后，会有一些研究者撰写关于特定主题（如自监督学习、GNNs）的综述文章，这些文章会回顾和总结该领域的重要进展，包括 ICLR 2021 的相关投稿。

总结：

ICLR 2021 的投稿充分体现了当时机器学习领域的研究前沿。从大规模预训练模型的能力提升，到自监督学习的广泛应用，再到对模型可解释性、公平性、鲁棒性和效率的不断追求，都预示着机器学习未来发展的方向。

如果您对 ICLR 2021 的具体某一个方向或论文感兴趣，可以根据上述关键词进一步深入搜索。例如，如果您想了解更多关于“自监督学习在图像识别中的进展”，您可以搜索“ICLR 2021 selfsupervised learning image recognition”来找到相关的论文和分析。

网友意见

1、先提一篇有趣的：

定义了一门形式语言，可以用这门语言来编程解决一些小问题（比如排序之类的），以及把程序“翻译”成对应的 transformer 模型，还能用程序的调用深度来分析问题需要多少层 transformer 来建模。

2、一个优化器的小细节：

大意是说现在带动量的优化器和自适应学习率的优化器的 weight decay 实现还是有问题（包括 AdamW 修复的那个版本），它又修了一遍，然后 Adam + weight decay 的效果就跟 SGD 差不多了。

一更：

Optimization:

- STABLE WEIGHT DECAY REGULARIZATION：修复各种 momentum/adaptive 优化器 weight decay 的问题，修复之后的 AdamS 比其他各种 Adam 变体（包括 AdamW）都好，跟 SGD 泛化性能差不多

- Apollo: An Adaptive Parameter-wise Diagonal Quasi-Newton Method for Nonconvex Stochastic Optimization：一个模仿拟牛顿法的优化器，这是我第一次见到类似方法的优化器在大规模随机非凸优化上成功，从文章实验来看在 RNN 语言模型上效果拔群。但是这个优化器超参比较奇怪，在不同任务上差异很大。

- A CHAOS THEORY APPROACH TO UNDERSTAND NEURAL NETWORK OPTIMIZATION：提出了一个有效的方法来估计神经网络模型损失函数的 Hessian 矩阵的最大特征值 h0，并发现学习率 lr 在很大的一个范围内的时候，SGD 都会周游损失函数地貌里 h0=1/lr 的地方（除非学习率太小，损失函数曲率不可能无穷大），也就是说 SGD 会隐式地利用二阶信息。这也解释了 batch size/lr 和泛化性负相关的原因（在 batch size 不变的情况，当 lr 变大时，SGD 探索的地方曲率较小，会找到 flat minina，从而泛化较好）

- THE LARGE LEARNING RATE PHASE OF DEEP LEARNING：记 lambda_0 为模型初始化以后 Fisher 信息矩阵的最大特征值，如果模型是线性的，那么当学习率大于 2/lambda_0 时训练就会发散，但是对于非线性的神经网络来说可能结果会不一样。如果学习率小于 2/lambda_0，那么会进入懒惰区 lazy phase，模型几乎一直在一个线性区域里散步，仅仅收敛到初始点附近；而如果学习率大于 2/lambda_0 但小于某个最大临界值（理论推出来是 4/lambda_0，对 ReLU 网络实测大约是 12/lambda_0）时，模型处于弹射区 catapult phase，前几步 loss 越来越大，迭代的点越弹越远，直到找到一片更好的区域（即满足学习率 < 2/lambda_t ）时又开始慢慢收敛，并且收敛到 flat minimum，达到最好的收敛效果。当然，如果初始学习率大于弹射的最大临界值，训练就发散了。

- RMSPROP CAN CONVERGE WITH PROPER HYPERPARAMETER：Reddi 在 2018 年构造过著名的 RMSProp/Adam 不收敛的例子，这篇文章说你把 beta2 这个超参数调大一点（更接近 1）就收敛了，RMSProp 关于 beta2 有个相变。

- SCHEDULED RESTART MOMENTUM FOR ACCELERATED STOCHASTIC GRADIENT DESCENT：每隔一段时间重启一下 Nesterov 加速动量，可以加速收敛、减小训练时的震荡，最终收敛效果也要好一些，在越深的模型上效果越明显（1k 层 ResNet）。

- DIRECTION MATTERS: ON THE IMPLICIT REGULARIZATION EFFECT OF STOCHASTIC GRADIENT DESCENT WITH MODERATE LEARNING RATE：以一个过参数化的线性回归问题为例（已知 GD 和 SGD 在该问题上都会收敛到范数最小的解），作者研究了 GD 和 SGD 在学习率中等的时候的优化路径（学习率很小的时候两者路径差不多，都是蜗牛爬），发现 GD 会沿着数据矩阵的特征值小的方向走，而 SGD 则沿着特征值大的方向走（论文里的图很直观）。这导致的结果是，假如采用早停， SGD 得到的模型更好（因为已经快收敛了），此外也解释了为什么学习率要随着批大小线性增加（这才能保证 SGD 训练时的方向偏好），以及当损失函数停止下降的时候为什么要用高学习率接着训练（损失不降是因为这时候 SGD 比较难拟合特征值大的方向；但是其实它在先拟合特征值小的方向，最终这会导致它在未来拟合特征值大的方向）。

- DYNAMIC OF STOCHASTIC GRADIENT DESCENT WITH STATE-DEPENDENT NOISE：认为随机梯度噪声与状态有关，服从幂律，并证明 SGD 从盆地逃出的平均逃逸时间是盆地高度的多项式，因此能够有效逃脱 sharp minina，倾向于停留在 flat minima。

- OPTIMIZATION VARIANCE: EXPLORING GENERALIZATION PROPERTIES OF DNNS：作者发现方差主导了 epoch-wise double descent 现象，而且跟测试误差的相关性很高。此外提出一个指标 Optimization Variance（取不同样本做一步梯度下降，模型预测值的方差。仅针对分类任务），可以在无需验证集的情况下，使用该指标指示早停。不过 OV 会出现双下降的原因还没搞清楚。

- A GENERAL FAMILY OF STOCHASTIC PROXIMAL GRADIENT METHODS FOR DEEP LEARNING：针对深度学习中常见的带有正则的损失函数，本文提出了一个通用随机近端梯度下降方法 PROXGEN，并具体给出了 Adam 的近端版本。作者用很多不同的 L_p （p=0, 1/2, 2/3, 1）正则项都做了实验，显示了本文方法的通用性和优越性。

- WIDE-MINIMA DENSITY HYPOTHESIS AND THE EXPLORE-EXPLOIT LEARNING RATE SCHEDULE：用实验验证 wide optima 比 narrow optima 更好，而且 wide optima 密度更低。提出 Knee Schedule，即先用高学习率学一阵儿，然后线性衰减到零。在很多模型（ResNet, BERT, ...）上都表现比较好。

- Flatness is a False Friend：一般认为模型泛化性是跟损失函数地貌的平坦性相关的（flat minima 泛化好，sharp minima 泛化差）。但作者给出了使用 L2 正则约束参数量级，结果导致模型收敛到泛化性更好的 sharp minima 的反例。作者说明，为了让训练损失趋于零，参数要跑到无穷远的地方，这时损失函数地貌更平坦，模型泛化性却没有限制参数量级的、收敛到 sharp minima 的模型好。泛化性和极值点附近损失函数地貌平坦性之间的关系还需要进一步被探索。但我感觉构造有些太刻意了，大部分情况下都不至于嘛。

NLP:

- Rethinking Positional Encoding in Language Pre-training：提出 TUPE（Transformers with Untied Positional Encoding），输入部分只用 word embedding，在 self-attention 引入位置信息（忽略 content 和 position 各自使用不同的变换矩阵计算注意力分数，去掉两者的交叉项，同时引入相对位置偏置）。此外单独处理 [CLS] 的 attention 信息，因为 [CLS] 需要提取全局信息，而其他词只需要提取局部信息。

- RETHINKING EMBEDDING COUPLING IN PRE-TRAINED LANGUAGE MODELS：很多预训练语言模型的输入和输出词向量是共享权重的（形状互为转置），但是在预训练-精调的新范式下，作者发现把这两个参数解耦会更好。输入词向量很多参数是冗余的，不如把这部分维度减小，多出来的参数预算放到模型层数或者输出词向量上。使用更大的输出词向量维度预训练可以减少模型对预训练任务的特化，增加模型的泛化性（哪怕精调时要把这个矩阵丢掉）。

- IOT: Instance-wise Layer Reordering for Transformer Structures：作者发现虽然重排 transformer 各个模块的顺序整体上对机器翻译性能影响不大，但是对具体的某个句子，不同模块顺序的模型翻译结果差的比较多。于是作者用一个分类器预测对于每个句子适合哪种顺序（用正则限制单个句子的预测结果接近 one-hot，训练集大量句子的平均结果接近均匀分布），然后用该顺序的模型去做翻译。最终效果能在测试集上涨一个 BLEU，但比较神奇的是这种方法居然跟模型集成是正交的，多个 IOT 模型集成以后还能涨点。

- NON-ITERATIVE PARALLEL TEXT GENERATION VIA GLANCING TRANSFORMER：一般的 NAT-NMT 需要迭代改进几次翻译结果，但这样的话并行解码速度快的优势就没了。本文提出在训练的时候可以自适应地掩掉一些词（模型先做一遍预测，此时不更新参数；知道哪些词预测不准以后，再盖住这些词，计算损失并进行梯度下降）。随着训练的进行，掩盖掉的词越来越多，有点儿课程学习的意思在，自适应地调整学习难度。同时被掩掉的词不是用 [MASK] token，而是用真正的目标词的 output embedding，相当于泄露了信息给模型，同时这会导致编码器和解码器之间的对齐更好。

- IS RETRIEVER MERELY AN APPROXIMATOR OF READER?：QA 中单塔模型（one-tower model, reader）是指把 question 和 document 拼在一起计算一个相似性得分，双塔模型（two-tower model, retriver）是指 question 或者 document 各自过一个模型得到一个 embedding，然后用 question embedding 在文档库里检索最相似的 document embedding，之后再进行后续操作。通常的观点认为双塔模型是对单塔模型在算力不足时的简化，但这篇文章认为他们两个作用是互补的，双塔模型擅长在大范围内检索相关文档，单塔模型擅长在小范围内精确区分困难样本的语义（在大范围内面对奇葩样本时单塔模型不够鲁棒）。此外，把单塔模型的知识蒸馏到双塔模型里效果会更好。

- BURT: BERT-INSPIRED UNIVERSAL REPRESENTATION FROM LEARNING MEANINGFUL SEGMENT：用 PMI 挖掘 n-gram，以此为单位生成 mask 来训练 BERT。类似于 whole word mask 或者 spanBERT 的思路吧，不过实验结果比这俩效果好一点。不过本文不是从头训练，而是用预训练好的 BERT 初始化接着训的（只有一张 1080Ti！真是佩服作者的勇气），语料大小为 380M 个中文字符，我觉得可信度没那么高。

- SEQUENCE-LEVEL FEATURES: HOW GRU AND LSTM CELLS CAPTURE N-GRAMS：用泰勒展开近似了 GRU/LSTM 里的门，然后发现近似以后的模型拿来训练学的也挺好的。展开以后每段时间都有一个对应的张量，作者认为这个张量对应了这一段时间的 sequence-level feature

- POLAR EMBEDDING：将概念嵌入极坐标系，以便建模层级关系（其实之前的双曲嵌入更好，不过极坐标嵌入更简单一些）。用了 Welsch loss function。

- UNSUPERVISED WORD ALIGNMENT VIA CROSSLINGUAL CONTRASTIVE LEARNING：一个新的双语词对齐工具，需要句级别的平行语料。比 FastAlign 精确，比 GIZA++ 快很多倍。

- EXPLORING VULNERABILITIES OF BERT-BASED APIS：服务商只提供 API 也可以偷模型。可以随便用什么数据做 query，得到 API 的输出，然后训练自己的模型，新模型跟原模型的准确率只差一点，而且对抗样本还能迁移。

Miscellaneous:

- THINKING LIKE TRANSFORMERS：提出了一个计算模型 Restricted Access Sequence Processing Language，可以很优雅地使用这门语言写程序（e.g.: 排序、绘制直方图等），并把程序翻译成相应的 Transformer 模型。有助于进一步理解 Transformer 模型，同时部分解释了 Sandwich Transformer 各个模块的排列顺序，以及一些魔改版 Transformer 在建模上的能力限制。

- MIMO：TRAINING INDEPENDENT SUBNETWORKS FOR ROBUST PREDICTION：给模型加多个输入映射和输出头，推断的时候把一个输入复制多份，然后各个头的预测结果平均一下。有点儿克服 softmax bottleneck 的味道。

- REDESIGNING THE CLASSIFICATION LAYER BY RANDOMIZING THE CLASS REPRESENTATION VECTORS：将 softmax 前面的矩阵随机初始化后就固定住，不参与训练（一般情况下这些参数也会参与训练，最终结果是相似的目标类别对应的向量也比较相似。很难说这是一件好事还是坏事，作者认为是坏事）。最终结果是固定这部分权重的模型更鲁棒（使用 A-Softmax 不做 scaling 也可以收敛，对噪声也容忍度更高），因为各个目标类别分得更开。

- THE UNREASONABLE EFFECTIVENESS OF THE CLASS REVERSED SAMPLING IN TAIL SAMPLE MEMORIZATION：类别不平衡问题很好解决，先正常训练，再训练快结束的时候按照类别分布的反比采样，让模型多记一下样本少的类别就好。

----- 2020.11.11 更新 -----

审稿意见出来了，这篇论文的分数是4,6,6,8。

除了四个reviewer外，还有一个public comment，来自Tianyuan Zhang，他写了一个非官方实现的代码，也把链接放在这里

https:// github.com/a1600012888/ clsa_pytorch

----- 原回答 -----

Contrastive Learning with Stronger Augmentations

没有细看论文，但是summary和实验结果直接吓到我了

summary：This paper presents a novel contrastive learning model that enables the use of stronger augmentations via distributional divergence minimization to achieve a new record of accuracy with vanishing performance gap to the fully supervised network.

实验结果：

超过了一众知名contrastive learning模型，包括SimCLR，MoCo，BYOL，而且直线逼近supervised model

等待后续审稿意见

平时很少上知乎，可是最近遇到了一个ICLR2021的投稿，名字直接就叫Bi-Real Net V2, （Bi-Real Net 是我们ECCV2018的工作，做Binary Neural Networks 的同学可能会听说过。) 除了盗用我们的名字之外，这篇文章的内容和我们最新的发表在 ECCV2020 上的工作 ReActNet 非常相近。他们 paper 中展示的最高结果65.5%，结构，训练方法和我们两个月前 open source 的 ReActNet (ECCV2020) 几乎完全一样，而且这个结果我们在的ReActNet paper里已经汇报过了。。。更重要的是，我们之前在loading weights的时候有个小bug，我们在一周前刚修复，精度从65.5 提升到了65.9，而这篇论文的精度还停留在65.5，这中间的微妙就不得而知了。

这篇论文几乎就是combine了我们之前的几篇论文，对于他人的research taste 我不宜多做评论，但是这种损害他人credits，来作为自己paper核心卖点的做法我真的无法苟同。。。

总之我看到这篇论文真的内心觉得挺不是滋味的。毕竟我们ReActNet (ECCV2020) 和 Bi-Real Net(ECCV2018) 都是经过了深思熟虑和实验才得到的。这篇论文的作者这样子拿上我们的结果，就把我们的credits占为己有会不会不太合适？By the way，我们最近会放一篇 official Bi-Real Net V2 出来，精度比这篇论文要高。

以下认真贴出我们的Bi-Real Net, ReActNet 和这篇文章的细节对比，希望知友们能有自己的评判。以下称这篇文章为 ‘该BNN投稿论文’

‘该BNN投稿论文’ 提出 tune proper non-linear modules，这是ReActNet（ECCV2020）的核心发现，ReActNet 全称：ReActNet: Towards Precise Binary Neural Network with Generalized Activation Functions，‘non-linear modules’ 在这里指的就是Activation Function. 在 ReActNet（ECCV2020）的Abstract 中提到 “Through extensive experiments and analysis, we observed that the performance of binary networks is sensitive to activation distribution variations. Based on this important observation, we propose to generalize the traditional Sign and PReLU functions, denoted as RSign and RPReLU for the respective generalized functions, to enable explicit learning of the distribution reshape and shift at near-zero extra cost.”
‘该BNN投稿论文’ 称，相比于我们的Bi-Real Net (ECCV2018), 他们不需要用到scaling factor. 但是在我们的Bi-Real Net (ECCV2018) 里已经明确提到，因为BN的存在，Bi-Real Net 不需要scaling factor，BN可以直接吸收scaling factor (Section 3.4.2).
‘该BNN投稿论文’的最高精度达到65.5%，与我们在ReActNet的中汇报的结果一样，网络结构高度相似，训练方法也是几乎一样，但是在表格中没有引用ReActNet。

最后附上三篇文章的链接，大家可以自行判断。
ReActNet（ECCV2020) : https://arxiv.org/abs/2003.03488
Bi-Real Net (ECCV2018) : https://openaccess.thecvf.com/content_ECCV_2018/papers/zechun_liu_Bi-Real_Net_Enhancing_ECCV_2018_paper.pdf
‘该BNN投稿论文’ : https://openreview.net/forum?id=9wHe4F-lpp

这个optimizer的效果有些惊艳。。。还没太读懂，貌似不是魔改Adam的套路。

-------------------Update on 02/02/2021

才发现这篇paper最后被reject了。

-------------------Update on 06/10

算是把paper读了一遍，还有一些技术细节没完全明白，先说一下看懂的部分吧。

首先，这篇paper不是魔改Adam的套路，而是用的拟牛顿法，具体看公式（4）和（5）（paper写得很好，只需要基础的optimization基础就基本能看懂）。

作者试图解决拟牛顿法在nonconvex stochastic optimization上面的三个问题：

效率问题：时间和空间复杂度。
Stochastic variance: 这个是deep learning优化的老问题了。
Nonconvex：牛顿和拟牛顿方法一般只适用convex的问题。

对于问题1，作者用一个对角矩阵来近似拟牛顿法里面的B矩阵。由于这个近似的约束太强，所以作者弱化了secant condition。（这里作者特别强调要每个参数独立计算）

对于问题2，除了之前常用的EMA外，作者引入了一个 Stepsize Bias Correction的机制。（这里就是我没太看懂的地方，貌似这样的好处是摆脱了B对于stepsize这个参数的依赖？）

对于问题3，作者的方法就很简单暴力。并没有像之前工作那样试读找到一个最优的正定矩阵B，这里作者直接取B的绝对值来作为最后更新的矩阵。因为B是对角阵，B的绝对值很好算。然后因为存在inflection point（曲率为0），因此对B的绝对值截取一个下限。比较神奇的是，这个下限的超参数后面证明是和learning rate耦合在一起，因此只需要调一个就可以，并没有增加调参的难度。

说下实验。首先感慨一下作者的GPU资源。对于ImageNet和NMT的实验，每个实验都是8个V100，而且每个实验跑5个random seed。。。（paper和代码已经放出来，作者貌似不是那几个大厂的）

Image Classfication。在CIFAR-10和ImageNet上面做了实验，具体结果看下面的图和表。

作者首先指出weight decay的强度对于收敛速度和分类结果的影响。而由于实现原因，weight decay真正的强度是由 lr * weight_decay 来决定的。因此作者强调要把weight decay的强度调到相似的比较才公平。从图1和表1看出来，Adam和RAdam当调整了weight decay后也能得到不错的accuracy，并不想之前报的差SGD很多（但是收敛速度也跟着降了很多）。这说明AdamW论文中声称的可以解藕 lr和weight decay的结论并不很成立（在附录里面作者详细分析了不同的weight decay的影响）。

Language Model。用的One Billion Words数据。模型是2-layer LSTM。Hidden Size是2048。

这个实验的结果也是我认为全篇最吓人的结果。Apollo比Adam和RAdam好了不止一点半点。。。个人感觉是不是说LSTM以前从没得到过好的优化？如果用这个优化器，那个LSTM有没有可能在一些任务上面反超Transformer？

NMT。用的Transformer-base在WMT4英德数据上做的实验，效果也很好。

总结：这个Apollo的优化器的效果实在惊艳，代码已经放出来了，有兴趣的可以去试试。作者并没有给出理论的收敛证明，不知道有没有优化的大佬能分析一下结果好的原因。之前也有一些拟牛顿法来做deep learning的，貌似效果都没超过SGD。

类似的话题

ICLR 2021 有什么值得关注的投稿？

ICLR 2021 (International Conference on Learning Representations) 是机器学习领域最顶级的会议之一，汇聚了全球最前沿的研究成果。即使会议已经结束，回顾其备受关注的投稿仍然能帮助我们了解当时的研究热点和未来的发展趋势。以下是一些在 ICLR.............
如何看待 ICLR2021 的拒稿被评为 ACL2021 的 Best Paper?

ICLR 2021 的拒稿被评为 ACL 2021 的 Best Paper，这确实是一个非常引人注目的事件，在学术界引发了广泛的讨论和思考。要理解这个现象，我们需要从多个维度进行分析，包括论文的质量、审稿过程的局限性、不同顶会之间的差异，以及学术评价的复杂性。以下我将尽量详细地阐述： 1. 事件本.............
ICLR 2022有哪些值得关注的投稿？

ICLR 2022（International Conference on Learning Representations）是机器学习和深度学习领域的一场顶级会议，汇聚了大量前沿的研究成果。要详细讲述“值得关注的投稿”，这是一个非常广泛的问题，因为“值得关注”的定义会因个人研究兴趣、领域背景以及对.............
ICLR 2019 有什么值得关注的亮点？

ICLR 2019（International Conference on Learning Representations）是机器学习领域最顶级的会议之一，以其对表征学习（Representation Learning）和深度学习（Deep Learning）的关注而闻名。这次会议在2019年5月.............
ICLR 2018 有什么值得关注的亮点？

ICLR 2018（International Conference on Learning Representations）是深度学习领域一项非常重要的会议，尽管已经过去一段时间，但其产出的研究成果依然对当前深度学习的发展有着深远的影响。以下是一些在ICLR 2018上特别值得关注的亮点，我将尽量.............

ICLR 2021 有什么值得关注的投稿？

网友意见

类似的话题

ICLR 2021 有什么值得关注的投稿？

如何看待 ICLR2021 的拒稿被评为 ACL2021 的 Best Paper?

ICLR 2022有哪些值得关注的投稿？

ICLR 2019 有什么值得关注的亮点？

ICLR 2018 有什么值得关注的亮点？