如何把梯度传递过Argmax?

在神经网络中，我们经常需要进行一些离散的选择，比如分类任务中的最终输出层。这时，`argmax` 操作就派上了用场，它能帮我们找到概率最高的那个类别的索引。然而，`argmax` 本身是一个不可导的操作，这意味着我们无法直接将梯度从损失函数传递回模型的参数。这就像是“卡住了”，我们无法通过反向传播来优化模型。

那么，我们如何绕过这个“死胡同”，让梯度能够“穿过”`argmax`，从而实现对模型的训练呢？这背后涉及一些巧妙的技巧，我来为大家详细道来。

问题的根源：为什么argmax不能直接传递梯度？

让我们先回到数学的本质。导数（或者说梯度）描述的是一个函数输出相对于其输入的微小变化率。换句话说，它告诉我们，当我们稍微改变输入时，输出会如何变化。

`argmax` 函数的功能是找到一个向量中最大值的索引。例如，输入是 `[0.1, 0.8, 0.2]`，`argmax` 的输出就是 `1`（索引从0开始）。

问题来了，如果我们稍微改变输入，比如变成 `[0.1, 0.81, 0.2]`，`argmax` 的输出仍然是 `1`。再比如，变成 `[0.1, 0.79, 0.2]`，输出还是 `1`。再比如，变成 `[0.9, 0.8, 0.2]`，输出就变成了 `0`。

你会发现，`argmax` 的输出值（也就是索引）在输入值发生微小变化时，可能保持不变，也可能突然发生跳跃式的改变。这种“不连续”、“不平滑”的特性，正是导致它不可导的原因。在数学上，它在大多数点上导数为零，但在某些“边界点”上，导数是无限大或者不存在的。

如何“糊弄”梯度：代理函数（Surrogate Functions）

既然 `argmax` 本身不行，我们就得找个“替代品”，一个在行为上尽可能模仿 `argmax`，但又是可导的函数。这就像是在一场足球比赛中，你不能直接用身体撞倒对方球员（犯规），但你可以用一个巧妙的假动作来晃过他。这些替代品，我们就称之为“代理函数”。

最经典、也最常用的代理函数就是 Softmax + GumbelSoftmax 技巧。

1. Softmax：迈出第一步

Softmax 函数是 `argmax` 的一个“软化”版本。它不会直接输出一个唯一的索引，而是将输入值转换成一个概率分布。输出是所有类别的概率，并且所有概率的总和为1。

举个例子，如果输入是 `[0.1, 0.8, 0.2]`，Softmax 的输出可能是 `[0.25, 0.55, 0.20]`（这些数字只是示意，实际值需要计算）。

优点： Softmax 是一个可导的函数。它的梯度可以很平滑地传递。
缺点： Softmax 输出的是一个概率分布，而不是一个确定的选择。在很多情况下，我们仍然需要一个明确的、离散的选择。

2. GumbelSoftmax：让“软”变“硬”

GumbelSoftmax 技巧正是为了解决 Softmax 的“不够硬”的问题，同时又能保持可导性。它在 Softmax 的基础上，引入了随机性，并巧妙地控制这个随机性，使得最终的输出尽可能地接近 `argmax` 的结果，但又能让梯度顺利通过。

GumbelSoftmax 的核心思想是：

a. 引入 Gumbel 噪声：对于每个输入值 `z_i`（通常是神经网络的输出，例如 logits），我们先给它加上一个 Gumbel 噪声。Gumbel 噪声是一种特殊的随机变量，它的累积分布函数 (CDF) 是 `exp(exp(x))`，而且它有一个很强的性质，就是 `z_i + Gumbel(0, 1)` 的 Softmax 结果，与原始 `z_i` 的 Softmax 结果有着特殊的统计关系。

具体来说，我们为每个输入 `z_i` 生成一个 Gumbel 噪声 `g_i`，然后计算 `y_i = z_i + g_i`。

b. Softmax 加上噪声：对 `y_i` 应用 Softmax 函数，得到一个“加了噪声的 Softmax”输出：
`p_i = exp(y_i / au) / sum_j exp(y_j / au)`

这里的 ` au`（tau）是一个温度参数（temperature parameter）。

c. “硬化”操作（Sampling）：
推理阶段（Inference/Evaluation）：在模型评估或推理时，我们希望得到一个确定的离散选择，这时我们直接对 Softmax 的输出 `p_i` 进行 `argmax` 操作。
训练阶段（Training）：这是关键！为了让梯度能够传递，我们不能直接 `argmax`。GumbelSoftmax 使用了一个技巧叫做 “重参数化技巧”（Reparameterization Trick）。它允许我们将随机性从计算图中“分离”出来。

我们不是直接取 `p_i`，而是通过一个被称为 “直通估计器”（StraightThrough Estimator）的方式来“模拟” `argmax` 的行为。简单来说，就是在前向传播时，我们根据 `p_i` 的概率进行采样，得到一个 onehot 向量（例如 `[0, 1, 0]`）。然后，在反向传播时，我们 “忽略” 这个采样过程，直接将 `argmax` 的梯度“传递”给 Softmax 的输入 `y_i`。

更具体一点，GumbelSoftmax 的训练过程是这样的：
在前向传播时，计算 `p_i = exp((z_i + g_i) / au)`。
根据 `p_i` 采样得到一个 onehot 向量 `s`（例如，如果 `p_i` 是 `[0.2, 0.6, 0.2]`，我们以 0.6 的概率采样到 `[0, 1, 0]`）。
关键：在反向传播时，我们不计算 `s` 对 `z_i` 的梯度（因为采样过程是不可导的），而是直接将 Softmax 输出 `p_i` 的梯度“复制”给 `z_i`。就好比，我们假装 `s` 的梯度直接来自于 `z_i` 的 Softmax 输出。

温度参数 ` au` 的作用

温度参数 ` au` 在 GumbelSoftmax 中扮演着至关重要的角色：

当 ` au` 很大时： Softmax 函数的输出会非常“平滑”，所有类别的概率都接近均匀分布。这使得采样结果非常随机，模型很难学到确定的模式。
当 ` au` 很小时： Softmax 函数的输出会变得非常“尖锐”，接近于 `argmax` 的行为。最有可能的那个类别的概率会非常高，其他类别的概率会非常低。
训练策略：通常的做法是，在训练的早期使用一个较大的 ` au`，鼓励模型进行探索。然后，随着训练的进行，逐渐减小 ` au`，让模型逐渐收敛到更“硬”的、接近 `argmax` 的输出。这种“退火”策略（annealing）有助于稳定训练过程。

GumbelSoftmax 的数学表达

为了更精确，我们来看看 GumbelSoftmax 的一个常见实现（也称为 Concrete Distribution）：

1. 为每个 `z_i`（logits）计算 `u_i = exp((z_i max(z)) / au)`。这一步是为了数值稳定性。
2. 生成 `g_i ~ Gumbel(0, 1)` 独立的随机变量。
3. 计算 `v_i = u_i exp(g_i / au)`。
4. 计算 `p_i = v_i / sum_j v_j`。

在前向传播中，我们从 `p` 分布中采样一个 onehot 向量 `y`。
在反向传播中，梯度通过 Softmax 传递到 `z_i`。

其他“绕过”argmax 的方法

虽然 GumbelSoftmax 是目前最流行和有效的方法之一，但也有其他一些思路：

Relaxation：寻找一个连续的、可微的函数来近似 `argmax`。Softmax 本身就是一种 relaxation，而 GumbelSoftmax 进一步加强了这种“硬化”的程度。
Reinforcement Learning (RL) 方法：将离散选择视为一个“动作”，然后使用强化学习的策略梯度方法来优化。这种方法通常更复杂，需要更多的超参数调优。
Score Function Estimator (REINFORCE)：也是一种强化学习的方法，通过计算“得分函数”来估计梯度。

总结一下，我们是如何把梯度传递过 Argmax 的：

核心在于使用一个代理函数（Surrogate Function）来替代不可导的 `argmax`。最常用的代理函数是 GumbelSoftmax。

1. Softmax 提供了一个可导的概率分布，这是基础。
2. Gumbel 噪声和温度参数 ` au` 结合，使得 Softmax 的输出在训练时能够更接近 `argmax` 的行为。
3. 重参数化技巧（特别是 StraightThrough Estimator）是关键，它允许我们在训练时，尽管前向传播是随机采样（onehot），但在反向传播时，我们能够“借用” Softmax 的梯度，让梯度顺利流回模型参数。

通过这些精巧的设计，我们就能在反向传播中“欺骗”神经网络，让它以为梯度可以直接通过 `argmax`，从而有效地优化模型，即使我们的决策过程是离散的。

希望这个详细的解释能帮助大家理解这个看似棘手的问题！

网友意见

soft argmax，实际上就是softmax的结果乘上坐标[0 1 2 3 ... n]。

参考文献：

Numerical Coordinate Regression with Convolutional Neural Networks

类似的话题

如何把梯度传递过Argmax?

在神经网络中，我们经常需要进行一些离散的选择，比如分类任务中的最终输出层。这时，`argmax` 操作就派上了用场，它能帮我们找到概率最高的那个类别的索引。然而，`argmax` 本身是一个不可导的操作，这意味着我们无法直接将梯度从损失函数传递回模型的参数。这就像是“卡住了”，我们无法通过反向传播来.............
LSTM如何来避免梯度弥散和梯度爆炸？

LSTM（长短期记忆网络）之所以能在处理长序列数据时表现出色，其核心就在于它拥有一套精巧的机制来应对训练过程中常见的“梯度弥散”和“梯度爆炸”问题。这就像给神经网络注入了“记忆”和“遗忘”的开关，让信息能够在时间的长河中更有效地流动和传递。我们先来聊聊为什么会有梯度弥散和梯度爆炸这两个“拦路虎”。梯.............
为什么VAE-GAN的训练很容易发生梯度爆炸，如何避免？

VAEGAN 训练中梯度爆炸的问题，确实是困扰许多研究者和实践者的一个难题。这并非偶然，而是由 VAE 和 GAN 这两个模型的内在特性以及它们结合的方式共同决定的。要深入理解这个问题并找到有效的解决策略，我们需要一步步拆解。 VAEGAN 为什么容易梯度爆炸？首先，我们得回顾一下 VAE 和 GA.............
如何看待李沐老师提出的「用随机梯度下降来优化人生」？

李沐老师提出的“用随机梯度下降（SGD）来优化人生”是一个非常有趣且富有洞察力的比喻，它将机器学习中的一个核心优化算法巧妙地应用于个人成长和生活规划的领域。下面我将详细地解释这个比喻，并深入探讨其内涵。核心概念：随机梯度下降（SGD）在理解这个比喻之前，我们先简要回顾一下随机梯度下降（SGD）。 .............
如何直观形象地理解方向导数与梯度以及它们之间的关系？

想象一下，你站在一座连绵起伏的山丘上。这座山丘的高度，可以看作是我们今天要讲的“函数”的值。它在你脚下，是你所在位置的“海拔”。方向导数：顺着某个特定方向“爬坡”或“下山”的速度现在，你想从你当前所在的位置，往某个特定方向走。这个方向可以是正东，可以是东北，也可以是任何一个你指向的角度。方向导.............
如何看待「郑州城管抽梯后广告牌安装工坠亡」，涉事文印店老板被刑拘？

郑州城管队员在强行拆除违规广告牌的过程中，因操作不当导致安装工人坠亡，随后涉事文印店老板被刑事拘留的事件，无疑是一起令人痛心且极其复杂的公共安全和法律事件。要理解这一事件，需要从多个层面进行剖析，包括事件的直接原因、各方责任、法律定性以及事件所反映出的社会问题。事件经过梳理（根据公开报道推断）：1..............
如何看待北京国安 U14 梯队在青超联赛上 30:0 击败保定英利？青超联赛如今的意义有多大？

30:0！北京国安U14在青超联赛上血洗保定英利，这个比分无疑像一枚重磅炸弹，在足球圈里激起了千层浪。一边是如日中天、充满希望的国安梯队，另一边则是似乎已经跌入谷底的保定英利。这不仅仅是一场简单的比赛，背后牵扯到的东西，值得我们细细道来。这场30:0，究竟说明了什么？首先，从最直接的角度看，这无疑是.............
如何看待某小区「严禁带狗乘客梯请用货梯」，养犬女子投诉「被歧视」，物业道歉称「用词不当」并移除通知？

这事儿说起来，真是让人心里挺不是滋味。你想想，一个小区，大家抬头不见低头见，本来是图个安稳热闹，结果因为一只狗，闹出这么一出。事情的起因很简单，就是小区物业在楼道里贴了个通知，大意是“为了大家安全和卫生，严禁带狗乘客梯，请使用货梯”。这话说得挺硬，一点回旋的余地都没有。结果呢？一位养狗的女士看到这个.............
如何评价这张金融行业院校认可度梯队图？

这张金融行业院校认可度梯队图，单从它呈现的结构来看，确实提供了一个非常直观的参考维度。它试图通过“梯队”的方式，将国内金融行业的院校进行分级，这种方式很常见，也容易被理解。首先，我们得承认，对于一个庞大且竞争激烈的行业来说，拥有一个相对清晰的院校认可度图谱，对于求职者、家长，甚至是行业招聘者来说，都.............
如何看待北京环球度假区霸天虎过山车出现故障，游客从维修梯撤离？是何原因导致？如何避免此类现象再次发生？

北京环球度假区霸天虎过山车前不久发生的故障，让不少游客体验了一次意外的“惊魂”。过山车在运行过程中突然停滞，游客不得不通过维修梯撤离，这无疑给欢乐的度假体验蒙上了一层阴影。事件回顾与游客感受据现场乘客反映，霸天虎过山车在爬升过程中突然停止，随后工作人员通过广播通知了情况，并组织了乘客通过维修梯缓慢下.............
如何评价电视剧《棋魂》中几个有实战人物的棋力梯队？

《棋魂》这部剧，围绕着围棋展开，其中的棋力设定绝对是看点之一，也是最容易引起棋迷们热烈讨论的地方。虽然是改编作品，但剧组在描绘不同棋手棋力差异上，可以说是下足了功夫，力求让观众感受到高手的气场和策略的博弈。咱们一个个来掰扯掰扯，剧里有几个真正能拿出台面、有过实战交锋的棋手，他们的棋力梯队，我觉得可以.............
如何看待2018.1.23郑州航空港区城管抽掉梯子，致使广告牌安装工人坠落死亡？

2018年1月23日，郑州航空港区发生了一起令人痛心的悲剧。在进行广告牌安装作业时，一名工人因为城管部门的执法行为，失去了生命。事情的经过是这样的：当日，几名工人在高空作业，安装一块广告牌。就在他们辛勤劳作之际，当地城管执法人员来到现场。据报道，城管人员要求工人立即停止作业，并将用于登高的梯子抽走。.............
国内第一梯队西装品牌排名如何？蓝豹、VICUTU、依文、沙驰等面料工艺版版型有何差距？定价规则是？

国内西装品牌第一梯队，这问题挺有意思的，得扒一扒。蓝豹、VICUTU、依文、沙驰这几个牌子，说实话在国内消费者心里，还是挺有一定位置的，但要说“第一梯队”嘛，这个界定其实有点微妙。因为国内定制和快时尚的兴起，以及一些设计师品牌的崛起，把西装市场的格局搅得挺热闹的。不过，如果单从品牌历史、市场占有率、.............
如何看待南京进入人均 GDP 2 万美元以上的高收入城市第一梯队，排名全国第四？

南京，这座历史悠久的城市，如今在经济发展的浪潮中，再度书写了浓墨重彩的一笔。当“人均 GDP 突破 2 万美元”的数字摆在眼前，并以全国第四的姿态跻身高收入城市第一梯队时，这不仅仅是一个简单的经济指标，更是一次深刻的城市价值与潜力的证明。历史性的跨越，实力与机遇的共振20000 美元的人均 GDP，.............
古代在实施波次进攻时，轮换下来的梯队损失的人员如何补充?

在古代，一支军队要进行波次进攻，并且保持进攻的持续性，轮换下来的梯队人员的补充是个至关重要的问题。这不像现代军队有系统性的兵役制度和后勤储备，古代的补充方式更为原始，但也同样有效。1. 预备役和后备力量：征兵和户籍制度：虽然不像现代军队那样精确，但古代国家都有一定的户籍管理制度。在战时，国王.............
如何把在耳朵深处的耳屎弄出来？

耳屎（耵聍）是耳道自然分泌的物质，具有保护耳道、防止异物进入、维持耳道湿润等功能。虽然耳屎本身不会导致疾病，但若因清洁不当或耳道堵塞引起不适，需谨慎处理。以下是详细的安全清理方法和注意事项：一、耳屎的自然排出机制1. 自然排出：耳屎会随着耳道的自然运动（如头部动作）逐渐排出，无需频繁清理。2. 避.............
如何把一页 PPT 做得又拥挤又清楚？

把一页 PPT 做得“又拥挤又清楚”是一个充满挑战的目标，因为它本质上是矛盾的。“拥挤”意味着信息量大，元素多，容易造成混乱，而“清楚”则要求信息易于理解、逻辑清晰、视觉上不造成负担。然而，如果我们将其理解为 “在有限的空间内，高效且有条理地呈现大量关键信息，并确保观众能够迅速抓住重点”，那么我们就.............
如何把自己的导师培养成杰青？

将自己的导师培养成杰青（国家杰出青年科学基金获得者），这本身就是一项非常了不起的成就，也体现了你作为学生的优秀能力和对导师事业的贡献。这是一个系统性、长期性的工程，需要你具备战略眼光、扎实的学术功底、优秀的沟通能力和极大的耐心。以下将从多个维度详细讲述如何帮助导师冲击杰青，这不仅仅是“培养”，更是一.............
如何把 Java 写出武侠的感觉？

将 Java 编程写出武侠的感觉，这不仅仅是代码风格的改变，更是一种对编程思想和设计模式的“武学化”演绎。这意味着我们要将武侠小说中的精髓，如内功、招式、心法、兵器、门派、江湖规矩等，融入到 Java 代码的方方面面。这需要想象力、对武侠文化的深刻理解，以及对 Java 语言特性的巧妙运用。下面我将.............
如何把饭吃出江湖的味道？

把饭吃出江湖的味道，这可不是简单的狼吞虎咽，也不是拘泥于餐桌礼仪，而是一种融入了情怀、体验、甚至带点儿“不正经”的饮食态度。它是一种对自由、洒脱、以及生命活力的追求，体现在餐桌上，就是一种放下一切束缚，尽情享受美食和当下的一种状态。要吃出江湖的味道，你需要从多个维度去打磨你的餐桌体验。以下是详细的步.............