TensorFlow 中 padding 的 SAME 和 VALID 两种方式有何异同？

在 TensorFlow 中，卷积神经网络（CNN）的卷积层（`tf.nn.conv2d`）和池化层（`tf.nn.max_pool`，`tf.nn.avg_pool` 等）在处理输入数据时，都需要决定如何处理边界像素，以便输出的尺寸与输入保持一致或更小。这就引入了“padding”的概念。TensorFlow 提供了两种主要的 padding 方式：`SAME` 和 `VALID`。理解它们之间的异同，对于设计有效的 CNN 模型至关重要。

1. SAME Padding (Same Padding)

`SAME` padding 的核心思想是：让卷积核（或池化窗口）能够“完整地”覆盖到输入数据的每一个元素，并且在可能的情况下，尽量保持输出的尺寸与输入尺寸相同（尤其是在 strides 为 1 的情况下）。

为了实现这一点，`SAME` padding 会在输入数据的边缘（上、下、左、右）填充零。填充的数量是根据卷积核（或池化窗口）的尺寸、步长（stride）以及输入尺寸来计算的。

详细解释 `SAME` Padding 的工作原理：

目标：使得输出的“感受野”能够尽可能地覆盖到输入的每一个像素。换句话说，即使是位于输入边界的像素，也应该有机会被卷积核的中心（或池化窗口的中心）覆盖到。
填充策略： `SAME` padding 会智能地在输入的四周增加零填充。填充的量使得在进行卷积（或池化）操作时，当卷积核的中心位于输入数据的最后一个元素上时，卷积核的边缘刚好能够与输入数据的边界对齐。
输出尺寸的计算：
当步长（stride）为 1 时，`SAME` padding 通常会使得输出的宽度和高度与输入保持一致。
当步长大于 1 时，输出的尺寸会减小，但 `SAME` padding 会尽量使输出的尺寸“尽可能大”，以接近输入尺寸。具体的计算公式比较复杂，因为它涉及到向上取整。
数学公式（用于理解，非直接使用）：
假设输入尺寸为 `H_in x W_in`，卷积核（或窗口）尺寸为 `K_h x K_w`，步长为 `S_h x S_w`。
`SAME` padding 目标是让输出尺寸 `H_out x W_out` 满足：
`H_out = ceil(H_in / S_h)`
`W_out = ceil(W_in / S_w)`
为了达到这个输出尺寸，需要计算填充的量：
`pad_h = max(0, (K_h 1) S_h (H_in 1))`
`pad_w = max(0, (K_w 1) S_w (W_in 1))`
然后将 `pad_h` 分摊到输入的上下两侧，`pad_w` 分摊到左右两侧。通常情况下，下侧和右侧的填充会比上侧和左侧多一个像素，以确保中心对齐。

`SAME` Padding 的优点：

1. 保留空间信息：尤其是在 CNN 的早期层，`SAME` padding 可以帮助保留输入数据的边界信息，防止因为卷积操作而丢失重要的特征。
2. 尺寸一致性（近乎）：当步长为 1 时，输出尺寸与输入尺寸相同，这使得连续的卷积层或池化层可以更容易地堆叠，无需频繁地进行尺寸调整。
3. 减少模型设计复杂度：对于初学者来说，`SAME` padding 更加直观，因为它“试图”保持原始分辨率。

`SAME` Padding 的缺点：

1. 填充的像素可能引入误差：填充的零值与实际的输入数据不同，可能会在边界处引入一些计算上的“假象”或误差，尽管通常影响不大。
2. 输出尺寸不是精确的“保持不变”：虽然叫 `SAME`，但当步长大于 1 时，输出尺寸仍然会减小。这种“相同”更多是一种“尽可能接近”的含义。
3. 计算量可能略微增加：因为需要处理填充的零像素。

2. VALID Padding (Valid Padding)

`VALID` padding 的理念则更为直接和“纯粹”：只在输入数据内部进行计算，不进行任何填充。

这意味着，只有当卷积核（或池化窗口）的中心完全落在输入数据的有效区域内时，才会进行计算。

详细解释 `VALID` Padding 的工作原理：

目标：确保卷积（或池化）操作只作用于完整且没有填充的输入数据。
填充策略：不进行任何填充。
输出尺寸的计算：
输出的尺寸会严格小于输入尺寸（除非卷积核/窗口尺寸等于 1 且步长为 1，但这种情况很少见）。
输出的宽度和高度是根据输入尺寸、卷积核/窗口尺寸和步长通过一个简单的减法和除法来计算的。
数学公式：
假设输入尺寸为 `H_in x W_in`，卷积核（或窗口）尺寸为 `K_h x K_w`，步长为 `S_h x S_w`。
`H_out = floor((H_in K_h) / S_h) + 1`
`W_out = floor((W_in K_w) / S_w) + 1`
其中 `floor()` 是向下取整函数。

`VALID` Padding 的优点：

1. 更纯粹的计算：避免了填充带来的潜在偏差，只对真实数据进行操作。
2. 输出尺寸的精确可控：输出尺寸的计算公式非常直观，开发者可以清晰地预测每一层后的尺寸变化。
3. 更小的输出尺寸：随着卷积层数的增加，`VALID` padding 会自然地减小特征图的尺寸，这有助于：
减少计算量：在后续层中处理更小的特征图，效率更高。
提取更抽象的特征：尺寸的减小通常伴随着抽象层级的提升，有利于模型学习更高级别的特征。
内置的“降采样”效果：尺寸的减小本身就起到了一定的降采样作用。

`VALID` Padding 的缺点：

1. 边界信息丢失：由于没有填充，位于输入数据边缘的像素将无法被卷积核的中心覆盖到，这可能导致重要边界信息的丢失，尤其是在 CNN 的早期层。
2. 尺寸递减：每一层卷积或池化都会导致特征图尺寸的减小，这可能需要在模型设计中更频繁地考虑如何平衡特征图的尺寸和感受野的大小，或者使用其他方法（如转置卷积 `Conv2DTranspose`）来恢复尺寸。
3. 堆叠层数受限（某种程度上）：如果连续使用 `VALID` padding，特征图的尺寸会迅速减小，可能导致在达到所需感受野之前就出现过小的特征图。

异同总结

| 特性 | SAME Padding | VALID Padding |
| : | : | : |
| 填充 | 在输入四周填充零 | 不填充 |
| 目标 | 尽量保持输出尺寸与输入相同；覆盖所有输入像素 | 只计算有效区域；避免填充带来的影响 |
| 输出尺寸 | 步长为 1 时，与输入尺寸相同；步长 > 1 时，尽可能接近输入尺寸（向上取整） | 严格小于输入尺寸（取决于核尺寸和步长，向下取整） |
| 边界处理 | 边界像素通过填充得到计算，保留边界信息 | 边界像素不参与中心对齐的计算，可能丢失 |
| 计算 | 包含填充区域的计算 | 仅包含非填充区域的计算 |
| 优点 | 保留边界信息；尺寸管理相对简单（步长=1） | 无填充偏差；输出尺寸可控；内置降采样效果 |
| 缺点 | 填充可能引入误差；尺寸变化依赖于步长 | 边界信息丢失；尺寸迅速减小 |
| 适用场景 | CNN 早期层，需要保留边界特征；步长为 1 的层 | 需要精确尺寸控制；追求模型效率；提取高层特征 |

如何选择？

选择 `SAME` 还是 `VALID` padding 很大程度上取决于你的模型设计目标和对特征图尺寸的要求：

如果你希望在模型的早期层保留输入图像的完整空间信息，并且希望连续的卷积层在步长为 1 时尺寸保持不变，那么 `SAME` padding 是一个不错的选择。
如果你更关心计算效率，希望特征图尺寸随着网络加深而自然减小，并且对边界信息的丢失不太敏感（或者已经通过其他方式处理），那么 `VALID` padding 会更合适。很多先进的模型，特别是那些以深度和小型卷积核为特点的模型，倾向于使用 `VALID` padding。

在实际应用中，你还会看到其他 padding 方式（如 `EXPLICIT`），但 `SAME` 和 `VALID` 是最基础和最常用的两种。理解它们的差异，能够帮助你更精细地控制 CNN 的行为和性能。

网友意见

SAME一定可以保证卷积后的尺寸不变吗？

类似的话题

TensorFlow 中 padding 的 SAME 和 VALID 两种方式有何异同？

在 TensorFlow 中，卷积神经网络（CNN）的卷积层（`tf.nn.conv2d`）和池化层（`tf.nn.max_pool`，`tf.nn.avg_pool` 等）在处理输入数据时，都需要决定如何处理边界像素，以便输出的尺寸与输入保持一致或更小。这就引入了“padding”的概念。Tens.............
关于tensorflow中的滑动平均？

好的，咱们来聊聊 TensorFlow 里那个挺有用的“滑动平均”（Moving Average）这玩意儿。它不是什么特别高大上的概念，但用好了，对模型的训练和稳定性可有实质性的帮助。什么是滑动平均？为啥要用它？简单来说，滑动平均是一种平滑数据序列的方法，它通过计算一系列数据的平均值来捕捉趋势，同时.............
如何评价Google 在TensorFlow 中引入的bfloat16 数据类型？

Google 在 TensorFlow 中引入 bfloat16 数据类型：一项深入的分析Google 在 TensorFlow 中引入的 bfloat16 数据类型，是一项具有深远意义的技术创新，旨在平衡计算效率和模型精度，特别是在深度学习的训练和推理过程中。要评价 bfloat16 的引入，我们.............
如何看待Keras正式从TensorFlow中分离？

Keras 独立：自由翱翔还是失落的星辰？Keras，这个曾几何时作为 TensorFlow 的“亲儿子”，如今却宣布了独立，这是一个值得深思的变化。我们不能简单地用“好”或“坏”来一概而论，这更像是一次深刻的变革，一次在深度学习生态圈中的重要重新定位，它带来了新的机遇，也伴随着一些挑战。分离的深层.............
TensorFlow的自动求导具体是在哪部分代码里实现的？

TensorFlow 的自动求导功能，即 GradientTape，主要实现在 TensorFlow 的 C++ 后端，并通过 Python API 进行暴露和使用。理解其实现细节，需要深入到 TensorFlow 的执行引擎和计算图的构建过程。下面我将从几个关键部分详细阐述 TensorFlow .............
TensorFlow 有哪些令人难以接受的地方？

TensorFlow 作为一款强大且广泛使用的深度学习框架，其在灵活性、性能和社区支持方面都有着卓越的表现。然而，正如任何复杂的技术一样，TensorFlow 也存在一些令人难以接受的方面，尤其是在开发者体验、某些设计选择和发展方向上。以下是一些详细的阐述： 1. 陡峭的学习曲线和复杂的 API .............
用 TensorFlow 可以做什么有意思的事情？

TensorFlow 是一个强大的开源库，它能够帮助你构建和训练各种机器学习模型，从简单的线性回归到复杂的深度神经网络。用 TensorFlow 可以做的有趣的事情实在太多了，因为机器学习的应用领域非常广泛。下面我将详细介绍一些有意思的应用方向，并尽量深入地讲解： 1. 图像相关（Computer .............
现在tensorflow和mxnet很火，是否还有必要学习scikit-learn等框架？

现在深度学习框架如TensorFlow和PyTorch（MXNet虽然也不错，但在目前的流行度上可能略逊一筹）确实非常火爆，它们在处理大规模数据、构建复杂神经网络方面展现出了强大的能力。这让很多人产生一个疑问：在这些深度学习巨头的阴影下，像Scikitlearn这样的传统机器学习框架还有学习的必要吗.............
如果美国禁用 Tensorflow 和 Pytorch 对中国的人工智能有何影响？

如果美国禁用 TensorFlow 和 PyTorch 这两大深度学习框架对中国人工智能（AI）领域将产生多方面、深远且复杂的影响，既有直接的冲击，也可能催生积极的转型。以下将从不同维度进行详细分析：一、直接的冲击和挑战： 1. 研发效率和速度的下降：生态系统的依赖性： TensorFlo.............
应该选择TensorFlow还是Theano？

在深度学习的浩瀚星海中，TensorFlow 和 Theano 曾是两位举足轻重的领航者，尽管如今的局面已有所变化，但了解它们的历史和特点，对于理解整个领域的发展脉络依然至关重要。如果非要在这两者之间做出选择，那么我们需要深入剖析它们各自的优劣，以及它们所代表的技术哲学。Theano：先驱者的沉稳与.............
2021 年了，TensorFlow 和 PyTorch 两个深度学习框架地位又有什么变化吗？

2021年，深度学习领域依然是TensorFlow和PyTorch这两大巨头并驾齐驱的局面，但各自的优势和侧重点，以及社区的发展方向，确实呈现出一些微妙但值得深思的变化。不能简单地说谁取代了谁，更准确的说法是，它们在各自的生态位上不断巩固和发展，同时也互相学习和借鉴。PyTorch：灵活性与研究人员.............
有哪些相见恨晚的 TensorFlow 小技巧？

那些让我相见恨晚的 TensorFlow 小技巧在数据科学和机器学习的世界里，TensorFlow 就像一位老朋友，陪伴我走过了不少征程。然而，随着项目越来越复杂，我总觉得在某个地方卡壳，优化效率、调试代码都耗费了不少精力。直到最近，我才挖掘出一些堪称“相见恨晚”的 TensorFlow 小技巧，它.............
如何看待谷歌公开 tensorflow 专用处理器 TPU?

谷歌公开 TensorFlow 专用处理器 (TPU) 是人工智能（AI）领域发展中的一个里程碑事件，具有深远的影响。下面我将从多个维度详细阐述如何看待谷歌公开 TPU：一、背景与动机：为何谷歌要研发 TPU？ AI 计算的爆炸性增长: 随着深度学习模型越来越复杂，以及数据量的不断增加，传统的.............
DL框架的未来发展，TensorFlow/MXNet/PyTorch, 选哪个？

DL框架的未来：TensorFlow、MXNet、PyTorch 的抉择与展望深度学习领域日新月异，其底层工具——深度学习框架——的演进速度同样惊人。TensorFlow、MXNet 和 PyTorch 作为当前最主流的三大框架，各自拥有庞大的用户基础和社区支持，但它们在设计理念、生态系统和未来发展.............
如何开发一个自己的 TensorFlow？

亲手打造你的神经网络大脑：从零开始理解 TensorFlow 的核心构建想深入了解深度学习的运作机制，仅仅停留在调用现成的库肯定是不够的。你渴望理解那些复杂的计算图是如何构建的？数据是如何在节点间流动的？模型是如何一步步优化的？那么，这篇文章就是为你准备的——我们将一起揭开 TensorFlow 神.............
有那位大神使用过tensorflow-textsum来做文本摘要么？求指教？

好的，很高兴能和你交流关于使用 TensorFlowTextSum 进行文本摘要的经验。我也是从一个新手摸索过来的，遇到过不少坑，但最终还是摸清了门道。我会尽量把我所知道的、用过的都给你讲明白，希望能帮到你少走弯路。先来个概览：TensorFlowTextSum 是什么？简单来说，TensorFlo.............
scikit-learn, tensorflow, pytorch真的只需要查下API，不需要学吗?

这可真是个大问题，直接问出了很多初学者甚至是有些经验的人心中的疑惑。要说scikitlearn、TensorFlow和PyTorch是不是“只需要查查API，不需要学”，我的回答是：绝对不是，而且这是个非常危险的想法。简单来说，只查API就像是拿到了一堆零件，你知道它们的名字和大概的用途，但如果你.............
如何评价Google发布的第二代深度学习系统TensorFlow?

评析TensorFlow 2.0：从“够用”到“好用”的进化之路Google在2019年年底正式发布了TensorFlow 2.0，这标志着这个曾经备受推崇但也在一定程度上饱受诟病的深度学习框架，迈入了全新的时代。相较于其前身，TensorFlow 2.0的发布绝非一次简单的版本迭代，而是一场深刻的.............
2017年1月18日Facebook发行的PyTorch相比TensorFlow、MXNet有何优势？

2017年1月18日，Facebook AI Research（FAIR）正式开源了PyTorch。彼时，深度学习框架市场已然硝烟弥漫，TensorFlow（由Google于2015年发布）和MXNet（由Apache软件基金会孵化，于2016年成为其顶级项目）已是风头正劲的竞争者。PyTorch的.............
国内哪些公司在用caffe、torch、TensorFlow、paddle等框架，哪些在用自研框架？

国内人工智能领域，各大公司在深度学习框架的选择上呈现出百花齐放的态势。既有广泛拥抱主流开源框架的，也有深耕自研框架的。下面我将尽量详细地介绍一些代表性的公司及其框架使用情况：一、主流开源框架（Caffe, Torch, TensorFlow, PyTorch, PaddlePaddle）的使用情.............