你靠哪些讲解学会了曾经怎么也学不会的算法？第1页

lu-yi-90-79 网友的相关建议:

NN 空间映射后得到的特征向量在2维空间的可视化，直接打开了我理解网络的大门！！

比如下图：

就是手写字体mnist的特征向量在2维空间里的样子

之前一直很难理解：

什么是特征映射 (feature map) 和特征向量 (embeddings)？

当我们谈及 CNN 网络，总能听到 feature map 这个词。它也叫特征映射，简单说来就是输入图像在与卷积核进行卷积操作后得到图像特征。

一般而言，CNN 网络在对图像自底向上提取特征时，feature map 的数量(其实也对应的就是卷积核的数目) 会越来越多，而空间信息会越来越少，其特征也会变得越来越抽象。比如著名的 VGG16 网络，它的 feature map 变化就是这个样子。

feature map 在空间尺寸上越来越小，但在通道尺寸上变得越来越深，这就是 VGG16 的特点。

讲到 feature map 哦，就不得不提一下人脸识别领域里经常提到的 embedding. 一般来说，它其实就是 feature map 被最后一层全连接层所提取到特征向量。早在2006年，深度学习鼻祖 hinton 就在《SCIENCE》上发表了一篇论文，首次利用自编码网络对 mnist 手写数字提取出了特征向量(一个2维或3维的向量)。

值得一提的是，也是这篇论文揭开了深度学习兴起的序幕。

前面我们提到：CNN 网络在对图像自底向上提取特征时，得到的 feature map 一般都是在空间尺寸上越来越小，而在通道尺寸上变得越来越深。那么，为什么要这么做？

其实，这就与 ROI (感兴趣区域)映射到 Feature Map 有关。在上面这幅图里：原图里的一块 ROI 在 CNN 网络空间里映射后，在 feature map 上空间尺寸会变得更小，甚至是一个点, 但是这个点的通道信息会很丰富，这些通道信息是 ROI 区域里的图片信息在 CNN 网络里映射得到的特征表示。由于图像中各个相邻像素在空间上的联系很紧密，这在空间上造成具有很大的冗余性。因此，我们往往会通过在空间上降维，而在通道上升维的方式来消除这种冗余性，尽量以最小的维度来获得它最本质的特征。

原图左上角红色 ROI 经 CNN 映射后在 feature map 空间上只得到了一个点，但是这个点有85个通道。那么，ROI的维度由原来的 [32, 32, 3] 变成了现在的 85 维，这难道又不是降维打击么？

---by 学习自yunyang1994 的博客！！AI小伙们的宝藏

追更：这个图到底怎么理解

详细内容及复现请看：

MNIST 数据集上的一个示例，可以通过将输出维度设置为 2 或 3 来可视化 CNN 特征，如下图所示。

二维可视化

原始 softmax

你靠哪些讲解学会了曾经怎么也学不会的算法？第1页

二维可视化

修改后的 softmax

相关话题

前一个讨论

下一个讨论

相关的话题

你靠哪些讲解学会了曾经怎么也学不会的算法？ 第1页

二维可视化

修改后的 softmax

相关话题

前一个讨论

下一个讨论

相关的话题

你靠哪些讲解学会了曾经怎么也学不会的算法？第1页