如何看待End-to-End Object Detection with Transformers？第1页

zyf-98-4 网友的相关建议:

菜鸟炼丹师，如果描述有误请轻喷，各位大佬分析技术细节已经很到位了，我主要是想写写自己对DETR在high-level层面上的一些认识。

刚看完文章，感觉这篇文章已经上升到了object-part这个层次的learning，而不是传统的学习feature。文章融合了set prediction，OOL多方面的东西，这种object-level的检测其实已经有广泛研究了

包括胶囊网络其实也是这种part-object 层次的学习。文章4分像capsule network，7分像Thomas Kipf 的slot attention，我拿张图出来各位对比一下吧

首先我们来看看DETR和slot attention的联系

CNN二者都有，作为特征提取，这个毋庸置疑，需要注意的是slot attention将位置信息显式的编码在feature map中，相当于使用transformer时添加的position encoding。
Slot attention提供个slot（随机初始化的），然后把这些特征以一种类似于聚类的方式分配到每个slot内部，利用每个slot预测一个object。而DETR所做的事情稍微复杂一点，第一步它通过transformer对集合数据做一个relation（像极了set transformer的样子），这一步打破了feature之间的独立性，加强了特征之间的联系。然后！它提供了个随机的query vector（这不就是slot吗歪？）。然后DETR做了一件事，如果你看了附录你会发现，他的每个query其实对应着某些特定位置的object的检测，起到了和slot类似的作用。相当于每个query在问一个问题：哪个特征属于我啊？然后key标记应该属于这个q的特征，特征Value根据( )做为权重加权求和形成新的query vector。
最后，slot attention是将每个slot解码成图像，然后建模成各个slot的图像混合得到重构结果。而DETR则是对每个query提取类别与位置信息，然后对每个query和label进行匹配，得到监督损失。

最后，因为slot attention是无监督的，他计算的是重构损失。而DETR有label，可以先匹配prediction和label再计算损失（这也是setprediction task常用的方法了）。所以DETR其实不是一个非常novel的想法，但是他确实是第一个将part-object层面的表示方法引入真实场景目标检测的工作，而且很work！在此之前，Hinton老爷子组part-object层面的capsule自编码器只能在简单的mnist数据集work，

而像slot attention之类的基于目标的表示方法也没有在真实场景下投入使用，更多的是关注于distangle的质量以及其他一些指标。

言而总之，在我的观点里，它叩响了了object-centric的表达方式在目标检测的大门，而不再是花大力气去搞pixel-level的特征，object-centric更像是人类大脑的感知方式！

网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

如何看待End-to-End Object Detection with Transformers？的其他答案点击这里

前一个讨论

ICLR 2021 有什么值得关注的投稿？

下一个讨论

如何看待美军无人机部队臂章出现了中国地图剪影？

如何看待End-to-End Object Detection with Transformers？第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何看待End-to-End Object Detection with Transformers？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

如何看待End-to-End Object Detection with Transformers？第1页