菜鸟炼丹师,如果描述有误请轻喷,各位大佬分析技术细节已经很到位了,我主要是想写写自己对DETR在high-level层面上的一些认识。
刚看完文章,感觉这篇文章已经上升到了object-part这个层次的learning,而不是传统的学习feature。文章融合了set prediction,OOL多方面的东西,这种object-level的检测其实已经有广泛研究了
包括胶囊网络其实也是这种part-object 层次的学习。文章4分像capsule network,7分像Thomas Kipf 的slot attention,我拿张图出来各位对比一下吧
首先我们来看看DETR和slot attention的联系
最后,因为slot attention是无监督的,他计算的是重构损失。而DETR有label,可以先匹配prediction和label再计算损失(这也是setprediction task常用的方法了)。所以DETR其实不是一个非常novel的想法,但是他确实是第一个将part-object层面的表示方法引入真实场景目标检测的工作,而且很work!在此之前,Hinton老爷子组part-object层面的capsule自编码器只能在简单的mnist数据集work,
而像slot attention之类的基于目标的表示方法也没有在真实场景下投入使用,更多的是关注于distangle的质量以及其他一些指标。
言而总之,在我的观点里,它叩响了了object-centric的表达方式在目标检测的大门,而不再是花大力气去搞pixel-level的特征,object-centric更像是人类大脑的感知方式!
女王:求求题主放过我,我可不敢有什么政绩。。。