很钦佩的一篇文章,一统地将多个思路总结在一个框架下。
将self-attention计算所用的factor总结为四种:
其实回顾来看,在近两年的CV文章里,每个factor都有成功的范例。factor 1 最经典的文章就是Non-local[1];factor 2 有PSANet[2];GCNet归属到factor 3[3];至于factor 4,Local Relation Network[4]中的Geometry Prior可以算作范例。
当然,self-attention在CV的应用中,还有A2Net[5]、Local Relation Net[4]这两种范式。不过目前来看,CV里self-attention相关的文章,都抛不开如上计算形式(拍脑袋总结,求打脸)。
所以呢,如果看到一篇新的文章声称自己propose了一种全新的attention机制,并创造出一整套的全新的术语来描述,那么我们不妨如下简单地两步走:1. 是否是上述六种计算形式;2. 如果是,形式上有没有真正的创新。如果满足1不满足2,那么就不要被其花哨的写作唬住了。