3年后再看non-local NN,原来 non-local block = transformer layer (single head) - FFN - positional encoding啊!
[1] 证明了FFN(即MLP)的重要性。这可能解释了为什么几层Non-local layer叠起来提升不大。我自己的实验证明positional encoding对分割任务是有提升的。另外很多transformer for cv的paper都证明multi head表现的比single head更好。
[1] Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth. arXiv:2103.03404.
女王:求求题主放过我,我可不敢有什么政绩。。。