在计算机视觉任务中，运用Transformer和Non-local有何本质区别？第1页

shaohuali 网友的相关建议:

3年后再看non-local NN，原来 non-local block = transformer layer (single head) - FFN - positional encoding啊！

[1] 证明了FFN(即MLP)的重要性。这可能解释了为什么几层Non-local layer叠起来提升不大。我自己的实验证明positional encoding对分割任务是有提升的。另外很多transformer for cv的paper都证明multi head表现的比single head更好。

[1] Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth. arXiv:2103.03404.

ai-hardcore 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

在计算机视觉任务中，运用Transformer和Non-local有何本质区别？的其他答案点击这里

相关话题

  计算机视觉和自然语言处理，哪个更具有发展前景呢，还是各有千秋呢？
  为什么Transformer适合做多模态任务？
  如何评价FAIR提出的MaskFormer，在语义分割ADE20K上达到SOTA：55.6 mIoU？
  2021年深度学习哪些方向比较新颖，处于上升期或者朝阳阶段，没那么饱和，比较有研究潜力？
  国内有哪些不错的CV(计算机视觉)团队?
  为什么图形学的会议siggraph的论文代码很少会开源？好像视觉如CVPR、ICCV开源的更多一些。
  何恺明目前的学术成果是否够得上计算机视觉领域历史第一人？
  2020到2021年小样本学习取得重大进展了吗？
  如何评价FAIR提出的MaskFormer，在语义分割ADE20K上达到SOTA：55.6 mIoU？
  如何评价李飞飞和李佳加盟谷歌？

在计算机视觉任务中，运用Transformer和Non-local有何本质区别？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

在计算机视觉任务中，运用Transformer和Non-local有何本质区别？第1页