百科问答小站 logo
百科问答小站 font logo



在计算机视觉任务中,运用Transformer和Non-local有何本质区别? 第1页

  

user avatar   shaohuali 网友的相关建议: 
      

3年后再看non-local NN,原来 non-local block = transformer layer (single head) - FFN - positional encoding啊!

[1] 证明了FFN(即MLP)的重要性。这可能解释了为什么几层Non-local layer叠起来提升不大。我自己的实验证明positional encoding对分割任务是有提升的。另外很多transformer for cv的paper都证明multi head表现的比single head更好。

[1] Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth. arXiv:2103.03404.


user avatar   ai-hardcore 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  如何评价FAIR提出的ConvNeXt:CNN匹敌Swin Transformer? 
  有哪些比较好的机器学习、数据挖掘、计算机视觉的订阅号、微博或者是论坛? 
  如何评价微软提出的无监督视觉模型BEiT:ImageNet达到88.6,ADE20K达到57.0? 
  如何看待与评价 AAAI 2022 的录用结果? 
  CVPR 2015 有什么值得关注的亮点? 
  有没有根据一张人物的立绘正面像,自动生成同风格各侧面角度像并自动衍生表情的软件啊? 
  如何评价最近火热的对比学习,会引领预训练模型新的范式嘛? 
  有没有根据一张人物的立绘正面像,自动生成同风格各侧面角度像并自动衍生表情的软件啊? 
  为什么opencv使用BRG模式读入图像? 
  2021 年,深度学习方面取得了哪些关键性进展? 

前一个讨论
如果你是《了不起的盖茨比》中的盖茨比,且深爱着黛西,会如何优雅地追回她?
下一个讨论
电脑怎样执行编程语言的?





© 2025-03-26 - tinynew.org. All Rights Reserved.
© 2025-03-26 - tinynew.org. 保留所有权利