首页

attention跟一维卷积的区别是啥？第1页

1

cartus 网友的相关建议:

拿NLP中序列建模来做个例子，有几点区别：

Context Window：因为一维卷积需要指定窗口的大小，比如图中，就是每次只看3个词。而且attention，这里是self-attention，他的context window是“无限”的，无限是指序列的长度是多少，窗口的大小就是多少，因为attention权重的计算涉及到一个序列里面所有的词。如上图所示，句子有5个词，窗口大小就是5. 所以一维卷积是“local”的，attention可以说是“global”的。
Time Complexity：这个其实也是刚才的窗口大小不同导致的，因为一维卷积只看k个词（窗口大小为k），如果序列长度为n，那么复杂度就是kn。而attention因为在每个位置，每个词的权重计算都要考虑到所有的词，所以复杂度就是n^2.
Dynamic Weights: 和二维卷积一样，一维卷积的权重是不变的，就是不会随着在序列位置中的变化而改变，但是attention不一样，每个位置的权重都是不一样的，attention scores（weights）是由dot-product计算出来的，具体地, softmax(qk/d^1/2).

但由于self-attention复杂度高，对长序列建模效果没有那么好，所以对一维卷积有很多改进的工作，比如上图的Pay Less Attention with Lightweight and Dynamic Convolutions （ICLR19， FAIR）1。还有比较新的Time-aware Large Kernel Convolutions （TaLK）2。

在NMT，LM等任务上的效果都能和attention-based模型扳手腕。基本上就从动态权重和动态窗口大小上面对一维卷积进行改进，而另一方面又有一些对attention的改进工作，比如将无限窗口限制一下，或者层次化一下，有太多文章这里就不赘述了。

Ref：

1.https://arxiv.org/abs/1901.10430

2.https://arxiv.org/abs/2002.03184

attention跟一维卷积的区别是啥？的其他答案点击这里

1

相关话题

  到底什么是科技金融？
  2021 年各家大厂的 AI Lab 现状如何？
  你在《我的知乎十年历》里发现了哪些有趣的数据？
  为什么空间是三维？
  抓到硅胶面具的人干坏事是一种怎样的体验？
  如何看待联发科已向美方申请，力求 9 月 15 日后仍可向华为供货？后续会如何发展？
  如果百年后深度学习最终有了公认的数学理论作为基础，能解释实验中的各类玄学，那这个理论会长什么样子？
  如何看待TikTok 被美国针对后，Zoom 决定停止向中国大陆用户直接销售产品？
  消费者应该如何根据自身的需求选购空气净化器？
  什么是人工智能？人工智能、机器学习、深度学习三者之间有什么关系吗？

前一个讨论

为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？

下一个讨论

因果推断（causal inference）是回归（regression）问题的一种特例吗？

相关的话题

  俄罗斯武装力量是全球最先进的军队，这是真的吗？
  深度学习attention机制中的Q,K,V分别是从哪来的？
  既然国外先进科技都是保密的，那为什么还有好多所谓的发表科研成果，这些科研成果都是有价值的么？
  如果一个外星文明来到太阳系要用戴森球把太阳包起来，以我们现在的科技水平能阻止它们吗？
  智能锁真没有机械锁安全吗？
  如何看待媒体报道继武汉弘芯后，目标总投资598亿的济南泉芯半导体烂尾？
  2100年世界会是什么样子？
  LSTM如何来避免梯度弥散和梯度爆炸？
  B 格最高的的数学或物理学公式是什么？
  如何看待网传联发科新一代芯片命名为「天玑 9000」？这出于怎样的考虑？
  在 2018 年的时间点，Google、Facebook、Amazon 三选一，你更看好谁？为什么？
  计算机视觉研一，只学过Python基础，目前代码能力很差，要不要换导师，不换的话如何毕业？
  如何看待荣耀董事长万飚公开声明今年荣耀研发投入 10 亿美金？这个投入比例怎么样？
  人类真的登上过月球吗？
  训练过程中loss震荡特别严重，可能是什么问题？
  你有什么人生难题，被智能的进步解决了？
  你们是如何踏上凝聚态物理这条路的？
  如何评价基于游戏毁灭战士（Doom）的AI死亡竞赛大赛结果？
  如何理解压缩感知(compressive sensing)？
  能量是概念还是物质？
  火星上可以建立城市吗？
  如何看待天涯网友「资水东流」关于未来科技发展的文章？
  如何评价AWS的图神经网络框架DGL？
  如果古代人有手机的话，世界历史将会发生怎样的改变？
  如果没有当前的技术，宇宙飞船从地球到达冥王星需要多久？
  2020年会是旗舰手机 2K 屏爆发的一年吗？
  工信部回应美撤销中国联通 214 牌照，称「坚决反对，将采取必要措施」，释放了哪些信号？
  推荐算法岗是否存在严重人才过剩?
  可以对只有一个像素的图片拥有版权或著作权吗？为什么？
  雷军会编程吗？

© 2025-06-16 - tinynew.org. All Rights Reserved.
© 2025-06-16 - tinynew.org. 保留所有权利