首页

attention跟一维卷积的区别是啥？第1页

1

cartus 网友的相关建议:

拿NLP中序列建模来做个例子，有几点区别：

Context Window：因为一维卷积需要指定窗口的大小，比如图中，就是每次只看3个词。而且attention，这里是self-attention，他的context window是“无限”的，无限是指序列的长度是多少，窗口的大小就是多少，因为attention权重的计算涉及到一个序列里面所有的词。如上图所示，句子有5个词，窗口大小就是5. 所以一维卷积是“local”的，attention可以说是“global”的。
Time Complexity：这个其实也是刚才的窗口大小不同导致的，因为一维卷积只看k个词（窗口大小为k），如果序列长度为n，那么复杂度就是kn。而attention因为在每个位置，每个词的权重计算都要考虑到所有的词，所以复杂度就是n^2.
Dynamic Weights: 和二维卷积一样，一维卷积的权重是不变的，就是不会随着在序列位置中的变化而改变，但是attention不一样，每个位置的权重都是不一样的，attention scores（weights）是由dot-product计算出来的，具体地, softmax(qk/d^1/2).

但由于self-attention复杂度高，对长序列建模效果没有那么好，所以对一维卷积有很多改进的工作，比如上图的Pay Less Attention with Lightweight and Dynamic Convolutions （ICLR19， FAIR）1。还有比较新的Time-aware Large Kernel Convolutions （TaLK）2。

在NMT，LM等任务上的效果都能和attention-based模型扳手腕。基本上就从动态权重和动态窗口大小上面对一维卷积进行改进，而另一方面又有一些对attention的改进工作，比如将无限窗口限制一下，或者层次化一下，有太多文章这里就不赘述了。

Ref：

1.https://arxiv.org/abs/1901.10430

2.https://arxiv.org/abs/2002.03184

attention跟一维卷积的区别是啥？的其他答案点击这里

1

相关话题

  如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津？
  graph convolutional network有什么比较好的应用task？
  如果把双缝干涉实验的电子换成离子、原子甚至是分子，会得出同样的实验结果吗？
  如何看待KDD'21的文章，异质图神经网络的效果不如简单的GCN、GAT？
  如何看待华为回应谷歌因美国禁令暂停支持部分业务一事，想要「继续发展和使用安卓生态」华为需要做哪些准备？
  搞机器学习的生环化材是天坑吗？
  运维监控的KPI异常检测业界有哪些实用方法？
  请问自旋为二分之一粒子有俩个态-1/2，1/2。自旋为1的粒子有三个态1，0，-1。是怎么求出来的?
  OpenAI 发布文字生成图像工具 DALL·E 2，它的画作水平如何？从技术角度如何评价它的能力？
  如果人类发现了其他很多外星文明地球是以球长和其他星球来外交还是现在一样一个一个国家？

前一个讨论

为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？

下一个讨论

因果推断（causal inference）是回归（regression）问题的一种特例吗？

相关的话题

  冷战时期出现了哪些逆天的黑科技？
  如何理解量子力学中的不确定性原理？
  细胞疗法的应用前景如何？目前还有哪些问题需要解决？
  实验室只有1080的显卡，老师还想让发深度学习论文，也不给配置好的显卡怎么办？
  如何看待三大运营商5G套餐降价：最低只要69元？降价原因是什么？
  决定显卡性能的比较重要的几个参数是什么？
  请问在金融风控方向，如何运用用户行为序列进行特征设计和挖掘？
  无人驾驶飞机为什么没有直升机型号出现？
  溶液笔+透明胶带可以解锁带指纹密码手机？是什么原理？
  如何看待在某度搜不到megengine官网？
  有人了解莱茵认证护眼模式么，真的比普通模式高级吗？
  如何看待旷视科技新产品监视学生上课？
  如何理解压缩感知(compressive sensing)？
  战争能加速科技进步么？
  如何看待2019年9月29日B站何同学评测华为 Mate 30 Pro 的视频被质疑恰饭？
  文化如何潜移默化地影响技术的变化的？
  计算机视觉（cv）方向今年招聘情况怎么样?是否已经人才过剩?
  “在测谎中，一开始问基线问题就说谎，之后是否可以骗过测谎仪？”
  物理学「常量」有没有可能是极其缓慢变化的量？
  上了大学，深入了解后发现物理学并没有想象中的那样简洁，混混沌沌地过了一年半，请问该怎么想，怎么办呢？
  如果将所有已知和可预测（科幻类也行）的人类科技按先进水平分级，那每个等级的科技世界具体是怎么样的呢？
  是否存在部分人过度吹捧三星品牌的现象？如果存在，原因是什么？
  如何看待长江存储宣布128层闪存芯片研发成功每颗1.33Tb？
  怎么看待百度起诉粉笔网张小龙及“酷玩实验室”？
  3D打印在目前应用的领域中具体发展到什么地步了？
  库克时期的苹果和乔布斯时期的苹果差距有多大？
  有哪些 19 世纪出现的科技，到今天还在使用？
  如何看待珠江电视台网络直播揭露三星 Note7 爆燃事件的节目《老回大战炸弹星》到一半时，节目被黑屏？
  雷军称小米集团正式组建高端化战略工作组，「三年内拿下国产高端手机市场份额第一」，释放了哪些信号？
  物理上，维度和自由度有什么联系和区别？

© 2025-06-17 - tinynew.org. All Rights Reserved.
© 2025-06-17 - tinynew.org. 保留所有权利