首页

attention跟一维卷积的区别是啥？第1页

1

cartus 网友的相关建议:

拿NLP中序列建模来做个例子，有几点区别：

Context Window：因为一维卷积需要指定窗口的大小，比如图中，就是每次只看3个词。而且attention，这里是self-attention，他的context window是“无限”的，无限是指序列的长度是多少，窗口的大小就是多少，因为attention权重的计算涉及到一个序列里面所有的词。如上图所示，句子有5个词，窗口大小就是5. 所以一维卷积是“local”的，attention可以说是“global”的。
Time Complexity：这个其实也是刚才的窗口大小不同导致的，因为一维卷积只看k个词（窗口大小为k），如果序列长度为n，那么复杂度就是kn。而attention因为在每个位置，每个词的权重计算都要考虑到所有的词，所以复杂度就是n^2.
Dynamic Weights: 和二维卷积一样，一维卷积的权重是不变的，就是不会随着在序列位置中的变化而改变，但是attention不一样，每个位置的权重都是不一样的，attention scores（weights）是由dot-product计算出来的，具体地, softmax(qk/d^1/2).

但由于self-attention复杂度高，对长序列建模效果没有那么好，所以对一维卷积有很多改进的工作，比如上图的Pay Less Attention with Lightweight and Dynamic Convolutions （ICLR19， FAIR）1。还有比较新的Time-aware Large Kernel Convolutions （TaLK）2。

在NMT，LM等任务上的效果都能和attention-based模型扳手腕。基本上就从动态权重和动态窗口大小上面对一维卷积进行改进，而另一方面又有一些对attention的改进工作，比如将无限窗口限制一下，或者层次化一下，有太多文章这里就不赘述了。

Ref：

1.https://arxiv.org/abs/1901.10430

2.https://arxiv.org/abs/2002.03184

attention跟一维卷积的区别是啥？的其他答案点击这里

1

相关话题

  奇异值分解（SVD）有哪些很厉害的应用？
  有什么东西是只有中国能造，国外不能造的？
  蓬佩奥宣称未来几天将对更多中国软件公司「下手」，你怎么看？
  家里用的按摩椅，哪个牌子好？
  知识图谱+nlp，有什么适合硕士独自研究的方向？
  日本芯片产业的发展历程如何，有哪些值得借鉴的经验和应该规避的教训？
  董事长赵伟国称「紫光集团重整将造成 700 亿国资流失」，清华控股称其造谣，实际情况如何？
  为何世界的航天事业一直没有太大的进展？
  既然牛顿力学有局限性，为什么高中力学还是以牛顿力学为主？
  航母运不了很多飞机，那么美国登陆攻打其他军事实力较强的国家不会被该国的空军陆军教做人吗？

前一个讨论

为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？

下一个讨论

因果推断（causal inference）是回归（regression）问题的一种特例吗？

相关的话题

  如何看待韩春雨主动撤稿？
  请问一下，为什么静止在桌面上的书其所受重力恰巧等于桌面给它的支持力？
  为什么说中国有很多小米，但只有一个华为？
  C语言能用指针修改其他程序的地址的值吗？
  为什么说 Metropolis 算法在临界点效率会很低呢，是否能稍微对比介绍一下聚类法和蠕虫算法？
  如何评价 Kaiming 团队新作 Masked Autoencoders (MAE)？
  有没有自助付款机？家乐福沃尔玛这样的超市可以采用吗？
  有哪些有趣的测量体重的方法？
  在科技世界里，人们相信虚假和迷信的信仰的原因有哪些？
  发展核技术可以认为是一种赌博吗？
  如果有一天，医院里所有的医护人员都改由人工智能机器人来担任了，会发生什么事？
  科技的终点是什么？
  过去十年你做了哪些「探索」，让你变得不同？
  清代闭关锁国拒绝接受西方先进科技，最主要的原因是什么？
  2019 年，小米是否变得岌岌可危？
  如何用量子力学的语言严谨地描述等概率原理？
  现代人工神经网络是不是一个死胡同？这个技术是不是骗人的？
  如何看待《最强大脑》中澳门赌王儿子何猷君拿了直通决赛资格？
  你们家的人工智障扫地机器人出现过哪些让人啼笑皆非的事情？
  如何解决测试中充斥着大量训练集中没见过的样本类型模型将其识别成非我族类仍然保持测试集的高精度？
  有哪些科技好物能够把家里变成全世界最舒服的地方？
  中国科学院是一个纯粹的研究机构吗？
  物理学基础理论教材？
  为什么我学过微积分、线性代数和概率论，还是看不懂机器学习？
  院士坦言「如果没有任何项目或者取得人才『帽子』，不足以让科技工作者过上『体面的生活』」，当今现状如何？
  如何理解 inductive learning 与 transductive learning?
  大家如何看待华为最新公布的华为海思总裁公布备胎转正，科技自立的问题?
  ICML2020有哪些值得关注的工作?
  为什么一百年前同样受压迫，东亚各国都飞速崛起，而非洲还是那么落后呢？
  CVPR 2018 有什么值得关注的亮点？

© 2024-06-03 - tinynew.org. All Rights Reserved.
© 2024-06-03 - tinynew.org. 保留所有权利