首页

attention跟一维卷积的区别是啥？第1页

1

cartus 网友的相关建议:

拿NLP中序列建模来做个例子，有几点区别：

Context Window：因为一维卷积需要指定窗口的大小，比如图中，就是每次只看3个词。而且attention，这里是self-attention，他的context window是“无限”的，无限是指序列的长度是多少，窗口的大小就是多少，因为attention权重的计算涉及到一个序列里面所有的词。如上图所示，句子有5个词，窗口大小就是5. 所以一维卷积是“local”的，attention可以说是“global”的。
Time Complexity：这个其实也是刚才的窗口大小不同导致的，因为一维卷积只看k个词（窗口大小为k），如果序列长度为n，那么复杂度就是kn。而attention因为在每个位置，每个词的权重计算都要考虑到所有的词，所以复杂度就是n^2.
Dynamic Weights: 和二维卷积一样，一维卷积的权重是不变的，就是不会随着在序列位置中的变化而改变，但是attention不一样，每个位置的权重都是不一样的，attention scores（weights）是由dot-product计算出来的，具体地, softmax(qk/d^1/2).

但由于self-attention复杂度高，对长序列建模效果没有那么好，所以对一维卷积有很多改进的工作，比如上图的Pay Less Attention with Lightweight and Dynamic Convolutions （ICLR19， FAIR）1。还有比较新的Time-aware Large Kernel Convolutions （TaLK）2。

在NMT，LM等任务上的效果都能和attention-based模型扳手腕。基本上就从动态权重和动态窗口大小上面对一维卷积进行改进，而另一方面又有一些对attention的改进工作，比如将无限窗口限制一下，或者层次化一下，有太多文章这里就不赘述了。

Ref：

1.https://arxiv.org/abs/1901.10430

2.https://arxiv.org/abs/2002.03184

attention跟一维卷积的区别是啥？的其他答案点击这里

1

相关话题

  如何评价华为发布鸿蒙平板 MatePad 11？2499 元起值得购买吗？
  杨-米尔斯理论真的很伟大吗？
  如何理解自然单位制？
  消融实验是什么？
  String landscape的10＾500种结果是怎么来的？
  中国的科幻热是不是预示着生活和科技水平的提升？
  全球最大肉类供应商遭黑客攻击，可能出于什么目的？厂商损失有多大？
  如何评价华为即将推出的台式机，会对行业带来怎样的影响？
  量子纠缠和相对论冲突吗？
  为什么现在科技发达了，电脑的价格还是居高不下呢？

前一个讨论

为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？

下一个讨论

因果推断（causal inference）是回归（regression）问题的一种特例吗？

相关的话题

  如何看待2019年9月29日B站何同学评测华为 Mate 30 Pro 的视频被质疑恰饭？
  大疆在国外很出名吗？外国人对此什么评价？
  苏联究竟发达到什么程度？
  计算统计学（Computational Statistics）有什么好的资源和教材以及学习方法推荐？
  为什么现在（2014年11月）智能家居火不起来？
  核武器和CPU哪个更难制造？
  为什么说股票不能通过机器学习来预测？
  如何评价歼 15 电磁弹射成功？
  是什么赋予物质质量？
  为什么红色警戒里的核弹攻击威力这么弱？
  人类会不会因为某些元素过少导致科技停滞？
  英雄联盟世界中的科技是个什么水平？
  如何看待与评价 AAAI 2022 的录用结果？
  《太吾绘卷》《中国式家长》的成功是否标志着国产游戏的崛起？
  如何看待“饶毅假设”？
  如何用最短的时间成为物理学家？
  2020年，多标签学习（multi-label）有了哪些新的进展？
  小米（2019）需要怎么做才能在知乎挽回赞誉？
  如何理解 Graph Convolutional Network（GCN）？
  美国正针对俄罗斯准备出口规则，或可「切断」俄方与全球电子供应商联系，若实施，这会对俄罗斯带来哪些影响？
  大家都是在哪儿得到最快、最新、最可靠的新闻？
  如何看待迪拜酋长使用华为产品？华为Mate40系列等高端产品能在海外有市场吗？
  为什么最近几年 FPGA 变得越发受大家重视了？
  广义相对论中存在尺缩效应吗？
  如果不存在弱相互作用，宇宙可能会变成什么样子？
  美国登月为什么会受到那么多质疑？
  如何评价生成模型框架 ZhuSuan?
  如果艾隆・马斯克愿意给你10分钟讲电话的时间，你会想跟他说什么呢？
  Oracle 、SAP 等软件公司宣布暂停俄罗斯业务，可能出于哪些原因？还有哪些信息值得我们关注？
  有哪些科学家曾获得过国家最高科学技术奖？他们都取得了哪些瞩目的成就？

© 2024-05-20 - tinynew.org. All Rights Reserved.
© 2024-05-20 - tinynew.org. 保留所有权利