百科问答小站 logo
百科问答小站 font logo



attention跟一维卷积的区别是啥? 第1页

  

user avatar   cartus 网友的相关建议: 
      

拿NLP中序列建模来做个例子,有几点区别:

  1. Context Window:因为一维卷积需要指定窗口的大小,比如图中,就是每次只看3个词。而且attention,这里是self-attention,他的context window是“无限”的,无限是指序列的长度是多少,窗口的大小就是多少,因为attention权重的计算涉及到一个序列里面所有的词。如上图所示,句子有5个词,窗口大小就是5. 所以一维卷积是“local”的,attention可以说是“global”的。
  2. Time Complexity:这个其实也是刚才的窗口大小不同导致的,因为一维卷积只看k个词(窗口大小为k),如果序列长度为n,那么复杂度就是kn。而attention因为在每个位置,每个词的权重计算都要考虑到所有的词,所以复杂度就是n^2.
  3. Dynamic Weights: 和二维卷积一样,一维卷积的权重是不变的,就是不会随着在序列位置中的变化而改变,但是attention不一样,每个位置的权重都是不一样的,attention scores(weights)是由dot-product计算出来的,具体地, softmax(qk/d^1/2).

但由于self-attention复杂度高,对长序列建模效果没有那么好,所以对一维卷积有很多改进的工作,比如上图的Pay Less Attention with Lightweight and Dynamic Convolutions (ICLR19, FAIR)1。还有比较新的Time-aware Large Kernel Convolutions (TaLK)2。

在NMT,LM等任务上的效果都能和attention-based模型扳手腕。基本上就从动态权重和动态窗口大小上面对一维卷积进行改进,而另一方面又有一些对attention的改进工作,比如将无限窗口限制一下,或者层次化一下,有太多文章这里就不赘述了。

Ref:

1.arxiv.org/abs/1901.1043

2.arxiv.org/abs/2002.0318




  

相关话题

  如何看待NIPS2017图灵奖得主贝叶斯网络之父Judea Pearl讲座无人问津? 
  graph convolutional network有什么比较好的应用task? 
  如果把双缝干涉实验的电子换成离子、原子甚至是分子,会得出同样的实验结果吗? 
  如何看待KDD'21的文章,异质图神经网络的效果不如简单的GCN、GAT? 
  如何看待华为回应谷歌因美国禁令暂停支持部分业务一事,想要「继续发展和使用安卓生态」华为需要做哪些准备? 
  搞机器学习的生环化材是天坑吗? 
  运维监控的KPI异常检测 业界有哪些实用方法? 
  请问自旋为二分之一粒子有俩个态-1/2,1/2。自旋为1的粒子有三个态1,0,-1。是怎么求出来的? 
  OpenAI 发布文字生成图像工具 DALL·E 2,它的画作水平如何?从技术角度如何评价它的能力? 
  如果人类发现了其他很多外星文明地球是以球长和其他星球来外交还是现在一样一个一个国家? 

前一个讨论
为什么小模型已经可以很好地拟合数据集了,换大模型效果却要比小模型好?
下一个讨论
因果推断(causal inference)是回归(regression)问题的一种特例吗?





© 2025-06-17 - tinynew.org. All Rights Reserved.
© 2025-06-17 - tinynew.org. 保留所有权利