深度学习attention机制中的Q,K,V分别是从哪来的？第1页

huo-hua-de-41 网友的相关建议:

Q,K,V思想最早应该是来自于Memory Networks。

准确说Memory Networks并不只是一个模型，而是一套思路，使用外部的一个memory来存储长期记忆信息，因为当时RNN系列模型使用final state 存储的信息，序列过长就会遗忘到早期信息。

甚至，我觉得Memory Networks的思想后面启发了self-attention和transformer。最重要的就是提出了query - key - value思想，当时的该模型聚焦的任务主要是question answering，先用输入的问题query检索key-value memories，找到和问题相似的memory的key，计算相关性分数，然后对value embedding进行加权求和，得到一个输出向量。这后面就衍生出了self-attention里的Q，K，V表示，在self-attention里的把X映射到QKV。

具体的实现呢，邱老师的讲座里说的很清楚了。QKV是输入的X乘上Wq, Wk, Wv三个矩阵得到的。全用X不是不可以，但参数太少，影响模型容量。

深度学习attention机制中的Q,K,V分别是从哪来的？的其他答案点击这里

相关话题

  ICLR 2018 有什么值得关注的亮点？
  如何评价AlphaGo Zero？
  如何评价 Self-Normalizing Neural Networks 这篇论文?
  有哪些令你印象深刻的魔改transformer？
  在CV/NLP/DL领域中，有哪些修改一行代码或者几行代码提升性能的算法？
  为什么 BERT 的 intermediate_size 这么大？
  深度学习领域，你心目中 idea 最惊艳的论文是哪篇？
  对于神经网络，硕士博士不需要弄明白原理，只需要应用，是这样吗？
  如何看待马毅老师深度学习第一性原理的文章在 ICML 四个审稿人一致接收的情况下被 AC 拒了？
  为什么deep lab v3起，输出不再接 DenseCRF了？

深度学习attention机制中的Q,K,V分别是从哪来的？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

深度学习attention机制中的Q,K,V分别是从哪来的？第1页