首页

怎么形象理解embedding这个概念？第1页

1

CommanderYCJiangS117 网友的相关建议:

我觉得 @邱锡鹏老师的《神经网络与深度学习》里对这个的解释比较容易理解——实际上对颜色的RGB表示法就属于一种典型的分布式表示：

对于颜色，我们可以把它拆成三个特征维度，用这三个维度的组合理论上可以表示任意一种颜色。同理，对于词，我们也可以把它拆成指定数量的特征维度，词表中的每一个词都可以用这些维度组合成的向量来表示，这个就是Word Embedding的含义。

当然，词跟颜色还是有很大的差别的——我们已经知道表示颜色的三个维度有明确对应的物理意义（即RGB），直接使用物理原理就可以知道某一个颜色对应的RGB是多少。但是对于词，我们无法给出每个维度所具备的可解释的意义，也无法直接求出一个词的词向量的值应该是多少。所以我们需要使用语料和模型来训练词向量——把嵌入矩阵当成模型参数的一部分，通过词与词间的共现或上下文关系来优化模型参数，最后得到的矩阵就是词表中所有词的词向量。

这里需要说明的是，有的初学者可能没绕过一个弯，就是“最初的词向量是怎么来的”——其实你只要知道最初的词向量是瞎JB填的就行了。嵌入矩阵最初的参数跟模型参数一样是随机初始化的，然后前向传播计算损失函数，反向传播求嵌入矩阵里各个参数的导数，再梯度下降更新，这个跟一般的模型训练都是一样的。等训练得差不多的时候，嵌入矩阵就是比较准确的词向量矩阵了。

怎么形象理解embedding这个概念？的其他答案点击这里

1

相关话题

  据说机器学习长于预测，计量经济学长于解释。有什么具体例子是机器学习完成了很好的预测却在解释上表现不好？
  有哪些定理在高维情况下与三维情况下培养出来的直觉不符？
  特征工程中的「归一化」有什么作用？
  cygwin和mingw选哪个？
  请问机器学习中的预测与决策的区别是什么，他们的界限在哪里呢？
  特征工程中的「归一化」有什么作用？
  如何评价 MLSys 这个会议？
  如何看待 AI 方向 PhD 申请竞争过于激烈的现象？
  如何看待Hinton的论文《Dynamic Routing Between Capsules》？
  2021 年各家大厂的 AI Lab 现状如何？

前一个讨论

有哪些「美国美食」？

下一个讨论

word2vec 相比之前的 Word Embedding 方法好在什么地方？

相关的话题

  机器学习中使用正则化来防止过拟合是什么原理？
  如何看待swin transformer成为ICCV2021的 best paper？
  graph convolutional network有什么比较好的应用task？
  计算机视觉（cv）方向今年招聘情况怎么样?是否已经人才过剩?
  深度学习中Attention与全连接层的区别何在？
  机器学习最好的课程是什么？
  如何看待旷视确定香港上市？
  为什么softmax很少会出现[0.5，0.5]？
  领域自适应需要用到测试集数据，这样的方法有啥意义呢？
  三维重建怎么入门？
  如何评价旷视开源的YOLOX，效果超过YOLOv5?
  为什么做stacking之后，准确率反而降低了？
  推荐系统应该如何保障推荐的多样性？
  推荐系统应该如何保障推荐的多样性？
  MPI 在大规模机器学习领域的前景如何？
  如何激怒一位人工智能（机器学习、深度学习、强化学习等）爱好者？
  2021年了，如何评价微软亚研提出的对偶学习（Dual Learning）？
  高斯过程的kernel构成的矩阵为何叫协方差矩阵而不是相关系数矩阵？
  如何评价FAIR提出的MaskFeat：一种适用图像和视频分类的自监督学习方法？
  在优化问题里，强化学习相比启发式搜索算法有什么好处？
  如何评价深度学习之父Hinton发布的Capsule论文？
  有监督和无监督学习都各有哪些有名的算法和深度学习？
  精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么？
  凸分析和凸优化有什么推荐的教材吗？
  迁移学习入门，新手该如何下手？
  在统计学领域有哪些经典奠基性的论文？
  什么是蒙特卡罗 Dropout(Monte-Carlo Dropout)？
  如何评价Google提出的MLP-Mixer：只需要MLP就可以在ImageNet上达到SOTA？
  Python中 __init__的通俗解释是什么？
  如何用一句话证明自然语言处理很难？

© 2025-04-11 - tinynew.org. All Rights Reserved.
© 2025-04-11 - tinynew.org. 保留所有权利