首页

Word2vec 翻译到另一种语言，其向量空间之间的映射会不会是线性的？第1页

1

atom-native 网友的相关建议:

没有完全理解题主想要问什么，如果使用同样的mapping（脱离上下文），那源端语言的一个单词怎样得到目标端语言的不同单词。

你所说的语言之间的映射，取决于语言之间的相似程度，大部分时候都不是线性的。直观上来说，很多中文/英文词都没有对应的翻译，说明他们在各自的语义空间里的分布是不完全相似的（比如，presentation就很难找一个贴切的中文翻译）。但是用线性关系去近似不同语言之间的embedding是比较方便的，同时，虽然整个embedding space可能没有线性映射关系，但是不妨碍局部存在线性映射（e.g. anchor words）。

比如Adversarial Training for Unsupervised Bilingual Lexicon Induction 里的猫马猪（英西）

Unsupervised Alignment of Embeddings with Wasserstein Procrustes里面的水空气土地（英法）

Learning bilingual word embeddings with (almost) no bilingual data 里面的数字

数字好处在于语义明确，通用性强，缺点是样本少。用字典的好处在于样本多，缺点是可能会在通用性上有一定的妥协，同时对于很多语言可能没有办法构造足够多的平行语料对，Word Translation without Parallel Data里面的CSLS一定程度上缓解了对于语言相似性和平行语料的依赖。

当然了，语言自身也是会不断演化的，选用词向量的时候，也要考虑历史的进程（雾

如果你要用的是基于上下文的表示/内容的表示的话，某种程度上已经超出了word embedding的范畴了，不妨考虑一下BERT。

仅为抛砖引玉

Word2vec 翻译到另一种语言，其向量空间之间的映射会不会是线性的？的其他答案点击这里

1

相关话题

  深度学习领域有哪些瓶颈？
  如何评价 NVIDIA 发布的 DGX-1？
  是不是机器学习的框架都偏向 Python ？如果是，为什么？
  求通俗解释下bandit老虎机到底是个什么东西？
  LSTM如何来避免梯度弥散和梯度爆炸？
  深度学习中，模型大了好还是小了好呢？
  老师给了一个神经网络的程序，他之前是跑通了的，但是我迭代几十次或者一百多次就报错。这个怎么解决?
  如何证明对任意给定的正数e，存在M上的矩阵范数||A||，满足不等式||A||<=谱半径+e?
  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕？
  这道线代题该怎么做？

前一个讨论

如果李云龙成为五代火影，会怎样？

下一个讨论

如何理解分形的维度？

相关的话题

  如何评价最近火热的对比学习，会引领预训练模型新的范式嘛?
  Yann LeCun、Geoffrey Hinton或Yoshua Bengio能得图灵奖吗？
  如何理解深度学习中的deconvolution networks？
  在NLP当中，不同的评价指标，BLEU, METEOR, ROUGE和CIDEr的逻辑意义？
  硕士方向，选择迁移学习还是自然语言处理？
  为什么交叉熵（cross-entropy）可以用于计算代价？
  LSTM如何来避免梯度弥散和梯度爆炸？
  国内哪些公司在用caffe、torch、TensorFlow、paddle等框架，哪些在用自研框架？
  深度学习attention机制中的Q,K,V分别是从哪来的？
  中科院某所研一新生，小样本学习、数据融合、强化学习、图神经网络、资源受限的计算这几个方向选哪个更好？
  实验室一块GPU都没有怎么做深度学习？
  国内 top2 高校研一在读，为什么感觉深度学习越学越懵?
  中科院某所研一新生，小样本学习、数据融合、强化学习、图神经网络、资源受限的计算这几个方向选哪个更好？
  你实践中学到的最重要的机器学习经验是什么？
  类似AlphaGo一样的人工智能什么时候才可以击败RTS（如星际）顶级选手？
  Yann LeCun、Geoffrey Hinton或Yoshua Bengio能得图灵奖吗？
  这道行列式如何求解？
  如何理解Inductive bias？
  从算法的角度来看，Elsagate 事件暴露出了「自动推荐」的哪些问题，该如何规避？
  自然语言处理方向研究生好找工作吗？
  数据挖掘、机器学习、自然语言处理这三者是什么关系？这几个怎么入门啊？
  一个一般的二次型等于0，这个方程应该如何求通解？
  Jacobian矩阵和Hessian矩阵的作用是什么？
  FPGA做深度学习能走多远？
  如何评价FAIR提出的ConvNeXt：CNN匹敌Swin Transformer?
  一个三阶行列式，所有的元素要么是 1，要么是 -1，则它的值可能是多少？
  为什么矩阵行秩等于列秩？
  强化学习和自适应控制的关系是什么？
  对于多指标评价，BP神经网络评价和TOPSIS有什么区别呢？
  为什么熵值最大的分布状态是正态分布而不是均匀分布？

© 2025-02-12 - tinynew.org. All Rights Reserved.
© 2025-02-12 - tinynew.org. 保留所有权利