word2vec 相比之前的 Word Embedding 方法好在什么地方？

话说回来，在俺们接触到 word2vec 这玩意儿之前，搞词向量那会儿，可真是有点费劲。当时流行的那些个方法，比如我们常说的 OneHot 编码，还有像 LSA (Latent Semantic Analysis) 这种，虽然也算是一种“表示”了，但总感觉隔靴搔痒，没法真正抓住词语之间那点微妙的关系。

OneHot 编码：想象一下，你把每个词都变成一个长长的向量，只有对应那个词的位置是 1，其他地方全是 0。这玩意儿有个巨大的问题：

维度灾难：语料库里有多少词，你的向量就有多长。词汇量一大，这向量就长得吓人，计算起来效率低下，而且信息量也相当分散。
缺乏语义关联：你永远无法从 OneHot 向量里看出“国王”和“女王”的关系，或者“苹果”和“香蕉”是水果。它们之间的关系，在向量空间里就是纯粹的“不相似”，因为它们的位置是完全独立的。这太死板了。

LSA (Latent Semantic Analysis)： LSA 算是往前迈了一步，它利用奇异值分解 (SVD) 来捕捉词语和文档之间的潜在关系，尝试把高维的词文档矩阵降到低维。

优点：它确实能够捕捉到一些主题上的关联，比如“电脑”和“软件”可能出现在同一篇文档里，LSA 就能把它们映射到相似的表示。
缺点：
计算量大： LSA 的核心是 SVD，这个算法在处理大规模语料时，计算成本相当高，而且一旦语料库更新，就需要重新计算，很不灵活。
不考虑词序： LSA 更侧重于词语在文档中出现的频率和共现情况，但它对词语的顺序并不敏感。我们知道，词语的顺序对句子的意思至关重要，比如“我吃苹果”和“苹果吃我”，意思完全是天壤之别，但如果只看词频，LSA 可能处理不好这种差异。
缺乏分布式表示的灵活性： LSA 的结果更像是“主题向量”，而不是我们现在所理解的“词向量”的模样。它没法很好地像 word2vec 那样，通过向量加减来体现语义关系，比如“国王男人 + 女人 ≈ 女王”。

那么，word2vec 到底牛在哪儿呢？

word2vec 的横空出世，就像是给词向量领域开了天眼。它最核心的贡献，是用一种高效、统计学的方式，直接从海量文本中学习出低维、稠密的词向量，并且这些向量能够神奇地捕捉到词语之间的语义和语法关系。

它主要通过两种模型实现，都是基于一个非常精妙的“上下文”思想：

1. Skipgram 模型：这个模型的目标是，给定一个中心词，预测它周围的上下文词。想象一下，你有一个词，Skipgram 就帮你把这个词的“邻居”都找出来，并且根据它跟邻居的“亲疏远近”来调整自己的向量。
好处：这种方式让模型去“猜”邻居，就好像我们在阅读时，通过上下文来理解一个不认识的词一样。它迫使模型去学习词语在实际语言中的用法和关联。

2. CBOW (Continuous BagofWords) 模型：这个模型就反过来了，它以周围的上下文词为输入，来预测中间的中心词。
好处： CBOW 就像是在问：“如果我看到‘猫’和‘老鼠’，那么中间最可能是什么词？” 它也同样迫使模型去理解词语之间的依赖关系。

word2vec 比之前的方法好的地方，可以总结为几点，而且每一条都很实在：

分布式表示的强大生命力：这是最关键的！word2vec 学习到的词向量是稠密（dense）的，也就是说，大多数维度都不是零。这跟 OneHot 的稀疏（sparse）向量完全是两个概念。稠密向量的维度更低（通常是几百维），计算量自然就少了，而且信息也更集中。
语义空间的魔力：更牛的是，这些低维向量不是随机分配的，而是在向量空间中形成了有意义的结构。就像前面提到的“国王男人 + 女人 ≈ 女王”的例子，这说明 word2vec 能够捕捉到类比关系。比如，向量可以表示“国家”和“首都”之间的关系，或者“时态”的变化。这种几何上的关系，是之前方法望尘莫及的。

高效的训练方式： word2vec 的训练并不是直接用 SVD 那样的大矩阵运算，而是用了负采样 (Negative Sampling) 或者分层 Softmax (Hierarchical Softmax) 等优化技巧。
负采样：简单来说，就是预测一个词的时候，我们不关心所有其他的词，只随机挑出几个“错误”的词（负样本）来一起训练。这样一来，每一次更新参数时，模型只需要关注一小部分词，大大加快了训练速度。
分层 Softmax：也是一种加速方法，把输出层构建成一个二叉树，每次的预测变成在树上做一系列判断，而不是直接计算所有词的概率。
结果：这些优化使得 word2vec 可以在非常大的语料库上进行训练，而且速度比 LSA 快很多。

捕捉词语的上下文信息： word2vec 的核心理念就是“一个词的意义在于它周围的词”。它通过学习预测上下文词或中心词，自然而然地就包含了词语在不同语境下的用法。
处理多义词：虽然 word2vec 的经典模型为每个词只生成一个向量，但它通过训练能够学到词语在最常见语境下的平均含义。对于一词多义的情况，它的向量可以看作是所有意义的“混合体”，在很多任务中表现仍然不错。后来的 Word Embedding 方法（如 ELMo, BERT）在此基础上进一步发展，能够根据具体上下文生成动态的词向量，但这已经是 word2vec 之后的进步了。

通用性强： word2vec 学习到的词向量可以直接应用到各种下游的自然语言处理任务中，比如文本分类、情感分析、机器翻译、问答系统等等。你可以用预训练好的 word2vec 向量作为这些任务的输入特征，往往能显著提升模型的性能。因为这些向量已经包含了词语的丰富语义信息，模型就不用从零开始学习这些基础的语言知识了。

总而言之，word2vec 的伟大之处在于，它用一种非常优雅、高效且实用的方式，实现了词语的分布式表示，并且让这些表示能够“理解”词语之间的语义和语法关系。它就像是给机器搭建了一座桥梁，让机器能够“看见”词语背后的含义，而不仅仅是把它当成一个独立的符号。这为后续的深度学习在 NLP 领域的腾飞奠定了坚实的基础。

网友意见

词嵌入模型效果好不好的关键之一，是用上下文词预测当前词的formulation，即采用的回归函数。

Hinton等07年和08年的log bilinear language model之前的工作都采用的是 softmax([上下文词向量,当前词向量]的线性变换) 的形式，softmax里边可以简化认为是一些向量的线性和。但几个向量的线性和不能很好的抓住这几个向量在隐空间一些维度上取值接近的特点，所以效果并不好。

07年的Three New Graphical Models for Statistical Language Modelling里，三个模型之一是log bilinear language model (LBL), 题目中08年的论文扩展了这个方法，得到Hierarchical Log Bilinear Language model. 为了叙述简单，下面把这两种方法统称为LBL。LBL使用了 softmax(上下文词向量的线性变换 * 当前词向量) 的形式，点乘在抓两个向量在一些维度上取值接近方面，比相加要好得多，这是词向量模型发展的一个重大突破。

word2vec使用的也是LBL。那么和之前的方法有什么区别呢？08年的Hierarchical LBL里，用的是这样的回归函数:

这里的Ci都是矩阵，不同位置对应不同的矩阵。

word2vec的CBOW用的是（skip-gram我觉得和CBOW基本是等价的，效果也类似，但CBOW的概率解释好些，所以拿它来比较）:

可见它移除了变换矩阵Ci和偏移量bw. 实际上我们事后诸葛来看，变换矩阵Ci也的确是多余的，因为 两个词经常一块出现<=>两个词在某方面有相似语义<=>两个向量在某些维度取值类似，那么直接点乘就可以了，用Ci变换一下，反而有可能把本来相似的维度变得不同，从而让学出来的向量不能很好满足“相似词在有些维度上取值相近”的训练效果。

显而易见，移除Ci会极大的提高运算速度，使word2vec在大语料上训练非常可行。两个LBL模型训练语料都是1000w单词左右，而word2vec即使用wikipedia这样>20亿词规模的语料也只需几小时，大语料下得出的词向量当然会抓住更多的语法语义规律，从而更准确。

所以我觉得，word2vec的成功，印证了一句话：Less is more.

类似的话题

word2vec 相比之前的 Word Embedding 方法好在什么地方？

话说回来，在俺们接触到 word2vec 这玩意儿之前，搞词向量那会儿，可真是有点费劲。当时流行的那些个方法，比如我们常说的 OneHot 编码，还有像 LSA (Latent Semantic Analysis) 这种，虽然也算是一种“表示”了，但总感觉隔靴搔痒，没法真正抓住词语之间那点微妙的关系.............
Word2vec 翻译到另一种语言，其向量空间之间的映射会不会是线性的？

Word2Vec 模型本身并没有提供一个内置的、可以直接用于翻译的机制，能够将一个语言的向量空间线性映射到另一个语言的向量空间。然而，存在一些基于 Word2Vec 的方法，可以尝试去学习这种映射关系，并且这些方法的核心思想确实是建立在线性映射的假设上的。让我详细地解释一下：1. Word2Vec .............
word2vec有什么应用？

word2vec 的应用非常广泛，几乎渗透到所有需要理解和处理自然语言的领域。它的核心价值在于能够将离散的词语转化为低维、稠密的向量表示，这些向量捕捉了词语之间的语义和句法关系。这意味着机器可以“理解”词语的含义和它们之间的联系，从而进行更高级的任务。下面我将从几个主要的应用方向，详细地阐述 wor.............

word2vec 相比之前的 Word Embedding 方法好在什么地方？

网友意见

类似的话题

word2vec 相比之前的 Word Embedding 方法好在什么地方？

Word2vec 翻译到另一种语言，其向量空间之间的映射会不会是线性的？

word2vec有什么应用？