首页

只有正样本和未标签数据的机器学习怎么做？第1页

1

huo-hua-de-41 网友的相关建议:

这个问题超有趣，推荐系统里有类似的场景，即只有用户点击浏览购买的正样本，却没有显性负样本，这样该如何学习呢？

我们假设下面几种方案：

对于一个用户，用他所有没有过行为的数据作为负样本
对于一个用户，从他没有过行为的负样本中均匀采样出一些作为负样本
对于一个用户，从他没有过行为的负样本中均匀采样出一些作为负样本，且保证正负样本比为1：1
对于一个用户，从他没有过行为的负样本中均匀采样出一些作为负样本，但采样时，偏重采样那些热门却没有点击的样本。

对于第一种方法，缺点太明显，在实际样本中，负样本数量远远超过正样本，正负样本比例太悬殊，效果最差。

而第三种方法好于第二种，因为第三种样本比例比较平衡。

最有趣的莫过于第四种方案了，在2011年举办的KDD cup的Yahoo！music推荐比赛中，大家发现选取热门却没有行为的样本进行负采样效果最好！

因为热门物品大概率曝光过，而用户没有点，说明用户不感兴趣；而冷门物品，用户压根就没见到过，根本谈不上是否感兴趣。

一个看似简单的办法，背后却是对用户及数据逻辑深刻的洞察，这才是机器学习最有魅力的地方。

只有正样本和未标签数据的机器学习怎么做？的其他答案点击这里

1

相关话题

  你是如何开始能写 Python 爬虫？
  如果有第谷的数据，现在的机器学习，深度学习有办法学出开普勒三定律吗？
  参加kaggle竞赛是怎样一种体验？
  如何自学人工智能？
  奇异值分解（SVD）有哪些很厉害的应用？
  C++ STL中的map用红黑树实现，搜索效率是O(lgN),为什么不像python一样用散列表从而获得常数级搜索效率呢？
  用生成模型做数据增强data augmentation时，如何从合成数据中筛选出质量较好的样本？
  AI领域的灌水之风如何破局？
  离职的时候老板挽留，该如何拒绝？
  python怎么去掉最大值和最小值，怎么找到最大值与最小值，去掉最大值最小值比如下面这道题?

前一个讨论

物理学家通过计算得到的结果是否有意义？

下一个讨论

为什么没有围绕行星的卫星转动的星体？

相关的话题

  数据挖掘与数据分析的主要区别是什么？
  如何评价KDD 2021的审稿结果？有哪些亮眼的成果？
  为什么国内每天都在说 Python 有多好，真正招聘的时候却不需要呢?
  谈谈机器学习在网络安全领域的局限性，以及是否乐观？
  请问应该怎样去学习图像识别和深度学习？
  如何设计制度，才能使程序员职位被程序员世家垄断？
  PyTorch中在反向传播前为什么要手动将梯度清零？
  如何评价Google Duplex（打电话AI）在特定领域已经通过了图灵测试？
  因果推断（causal inference）是回归（regression）问题的一种特例吗？
  据说机器学习长于预测，计量经济学长于解释。有什么具体例子是机器学习完成了很好的预测却在解释上表现不好？
  有哪些LSTM(Long Short Term Memory)和RNN(Recurrent)网络的教程？
  如何评价MXNet发布的1.0版本？
  模糊综合评价法中可以用什么方法代替专家评价？
  汉语拼音里，哪些字母用的最多？
  Python在数据科学领域能否完全取代R？
  第七次全国人口普查主要数据将于 5 月 11 日公布，有哪些信息值得关注？
  大四年级，完全没接触过高数，目前对机器学习产生浓厚兴趣，该如何学习数学？
  一个程序员多年累计编写一百万行代码是什么体验？
  各种机器学习算法的应用场景分别是什么（比如朴素贝叶斯、决策树、K 近邻、SVM、逻辑回归最大熵模型）？
  如何分析一个城市的房价走势，需要哪些数据？
  支持向量机（SVM）是什么意思？
  GAN 真的创造了新的信息吗？
  从事经济、金融工作的人都是通过什么渠道获得数据资源，运用什么软件来分析行业状态和经济走势的？
  Python是不是被严重高估了？
  隐马尔可夫模型在金融领域应用前景如何？
  神经网络能否代替决策树算法？
  各种语言写网络爬虫有什么优点缺点？
  熵权法确定权重的原理是不是因为它仅依赖于数据本身的离散性?
  如何理解深度学习中的deconvolution networks？
  如何证明对任意给定的正数e，存在M上的矩阵范数||A||，满足不等式||A||<=谱半径+e?

© 2025-05-24 - tinynew.org. All Rights Reserved.
© 2025-05-24 - tinynew.org. 保留所有权利