首页

机器学习中非均衡数据集的处理方法？第1页

1

huang-xiao-ye-8 网友的相关建议:

做毕设碰到过类似的问题，也算小小研究过，就来不耻回答一下。。

推荐看一下Haibo He, Edwardo A. Garcia的Learning from Imbalanced Data这篇paper，写的很系统也很清晰。

主要包括四大类方法，1Sampling 2Cost Sensitive Methods 3Kernal-Based Methods and Active Learning Methods 4One-Class Learning or Novelty Detection Methods。

Sampling大类说到底就是两种可能。第一种是把多的那个组变少，第二种是把少的那个组变多，以达到平衡的结果。一般比较少用第一种，因为那样容易丢失重要信息。对于第二种，又有很多方法，最简单的是oversampling，由于其局限性，又有很多根据已有的数据生成新数据的方法，比如各种变体的synthetic sampling。

第二种思路是基于把多数组猜成少数组和把少数组猜成多数组的cost是不同的这个事实，来修正数据分布(个人理解可以当成采到样的概率)的方法。

另外，kernal类的模型，还可以通过修改核函数来偏移hyperplane，来抵消不平衡数据造成的hyperplane的偏移。

最后一大类没有看过相关paper，不了解。。

机器学习中非均衡数据集的处理方法？的其他答案点击这里

1

相关话题

  计算机技术的进步与模拟运算，在未来真的可以解决磁约束核聚变技术中所有关键问题吗？
  大数据给我们的生活带来了哪些改变？
  苏联计划经济体制能否在大数据与智能决策时代展现出某些优势？
  如何评价Yann LeCun 说的「要研究机器学习，本科应尽量多学物理和数学课」？
  如何理解马氏距离，多维Mahalanobis距离是否要用到“互相关张量”来进行描述？
  当隐私泄露成常态，如何在大数据时代更好地保障信息安全？
  因果推断会是下一个AI热潮吗？
  nlp有哪些值得完整实现一遍的算法?
  语义网所谓的“本体”的具体例子是什么？
  为什么deep lab v3起，输出不再接 DenseCRF了？

前一个讨论

为什么金庸、梁羽生、古龙之后再无武侠小说作家了呢？

下一个讨论

既然蛋蛋（睾丸）对动物的繁殖至关重要，为了降温直接吊在体外可以理解，但为什么不进化出有保护作用的蛋壳？

相关的话题

  如何评价微软新出的自拍软件 Microsoft Selfie？
  吴恩达表示「AI 的下一个发展方向，从大数据转向小数据」，你同意他的观点吗？
  机器学习专家与统计学家观点上有哪些不同？
  深度学习中Attention与全连接层的区别何在？
  有没有必要把机器学习算法自己实现一遍？
  GBDT算法的细节问题？
  Evidential deep learning里一般怎么估计多标签分类的Uncertainty？
  2020年，多标签学习（multi-label）有了哪些新的进展？
  PRML为何是机器学习的经典书籍中的经典？
  ICML2020有哪些值得关注的工作?
  天眼查是怎么获得企业工商信息的？
  如何看待 Uber 发生全球首例自动驾驶致死事件？
  机器学习中常常提到的正则化到底是什么意思？
  如何评价通信工程很多导师都研究机器学习人工智能而不是传统的天线电磁场等方向?
  对神经网络某一层做了小改进，效果却提升显著，可以发论文吗？
  搞机器学习的生环化材是天坑吗？
  GBDT算法的细节问题？
  wasserstein 距离的问题?
  未来20年，新技术将从哪些方面改变人的消费方式？
  为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？
  物理专业的学生如何看待机器学习和大数据这些方向呢？
  为什么很多公司都开始去 Oracle 而使用 MySQL？
  机器学习专家与统计学家观点上有哪些不同？
  深度学习中，模型大了好还是小了好呢？
  分类机器学习中，某一标签占比太大（标签稀疏），如何学习？
  R 中的哪些命令或者包让你相见恨晚？
  2021 年，深度学习方面取得了哪些关键性进展？
  领域自适应需要用到测试集数据，这样的方法有啥意义呢？
  应用数学专业能否从事数据分析师？需要哪些知识储备？
  如何利用 Twitter 开放者平台爬取 Twitter 数据？

© 2025-05-21 - tinynew.org. All Rights Reserved.
© 2025-05-21 - tinynew.org. 保留所有权利