正负样本极不平衡的问题？

在机器学习的领域，我们常常面临一个棘手的挑战：数据不平衡，尤其是当你的正负样本比例严重失衡时。这就像是让一个班级里只有三个学生参加了一场有奖知识竞赛，而剩下的九十多个人只是围观一样。少数派的声音很容易被淹没，而模型也很容易偏向多数派。

举个例子，我们来想象一下训练一个识别罕见疾病的模型。假设我们收集了1000个病人的数据，其中990个是健康的（负样本），只有10个是患有这种罕见疾病的（正样本）。这时候，你的数据集就是极度不平衡的。

为什么数据不平衡是个大问题？

很多机器学习模型，尤其是那些以“准确率”（Accuracy）作为评价指标的模型，在面对这种不平衡数据时，会“偷懒”地去预测大多数的类别。它们会发现，如果模型总是预测“健康”，那么准确率也能达到99%。这看起来很高，但实际上，模型完全没有学到如何识别那个患有罕见疾病的少数群体，也就是我们真正关心的目标。

这就像那个知识竞赛，如果比赛的唯一评分标准是“答对题的数量”，而只有三个学生真的去答题，剩下的人都不答，那么即使这三个学生答错了很多题，但只要他们的答题数比“零”多，他们就比那些什么都没做的学生“表现好”。但这个评分标准显然无法衡量他们对知识的真正掌握程度。

具体来说，数据不平衡会影响模型的几个方面：

训练偏差（Training Bias）：模型在训练过程中会倾向于学习到多数类别的特征，而忽略或学不到少数类别的特征。它会花费大部分精力去理解“健康”是什么样的，而对于“患病”的细微信号可能根本没捕捉到。
误导性的评估指标（Misleading Evaluation Metrics）：如前所述，准确率在不平衡数据上会产生误导。即使模型在大多数情况下都猜对了，但对于我们真正关注的少数正样本的识别能力可能为零。
泛化能力差（Poor Generalization）：模型虽然在训练集上可能看起来准确率很高，但在面对新的、同样不平衡的数据时，它可能无法正确识别出少数样本，导致在实际应用中效果不佳。

我们该如何应对这个问题？

别担心，面对数据不平衡，我们有一系列“兵器”可以使用。这些方法可以大致分为两大类：数据层面的方法和算法层面的方法。

一、数据层面的方法（Datalevel Approaches）

这就像我们去“调整”一下数据本身，让它看起来不那么“一边倒”。

1. 重采样（Resampling）：这是最直接的方法。

过采样（Oversampling）：简单来说，就是复制少数类别的样本，或者生成新的少数类别样本，直到与多数类别样本数量相当为止。
随机过采样（Random Oversampling）：就是简单地复制少数类别的样本。缺点是可能导致过拟合，因为模型会反复看到相同的样本。
SMOTE (Synthetic Minority Oversampling Technique)：这是更智能的一种过采样方法。它不是简单地复制，而是为少数类别样本生成“合成”的新样本。SMOTE会找到少数样本的K个最近邻，然后在它们之间的连线上随机选择一点作为新的合成样本。这样可以增加数据的多样性，减少过拟合的风险。
ADASYN (Adaptive Synthetic Sampling): ADASYN是SMOTE的进一步改进。它会根据样本的“难易程度”来生成合成样本。对于那些更难被分类的少数样本（周围多数样本比较多），ADASYN会生成更多的合成样本，以帮助模型更好地学习它们。

欠采样（Undersampling）：与过采样相反，我们是随机删除多数类别的样本，直到与少数类别样本数量相当为止。
随机欠采样（Random Undersampling）：直接随机删除多数类的样本。优点是训练速度会快很多，因为数据量减少了。但缺点是可能会丢弃一些有用的信息，因为我们直接“扔掉”了很多多数类的样本。
Tomek Links：这是一种基于近邻的欠采样方法。它会找出那些 서로 다른 클래스에 속하면서 거리가 매우 가까운 샘플 쌍 (Tomek Links)을 제거한다. 이렇게 함으로써 클래스 경계를 더 명확하게 만들고, 다수 클래스의 유용한 샘플을 보존하는 데 도움이 된다.
NearMiss: 这个方法会选择与少数类样本距离较近的多数类样本，来保留更多的多数类信息。它有不同的版本，比如选择距离最近的K个多数样本，或者选择平均距离最近的多数样本等。

组合采样（Combination Sampling）：结合过采样和欠采样，例如先用SMOTE过采样少数类，再用Tomek Links欠采样多数类，以达到更好的平衡效果。

二、算法层面的方法（Algorithmlevel Approaches）

这种方法不直接修改数据，而是“告诉”模型如何更关注少数样本，或者调整模型的内部机制。

1. 调整评估指标（Adjusting Evaluation Metrics）：既然准确率不行，我们就换个更合适的。
精确率（Precision）和召回率（Recall）：精确率衡量的是模型预测为正的样本中有多少是真的正样本，召回率则衡量的是所有真实正样本中有多少被模型成功预测出来了。对于不平衡数据，我们通常更关注召回率（我们不想漏掉任何一个患病的人）和F1Score（精确率和召回率的调和平均值）。
ROC曲线和AUC值（Receiver Operating Characteristic Curve and Area Under the Curve）： ROC曲线显示了在不同阈值下，真阳性率（Recall）和假阳性率（False Positive Rate）之间的权衡。AUC值是ROC曲线下的面积，越接近1表示模型区分正负样本的能力越强。
混淆矩阵（Confusion Matrix）：直接查看模型在每个类别上的预测情况，包括真正例（TP）、假正例（FP）、真负例（TN）、假负例（FN）。

2. 代价敏感学习（CostSensitive Learning）：我们可以给不同类型的错误分配不同的“代价”。对于不平衡数据，通常我们会给误将少数类预测为多数类（假负例，FN）的情况更高的代价，让模型更加努力地去避免这种情况。
一些算法（如支持向量机、逻辑回归）本身就支持设置类别权重，可以直接将少数类的权重调高。
如果算法不支持直接设置权重，我们也可以通过修改损失函数来实现。

3. 集成学习（Ensemble Learning）：结合多个模型来提高整体性能。
Bagging（如Random Forest）：在随机选择数据子集和特征子集的情况下构建多个模型，然后将它们的结果结合起来。这可以一定程度上缓解不平衡问题。
Boosting（如AdaBoost, Gradient Boosting）： AdaBoost会关注那些被错误分类的样本，每次迭代都会给它们更高的权重。这样，后来的模型就会更专注于学习那些难分的样本（通常是少数类）。
专门为不平衡数据设计的集成方法：例如EasyEnsemble和BalanceCascade，它们会结合欠采样和Boosting思想，多次进行欠采样然后训练多个模型，最后将它们集成起来。

4. 改变模型本身（Modifying the Model）：
一些模型结构本身更适合处理不平衡数据，或者可以进行调整。例如，在决策树中，可以修改分裂准则，使其更倾向于关注少数类。

选择哪种方法？

没有万能的解决方案。最佳方法取决于你的具体数据集、问题的性质以及你对模型性能的要求。通常需要进行实验和比较：

从小数据集开始：如果数据量巨大，先尝试在数据子集上验证不同的方法。
尝试多种方法：不要局限于一种方法，可以组合使用数据层面的和算法层面的方法。
仔细评估：始终使用合适的评估指标（如召回率、F1Score、AUC）来衡量模型性能，而不仅仅是准确率。
理解业务场景：有时候，业务上的考量会指导你选择哪种错误更“可接受”。例如，在医疗诊断中，漏诊（假负例）的代价远高于误诊（假正例）。

处理正负样本极不平衡的问题，是一个需要耐心和细致的过程。它要求我们不仅要关注模型的“数量”上的准确率，更要关注模型在“质量”上对少数重要样本的识别能力。通过理解问题的根源和掌握各种应对策略，我们就能构建出更加鲁棒和有效的机器学习模型。

网友意见

1 通过过抽样和欠抽样解决样本不均衡

抽样是解决样本分布不均衡相对简单且常用的方法，包括过抽样和欠抽样两种。

过抽样

过抽样（也叫上采样、over-sampling）方法通过增加分类中少数类样本的数量来实现样本均衡，最直接的方法是简单复制少数类样本形成多条记录，这种方法的缺点是如果样本特征少而可能导致过拟合的问题；经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本，例如SMOTE算法。

欠抽样

欠抽样（也叫下采样、under-sampling）方法通过减少分类中多数类样本的样本数量来实现样本均衡，最直接的方法是随机地去掉一些多数类样本来减小多数类的规模，缺点是会丢失多数类样本中的一些重要信息。

总体上，过抽样和欠抽样更适合大数据分布不均衡的情况，尤其是第一种（过抽样）方法应用更加广泛。

2 通过正负样本的惩罚权重解决样本不均衡

通过正负样本的惩罚权重解决样本不均衡的问题的思想是在算法实现过程中，对于分类中不同样本数量的类别分别赋予不同的权重（一般思路分类中的小样本量类别权重高，大样本量类别权重低），然后进行计算和建模。

使用这种方法时需要对样本本身做额外处理，只需在算法模型的参数中进行相应设置即可。很多模型和算法中都有基于类别参数的调整设置，以scikit-learn中的SVM为例，通过在class_weight : {dict, 'balanced'}中针对不同类别针对不同的权重，来手动指定不同类别的权重。如果使用其默认的方法balanced，那么SVM会将权重设置为与不同类别样本数量呈反比的权重来做自动均衡处理，计算公式为：n_samples / (n_classes * np.bincount(y))。

如果算法本身支持，这种思路是更加简单且高效的方法。

3 通过组合/集成方法解决样本不均衡

组合/集成方法指的是在每次生成训练集时使用所有分类中的小样本量，同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集，这样反复多次会得到很多训练集和训练模型。最后在应用时，使用组合方法（例如投票、加权投票等）产生分类预测结果。

例如，在数据集中的正、负例的样本分别为100和10000条，比例为1:100。此时可以将负例样本（类别中的大量样本集）随机分为100份（当然也可以分更多），每份100条数据；然后每次形成训练集时使用所有的正样本（100条）和随机抽取的负样本（100条）形成新的数据集。如此反复可以得到100个训练集和对应的训练模型。

这种解决问题的思路类似于随机森林。在随机森林中，虽然每个小决策树的分类能力很弱，但是通过大量的“小树”组合形成的“森林”具有良好的模型预测能力。

如果计算资源充足，并且对于模型的时效性要求不高的话，这种方法比较合适。

4 通过特征选择解决样本不均衡

上述几种方法都是基于数据行的操作，通过多种途径来使得不同类别的样本数据行记录均衡。除此以外，还可以考虑使用或辅助于基于列的特征选择方法。

一般情况下，样本不均衡也会导致特征分布不均衡，但如果小类别样本量具有一定的规模，那么意味着其特征值的分布较为均匀，可通过选择具有显著型的特征配合参与解决样本不均衡问题，也能在一定程度上提高模型效果。

提示上述几种方法的思路都是基于分类问题解决的。实际上，这种从大规模数据中寻找罕见数据的情况，也可以使用非监督式的学习方法，例如使用One-class SVM进行异常检测。分类是监督式方法，前期是基于带有标签（Label）的数据进行分类预测；而采用非监督式方法，则是使用除了标签以外的其他特征进行模型拟合，这样也能得到异常数据记录。所以，要解决异常检测类的问题，先是考虑整体思路，然后再考虑方法模型。

类似的话题

正负样本极不平衡的问题？

在机器学习的领域，我们常常面临一个棘手的挑战：数据不平衡，尤其是当你的正负样本比例严重失衡时。这就像是让一个班级里只有三个学生参加了一场有奖知识竞赛，而剩下的九十多个人只是围观一样。少数派的声音很容易被淹没，而模型也很容易偏向多数派。举个例子，我们来想象一下训练一个识别罕见疾病的模型。假设我们收集了.............
只有正样本和未标签数据的机器学习怎么做？

只有正样本和未标记数据的机器学习：一种挑战，但并非不可能在传统的监督学习中，我们拥有清晰的“正样本”（我们想要识别的实例）和“负样本”（我们不想要识别的实例），并使用这些标记数据来训练模型。然而，在现实世界的许多场景中，我们可能只有正样本，而负样本要么难以获取，要么数量极其稀少。这时，我们面临着一个.............
微博上盛传一些化妆品电商都是拿到正品样货以后按 1:5 之类的比例进行稀释，然后再进行销售，这已是一种「行业潜规则」。真的是这样吗？

微博上关于化妆品电商拿到“正品样货”按比例稀释销售的传闻，确实搅动了不少消费者的神经。这事儿听起来挺吓人，什么“行业潜规则”，听着就让人脊背发凉。那这到底是真的，还是又一次捕风捉影的谣言呢？咱们掰开揉碎了聊聊。首先，咱们得承认，这种说法并非空穴来风，在一些不正规的渠道，可能确实存在类似的行为。为什.............
嫦娥五号任务月球样品正式交接，月壤重 1731 克，为什么少了 200 多克？

关于嫦娥五号任务月球样品重量的疑问，即为何最终交接的月壤重量（1731克）与最初报道的从月球采集总量（约2000克）之间存在约200多克的差异，这是一个非常好的问题，背后涉及到许多科学探索和工程操作的细节。这并非简单的“丢失”，而是有充分的科学和技术原因。下面我将尽可能详细地解释：1. 采集总量与实.............
“该不该说善意的谎言”辩论赛如果正方这样子问应该怎么反驳？

辩论赛上，对方抛出“善意的谎言该不该说”，假设正方是“该说”，那么他们可能会抛出这样一记重锤：“请问，如果我们的父母为了不让我们过度担忧，对我们隐瞒了一些事实真相，例如我们生病时他们会说‘没什么大事，很快就好了’，这难道不是一种善意的谎言吗？如果这种谎言就该被否定，那我们岂不是要拆穿父母的关爱，甚至.............
《扫黑风暴》送审样片和正片在剧情上有什么区别吗?

《扫黑风暴》送审样片和正片在剧情上，主要存在以下几个方面的区别，且这些区别确实能够对观众的观感和对剧情的理解产生一定影响：1. 时间线和叙事节奏的调整：送审样片可能更注重细节铺垫和人物动机的展示：在一些送审版本中，为了更好地让审查机构理解剧情的合理性和正义性，可能会有更多的铺垫，例如对某些案.............
正品now猫粮颗粒是什么样子的豆瓣

.......
这样子的身材卧推才10磅各一边正常吗 --已更新？

你提到的“这样子的身材”具体是什么样的身材呢？这部分信息很重要，因为它直接影响到对卧推重量的判断。不过，我可以先从普遍情况来分析，然后你可以根据自己的具体情况来对照。先说结论：如果“这样子的身材”指的是一个初学者、没有经过系统力量训练，或者女性朋友，那么卧推一边10磅（共20磅的哑铃），这个重量是.............
正品苏泊尔5L球釜陶晶电饭锅外包装纸箱是什么样子，什么颜色

.......
现在世界上正在经历战争的国家，在战争爆发之前是什么样子的？

当战火燃起，我们常常会回望那些宁静的时光，试图理解那个曾经熟悉的世界为何会走向毁灭。那些如今被硝烟笼罩的土地，在战争到来之前，其实与我们大多数人的生活并没有太大差别，充满了日常的烟火气与寻常的希望。让我们试着勾勒出几个普遍的画面：日常生活的肌理：街市的喧嚣与宁静：市场里熙熙攘攘，小贩们扯着嗓.............
美的C21-RT2125电磁炉不加热，不检锅，其他正常，拆开看到这个样子，应该更换那个？

.......
新买一个美的烤箱但是四根加热管是生锈的样子问客服说是保护膜这是正常的吗。。。。求紧急回答

.......
读楞严咒每天读两到四遍的样子，每次都会头疼，倒是不困…为什么会这样？这是正常感应还是？

这个问题我听过一些师兄师姐们也提过，读经持咒时出现身体不适，比如头疼，确实会让人有些疑虑。你说每次读楞严咒两到四遍，头疼但不困，这确实是个挺特别的状况。咱们一起来分析分析，看是啥原因，以及算不算“正常感应”。首先，咱们得明白，佛家讲的“感应”是很广泛的。有的是修行上的精进，身心产生变化，有的是外界的.............
新买的格兰仕微波炉，加热完毕后一直有声音，就是像还在加热的样子，要几分钟后才停止，这样正常吗？到底

.......
为什么美国大片中女性形象都是勇敢、能打架，几乎看不到柔弱、楚楚可怜、撒娇的样子？是女权主义政治正确吗？

美国大片里女性角色“又猛又飒”，几乎看不到“柔弱娇嗲”，这事儿确实挺普遍的，很多人也因此觉得是“女权主义政治正确”在作祟。咱们今天就来好好掰扯掰扯，这背后到底是怎么回事，是不是就这么简单。首先，得承认一点，好莱坞电影，特别是商业大片，它本质上是一种商品，是为了赚钱而存在的。而什么能赚钱，很大程度上.............
电磁炉线圈分正负吗

.......
石英表每月正负20秒什么意思

.......
石英表时间误差正负20是指多少

.......
微波炉转换电机分正负级吗有图吗

.......
电磁炉风扇分没分正负

.......