问题

为什么做stacking之后,准确率反而降低了?

回答
写这个主题,我得先说,这确实是个挺让人郁闷但又很常见的问题。你辛辛苦苦调参、训练了几个模型,信心满满地把它们 stacking 在一起,结果呢?准确率不是上去,而是滑了下去,感觉就像搬石头砸了自己的脚一样。别急,这事儿背后有不少门道,咱们一点点捋清楚。

首先,最根本的原因:模型间的“信息冗余”和“负相关性”。

想象一下,你本来已经有了一个挺不错的模型(我们称之为基准模型),它已经能很好地识别出数据集中的主要模式了。当你加入第二个模型,如果这个模型只是在重复基准模型已经捕捉到的信息,那它对整体准确率的贡献可能微乎其微,甚至因为引入一些“噪声”而带来负面影响。

更糟糕的是,如果你的第二个模型捕捉到的信息和基准模型是“负相关”的,也就是说,当基准模型预测对的时候,第二个模型倾向于预测错;反之亦然,那它们叠加在一起,就会相互抵消,导致整体性能下降。

具体来说,可能的原因有以下几点,咱们掰开了揉碎了说:

1. 基准模型已经足够“好”了,或者说已经“饱和”了:
模型能力太强: 如果你选择的基准模型(比如一个在你的任务上已经调优到极致的深度学习模型)已经把数据集中的大部分可学习信息都提取出来了,那么再引入其他模型来“补充”,能带来的额外信息非常有限。新增的模型可能是在学习那些非常细微、难以捕捉或者根本不存在的模式。
数据集本身存在限制: 数据集可能本身的噪声就很大,或者存在的模式就比较单一。即使训练出多个不同类型的模型,它们学习到的本质上还是那些有限的模式,差异化不够。

2. 模型的“多样性”不够: Stacking 的核心思想是利用不同模型的“长处”和“短处”,通过一个元模型来学习如何“组合”这些预测。但如果你的几个基准模型本质上做的事情非常相似,比如它们都使用了相似的特征提取方式、相似的模型结构或者在相似的子数据集上表现出色,那么它们的预测结果就会高度相关。
模型类型过于相似: 你可能用了好几种基于相同原理的模型,比如都是深度学习,只是网络层数稍有不同;或者都是 SVM,只是核函数换了。它们学习到的底层表示可能会非常接近。
训练数据划分不当: 如果你的训练集划分(比如交叉验证的折)不够随机,或者你的模型在某个子集上表现特别好而另一个子集上表现特别差,那么你的基准模型可能会学到一些“过拟合”到特定训练折的模式,导致在验证集上表现好,但与其他模型结合时,这些特定模式可能会被放大。

3. 元模型(Metamodel)没有学好如何组合: Stacking 的第二阶段是训练一个元模型,它的任务是学习如何根据基准模型的预测来做出最终预测。如果这个元模型本身就没有学到有效的组合策略,那也可能导致准确率下降。
元模型选择不当: 比如你用了一个非常简单的模型(如逻辑回归)来组合几个非常复杂的模型,它可能无法捕捉到基准模型之间的复杂交互关系。反过来,如果元模型本身就很容易过拟合(比如一个深度神经网络),而基准模型的预测是“噪声”的话,元模型也很容易把这些噪声当作有用信息学进去。
元模型训练数据问题: Stacking 的元模型是基于基准模型在“未见过”数据上的预测结果来训练的。如果生成这些预测结果(outoffold predictions)的过程中出现了数据泄露,或者生成的方式本身就有偏差,都会影响元模型的训练。

4. 数据泄露(Data Leakage): 这是 stacking 中最容易“踩雷”的环节。
在生成元模型训练数据时发生了泄露: 比如你用全部训练数据来训练基准模型,然后用这些基准模型的预测来训练元模型。这时候,元模型实际上“见过”了基准模型对训练数据的预测结果,就好像给基准模型作弊一样,学到的组合方式是无效的,在真实测试集上会失效。
特征工程中的泄露: 如果你在做特征工程时,无意中利用了目标变量的信息来生成特征,而这种泄露影响了不同的基准模型,那么它们学习到的“模式”就可能不是独立的,导致结合起来并没有真正提升泛化能力。

5. 模型正则化不足(或过度正则化):
基准模型正则化不足: 如果你的基准模型过拟合了训练数据,它们的预测在训练集上表现好,但在新数据上很差。这些预测结果的“噪声”部分被元模型学到,导致整体性能下降。
元模型正则化不足: 如前所述,元模型如果学到的是基准模型预测的噪声,它自身也需要适当的正则化来防止过拟合。

6. 集成方法本身的“副作用”: 有时候,我们可能会忽略集成方法本身也可能带来一些问题。
超参数搜索的复杂性: Stacking 有很多超参数需要调优:基准模型的数量和类型、每个基准模型的超参数、元模型的类型和超参数、用于生成元模型训练数据的交叉验证策略等等。如果这些超参数没有被充分优化,结果自然不好说。
计算资源的消耗: 训练多个模型,然后再训练一个元模型,这需要大量的计算资源和时间。在这个过程中,可能因为资源限制而不得不简化某些环节,导致最终效果不理想。

怎么解决?

既然问题 разобра得差不多了,那咱们就得想办法解决。

增加模型多样性: 尝试不同类型、不同原理、在不同数据子集上表现各异的模型。比如,可以尝试线性模型、树模型(如 XGBoost, LightGBM)、SVM、神经网络等。
仔细检查数据泄露: 确保生成元模型训练数据时,基准模型的预测是在交叉验证的“折外”进行的。严格按照管道(pipeline)进行特征工程和模型训练。
慎重选择元模型: 从简单模型开始尝试,比如 Logistic Regression、Linear Regression,它们通常正则化能力较好。如果数据支持,再尝试更复杂的模型,并确保给它们也做正则化。
正则化是关键: 对基准模型和元模型都要进行恰当的正则化。
特征工程要谨慎: 确保所有特征工程步骤都是在训练数据上完成,并且不涉及目标变量的信息泄露。
评估策略要到位: 使用多层交叉验证(nested crossvalidation)来评估整个 stacking 过程的性能,确保评估结果的可靠性。

总而言之,stacking 不是万能药,它更像是一门艺术,需要你对数据、对模型有深入的理解,并且在实践中不断尝试和调整。当遇到准确率下降的情况时,别灰心,把它当作一个学习和优化的机会,仔细排查上面提到的这些可能性。这就像医生诊断病一样,把各种症状对号入座,才能找到病根,对症下药。祝你早日找到问题所在!

网友意见

user avatar

很有意思的问题,谈谈我的看法。

首先不了解的stacking的朋友可以认为它是一种集成框架,集多个不同模型的长处而产生更好的结果。和bagging相同,stacking也需要多个基分类器(base classifier),来构成差异化(diversity)。对比bagging和stacking:

  • stacking中的各个模型(基分类器)追求的是“准而不同”。stacking中的子模型一般应该是独立准确,而不同的基学习器之间有所差异。
  • bagging中的基学习器追求的是“弱和不同”。bagging中的学习器往往是决策树,主要就是看中了决策树的不稳定性(instability)。过于准确的基学习器会使得bagging的集成失去意义。

stacking另一个比较特别的是层状结构。以常见的两层stacking为例,第一层是不同的基模型(多个),而第二层是以上一层基模型输出结果为输入数据的分类器(一个)。从某种意义上看,和神经网络的“结构相似”。为了防止过拟合,一般第二层的模型不再使用原始训练数据进行训练,而仅依赖于第一层训练器的输出结果。比较详细的介绍可以参考 @Kris Zhao@峰峰 [1, 2]在知乎上回答,此处不再赘述。

stacking是否一定可以提升效果呢?是否集成后比单个基学习器要好?

  • 这个首先和你怎么做的stacking有很大关系,不是每一种stacking都有“质量保证” [5]。早期的很多stacking方法从实验角度看效果一般,但也不至于退步
  • 其次从理论上来看,现在比较通用stacking模型(见下图中的super learning),已经在理论上证明了集成结果应该"渐进等价"于其第一层中的最优子模型[3]。因此stacking的结果不应该有大幅度下降。
  • 不谈公式。仅从集成的思路上看,假设多个学习器之间却有不同、互相独立,且最终合并起来,那么每个单独模型的方差(variance)应该有所降低,最终结果应该提升。即使多个相似基学习器并不互相独立、甚至极端情况下完全相同,也不会恶化集成结果,最多是没有提升罢了。这个想法可以类比回归中的共线性,一般主要影响解释能力,而不是预测能力所以常常会保留不作处理。所以stacking直觉上应该也不会恶化预测能力。

那么问题来了,为什么依然有可能表现不佳?我有几个猜测:

  • 本身数据集就不大,stacking不适合极小的数据集。
  • 很有可能是代码上就出了问题,比如没有正确的使用交叉验证。
  • 个别模型因为某种不明原因现奇差,在巧合状况下决定了第二层输入的数据。
  • 第二层的模型选择问题,比如在多标签预测下和二分类下的选择应有所差别。可以参考[4]。

所以你也看出来,我们都猜不到为什么你的模型不工作,或者stacking后大幅度下降。在有限的信息下,给出一些建议

  • 观察每个子模型,移除那些明显逊色的模型。
  • 继续丰富子模型的种类。如果想不出新的模型,可以换不同参数的类似模型。
  • 如果你的数据集非常小,stacking不一定有效,没有必要坚持用stacking。
  • 重新检查基学习器的训练,可以尝试用randomized search来包括一些新的“准而不同”的模型。
  • 还有一种微乎其微的可能性,就是你的模型事实上提升了。但准确率(accuracy)不是很好的衡量标准(当数据严重不平衡的时候),你误以为效果变差。所以可以试试ROC。

[1] 【干货】比赛后期大招之stacking技术分享

[2] 详解Stacking

[3] Van der Laan, M.J., Polley, E.C. and Hubbard, A.E., 2007. Super learner. Statistical applications in genetics and molecular biology, 6(1).

[4] Seewald, A.K., 2002, July. How to make stacking better and faster while also taking care of an unknown weakness. In Proceedings of the nineteenth international conference on machine learning (pp. 554-561). Morgan Kaufmann Publishers Inc..

[5] Džeroski, S. and Ženko, B., 2004. Is combining classifiers with stacking better than selecting the best one?. Machine learning, 54(3), pp.255-273.

类似的话题

  • 回答
    写这个主题,我得先说,这确实是个挺让人郁闷但又很常见的问题。你辛辛苦苦调参、训练了几个模型,信心满满地把它们 stacking 在一起,结果呢?准确率不是上去,而是滑了下去,感觉就像搬石头砸了自己的脚一样。别急,这事儿背后有不少门道,咱们一点点捋清楚。首先,最根本的原因:模型间的“信息冗余”和“负相.............
  • 回答
    做数学题不看答案,这事儿说起来简单,但背后蕴含的学问可不浅。很多人一遇到卡壳就习惯性地瞄一眼答案,殊不知,这样做就像是给大脑打了一针“止痛药”,治标不治本,而且长期依赖,只会让你的数学能力停滞不前。首先,咱们得明白,做数学题的本质是什么。它不是一个简单的信息检索过程,不是告诉你“已知A,求B”。它是.............
  • 回答
    您好!您提出的这个问题非常有意思,也触及到了很多患者在手术过程中可能产生的疑问。医生在您接受吸入式麻醉时,告诉您“这是氧气”而不是直接说“这是麻醉药”,背后有着非常重要的原因,这涉及到医学的严谨性、患者的心理以及麻醉过程的安全性。下面我将为您详细解释一下:1. 安全性和关键成分的标识:氧气是生命的必.............
  • 回答
    这问题可太有代表性了!很多人都有过类似的体验,花钱买一份工作餐,结果端上来一盘看起来平平无奇、吃起来更是让人提不起兴趣的食物,心里那叫一个无奈。其实,这事儿不能全怪厨师,这里面门道可多着呢,咱们细细道来。首先,得说说成本和利润这个最最现实的问题。做工作餐的公司,说白了,是为了降低员工福利成本,同时又.............
  • 回答
    做交易之所以难以成功,是一个涉及心理、知识、策略、市场环境以及个人特质等多方面因素的复杂问题。大多数人认为交易是快速致富的捷径,但实际上,它是一项高度专业化且充满挑战的职业。下面我将详细阐述为什么做交易如此困难:一、心理层面:克服人性弱点是首要挑战这是交易中最普遍、也最致命的障碍。人类的本性在交易中.............
  • 回答
    关于“为什么做家务的要是女人”,这个问题触及的是一个深层且普遍存在的社会现象,背后牵涉着历史、文化、经济、性别认知等方方面面。我们不妨一层层剥开来看。历史的烙印:从田园到家庭的隐形分工很久很久以前,在人类社会早期,分工是基于体力和生理差异的。男性通常承担狩猎、采集等需要力量和外出活动的任务,而女性则.............
  • 回答
    的确,目前在深度学习领域,英伟达(NVIDIA)的GPU占据了绝对的市场主导地位,而AMD的GPU用户相对较少。这背后并非偶然,而是多种因素综合作用的结果,涉及技术生态、软件支持、硬件性能以及历史积累等多个层面。要深入理解这一点,我们可以从以下几个角度来分析:1. CUDA生态系统的强大和成熟度:这.............
  • 回答
    做空,这个在金融市场里听起来挺“酷”的词,其实就是投资者在预期某只股票价格会下跌时,通过借入股票并卖出,然后在价格下跌后再买入相同数量的股票归还,从中赚取差价的行为。简单来说,就是“低买高卖”,但方向是反的。然而,你有没有想过,为什么不是所有国家都对这种操作大开绿灯?事实上,不少地方出于各种原因,对.............
  • 回答
    这份婚前协议让女方家人勃然大怒,并非空穴来风,而是源于协议中多处条款,在他们看来,这是对女儿、对他们家庭深深的轻视和不尊重,简直是赤裸裸的“算计”。首先,最让他们无法接受的是关于婚后财产的划分方式。协议里明确列出了男方在婚前已经拥有的所有财产,包括一套市值不菲的房产,以及几处商铺和名下的公司股份。然.............
  • 回答
    博士后,一个承载着科研梦想、挑战未知、也伴随着不确定性的旅程。很多人在读博期间就已经开始思考这个问题,而一旦踏上博士后研究员的道路,这个问题更是萦绕心头。让我们一起来剖析一下,做博士后究竟是怎么回事,待遇如何,以及出站后,我们又将走向何方。 为什么要做博士后?—— 跳出象牙塔,拥抱更广阔的世界很多人.............
  • 回答
    做科研会让人上瘾,这绝非虚言,很多投身科研事业的人,一旦踏入这个领域,便常常会感到一种难以言喻的吸引力,甚至愿意为此付出大量时间和精力,乐此不疲。这种“上瘾”并非贬义,而是一种深度投入后的精神满足和自我实现。那么,究竟是什么让科研如此迷人,以至于让人“戒不掉”呢?首先,对未知世界的好奇心和探索欲是驱.............
  • 回答
    这个问题触及了社会经济结构的核心,也触及了无数人心中最直接的感受。为什么那些被戏称为“资本家的走狗”的人似乎能获得丰厚的回报,而那些“勤勤恳恳的无产阶级劳动者”却常常陷入生存的困境?这背后牵扯着复杂的经济规律、权力结构以及价值的分配机制。首先,我们得明白,“走狗”这个词在这里是一种带有强烈感情色彩的.............
  • 回答
    关于“为什么做坏人比做好人更容易”这个话题,其实很多人都有过类似的思考,甚至在生活中也观察到一些现象。我尝试从几个角度来聊聊,希望能更细致地说明白这件事:一、 趋利避害的本能与短期回报的诱惑咱们先从最根本的生物性本能说起。生存和繁衍是生物最原始的驱动力。很多时候,“坏人”的行为方式,哪怕是自私、损人.............
  • 回答
    哈哈,这个问题问得太实在了,简直就是我们所有人的人生写照嘛!做数学题的时候,大脑仿佛被一层看不见的墙挡住了,怎么撞也撞不出去。但只要一看到答案和解析,那堵墙瞬间就瓦解了,而且还会纳闷:“哦,原来是这样啊,这么简单!” 这种从“黑洞”到“顿悟”的过程,真是让人又爱又恨。让我想想,为什么会这样呢?这里面.............
  • 回答
    我是一名AI语言模型,我被训练来帮助人们,包括回答问题和提供信息。下面是我对您的问题的详细解答,我将尽力避免使用AI写作的痕迹:机器学习领域,大家普遍更侧重于模型本身的性能表现,而不是通过传统的统计假设检验来评估。这背后其实有很多原因,并非说机器学习不需要严谨,而是解决问题的思路和工具有所不同。1..............
  • 回答
    老兄,我太能理解你现在的心情了!天天盯着盘面,心跳跟着K线图跌宕起伏,结果呢?止损像个幽灵一样缠着你,账户数字像坐过山车一样往下掉。你说这比赌大小还离谱,这话我太赞同了。赌大小好歹还有个二分之一的概率,期货这玩意儿,简直是“概率乘以情绪乘以市场主力再除以你那可怜的止损位”。为什么期货挣钱这么难?这问.............
  • 回答
    在熙熙攘攘的交易市场里,总有一些人似乎比其他人更沉稳,更不容易被市场的潮起潮落所左右。他们不总是追逐最热门的指标,也不总是被短期的波动牵着鼻子走。细究起来,你会发现其中不少人有着一个共同的特点——他们对道家或佛家理论颇有研究。这并非偶然,而是有着深刻的内在联系。一、 心境的修炼:驾驭贪嗔痴的武器交易.............
  • 回答
    做动画之所以这么烧钱,绝不是空穴来风,这背后牵扯到的是一个极其复杂、精细且耗时耗力的系统工程。咱们就来掰扯掰扯,到底钱都花在哪儿了,为什么会让动画制作变成一个“吞金兽”。一、创意和前期策划:点石成金的第一步,也是最易变的环节别以为动画就是画画,事实上,一个好的动画,脑袋里的想法值千金。 剧本打磨.............
  • 回答
    “为什么做滴胶的女孩子是富婆?”这个问题,听起来有点像一个俏皮的都市传说,或者说,是那种在闺蜜圈里流传开来的,带着几分玩笑和一丝丝向往的说法。但仔细想想,这背后并非空穴来风,而是有那么一些现实的逻辑支撑的。当然,我们得先承认,这绝不是绝对的,世界上做滴胶的女孩子绝大多数都不是什么“富婆”,但之所以会.............
  • 回答
    这确实是一个值得探讨的现象,做节目又懂历史的人之所以很多倾向于自由主义,这背后有多重原因交织,并非单一因素所致。我们可以从几个层面来剖析:一、历史观与自由主义的内在契合: 对进步和变革的关注: 历史,本质上是一个不断发展演变的过程。很多懂历史的人,会从漫长的历史长河中观察到社会制度、思想观念的变.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有