问题

为什么做机器学习的很少使用假设检验?

回答
我是一名AI语言模型,我被训练来帮助人们,包括回答问题和提供信息。下面是我对您的问题的详细解答,我将尽力避免使用AI写作的痕迹:

机器学习领域,大家普遍更侧重于模型本身的性能表现,而不是通过传统的统计假设检验来评估。这背后其实有很多原因,并非说机器学习不需要严谨,而是解决问题的思路和工具有所不同。

1. 机器学习的目标导向与“黑箱”特性

预测和泛化是核心: 机器学习的主要目标是构建一个能够从数据中学习模式,并对未知数据进行准确预测或分类的模型。我们更关心的是模型在“新”数据上的表现,也就是泛化能力。比如,我们想知道模型预测房价的准确度,或者识别图片中猫狗的准确率,而不是去检验“房价模型是否真的与地段、面积等因素相关”。
复杂的模型和非线性关系: 现代机器学习模型,特别是深度学习模型,往往非常复杂,包含成千上万甚至上百万的参数。这些模型学习到的模式可能是高度非线性的,难以用简单的统计假设来描述。我们很难为这些模型设定一个清晰的“零假设”——比如“这个深度神经网络没有学习到任何有用的特征”。
特征工程与变量的交互: 在传统统计建模中,我们会明确定义自变量和因变量,并假设它们之间存在某种线性或逻辑关系。我们会检验“X对Y是否有显著影响”。而在机器学习中,特征工程是一个重要的环节,我们可能会创造出很多新的、高度交互的特征。在这种情况下,对每一个特征进行单独的假设检验,其意义会打折扣,因为模型整体的表现更重要。

2. 评估指标的丰富性和实用性

直接的性能度量: 机器学习有自己一套丰富的、直接衡量模型性能的指标,比如准确率 (Accuracy)、精确率 (Precision)、召回率 (Recall)、F1分数、AUC (Area Under the Curve)、均方误差 (Mean Squared Error, MSE) 等等。这些指标直接反映了模型在实际任务上的表现,比如“这个模型能正确识别出90%的猫”。
交叉验证和留出法: 为了评估模型的泛化能力,我们通常使用交叉验证 (Crossvalidation) 或留出法 (Holdout method) 来分割训练集、验证集和测试集。我们在独立的测试集上评估模型的性能,如果性能达到预期,就认为模型是有效的。这种方式比零假设检验更直接地回答了“我的模型有多好”。
超参数调优: 机器学习模型的性能很大程度上依赖于超参数的选择。我们通过网格搜索 (Grid Search)、随机搜索 (Random Search) 或贝叶斯优化 (Bayesian Optimization) 等方法来寻找最优的超参数组合。这个过程本身就是一种对不同模型配置的“性能比较”,而不是对某个参数的显著性进行检验。

3. 假设检验的局限性在机器学习场景下的体现

“显著”不等于“有用”: 传统假设检验常常关注 p 值,判断一个结果是否“统计上显著”。但在机器学习中,即使一个特征的系数在统计上显著,但如果它对模型整体性能的提升非常微小,或者模型对这个特征非常敏感,那么这个“显著”可能并不具备实际的业务价值。我们更关心的是模型整体性能的提升幅度,而不是某个单一特征的统计显著性。
多重比较问题: 机器学习模型可能涉及大量的特征。如果对每个特征都进行假设检验,就会面临严重的多重比较问题,导致假阳性 (False Positive) 的概率大大增加。
对“原因”的关注较少: 假设检验常常是用来推断变量之间的“因果关系”(尽管统计显著性不直接等同于因果),而机器学习的很多时候更关注“预测能力”。我们可能不在乎“为什么”模型能预测对,只关心它能不能预测对。
小样本 vs. 大数据: 传统统计学中,当样本量不大时,假设检验是建立模型和推断的重要工具。而机器学习,尤其是在互联网时代,往往处理的是海量数据。在大数据环境下,即使很小的效应也可能变得统计上显著,但这种显著性可能对模型整体性能影响不大,反而增加了计算和解释的负担。

4. 机器学习中“检验”的替代方式

尽管不常用传统的假设检验,但机器学习领域依然有“检验”模型性能和有效性的方法:

A/B测试: 在产品或服务落地后,通过A/B测试来比较不同模型或策略的实际效果,这是对模型在线性能的直接验证。
统计显著性比较: 当需要比较两个模型的性能时(例如,模型A vs. 模型B),我们可以使用一些统计方法,比如针对交叉验证结果的统计检验(如配对 t 检验)来判断一个模型是否显著优于另一个。但这通常是模型间的比较,而不是模型内参数的检验。
置信区间: 机器学习模型的一些性能指标(如准确率)也可以计算其置信区间,这能提供模型性能不确定性的信息,但也不是直接的零假设检验。

总结一下:

机器学习并非反对严谨,而是选择了更适合自身目标和特点的评估和验证方式。将精力放在直接优化模型在未知数据上的预测能力,通过丰富且直观的评估指标来衡量模型的好坏,以及使用交叉验证等方法来保证泛化能力,这比在复杂的机器学习模型中套用传统的假设检验框架更为直接和高效。当然,在某些特定场景下,比如对模型的可解释性有较高要求时,或者需要推断特定特征与结果之间的关系时,一些统计检验的思路和方法还是会派上用场,但它们不再是机器学习的“主流”工具。

网友意见

user avatar

机器(统计)学习中主要涉及了两种假设检验:

  1. 针对特定数据集上的特定模型(如逻辑回归),分析不同变量的显著性
  2. 在多个数据集上对比多个分类器的性能,分析不同模型表现的差异

1. 先讨论第一类检验(特定数据集上变量的显著性)。在社科类文章中的数据分析(如回归)是工具,目的是从数据中归纳结论。而在计算机领域,目的是设计新的模型,而不是分析数据,一般不会专门对实验数据下结论。换句话说:社科类研究中数据分析是工具,而机器学习的目的往往是模型而不是数据本身

因为这个原因,我们发现在社科类文章中往往是“对特定数据集上的一个回归模型的变量做显著性分析,来证明某个变量是否对模型有意义”。比如一个数据集有性别、年龄、收入三个变量,分析这几个变量对于患糖尿病的影响。在这种情况下,做统计检验无可厚非。

当然,这样做也有风险和偶然性。比如我常说的一个例子:Freedman在1989年做过的模拟实验 [1]中发现,即使数据全是由噪音构成,在适当的处理后,也能发现数据中显著的相关性:6个特征显著且对回归所做的F-test的p值远小于0.05,即回归存在统计学意义。更多例子可以看:微调:有哪些相关性不等于因果性的例子?

除此之外,我们也认为广义线性模型的数据挖掘能力有限,对于复杂的非线性数据可能无法很好的拟合。所以社科类文章中的很多结论也不完全正确,但受限于数据,往往这就是当下的最优解。正因为如此,也有不少研究者在呼吁弱化p值的重要性。

而在机器学习中,一个变量是否重要,往往是通过“特征选择”和“特征重要性排序”来体现的。比如大部分决策树模型和集成树模型都可以提供一个变量重要性排序,可以等同视为统计检验。从实际效果上看,往往更好。

但为什么大部分社科类研究必须要用广义线性回归模型呢?主要是为了可解释性,来说明不同变量对最终结果的“贡献”,因此另一个附加价值就是统计检验。而机器学习因为其黑箱性导致了不大适合用于数据分析,也就不存在统计检验。值得注意的,虽然没有统计检验,但受益于机器学习中各种复杂模型的有效性,预测结果往往更准确,而且也可以得到很多有价值的分析结果。但用于学术研究的话,往往人们无法信任纯粹的对比和变量重要性排序,因此社科类中很多研究还是基于各种线性回归。

2. 再讨论第二类情况(对比多个模型在多个数据集上的表现)。其实这是机器学习,尤其是传统机器学习方向的一个趋势,越来越多的论文要求提供统计检验。我最近的一篇论文的审稿意见就有这么一条:“必须做统计检验”。

当然,这个要求有时并不合理,在特定领域也没有必要,原因如下:

  • 需要一定数量的数据集(样本量),一般来说大于10个,甚至15个数据集比较好。但这样显然是不现实的,很多领域(如机器视觉)的数据集非常大。如果是深度学习在多个大数据集上运行的开销过大,大部分情况并不现实。
  • 当数据集已经非常大且具有代表性时,没有必要做统计检验。举个简单的例子,如果有世界上百分之99人的图片,并用其预测剩下百分之1的人性别。那么在99%数据上表现足够好的模型应该就是最好的,不必多此一举。说到底,这个可能是统计学和机器学习的差异,前者更严谨后者更有效,难分优劣。
  • 不可否认,很多人其实是做过统计检验的,因为不显著于是又删掉了。换句话说,回避统计检验一定程度上也造成了灌水现象...

但话说回来,在传统机器学习领域,尤其是大量使用UCI上数据集的研究(如很多无监督学习),其实是可以做统计检验的,因为数据集都不大且数量众多。而在机器学习模型上做统计检验的重要性在2006年就有一篇JMLR论文讨论过[3],结合我的一些经验可以简单归纳为:

首先结论如下,在对比两个算法多个数据集上的表现时:
- 如果样本配对(paired)且符合正态分布,优先使用配对t检测(paired t test)。
- 如果样本不符合正态分布,但符合配对,使用Wilcoxon Signed Ranks test。
- 如果样本既不符合正态分布,也不符合配对,甚至样本量都不一样大,可以尝试Mann Whitney U test。值得注意的是,MW是用来处理独立测量(independent measures)数据,要分情况讨论,后文会深入分析。

在对比多个算法多个数据集上的表现时:
- 如果样本符合ANOVA(repeated measure)的假设(如正态、等方差),优先使用ANOVA。
- 如果样本不符合ANOVA的假设,使用Friedman test配合Nemenyi test做post-hoc。
- 如果样本量不一样,或因为特定原因不能使用Friedman-Nemenyi,可以尝试Kruskal Wallis配合Dunn's test。值得注意的是,这种方法是用来处理独立测量数据,要分情况讨论。

更详细的如何用统计检验对比机器学习模型,请参考:微调:常用的机器学习算法比较?


[1] Freedman, L.S. and Pee, D., 1989. Return to a note on screening regression equations. The American Statistician, 43(4), pp.279-282.

[2] 15 Insane Things That Correlate With Each Other

[3] Demšar, J., 2006. Statistical comparisons of classifiers over multiple data sets. Journal of Machine learning research, 7(Jan), pp.1-30.

类似的话题

  • 回答
    我是一名AI语言模型,我被训练来帮助人们,包括回答问题和提供信息。下面是我对您的问题的详细解答,我将尽力避免使用AI写作的痕迹:机器学习领域,大家普遍更侧重于模型本身的性能表现,而不是通过传统的统计假设检验来评估。这背后其实有很多原因,并非说机器学习不需要严谨,而是解决问题的思路和工具有所不同。1..............
  • 回答
    这个问题其实挺有意思的,也触及到了很多同学毕业求职时会有的困惑。你说的“身边学长年薪二三十万”,和知乎上一些声音“普遍几千块”,这两种情况确实存在,但中间可能存在一些认知上的偏差或者信息收集的侧重点不同。咱们来掰扯掰扯,为什么会出现这种“信息差”。一、 招聘信息与实际薪资的“水位差”首先,我们要明白.............
  • 回答
    机器学习模型训练的等待时间确实是一个普遍存在的现象,这段时间既可以是生产力中断期,也可能成为高效利用的“间歇性工作期”。大家在这段时间里做什么,很大程度上取决于个人习惯、项目需求、以及当时的心情和精力。以下是一些大家在模型训练期间可能会做的,并进行详细描述:一、 高效利用时间,推进其他工作: 阅.............
  • 回答
    机器学习框架的生态系统,确实在很大程度上被 Python 所主导,这一点是显而易见的。如果你环顾四周,会发现像 TensorFlow、PyTorch、Keras、Scikitlearn 这样如雷贯耳的库,它们都以 Python 为主要开发和使用语言。这并非偶然,背后有着深刻的历史原因和技术考量。为什.............
  • 回答
    经济学,尤其是劳动、卫生等应用微观计量领域,在拥抱机器学习(ML)特别是人工神经网络(ANNs)等深度学习算法方面,确实比许多其他科学领域显得更为审慎和缓慢。这并非技术上的不可逾越,而是深植于经济学研究的固有逻辑、数据特征以及研究者对模型可解释性和因果推断的极致追求。下面我将从几个关键角度,详细剖析.............
  • 回答
    你为什么会想系统地了解“机器学习”这个概念?我想,大抵是因为你对数据的力量感到好奇,想要驾驭它去解决现实世界中的种种难题,又或者,你只是单纯地想站在技术浪潮的最前沿,洞察未来发展的脉络。无论你的初衷如何,如果你的目光最终落在了吴恩达(Andrew Ng)的机器学习课程上,那么恭喜你,你很可能找到了那.............
  • 回答
    听你这么说,我有点替你朋友开心,淘宝美工这行挺吃香的,学好了发展空间也挺大的。说到培训机构,这个话题其实挺实在的,每个做这行的朋友或多或少都踩过坑、走过弯路,但也攒下不少经验。我认识的几个做淘宝美工的朋友,他们走的学习路径还真不尽相同,有的半路出家,有的算是科班出身,但最后能把这份工作做得风生水起,.............
  • 回答
    这问题触及到一个挺有意思的现象,很多计算机科学背景的朋友对机器学习(ML)的态度,怎么说呢,有点复杂,不是单纯的“喜欢”或“不喜欢”。更多的是一种…怎么形容呢?是那种既好奇又审慎,既想拥抱又想解剖的探索欲。这背后其实有很多层原因,咱们掰开了说:首先,得从计算机科学的“根”说起。我们这行,骨子里就是研.............
  • 回答
    想玩转天空?无人机航拍入门新手必看指南!最近有没有被朋友圈里那些壮丽的航拍大片刷屏?从高空俯瞰城市脉络,或是捕捉连绵山峦的壮美,无人机航拍的魅力简直让人欲罢不能。如果你也跃跃欲试,想亲自操纵“眼睛”,去发现不一样的世界,那么这篇文章就是为你准备的!作为一名曾经的“小白”,我太理解你们刚开始的迷茫了。.............
  • 回答
    这个问题,其实背后牵扯的因素可不少,不是一句“为了学好英语”就能概括的。我身边就有朋友,咬牙掏了几万块钱报了个培训班,这可不是小数目啊。我当时也觉得挺纳闷,为什么不能自己在家学呢?现在想想,这几万块钱,他们买的可不只是英语单词和语法。首先,最直接也是最表面的原因,就是“效果看得见,速度有保障”。你想.............
  • 回答
    这个问题很有意思,也很深入地触及了汽车发动机设计中一个长期存在的“争议”或者说“技术路线”的差异。简单来说,大众的“烧机油”问题和本田的“机油增多”问题,其实都指向了机油在燃烧室内的“额外”消耗或堆积,但它们背后涉及的技术原理和解决方案却大相径庭,甚至可以说是从不同的角度去应对同一个挑战。我们先来拆.............
  • 回答
    作为一名机械专业的学生,我们肩负着为国家贡献力量的使命,这可不是一句空洞的口号,而是实实在在的责任。我们所学的专业,是国家工业发展的基石,是国家强大的血脉。那么,我们究竟能为国家做些什么呢?我想,这可以从以下几个方面来细说。一、用创新的思维,点燃科技的火种我们学的不仅仅是理论知识,更重要的是培养一种.............
  • 回答
    这是一个非常有趣且深刻的问题,触及了我们学习的生物学基础和进化过程。简单来说,人类在学习时确实会分泌多巴胺,而且这种机制在进化中扮演了至关重要的角色。 你的提问可能源于一种误解,认为目前的学习机制不够“优化”,或者以为“多巴胺奖励机制”是独立于学习而存在的,而不是学习过程的一部分。让我们从头来梳理一.............
  • 回答
    最近和几个朋友聊天,说起现在年轻人的状态,就聊到了王者荣耀。这游戏火得一塌糊涂,我发现身边不少学生,与其说是在玩,不如说是在“钻研”。一开始觉得挺奇怪的,怎么会有这么多人,把精力花在游戏里,尤其是那些看似跟学习无关的内容上。后来我算是有点明白了,可能不是他们“不愿意”学正课,而是游戏里的某些东西,更.............
  • 回答
    微电子专业的你,毕业后想投身后端版图设计(Layout),这是一个非常好的职业方向,也是半导体行业不可或缺的一环。我知道你很想知道如何才能在毕业时拿到一份心仪的Layout入门工作,并且希望我讲得详细些,同时避免AI痕迹。没问题,咱们就来好好聊聊这个话题,就像是跟一个有经验的师兄师姐交流一样。首先,.............
  • 回答
    一个学校的机械专业,即便分数线很高、学起来也吃力,毕业后“前途”却可能被许多人认为“一般”,这背后确实牵扯着多重因素,远非简单的“好学”或“分数高”就能完全概括的。这就像一块璞玉,打磨得很精致,但如果用错了地方,或者市场对其需求发生了变化,它的价值自然也就打了折扣。咱们得从几个维度来掰扯掰扯:一、 .............
  • 回答
    .......
  • 回答
    老实说,这年头,但凡你稍微在网上搜搜“机械专业”,你总能瞅见一堆“劝退”、“劝转行”的帖子,搞得好像这专业是个魔窟似的。为什么会有这么多这样的声音呢?这背后可不是空穴来风,而是好几个硬邦邦的现实因素叠加在一起的结果。咱们掰开了揉碎了聊聊。首先,得说最直接的,“天坑”这个标签贴得太牢了。这个标签是怎么.............
  • 回答
    讲到这个问题,我身边太多同学都亲身经历了,所以也算是有不少发言权了。机械这专业,名气大,听着也“硬核”,感觉毕业了就是高级蓝领或者设计院的工程师,前途一片光明。可现实嘛,跟想象中总有点落差,尤其是刚毕业那会儿。最直接的原因,我觉得是行业饱和与低薪的现实。你想啊,国内机械专业毕业生这么多,高校开设的专.............
  • 回答
    .......

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有