问题

据说机器学习长于预测,计量经济学长于解释。有什么具体例子是机器学习完成了很好的预测却在解释上表现不好?

回答
您提出的“机器学习长于预测,计量经济学长于解释”的观点是非常普遍且有道理的。这主要源于它们在设计理念、方法论和目标上的差异。

机器学习通常以优化预测精度为核心目标。它擅长从大量数据中发现复杂的非线性关系和模式,即使这些模式对人类来说难以直接理解。因此,很多强大的机器学习模型(如深度学习、支持向量机、随机森林等)往往是“黑箱”模型,它们的预测能力很强,但难以提供因果性的、可解释的解释。
计量经济学则更侧重于理解经济变量之间的关系,并从中推断因果效应。它通常依赖于简洁、结构化的模型(如线性回归、时间序列模型),这些模型允许研究者清晰地识别各个变量的系数,并对它们在经济理论中的意义进行解释。然而,这些简化模型可能无法捕捉数据中复杂的非线性关系,从而影响预测的精度。

基于这种差异,确实存在许多机器学习模型在预测上表现出色,但在解释性上则相对薄弱的例子。以下是一些具体的例子,并尽量详细地阐述:

1. 深度神经网络 (Deep Neural Networks, DNNs) 在图像识别或自然语言处理中的预测与解释

背景与目标:

预测任务:
图像识别: 给定一张图像,准确地识别出图像中的物体是什么(例如,猫、狗、汽车、人脸)。
自然语言处理(NLP): 预测一段文本的情感倾向(正面、负面、中性),或者预测下一个词语在句子中出现的概率。
传统解释方法(计量经济学思维): 在传统的统计模型中,如果我们要解释“一张照片的像素值如何影响其被识别为‘猫’的概率”,我们可能会尝试构建一个模型,将特定的像素区域、颜色值等作为自变量,然后看它们的系数如何变化。但深度神经网络的层层抽象和非线性变换使得这种直接的解释变得不可能。

具体例子:

图像识别中的DNN:
AlexNet、VGG、ResNet 等卷积神经网络 (CNNs) 在 ImageNet 等大型图像数据集上取得了惊人的识别准确率,远超传统的计算机视觉算法。它们可以准确地区分几百甚至几千个类别的图像。
预测能力: 一个训练良好的CNN可以达到90%以上的准确率,识别出图像中的猫、狗、汽车等。
解释性挑战:
“黑箱”性质: CNN 通常包含数百万甚至数十亿个参数,分布在数十个甚至上百个层中。每一层都对输入数据进行复杂的非线性变换(如卷积、激活函数、池化)。我们很难直接说:“这个神经元被激活是因为图像的某个特定颜色或形状。”
特征的抽象层次: 早期的层可能学习到一些简单的边缘、纹理等局部特征,而深层的层则组合这些低级特征,形成更抽象的“概念”,例如“猫的耳朵形状”、“狗的鼻子结构”等。但这些抽象概念在人类语言中难以精确描述,而且它们是如何组合起来形成最终判断的,我们无法清晰地逐一列出。
对抗性样本 (Adversarial Examples): 一个著名的解释性问题是,研究人员发现可以通过对一张图像进行微小的、人眼几乎无法察觉的扰动(即“对抗性样本”),就能让CNN做出完全错误的预测。例如,给一张清晰的猫的图片增加一些精心设计的“噪声”,模型可能将其错误地识别为“钢琴”。这表明模型可能依赖于我们不理解的、甚至可能是噪声的模式进行决策,而不是真正理解“猫”的本质特征。我们无法解释为什么这个特定的“噪声”会欺骗模型。

自然语言处理中的RNN或Transformer模型:
预测能力: GPT3、BERT 等大型语言模型在文本生成、机器翻译、问答系统等任务上表现出令人惊叹的语言理解和生成能力。例如,它们可以根据一个开头写出连贯且有创意的故事,或者准确地回答复杂的问题。
解释性挑战:
Attention 机制的局限: Transformer 模型中的 Attention 机制可以显示模型在生成某个词时,关注了输入序列中的哪些部分。这提供了一定程度的“可解释性”,但并不等同于因果解释。我们看到模型“关注”了某些词,但无法解释为什么“关注”这些词就导致了特定的输出。
隐向量的不可解释性: 模型在内部会将文本编码成高维的向量表示(隐向量)。这些向量捕捉了语义信息,但它们到底对应于人类语言中的哪些具体概念,是无法直接映射的。例如,一个向量维度的高低变化可能对应着某个抽象的“情感强度”,但我们不知道是哪个维度。
涌现能力 (Emergent Abilities): 随着模型规模的增大,会涌现出一些新的、未曾显式训练的能力(如零样本学习、上下文学习)。这些能力的出现和运作机制,对于模型内部的理解来说仍然是黑箱。例如,一个模型为何能从几个例子中学习到新的任务,其内在的“学习”过程是如何发生的,我们难以清晰解释。

2. 集成学习模型(如梯度提升树)在金融预测中的预测与解释

背景与目标:

预测任务:
信用评分: 预测一个客户是否有能力按时偿还贷款(违约概率)。
股票价格预测: 预测未来一段时间内某只股票的价格走势。
欺诈检测: 识别交易记录中是否存在欺诈行为。
传统解释方法(计量经济学思维): 在金融领域,解释性至关重要。例如,在信用评分模型中,我们不仅需要预测客户是否会违约,还需要向客户解释“为什么”他们的信用评分低,这通常与收入、负债比、还款记录等特定因素有关。

具体例子:

梯度提升树 (Gradient Boosting Machines, GBM) 或 XGBoost, LightGBM: 这些模型通过组合大量弱学习器(通常是决策树)来构建一个强大的预测模型。它们在许多结构化数据预测任务中表现出色,经常在 Kaggle 等竞赛中夺冠。
预测能力: 在信用评分、欺诈检测等任务中,GBM 通常能比逻辑回归或简单的决策树模型提供更高的预测准确率。它们能够捕捉变量之间复杂的交互作用和非线性关系。例如,客户的“年龄”和“收入”的交互作用可能比它们各自的影响更重要,而 GBM 可以自然地处理这种交互。
解释性挑战:
大量树的累积效应: GBM 由成百上千棵深度不一的决策树组成,每一棵树都对预测做出贡献。要理解整个模型的决策逻辑,需要整合所有树的决策路径,这对于人类来说是极其复杂的。
局部可解释性不足: 虽然有一些技术(如 SHAP 值或 LIME)可以为单次预测提供局部解释(即解释为什么某个特定客户获得了某个特定的信用评分),但这些解释是针对单个样本的,并不能提供模型整体的因果关系或全局理解。例如,SHAP 值可以告诉你对于一个特定客户,是“收入低”这个因素将他们的预测分数降低了多少,但它无法直接回答“收入低究竟是如何导致违约概率增加的”这种因果性问题,也无法像计量经济学那样给出一个关于“收入每增加一万,违约概率降低多少百分点”的清晰、稳健的系数。
交互项的复杂性: GBM 能很好地捕捉高阶的变量交互,但这些交互项在被解释时会变得非常复杂。例如,它可能发现“年龄小于30岁”、“信用历史少于2年”和“最近6个月内有3次查询记录”这三个条件的组合会显著提高违约概率。但是,要用简洁的语言和数学公式来概括这种多变量、多条件的交互作用,并从中提炼出普适性的经济学含义,是非常困难的。
特征重要性(Feature Importance)的局限: 大多数集成模型可以提供特征重要性排名,表明哪些特征对预测贡献最大。然而,这种重要性是基于模型如何使用该特征来减少误差的,它并不等同于变量的因果影响力,也不能直接说明变量之间的“方向”和“强度”。例如,一个高度相关的变量(如“过去一年内申请贷款次数”)可能在模型中被高度使用,从而显示出高重要性,但这并不意味着“申请贷款次数多”是导致违约的原因,它可能只是一个信号或结果。

3. 支持向量机 (Support Vector Machines, SVM) 在文本分类中的预测与解释

背景与目标:

预测任务:
垃圾邮件过滤: 将收到的邮件分类为“垃圾邮件”或“非垃圾邮件”。
新闻分类: 将新闻文章分配到不同的类别(如体育、政治、科技)。
传统解释方法(计量经济学思维): 我们可以想象一个简单的文本分类模型,它可能使用词频作为特征,然后进行逻辑回归,解释特定词语(如“免费”、“优惠券”)在判断为垃圾邮件中的“权重”。

具体例子:

SVM with Kernel Trick: SVM 可以在高维甚至无限维的特征空间中找到最优的分类超平面,尤其是在使用核函数(如径向基函数 RBF 核)时。这使得 SVM 在处理高维稀疏数据(如文本数据)时非常有效。
预测能力: 在文本分类任务中,SVM 通常能提供很高的准确率,比简单的朴素贝叶斯等方法效果更好,尤其是在数据集不太大的情况下。
解释性挑战:
核函数的黑箱: 当使用非线性核函数(如 RBF 核)时,SVM 的决策边界是在一个由核函数映射到的高维空间中定义的。我们很难理解这个高维空间中决策边界的几何含义,以及它与原始文本特征(词语、ngram 等)之间的关系。
支持向量的不可解释性: SVM 的决策边界由少数“支持向量”决定,这些是离决策边界最近的样本。虽然我们可以知道哪些样本是支持向量,但它们之所以成为支持向量,是因为它们在高维空间的特殊位置,这种位置的含义并不直观。我们无法直接说“这封邮件的这些词语组合,使其成为支持向量,因此被判断为垃圾邮件”,而无法用清晰的因果关系来解释。
特征权重不明确: 在线性 SVM 中,我们可以看到每个词语的权重,但非线性核函数使得特征的权重变得非常复杂且难以解释。

总结

这些例子都说明了机器学习模型在追求极致预测性能时,常常牺牲了模型的透明度和因果解释性。

深度学习通过多层非线性变换学习抽象特征,难以追踪具体决策逻辑。
集成模型通过组合大量弱模型,其整体决策过程变得复杂而难以分解。
非线性核方法的模型将数据映射到高维空间,使得原始特征的解释性变得模糊。

尽管如此,解释性问题在机器学习领域也受到了越来越多的关注,并发展出了 XAI (Explainable AI) 等研究方向,例如:

局部解释方法: SHAP, LIME
模型可视化技术: 特征图可视化、类激活映射 (CAM)
可解释的机器学习模型: 如 GAM (Generalized Additive Models) 或一些规则提取方法。

然而,即便有了这些工具,它们通常也只能提供近似的、局部的、关联性的解释,而非计量经济学那种结构化、因果性、全局性的解释。在某些需要高度透明度和严格因果推理的领域(如政策评估、药物研发的生物机制解释等),计量经济学方法仍然是不可或缺的首选。而对于预测性能至上的应用场景(如推荐系统、金融高频交易、自动驾驶的感知模块等),机器学习模型则大放异彩,即使其内部工作机制不那么透明。

网友意见

user avatar

机器学习之于计量经济学 — 随机森林算法大战最小二乘法

今天这篇正好借花献佛,来和大家从解释和预测两个角度来和大家简单讲讲机器学习和传统计量方法之间的取舍利弊问题。

说实话要完整比较机器学习方法和计量经济学传统方法其实是比较困难的事情,以下的答案主要是基于哈佛大学的Mullainathan和Spiess的17年的发表论文,抛砖引玉来看看以下几个问题:

  1. 机器学习和传统计量方法的区别;
  2. 机器学习的基本原理(以随机森林为例);
  3. 计量经济学如何帮助理解机器学习;
  4. 机器学习和传统的计量方法孰强孰弱;

PS:如果想要直接看关于问题本身的答案也可以直接看第三段。另外nova avon也在其答案中提到这这篇文章。

据说机器学习长于预测,计量经济学长于解释。有什么具体例子是机器学习完成了很好的预测却在解释上表现不好? - nova avon的回答 - 知乎 zhihu.com/question/2955


机器学习和传统计量方法的区别

传统的计量方法着重于用简单的结构式子通过对于参数 的估计,来刻画 和 之间的关系。比如:

而机器学习的方法则是侧重于把 看成是一个关于 的复杂函数 ,这个函数的具体样子我们人类不可能直接得知,所以需要通过计算机的算法进行学习并且猜测。

正因为机器学习并不对数据形成的结构直接进行假设,所以机器学习中并没有一个像传统计量方法中 这样的参数。例如我们如果在上面的式子里面有:

是产出, 是资本投入, 是人力投入的话,那么实际上 和 分别具有其经济学意义,对应的是资本和人力投入的弹性值。

机器学习则不然,虽然我们也会估计一些和学习以及算法相关的参数(后面会提到),但是因为脱离了模型的假设这些参数几乎不会具备“经济学意义”,机器学习的目的本身更侧重于给出一个 的最好的表达形式。在机器学习中 的形式不再由经济模型/统计模型本身给出,是一个“黑盒子”

这样就注定了机器学习和传统计量的本质差别,传统计量方法注重的是结果对于经济学现象的解释力,而机器学习方法注重的是用 给出 的最好的预测。

所以如果我们把数据分成2个样本,通过一个样本的回归估计(以及机器学习)结果来预测另一个样本的值的话,通常机器学习会给出更好的预测结果


机器学习的基本原理(以随机森林为例)

机器学习的原理是我想要用 来预测 。例如我们看到一张图片所有的像素信息 ,我们需要预测这张图片是不是一张包含人脸的图片 ,或者说到底是谁的脸。再比我们看到所有人的基因序列 ,希望从基因序列中检测出某人患癌症的可能性 。

往往在机器学习的例子中 的维度可以非常大,我们观测到的数据量也会非常大,这就是我们常说的大数据。

当我们 的维度非常大的时候,假定数据生成结构的线性模型往往会变得爱莫能助。因为如下原因:

  1. 生成 的结构实在过于复杂,无法简单地给出结构形式, 不可猜测
  2. 的维度太高,所以线性回归往往不能兼顾多个变量之间的交互作用
    假设说我们 中包含 和 两个变量,那么如果要让模型包含 和 的交互作用,那么我们就要在线性模型中添加一个项 。
    可想而知,当 的维度很大的时候 (比如说有K个变量被观测到),添加所有的交互项变得根本不现实,因为那个时候估计参数的维度甚至会大于总体的观测量。比如说我们回归中可能包含这样的项:

    很显然当 很大的时候会有 这个时候我们只能依赖于机器学习方法。

机器学习的原理我们以随机森林为例,原理是把 的预测看成是一棵树的末梢,我们从树的底端开始,每次加入一个条件( 中的某一个变量),就好像多了一次分叉,而树的末梢就是我们对于 的预测值。很显然,在这种情况下 的预测,包含了 中各种变量的交互作用,同时也带来了以下的问题:过度拟合

想象一个情景如果我们要让模型预测达到100%精确,一个很直观的办法是把所有的数据都看成唯一的从树底通向树梢的路径,这样的话100个数据就对应了100条路,每条路都有一个末端。

我们的预测达到100%,然而我们也称这种现象是过度拟合,因为它只对你用于拟合的样本有效,一旦样本变化这样的模型可能预测力就为0。

过度拟合的本质是因为我们对模型分类分得太细,把每一个个体都看成是独一无二的。分类过细代表着你放弃了对数据进行经验规律的总结,所以如果这时候看到一个新的数据,你将无法使用任何过去的经验来对新的数据进行判断,因为它也是“独一无二”的。

所以为了避免过度拟合的问题,我们在机器学习的时候,提出了两个关键的概念:

  1. 样本分类:我们需要把样本分成两类,一类用于学习,另一类用于检验学习的成果(测试);
  2. 规制(regularization):我们需要限定树梢的树木,所以我们不能让树无限地分叉,需要有一个标准,这个标准就叫做regularization。Regularization意味着我们牺牲学习样本的预测准确率,对于数据背后的结构进行分类总结和归纳,这样会使得当我们把我们学习到的模型用在检验的时候,仍然保持其较高的预测准确度。

计量经济学如何帮助理解机器学习

事实上计量经济学对于机器学习的作用可以说是显而易见,比如说从我们上一段讲到的两个例子来说,优秀的大数据分析师,比如在机器学习的时候考虑到以下两类问题:样本分类和规制强度的问题。

从样本分类角度来看,如何合理地分配学习样本和测试样本,使得两个样本之间不存在选择偏差,需要计量经济学的基础。同时如何构建输入变量,也是一个很重要的问题。

因为与线性回归模型不同的是线性模型对变量进行线性回归不会影响到模型的预测,但是机器学习中因为是非线性的拟合,采用变量本身还是变换过的变量(比如说对数变换),都会影响到模型最后拟合的好坏和预测的准确度。而对于变量的构建,需要对数据背后的经济学现象的深刻理解。

从规制强度的角度来看,如何选择树的分叉树木,也是很重要的问题,我们是比较 还是做交叉验证?利用测试样本来协调规制的强度,这在机器学习当中也叫实证调整empirical tuning。然而我们在得到模型结果的时候也会有许多其他的疑问,例如模型的意义究竟是什么?

因为相比线性回归,在大多数情况下机器学习虽然估计拟合参数,却并不能给出预测结果的置信区间。在有些机器学习算法(例如LASSO算法)中,我们也可以知道某一个变量对于结果的权重,但是这个权重我们也没有办法去做假设检验。

这样的问题当我们综合几种学习方法一起来考虑的时候尤为明显。比如说方法A和方法B都可以给出相似的预测力,但是在方法A中我们舍弃的变量,可能在方法B当中被使用。相反在方法B中舍弃的变量,在方法A中可能也会被使用。另一些时候样本的选择和分类,也会影响到究竟哪些变量被使用,哪些变量没有被使用。

在预测能力相仿的情况下究竟哪个学习模型更好,就需要用到经济学的知识去加以阐述和分析,例如我们通常知道,如果观测到的数据里面拥有和性别有关的信息的时候,往往这样的变量反应的是“性别歧视”是否会对输出变量产生作用。所有的分析结果一旦脱离了人的主观判断,机器学习只是机械地告诉你拟合结果罢了。


机器学习和传统的计量方法孰强孰弱

所以一旦明白了这些,实际上机器学习和传统的计量方法事实上并不是一个竞争的关系,而是互补的关系。一旦明白了这种关系的本质,事实上我们可以把机器学习看成是一个强大的新型计量工具,来帮助我们理解和解决实证中存在的许许多多问题。

惟天地,万物父母,惟人,万物之灵。事实上解决问题的方法的使用取决于我们关心的问题本身。我们是关心一个问题的解释的经济学含义,还是关心的是一个预测的问题,我们有什么样的数据,有多少变量,对于数据和变量背后原理的理解。都会左右到最后我们对于问题的回答的好坏。

例如机器学习的一个很强大的好处是在机器学习中,输出和输入变量几乎可以是任意类别的数据。可以是传统的经济学的输出变量,类似于工资,就业选择,财富数量,也可以是传统线性回归模型无法真正涵盖的语言,声音,图片都数据化的变量。面对许多新型的可获取的数据类型,机器学习无疑拓宽了我们对于数据处理和分析的可能性

而传统的计量方法的优势也不言而喻,立足于假设的模型建立起的数据分析,完完全全符合“Less is more”的简约主义核心价值。不仅如此,传统计量方法在因果推断上的优势以及发展也是机器学习无法企及的。例如通过严谨的回归研究,我们可以回答文凭是否导致了工资的变化。而通过机器学习,可能在某一个特殊的学习样本中,文凭根本不会起到任何作用,而在另一个模式下,文凭又起到了决定性的作用。同时两个模型对于工资的预测可能完全相同。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有