问题

机器学习(machine learning)在经济学领域是否有应用前景?

回答
机器学习在经济学领域的应用前景,可以说是非常广阔且令人兴奋的。这不仅仅是理论上的可能性,而是实实在在的、正在改变我们理解和实践经济学的方式。

过去,经济学家们主要依赖理论模型和传统统计方法来分析经济现象。这些方法在解释宏观经济趋势、理解市场结构等方面发挥了重要作用,但也存在一些局限性:它们往往需要对经济系统做出大量简化假设,并且在处理高度非线性、复杂的数据关系时显得力不从心。

机器学习的出现,恰恰弥补了这些不足。它的核心在于让计算机通过“学习”数据中的模式和规律,而不是通过预先设定的规则来做出预测或决策。这意味着,我们可以用机器学习来处理那些传统方法难以驾驭的复杂经济数据,从而挖掘出更深层次的经济洞见。

具体来说,机器学习在经济学中的应用前景可以从以下几个维度来详细阐述:

1. 宏观经济预测与分析的精度提升:

更精准的经济增长预测: 传统的GDP预测模型往往依赖于少数几个关键宏观变量。机器学习可以通过集成大量的时序数据(如工业产出、消费信心指数、就业数据、甚至社交媒体情绪等)来构建更精细化的预测模型。例如,利用深度学习模型(如LSTM)可以捕捉经济数据中复杂的时间序列依赖关系,从而提供更准确的短期和中期GDP、通货膨胀率、失业率等预测。
金融市场风险管理与预测: 机器学习在预测股市波动、识别潜在的金融危机、评估信用风险等方面表现出色。例如,通过分析海量的公司财报、新闻报道、交易数据,可以构建复杂的神经网络模型来预测股票价格的变动,或识别出那些可能面临违约风险的公司。这对于央行、监管机构和金融机构的风险管理至关重要。
政策效果评估的精细化: 机器学习可以帮助经济学家更准确地评估各项经济政策(如货币政策、财政政策、贸易政策)的实际效果。通过构建因果推断模型,结合机器学习的预测能力,可以更细致地分析政策对不同群体、不同行业的影响,从而为政策制定提供更科学的依据。

2. 微观经济行为理解的深度挖掘:

消费者行为建模与个性化营销: 机器学习能够分析海量的消费者交易数据、浏览记录、社交媒体互动等,构建极其细致的消费者画像。这使得企业能够更精准地预测消费者的购买意愿、偏好,并提供个性化的产品推荐和营销策略,从而提升销售额和客户满意度。例如,电商平台推荐算法就是机器学习在微观经济学中的典型应用。
劳动力市场分析与就业预测: 机器学习可以分析海量的招聘信息、职位描述、技能需求等数据,预测未来就业市场的趋势,识别热门行业和紧缺技能。这对于教育机构调整课程设置、求职者规划职业发展非常有帮助。
企业生产效率与运营优化: 通过分析企业内部的生产数据、供应链信息、客户反馈等,机器学习可以识别生产流程中的瓶颈,预测设备故障,优化库存管理,提升整体运营效率。

3. 新型经济数据源的开发与利用:

非结构化数据的价值释放: 除了传统的结构化数据(如表格数据),经济活动中还充斥着大量的非结构化数据,如新闻报道、社交媒体帖子、企业年报中的文本描述、甚至卫星图像(如夜间灯光强度可用于衡量经济活动)。机器学习,特别是自然语言处理(NLP)和计算机视觉技术,能够有效地从这些数据中提取有用的经济信息,为经济分析提供新的视角和数据维度。例如,分析社交媒体上关于某个产品的讨论热度,可以预测其未来的销售情况。
高频数据的实时分析: 金融交易、支付系统等产生了海量的高频数据。机器学习模型能够处理这些数据,实时捕捉市场情绪、交易模式的变化,并据此进行快速响应和决策。

4. 经济学研究方法的革新:

数据驱动的理论发现: 机器学习并非要取代经济学理论,而是作为一种强大的工具,帮助经济学家从海量数据中发现新的、未被理论解释的模式,进而启发新的经济理论。例如,机器学习模型可能揭示出某些此前未被充分认识到的变量之间的复杂关联,促使经济学家反思和修正现有理论。
“黑箱”模型的解释与因果推断: 虽然一些复杂的机器学习模型(如深度神经网络)常被认为是“黑箱”,但近年来,经济学家们也在努力发展能够解释这些模型预测结果的方法,并将其与经济学中的因果推断框架相结合。这有助于我们理解模型是如何做出预测的,以及这些预测背后的经济逻辑。

面临的挑战与前景展望:

当然,机器学习在经济学领域的应用也面临一些挑战:

数据质量与可获取性: 经济数据的质量、完整性和可获取性仍然是制约机器学习应用的重要因素。
模型的可解释性: 如何让复杂的机器学习模型更好地融入经济学理论,并提供可解释的经济含义,是研究的重点。
因果关系与相关关系: 机器学习擅长发现相关关系,但经济学更关注因果关系。如何准确地从数据中识别和估计因果效应是关键。
伦理与偏见: 机器学习模型可能继承和放大训练数据中的偏见,这在经济决策中可能带来不公平的结果。

尽管如此,随着技术的不断进步和研究的深入,机器学习在经济学领域的应用前景无疑是巨大的。它将持续地赋能经济学家,帮助我们更深入、更精准地理解经济运行的规律,预测未来的经济走向,并为制定更有效的经济政策提供强大的支持。这不仅仅是工具的更新,更是一场深刻的思维和研究范式的变革。

网友意见

user avatar

我的专栏——

机器学习、大数据与经济学研究 - 大石头路73号 - 知乎专栏


对于这个问题,经济学大牛 Varian 已经写论文说过了,知乎上有人给了论文链接,我在这里简单介绍一下这篇文章的内容。

Varian, 2014, Big data: New tricks for econometrics

这里有一篇中文的介绍:

【香樟论坛】大数据:计量经济学的新技巧

其实这篇介绍的挺详细。但如果我全都照搬过来,岂不是很没有创造性?所以我决定重新写一篇。。。


论文作者是范里安(Hal Varian),学过经济学的应该都知道这位大名鼎鼎的美国经济学家,著有经济学教材《微观经济学:现代观点》,就算没读过应该也听说过。他现在已经从加州大学伯克利分校退休,现任 Google 首席经济学家,参与设计了 Google 广告关键词拍卖系统等项目。

范里安为 Google 设计的「AdWords Select」系统背后的经济学原理是怎样的? - 谷歌 (Google) 首席经济学家范里安:谷歌摇钱树 -- 经济金融网 -- 传送门

看看他在这篇论文脚注中的作者介绍,感觉还是挺酷的:

Hal Varian is Chief Economist, Google Inc., Mountain View, California, and Emeritus Professor of Economics, University of California, Berkeley, California.

不知道是不是受到 Google 程序员们的影响,范里安现在对机器学习和大数据很感兴趣。

范里安认为,计算机技术现在已经深入到经济学研究中。传统的统计和计量方法,比如回归分析,当然是不错的研究方法,但如今数据量越来越大,而正好符合研究要求的数据已然有限,同时大数据量让变量之间的关系变得更加灵活,传统计量中的线性以及大多非线性模型可能都无法满足这一要求,所以经济学家需要寻找新的研究方法。范里安认为,机器学习理论中的决策树(decision trees),support vector machines,深度学习(deep lerning)等技术,可以更加有效率的处理复杂的关系。


所以,他在文中的思路可以简单总结为:

- 经济学要与数据打交道,传统分析用的是样本等小数据

- 随着经济交流的日益频繁和技术水平的提高,数据越来越大,大数据出现

- 传统经济学分析方法在分析大数据时显得捉襟见肘

- 我们需要新的分析方法

- 机器学习技术可以在这方面帮助我们



这篇文章开始给读者介绍了一些处理数据的方法和软件,以及大型 IT 公司的处理方法,这还是挺有用的。比如在处理百万条的大型数据时需要用到 SQL,数据清理可以用 OpenRefine 和 DataWrangler。

不过计量经济学和机器学习当然是有区别的,作者认为:

Data analysis in statistics and econometrics can be broken down into four categories: 1) prediction, 2) summarization, 3) estimation, and 4) hypothesis testing. Machine learning is concerned primarily with prediction.
[...]
Machine learning specialists are often primarily concerned with developing high-performance computer systems that can provide useful predictions in the presence of challenging computational constraints.
[...]
Data science, a somewhat newer term, is concerned with both prediction and summarization, but also with data manipulation, visualization, and other similar tasks.

计量和统计学主要关注四个方面:预测、总结、估计和假设检验。机器学习主要关注预测。数据科学侧重预测和总结,也涉及数据处理、可视化等。


计量经济学关注因果关系,会遇到内生性等问题,而机器学习则会遇到“过度拟合”(overfitting)的困扰,但机器学习可以关注到计量和统计中样本以外的数据。

那么机器学习如何运用到经济学中呢?作者举了几个例子。

一个是分类和回归树分析(Classification and regression trees,简称CART),这一方法适用于分析一件事情是否发生以及发生概率的时候,即被解释变量是0或1。计量上通常用 logit 或 probit 回归。

范里安这里用的是例子是泰坦尼克号沉船事件中不同人群的死亡概率。作者用机器学习理论中的 CART 方法(R 软件中有这个包 rpart),把船上的乘客按照舱位等级和年龄进行分类。



这是树模型(Tree model)的分类,舱位分一、二、三等,一等最好,三等最差。然后做成树型的样式:




最上面一层把乘客按照舱位分开,左边是三等舱,右边是一等和二等。三等舱(很有可能穷人居多)死亡概率较高,501个人中有370个遇难。接下来把右边一等和二等的乘客按照年龄分类,左边是大于等于16岁的,右边是小于16岁的儿童。先看儿童,这类人群的幸存概率很高,36个人中有34个都活下来了。左边把年龄16岁及以上的人又分为两类,左边的二等舱和右边的一等舱。二等舱233人中有145人遇难,一等舱276个成年人中174人幸存下来。我算了一下,四类人从左到右的幸存概率分别是26%、37%、63%和94%。所以在泰坦尼克沉船时,儿童和一等舱的人容易活下来

接下来重点关注一下乘客的年龄分布,下图是各年龄段的幸存概率以及置信区间:




从图中可以看出,10岁所有的儿童和60岁左右的人幸存概率更高


同时,作者又用传统的计量方法 logit 模型回归了一下,解释变量是年龄,被解释变量是幸存(1)。结果如下:




年龄(age)与幸存为显著的负相关,即年龄越小越可能在沉船时活下来,但是系数太小,影响很弱。总结这两种方法作者认为,是否幸存并不取决于年龄,而是乘客是否是儿童或者60岁左右的人,这一点在回归分析中无法反映出来


类似的机器学习的方法还有一个叫conditional inference tree,这里同样是运用泰坦尼克的数据制作的图:



这幅图把乘客进行了更加细化的分类,添加了性别(sex)一项。pclass 是舱位登记,age 年龄,sibsp 为船上兄弟姐妹和配偶的数量。最下面的刻度中黑色是这一人群的幸存比例。可以得出的结论是妇女和儿童的幸存率最高。(这是因为在沉船的时候大家大喊“让小孩和女人先走”吗。。?)

上面这个例子比较简单,但也足够明了,我认为它比较清楚的解释了机器学习和计量的差别:机器学习更加关注相关性和预测,所以得出的结论是某个年龄段的人群幸存率更高。而计量更加关注因果关系,根据上面的 logit 模型,很难说是年龄导致了幸存,很明显还有很多其他变量没有被考虑进去,比如个人体质等等,或许年龄根本就不是计量经济学家在这里主要考察的变量。而且如果加入交叉项也许会有新的结论。所以简单的说就是模型设定的问题。具体哪种方法更好,还要看具体研究的问题是什么。

此外,作者还举了其他机器学习的例子,如 boosting, bagging, bootstrap, bayes,这里就不详细说了。文中的几个例子挺值得一看,可以了解一下机器学习的基本方法。比如利用机器学习研究一家公司投放广告是否有效,传统的计量方法是需要设计实验,设立处理组和对照组,但成本较高。


范里安认为过去几十年计算机科学家与统计学家已经进行了许多卓有成效的合作,他对机器学习在经济学,特别是计量经济学和统计学的应用十分看好,所以范里安给经济学专业的学生一条建议:

[…] my standard advice to graduate students these days is “go to the computer science department and take a class in machine learning.

“学经济学的都去计算机系修一下机器学习的课程吧!”


范里安一方面是传统意义上的经济学家,另一方面由于在 Google 工作的经历,使得他对机器学习技术有了更深的了解,他的观点值得一看。

当然,这也只是他的一家之言,毕竟机器学习和计量经济学在方法、目的上都有较大差别,机器学习是否会真的大范围进入到经济学领域还很难说。不过,计算机技术越来越多的被运用到经济学研究当中已经是不争的事实,而且也是趋势,现在如果不懂点编程技术(至少是计量软件),很难在经济学这个行当走的更远。虽然现在有不少功成名就的经济学家和教授在写代码方面并不精通,但每个时代对人们的要求都有不同,当年计算机技术还没有普及,而他们接受的教育实际上已经比之前的人有了长足进步。我想,今天这个时代对经济学研究者的要求之一就是掌握一定的编程技术吧,虽然不用达到写应用程序那个等级,但也得有较高的搜集数据和处理数据的能力。

所以,如果你只是打算学完经济学就去公司当白领,那么写代码技术可能不是必需的,反而用好word, excel, powerpoint 可能更有用(IT、金融等对写代码有一定要求的行业或岗位除外)。但假如想在学术圈待下去并且有所建树,那么从长远考虑,现在就赶紧去学点编程技术,提高自己的数据处理能力吧。

现在网上这类资源很多,比如coursera上John Hopkins大学很有名的数据科学的课程

coursera.org/specializa

大部分都带中文字幕

我自己也在听这个公开课。另外我也会在YouTube找一些数据处理的课程,YouTube 在这方面的优点是资源很丰富(中国的视频网站在这方面的资源太匮乏),基本上只要你能想到的软件教程都会有。缺点是质量参差不齐,而且有些视频不完整,有的视频发布者更新一段时间就停止了。相比而言,coursera 的质量和完整度都要更胜一筹。所以 coursare 和 YouTube 结合起来还是不错的。


其他参考资料:

计量经济学、时间序列分析和机器学习三者有什么区别与联系? - 经济学
user avatar

昨天刚看到的一个串

user avatar

我的感觉,主要研究者来自于Chicago and Palo Alto.

1. Stanford里光我知道的有Susan Athey, Gentzkow.

2. Chicago Booth遍地都是.从metrics/finance/applied micro/trade. 每个field都有一堆人在做. 如Marianne Bertrand (work in progress), 一堆做theoretical metrics的, 一堆做finance的,又比如今年的jm star nick用卫星图片+cnn predict slum locations作为structural estimation inputs

3. Northwestern还是哪有人写了篇文章, 把random forest和DID结合起来(aer r&r),不错. 具体就是treatment之后要做没有treatment的counterfactual,原本不可能。现在ML predictions. 原来的control group做validation? 不是熟悉的领域. 记不清了.

4. 最近Igami (Yale, neio)写了篇Artificial Intelligence as Structural Estimation: Economic Interpretations of Deep Blue, Bonanza, and AlphaGo. 主题是这每个棋类的algorithm其实都能对应上rust的nxfp或者hotz and miller的. 读着觉得挺好玩.

学CUDA C和买显卡更重要. 有篇management science说,先付出sunk cost, 会让人更有精神学习的.

其实很好奇还有哪些computational stuffs能用显卡做的.

总结的话, 我觉得现阶段大部分都是用来做数据(Gentzkow, Nick等等). 小部分是用来model selection. 还有一部分是改改放metrics里. 真正做identification strategy的好像只有那篇DID. 同样的逻辑也被用在另组人另一篇文章里. 总之, 如何用还待创新. 但经济直觉是永恒不变的话题.

Bertrand. Lives of the rich and the poor over time

Nick. Efficiency And Equity Of Land Policy In Developing Country Cities: Evidence From The Mumbai Mills Redevelopment

Cicala (Chicago Harris). Imperfect Markets versus Imperfect Regulation in U.S. Electricity Generation. aer rr

BKRR. Machine Learnings from Schools About Energy Efficiency

类似的话题

  • 回答
    机器学习在经济学领域的应用前景,可以说是非常广阔且令人兴奋的。这不仅仅是理论上的可能性,而是实实在在的、正在改变我们理解和实践经济学的方式。过去,经济学家们主要依赖理论模型和传统统计方法来分析经济现象。这些方法在解释宏观经济趋势、理解市场结构等方面发挥了重要作用,但也存在一些局限性:它们往往需要对经.............
  • 回答
    机器学习领域充满了形式简单却蕴含深刻智慧的创意,这些创意往往能够以出人意料的有效性解决复杂问题。以下我将详细阐述几个这样的例子: 1. 梯度下降 (Gradient Descent)核心思想: 想象你在一个陡峭的山坡上,目标是找到山谷的最低点。你没有地图,只能感觉到周围地面的倾斜程度(梯度)。最直观.............
  • 回答
    作为一名机器学习初学者,如何选择适合自己水平的论文是一个非常关键的问题。阅读论文是深入理解机器学习理论和实践的最佳途径之一。如果一开始就选择过于复杂或与自己知识背景脱节的论文,很容易产生挫败感,影响学习的积极性。下面我将为你详细讲解如何一步步选择适合你水平的机器学习论文: 第一阶段:打好基础,建立知.............
  • 回答
    机器学习领域的“炼丹”和化学材料领域的“炒菜”,虽然都带有自嘲的意味,并且在某种程度上都涉及到对现有材料或算法进行组合、优化和实验,但它们在本质上存在着显著的区别。这些区别体现在其目标、方法论、实验对象、可控性、理论基础以及最终产物的价值导向等方面。下面我将尽量详细地阐述它们之间的本质区别: 机器学.............
  • 回答
    机器学习模型看似只是一个“黑箱”,通过调整参数来获得更好的性能,但实际上,“调参数”只是整个机器学习流程中的一个环节,而且如果过度依赖它,确实会变成“只是调参数”。要避免这种情况,需要从更宏观的视角理解机器学习的本质,并采取一系列更深入、更系统的方法。以下是机器学习如何避免“只是调参数”的详细阐述:.............
  • 回答
    机器学习中的“机器”本身并没有意识,它无法像人类一样去“分辨”有用的知识和没用的信息。它所做的,是根据预设的算法和训练数据,从中提取模式和规律,并将这些模式和规律转化为能够指导决策或预测的能力。那么,我们如何理解这个过程呢?可以从以下几个方面详细解释: 1. 数据的本质:信号与噪声在机器学习的世界里.............
  • 回答
    在处理极度不平衡的数据集进行分类任务时,如果仅仅依赖于传统的准确率(Accuracy)来评估模型,那很可能会被误导。这是因为在样本极度不平衡的情况下,即使模型将所有样本都预测为多数类,准确率也可能非常高,但这并没有真正捕捉到模型对少数类的识别能力。因此,我们需要更精细化的评估指标来全面衡量模型的性能.............
  • 回答
    在机器学习的世界里,我们时常会遇到一个叫做“过拟合”的棘手问题。想象一下,你辛辛苦苦训练了一个模型,它在你的训练数据上表现得无懈可击,甚至能记住每一个微小的细节。然而,当你拿到新的、从未见过的数据去测试它时,它的表现却一落千丈,仿佛之前的学习都付诸东流。这就是过拟合在捣鬼。为了对抗这个顽固的敌人,我.............
  • 回答
    PR曲线,也就是精确率召回率曲线(PrecisionRecall Curve),是评估二分类模型性能的重要工具。它描绘了在不同分类阈值下,模型的精确率(Precision)和召回率(Recall)之间的权衡关系。很多人在看到PR曲线的绘制方式时,可能会产生一个疑问:PR曲线一定会过(1, 0)这个点.............
  • 回答
    在机器学习的广阔天地里,有哪些领域真正能在工厂车间里发光发热,并且在未来依旧充满想象空间呢?咱们不谈那些高高在上的理论,就聊聊那些实实在在能解决生产问题,并且越做越有劲头的小方向。1. 预测性维护:机器的“未卜先知”想想看,一条生产线上的昂贵设备如果突然出了故障,那损失可不仅仅是维修费那么简单,停产.............
  • 回答
    机器学习入门,这绝对是一段激动人心的探索之旅!别被那些高深的数学公式和炫酷的应用吓到,归根结底,它是一种让计算机“学习”如何完成任务的科学。就像我们小时候通过模仿和尝试来学习一样,机器也是如此。下面,我来跟你掰扯掰扯,怎么能稳稳当当地踏上机器学习这条路,让你觉得这是个活生生的人在跟你说话,而不是冰冷.............
  • 回答
    要想彻底搞懂机器学习中的优化理论,这可不是一蹴而就的事,更像是在知识的海洋里航行,需要循序渐进,打下坚实的基础。我个人觉得,要看到这个领域的核心,大致可以从以下几个方面着手,并且每一步都需要投入时间和精力去消化。第一步:数学基础的“基石”别看到“数学”两个字就头大,这块儿是真绕不过去的坎儿。优化理论.............
  • 回答
    好,咱们不聊那些虚的,直接上干货。想在机器学习岗位的面试中脱颖而出,想让面试官眼前一亮,除了扎实的理论基础和项目经验,确实有一些“杀手锏”,能让你在众多候选人中显得鹤立鸡群,这绝对不是吹牛,而是实实在在的加分项。咱们就来掰扯掰扯这些能让你“装(加)分(分)”的东西,而且越详细越好,让你心里有底,面试.............
  • 回答
    在机器学习和贝叶斯统计领域,我们经常会遇到一些棘手的积分问题,尤其是在计算后验分布的归一化常数(也称为模型证据)或者进行边缘化以获得预测分布时。这些积分往往无法解析求解,我们称之为“难以处理的积分”(intractable integrals)。为了解决这些问题,我们不得不依赖一系列的近似算法。虽然.............
  • 回答
    好的,咱们就来聊聊机器学习这玩意儿,把它说得明白透彻,就像跟老朋友聊天一样。机器学习,说白了,就是让计算机“学本事”,而不是我们一步步地告诉它怎么做。你想啊,咱们人类是怎么学习的?是通过经验,通过观察,然后从中找出规律,再用这些规律去解决新的问题。比如说,你小时候第一次见到猫,你妈告诉你这是“猫”。.............
  • 回答
    在我看来,一个机器学习理论方向的博士生,是否会深入接触到像黎曼几何、代数拓扑这样“高大上”的现代数学,这事儿得分几方面看。说实话,不是每个 ML 理论博士的轨迹都完全一样,但总的来说,我认为答案是:很有可能,而且在某些前沿领域,这些数学工具的出现频率会相当高。咱们先别着急下结论,得好好掰扯掰扯为什么.............
  • 回答
    机器学习算法工程师想要跳出打工的框架,自己接项目单干,并且收入翻倍甚至更多,这条路绝对可行,但绝非易事。它需要你不仅仅是个技术牛人,更要学会成为一个精明的生意人、一个高效的项目管理者,和一个有魅力的人脉拓展师。下面我将从几个关键维度,详细拆解一下这条“单干”之路,希望能给你一些实在的指引。一、 核心.............
  • 回答
    机器学习在 Web 攻击领域,与其说是“建树”,不如说是一种日益增长且极具潜力的能力,它正在重塑攻击者和防御者之间的攻防博弈。过去的 Web 安全更多依赖于已知的攻击模式、签名匹配以及人工分析。而机器学习的引入,则为识别和利用“未知”以及“变异”的攻击手法提供了新的思路和强大的工具。机器学习如何赋能.............
  • 回答
    当然,机器学习的解释模型是存在的,而且是当前机器学习领域一个非常重要且活跃的研究方向。简单来说,它们是为了回答一个核心问题:“为什么这个机器学习模型会做出这样的预测?”我们知道,很多强大的机器学习模型,尤其是深度学习模型,常常被形容为“黑箱”。它们能够识别出图像中的猫狗,预测股票价格的涨跌,甚至生成.............
  • 回答
    哎呀,你这个问题问得太好了!联邦学习这东西,对于刚入门的来说,FedAvg 和 FedSGD 确实是绕不过去的基础,而且名字听着都挺唬人的。别担心,我来给你捋一捋,尽量讲得细致点,就像跟朋友聊天一样,让你听明白,不搞那些虚头巴脑的。咱们先得弄明白,什么是“联邦学习”?你可以想象一下,现在有很多很多手.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有