计量经济学不是伪科学。
计量经济学根本不是科学。
计量经济学是针对经济学中常常遇到的统计问题而发展出来的一系列数学工具。
经济学研究是科学研究。科学研究通常需要用到数学工具。但数学工具本身并不是科学,更不是伪科学。
举个简单的例子,线性回归是一种计量经济学方法,研究两个或变量之间的相关性。同样用线性回归方法分析金融数据,发现财报中亏损对公司股价有负面影响,这是科学;发现CEO属牛对公司股价有正面影响,这是伪科学。
工具本身无所谓科学还是伪科学,研究的问题决定是科学还是伪科学。
逻辑美妙,假设错误。
计量经济学肯定不是伪科学,但是为什么会有人认为计量经济学是伪科学就是个很值得思考的问题了。
我们举几个例子:
比如说林毅夫,他是中国最著名的经济学家之一,《Rural Reforms and Agricultural Growth in China》是他的成名作之一。在这篇文章里他提到实施家庭联产承包责任制(HRS)后粮食产量能增加20%(误差仅为1%),而增加1%的化肥施用量可以增加0.19%的粮食产量(误差同样仅为1%),且回归模型的拟合系数达到96%级别,看起来一切都很美好的数据对吧?
但是问题就出在化肥施用量上,如果这个数据没问题,那么以论文中完全实施家庭联产承包责任制后的1985年数据为例,增加1公斤化肥施用量仅仅可以增加4公斤粮食产量。
这个数据问题很大,根据农业部植物营养与养分循环重点实验室张福锁教授在《中国主要粮食作物肥料利用率现状与提高途径》一文中对全国粮食主产区进行的1333个田间试验结果1公斤化肥施用量可以增加8-10.5公斤粮食产量——研究计量经济学的专家为了论证HRS的有效性完全无视了化肥这一重要变量数据他们是否有没有处理好,结果是否正确。
事实上根据《中国统计年鉴1989》p713数据,1985年粮食价格仅为383.3元一吨,而化肥价格高达369.5元一标准吨。这里注意下化肥用的是标准吨,如果以施用量最大的氮肥为例含氮量为21%,而我们指的化肥施用量要折算成100%含氮量,这意味着含氮一吨的化肥价格高达1759元,如果1吨化肥施用量仅仅可以增加4吨粮食产量的话那么增产的粮食价格仅为1533元!这完全不合情理!完全可以推翻林毅夫论文的论证结果。
事实上,我本人也做过估计,仅仅用粮食产量、化肥施用量、成灾面积、HRS、和粮食播种占比这几个量做回归也可以得到很漂亮的数据:
折算后的化肥施用量估计值0.3540(标准误0.025),意味着增加1%的化肥施用量可以增加0.3529%的粮食产量,以1985年数据为例1公斤化肥施用量可以增加9.9公斤粮食产量,与张福锁教授进行的田间试验完全一致。
而增加1%的成灾面积将导致0.082%的粮食产量减少,以1985年数据为例大约是1亩成灾面积减少104公斤粮食产量,这与《中国统计年鉴1989》p205中1985年的粮食平均单产232公斤相一致(成灾是指粮食产量减产3-7成之间)
而HRS在数据上则基本上为0,显示HRS并没有那么大的影响力(事实上如果拿成灾面积占受灾面积占比与HRS占比进行回归,则会发现HRS实际上造成了农田水利的严重破坏,实际上造成了农业减产。)
最后的拟合优度也高达98.5%。
这里就可以看到,计量经济学家们往往会为了自己预设的立场,强行进行拟合,虽然数据很漂亮,但是已经完全与专业的统计数据相悖,很容易让人理解成伪科学。
再举一个例子
这个问题下 @Manolo 提到了一篇即将在经济学顶刊Journal of Political Economy登出的研究Land reform and sex selection in China. ——结论大概是这样包产到户大大影响了性别比例,造成性别比例大幅度上升。
不过可惜的是,由于这篇文章引用的是较早的人口统计数据,数据中因为大量的出生女婴瞒报造成了数据严重扭曲,造成了结论完全错误。根据2010年人口普查的数据:
根据2010年的普查数据,我们甚至可以发现HRS开始推广后(1981年)——对应年龄29岁,人口的性别比例大幅度下降了,最低的1986年甚至低于了1!
那么《Land reform and sex selection in China》这篇文章是2018年的新作,三位作者Almond, D., Li, N. H., & Zhang, S是不知道2010年有人口普查而且数据准确度肯定远高于1990年的普查数据吗?显然不是这样的,因为如果他们引用了2010年的普查数据就没办法圆他们预设的立场了,当然不能用。
而这篇回答里所谓的数据帝 @chenqin 也有回复:“我在这个回答里面引用过这篇文章chenqin:在中国当时的条件和大背景下,如果不实施计划生育,那么有什么更好的方法解决当时中国的人口问题?,但是我对他的解读不太一样,收入越高代表土地越值钱,才越需要儿子来继承,对儿子的偏好是始终存在的,但在大队拥有土地的情况下儿子并不能带来多少好处,而土地承包相当于半个土地私有,就把这种对儿子的偏好给完全暴露出来了,以后有什么东西都继承给儿子,传下去。”
这里我要说明下,我和chenqin曾经就人口问题产生过争论,我们双方都引用了2010年的人口普查数据,因此他肯定知道HRS并没有造成性别比例上升,但是那样就不能得到他的预设立场,那自然在回答只会闭口不谈。
事实上计量经济学界有太多屁股决定脑袋的人,为了预设的立场强行拟合得出数据,不管结论到底有没问题。一旦问题出在其他专业题上,就很容易遭受质疑——预设立场去证明不存在的东西,这和伪科学有什么区别么?
泻药。
我跑回归已经多年了,就我多年的经验来看,在经济学类中,“伪科学”的程度基本是这个顺序:
计量——数理/微观——金融/经营——政治经济学/宏观经济学。
越是排在后面的门类,内容就越是“玄”,就越是接近“伪科学”。
计量,是经济学类中,甚至可以说是整个“社会科学”中最“科学”的部分,如果计量都不是科学的话,整个人文社科就都可以算是“伪科学”了。
我依旧记得伍德里奇的计量教材,序言中清晰地写着:
“经济学要依赖于计量实证,才能成为一门科学”。”
波普尔对于科学的阐述,就是命题要具有“可证伪性”,经济学理论的可证伪性从何而来?只能从统计中来,从跑回归中来,若没有计量分析作为实证,经济学甚至连科学都算不上。
计量经济学,它真正的名字该叫做“回归分析学”,它绝大部分内容都是注重于分析变量间相关性,最常用的手段就是“跑回归”,就是在运用和升级运用你高中阶段就学过的最小二乘法。
也许有chaos的大人物可以不使用我们这种落后的跑回归的方法来分析数据,但考虑到90%的计量经济学家依旧在使用这种手段,以及99%的批判者都仅仅只能批判跑回归的方法,所以我们姑且把计量经济学的范畴浓缩在“回归”二字之上。
对于计量经济学的批判往往来自于这样两方面:
第一个方面便是认为计量经济学在耗费大量力气说明那些显而易见的事情,因而“没有多大用处”。
现实中我们跑回归的人也的确如此,搜集了n组数据,无非就是在说明,B,C,D···等变量对A有影响。
比如你在知网上随便动手搜索“实证分析”四个字,就会得到大量这样的文章:
比如,高管薪酬和公司业绩的关系,这个用鼻子想也能得出“公司业绩越好,高管薪酬越高”的结论。
再比如,“地方财政支出与居民消费的关系。”我国地方财政的一个方向就是发低保和拉就业,你给别人发了钱,不促进消费才怪。
可见我们很多时候,都在试图说明一些“显而易见”的道理。
但这是不是意味着我们在浪费时间?并非是这样,我举个例子,费马大定理,哥德巴赫猜想的正确性,恐怕是无庸置疑的。无数数学家以毕生精力来“证明”这些显而易见的东西,是不是也在“浪费时间”?
花时间证明这些显而易见的道理,恰恰反映了计量经济学家的两种精神:
1:怀疑的精神,科学的精神便是怀疑的精神,我们想象一下,如果这些显而易见的道理被证伪了,业绩好的公司的高管收入不比业绩差的公司高,这岂不是说明了高管也是被压迫的阶级?如果地方财政支出无法促进消费,这岂不是直接证伪了凯恩斯主义?
你怀疑的东西可能是对的,但这不代表你的怀疑精神没有意义,时代在变化,有些过去时代毋庸置疑的信仰也会过时,天主教曾认为洗澡对身体有害,中华传统也认为喝冷水不好,这些理论曾经都有一些道理,但最终被时代淘汰了,如果没有这种怀疑的精神,这些陈旧的信仰要如何才能推翻?回归猿的这种做法,恰恰是科学精神的体现。
2:把自然语言能够表述的规律,用数学语言来表达的精神。
数学家总是在证明一些“显而易见”的东西,但有谁能认为数学是没有意义的呢?证明过程的真正的意义不在于“知道某件事情是真的”,而在于用精确的语言把一个规律给表达出来,因为数学的语言是最为精准的,发展了这样的语言本身就是最大的意义。
在证明的过程中你会发现很多东西,正如你爬山,可能一开始的目的就是爬上山顶,但走在途中,却发现了美丽的花朵。一开始你不知道这里会有花朵,所以你的“目标”只能是“山顶”,如果你因为预知山顶的风光不美而放弃了爬山,那么你反而还会错过这些花朵。
在数学中,这些花朵有很多,“引理”(Lemma)往往是在证明某个问题的过程中被提出来的,有名的引理往往会在别的地方被多次使用。群论(Group Theory)最初是在研究多项式的求根公式中被提出来的,有了二分法和计算机之后高次方程的求根公式变成了无意义的东西,但群论却成为了代数领域重要的研究方向。
在经济学和社会科学中,这些途中出现的“花朵”也并不少见。
譬如,跑回归有时会面临这样一些问题。
比如,变量间的关系不是线性的情况下,用传统的高斯最小二乘法会依然得到一个线性的显著结果,你如果拿着自由落体的距离和时间跑回归,你也会得到一个线性关系,然而我们知道这个关系不是线性的。
为了确认变量间的线性关系和排除递增的测量误差,计量经济学家发明了异方差检验,这样,我们就不会错把非线性的关系当成是线性的。
我们所熟知的“多重共线性”,“异方差”,“自相关”的检验,无一不是在无数次跑回归,在无数次试图证明“显而易见的道理”的过程中发现了问题,随后发明的。
再比如,“岭回归”(Ridge Regression)的方法,也是在无数次跑回归的过程中发明的,岭回归是一种有偏估计,是为了缩小方差来进行有效预测的一种方法,这种方法往往是在被多重共线性严重扭曲了的数据中使用。
如果不跑它个上百次回归,你恐怕是碰不到一次能用上岭回归或者lasso回归的,如果不是经济学界跑回归的繁荣昌盛,这些方法根本就不可能开发出来,现在,这些方法不仅可以用于经济学中,还能造福其他社会科学。
计量经济学是一把剑,不要因为眼前的敌人太弱鸡,就觉得磨剑没有用,有朝一日,也许这把剑能救你命。
对于计量经济学第二个批判,是计量数据的真实性问题,张五常先生觉得这些统计是不够详细的,是不够真实的,有些数据还有误导效果,仅仅靠几个指标,根本就不能反映所有公司的全貌。
张老虽然信奉实践出真知,喜欢到处参考例子,显得比较真实,然而个人的考察很难是无偏的,成功学之所以不靠谱,就在于只考察用什么方法成功了的人,而不考察用同样方法却失败了的人,有的时候运气比你什么技巧都管用,如何说明这是运气而不是技巧的结果?你只能用统计的方法,或者说统计的意义就在于此。
张老说出那番话,反对的可不是计量经济学,而是统计学本身,统计学者并非如同张老所设想的那样,对手里数据的真实性一无所知,我曾经说过,统计方法可以判断出大概有多少公司的财务报表造了假,也可以判断阅卷老师有没有放水让学生及格,随机扰动项的分布能看出很多问题,是蓄意造假的数据,还是统计方法有问题,还是别的什么,往往是瞒不过老练的统计学家的,除非造假的人水平太高。
至于几个指标能否反映企业的真实情况,财务报表上的所有东西,我们回归猿其实都可以运用,如果财务报表不能很好地反映企业的情况,我觉得张老应该首先说“会计学”是伪科学,首先怼财报的编制不科学,也轮不到我们跑回归的来背锅呀。
张老批判的东西多了去了,他还说过效用理论就是空中楼阁,显示偏好的公理不一定成立,这样看来,他一样觉得微观经济学不靠谱,总之整个经济学他觉得靠谱的东西都不多,如果我们把他的话当真,就如同把中科大教授的那句“211都考不上,读个普通一本毫无意义,我建议去日本读个语言学校。”当真一样,那我们还学习经济学干什么?
至于奥派,奥派的数学水平大家有目共睹,罗斯巴德连一点集合论常识都没有,无法理解数理经济学也是自然,何况我们跑回归的也和带着先验前提的数理经济学还是有区别的。
许多人觉得我们是“图表派”,这又是无端的指责,跑回归的其实并不需要画什么图,只需要知道系数,pt值,R方,DW检验,就能知道变量间的相关性,把散点图和拟合曲线画出来,多半是为了说给外行听,或是要介绍新方法,至于表,数据本来就天然存于表中,这也是统计局和会计师的劳动成果,并不是计量经济学的专利。
相比之下,为了说明问题,微观经济学,金融学,商学才是动不动就喜欢“画图”,什么艾奇沃斯图,供求曲线,股价变动,市场变化等等,认为跑回归的才是“图表派”,是典型的无知表现。
对比一下经济学的其他领域,宏观经济学的东西,一派与一派都争论不休,连个基本共识都少有。
微观经济学论证一个问题,假设前提都先写整整一页纸,比如阿罗德布鲁要证明私有经济的一般均衡,假设了“显示偏好的强公理”“局部非饱和”““瓦尔拉斯拍卖者”等10多个前提。
而跑回归的,连“理性人假设”都不需要,除了“统计数据基本属实”“回归分析有效”两条之外,没有任何先验的前提,我实在想象不出,整个社科中还有人比这个更讲“科学”吗?
@星日马 老师回答的太好了。稍微谈谈我的看法。
这里的“伪科学”一词其实有不同的含义。它的确切含义是:本身并非科学但是假装自己是科学。
但是“科学”这个词在中国本身就是含义不清的,按照库恩等专门研究科学史的人,它有确切的含义,本身就是科学共同体所相信并采用的那些“范式”,但是在中国的语境下,科学这个词是有价值判断的,它指那些正确的、合理的、有用的东西,如“这不科学”。
如果这个更宽泛的语境,那么“伪科学”其实是看起来有用,实际并没有什么卵用的东西。这个星日马等各个大牛已经回答的很好了。
然而从第一个含义上看,就比较有趣。
拿微观计量里的“双重差分”而言,这个就是用科学术语包装起来的方法。因为从计量的角度,这个本质上就是一个交互项的回归,无所谓科学不科学。但是它的术语显得很科学,例如它有treatment group和control group,要估计一个treatment effect,还需要进行placebo test(安慰剂检验),这显然是医学上所谓的随机双盲对照实验的术语。
换句话说,这里完全符合“假装自己是科学”这一条。
而至于它本身是不是科学呢?实际上不一定。
例如应该是《世界经济》以前有过一篇论文,就对现在双重差分的使用提出了一些批判,如他们认为如果双重差分不满足分组的随机性和外生性,那么只能叫做“交互效应回归”,而不能叫做双重差分。
然而实际上分组是外生的这一条件很难达成,而双重差分可能只要求“平行趋势”等假设。如果分组不是外生的,通常采用匹配(如psm)的方法,使得分组近似“随机”,但即使这样处理,和医学上所谓的“随机对照实验”依然差别很大。
从这个意义上说,可能确实有“并非科学但假装科学”的现象。
但是换一个角度,如果分组不是随机的,难道我们就不对想要研究的现象采取更加细致的处理,而仅仅凭借经验和简单的相关性下结论吗?(如,对外投资能否提高企业的生产率,恐怕我们很难把企业随机分成两组,让一组企业去投资,另一组企业禁止投资)恐怕这时候仍然采用双重差分就是一个次优的选择,也就是这一现象的研究我们可能很难甚至无法做到“科学”,但是我们可以尽可能像科学近似。这是我们能找到的最正确,也是最有用的方法。
可以考虑如下几个假想场景:
1,你爸看不惯你经常撸串,他最近迷上了某档养生节目,准备按照专家的建议吃素。他想劝你一起加入,理由是吃素能长寿,证据是报纸上经常报道长寿和尚的故事,而和尚吃素,所以他得出结论:吃素能长寿。
点评:问你爸几个问题:报纸报道了长寿的和尚,对短命的和尚也有报道吗?你知道长寿的和尚占全体和尚的比例是多少?其他因素,比如遗传,有考虑吗?同样地,普通人的相关统计呢?是不是也要拉出来比一比?还有,吃素是只吃素,还是多吃素,还是存在某个黄金比例?有没有可能关系不是线性的,而是抛物线?超过或者少于某个最优值都不好?
你爸肯定回答不上来。别说计量了,你爸连最基本的统计学原理都没有学好。
2,你家楼上装修,你妈发现自从楼上装修以后,你家的天花板开始出现裂纹。你妈认为,正是楼上装修不当,损坏了你家的天花板,于是向有关部门投诉,要求楼上住户赔偿。有关部门的工作人员接到电话,上门勘察。经勘查,该工作人员认为,你家天花板出现裂纹,是因为你家房子使用年限较长,发生的自然折旧,与楼上装修无关,证据是他最近也接到了你家小区其他住户关于天花板裂纹的类似反馈。你妈不信服他的说法,理由是同一层楼其他住户,和自己住的一样久,并没有出现这个问题。你妈要求工作人员出示统计数字,以支持他「自然折旧」的论断,该工作人员的手机号码却再也联系不上。
点评:楼上装修,不必然导致你家天花板破裂;而别家也有天花板破裂的问题,亦不能推翻「邻居装修导致你家天花板破裂」的猜想。双方都不能说服对方的情况下,你妈要求工作人员提供更多统计数字,比如,有相似问题的另一家,是否也有邻居装修?显然是有助于发现症结的方法。找准对应的控制组和实验组很重要。该工作人员但凡有一点计量经济学基础,就能认识到自己给群众的答复是草率的。
3,你姐申请国外某名校的研究生没有成功,她明明很优秀,绩点高,还很早就加入了大牛的课题组,本科期间有不少研究项目经历。和她一起申请的好几个同学也没有被录取。她怀疑招生中存在种族歧视,于是向校方写信,要求调查。校方在回复中,向她展示了一组统计数字,数字反映,该校有好几个专业,跟历史相比,亚裔的录取率都上升了,因此,该校认为自己并不存在种族歧视的倾向。
点评:这个案例生动反映了简单统计的不靠谱,这也是我们为什么需要计量经济学的原因。哪怕每个专业亚裔录取率都在上升,总的亚裔录取率依然可能是下降的!因为我们不知道亚裔的申请的专业分布。举个例子,假设今年和去年都有100个亚裔申请该校,在去年,20人申请 A 专业,80人申请 B 专业,A 专业录取1人,B 专业录取19人,总计录取20人。在今年,80人申请 A专业,20人申请 B 专业,A 专业录取5人,B 专业录取14人,总计录取19人。总录取率下降,而你分开统计,两个专业亚裔录取率却都提高了。因为遗漏相关变量,忽视权重的影响,造成统计数字的不可靠,就叫辛普森悖论。辛普森悖论也正是田忌赛马为什么能赢的原因。
4,你的部门主管最近在推一个促销活动,主要通过向一部分用户发送附有折扣券的电子邮件。活动结束之后,你们发现这个月营业额显著上升了。于是,在有公司领导参加的工作总结会议上,你的主管开心地表示,这个促销活动非常有效。一向严谨的你却在会议上表达了自己的担忧,这个月的销量激增也可能和季节有关,要得出促销活动效果显著的结论,还需要统计用户打开邮件并下载折扣券的数字。来开会前,你私下向 IT 部门申请了这个数据,结果发现,真正打开促销邮件的客户,不到3%。你说完这番话以后,你发现部门主管面色铁青,刚刚还把主管夸奖一通的公司领导也满脸尴尬。一周之后,总部人员找你谈话,希望你在平时工作时,注意和团队其他成员保持良好关系。
点评:这个例子充分展现了学好计量经济学也是有很多副作用的。
5,你写的文章被抄袭了。这篇文章在你自己的公号不过百赞,在抄袭人的公号却突破了十几万赞,为抄袭人带来了一波不小的流量收入。当你的朋友告诉你这个消息,你感到非常气愤。于是,你联系了抄袭人,抄袭人却拒不承认抄袭的事实,还让你随便去告。为了维护自己的权益,你只好向法院提起诉讼。由于你平时的授权费用是5000元一篇文章,考虑到对方藉此获得了一笔商业收入,你要求对方向自己支付5%的收入分成,以及精神损失3800元,共计38000元。在庭审现场,对方承认了抄袭的事实,但表示,原文仅有百余点赞,数千的浏览量,根本不值原告所声称的费用。而自己获得的广告商业收入,投放商看重的是自己的品牌,而不是原告的文章。你方律师反驳了这种看法,认为原告之前和多家达成合作,说明其文章质量是受到市场认可的。而且,也不能仅从原告自己的公众号浏览量来判断文章价值。该浏览量不代表真实的传播量,很多传播量实际上是被抄袭方所窃取。读者会在朋友圈转发这篇文章是因为它的质量,如果不是原告的主张,他们并不知道这篇文章本来的出处。对于这种从不自己创作的抄袭号,你很难说它有什么品牌价值。
因为公众号文章授权纠纷在当地尚属首次,法院缺乏应对经验,目前这类无形资产的可靠的估值和定价模型也很少,所以法官无法确定流量收入和原文质量之间的因果关系,从而无法评估侵权行为的真实损害。法院不想增加自己的工作量,也为了保险起见,法院向当地报纸行业询问了稿费标准,最后按照千字500元的标准作出了判决,同时法院驳回了原告的其他请求。最终,侵权方向原告支付了2500元的赔偿。听到判决以后,你失声痛哭,表示这个判决不等于告诉大家,以后转载文章别走授权了,走授权要5000元,而直接抄袭只要2500元!
点评:建议未来法学院也应该加入计量经济学课程!
6,你上大学的弟弟发现这学期食堂的菜和饭的量都大幅减少了,牛肉面几乎没有牛肉,土豆排骨几乎都是土豆。于是,他向学校投诉。学校问他有没有证据,他便建议学校去调查全校学生开学初的体重和学期末的体重,从而证明食堂确实克扣学生的口粮,让大家的体重都下降了。学校对他的建议很重视,把食堂经理叫来了。但他没想到遇到了一个经济学专业毕业的食堂经理。经理说你搜集的那数据没用,因为你不知道如果大家都不在食堂吃的体重会是多少,只有知道这个体重,你才能算出食堂膳食是否有恶化。这个体重值不一定等于开学初的体重,因此,你用学期末的体重减去学期初的体重并没有道理。看着你弟弟无可奈何的样子,经理非常得意。
点评:幸好你弟弟晚上遇到了答主,答主悄悄递给了他一本书,叫《基本无害的计量经济学》,并叮嘱说,对付经理的方法,都在里面写着呢。
计量经济学正可以放在以上场景,用以排除各种混杂因素、认知偏误,使我们朝着变量之间更为干净的关系逼近。事实上,类似的场景还有很多,比如有人会从简单统计中得到「警察越多的地方,犯罪率越高」、「枪击案的幸存者中,头部中弹的少,四肢中弹的多,说明要加强对四肢的防护」等这类明显有问题的观点,这也可以通过计量方法或计量思想加以纠偏。
题主怀疑计量经济学是伪科学,那么我请问,你觉得在以上这些案例中,难道那些基于直觉、简单统计得出的观点,会更科学吗?