问题

有哪些计量回归结果不显著却发表在经济学顶级期刊的论文?

回答
找到明确指出“计量回归结果不显著”却发表在经济学顶级期刊的论文,并进行详细阐述,实际上是比较困难且具有一定挑战性的。原因如下:

1. 期刊发表标准: 经济学顶级期刊通常追求具有理论创新性、方法论严谨性、研究结论有说服力(通常表现为统计显著性)的研究。一个核心的、关键的计量回归结果不显著,往往会削弱论文的结论力量,使得其难以通过严格的同行评审。
2. “不显著”的定义模糊: 统计学上的“不显著”(通常指pvalue > 0.05)是一个相对的概念。在经济学研究中,很多时候关注的不是单一的回归结果,而是一系列稳健性检验、不同的模型设定、不同的变量选择、不同的样本时期等。即使某个关键变量在某个特定模型中不显著,但如果其他重要的经济学逻辑得到支持,或者论文通过其他方式(如政策解读、机制分析、理论贡献)凸显了其价值,也可能被接受。
3. 作者的策略: 作者在撰写论文时,会极力寻找能够支持其理论推导的证据。如果某个关键结果不显著,作者可能会选择:
调整模型或变量: 尝试不同的控制变量、内生性处理方法、分组等。
聚焦于其他显著结果: 论文可能包含多个回归分析,有些不显著,但其他部分的结果非常强有力且支持作者的论点。
进行更深入的机制分析: 即使核心变量不显著,但如果论文能够通过其他方式(如中介效应、调节效应、案例研究、实验设计)解释背后的经济学逻辑,也可能被接受。
关注理论贡献或方法论创新: 论文可能更侧重于提出新的理论框架或新的计量方法,即使实证结果并非非常耀眼。
“发现”不显著本身: 在某些情况下,“不显著”本身也可能具有信息量,比如说明某种理论预测在该情境下不成立,或者某种干预效果微弱,这也能构成研究贡献。

尽管如此,我们可以从更宽泛的视角来理解“计量回归结果不显著却发表在经济学顶级期刊”的情况,并举例说明可能存在的论文类型和作者可能采取的策略:

可能的论文类型及作者策略:

1. 理论驱动型研究,实证部分验证理论框架的合理性:
例子: 一篇提出新理论模型,预测变量A对变量B有正向影响,但实际数据分析时,A对B的系数在统计上不显著。
作者策略:
聚焦于理论的逻辑自洽性: 作者会强调模型推导的严谨性,以及其在经济学理论上的独创性。
“解释”不显著: 作者可能会认为,不显著可能是由于样本的特殊性、测量误差、未观测到的因素、或者干预效果在样本期内尚未显现等原因。他们会提供合理的解释,而不是直接宣称理论错误。
部分变量显著: 论文的其他回归结果,或者模型中的其他关键变量,可能仍然显著且支持理论。作者会以此来平衡不显著的结果。
机制分析: 作者可能会深入分析“为什么不显著”,比如通过分析中介变量,发现理论预测的传导路径不畅通,这本身也是一种发现。
方法论贡献: 如果论文采用了全新的计量方法来处理内生性或面板数据等,即使主要变量不显著,其方法论上的创新也可能使其发表。

2. 政策评估型研究,关注政策的复杂性或负面效应:
例子: 评估一项政府补贴政策对企业投资的影响。核心变量(补贴金额)对投资的影响不显著,甚至可能出现负向的、不显著的系数。
作者策略:
揭示政策的无效性或负面效应: 政策评估研究的价值不仅仅在于证明政策有效,还在于揭示政策的无效性、低效率或 unintended consequences(非预期后果)。一个“不显著”的结果,尤其是一个负向但不显著的结果,可能表明该政策并未如预期般促进投资,或者存在挤出效应等,这本身就是重要的政策反馈。
异质性分析: 作者可能会发现,政策对不同类型的企业(例如,大企业vs小企业,高科技vs传统产业)效果不同,或者在某些子样本中显著,而在总体样本中不显著。
长期效应 vs 短期效应: 作者可能会区分短期和长期效应,指出短期内政策效果不显著,但可能存在长期的潜在影响。
机制分析: 论文会深入分析为什么政策无效,例如可能是因为政策执行不到位、企业缺乏配套能力、市场竞争环境恶劣等,这些都是非常有价值的分析。

3. 大数据或实验研究,结果的稳健性是关键:
例子: 一项基于大数据的调查,检验某个社会经济因素(如教育水平)对某个结果(如健康状况)的影响,在初次回归中不显著。
作者策略:
严格的稳健性检验: 作者会进行大量的稳健性检验,包括更换样本、使用不同的测量方法、考虑多种内生性问题(如工具变量法、安慰剂检验)。如果核心结果在多种稳健性检验下都保持不显著,这反而能增加研究的可信度,证明其结论不是由特定模型设定或数据偶然性造成的。
“无效性”证据: 在大数据和实验经济学中,“无效性”的证据本身也可能是有价值的,尤其是当它挑战了之前的普遍认知或理论预测时。例如,一个广泛认为有效的干预措施,在严格的随机对照试验中发现没有显著效果,这本身就是重要的发现。
关注其他维度: 论文可能通过详细的描述统计、其他控制变量的影响、或者定性访谈等方式,来弥补核心回归结果的不足。

举例说明(假设性):

假设有这样一篇论文,发表在顶级期刊上,研究“某项教育改革措施对学生未来收入的影响”。

核心回归分析: 作者使用面板数据,控制了大量个体和家庭特征变量,回归结果显示,受改革影响的学生,其未来收入的系数不显著(p=0.15)。
作者的发表策略:
1. 理论基础扎实: 作者首先提出了一个坚实的理论模型,预测教育改革应该提升人力资本,进而提高未来收入。这个理论框架本身是论文的核心贡献。
2. 机制分析: 作者没有止步于“不显著”,而是深入分析了改革的传导机制。他们发现,尽管改革提高了学生的短期学业成绩(显著正相关),但并未显著改变他们的“非认知能力”(如毅力、合作精神),而后者是影响未来收入的关键因素。他们通过问卷调查和访谈来支持这一点。
3. 异质性分析: 作者发现,对于那些家庭经济背景非常优越的学生,教育改革确实带来了显著的收入提升,这可能与他们有更多的机会将学业成绩转化为实际收益有关。但对于大多数普通家庭的学生,效果不显著。
4. 稳健性检验: 作者尝试了不同的控制变量组合,使用了工具变量法来处理潜在的内生性问题,但核心结果依然不显著。这反而证明了他们的结论是稳健的,不是模型特异性的。
5. 政策含义的阐述: 作者总结道,这项教育改革“并未实现其预期的人力资本提升目标,尤其是在非认知能力的培养方面,这限制了其对未来收入的长期影响”。他们建议未来的教育改革应更加关注非认知能力的培养,并针对不同家庭背景的学生设计差异化的支持政策。
6. 对“不显著”的解读: 作者将“不显著”本身解读为一项重要的政策反馈,揭示了教育政策设计和实施中的关键问题,也为未来的政策改进提供了重要依据。

总结来说,计量回归结果不显著却发表在经济学顶级期刊的论文,通常具备以下一个或多个特点:

强烈的理论贡献: 论文提出了新的理论模型或框架,实证结果的意义在于验证或修正理论。
重要的机制分析: 论文深入解释了经济现象背后的传导路径或作用机制,即使关键变量不显著,机制分析也可能揭示了重要信息。
具有政策指导意义的“无效性”证据: 论文揭示了某种干预措施、政策或经济理论在特定情境下的无效性,这本身就是重要的政策反馈或理论修正。
严格的稳健性检验和方法论创新: 论文的研究方法非常严谨,或者在方法论上有所创新,即使核心结论不如预期。
对“不显著”本身的合理解释和深入挖掘: 作者能够为“不显著”提供令人信服的经济学解释,并从中提炼出新的研究发现或洞见。
异质性分析揭示了潜在的重要模式: 虽然总体结果不显著,但在特定子样本或条件下存在显著效应。

要找到具体论文并详细阐述确实需要深入阅读顶级期刊的文献库,并且需要具备一定的经济学理论和计量方法功底才能准确判断其价值所在。但以上分析提供了一个理解这种情况的框架。

网友意见

user avatar
经济学家第一定律:对任何一位经济学家而言,一定存在着一位实力旗鼓相当的同时观点又针锋相对的经济学家。

经济学家第二定律:他们都是错的


对于某个问题的经验研究,经常是,某些论文的做出来的结果是“显著为正”,某些论文的做出来的结果是“显著为负”,而有些论文就像题主所说 ——“卖的就是不显著这个点”

比如经济增长与收入(财富)不平等关系的研究。由于以前的学者已经做出了很多显著的计量回归结果,也就是说不平等抑制(促进)经济增长。如果能做出不显著的结果,解释说明人前的结果由于某些原因不稳健(如遗漏变量偏误),或者我这个模型可以从其他角度解读(如影响是非线性的),那么不显著的结果不失为一种 contribution。


直接上一个 Voitchovsky (2009) 的总结图:

图中是1998年以来优质期刊(有些不是top 5)发表的关于不平等影响经济增长的论文。

其中,基尼系数( )用来量化一个国家收入/财富不平等的程度, 一般是人均收入。

显然,星号(*)越少,基尼系数( )的效应越不显著。


其中,

Banerjee and Duflo (2003) 发现经济增长和基尼系数变化量( )之间是非线性关系,加入 使得 不显著,非线性是之前迥异结果的可能原因;

Barro (2000) 发现基尼系数对经济增长和投资的整体影响不明显,但是不平等对穷/富国的效应不一样:抑制穷国经济增长,而促进富国经济增长;

Deininger and Squire (1998) 发现收入不平等不怎么影响经济增长,但是土地不平等有很强的抑制作用;

Knowles (2005) 考虑了度量误差(measurement error)和不同的收入定义,发现总收入不平等的影响不显著,而消费不平等的影响是显著为负的;

Voitchovsky (2005) 认为收入分布顶端的不平等和收入分布底端的不平等有相反作用,相互抵消,使得整体的基尼系数是不显著的。


抛砖引玉,应该还有很多顶级期刊的论文。


References

Voitchovsky, Sarah. (2009). Inequality and Economic Growth. The Oxford Handbook of Economic Inequality. 549-574. 10.1093/oxfordhb/9780199606061.013.0022.

user avatar
概率为1的事件不一定是必然事件,概率为0的事件不一定是不可能事件

谢邀!首先structure form不太可能靠nonsignificant results来发表文章,靠nonsignificant results来做卖点的一般都是reduced form的实证文章。正如 @阿爾托莉雅 所言,在定量实证文章中,无论是经济学、社会学、犯罪学还是心理学,不同学者利用不同数据、不同方法研究同样变量之间的关系经常得到不同的结论,比如在犯罪变迁与经济社会发展、国家司法投入等关系研究中,有的研究发现收入差距与财产类犯罪之间有正关系,而有的发现没有关系;有的研究发现司法投入能极大抑制犯罪,而有的研究却发现不能,如下所示

一些反对质疑定量研究的学者可能会以此为他们的论点,认为定量研究不靠谱。(我一位刑法老师就持如此观点,因为现在关于死刑威慑力实证研究的文章往往得出不同的结论,有的认为有威慑力不应废除死刑;有的发现其实没有威慑力,应废除死刑。大牛Charles F. Manski就有过一篇死刑处理效应partial identificaton与估计的文章可以参考:economics.yale.edu/site

其实出现这种现象的原因在于我们对假设检验的理解与运用。让我们回忆一下Null Hypothesis Significance Testing (NHST)中会出现的四种情形:

NHST很容易造成误解与曲解,在实证研究中出现最严重的问题就是很多研究者接受了原假设并且因为统计检验不显著就宣称事实上不存在效应,也就是在得到不显著的结果时犯了False negative的错误。对此,心理学学者Hartgerink C H J & Wicherts J M 等人收集了1985-2013年8大主要心理学期刊(Developmental Psychology、Frontiers in Psychology、Journal of Applied Psychology、Journal of Consulting and Clinical Psychology、Journal of Experimental Psychology: General、Journal of Personality and Social Psychology、Public Library of Science与Psychological Science)上主要实证结果为nonsignificant的文章,来检验探讨实证研究中是否存在False negative(FN)。首先,心理学8大期刊发表nonsignificant results的统计如下:

黄色表示部分表示各大期刊历年来发表nonsignificant results文章所占比例,可以看出“不显著结果”文章发表比例比“显著结果”文章低很多,基本都是20%左右。再来看看1985-2013年发表不显著文章的变迁趋势:

似乎“nonsignificant results”文章发表的比例还在逐年增加,似乎不存在Publication bias。于此,Hartgerink C H J & Wicherts J M 等人通过两种方法来检验心理学实证研究中,当发现“nonsignificant results”的时候是否存在“false negative”的问题:

  • 方法一:收集计算每篇文章的nonsignificant effect size、及对应原假设 下如果真没有现实效应时应得到的effect size大小,比较二者概率分布,看看并检验是否相同。如果不相同就说明存在false negative的情况,存在现实效应却因为得到不显著的统计结果而判断不存在现实效应。(if and how much the distribution of reported nonsigni cant e ect sizes deviates from what the expected e ect size distribution is if there is truly no e ect (i.e., H0).)

effect size由t值、F值构成,显示效应的强度: ,其中 。最后得到二者的CDF及KS检验结果:

可以发现,二者分布有显著差异(见KS检验),说明存在false negative的问题。

  • 方法二:Fisher Test。作者基于收集到的nonsignificant的p-values来计算一个统计量,进而检验是否存在False negative的问题。首先基于收集到的P值,计算如下transformed P values: , 是每篇实证文章中检验用的置信水平。于此,计算Fisher Test统计量: ,检验的原假设 是收集到的nonsignificant results确实说明不存在现实效应(the null hypothesis we test with the Fisher test is thatall included nonsigni cant results are true negatives),所以当Fisher test在 水平上显著时,那么就至少在所有nonsignificant results中存在一个是false negative。

这个统计量的性质在原文附录中可以找到,最后作者计算出不同期刊存在False negative的情况:

发现47.1%的文章(6951篇)都存在False negative的问题,事实上存在效应但由于作者得到不显著的检验而认为不存在实际效应!所以,以后写论文得到nonsignificant results的时候要牢记:

不显著并不意味着现实中不存在效应

所以论文中当要得出“二者之间不存在效应关系”的结论的时候要多多警惕,最起码除了统计检验,还需要其他的理论或定性实证支撑。


最后回到经济学等其他社会科学实证研究上,对于很多得到nonsignificant results而发表的文章我们现在也怀疑很可能同样存在着false negative的问题。Camerer等人、Chang等人研究过经济学论文可复制性的问题,发现发表在top5上能够实现replication的文章比例很少,当然他们还没有研究过nonsignificant results是否存在false negative的问题,题主不妨用他们的数据做一个试试?


references:

陈硕. 转型期中国的犯罪治理政策:堵还是疏?[J]. 经济学:季刊, 2012, 11(2):743-764.

Manski C F, Pepper J V. Deterrence and the Death Penalty: Partial Identification Analysis Using Repeated Cross Sections[J]. Journal of Quantitative Criminology, 2013,29(1):123-141.

Hartgerink C H J, Wicherts J M, Assen M A L M V. Too Good to be False: Nonsignificant Results Revisited[J]. 2017, 3(1):9.

Camerer C F, Dreber A, Forsell E, et al. Evaluating replicability of laboratory experiments in economics[J]. Science, 2016, 351(6280):1433.

Chang A C, Li P. Is Economics Research Replicable? Sixty Published Papers from Thirteen Journals Say 'Usually Not'[J]. Finance & Economics Discussion, 2015, 652-654:2347-2351.

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有