问题

可重复危机是心理学的危机,还是心理学研究方法的危机?

回答


可重复性危机(The Reproducibility Crisis)是心理学研究方法和学科发展的双重问题,既涉及心理学作为一门学科的局限性,也反映研究方法论的缺陷。这一危机的核心在于:心理学研究中大量实验结果无法被其他研究者重复验证,导致对研究结论的可信度产生质疑。以下是详细分析:



一、可重复性危机的背景与表现
1. 科学界关注的焦点
近年来,心理学领域出现大规模的可重复性问题。例如,2015年的一项研究(Project Reproducibility)对100项心理学研究进行重复实验,结果发现仅39%的研究结果能够被成功复现。这一现象引发了学术界对心理学研究方法和科学规范的广泛讨论。

2. 典型问题案例
样本量过小:许多实验仅以几十到几百名被试为样本,导致统计效力不足,结果可能因偶然性而不可靠。
实验设计缺陷:研究者可能未严格控制变量,或依赖主观测量工具(如自我报告问卷),导致结果受被试个体差异或实验情境干扰。
统计方法不当:过度依赖p值(如p<0.05)作为显著性标准,可能导致“发表偏倚”(publishing bias),即仅发表显著结果,而忽略无显著结果的实验。
实在,心理学研究中存在“显著性崇拜”(significantism)现象,即研究者倾向于追求显著结果,而非严谨的科学验证。



二、危机的根源:心理学学科的特殊性
1. 人类行为的复杂性
心理学研究对象是人类,其行为受生理、心理、社会和环境等多重因素影响,难以完全控制变量。例如,实验中被试的动机、情绪状态或实验环境(如实验室的冷清氛围)可能影响结果,导致重复实验结果不一致。

2. 被试的主观性
心理学研究常依赖被试的自我报告(如问卷调查、访谈),而主观体验的波动性(如焦虑、疲劳)可能影响结果的稳定性。例如,一项关于“记忆遗忘”的实验可能因被试的注意力分散而产生不同结果。

3. 研究者偏见与实验者效应
实验者可能无意识地影响被试的反应(如通过肢体语言或语言暗示),导致结果偏差。此外,研究者可能在实验设计中选择性地收集数据(如“数据挖掘”),进一步降低结果的可重复性。



三、危机的根源:研究方法论的缺陷
1. 方法论的局限性
实验的自然主义:心理学研究常在自然环境中进行(如观察被试在日常情境中的行为),难以严格控制变量。
量化与质化的矛盾:心理学研究既需要量化数据(如实验条件的客观测量),又需要质性分析(如被试的主观体验),但两者在方法上难以完全统一。
跨文化与情境的差异:心理现象可能因文化背景或实验情境(如实验室与真实环境)而不同,导致结果无法跨文化或跨情境复现。

2. 统计方法的过度简化
p值的滥用:p值仅反映数据与假设的矛盾程度,但无法直接说明结果的科学意义。许多研究将p<0.05作为“显著”的标准,却忽略了效应量(effect size)和研究设计的合理性。
多重比较问题:在实验中进行多次统计检验(如多个条件组的比较)时,未进行校正,导致“虚假显著性”(false positives)。
小样本的统计效力不足:许多实验样本量不足,导致结果的统计效力(power)低,无法有效区分真实效应与随机误差。

3. 研究伦理与出版压力
发表偏倚:期刊倾向于发表显著结果,而忽略无显著结果的实验,导致研究结果的偏倚。
“可重复性”的优先级不足:研究者可能更关注论文的发表率(如影响因子)而非结果的可重复性,导致研究质量的下降。



四、危机的解决路径:方法论的革新与学科反思
1. 方法论的改进
增大样本量:通过更大样本或元分析(metaanalysis)提高统计效力,减少偶然性影响。
严格的实验设计:采用双盲实验、随机分组、控制干扰变量等方法,减少实验者效应和被试偏差。
开放数据与代码:允许研究者公开实验数据、分析代码和材料,便于他人复现。
替代统计方法:采用贝叶斯统计、效应量分析等方法,减少对p值的依赖。

2. 学科的反思与变革
强调可重复性:心理学界逐渐将“可重复性”作为研究质量的核心标准,推动“开放科学”(open science)运动。
跨学科合作:与计算机科学、统计学、神经科学等学科合作,开发更精确的测量工具和实验设计。
研究伦理的规范:建立更严格的同行评审制度,减少发表偏倚,鼓励发表“不显著”但有意义的结果。



五、结论:危机的双重属性
可重复性危机既是心理学研究方法的危机,也是心理学学科发展的危机。
方法论层面:心理学研究的复杂性和主观性导致实验难以严格控制变量,而统计方法的缺陷(如p值滥用)进一步削弱了结果的可重复性。
学科层面:心理学作为一门研究人类行为的学科,其研究对象的特殊性(如主观性、复杂性)使得可重复性问题更突出,也促使心理学界反思其科学性与方法论的改进。

因此,这一危机既需要方法论的革新,也需要心理学界对自身研究范式的反思,以推动学科向更严谨、可重复的科学方向发展。

网友意见

user avatar

谢谢邀请

是双料危机,即心理学本身有危机,心理学研究方法问题也很严重。

  • 有问题的研究实践(QRPs)

“问题研究实践”,英文名Questionable Research Practices。Leslie K. John等人于2012年发表的论文[1]中主要描述讨论了几种心理学界研究乱象。此类行为虽不至于上升至欺诈的地步,但也是作者为了论文好看做出的一些不当之举,其对于数据和分析的“灵活”操纵使得作者的研究目标更容易被凸显出来,这类手段包括但不限于:

  1. 不提交全部数据,选择性地报告和使用数据
  2. 在效果最显著的时候选择停止收集数据
  3. 在论文中没有透露所有的研究条件
  4. 当显著值p<0.054的时候,四舍五入至p<0.05
  5. 在一系列勾连的理论中,只把做成功的部分发表出来
  6. 在看过不同数据对结果的影响之后,为了让结果显得更好看,重新调整权重参数(虽然并没有可靠的理由)。
  7. 在论文中报出一个“意外”的结果,实际上是早就设计好的

以及等等层出不穷的造假手段。研究团队对2000多名心理学家进行了采访之后,发现大多数人都承认自己至少使用过一次这些QRPs手段。出于科学家们对学术不端的羞耻和畏惧,我们可以猜测里面还是有许多人说了谎了,也就是说几乎所有心理学家都或多或少地使用过QRPs方法。甚至说只要利益到了,捏造数据也是大有人在的。[2]

种种学术不端行为导致心理学实验难以被重复。

当然还有不少心理学的纯然理念就导致其相关实验无法被复制,比如2006年提出的无意识思想理论(Unconscious thought theory),具体的不讲了,大家自己看文献去吧。[3]

除此之外,心理学作为人类学的一部分,还有时过境迁的实验无法重复。举个极端点的例子,几十年前有的心理学家曾经证明了,正常人类只要看到同性恋就会感到反感和恶心。几十年过去了,对同性恋的污名化运动早已结束,你在这个年代重复这个实验就不太可能了。

往大了说,还是因为心理学这门科学没有形而上学的奠基,其理论基础本身就不牢靠,没有一个统一的万用的评价标准,甚至学科内的某些标准都很奇怪。而且说句难听的话,心理科学界从来没有天才降临,任何一个学科都需要天才级别的人来统合行业内所有知识,大幅度推动行业前进,否则这个行业就会不断“衰老”[4]。心理学自从诞生至今,从来没有出过一位UR科学家,引领行业潮流,制定行业规则,所以这个行业在不断衰老,越来越多毫无意义而又漏洞百出的论文充斥着学界,劣币驱逐良币,是目前心理学界的一大危机。

  • 研究方法的陨落

心理学界首先应该大大提升一个实验可重复性对于这个实验的评估结果的权重参数,作为实用人类学,一个不可以被实践出来的理念价值应该不会太大。我很高兴现在已经有一些聪明的科学家们提议多让心理学本科生在学习期间多去重复一些经典的(或者不经典的)心理学实验。一来可以让学生们对于老的新的经典心理学实验有所了解,二来还能让学生们多学学怎么设计优秀的,可重复性高的实验,最后还能概率挖出来一群弄虚作假的咸鱼心理学家,一举多得。

第二,学心理的家伙们一般数学都不好,所以一个p值检验法用了几十年,我不是说p值检验法没有贝叶斯方法好,而是这种科学研究本身就应该用多种多样的方式来验证结果,如果学界能做到对一个结果的显著程度同时用p值检验和贝叶斯方法的话,实验的可重复性也会高很多。最关键的,我还是觉得p<0.05实在是太不显著了,假如能提到p<0.005的话,实验的可重复性应该能上去不少,只是不少咸鱼的饭碗可能要砸了。

第三,共享所有原始数据,要求实验设计一旦敲定,没有明确的理由不允许乱改设计和参数,同时强制上传所有原始数据,这样一来造假份子也好,打擦边球的也好,都将承担更大的成本,同时大量原始数据也可以由现在的大数据技术驱动来挖掘更深层的心理学知识。

以上


参考文献:

[1]John, L. K., Loewenstein, G. and Prelec, D. (2012) ‘Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling’, Psychological Science, 23(5), pp. 524–532. doi: 10.1177/0956797611430953.

[2]As Dutch Research Scandal Unfolds, Social Psychologists Question Themselves

[3]Dijksterhuis, A. et al. (2006) ‘On making the right choice: The deliberation-without-attention effect’, Science, 311(5763), pp. 1005–1007. doi: 10.1126/science.1121629.

[4]De Solla Price; Derek J. (1963). Little science big science. Columbia University Press.

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有