杜克大学的教授,畅销书作者,Dan Ariely是真的明星经济学家。这篇出事的文章是发表在PNAS上的。
Shu, L. L., Mazar, N., Gino, F., Ariely, D., & Bazerman, M. H. (2012). Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end. Proceedings of the National Academy of Sciences,109(38), 15197-15200.
和保险公司合作的,发现如果让用户在填报行车里程的表格上方而不是下方签名,用户撒谎的概率更低。签名具有一定的道德提示,所以先签名,能够潜移默化的让人更诚实。
这个结论很有趣,公司真的实施起来几乎没有成本,听起来也非常有道理,数据也支持。所以就发表了。
但是现在被DataColada发现数据存在很多问题:
真的里程分布,一般来说是长尾的,类似于对数正态分布。
但是数据中分布是这样的:
现实中的抽样几乎不可能抽出这种高度一致的结果。
2. 没有估算
正常来说,人们汇报的时候现喜欢取整,在1000,10000这样的数字会比较多。体现在数据上,真实数据最后一位是0的比例应该远远超过其他的,比如下图的左边。这篇文章的数据里面的基础数据很正常,但是更新的数据不正常。显示出成百上千的人完全不取整,直接精确的汇报自己的里程。左边是基础的,右边是更新的,这个差距表明更新的数据可能是有一个随机数生成器在作假。
3. 数据重复
实验中的被试随机的看两种字体Calibri和Cambria,结果这两批人填写的里程数分布无比的相似:
这在现实中几乎是不可能发生的。
发现了这些疑点之后,联系作者。其余的四个作者要么说对数据不熟悉,没有进行数据处理工作,要么就说自己不负责这方面,但是都承认数据是有问题的。这时有一个卖队友的作者说Dan Ariely是负责数据的……这下有点尴尬了。
其实我怀疑这些人之前是知道数据有问题的,因为他们在2020年又发了一篇PNAS,推翻了自己以前的说法。所以发现一个结果,很有趣,发了PNAS,然后过几年推翻这个结果,又很有趣,又是一篇PNAS。
Kristal, A. S., Whillans, A. V., Bazerman, M. H., Gino, F., Shu, L. L., Mazar, N., & Ariely, D. (2020). Signing at the beginning versus at the end does not decrease dishonesty. Proceedings of the National Academy of Sciences,117(13), 7103-7107.
说到解决方法,建议学术界对『重复前人实验』和『检验已发表数据』给予一定的实在的激励。别的激励也都是虚的,最好的就是在刊物每期留一篇到两篇的篇幅,专门发表对过去实验的重复和讨论。
经济学在过去其实不算是造假的重灾区,而是秀技巧的战场。因为经济学的数据很多都是现实中产生的,每个国家的GDP数字,人均可支配收入,这些数字如何造假?经济学过去的争议主要来自于p-hacking,也就是通过各种计量技术和对数据的处理,来获得统计上显著的结果,把自己的故事讲圆满了。
比如提出一个观点:一个地区历史上商业发达程度,会影响现代人和人之间的信任。
是不是感觉非常的『有洞见』?里面既包含了历史深度,又包含了商业契约、文明和信任之间的关系。学术课题其实也讲究吸引人的兴趣,一般来说大众感兴趣的,学术界也感兴趣,只是很多时候大众感兴趣的话题不太能够正规化成为一个符合学术范式的研究课题。而凡是能成功转换的,几乎个个都是顶刊。
故事讲的很完美,然后数据拿过来一做,发现商业发达程度和信任指数不显著…… 这怎么办呢?
那就可以重新定义地区,比如有的国家之前在丝绸之路上,现在不在了,那么这个国家是不是可以进入到样本里面就比较灵活,调一调国家范围,换一换度量的单位和控制变量,然后……显著了!那这就是一篇有理论,有数据证明的好文章可以投稿了。
这种文章不是造假,甚至于标准选择也不能说有问题,毕竟如果没有公认标准的话,自己就是标准的制定者,有一定的灵活范围。只是称之为『结果不太稳健』。经济学家之间也喜欢调侃这种行为。
但是后来经济学也越来越多元化。尤其是行为经济学引入了『做实验』的方法。行为经济学和心理学一样,做实验的样本都是『人』。而人是比较不可控的。
这个和物理、化学的实验还不一样。物理和化学的实验理论上是一定可以复现的,如果不能复现,要么是实验室条件干扰,要么是作假。但是心理行为的实验,人的行为倾向是A还是B,就算后来再做一次实验结果不一样,也不能断定是作假,因为没准人家找来的那一批人类样本就是这样的呢?
所以要认定行为心理的实验作假是很难的,因为实验者只要一口咬定自己做的就是这样的,那也没办法。但是这次数据作假实在是太假了,类似于用PS来P细胞,被DataColada抓了一个正着,对Dan Ariely来说,这将是他学术生涯的一次严重的危机。
Dan Ariely有回应了,这个回应可以说是对他伤害最小的一个选择。那就是说数据的收集和整理都是保险公司做,他完全没有参与,他和合作者所做的仅仅就是拿到数据之后分析。
所以如果有数据造假,那也是保险公司造假,和他本人无关。同时他也承认他是和保险公司合作的唯一联系人。
在这个事情上很难公然撒谎,所以我倾向于认为事实发生至少表现上确实如此——这里面和普通的实验室实验有区别,实验室实验自己是没法洗的,因为自己和助手肯定是参与了的;但是因为是田野实验(field experiment),也就是和保险公司合作的,在真实世界做的真实的实验,那么保险公司怎么做,理论上确实是学者无法控制的。当然,真实是不是完全没有参与,连私下的联系也没有,这些没有书面证据的猜测,事情也过去很多年了,也只能停留在猜测上,不可能用莫须有的罪名去指责其他人。
虽然可以解释过去,但是我觉得这事情依然是有疑点的。保险公司为什么会有动机在田野实验上作假?他们又不要发论文,他们希望知道的是到底哪种形式对自己能获得客户的真实信息有利不是么?为什么要修改数据到一个可以发表的结果?
不过无论如何,如果没有进一步的反转——比如保险公司跳出来说没有,Ariely参与了——否则的话,这次危机Ariely还是能过去的。不过他过去的文章,和将来的文章肯定会被重点的看顾,一般来说,大学者不作假则已,作假肯定不止一次。所以如果有人再发现他其他文章有作假的痕迹,那么就真的名声扫地了。
Dan Ariely目前将责任全部推给了保险公司,大意这些数据是保险公司合并清理好再给我的,搜集数据的过程我全程未参与,我相当于是拿二手数据算出来的结果:
• The work was conducted over ten years ago by an insurance company with whom I partnered on this study. The data were collected, entered, merged and anonymized by the company and then sent to me. This was the data file that was used for the analysis and then shared publicly.
• I was not involved in the data collection, data entry, or merging data with information from the insurance database for privacy reasons.
但是Dan Ariely没有卖队友,表示数据责任由自己一人承担:
• I was the only author in contact with the insurance company. None of my co-authors were involved.
这让我想起五六年前PNAS的另一桩公案:康奈尔大学作者未经伦理审查,与Facebook合作通过信息流操纵用户的推荐信息,从而达到操纵几十万用户情绪的目的。
事后作者解释,实验操纵部分是Facebook公司做的,自己没有参与这个过程,相当于只是分析了一遍二手数据。Facebook也承认这是企业的商务行为(在用户注册登录的隐私条款里已经声明过了,尽管这种条款没有用户会真的去看),数据采集过程与康奈尔大学的作者无关,自然也就不需要经过学校的伦理审查委员会。
有没有闻到一股学界白手套的味道?
Dan Ariely在这篇文章当中到底是被保险公司坑了,还是他自己也参与了数据造假的行为,只能期待有第三方的调查机构展开深入调查了。鉴于他撰写畅销书积攒起来的公众声望,我认为舆论会推动相关机构做出一个明确结论的。
在调查结论明确之前,不妨碍我们继续吃瓜,例如今天实验室群里讨论的时候,师兄指路Dan Ariely的另外一篇文章数据也存在问题,并且是被他写进《怪诞行为学》章节的重要研究:Effort for Payment: A Tale of Two Markets
Dan Ariely被世人所知大多是因为他是一个行为经济学家。
但是对我而言,他也是认知科学的探索者。因此我对这件事的体验更为复杂,也有不一样的难过。
他做的可不止于行为经济学。其实他早期做了不少认知科学的探索。所以感觉异常的惊讶。
早在2001年,他还没有那么涉猎行为经济学时候,他算是开了我自己研究的领域的山[1]:ensemble statistics(统计概要表征)。
简单点儿说,统计概要表征是我们的认知系统在加工过量信息输入时(囿于认知资源上限、认知系统处理能力、工作记忆表征精度等)时,一种压缩信息的方式[2][3][4]。一个典型的表现,就是当我们看到多个物体时候,我们对于单一物体的表征会更接近于所有物体的平均值[5]。
作为一个从认知心理学出发的人,Ariely有着异常敏锐的对于现象的剖析能力,可以说他的实验发现远早于这后面一大批科研工作者。这样的能力也为他在行为经济学奠定了基础。
作为引领我自己研究的先驱,看到他遭受质疑让人很难过。更要命的是,这篇开山之作会不会被质疑呢?
还好,我们这个领域后续有一批大科学家在探索,比如Anna Treisman,George Alvazre 和 Aude Oliva,还有David Whitney。在大家的合力下,以及一批老中青科研工作者的探索下(多个组、多群人、不同实验范式交叉验证了整个领域),整个领域还是健康的发展的。对于多客体的统计加工还是被反复证明。因此无论他本人当时如何,现象还是显著的。不由得让人叹一口气。