nature

当前位置: Nature » 其他 » 正文

Nature:软件能否自动发现论文错误受热议

摘要 : Michèle Nuijten及其同事在公布心理学文献统计检验结果之后,发现这些文献存在严重的不一致。该软件可以对文章中的统计数据进行扫描,然后重新计算,检查数字是否一致。

 

Michèle Nuijten及其同事在公布心理学文献统计检验结果之后,发现这些文献存在严重的不一致。该软件可以对文章中的统计数据进行扫描,然后重新计算,检查数字是否一致。它浏览了30717篇文章,并分辨出利用统计数据验证假说的16695篇文章。然而,该软件发现在其中一半文章至少存在一处潜在错误。

Nuijten并未通知论文作者。但今年8月,其共同作者、荷兰蒂尔堡大学方法论研究者Chris Hartgerink把对整体文献的聚焦转移到具体文章方面。他利用统计检验软件对5万多篇文章进行了分析,并将分析结果发表在在线论坛PubPeer上,科学家经常在该论坛讨论论文。这引发了关于这些工具应该如何被使用的激辩。

Hartgerink希望,网上发布的这些内容将会告知读者和作者文章潜在的错误,从而“比仅仅放弃一个数据集可以更直接地让心理学领域受益”。然而,并非所有人均赞成他的观点。10月20日,德国心理学会警告,在网上公布发现错误的虚假信息会损害研究人员的声誉。10月底,美国华盛顿特区心里科学联合会原理事长严厉谴责通过博客和社会媒体“未加过滤地诽谤”现象的出现,他认为公布来自类似统计检验软件的分析结果是一种骚扰。

然而,一些人看到的则是科学文化领域的积极变化。Hartgerink和Nuijten均获得过来自各个机构的提高开放获取性的资助。荷兰格罗宁根大学心理学研究专家Nick Brown在统计检验原文下的一条评论中写道,如果研究人员不是在想论坛上的帖子表明论文中有一些“淘气”的地方,而是想“PubPeer上有一条注意事项,我要阅读它,并像一名科学家那样对它作出评估”,那么科学将会受益。

自动化工具可以让研究人员更容易地对他们的研究进行双重检验,这对于心理学是有利的,加州大学戴维斯分校自我知觉研究者Simine Vazire说。“它会发现错误,更重要的是它会让我们更加仔细。”

这似乎具有吸引力。目前,已有数千人下载了这个免费统计检验软件,该软件可通过编程语言R运行,或者也可以访问网站地址statcheck.io使用,后者并不需要任何编程知识。

大多数心理学论文都会以标准程式报告统计检验,相关参量可以检测出是否具有一致性。统计检验软件到目前为止仅适用于这一类型的论文,辨别和检测计算P值的一些常用检测方式,这种评估方式的目的是衡量潜在结果出现的几率如何,比如两个群组之前并没有真正的不同。尽管统计学家曾对此提出警告,但P值低于0.05经常被用作“统计显著性”的武断决定因素,它会让研究结果得到重视、认真对待并发表。

统计检验软件发现的大多数错误似乎都是打字错误或复制粘贴错误,荷兰爱因霍芬科技大学认知心理学家Daniel Lakens说。阅读过统计检验的文章之后,他决定分析文章报告中统计显著性的错误。他发现主要有三种类型的错误:通常,研究人员会插入一个错误的符号,比如P < 0.05而非P = 0.05。另外,这些计算还被用于检测特定的关系,比如正相关或负相关,而这通常并未详细阐明。此外,乐观的舍入也非常普遍:P值为0.055时被报告为P ≤ 0.05,这构成了检测到的改变统计显著性错误的10%,Lakens表示这一比例高得令人沮丧。

但统计检验软件自身也会出错,德国凯泽斯劳滕理工大学实验心理学家Thomas Schmidt说,在该软件标出他两篇文章的错误之后,他写了一篇批评该软件的文章。例如,它并不总能辨认出必要的数据调整。

Nuijten承认统计监测软件有时会识别错误或是忽视P值,但她表示在其原始文章中,它与手动检查发现的错误比例非常相似。Nuijten和Hartgerin一直以来都在认真地工作,并且大部分时候让对话显得更加亲切。“我试图一遍又一遍重复,统计检验只是一个自动化软件,它永远不可能像手动检测一样准确。”Nuijten说。

一些作者对于有机会纠正文章中的错误表示感谢,尽管一些人表示在分析结果公开之前,应该给他们机会阅读上传的内容。至少有3人已经对PubPeer作出回应解释错误。其中两人表示错误是打字方面的,并不影响P值,如果要进行正式修改,过程会过于繁琐。对于Vazire来说,她希望自动化报告有助让研究人员习惯文章发表后的评论。“我认为它将会帮助我们对批评性声音不那么敏感。”她说。

原文链接:

Stat-checking software stirs up psychology

原文摘要:

Michèle Nuijten and her colleagues found rampant inconsistencies when they unleased statcheck on the psychological literature. The program scans articles for statistical results, redoes the calculations and checks that the numbers match. It went through 30,717 papers to identify 16,695 that tested hypotheses using statistics. In half of those, it found at least one potential error (M. B. Nuijten et al. Behav. Res. Methods 48, 1205–1226; 2016).

来源: Nature 浏览次数:0

热门文章TOP

RSS订阅 - 填写您的邮件地址,订阅我们的精彩内容: - 网站地图
网站联系电话:020-87540820 备案号:粤ICP备11050685号-8 增值电信业务经营许可证:粤B2-20120479
©2011-2015 生物帮 All rights reserved.