科研星球

让学术不端无所遁形!依靠同行评审意见发掘“论文工厂”

在过去的一年,寻找“论文工厂”生产的造假论文,已成为令许多出版商头疼的问题。自几年前识别出“论文工厂”的造假论文以来,科学界一直在持续跟踪追查。


目前,科学家创造了一种新方法,可以通过同行评审意见找到“论文工厂”。2022年2月7日,SAGE Publishing 的数据科学家Adam Day在arXiv上发布了一篇预印本文章,报道可以使用多种方法来搜索同行评审评论中的重复,其造假方法通常基于“创建虚假的同行评审账户,并利用其提交虚假的同行评审报告”。

0 (1).png

图源arXiv


Retraction Watch就Adam Day报道的追查方法,向其提出了几个问题。


Retraction Watch (RW):告诉我们一些你使用的方法

Adam Day (AD):我们的研究始于SAGE Publishing一位目光敏锐的编辑,他注意到两位不同的审稿人,在两次不同的同行评审中,留下了相同的评审意见。这种迹象非常明显,表明有人在欺骗我们的同行评审系统。这让我们联想到,在调查同行评审意见过程中,出现过很多相似的案例。


起初,我们认为该问题跟抄袭搜索很像。就像我们搜索剽窃论文一样,我们要在不同作者撰写的手稿中找出重复部分。大多数出版商都熟悉iThenticate等抄袭检测工具。然而,在研究了很多抄袭检测工具后,我们发现没有一个适合这项任务。因为我们重新开发一个工具,所以我们构建并测试了一些简单的搜索方法,这些方法都很容易实现。因此,我们希望预印本可以帮助其他人执行相同的搜索功能。


我们使用了Elasticsearch、RapidFuzz和Locality Sensitive Hashing等工具,效果很好。有趣的是,查找部分重复同行评审意见的一种有效方法,就是简单地查找包含拼写错误或语法错误的重复句子。事实上,几乎不会出现两位同行评审专家写同一个句子的情况。由此可见,写出同样的句子绝非巧合。

0.png

Adam Day

图源Retraction Watch


RW可疑的同行评审占多大比例?每篇论文更多出现一篇可疑评论,还是多篇?

“可疑”这个词,需要谨慎地说。我们的研究发现了产生重复文本的同行评审账户。然而,还必须通过手动确定哪些帐户出于滥用目的而复制文本(许多同行评审专家出于合理的原因使用模板报告)。


我们的数据集是有限的,这将产生统计偏差,意味着它不能代表整个同行评审系统。然而,在我看来,只有不到千分之一的评论是可疑的(<0.1%)。


RW:这些方法的敏感性和特异性如何?应该被视为筛查工具还是诊断工具?

我们原本想尝试几种不同的搜索方法,从中选择最好的一种。然而,结果显示所有的方法都发现了不同的东西。这说明搜索方法并不完善,不能发现所有同行评审的欺诈案例。此外,这种欺诈行为只发生在一部分“论文工厂”的论文中,所以我们无法检测所有论文。幸运的是,有更好的方法可以做到这一点。网络分析有一个很大的好处:如果你发现只有一位审稿人写了一份重复的报告,那么你便可以顺藤摸瓜,不仅可以调查这个审稿人的历史,还可以调查每个推荐过该作者的审稿人的历史,该作者的共同作者,以及共同作者的共同作者……所以,一个可疑案例,也许会牵扯出其他可疑案例。


我们的方法有创建筛选工具的潜力,但它只是众多工具之一。还有许多更有效的方法,可以识别“论文工厂”(以及更普遍的不当行为)。我认为不存在可自动“诊断”论文不当行为的工具。原因很简单,任何此类系统出现的错误检测,都可能对诚信的研究人员造成无法想象的伤害。因此,像这样的筛查工具会标记异常行为,但它永远不能作为“诊断”工具。即使可以确保0%的错误检测率,我依然认为自动化“诊断”是不道德的。

0 (2).png

来源arXiv


RW“论文工厂”已经出现一段时间了你为什么现在做这个项目?

实际上,我们并不是在寻找“论文工厂”,但是结果出人意料。SAGE在处理同行评审欺诈方面历史悠久,因此该项目基本上是SAGE项目的延续。


RW:当稿件被一个期刊退稿时,可能会被提交给另一个期刊。您是否会与其他期刊分享审稿意见,以减少发表“论文工厂”的文章

几年前,在SAGE中,我们建立了被拒文章跟踪器,能够追踪被拒文章的去向。我们观察到“论文工厂”存在一稿多投的行为。这意味着他们只要等到了一个期刊的审稿人的宽容通过,就可以发表论文了。这种现象表明拒绝“论文工厂”的稿件,并不太可能影响其出版。


但是,有许多事情可能会限制“论文工厂”的活动。出版商已经通过STM协作中心等举措开展合作。该“协作中心”允许不同出版商旗下的期刊间共享数据,并与第三方合作开发和操作筛选工具,包括处理“论文工厂”的工具。


没有账号?