让学术不端无所遁形！依靠同行评审意见发掘“论文工厂”_热点追踪_最新资讯

在过去的一年，寻找“论文工厂”生产的造假论文，已成为令许多出版商头疼的问题。自几年前识别出“论文工厂”的造假论文以来，科学界一直在持续跟踪追查。

目前，科学家创造了一种新方法，可以通过同行评审意见找到“论文工厂”。2022年2月7日，SAGE Publishing 的数据科学家Adam Day在arXiv上发布了一篇预印本文章，报道可以使用多种方法来搜索同行评审评论中的重复，其造假方法通常基于“创建虚假的同行评审账户，并利用其提交虚假的同行评审报告”。

0 (1).png

图源arXiv

Retraction Watch就Adam Day报道的追查方法，向其提出了几个问题。

Retraction Watch (RW)：告诉我们一些你使用的方法。

Adam Day (AD)：我们的研究始于SAGE Publishing一位目光敏锐的编辑，他注意到两位不同的审稿人，在两次不同的同行评审中，留下了相同的评审意见。这种迹象非常明显，表明有人在欺骗我们的同行评审系统。这让我们联想到，在调查同行评审意见过程中，出现过很多相似的案例。

起初，我们认为该问题跟抄袭搜索很像。就像我们搜索剽窃论文一样，我们要在不同作者撰写的手稿中找出重复部分。大多数出版商都熟悉iThenticate等抄袭检测工具。然而，在研究了很多抄袭检测工具后，我们发现没有一个适合这项任务。因为我们重新开发一个工具，所以我们构建并测试了一些简单的搜索方法，这些方法都很容易实现。因此，我们希望预印本可以帮助其他人执行相同的搜索功能。

我们使用了Elasticsearch、RapidFuzz和Locality Sensitive Hashing等工具，效果很好。有趣的是，查找部分重复同行评审意见的一种有效方法，就是简单地查找包含拼写错误或语法错误的重复句子。事实上，几乎不会出现两位同行评审专家写同一个句子的情况。由此可见，写出同样的句子绝非巧合。

Adam Day

图源Retraction Watch

RW：可疑的同行评审占多大比例？每篇论文更多出现一篇可疑评论，还是多篇？

“可疑”这个词，需要谨慎地说。我们的研究发现了产生重复文本的同行评审账户。然而，还必须通过手动确定哪些帐户出于滥用目的而复制文本（许多同行评审专家出于合理的原因使用模板报告）。

我们的数据集是有限的，这将产生统计偏差，意味着它不能代表整个同行评审系统。然而，在我看来，只有不到千分之一的评论是可疑的（<0.1%）。

RW：这些方法的敏感性和特异性如何？应该被视为筛查工具，还是诊断工具？

我们原本想尝试几种不同的搜索方法，从中选择最好的一种。然而，结果显示所有的方法都发现了不同的东西。这说明搜索方法并不完善，不能发现所有同行评审的欺诈案例。此外，这种欺诈行为只发生在一部分“论文工厂”的论文中，所以我们无法检测所有论文。幸运的是，有更好的方法可以做到这一点。网络分析有一个很大的好处：如果你发现只有一位审稿人写了一份重复的报告，那么你便可以顺藤摸瓜，不仅可以调查这个审稿人的历史，还可以调查每个推荐过该作者的审稿人的历史，该作者的共同作者，以及共同作者的共同作者……所以，一个可疑案例，也许会牵扯出其他可疑案例。

我们的方法有创建筛选工具的潜力，但它只是众多工具之一。还有许多更有效的方法，可以识别“论文工厂”（以及更普遍的不当行为）。我认为不存在可自动“诊断”论文不当行为的工具。原因很简单，任何此类系统出现的错误检测，都可能对诚信的研究人员造成无法想象的伤害。因此，像这样的筛查工具会标记异常行为，但它永远不能作为“诊断”工具。即使可以确保0%的错误检测率，我依然认为自动化“诊断”是不道德的。

0 (2).png