科研星球

骗过同行评审!200多篇软件生成的“垃圾”论文竟成功发表

用计算机软件“炮制”论文、骗过同行评审,最终还能浑水摸鱼成功发表?


近日发表于《自然》的一篇文章显示,法国科学家通过检测数百万篇论文,发现了243篇这样的“垃圾”文章。

研究还发现,这些软件制造出的论文大多数由来自中国(64%)印度(22%)的研究人员撰写,尽管研究者表示,其中一些论文可能是在作者不知情的情况下以他们的名义提交的。

一些涉事出版商已经表示将撤下这些论文,但让更多人质疑的是,一些期刊的同行评审难道是“吃素”的?为何会让如此多计算机生成的论文成为漏网之鱼?

“垃圾”文章如何生成?


早在2005年,出于“玩心”,美国麻省理工学院3位计算机博士生 Jeremy Stribling、Daniel Aguayo 和 Maxwell Krohn,创造了一款叫作 SCIgen 的论文生成软件,以了解一些会议是否会接收毫无意义的“垃圾”论文。

SCIgen能把单词拼凑在一起,生成带有随机标题、文本和图表的研究文章。它们很容易被人类读者发现是胡言乱语。

结果,出于“恶作剧”让计算机写的一篇文章 Rooter : A Methodology for the Typical Unification of Access Points and Redundancy,竟然被当年7月在佛罗里达举行的第9届世界系统、控制论和信息学多学科大会(WMSCI)接收了。

事情到此并未结束。

由于 SCIgen 软件可免费下载,任何人都可以使用,类似的“恶作剧”还在继续,并逐渐发展为一种论文造假的手段,让科学文献中涌现出一批“垃圾”文章。

到2012年,法国计算机科学家 Cyril Labbe 发现,美国电气和电子工程师协会(IEEE)出版的会议论文中有85篇出自 SCIgen 的伪造论文。他还找到了120多篇被IEEE和施普林格(现为施普林格·自然的一部分)发表的假 SCIgen 论文。

Labbe表示,目前还不清楚这些论文是谁撰写的,以及为什么这样做。随后其中一些文章被撤销,有的则被删除。

如何防范这些计算机“发明”的论文呢?

为此,Labbe注册了一个网站,可以让任何人上传手稿,检查它是否为SCIgen编程的“发明”。
0.png
Labbe发起的网站

施普林格也赞助了一个帮助发现 SCIgen 论文的博士项目,产生了一个叫作SciDetect的免费“侦查”软件。

0 (5).png
SciDetect的免费“侦查”软件

为了简历“好看”发“垃圾”文章?

 
最初,Labbe需要在论文手稿中搜索 SCIgen 的典型词汇。后来他和法国图卢兹大学计算机科学家 Guillaume Cabanac 提出了一个新想法:寻找 SCIgen 输出短语的关键语法特征。2020年5月,他们在 Dimensions 数据库收录的数百万篇论文中搜索了这些短语。

在近日发表于 ASIS&T 的一项研究中,他们表示,在对每篇文章进行人工检查后,发现了243篇完全或部分由 SCIgen 撰写的“垃圾”文章。

0 (1).png
截至2020年5月20日,作者检测到的243篇含有SCIgen文本的文档的年份分布情况,以及每年文档类型的份额。图源:Labbe等

0 (3).png
每年由出版商生成的包含SCIgen文本的论文数量。2020年不完整,因为数据截止日期为2020年5月20日。图片来源:Labbe等

这些论文发表于2008~2020年,出现在各种期刊、会议论文集和预印本上,大多数属于计算机科学领域。还有一些论文则出现在开放获取的期刊上,甚至是付费阅读期刊上。其中,46篇已从最初发布的网站上被撤销或删除。

0 (2).png
从图中可以看到,IEEE、ACM(国际计算机协会)、IAES(航空航天与电子系统)、美国科学出版社等期刊、会议或机构都曾发表过相关论文。(图中“C”表示封闭获取,“O”表示开放获取。)图片来源:Labbe等

自去年以来,Labbe的清单上又增加了20篇论文,其中包括用 MATHgen(生成数学论文的软件)和SBIR提案生成器(生成无意义的拨款提案)编写的乱七八糟的文章。

Labbe指出,最新一批的 SCIgen 论文大多数由来自中国(64%)或印度(22%)的研究人员撰写,尽管这些手稿可能是在他们不知情的情况下被他人以其名义提交的。

0 (4).png
图片来源:Labbe等

其中几篇论文的作者告诉Labbe和Cabanac,他们是作为“恶作剧”提交的。但其他论文似乎是用真实的参考书目列表进行编辑,这表明它们的出现可能是为了夸大科学家的引文数量。

“我认为,这些论文绝大多数都是为了充实简历,以满足发表论文的需要。”Labbe说。

同行评审是“吃素”的?


在最新一批论文中,除了IEEE等知名会议或机构出现问题,还出现了若干计算机生成论文的“重灾区”。发布 SCIgen 内容排名前三位的分别是:

瑞士的跨技术出版社(Trans Tech Publications),共发表了57篇相关论文;

印度的蓝眼睛智能工程与科学出版社(Blue Eyes Intelligence Engineering and Sciences Publication,BEIESP),发表了54篇;

今年3月被施普林格·自然收购的法国出版社亚特兰蒂斯(Atlantis),发表了39篇。

上述瑞士和法国出版社表示,他们正在调查并撤回这些文章。不过,BEIESP的一位发言人表示,他们发表的文章都是通过双盲同行评审和剽窃检查的原创内容。

被科学界奉为圭臬的同行评审难道是“吃素”的?为何对这类计算机炮制的论文防不胜防?

对于这一问题,以WMSCI为例,Stribling认为,这是因为这类会议比较“水”,没有科学功能,只会通过发邮件等各种方式推销自己而获利。

此次,英国伦敦物理研究所附属机构IOP出版社也撤回了 10 篇论文,并在调查为什么在同行评审阶段没有发现这些计算机生成的论文。

该出版社诚信和内容经理 Kim Eggleton 表示,“我们有合理的证据表明,这些论文的同行评审过程不合格。”

你能想象自己看过的某篇论文其实是计算机软件生成的“垃圾”论文吗?它们之所以能被最终发表,是因为这些会议或期刊比较“水”,还是因为同行评议容易被操纵?

参考文献:

https://www.nature.com/articles/d41586-021-01436-7https://www.nature.com/articles/nature03653

http://scigendetection.imag.fr/main.php

https://asistdl.onlinelibrary.wiley.com/doi/10.1002/asi.24495

https://link.springer.com/article/10.1007/s11192-012-0781-y


相关推荐:
QQ客服
电子邮箱
淘宝官店
没有账号?