科研星球

科技部开发智能工具,主动监测分析造假学术论文,现已查处 293 人

今年以来,科技部、教育部、卫健委等部门依托科研诚信建设联席会议建立联合工作机制,对学术造假重拳出击,短短的时间里就已经通报了 12 批 235 篇造假论文的查处结果。近期又查处了 119 篇造假论文,并已按程序对 293 名责任人作出处理,合计追回奖金 46 万余元;取消一定年限申报科技计划(专项、基金等)项目资格的 255 人。


这不,12 月 1 日,科技部再次对近期查处的论文造假有关情况进行了通报,但本次通报中除了简单的情况介绍,字少事大,还有一则十分重磅的消息。


0.png

图片来源:科技部


根据通报所述:「为加大对论文造假的查处力度,科技部还建立了主动发现机制,开发了智能工具,对近年发表的学术论文开展监测分析,及时发现论文中的学术不端问题线索,交相关主管部门和单位依规调查处理」


针对这一消息,菌菌致电了科技部,但截至本文推送时暂未得到科技部的回应。该系统的打击范围是只针对已经发表的学术论文还是也用于问题学位论文的检索还未可知。


不过,菌菌还是要感慨一句,怪不得今年通报力度如此之大,原来是学术打假步入了 AI 时代!



道高一尺,魔高一丈:

懒惰的科研狗和勤劳的 AI 论文生成器


说起人工智能,相信大家没吃过猪肉,也见过猪跑。


0 (4).png

图片来源:网络|不是这个人工智能


近几年大火大热的人工智能被应用到了各种各样的场景之中,其中自然也包括科研。举个有名的例子,基于人工智能的 AlphaFold 产生的蛋白质 3D 模型比以往任何一种解决方案都精确得多,在生物学的核心挑战之一上取得了重大进展。


0 (5).png

图片来源:Nature


除了用来预测蛋白的三维结构,AI 还可以被用于撰写论文。2019 年,伦斯勒理工学院、华盛顿大学等机构的研究人员开发出了一个名为「PaperRobot」的 AI。根据论文的描述,这个 AI 可以提供从产生 idea、写摘要、写结论到写「未来研究」的一站式服务!


0 (2).png

图片来源:论文截图


至于用所谓的 AI 来撰写论文的效果究竟如何,由于菌菌的论文都是自己码的,也就不做评价了。


但是现在水论文水得有多离谱呢? 想必屏幕前的各位和菌菌一样都是自己写的论文,菌菌就给大家展示一下:


近期,Springer Nature 旗下的地球科学类 SCI 期刊《Arabian Journal of Geosciences》撤稿了 40 余篇中国学者的论文,这些稿子的荒诞程度不禁让人怀疑作者是否经过科研训练。


0 (3).png

图片来源:微博 @ 扮虎


对此,期刊给出的撤稿原因也让人大跌眼镜:


「这篇论文内容毫无意义……  作者对撤稿通信均未回应,……」


看到这,大家估计也猜到了,这些荒诞的论文很有可能是通过 AI 来生成的,Nature 在评价这一事件的时候,同样提及了计算机生成的荒谬论文正在越来越多的涌现。


在目前,大部分用 AI 生成的论文还能被大家识别,除去那些本来就不在意论文质量的期刊和会议,以及被第三方机构操纵的特刊征稿,我们还是比较少在正经期刊上看到如此荒诞不经的 AI 作品。但在未来,随着人工智能的发展,我们能不能一眼看出论文是计算机生成的,就不太好说了 ~



以子之矛,攻子之盾:

学术打假人正在用 AI 发起反攻


知名的学术打假人 Elisabeth Bik 仅凭一双肉眼,筛查数万篇论文。不仅归功于她的谨慎和认真,有些造假的论文和图片简直是把读者的智商按在地上摩擦。


智能系统辅助学术打假,也不是国内开的先河。


对于造假者将 AI 用于撰写论文这件事,期刊出版商早年就有了应对措施。在 2015 年,斯普林格就与约瑟夫·傅立叶大学进行合作,开发出了一款用于识别计算机生成的论文的开源软件—— SciDetect。


SciDetect 可以扫描 XML 和 PDF 格式的文件,并将它们与语料库进行比较,进而对论文是否是计算机生成的进行判定。


0 (1).png

图片来源:scigendetection.imag.fr


感兴趣的同学可以去下载几篇前文中提到的荒诞论文来检测一下,看看这个软件好用不好用,具体网址如下:http://scigendetection.imag.fr/main.php。


当然,SciDetect 还够不上 AI,需要手动去提交论文,然后检测,但当前 AI 确实已经可以用于检测论文造假。


2018 年,纽约雪城大学 (Syracuse University) 信息研究学院的助理教授 Daniel Acuna 开发了一个算法,使用 AI 来打击论文图像造假。通过 AI,他们分析了 PubMed Open Access 子集 (PMOS) 中截止到 2015 年发布的所有数据,包含了 760036 篇文章、超过 200 万的数据。


这项研究得出一个令人震惊的结论:在 PubMed Open Access 上,大约有 0.59% 的文章 (760036 篇文章里的 4484 篇) 会被一致认为是具有欺骗性的。


0 (7).png

图片来源:论文截图


自 2018 年,这个自动化程序被开发出来以后,开发人员、期刊以及研究机构和就在不断试验以及完善它。随着新冠疫情的爆发,由于 Daniel Acuna 教授担心关于 COVID-19 的研究论文可能存在过多的草率工作,就将这项程序应用在全球新冠病毒相关论文的预印本上,以检测是否有论文存在学术不端。


这一工作也引得 Nature 下场进行报道,报道指出,这是一项开创性的工作,但同时也提到了这个程序存在许多假阳性的误报,或许需要人工进行进一步的校对。


0 (6).png

图片来源:Nature


不仅如此,Daniel Acuna 本人还指出 PDF 文件格式会破坏自动提取图像的能力,进而影响软件的准确性。但不论如何,对于论文中的图片造假,期刊、学术打假人第一次拥有了真正高效、自动化的 AI 武器。



学术造假猖獗的今天:

造假、打假仍是一场猫鼠游戏


在撤稿观察的数据库中,有 18000 份研究论文被撤回,其中有接近 2% 的论文存在图像问题,这些问题论文会造成多大的损失呢?


根据宾夕法尼亚大学生物工程副教授 Arjun Raj 在 2012 年的推算,平均一篇生物医学研究论文背后的科学成本约为 30 万美元至 50 万美元。而当年美国研究人员发表了近 152000 篇论文,如果有 2% 存在问题,那就意味着美国在 2012 年浪费了 50 亿美元。


而 2016 年研究学者 Elisabeth 博士在 20621 篇研究论文中发现,在纳入统计的348 个国家和地区中,中国是最大的图片造假重灾区。中国的问题图片文章数占总的问题图片文章数的 49.52% 左右。


十年的时间过去了,全球科学产量的增加无疑伴随着更多的,因学术造假导致的资源浪费。因此,尽管 AI 打假程序在当前并不完美,但用 AI 来检测论文是否存在学术不端必然是大势所趋。


同时国内针对学术不端的打击力度和惩罚力度也越来越大,一面是科技部、教育部、卫健委等部门针对学术论文造假,代写代投滥竽充数者的查处,一面是针对基金申报时走后门,找托,打招呼浑水摸鱼者的查处。


但不论是哪种形式,都表明一个趋势 —— 退潮了,裸泳的人藏不住了。




QQ客服
电子邮箱
淘宝官店
没有账号?