科研星球

Nature:ChatGPT等AI科研工具兴起,它们好用吗?

原文作者:Katharine Sanderson

大量搜索工具承诺将协助科研人员的工作。

GPT-4是OpenAI为ChatGPT底层技术推出的最新迭代——在这类大型语言模型(LLM)的全面提速下,科学家也开始借用它们强大的能力。这些迎来井喷的人工智能(AI)工具包括能让研究人员更易了解突破性论文或是概括某领域重大进展的搜索引擎。开发公司承诺这些程序将使科研内容的获取更大众化、更流畅。

图片

许多AI工具旨在帮助科研人员概括整理学术结果。来源:Dimitri Otis/Getty

不过,已经试用过这些工具的科研人员表示,有些工具在真正帮助他们做研究前还需要更多打磨。Clémentine Fourrier是巴黎的一名研究人员,她在Hugging Face开展LLM的评估工作,Hugging Face是纽约的一家开发开源AI平台的公司。她使用名为Elicit的AI搜索引擎为她的博士论文查找文献,Elicit使用一个LLM回答问题。Elicit先在Semantic Scholar数据库里搜索论文,并根据搜索问题比较论文标题和摘要,再找出排名最靠前的研究。

多变成功

Fourrier说,在她的经验中,Elicit有时候无法挑选出相关度最高的论文。她说,Elicit很适合用来推荐你可能没看过的论文,但它给出的论文摘要“很没用”,而且还会推荐很多不直接相关的内容。“如果你只用这一个工具,你可能会犯很多错误。”


加州的Ought是开发Elicit的公司,该公司的首席运营官Jungwon Byun说:“我们当前有数以万计的各个专业的用户,Elicit难免在某些问题上弱一些。”Elicit和其他搜索引擎的运行方式不同,Byun说,它对关键词匹配、引用量统计和时效性的关注度不高,当然用户也能对这些指标进行筛选。


其他研究人员对Elicit的使用体验更好一些。“Elicit.org是目前我最喜欢的搜索工具,”新加坡管理大学的图书馆员Aaron Tay说,“它快要取代Google Scholar,成为我的首选学术搜索引擎了。”他说,“在相关度方面,我用Elicit的体验和Fourrier的相反。一般情况下,它和Google Scholar的相关度差不多,但有时候它对我的搜索问题反而理解得更好。”


Tay认为,这方面的差异可能取决于具体领域。Fourrier解释道,在她的研究领域,时间非常关键。“机器学习领域的一年等于其他领域的一百年,”她说,“五年前的研究在今天基本毫无相关性了,而Elicit不会返回这些内容。”

全文搜索

另一个工具是scite,其开发公司位于纽约市。scite能用一个LLM整理提供文献引用的具体背景——包括一篇论文在哪里、在何时以及如何引用了另一篇论文。scite的首席执行官Josh Nicholson指出,ChatGPT的“幻觉”饱受诟病——即它会编造根本不存在的参考文献,但scite和它的“Assistant”工具已经摆脱了这个问题。“这里的主要区别在于我们先从ChatGPT获得结果,再在我们的数据库中搜索这些结果,然后在语义上和真实的参考文献进行匹配。”Nicholson表示,scite 已经和30多个学术出版机构合作,包括威立(Wiley)和美国化学学会这样的大型机构,并已签署了一系列索引协议,这能让scite获取数百万篇学术论文的全文。


Nicholson表示scite还在与Consensus合作,Consensus是2022年由波士顿的程序员Eric Olson和Christian Salem开发的一款工具,能让AI直接从研究内容中提取和过滤结果。Consensus本来是为那些对搜索领域不太了解的用户设计的,Salem说,“但实际上有很多研究人员和科学家在使用我们的产品。”


和Elicit一样,Consensus使用的也是Semantic Scholar数据库。Olson说:“我们的数据库包含从海量论文中摘录的逾1亿条论点。所以当你搜索时,你其实是在这些论点中搜索。”Consensus的员工会手动标注有争议或被证伪的论点,比如疫苗会导致自闭症,Olson说,“我们希望未来这些步骤都能实现自动化,”Salem说,“让它们像该领域的专家一样,去‘揪’出那些不靠谱的研究。”

提升空间

加拿大曼尼托巴大学的儿科医生Meghan Azad在Consensus上问它疫苗是否会导致自闭症,Consensus回答他70%的研究指出疫苗不会导致自闭症,而Azad对这个结果并不信服。“其中一个引文为‘家长是否相信疫苗会导致自闭症?’,而Consensus会利用这个条目计算共识。这不是一个能提供证据的研究,是否?它只是在问人们相不相信。”


南丹麦大学博士后Mushtaq Bilal一直在测试各类AI工具,并在推特上发布它们的最佳使用指南。他很喜欢Elicit,也看过Consensus。Bilal解释道,“他们在做的事情很有用。如果你问了一个是或否的问题,它会根据学术研究给你一个共识,”他说,“它给了我一连串论文,最后的共识结果便是基于这些论文做出的。”


Azad可以想象AI搜索引擎在未来学术研究中的作用,比如当你需要写一篇系统性综述时,它能替你寻找本来要好几个月才能整理完的资源。她说,但目前而言,“我不确定我能信它们多少,所以我只是先用用看。”

原文以AI science search engines are exploding in number — are they any good?标题发表在2023年4月17日《自然》的新闻版块上

© nature

doi: 10.1038/d41586-023-01273-w


没有账号?