科研星球

注意!Excel的自动更正功能可能让你的论文数据出错

2017年Nature网站上一位研究者发文指出,在使用Excel查看基因数据时,发现了很多错误。例如一个名为“SEPT7”的基因,Excel会识别成日期,自动转为“7-Sep”;录入样本识别码“2310009E13”,Excel也会自动转成"2.31E+13"。因为Excel的这种自动更正功能,导致很多与基因数据相关文献的表格错误百出。

 

澳大利亚分子生物学家Auriol Purdie表示,在与基因微阵列和基因转录数据集打交道的20年来,对这种可能出现的错误已非常熟悉,但这个问题经常让新手措手不及。

这个问题有多严重?

2016年,澳大利亚贝克IDI心脏与糖尿病研究所的Mark Ziemann对上述问题进行了量化,研究发现,顶级的基因组学期刊中,有五分之一的论文,其补充材料中的Excel数据集含有被错误转换的基因名称[1]。而这些数据集可能被其他专家访问和使用,错误会进一步延续下去。

 

Ziemann近期领导的一项更大型分析中,发现这一问题仍普遍存在。2014-2020年间发表的11000多篇附带有Excel基因数据集的论文中,近三分之一存在基因名称错误[2]。

 

Ziemann指出,简单的检查就能发现自动更正错误,但是如果没有刻意检查,由于Excel表中的数据量很大,这些错误很容易被忽视。

 

0.png

如何解决这一问题?

2017年,HUGO基因命名委员会(HGNC)宣布采取严厉措施来改变最常受影响的基因名称,因为既往措施都未能解决问题。自那时起,有27个基因名称被更新命名,例如SEPT4现在命名为SEPTIN4,MARCH1现在命名为MARCHF1。

 

但带来的文献错误率下降还存在滞后性,因为很多公开的数据集仍包含过时的基因列表。HGNC建议研究人员从公共数据库中尽量获取最新的数据,期刊在出版前也会要求作者这样做。

 

自今年年初以来,Ziemann每月都会发布一份存在上述问题的期刊排行榜,经常有知名期刊上榜,如《Nature Communications》、《eLife》、《PLoS Genetics》和《Scientific Reports》。可能是因为这些期刊发表的文章包含更多的基因列表和更大的数据集。

 

一些研究者表示已经适应了Excel的这一问题,处理手段是在基因名称前添加个单撇号以防止转换,或在导入数据前预先设置好单元格格式。Ziemann建议在分享或发布数据之前快速检查,例如按基因符号对数据进行排序,可以暴露日期转换错误。

 

参考文献:

  1. Genome Biol. 2016;17(1):177
  2. PLoS Comput Biol. 2021;17(7):e1008984.
  3. https://www.nature.com/articles/d41586-021-02211-4


没有账号?