科研星球

2天中国学者发表12篇NAR文章(IF=17),构建了9个数据库

2021年11月18日及19日2天,中国学者在Nucleic Acids Research (IF=17)在线发表了12项重要研究成果,构建了HIT 2.0exoRBase 2.0TF-Markerm5C-AtlasR-loopBaseDiseaseMeth version 3.0CircleBaseInsectBase 2.0UFold等9个数据库,为广大的研究人员提供了宝贵的资源。系统盘点这12项研究成果:

【1】核糖体蛋白 (RP) 快速转运到细胞核中并有效组装成核糖体前体颗粒是核糖体生物发生的先决条件。尚未在丝状真菌中鉴定出作为 RP 专用分子伴侣以保持其稳定性并促进其组装的蛋白质。PlCYP5 是Purpureocillium lilacinum 中的亲核蛋白,其表达在非生物胁迫和线虫卵寄生期间上调。2021年11月18日,华中农业大学肖炎农及肖雪琼共同通讯在Nucleic Acids Research 在线发表题为“Cyclophilin acts as a ribosome biogenesis factor by chaperoning the ribosomal protein (PlRPS15) in filamentous fungi ”的研究论文,该研究发现 PlCYP5 与未组装的小核糖体亚基蛋白 PlRPS15 (uS19) 共翻译相互作用。  PlCYP5 增加了 PlRPS15 的溶解度,而与其催化肽-脯氨酰异构酶功能无关,并支持 PlRPS15 整合到前核糖体中。一致地,PlCYP5 功能丧失突变体的表型与 PlRPS15 敲低突变体的表型相似。值得注意的是,来自三种丝状真菌的 PlCYP5-PlRPS15 同系物彼此相互作用。总之,该研究数据揭示了丝状真菌中亲环蛋白的 RPs 独特的专用伴侣系统。
【2】DNA 损伤和细胞凋亡导致游离核小体(染色质的基本结构重复单元)释放到血液循环系统中。进入哺乳动物细胞细胞质的游离核小体通过激活 cGMP-AMP 合酶 (cGAS) 触发免疫反应。2021年11月19日,南开大学周传政在Nucleic Acids Research 在线发表题为“Nucleosomes enter cells by clathrin- and caveolin-dependent endocytosis  ”的研究论文,该研究设计了实验来揭示人类细胞摄取核小体的机制。该研究发现核小体首先通过带正电荷的组蛋白 N 末端尾部和细胞表面配体之间的非特异性静电相互作用被细胞膜吸收,然后通过网格蛋白或细胞膜穴样内陷依赖的内吞作用内化。细胞内化后,内体逃逸迅速发生,核小体被释放到细胞质中,长时间保持结构完整性。细胞外核小体的有效内吞作用表明循环核小体可能导致细胞紊乱和免疫刺激,因此,内吞核小体发挥的生物学效应应该在未来得到解决。
【3】已经探索了文献描述的草药成分靶点,以促进草药的机理研究以及新药的发现。虽然有几个数据库提供了类似的信息,但大多数都局限于 2010 年之前的文献,急需更新。 2021年11月19日,复旦大学曹志伟及同济大学唐凯临共同通讯在Nucleic Acids Research 在线发表题为“HIT 2.0: an enhanced platform for Herbal Ingredients' Targets   ”的研究论文,HIT 2.0 在这里构建为最新的精选数据集,重点关注涵盖 PubMed 文献 2000-2020 的草药成分靶点。目前,HIT 2.0 拥有 10031 个化合物-靶点活性对。分子靶点包括那些被直接/间接激活/抑制的基因/蛋白质、蛋白质结合剂和酶底物或产物。与 TTD、DrugBank、KEGG、PDB、UniProt、Pfam、NCBI、TCM-ID 等数据库建立了交联。更重要的是,HIT 可以从每日发布的 PubMed 文献中自动挖掘靶点和管理我的靶点。因此,用户可以检索和下载包含感兴趣化合物的潜在靶点的最新摘要,即使是那些尚未包含在 HIT 中的化合物。此外,用户可以登录“我的靶点”系统,根据检索到的摘要在线管理个人靶点分析。HIT 可以在 http://hit2.badd-cao.net 上访问。
【4】细胞外囊泡 (EVs) 是小的膜囊泡,含有丰富的不同 RNA 种类,具有特殊的功能和临床意义。 2021年11月19日,复旦大学黄胜林,孟志强及江南大学黄朝晖共同通讯在Nucleic Acids Research 在线发表题为“exoRBase 2.0: an atlas of mRNA, lncRNA and circRNA in extracellular vesicles from human biofluids ”的研究论文,该研究介绍了一个更新的在线数据库 (http://www.exoRBase.org),exoRBase 2.0,它是一个 EV 长 RNA(称为 exLRs)的存储库,来自不同人体体液的 RNA-seq 数据分析。在 exoRBase 2.0 中,exLRs 的数量增加到 19643 条mRNA(mRNA)、15645 条长链非编码 RNA(lncRNA)和 79084 条环状 RNA(circRNAs),这些 RNA 来自大约 1000 个人类血液、尿液、脑脊液(CSF) ) 和胆汁样本。重要的是,exoRBase 2.0 不仅整合和比较了 exLR 表达谱,而且还可视化了不同生理和病理条件下循环 EV 的通路水平功能变化和起源的异质性。该数据库提供了一个有吸引力的平台,用于从人类生物体液中识别新的 exLR 特征,这将有助于发现新的循环生物标志物以改善疾病诊断和治疗。
【5】转录因子 (TF) 在生物过程中起着关键作用,通常用作细胞标记。TFs 和相关标记在识别人类疾病中的特定细胞类型方面的新重要性增加了对人类 TFs 和相关标记集的全面收集的需求。 2021年11月19日,哈尔滨医科大学李春权,张建及南华大学Wang Qiuyu共同通讯在Nucleic Acids Research 在线发表题为“TF-Marker: a comprehensive manually curated database for transcription factors and related markers in specific cell and tissue types in human  ”的研究论文,该研究开发了 TF-Marker 数据库(TF-Marker,http://bio.liclab.net/TF-Marker/),旨在为人类提供细胞/组织特异性 TF 和相关标记。通过人工整理数千篇已发表的文献,将 5905 条包含 TF 和相关标记信息的条目根据其功能分为五种类型:(i) TF:调节标记表达的 TF;(ii) T Marker:受TF调控的标记;(iii) I Marker:影响TF活性的标记;(iv) TFMarker:充当标记的 TF 和 (v) TF Pmarker:充当潜在标记的 TF。TF-Marker的5905个条目包括1316个TFs、1092个T Markers、473个I Markers、1600个TFMarkers和1424个TF Pmarkers,涉及人类383种细胞类型和95种组织类型。TF-Marker 进一步提供了一个用户友好的界面来浏览、查询和可视化关于 TF 和相关标记的详细信息。研究人员相信 TF-Marker 将成为了解不同组织和细胞调节模式的宝贵资源。
【6】5-甲基胞嘧啶 (m5C ) 是 RNA 上最普遍的共价修饰之一。众所周知,它可以调节多种 RNA 功能,包括核输出、RNA 稳定性和翻译。 2021年11月19日,福建医科大学Chen Kunqi及Wei Zhen共同通讯在Nucleic Acids Research 在线发表题为“m5C-Atlas: a comprehensive database for decoding and annotating the 5-methylcytosine (m5C ) epitranscriptome ”的研究论文,该研究介绍了 m5C -Atlas,这是一个用于全面收集和注释 RNA 5-甲基胞嘧啶的数据库。该数据库包含 13 个物种的 166 540 个 m5C 位点,这些位点来自 5 种碱基分辨率表观转录组分析技术。此外,通过综合管道从 22 项不同研究收集的 351 个 RNA 亚硫酸氢盐测序样本中量化条件特异性甲基化水平。该数据库还提供了几个新特征,例如 m5C  基因座的进化保守性、它与 SNP 的关联以及与 RNA 二级结构的任何相关性。所有 m5C -atlas 数据都可以通过一个用户友好的界面访问,其中 m5C  表观转录组可以自由探索、共享和使用假定的转录后机制(例如 RBP 与 RNA 的分子间相互作用、microRNA 相互作用和剪接位点)进行注释。总之,这些资源为探索 m5C  表观转录组提供了前所未有的机会。m5C -Atlas 数据库可在 https://www.xjtlu.edu.cn/biologicalsciences/m5C -atlas 免费访问。
【7】R-loops 在许多生理和病理过程中发挥着多种作用,引起了多个领域的科学家的极大兴趣。然而,关于它们的基因组定位的争议和对其调控网络的不完全理解给 R-loop 研究带来了巨大的挑战。 2021年11月18日,南京大学Chen Jiayu,武汉大学陈亮及芝加哥大学Zhong Xiaoming共同通讯在Nucleic Acids Research 在线发表题为“R-loopBase: a knowledgebase for genome-wide R-loop formation and regulation  ”的研究论文,该研究提出了 R-loopBase (https://rloopbase.nju.edu.cn),通过基因组学和文献数据的系统整合来解决这些紧迫的问题。首先,基于由 11 种不同技术生成的 107 个高质量全基因组 R-loop 映射数据集,该研究提出了一组用于高置信度 R-loop 定位的人类 R-loop 区域参考集,并发现与R-loop相关的保守基因组特征。其次,通过文献挖掘和多组学分析,该研究策划了迄今为止在多个物种中最全面的 R-loop调节蛋白及其靶向R-loop列表。这些努力有助于揭示R-loop动力学的调节网络及其与癌症和神经系统疾病发展的潜在联系。最后,该研究集成了数十亿个功能基因组注释,并开发了交互式界面,以在注释良好的基因组环境中搜索、可视化、下载和分析 R-loopR-loop调节器。R-loopBase 允许所有用户,包括那些几乎没有生物信息学背景的用户,将这些数据用于他们自己的研究。研究人员预计 R-loopBase 将成为 R-loop 社区的一站式资源。
【8】由于 DNA 甲基化与疾病有关,因此其用作生物标志物的潜力越来越大。在过去的 5 年中,DNA 甲基化数据的数量也大幅增加。2021年11月18日,哈尔滨工业大学张岩及Gu Yue共同通讯在Nucleic Acids Research 在线发表题为“DiseaseMeth version 3.0: a major expansion and update of the human disease methylation database ”的研究论文,为了方便获取这些碎片化数据,该研究在DiseaseMeth 2.0版的基础上提出了DiseaseMeth 3.0版,其中包括的疾病数量从88个增加到162个,高通量配置文件样本从32701个增加到49949个。该研究还开发了一个统一的分析管道,用于从存储在数据库中的原始数据中识别差异 DNA 甲基化基因 (DMG)。在 99 种疾病中发现了 22 718 个 DMG。这些 DMG 使用两个自行开发的在线工具,甲基化疾病相关性和癌症预后与共甲基化,在疾病评估中提供应用。所有查询结果都可以下载,也可以根据使用的搜索部分通过箱线图、热图或网络模块显示。DiseaseMeth 3.0 版可在 http://diseasemeth.edbc.org/ 免费获得。
【9】高通量测序技术的快速发展导致在人类基因组中发现了数以千计的染色体外环状 DNA (eccDNAs)。功能损失实验很难在圆形和线性染色体上进行,因为它们通常会重叠。因此,解释 eccDNA 的分子功能具有挑战性。2021年11月18日,北京大学乔杰,毛凤彪及中国科学院北京基因组研究所李明锟共同通讯在Nucleic Acids Research 在线发表题为“CircleBase: an integrated resource and analysis platform for human eccDNAs”的研究论文,该研究介绍 CircleBase (http://circlebase.maolab.org),这是一个综合资源和分析平台,用于在多种细胞类型中管理和解释 eccDNA。CircleBase 通过结合测序数据集、计算预测和手动注释来识别推定的eccDNA功能 。它将它们分为六个部分,包括靶向基因、表观遗传调控、调控元件、染色质可及性、染色质相互作用和遗传变异。eccDNA 靶向和调节网络通过信息可视化工具显示,然后进行优先排序。功能富集分析显示,排名靠前的癌细胞 eccDNA 富含致癌途径,例如 Ras 和 PI3K-Akt 信号通路。相比之下,来自健康个体的 eccDNAs 没有显著富集。CircleBase 提供了一个用户友好的界面,用于搜索、浏览和分析各种细胞/组织类型的 eccDNA。因此,筛选潜在的功能性 eccDNA 并解释其在人类癌症和其他疾病中的分子机制是有用的。
【10】昆虫是地球上最大的动物群体,通过提供资源、传播疾病和破坏农作物生产对人类生活产生巨大影响。最近,产生了大量的昆虫基因组和基因数据。非常需要一个综合数据库来管理、共享和挖掘这些资源。2021年11月18日,浙江大学李飞团队在Nucleic Acids Research 在线发表题为“InsectBase 2.0: a comprehensive gene resource for insects ”的研究论文,该研究提出了一个更新的数据库,InsectBase 2.0 (http://v2.insect-genome.com/),涵盖 815 个昆虫基因组、25 805 个转录组和 > 1600 万个基因,包括 15 045 111 个编码序列、3 436 022 3 'UTRs, 4 345 664 5'UTRs, 112 162 miRNAs 和 1 293 430 lncRNAs。此外,该研究使用内部标准管道注释了属于 164 个基因家族的 1 434 653 个基因;215 986个潜在的水平转移基因和 419 条 KEGG 通路。提供了 BLAST、JBrowse2 和 Synteny Viewer 等 Web 服务用于搜索和可视化。InsectBase 2.0 为动物进化和无脊椎动物比较基因组学相关社区的昆虫学家和研究人员提供了一个宝贵的平台。

【11】对于许多 RNA 分子,二级结构对于 RNA 的正确功能至关重要。从核苷酸序列预测 RNA 二级结构是基因组学中长期存在的问题,但随着时间的推移,预测性能已经达到了平台期。传统的 RNA 二级结构预测算法主要基于通过自由能最小化的热力学模型,这强加了强大的先验假设并且运行缓慢。2021年11月18日,西安交通大学Fu Laiyi等人在Nucleic Acids Research 在线发表题为“UFold: fast and accurate RNA secondary structure prediction with deep learning ”的研究论文,该研究提出了一种基于深度学习的方法,称为 UFold,用于 RNA 二级结构预测,直接根据带注释的数据和碱基配对规则进行训练。UFold 提出了一种新的类似图像的 RNA 序列表示,它可以被完全卷积网络 (FCN) 有效地处理。该研究在家族内和跨家族 RNA 数据集上对 UFold 的性能进行了基准测试。它在家族内数据集上显著优于以前的方法,同时在不同的 RNA 家族上进行训练和测试时实现了与传统方法相似的性能。UFold 还能够准确预测伪结。它的预测速度很快,每个序列的推理时间约为 160 ms,最长可达 1500 bp。运行 UFold 的在线 Web 服务器可在 https://ufold.ics.uci.edu 获得。代码可在 https://github.com/uci-cbcl/UFold 获得。

【12】重组工程辅助多重基因组编辑通常使用单链寡核苷酸进行定点突变变化。它已被证明对功能筛选和优化微生物细胞工厂非常有效。然而,这种方法仅限于相对较小的突变变化。2021年11月18日,山东大学卞小莹,张友明及德累斯顿工业大学A Francis Stewart共同通讯Nucleic Acids Research 在线发表题为“Improved dsDNA recombineering enables versatile multiplex genome engineering of kilobase-scale sequences in diverse bacteria  ”的研究论文,该研究解决了使用双链 DNA 底物进行多重基因组工程所涉及的挑战。重组工程是由噬菌体单链退火蛋白将 ssDNA 退火到复制叉中介导的。该研究应用这一见解来促进从 dsDNA 底物生成 ssDNA,并通过提高可用的脱氧核苷三磷酸 (dNTP) 水平来改变复制速度。通过核糖核苷酸还原酶过表达或 dNTP 添加提高细胞内 dNTP 浓度,以建立双链 DNA 重组工程辅助多重基因组工程 (dReaMGE),从而在不同细菌的千碱基规模的多个位点进行快速灵活的插入和缺失突变,而不会产生双链断裂或错配修复系统的干扰。dReaMGE 可以在几天内实现组合基因组工程工作,例如,改变多个生物合成途径、多个启动子或基因插入、转录调节器组合的变化。 dReaMGE 增加了细菌基因组工程的全部内容,以促进微生物细胞工厂的发现、功能基因组学、菌株优化和定向进化。

0.png

核糖体是存在于所有生物细胞中的代表性大分子。它们主要负责细胞蛋白质的合成。核糖体由两个亚基组成:大亚基和小亚基。在酿酒酵母中,大亚基 (60S) 包含 25S、5.8S 和 5S rRNA 以及 46 个核糖体蛋白 (RP),而小亚基 (40S) 包含 18S rRNA 和 33 个 RP 。核糖体通过快速有序的组装过程成熟,以满足生物细胞对蛋白质的需求。该过程主要发生在细胞核中,其中 35S rRNA 前体 (pre-rRNA) 共转录招募特定的 RP 和众多组装因子以生成 90S 加工组。在前体 rRNA 逐步裂解后,90S 解离为大(前 60S)和小核糖体亚基(前 40S)的前体。这两种前体立即被转运到细胞质中,在那里它们与额外的 RP 结合形成成熟的核糖体。干扰这些过程中的任何一个都会导致核糖体生物发生缺陷。
RPs 的高效核转运和组装对于核糖体生物发生至关重要。然而,关于介导 RP 从细胞质到细胞核转运的机制知之甚少。新合成的 RP 由于其始终存在的基本区域和易于发生非特异性相互作用的未折叠扩展而倾向于聚集。因此,细胞采用一般的分子伴侣系统,例如新生的多肽相关复合物 (NAC)、应激 70-B/核糖体相关复合物 (SSB/RAC) 和输入蛋白来保护这些易于聚集的 RP。此外,酿酒酵母中的不同分子伴侣与特定的 RP 相关联并使其溶解,这有助于 RP 的核输入及其整合到前核糖体中,称为专用分子伴侣 。
五个伴侣与 60S 的 RP 相互作用,包括 Rrb1、Acl4、Sqt1、Syo1 和 Bcp1,三个伴侣与 40S 的 RP 相互作用,包括 Yar1、Tsr2 和 Tsr4。值得注意的是,作为专用 RP 伴侣的功能似乎在跨物种的同源物中是保守的。例如,拟南芥和裂殖酵母中的分子伴侣、精氨酸甲基转移酶 3 与 RPS2 相互作用并调节核糖体生物发生。人类伴侣 PDCD2 及其酵母同源物 Tsr4 与 RPS2 共翻译相互作用以促进其组装。然而,尚不清楚这种专用伴侣系统在丝状真菌中是否保守。
亲环蛋白 (CYP) 是普遍存在的蛋白质,属于肽基-脯氨酰顺反异构酶 (PPIase),在蛋白质折叠中具有催化活性。凭借这一特性,CYPs 参与了多个物种的许多生物过程,例如细胞形态发生、转录调控、非生物胁迫抗性和毒力 。此外,CYPs 具有不依赖 PPIase 的分子伴侣样活性,可通过直接结合阻止多种蛋白质的聚集。最近,CYPs 作为分子伴侣的生物学功能得到了强调。植物 CYP40 作为 Hsp90 的共同伴侣,通过促进小配体与 Ago1 的结合来促进 microRNA 活性。然而,CYPs 的其他可能的伴侣功能仍有待探索。
Purpureocillium lilacinum 是子囊菌门的一种丝状真菌,由于其寄生线虫卵的能力和真菌代谢物的杀线虫活性,被广泛用于控制植物寄生线虫。然而,其寄生的分子机制尚不清楚。在这里,该研究旨在确定含 RRM 的 CYP 的新功能,并确定其对细胞核糖体生物发生的影响。 
该研究发现 PlCYP5 与未组装的小核糖体亚基蛋白 PlRPS15 (uS19) 共翻译相互作用。  PlCYP5 增加了 PlRPS15 的溶解度,而与其催化肽-脯氨酰异构酶功能无关,并支持 PlRPS15 整合到前核糖体中。一致地,PlCYP5 功能丧失突变体的表型与 PlRPS15 敲低突变体的表型相似。值得注意的是,来自三种丝状真菌的 PlCYP5-PlRPS15 同系物彼此相互作用。总之,该研究数据揭示了丝状真菌中亲环蛋白的 RPs 独特的专用伴侣系统。
参考消息:
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab1102/6430854
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab1121/6431817
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab1085/6431819
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab1114/6431821


没有账号?