科研星球

人类基因命名数据库HGNC介绍

今天来介绍一下基因命名数据库: 

HUGO Gene Nomenclature Committee:

 https://www.genenames.org/ 


1.png

基因命名规则

在了解这个数据库之前,先来了解一下关于人类基因名制定的规则 [1] 。

基因命名的总体指导方针

  • 一个基因不管有多少个剪切变异体,但它的基因名只有一个。例如, TP53 这个基因有 15 个剪切变异体。它的其他 ID 可以有变化。但是基因名只能是 TP53.

    0 (2).png

  • 人类基因名只能包括大写字母和数字,除了*- 符号之外避免使用其他符号。

  • 为了方便数据检索,基因名不应该和常用缩写词相同。

蛋白质编码基因

主要是基于基因产物的蛋白功能来进行命名,如果这个基因缺乏功能性的数据则以下面的方式的进行命名:

  1. 基于基因编码的公认结构域和基序,例如:BEND7-"BEN domain containing 7";

  2. 基于人类基因组内的同源基因,例如:GPRIN3-"GPRIN family member 3";

  3. 基于另一个物种的同源基因,例如:FEM1A-“fem-1 homolog A”;

  4. 仅基于开放阅读框的存在,例如:C17orf50-“chromosome 17 open reading frame 50”

假基因 (Pseudogenes)

假基因是无法产生功能性蛋白质产物但与功能性基因具有高度同源性的序列的一类基因。

HGNC 只对和功能性祖先基因保持高度同源的假基因进行命名。命名方式主要是在祖先基因的名称后面加上P 和数字。例如:NACAP10——“NACA pseudogene 10”。后面的数字一般具有物种特异性

另外,如果一个假基因保留了祖先基因大部分的编码序列,那么就直接在这个祖先基因名后面添加P。例如:DDX12P——“DEAD/H-box helicase 12, pseudogene”

非编码 RNA

关于非编码 RNA 的命名有兴趣的可以查看 HGNC 之前的综述[2]

MiRNA

miRBase[3] 为每个 microRNA 茎环序列分配一个“mir-#” 格式的名称,每个成熟 miRNA 分配一个“miR-#” 格式的名称。#是一个具体的数字。这个数字代表提交到这个数据库的 miRNA 的先后顺序。HGNC 则以MIR# 的格式来命名 miRNA 基因名。例如,MIR17 代表 miRNA 基因, mir‐17 r 代表其茎环序列 , 同时 miR‐17 代表成熟的 miRNA.

#### Transfer RNAs (tRNAs)

GtRNAdb 数据库[4]以 tRNA-[三字母氨基酸代码]-[反密码子]-[GtRNAdb 数据库的 ID 号 ]来命名,例如 tRNA-Ala-AGC-1-1。HGNC 以 TR[一个字母氨基酸代码]-[反密码子] [GtRNAdb 数据库的 ID 号] 的格式来命名,例如 TRA-AGC1-1

long non-coding RNA

长链非编码 RNA (lncRNA) 根据已发表的类似于蛋白质编码基因的功能,优先命名。已被 RefSeq 和 GENCODE 项目注释的 LncRNA 基因以以下方式命名 :

  • 与蛋白质编码基因相关的 LncRNA 以 LINC 后跟一个 5 位数字命名,例如:LINC01018

  • 与蛋白质编码基因的基因组跨度反义的 LncRNA 以 [蛋白质编码基因符号]-AS#命名,例如:FAS-AS1

  • 与蛋白质编码基因共享双向启动子的 LncRNA 以 [蛋白质编码基因符号]-DT 命名,例如:ABCF1-DT

  • 包含在同一链上蛋白质编码基因内含子内的 LncRNA 以 [蛋白质编码基因符号]-IT#,例如:AOAH-IT1

  • 在同一条链上与蛋白质编码基因重叠的 LncRNA 以 [蛋白质基因编码符号]-OT#,例如:C5-OT1

  • 内含子或外显子中包含 microRNA 或 snoRNA 基因的 LncRNA 被称为宿主基因 (host gene, HG),例如:MIR17HG

数据库使用

了解了基因的基本命名规则之后,就可以看一下 HGNC 数据库怎么使用了。HGNC 的使用十分简单,就输入想要检索的基因名即可。例如输入:TP53

2.png

结果内容的显示也是十分的简单,在结果里面可以看到关于 TP53 这个基因的基本信息。同时 HGNC 也提供了 TP53 连接到其他基因数据库的

没有账号?