人类基因命名数据库HGNC介绍_数据库使用指南_实用技巧

今天来介绍一下基因命名数据库:

HUGO Gene Nomenclature Committee:

https://www.genenames.org/

基因命名规则

在了解这个数据库之前，先来了解一下关于人类基因名制定的规则 ^[1] 。

基因命名的总体指导方针

一个基因不管有多少个剪切变异体，但它的基因名只有一个。例如， TP53 这个基因有 15 个剪切变异体。它的其他 ID 可以有变化。但是基因名只能是 TP53.
人类基因名只能包括大写字母和数字，除了*- 符号之外避免使用其他符号。
为了方便数据检索，基因名不应该和常用缩写词相同。

蛋白质编码基因

主要是基于基因产物的蛋白功能来进行命名，如果这个基因缺乏功能性的数据则以下面的方式的进行命名：

基于基因编码的公认结构域和基序，例如：BEND7-"BEN domain containing 7";
基于人类基因组内的同源基因，例如：GPRIN3-"GPRIN family member 3";
基于另一个物种的同源基因，例如：FEM1A-“fem-1 homolog A”；
仅基于开放阅读框的存在，例如：C17orf50-“chromosome 17 open reading frame 50”

假基因 (Pseudogenes)

假基因是无法产生功能性蛋白质产物但与功能性基因具有高度同源性的序列的一类基因。

HGNC 只对和功能性祖先基因保持高度同源的假基因进行命名。命名方式主要是在祖先基因的名称后面加上P 和数字。例如：NACAP10——“NACA pseudogene 10”。后面的数字一般具有物种特异性

另外，如果一个假基因保留了祖先基因大部分的编码序列，那么就直接在这个祖先基因名后面添加P。例如：DDX12P——“DEAD/H-box helicase 12, pseudogene”

非编码 RNA

关于非编码 RNA 的命名有兴趣的可以查看 HGNC 之前的综述^[2]

MiRNA

miRBase^[3] 为每个 microRNA 茎环序列分配一个“mir-#” 格式的名称，每个成熟 miRNA 分配一个“miR-#” 格式的名称。#是一个具体的数字。这个数字代表提交到这个数据库的 miRNA 的先后顺序。HGNC 则以MIR# 的格式来命名 miRNA 基因名。例如，MIR17 代表 miRNA 基因, mir‐17 r 代表其茎环序列 , 同时 miR‐17 代表成熟的 miRNA.

#### Transfer RNAs (tRNAs)

GtRNAdb 数据库^[4]以 tRNA-[三字母氨基酸代码]-[反密码子]-[GtRNAdb 数据库的 ID 号 ]来命名，例如 tRNA-Ala-AGC-1-1。HGNC 以 TR[一个字母氨基酸代码]-[反密码子] [GtRNAdb 数据库的 ID 号] 的格式来命名，例如 TRA-AGC1-1