科研行星资源

RNA-seq基础知识汇总:名词解释,测序名词解释,高通量测序常用名词解释,转录组测序问题集锦

1.RNA-Seq名词解释

2.测序名词解释

3.高通量测序常用名词解释

4.转录组测序问题集锦

jcfm.jpg

RNA-Seq名词解释

  1. index 测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。

  2. 碱基质量值 (Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。碱基质量值越高表明碱基识别越可靠,碱基测错的可能性越小。

  3.  Q30 碱基质量值为Q30代表碱基的精确度在99.9%。

  4.  FPKM(Fragments Per Kilobase of transcript per Millionfragments mapped) 每1百万个map上的reads中map到外显子的每1K个碱基上的fragment个数。计算公式为 公式中,cDNAFragments 表示比对到某一转录本上的片段数目,即双端Reads数目;Mapped Reads(Millions)表示Mapped Reads总数,以10为单位;Transcript Length(kb):转录本长度,以kb个碱基为单位。

  5. FC(Fold Change) 即差异表达倍数。

  6. FDR(False Discovery Rate) 即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝的原假设个数的比例的期望值。通过控制FDR来决定P值的阈值。

  7. P值(P-value) 即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P<0.05为显著,P<0.01为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01。

  8. 可变剪接(Alternative splicing) 有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接,alternative splicing)。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,是导致真核生物基因和蛋白质数量较大差异的重要原因。在生物体内,主要存在7种可变剪接类型:A)Exonskipping;B)Intron retention;C) Alternative 5' splice site;D) Alternative3' splice site;E) Alternative first exon;F) Alternativelast exon;G) Mutuallyexclusive exon。

  9. 外显子跳跃(Exon skipping) 外显子在前体mRNA剪接形成成熟mRNA过程中被跳过,最终没有出现在某些成熟mRNA上,这种剪接机制被称为外显子跳跃。

  10. 内含子保留(Intron retention) 前体mRNA在剪接形成成熟mRNA的过程中,部分内含子被保留下来,这种剪接机制被称为内含子保留。

  11. 5'或3'端可变剪接 前体mRNA在剪接形成成熟mRNA的过程中,5'端或3'端边界发生不同方式的剪接,这种剪接机制被称为5'或3'端可变剪接。12.基因结构优化 由于使用的软件或数据本身的局限性,导致所选参考基因组的注释往往不够精确,需要对原有注释的基因结构进行修正,这一过程称为基因结构优化。

  12. 基因间区(intergenic) 指基因与基因之间的间隔序列,不属于基因结构,不直接决定氨基酸,可能通过转录后调控影响性状的区域。

  13. UTR:(UntranslateRegions) 非翻译区域。是信使 RNA(mRNA)分子两端的非编码片段。5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至 AUG 起始密码子,3'-UTR从编码区末端的终止密码子延伸至多聚 A 尾巴(Poly-A)的前端。

  14. ORF(open reading frame) 开放阅读框或开放读码框。是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。

  15. CDS(Coding sequence) 是编码一段蛋白产物的序列,是结构基因组学术语。DNA转录成mRNA,mRNA经剪接等加工后翻译出蛋白质,所谓CDS就是与蛋白质序列一一对应的DNA序列,且该序列中间不含其它非该蛋白质对应的序列,不考虑mRNA加工等过程中的序列变化,总之,就是与蛋白质的密码子完全对应。

  16. 插入片段大小(insert size) 通过检测双端序列在基因组上的起止位置,可以得到插入片段的实际长度,决定了测序的长度,是信息分析的重要参数。

  17. 分子标记 是遗传标记的一种,直接在DNA分子上检测遗传变异。分子标记能对不同发育时期的个体、组织器官甚至细胞作检测,数量极多,遍及整个基因组,多态性高,遗传稳定,不受环境及基因表达与否的影响。目前常见分子标记主要有SNP、InDel、SSR 等。

  18. SNP(Single Nucleotide Polymorphism) 即单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。

  19. SSR(Simple Sequence Repeat,SSR) 即简单重复序列,又叫微卫星序列,指的是基因组中由1-6个核苷酸组成的基本单位重复多次构成的一段DNA,广泛分布于基因组的不同位置,长度一般在200bp以下。

  20. 转换(transition) 同类型(嘌呤和嘌呤,或嘧啶和嘧啶)碱基之间的相互替换称为转换。

  21. 颠换(transversion) 不同类型(嘌呤和嘧啶)碱基之间的相互替换称为颠换。

  22. RNA编辑(RNA editing) 是指在mRNA水平上改变遗传信息的过程。具体来说,指基因转录产生的mRNA分子中,由于核苷酸的缺失,插入或置换,基因转录物的序列不与编码序列互补,使翻译生成的蛋白质的氨基酸组成,不同于基因序列中的编码信息现象。

  23. 差异表达转录本(DifferentiallyExpressed Transcript,DET) 指表达水平存在显著差异的转录本。

  24. 差异表达基因(Differentially Expressed Gene,DEG) 指在两个不同条件(如对照与处理、野生型和突变型、不同时间点、不同组织等)下,表达水平存在显著差异的基因,称之为差异表达基因。

  25. 生物学重复(Biological Replicates) 可以定义为使用来自不同抽提的RNA样本进行杂交,例如,同一来源独立制备的样本,或者不同来源的样本(不同组织或者一个细胞系的不同培养物)。

  26. 技术重复 使用同一个抽提的RNA进行实验称为技术重复。与生物学重复相比,技术重复不是完全独立的,取平均值不能去除共有的系统偏差。

  27. 皮尔逊相关系数r(Pearson’s CorrelationCoefficient) 用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。其中,1表示变量完全正相关,0表示无关,-1表示完全负相关。在高通量测序中,将皮尔逊相关系数作为生物学重复相关性的评估指标。越接近1,说明两个重复样品相关性越强。

  28. Unigene UniqueGene的英文缩写,意为广泛通用的基因数据库,通过电脑对相同基因座(Locus)的收集整理集合形成一个非冗余的基因数据库。

  29. Contig 高通量测序中利用软件将具有一定长度overlap的reads连成更长的片段,这些通过reads overlap关系得到的不含N的组装片段称之为Contig。

  30. Scaffold 高通量测序中reads经过拼接获得Contigs,Contig经过确定先后顺序用N连接起来组成Scaffold。

  31. Contig N50 Reads拼接后会得到长度不同的Contigs。将所有Contigs的长度相加后获得一个Contig的总长度。之后将所有Contig按照序列长度由短到长进行排序,如获得Contig1,Contig2,Contig3……..。将Contig按照这个顺序一次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。

  32. component TRINITY软件拼接过程中,由于contig的构造方法,使得各个contig之间不可能共享k个以上序列,因此这些 inchwormcontigs不能很好的表征各种可变剪切形式和同源基因等情况,软件中“chrysalis”这一步骤将那些有重叠的contigs聚类,构成components。component就成为一组可变剪切isoform或同源基因可能的表征的集合。

  33. de Bruijn graph 使用 TRINITY 软件拼接时,在“chrysalis”步骤中会将 component通过 overlap 关系构建成 de Bruijn图,便于获取可变剪切的序列。

  34. 数字基因表达谱(DigitalGene Expression Profile,DGE) 利用新一代高通量测序技术和高性能的计算分析技术,能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况。

  35. small RNA 对长度在18-40bp的短 RNA 进行序列、结构、表达、功能上的分析,主要进行miRNA,siRNA,piRNA 几种类型 sRNA 的分析;可与 mRNA 关联分析。

  36. ncRNA(non-coding RNA) 非编码RNA。指不编码蛋白质的RNA。其中包括rRNA,tRNA,snRNA,snoRNA和microRNA 等多种已知功能的 RNA,及未知功能的 RNA。其共同特点是都能从基因组上转录而来,不需要翻译成蛋白即可在 RNA 水平上行使各自的生物学功能。

  37. 降解组测序(Degradome Sequencing) 利用高通量测序平台,针对miRNA介导的剪切降解片段进行深度测序,从中筛选miRNA作用的靶基因,并结合生物信息学分析确定降解片段与miRNA的精确配对信息。该技术能从细胞或组织中准确高效的筛选出 miRNA 的靶基因,为研究miRNA 与其对应的靶基因的相互关系提供准确、高效的筛选手段。

  38. lncRNA(long noncoding RNA) 长链非编码RNA。在长度200-100000nt之间,不具有编码蛋白功能的转录本。

  39. 正链/负链(plus strand/minus strand) 对于一个基因来说,DNA的两条链中有一条链作为RNA合成时的模板,这条链叫负链,另一条叫正链。

  40. 反义链/有义链(antisense strand/sensestrand) 在双链DNA中,用来转录mRNA的DNA链称为模板链(template strand),不用于转录的链则称为非模板链(nontemplatestrand)。根据碱基互补配对原则,转录出的mRNA链的碱基序列与非模板链的碱基序列一致,惟一不同的是,非模板链中的T mRNA链中全部置换成了U。正是由于非模板链的碱基序列实际上代表了 mRNA的碱基序列(只不过在mRNA中T换成了U),因此非模板链又被称为编码链( coding strand),有义链(sense strand)和克里克链(crick strand),而用来转录mRNA的DNA链被称为非编码链(anticoding strand)或反义链(antisense strand)或沃森链(watson strand)。

  41. 链特异性(strand specific):链特异性建库,可以确定转录本来自正链还是负链。以便更加准确的获得基因的结构以及基因表达信息。并且可以更好的发现新的基因。(研究表明:很多基因组区域具有正负链的转录本,反义转录是真核基因的一个特征,是一种重要的调控方式。对于原核以及低等真核生物的基因组,常常具有重叠基因。

  42. GO(Gene Ontology) 基因本体联合会(Gene Ontology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因何蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。GO 是多种生物本体语言中的一种,提供了三层结构(分子功能、生物学途径、细胞组件)的系统定义方式,用于描述基因产物的功能。网址:http://www.geneontology.org/。

  43. BSR(Bulked Segregant RNA sequencing) 将转录组测序与集群分离分析相结合,在转录组范围内开发SNPs,筛选与性状紧密连锁的SNPs,进行功能基因的定位,同时进行基因差异表达分析等转录组常规分析的技术。

  44. eQTL 以一个分离群体中不同个体(基因型)或者是其它有遗传结构的群体作为样本,运用QTL分析方法分析特定基因转录丰度差异而得到的一些遗传区域,转录丰度用于作为个体中基因表达水平的衡量方式,并且作为一个性状来分析(e Trait)。

  45. COG/KOG COG是Clusters of Orthologous Groups ofproteins的简称,KOG 为euKaryoticOrtholog Groups。这两个注释系统都是NCBI中基于基因直系同源关系的数据库,其中COG针对原核生物,KOG针对真核生物。COG/KOG结合进化关系将来自不同物种的同源基因分为不同的 Ortholog簇,目前COG有4873个分类,KOG有4852个分类。来自同一ortholog 的基因具有相同的功能,这样就可以将功能注释直接继承给同一 COG/KOG 簇的其他成员。详见http://www.ncbi.nlm.nih.gov/COG/。

  46. Nr(NCBI non-redundant protein sequences) 是NCBI官方的蛋白序列数据库,它包括了 GenBank基因的蛋白编码序列,PDB(Protein Data Bank)蛋白数据库、SwissProt蛋白序列及来自PIR(Protein Information Resource)和PRF(Protein Research Foundation)等数据库的蛋白序列。根据 nr注释信息我们能得到 GO 功能注释。

  47. KEGG(Kyoto Encyclopedia of Genes andGenomes) 是系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能的数据库。它整合了基因组、化学分子和生化系统等方面的数据,包括代谢通路(KEGG PATHWAY)、药物(KEGG DRUG)、疾病(KEGG DISEASE)、功能模型(KEGG MODULE)、基因序列(KEGG GENES)及基因组(KEGG GENOME)等等。KO(KEGGORTHOLOG)系统将各个KEGG注释系统联系在一起,KEGG已建立了一套完整KO注释的系统,可完成新测序物种的基因组或转录组的功能注释。详见http://www.genome.jp/kegg/。

  48. Rfam是ncRNA注释库 包含rRNA,tRNA,snoRNA,snRNA等类型非编码RNA。详见http://rfam.xfam.org/。


测序名词解释

  1. Contig N50:Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3„„Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

  2.  Scaffold N50:Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3„„Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

  3. Isotig:指在转录组de novo测序时,用454平台测序完成后组装出的结果,一个isotig可视为一个转录本。

  4. Isogroup:指转录组de novo测序中,用454平台测序完成后组装出的结果获得的可聚类到同一个基因的转录本群。

  5. GC%:GC含量,全基因组范围内或在特定基因组序列内的4种碱基中,鸟嘌呤和胞嘧啶所占的比率。

  6. SNP:singlenucleotide polymorphism,单核苷酸多态性,个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性;不同物种个体基因组 DNA 序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异,主要用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。

  7. InDel:Insertion/Deletion,插入/缺失,在基因组重测序进行mapping时,进行容Gap的比对并检测可信的Short InDel,如基因组上小片段>50bp的插入或缺失。在检测过程中,Gap的长度为1~5个碱基

  8. CNV:copy numbervariation,基因组拷贝数变异,是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D 分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如 A-B-C-C-D 也可以是在其他位置的扩增,如A-C-B-C-D。

  9. SV:structurevariation,基因组结构变异,染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起 CNV 的变化),染色体内部的某块区域发生重复复制、翻转颠换、易位、两条染色体之间发生重组(inter-chromosome trans-location)等。

  10. 基因表达差异:是指某一物种或特定细胞在特定时期/功能状态下,多样本间不同基因在mRNA水平上表达量的差异,可通过RPKM/FPKM值来体现。

  11. RPKM:Reads PerKilobase per Million mapped reads [Mortazavi etal., 2008],是指每 1 百万个map 上 的reads 中 map 到外显子的每1K 个碱基上的reads 个数。计算公式四RPKM=106C/NL/103,其中C为唯一比对到目的基因的reads数;N为唯一比对到参考基因的总reads数,L是目的基因编码区的碱基数。RPKM法可以消除基因长度、数据量之间的差异进行计算基因表达量。

  12. 可变剪切:alternative splicing大多数真核基因转录产生的mRNA前体是按一种方式剪接产生出一种mRNA,因而只产生一种蛋白质。但有些基因产生的mRNA前体可按不同的方式剪接,产生出两种或更多种mRNA,即可变剪接。

  13. 基因融合:Gene fusion,将基因组位置不同的两个或多个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因或嵌合体基因,该基因有可能翻译出融合或嵌合体蛋白。

  14. 基因家族分析:通过进行BLASTN/ HMM比对等查找基因归属的基因家族并添加相关功能注释。

  15. 基因组注释:Genome annotation是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。常见的基因组注释有GO注释、pathway分析。

  16. GO注释:geneontology是指对基因功能的注解。GO强调基因产物在细胞中的功能。GO不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关,但GO支持其他的OBO(openbiology ontologies)成员成立其他类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)

  17. Pathway注释:是指对功能基因参与的信号通路等进行分析注释。

  18. 甲基化率:是指在甲基化测序中,发生甲基化的胞嘧啶占所有胞嘧啶的比率。

  19. CpG岛:CpG island 是指DNA上一个区域,此区域含有大量相联的胞嘧啶(C)、鸟嘌呤(G),以及使两者相连的磷酸酯键(p)。基因组中长度为300~3000 bp的富含CpG二核苷酸的一些区域,主要存在于基因的5’区域。启动子区中CpG岛的未甲基化状态是基因转录所必需的,而CpG序列中的C的甲基化可导致基因转录被抑制。

高通量测序常用名词解释

  1. 什么是高通量测序?高通量测序技术(High-throughputsequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

  2. 什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

  3. 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。

  4. 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。

  5. 什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

  6. 什么是mRNA测序 (RNA-seq) 转录组学(transcriptomics)是在基因组学后新兴的一门学科,即研究特定细胞在某一功能状态下所能转录出来的所有RNA(包括mRNA和非编码RNA)的类型与拷贝数。Illumina提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计,可自由提供关于转录的客观和权威信息。研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息,并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。

  7. 什么是small RNA测序 Small RNA(micro RNAs、siRNAs和pi RNAs)是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来,两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后,利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对Small RNA大规模测序分析,可以从中获得物种全基因组水平的miRNA图谱,实现包括新miRNA分子的挖掘,其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。

  8. 什么是miRNA测序 成熟的microRNA(miRNA)是17~24nt的单链非编码RNA分子,通过与mRNA相互作用影响目标mRNA的稳定性及翻译,最终诱导基因沉默,调控着基因表达、细胞生长、发育等生物学过程。基于第二代测序技术的microRNA测序,可以一次性获得数百万条microRNA序列,能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的microRNA及其表达差异,为研究microRNA对细胞进程的作用及其生物学影响提供了有力工具。

  9. 什么是Chip-seq 染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

  10. 什么是CHIRP-Seq CHIRP-Seq( Chromatin Isolation by RNAPurification )是一种检测与RNA绑定的DNA和蛋白的高通量测序方法。方法是通过设计生物素或链霉亲和素探针,把目标RNA拉下来以后,与其共同作用的DNA染色体片段就会附在到磁珠上,最后把染色体片段做高通量测序,这样会得到该RNA能够结合到在基因组的哪些区域,但由于蛋白测序技术不够成熟,无法知道与该RNA结合的蛋白。

  11. 什么是RIP-seq RNA Immunoprecipitation是研究细胞内RNA与蛋白结合情况的技术,是了解转录后调控网络动态过程的有力工具,能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用,但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物,RIP实验的优化条件与ChIP实验不太相同(如复合物不需要固定,RIP反应体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等)。RIP技术下游结合microarray技术被称为RIP-Chip,帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。

  12. 什么是CLIP-seq CLIP-seq,又称为HITS-CLIP,即紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitationand high-throughput sequencing), 是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联,以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后,回收其中的RNA片段,经添加接头、RT-PCR等步骤,对这些分子进行高通量测序,再经生物信息学的分析和处理、总结,挖掘出其特定规律,从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义。

  13. 什么是metagenomic(宏基因组) Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说,它具有众多优势,其中很重要的两点:(1) 微生物通常是以群落方式共生于某一小生境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此做Metagenomics研究比做单个个体的研究更能发现其特性;(2)Metagenomics研究无需分离单个细菌,可以研究那些不能被实验室分离培养的微生物。宏基因组是基因组学一个新兴的科学研究方向。宏基因组学(又称元基因组学,环境基因组学,生态基因组学等),是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中,DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。

  14. 什么是SNP、SNV(单核苷酸位点变异) 单核苷酸多态性singlenucleotidepolymorphism,SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。

  15. 什么是INDEL (基因组小片段插入) 基因组上小片段(>50bp)的插入或缺失,形同SNP/SNV。

  16. 什么是copy number variation (CNV):基因组拷贝数变异 基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。

  17. 什么是structure variation (SV):基因组结构变异 染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosometrans-location)等。一般SV的展示利用Circos软件。

  18. 什么是Segment duplication 一般称为SD区域,串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上,有很大的SD序列。

  19. 什么是genotype and phenotype 既基因型与表型;一般指某些单核苷酸位点变异与表现形式间的关系。

  20. 什么是Read 高通量测序平台产生的序列标签就称为reads。

  21. 什么是soft-clipped reads 当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

  22. 什么是multi-hits reads 由于大部分测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类reads分配给reads较多的区域。

  23. 什么是Contig 拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。

  24. 什么是Scaffold 基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。

  25. 什么是Contig N50 Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig3+Contig 4=Contig总长度*1/2时,Contig4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

  26. 什么是Scaffold N50 Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

  27. 什么是测序深度和覆盖度 测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。

  28. 什么是RPKM、FPKM RPKM,Reads Per Kilobase of exon model perMillion mapped reads, is defined in thisway : 每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。如果对应特定基因的话,那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read

  29. 映射到外显子上总的reads个数。这个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说,外显子和它们自己内部的关系由某类型的mRNA来注释。

  30. 外显子的长度Exonlength。计算时,计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域,重叠的外显子以其总长来计算。

  31. map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。举例:比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么它的RPKM为:10^91000(reads个数)/10^6(总reads个数)5000(外显子长度)=200或者:1000(reads个数)/1(百万)*5(K)=200这个值反映基因的表达水平。

  32. FPKM(fragments per kilobase of exon per millionfragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments,而RPKM计算的是reads。Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。

  33. 什么是转录本重构 用测序的数据组装成转录本。有两种组装方式:1,de-novo构建;2,有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。

  34. 什么是genefusion 将基因组位置不同的两个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。

  35. 什么是表达谱 基因表达谱(geneexpression profile):指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱

  36. 什么是功能基因组学 功能基因组学(Functuionalgenomics)又往往被称为后基因组学(Postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析,新的技术应运而生,包括基因表达的系统分析(serial analysis of gene expression,SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence taggedfragmentsdisplay。

  37. 什么是比较基因组学 比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。

  38. 什么是表观遗传学 表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。

  39. 什么是计算生物学 计算生物学是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等。当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。因此,必须依靠大规模计算模拟技术,从海量信息中提取最有用的数据。

  40. 什么是基因组印记 基因组印记(又称遗传印记)是指基因根据亲代的不同而有不同的表达。印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。基因组印记是一正常过程,此现象在一些低等动物和植物中已发现多年。印记的基因只占人类基因组中的少数,可能不超过5%,但在胎儿的生长和行为发育中起着至关重要的作用。基因组印记病主要表现为过度生长、生长迟缓、智力障碍、行为异常。目前在肿瘤的研究中认为印记缺失是引起肿瘤最常见的遗传学因素之一。

  41. 什么是基因组学 基因组学(英文genomics),研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。

  42. 什么是DNA甲基化 DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1Mb就有5—15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。

  43. 什么是基因组注释 基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。

转录组测序问题集锦

转录组是某个物种或者特定细胞类型产生的所有转录本的集合,转录组测序(RNA-seq)是最近发展起来的利用深度测序技术进行转录分析的方法,可以对全转录组进行系统的研究。Roche GS FLX Titanium 、Illumina Solexa GA IIx和AB SOLID 4均可以对转录组进行测序, Roche GS FLX Titanium与Illumina Solexa GA IIx和AB SOLID 4相比,拥有更长的读长和较小的数据量,适用于表达量较高基因的RNA全长测序。但是对低表达丰度的基因,可能需要多次测序才能得到足够的数据,成本比较高 ,而Illumina Solexa GA IIx和AB SOLID 4数据读取量大,能够得到较高的覆盖率,可以较好的降低成本。若是位置基因组序列的物种,则Roche GS FLX Titanium测序更有优势,其较长的读长便于拼接,获得更好的转录本数据。

转录组测序可以供研究者在转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区 SNP研究),非编码区域功能研究(Non-coding RNA研究、miRNA前体研究等),基因表达水平研究以及全新转录本发现等方面进行深入研究。

  1. 研究转录组的方法有哪些?答:目前研究转录组的方法主要三种,基于杂交技术的cDNA芯片和寡聚核苷酸芯片,基于sanger测序法的SAGE (serial analysis of geneexpression)、LongSAGE和MPSS(massivelyparallel signature sequencing),基于第二代测序技术的转录组测序,又称为RNA-Seq。

  2. 转录组测序比其他研究方法有哪些优势? 答:转录组测序具有以下优势:(1)可以直接测定每个转录本片段序列、单核苷酸分辨率的准确度,同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题;(2)灵敏度高,可以检测细胞中少至几个拷贝的稀有转录本;(3)可以对任意物种进行全基因组分析,无需预先设计特异性探针,因此无需了解物种基因信息,能够直接对任何物种进行转录组分析,同时能够检测未知基因,发现新的转录本,并准确地识别可变剪切位点及cSNP,UTR区域。(4)检测范围广,高于6个数量级的动态检测范围,能够同时鉴定和定量稀有转录本和正常转录本。

  3. 转录组测序有什么样的样品要求?答:(1) 样品纯度要求:OD值应在1.8至2.2之间;电泳检测28S:18S至少大于1.8。(2)样品浓度:total RNA浓度不低于400 ng/μg。(3)total RNA样品请置于-20℃保存;请提供total RNA样品具体浓度、体积、制备时间、溶剂名称及物种来源。请同时附上QC数据,包括电泳胶图、分光光度或Nanodrop仪器检测数据。(4)样品请置于1.5 ml管中,管上注明样品名称、浓度以及制备时间,管口使用Parafilm封口。建议使用干冰运输,并且尽量选用较快的邮递方式,以降低运输过程中样品降解的可能性。

  4. mRNA的纯化分离方法?答:进行mRNA研究中,首先需要对样本进行总RNA抽提,抽提得到的RNA除含有mRNA外,还含有rRNA和tRNA,为防止这两类RNA对转录组研究的影响,因此我们需要对mRNA进行分离纯化。真核细胞的mRNA分子最显著的结构特征是具有5’端帽子结构(m7G)和3’端的Poly(A)尾巴。绝大多数哺乳类动物细胞mRNA的3’端存在20-30个腺苷酸组成的Poly(A)尾,通常用Poly(A+)表示。这种结构为真核mRNA的提取,提供了极为方便的选择性标志,寡聚(dT)纤维素或寡聚(U)琼脂糖亲合层析分离纯化mRNA的理论基础就在于此。mRNA的分离方法较多,其中以寡聚(dT)-纤维素柱层析法最为有效,已成为常规方法。此法利用mRNA 3’末端含有Poly(A+)的特点,在RNA流经寡聚(dT)纤维素柱时,在高盐缓冲液的作用下,mRNA被特异地结合在柱上,当逐渐降低盐的浓度时或在低盐溶液和蒸馏水的情况下,mRNA被洗脱,经过两次寡聚(dT)纤维柱后,即可得到较高纯度的mRNA。

  5. 使用Solexa进行转录组测序时,样本RNA如何进行片段化处理?cDNA插入片段长度的选择?答:Solexa转录组测序文库构建时采用专用的打断Buffer对RNA样本进行片段化处理,这种方法充分利用RNA对二价阳离子的敏感性,具有稳定性好的优点,通过这种方法打断能得到更加均匀的覆盖率。mRNA-seq可以既可以采用单端测序(single read) 还可以采用双端测序( paired end),对于单端测序来说片段长度150-200bp是理想的长度范围,对于双端测序来说片段长度推荐300-500bp,由于两端加入了Solexa的锚定序列和引物序列,样品准备完成后所获得的产物长度比插入的cDNA长度要长。

  6. 文库准备过程中,反转录引物的选择?答:在进行cDNA合成过程中,经常用到的有两种引物:oligodT引物和随机引物。在RNA反转录过程中使用oligo dT引物进行扩增可以保证扩增产物包括mRNA的3'末端,减少rRNA的干扰,但是采用oligo dT 引物扩增有一个问题,就是扩增片段的长度偏短和扩增产物所包含的信息量偏向3’端的问题,之所以有长度偏短,一方面与RNA完整性有关,但最重要的限制在于逆转录酶的延伸能力。用oligo dT 引物扩增出来的片段长度短,虽然都有mRNA的3'端,但是序列信息多位于3'-UTR附近,若扩增序列太短,则有用信息很少,不利于序列的识别和分析。使用Random primer扩增,虽然扩增偏短长度也很短, 但是由于它的逆转录并不一定在mRNA的末端起始,而是在随机位置起始,所以它的扩增片段带有更多CDS的信息,但是如果是用总RNA逆转录的话,有可能会受到rRNA的干扰。采用Solexa进行转录组测序,测序文库准备过程中,由于实验之前已经采用oligo dT微磁珠进行纯化,而且mRNA已经进行了片段化处理后才进行反转录,因此反转录只能采用随机引物进行cDNA的合成,如果采用oligo dT进行扩增,只能得到mRNA的3'端序列,无法得到完整的mRNA序列。

  7. Solexa进行转录组测序,测序文库的制备方法及质控标准?答:首先会样本进行质量检测,检测合格后,对样本进行测序前处理,构建测序文库,构建步骤为:(1)首先利用oligo dT微珠纯化mRNA;(2)将纯化得到的mRNA进行片段化处理;(3)利用逆转录酶反转录合成cDNA第一链;(4)以cDNA第一链为模板合成双链cDNA;(5)对双链cDNA进行末端修复并在3’末端加’A”;(6)在DNA片段的两端连接上特定的测序接头;(7)割胶纯化连接好的cDNA片段(一般回收200-500bp之间的片段);(8)利用高保真聚合酶扩增测序文库;(9)检测测序文库。对于测序文库,需要进行质量控制,一般通过 Aligent Technologies 2100分析仪和电泳观察两种方法检测测序文库的大小,纯度及浓度。

  8. 转录组测序结果的影响因素?答:RNA的降解严重影响测序的质量,RNA降解后,加入poly-A后无法捕获纯化mRNA,因此,随机引物反转录无法得到全部的cDNA,导致测序结果出现明显的3‘-和5’-偏向。文库中的poly-A多聚物的存在会对测序信号产生干扰,影响测序结果的准确性;同时由于转录组中转录本的丰度不一致,实验前需要对样本进行均一化处理,否则高丰度的表达基因会掩盖低丰度表达基因,导致寻找新基因失败或者是获得大量无意义的重复序列。

  9. 转录组测序需要多大的测序量才能得到有意义的结果?答:转录组测序前,需要对物种转录组的大小进行评估,评估方法如下:(1)对于有reference genome的物种,可以分析基因组信息,统计编码基因的个数,及其碱基数,从而估计物种转录组的大小,另外可以查询相关或相近物种转录组研究的文献,作为参考。(2)对于无reference genome的物种则只能参考相近物种的转录组大小。由于转录组需要进行表达量的分析,因此在转录组测序中不推荐覆盖度,在进行不同基因和不同实验间的基因表达差异分析时,人们提出了RPM和RPKM的概念。RPM(Reads Per Million reads)即每百万reads中来自于某基因的reads数,考虑了测序深度对读段计数的影响。RPKM(Reads Per Kilo bases per Million reads)是每百万reads中来自于某基因每千碱基长度的reads数。因此,在确定转录组的测序量时,最好以产生的读长数目做依据,参照转录组大小,估计需要的读长数目,来确定转录组需要的测序量。

  10. 如何处理转录组测序中存在的系统噪音和偏差?答:虽然深度测序技术的准确性较以前的技术有了很大提高,但仍然存在错误和噪声。比如内含子区内有一些不连续的reads,很可能由系统噪声造成,如样品污染、测序错误和不恰当的read定位策略等。另外,外显子区域内的read信号分布有时也很不均匀。有文献报道,序列组成尤其是GC含量、RNA二级结构等也有可能是导致read不均匀分布的原因。这些噪声和分布偏好将影响新基因的识别和对剪接异构体形式和表达水平推断。合理地建模RNA-seq数据中的系统噪声和偏好是解决上述问题最有效的办法。基本的思路可以是:首先根据实验原理寻找可能产生系统噪音或偏差的因素,并尽可能将这些因素转化成可量化的特征,如序列特征、二级结构等;然后,将用实验数据对这些特征做统计分析,构造和训练模型,用模型来对数据进行校正。需要注意的是,某些偏好是由当前的测序技术和分析方法共同造成的,难以完全消除。在这种情况下,后续处理和解释时需要充分意识到这种偏好可能对生物学结论带来的影响,必要时通过补充其他实验来验证和修正通过高通量测序得到的生物结论。


QQ客服
电子邮箱
淘宝官店
没有账号?