科研星球

一文掌握二代测序NGS

0 (1).png

目录

一. RPKM,FPKM,TPM的区别
二. 二代测序中的barcode
三. De Novo sequencing & resequencing
四. depth & coverage
五. 高通量测序技术
六. Sanger测序
七. 三代测序技术
八. 外显子测序
九. small RNA测序
十. SNP、SNV、InDel、CNV、SV
十一. Duplication
十二. Read
十三. Contig/Scaffold
十四. gene fusion,基因融合
十五. Paired-end reads和single reads

一.RPKM,FPKM,TPM的区别

先说一个背景:
在运用NGS检测基因表达量时,如果直接用每个基因对应的reads数来统计表达量,常常会导致偏差。偏差主要来源于2个方面:
1) 测序深度;
2) 基因长度。
测序深度越深,基因长度越长,对于随机取样的NGS测序来说,越容易测到该基因的reads,即相应的reads数越多。
因此,基于一定标准,将基因表达量均一化之后再做描述,就能避免上述偏差,获得有意义的结果。
在此,介绍几个均一化之后的表达量的概念:

RPKM: Reads Per Kilobase per Million mapped reads (每千个碱基的转录每百万映射读取的reads)
FPKM: Fragments Per Kilobase per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments)
TPM:Transcripts Per Kilobase per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)
举一个简单例子:
表1. 各基因reads数。

基因名(长度)样本A样本B样本C
alpha(2kb)101230
beta(4kb)202560
gama(1kb)5815
theta(10kb)001

大家可以清楚地看到,样本C的4个基因read counts数目明显多於其他两个样本,説明其测序深度较高,基因beta的长度的基因alpha的两倍,也使得其read counts在三个样本中都高於alpha。接下来我们要做就是对这个矩阵进行標准化,分別计算RPKM, FPKM和TPM,为了使数值可读性更好,下面的计算中我们用10代表million。

我们先来説説RPKM怎么算。第一步先將测序深度標准化,计算方法很简单,先分別计算出每个样本的总reads数(这里以10为单位),然后將表中数据分別除以总reads数即可,这样就得到了reads per million. 如下表2:
表2. 各基因reads per million。

基因名(长度)样本A样本B样本C
alpha(2kb)2.862.672.83
beta(4kb)5.715.565.66
gama(1kb)1.431.781.42
theta(10kb)000.09

第二步,将各个基因的结果除以对应基因的长度,得到最后结果。此步骤是对基因长度的标准化。

表3. 各基因RPKM。

基因名(长度)样本A样本B样本C
alpha(2kb)1.431.331.42
beta(4kb)1.431.391.42
gama(1kb)1.431.781.42
theta(10kb)000.009

对于FKPM来说,
其计算方法基本和RPKM一致。FPKM与RPKM的唯一的区别为:F是fragments,R是reads,如果是pair-end测序,每个fragments会有两个reads,FPKM只计算两个reads能比对到同一个转录本的fragments数量,而RPKM计算的是可以比对到转录本的reads数量(不管pair-end的两个reads是否能比对到同一个转录本上)。如果是single-end测序,那么FPKM和RPKM计算的结果将是一致的。

对于TPM来说,
第一步,先对基因长度进行标准化。现将表1原始reads数据除以每个基因的长度,得到reads per kilobases.
表4. 各基因reads per kilobases。

基因名(长度)样本A样本B样本C
alpha(2kb)5615
beta(4kb)56.2515
gama(1kb)5815
theta(10kb)000.1

第二步標准化测序深度时,总的reads数要用第一步中除过基因长度的数值。即第一样本除以15,第二个样本除以20.25,第三个样本除以45.1 (別忘了我们的单位是10哦)。表5就是你们想要的TPM了。
表5. 各基因TPM。

基因名(长度)样本A样本B样本C
alpha(2kb)3.332.963.326
beta(4kb)3.333.093.326
gama(1kb)3.333.953.326
theta(10kb)000.02

二. 二代测序中的barcode

简单来说,barcode就是NGS测序中每个样品的身份标签。
为什么要有身份标签呢?
以华大智造新发布的MGISEQ-2000机型为例,FCL芯片有支持4条流道(lane),单张芯片的最高数据产量能达到540 Gb/run,因此单条lane的测序数据量就能达到135 G。对于华大的人重WGS测序来说,10X的测序深度的总数据量大概在30 G,也就是说MGISEQ-2000的一条lane理论上能同时满足4个WGS样品的测序需求。而miRNA、lncRNA、转录组等等的测序对于数据的需求更小,单条lane能同时对更多的样品测序。
因此,当把十几个样品同时上样到一条lane时,为了有效地区分不同样品的测序数据,需要给每个样品的reads加上不同的身份标签(即barcode,也叫index)。
为什么不能一条lane跑一个样呢?
提高效率、降低成本、节约试剂等等原因。

三. De Novo sequencing & resequencing

De novo,是从头测序的意思,主要针对基因组序列未知的物种样品的测序;
Resequencing, 是重测序的意思,re在英文中多指“重复,二次”,主要针对基因组序列已知的物种样品的测序。

既然物种基因组已知,为什么还要进行重测序?
全基因组重测序是对已知基因组序列的物种进行基因组测序,并在此基础上对个体或群体进行差异性分析。基于全基因组重测序,通过与已知参考基因组序列比对,可以找到大量的变异信息,如单核苷酸多态性(SNP),插入缺失突变(InDel, Insertion/Deletion)、结构变异(SV, Structure Variation) 和拷贝数变异(CNV, Copy Number Variation) 等。基于全基因组重测序的群体遗传学研究,可以快速筛选全基因组水平的遗传变异。

四. depth & coverage

0.png图1 全基因组上的比对结果统计表

此表引用自华大科技人重WGS的demo报告中,红圈标注的分别就是测序深度(depth)和测序覆盖度(coverage)。
测序深度(depth):指的是测序获得的总碱基数(bp)与基因组大小的比值,也可以形象地表示为基因组中的每个碱基平均被测到的次数。例如人的基因组大小是3G,如果测序获得的总碱基是90G,则此次测序的深度=90G/3G=30X。
在动植物重测序中,我们可以根据研究目的来选择测序深度:

研究目的样本选择建库、测序策略
变异检测样本无特别需求小片段文库(~300bp), 30X
点突变定位点突变个体或构建的作图群体(F2、 RIL等)小片段文库(~300bp), 30X
外源片段定位NIL 群体、 T-DNA 插入突变体,有参考基因组物种,且外源片段序列已知小片段文库(~300bp), 30X
遗传图谱构建/Bin Map作图群体如(F1、 F2、 DH、 RIL)等,子代群体越大最终基因定位结果越好,推荐200以上;Bin Map 适合于永久作图群体如 DH、 RIL 等小片段文库(~300bp),亲本>20X,子代 0.2X(BinMap) /3-5X (遗传图谱)
HapMap构建和 GWAS 自然群体, 控制群体结构, 推荐群体大小>300小片段文库(~300bp), 5-10X
群体进化自然群体,亚群划分明确, 亚群内样本具有代表性,总群体大小>30小片段文库(~300bp), >10X

测序覆盖度(coverage):指的是测序获得的数据占整个基因组的比例。可以简单理解为至少被测到1次的reads覆盖到基因组的比例的高低。假设某物种的基因组一共含有2000个碱基,测序1次认为是随机从中抽1个碱基检测,那么某个碱基被测到的概率P=1/2000,而对于深度是30X的测序来说,我们想知道某个碱基被测到0次、1次…30次的概率分别是多少,因此某碱基被测到次数的概率符合正态分布。
但是,由于基因组存在高重复序列、高GC区域等等问题,因此很难真正实现100%的测序覆盖度。因此,到底选择多少深度的测序策略,以获得多少覆盖度的数据结果,还得看实际的研究目的。

两者的关系
关系很简单:正相关。随着测序深度加深,测序覆盖度将逐渐靠近100%。

五. Sanger测序

一代测序技术主要指的是sanger测序,其具有通量低、结果可靠等特点。大概原理如下:DNA序列从统一的起始位点开始,延长到随机位点停止,扩增产物组成一套以A\T\C\G结束的不同长度的DNA簇,通过高分辨率变性凝胶分离片段后,用相关仪器检测荧光或者同位素,从而获得序列信息。

六. 高通量测序技术

高通量测序(High Throughput Sequencing)又叫下一代测序技术(Next-generation Sequencing,NGS),能同时对数百万条DNA序列进行测序,通量很高,但相对读长较短。目前主流的测序仪生产公司有:中国华大智造,美国Illumina,美国Thermo Fisher等等。

七. 三代测序技术

相较于一代和二代来说,三代测序具有通量高、读长较长、可靠性高等特点。其在建库时不需要利用PCR扩增,能直接对每一条DNA链进行测序。目前主流的测序仪生产公司:美国Pacific Biosciences,英国Oxford Nanopore等等。

八. 外显子测序

外显子是人基因组的蛋白编码区域,利用序列捕获技术可以将其 DNA 捕获并且富集。虽然外显子区域仅占全基因组 1%左右,却包含了 85%的致病突变。相比全基因组测序,全外显子测序更加经济、高效。外显子组测序主要用于识别和研究与疾病、种群进化相关的编码区及 UTR区域内的变异。结合大量的公共数据库提供的外显子数据,有利于更好地解释所得变异与疾病的关系。

九. small RNA测序

Small RNA 测序是借助第二代高通量测序技术,对某物种某组织在特定状态下的 18-30nt 的 small RNA 进行高通量测序。通过数据库比对,对获得的 small RNA 序列进行分析、鉴定,将数百万条 small RNA 序列分类成 rRNA、 tRNA、 snRNA、 snoRNA 和 miRNA、 siRNA、piRNA(部分物种) 等等,进行定量、差异分析等;另外,还进行预测新的 miRNA、 siRNA、piRNA,并对鉴定出的相应已知 miRNA 和新 miRNA 进行靶基因预测。通过对 miRNA 靶基因的相关分析,如 GO 和 KEGG 分析,可将鉴定出的 miRNA 与相应表型差异关联起来, 从而为解释相关生理过程的调控机制提供证据,如发育、 细胞分化与凋亡、脂类代谢和激素分泌等多种生理过程,如调节内源基因表达、疾病的发生机制、 预测与诊断、 肿瘤的相关机理机制、 病毒的免疫防御机制等等。

十. SNP、SNV、InDel、CNV、SV

基因组中存在很多的变异类型,大体上分为以下几种:
1) SNP:单核苷酸多态性,Single Nucleotide Polymorphism。基因组中当个核苷酸位置上可能存在的碱基改变而形成的多态性;SNP是一个群体性感念,即这种变异以一定的频率存在于群体中而不是特指发生在个别的个体中。一般来说,SNP大多是二等位多态性的,即群体中在某个基因位点只发现两种核苷酸的变异,如A/T,C/T。
2) SNV:单核苷酸变异,Single Nucleotide Variation。SNV相对于SNP,没有群体性的概念,并且不存在多等位多态性的特点。
3) InDel:是Insert和Deletion的缩写,顾名思义,指的是小片段缺失和插入的变异。
4) CNV: 拷贝数变异,Copy number variation,指基因组(或某一基因组区段)的DNA大片段的数目变异。以大于1kb的DNA片段为单位与相应参考基因组比对,如果这个片段的拷贝数目发生变化,那么这种遗传变异就称为CNV。
5) SV:Structural variation,结构变异。一般指基因组中大于1Kb的序列变异,广义的SV包括了CNV,典型的有缺失、插入、重复、倒位和易位。

十一. Duplication

这是一个生物信息学的概念。
由于二代测序仪对DNA分子信号强度的要求,在上机测序前我们需要通过PCR建库,以加强文库中每个DNA链的信号强度,以华大MGISEQ-2000为例,通过PCR形成DNB(纳米球)以获得良好的文库质量。
而Duplication reads,指的就是在PCR过程中,被多次镜像复制的一个read。如果一个read被镜像复制,那么复制生成的reads跟其是一模一样的,对于测序分析来说,只需要其中1条read就可以,相对的,不一样的reads称为unique reads。

十二. Read

read在这里是名词,指高通量测序仪测序产生的一段片段。

十三. Contig/Scaffold

1) Contig是指一段连续而没有任何gap的一致性碱基序列,其中的每个碱基都被准确定义;
2) Scaffold是指顺序和方向都确定的一系列contig,但在contig之间容许有已知长短的未知序列。
3) Contig N50是指将测序获得的contig从长到短排序,并按此顺序将contig长度相加,当加和的长度达到contig总加和长度的一半时,最后一个加入计算的contig长度就是contig N50。例如某测序获得的所有contig加起来有50K的长度,当把排序的contig1、contig2、contig3…的长度陆续相加,加到contig23时,加和达到了25k,那么,我们把contig23的长度作为contig N50。
4) Scaffold N50和contig N50的概念是类似的。
Contig N50和scaffold N50是评价基因组拼接质量的2个重要判断标准。
Contig N90与contig N50是类似的,占比达到总长的90%。

十四. gene fusion(基因融合)

基因融合是指两个独立的基因部分连接,形成了一个混合基因。融合基因表达的产物也叫融合蛋白。

十五. Paired-end reads和single reads

Paired-end reads简称PE reads,由双端测序产生;single reads则由单端测序产生。二者的差别在于,双端测序的测序引物会结合到序列的两端,并在完成单链测序后继续对另一互补链进行测序;而单端测序的测序引物只结合在序列一端并进行测序。


来源:华大基因


QQ客服
电子邮箱
淘宝官店
没有账号?