科研星球

RNA-seq要点小结

1、什么情况下用RNAseq

RNAseq是一种高通量测序技术。它可以帮助我们理解在各种比较条件下,所有基因的表达情况的差异。简单的理解,就是RNAseq可以得到同种不同类型的两类细胞间的基因表达差异

以正常的神经细胞和发生突变的神经细胞为例。这两种细胞的行为表现不同,我们想知道造成这种差异的遗传机制是什么

1.png

正常的和突变的神经细胞

这个时候,我们就需要用到一种技术“高通量测序”,高通量测序能告诉我们哪些基因被激活,以及他们的转录数量。RNAseq技术能分析细胞内的全转录组差异,看他们基因表达的情况有何不同。

2.png

不同基因的表达情况

例如:
gene1在两种细胞中的表达没有差别

gene2在正常神经细胞中不表达,而在突变神经细胞中高表达。二者差异很大

gene3在两种细胞中都有表达并且差异较小


2、RNA-seq的四个主要步骤

1)Prepare a sequencing library 建立测序文库

2)Sequence 测序

3)Data analysis 数据分析

4Visualization 可视化

1)建立测序文库

3.png

建立测序文库

STEP1 分离RNA

STEP2 将RNA切割成小片段

因为:RNA转录本可能是几千bq的长度,而测序机器只能测小片段(200-300bp)

STEP3 将RNA片段转化为DNA双链

因为:1双链DNA比RNA稳定,2更容易扩增及修饰(STEP4)

STEP4 加测序接头

接头的作用:1机器更容易识别片段,2可以同时测序不同的样品(不同样品加不同接头)提高性价比

STEP5 PCR扩增

只有加接头的片段能被扩增

STEP6 质量检测

检测文库浓度和片段长度,确保片段长度合适。

2)测序

4.png

测序(第一排)

一块测序板上(Flowcell)能包含多于400,000,000个片段,垂直于测序板排列。测序仪有四种颜色的荧光探针A、T、C、G,与测序片段上的碱基互补,结合上就闪一下自己带的荧光(A带红光,G带蓝光,C绿光,T橙光)。每闪一次光,测序仪就对其进行“拍照”记录下来,许许多多的测序片段中同一排的碱基测完了,就把原来荧光的那一排碱基冲掉,再放下排的碱基与荧光碱基进来结合、放光。如此循环。

5.png

测序(第二排)

这一步是由测序仪完成的,得到的结果就是raw data.

6.png

raw data

第一行由@开头,后面是测序的独特ID;第二行包含测序片段的碱基。第四行是测序片段每个碱基的质量分数(fastqc里的一项重要指标)

3) 数据分析

STEP1 原始数据处理

在RNA-seq实战过程中,这一步我主要做了2个内容:

①质量评估FastQC和MultiQC

进行质量评估能够直观的看到测序结果,并对其进行评价,如:碱基质量分布,GC含量,未检测出碱基N的含量,等等。其中multiqc可以对fastqc的结果进行整合,让我们可以一次看到多个样品的报告。

②去接头Trimmomatic

我们测序的结果包括接头(sequencing adaptors),而我们想要测序的基因并不包含基因,因此需要我们通过软件来将接头去掉。

STEP2 对比到参考基因组(序列比对)

7.png

序列比对原理

先将参考基因组序列打断成许多小片段,然后为了方便接下来寻找这些片段,需要对他们进行构建索引index(目的是标注每个小片段的位置)

再将测序的reads和基因组一样,也是打断成小片段,然后把它的小片段比对到基因组的小片段上,比对上的会给出位置信息。

可以进行序列比对的软件有多种,我实战中练习了STAR

STEP3 统计reads数(表达定量)

7.png

表达定量

通俗的讲,表达定量就是讲我们测序好的cDNA文库中每个基因计数。我在实战中用RSEM、kallisto和featureCount软件练习了 计算基因的count数

STEP4 构建表达矩阵,标准化表达矩阵

统计好reads数之后,构建表达矩阵能将结果更加直观的表现出来。

直接构建出来的表达矩阵还不能直接用,我们需要将不表达的基因删除以及标准化表达矩阵,举个例子:

9.png

表达矩阵

看起来,似乎sample2的基因表达量都为sample1的2倍,但sample2的总reads数本身就大于sample1.因此我们需要将表达矩阵标准化,让他们站在同一起跑线上。

到这一步,我们就可以筛选上调表达的基因、下调表达的基因...

4)可视化

STEP1 差异基因分析

DESeq2使用的是原始counts值做差异分析,表达量的校正方法是TPM。其中有两点需要注意:1.DEseq2要求输入数据是由整数组成的矩阵。2.DESeq2要求矩阵是没有标准化的。

STEP2 对差异分析结果进行绘图(可视化)

数据有多种呈现方式,例如Heatmap,Volcano,Cluster,PCA等等。

一般网上会有人写了代码,我们需要的时候可以从网上查找,修改参数运行。


没有账号?