科研星球

RNA-seq结果图片如何解读?

测序项目完成,我们会获得大量的数据,包括有很多图片在内。当然,对于熟悉生物信息分析的大神而言,这些图片太easy。但是,在科研岗位上,还有很多生信小白。。。。。所以我们还是来讲一下如何解读这些结果图片。


在RNA-seq项目中,常见的结果图片包括:火山图、韦恩图、聚类热图、log2(ratios)折线图、有向无环图、散点图、代谢通路图、蛋白互作网络图等等。


本期,我们先来看看火山图、韦恩图、聚类热图和折线图。


火山图



RNA-seq中,火山图(Volcano Plot)显示了两个重要的指标:fold change和校正后的p value,利用T检验分析出两样本间显著差异表达的基因后,以log2(fold change)为横坐标,以T检验显著性检验p值的负对数-log10(padj)为纵坐标。

下载 (5).jpeg

图示解释:

  1. 红色点表示TS样本相对于对照样本CK表达量上调的基因,绿色点表示下调基因。

  2. 纵坐标,校正后的p-Value(padj)越小,表示差异越显著,对应的 -log10(padj)数值越大。

因此,左上角和右上角的点分别表示表达水平差异非常显著的下调基因和上调基因。

对于有生物学重复的样本,要求padj﹤0.05,所以,上图中红色点和绿色点均在1.3以上。



韦恩图



韦恩图(维恩图)也叫文氏图,用于显示元素集合重叠区域的图示,常用圆或椭圆表示。根据参与集合数,可将venn图分为二集合、三集合、四集合、五集合等。可利用R语言来实现,比如使用R语言中的 Vennerable package。

下载 (1).jpeg

图示解释:

在RNA-seq项目中,每个椭圆表示一个比较组合(处理组 vs对照组)中的差异基因,椭圆重叠区域的数字表示对应的多个比较组合之间的共有差异基因个数,未重叠区域表示各比较组合特有的差异基因。可以通过与韦恩图对应的表格,可以看到比较组合共有和特有的基因信息。


聚类热图



热图以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区,用在RNA-seq中,热图可以表示图中某一个位置的基因的表达水平高低。聚类热图可用于判断不同实验条件下差异基因的表达模式。每个比较组合都会得到一个差异基因集,将所有比较组合的差异基因集的并集在每个实验组/样品中的FPKM值,用于层次聚类、 K-means聚类和SOM聚类分析。热图可以通过R语言工具中的pheatmap实现。

下载 (2).jpeg

图示解释:

  1. 聚类热图包含两个数据轴的信息,一个轴表示不同的实验处理条件/样本(如图中横轴),另一个轴表示不同的基因(如图中纵轴)根据聚类分析可以将不同样本中表达模式相同或相似的基因聚为一类。表达模式相似的基因可能具有相似的功能,共同参与同一代谢过程或存在于同一细胞通路中,因此,将表达模式相同或相近的基因聚集成类,可以用于推测未知基因的功能或已知基因的新功能。

  2. 红色:表示基因表达水平高;蓝色:表示基因表达水平低。

  3. 聚类方式:双向聚类(如上图)可以根据某一基因在不同样本中的表达水平将样本聚类,同时可以根据某一样本中不同基因的表达水平将基因进行聚类。另有横向/纵向聚类、无向聚类。


折线图



log2(ratios)折线图展示的是各个基因在不同样本中表达量的变化趋势(表达模式)。表达模式相近的基因被聚为一类,根据基因的表达模式差异,会形成多个subcluster。

下载 (3).jpeg

图示解释:

  1. 灰色线条表示一个cluster中的基因在不同实验条件下相对表达量(聚为一类的基因会有很多个,图中显示比较密集)

  2. 蓝色线条表示这个cluster中的所有基因在不同实验条件下相对表达量的平均值

  3. x轴表示实验条件,y轴表示相对表达量。



以上涉及到的一些名词解释如下:

  1. Fold change:变化倍数,标准化信号值之间的比值,这里指的是不同样本中read count值的比值。

  2. p value:T检验用于判断两个平均数的差异是否显著的值。

    q value:为经过多重校验后的p value,能更好地控制假阳性率。

  3. Read count:在二代测序中,每个测序反应得到的序列为一个“read”,通过统计某一个“read”在整个测序中出现的次数即为read count,可以用read count表示RNA丰度。

  4. FPKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairssequenced), 即每百万fragments中来自某一基因每千碱基长度的fragments数目。理论上基因越长reads落在上面的概率越大,文库总量越大,reads落在每个基因上的概率也会随之提高,不能仅根据reads数来简单判断基因的表达水平,需要对它进行矫正,可以理解为消除了基因长度与文库大小的干扰,对于基因定量更为准确。


没有账号?