RNA-seq测序基本知识_生物研究_实用技巧

上次已经描述了RNA-seq的测序平台，并且已经提出了一些典型的应用，那么具体的情况中自然而然就要问应该选择哪个平台。一个简单的解决方法是参考PubMed已发布的文献选择与其相同或相似的测序平台。当然总是建议在进行科学研究之前，一定要查阅文献，看看过去的研究如何处理目前的问题。然而盲目追随过去的先例的弱点是，一般来说，NGS测序特别是RNA-seq正在迅速改变实验的设计和执行方式。由于技术的飞速发展，可以公平地说，对于一个特定问题没有单一的正确答案。而且许多RNA-seq项目有多个目标，例如，可能需要鉴定样本中的新基因融合转录物，对已知基因的丰度进行量化，并鉴定已知基因中的任何SNP。

因此，根据研究设计原则提供指导是更为合理的，用户既可以对预期成果充满信心地计划项目，也可以理解为什么做出某些选择。在一项研究中所使用的覆盖范围和平台的数量可能需要进行权衡，而且由于实验室资源有限，因此需要进行权衡。

选择RNA-seq平台和测序模式的八项基本原则

1.1精确度：测序需多精确？

如果目标是检测RNA种类中的SNPs或单核苷酸编辑事件，那么我们必须选择一个错误率较低的平台，实际上我们应该能够区分真正的SNPs和测序错误。在人类SNP频率约1/800的情况下，这对应于99.9％的准确率。只有SOLID平台宣称准确率超过了这个水平，有些平台则差得多。但是，我们应该记住，我们可以通过测量更多的reads来弥补低精确度。所以对同一段RNA测量10次准确率为99.9％的reads，可以有效地提供99.99％的准确度。

如果目标是确定已知的蛋白质编码基因，改善基因结构模型的注释以及定量转录本，并且可能发现新的基因，那么我们需要的准确度非常低。实际上，将reads映射到已知基因模型的程序允许一个或者甚至两个不配对的匹配。实际上，如果我们的reads是50nt，并且允许一个不匹配，我们允许98％的准确性。在这个级别上，大多数常用平台都可以使用：SOLID、Illumina、454、IonTorrent。

1.2 reads数：需要多少。

在我们的RNA-seq研究中计算覆盖率统计是一个很好的做法。粗略计算，人类基因组有3000Mnt，其中大约1/30被用于蛋白质编码基因。这意味着要测序的RNA大约在100M nt。如果我们使用单端测序100nt（或双端测序50nt），则1M reads给出100M nt序列数据，其等于1×覆盖。普通平台的典型Read输出是30Mreads，将提供30×覆盖。因此，如果reads为30M，那么我们可以预计会有大量的表达基因，对大多数基因有很好的覆盖率，并且可能会遗漏一些低表达或很少表达的基因。为了计算reads映射到特定基因的概率，我们可以假定平均基因大小为4000nt（100Mnt除以25,000个基因）。30M reads相当于30×覆盖率，单端测序100nt（或双端测序50nt）长度，我们可以预计一次reads映射到平均表达和长度基因4000nt×30覆盖/100 nt 1200倍。因此，如果基因与平均基因相比在1/1200的水平上表达，那么我们有50:50的概率来读取它的图谱。在实践中，30M reads是非常合理的，能捕获大多数但可能不是所有的样本中表达的基因。由于大多数平台可以产生高达30M的reads，所以这通常不是限制。如果需要更好的覆盖范围，需要替代外显子使用和其他基因模型细节或罕见事件的数据，那么更容易产生大量reads的平台是优选的。最近开发的一种名为“捕获测序”的方法已被用于在人类基因组的少量位点富集RNA。该方法基本上使用印刷的Nimblegen微阵列从有限数量的基因座捕获RNA[21]。在这个例子中，作者捕获了大约50个基因位点，包括蛋白质编码基因和长的非编码RNA。利用捕获策略，他们能够有效地获得>4600倍的基因位点覆盖率，并且能够发现未注释的外显子和剪接模式，甚至可以研究已被充分研究的基因。简单的结论是，你可能永远没有足够的覆盖率来获得一个基因位点的每一个可能的转录本。

解决问题的另一种方法是考虑需要多少reads能确认转录本的存在。关于这个问题没有一致意见，文献中充满了例子，一个reads就足以说明一个分子的存在，相反文献中<10个reads是不够的。这很大程度上取决于研究的背景、期刊或数据库标准以及研究的总体目标。

1.3 读长：Read要多长读长？

为了简单地将reads映射到生物体中已知的基因，甚至14nt就足够了。但是，由于某些reads可能映射到>1个位点，因此需要更长的reads。50nt时，一小部分reads仍然会映射到>1个位点，但通常非常少（<0.01％），所以实际上读长将允许您进行差异表达研究并更好地定义基因模式。然而，许多情况下需要更长的reads，例如在没有其它可用序列数据（例如，基因组，EST或长链cDNA）的物种中注释新基因。具有更长的序列是一个明显的优势，而不是试图预测基于映射不连续的50ntreads的基因模式。Roche454在这些类型的应用方面有着良好的记录。太平洋生物科学公司（PacifcBiosciences），尤其是新一代的仪器和试剂盒，能够产生长达10,000nt或以上的长reads。

1.4 SR orPE: 单端测序还是双端测序?

如果在文库制备的任何步骤（RNA的片段化，接头的连接，链的方向）上没有偏差，并且cDNA合成将产生代表RNA样品的完全随机片段，则我们将获得来自SR就像我们从PE那里得到的那样。但是，这些库准备步骤中存在偏差，增加待测序片段的随机化的一种方法是对克隆文库的两端进行测序。这起到双重目的，因为来自短片段的PE序列可以重叠，从而提供对序列的额外确认。现在大多数的数据分析程序都能同时处理SR和PR数据，所以在下游分析中甚至没有阻碍。不幸的是，并非所有的平台都允许在两端进行测序，所以如果可用的话，使用双端测序是一个好主意。

1.5 RNA还是DNA:我要测RNA还是DNA?

如前所述，大多数平台对来自样品中逆转录双链cDNA和PCR扩增的RNA分子进行测序。在RNA-seq中存在这样的情况，如在研究项目中RNA结构的修饰是重要的，例如mRNA加帽，RNA将被优先选择进行测序，如最近的Nanopore纳米孔测序直接测序RNA而不是cDNA。

1.6 样本：我需要准备多少样本？

现在由于可能从单个细胞中测序总RNA，人们不禁要问需要的样品材料是否有下限。使用扩增的双链cDNA的测序平台基本上没有材料的下限，但是这并不意味着应该为测序平台提供最少的样本，增加材料也应该增加样品中的RNA种类。大多数合成测序平台现在都有专门的试剂盒，可以从纳克级的总RNA中制备文库。单分子平台只需要一个分子进行测序。因此，这对不同的测序平台似乎不是限制。

1.7 花销：我需要花费多少金额？

由于测序成本在过去十年中急剧下降，所以成本不应该被考虑在内。但是现实情况是，发表文章的要求和质量标准也在不断提高，所以始终存在成本问题。将RNA-seq文库上传到商界、国家或当地的核心NGS设施是降低成本的好方法。如果资金充足，购买个人实验室测序仪目前是可行的。实际上，Illumina的MiSeq和Ion Torrent的个人染色体检测仪和二代测序仪都生产出个人实验室测序仪，即使资金不足的实验室现在也可以负担得起。价格下限可能还没有达到，所以人们可能期望在没有商业动机的测序平台上有更多的选择。实际上，商业性和非营利性核心设施对样品的高度要求意味着价格压力继续下降。

1.8 时间：多久能测完？

工作生活中有一句古语，说“任务需要在昨天完成”。基因组学是一个快速发展的领域，理想情况是样本准备好，文库建立好，测序没有任何停留或延迟。实际上，许多平台（Illumina，SOLID，454）都有排队，这并不是因为机器正在运行，而是因为没有足够的文库填充流动池来进行单次运行，所以已经构建并提交了测序。可以这么说，在实践中，工作队列可能不是来自仪器，而是因为文库建设的准备工作，收集了足够数量的文库来启动仪器的运行。在工作流程的另一端，一旦生成了序列数据，工作才刚刚开始，数据分析才能开始。在大型项目中，数据分析阶段可能需要几天，几个月或几年的时间，使得测序仪器运行时间相对较短。

总结

总之，人们可以看到大量的选项用于执行RNA-seq实验。每个平台都有自己独特的属性，与其他的不同。如果幸运的话，可以有多个平台可供选择。事实上，一些研究利用每个平台的最佳性能，不同的平台适合不同的目的。例如，Illuminareads可能用于覆盖率，SOLID用于准确度，Roche454或PacificBiosciences用于读长。人们可以很容易地想象一个未来，在一个特定项目中多个平台的使用是典型的，选择平台的因素是多维的，但是为特定的应用确定最合适的平台并不是不可能的。利用这里提供的信息以及仪器和当前定价，应该有可能对RNA-seq实验的适当使用平台及其使用模式做出明智的决定。

参考文献：

1. NagalakshmiU., Wang Z., Waern K. et al. Te transcriptional landscape of the yeast genomedefned by RNA sequencing. Science 320(5881):1344–1349, 2008.

2. Sultan M., Schulz M.H., Richard H. et al. A global view of gene activity andalternative splicing by deep sequencing of the human transcriptome. Science321(5891):956–960, 2008.

3. Wilhelm B.T., Marguerat S., Watt S. et al. Dynamic repertoire of aeukaryotic transcriptome surveyed at single-nucleotide resolution. Nature453(7199):1239–1243, 2008.

4. Wang Z., Gerstein M., and Snyder M. RNA-Seq: A revolutionary tool fortranscriptomics. Nature Reviews in Genetics 10(1):57–63, 2009.

5. Avarre J.C., Dugué R., Alonso P. et al. Analysis of the black-chinnedtilapia Sarotherodon melanotheron heudelotii reproducing under a wide range ofsalinities: From RNA-seq to candidate genes. Molecular Ecology Resources14(1):139–149, 2014.

6. Gutierrez-Gonzalez J.J., Tu Z.J., and Garvin D.F. Analysis and annotation ofthe hexaploid oat seed transcriptome. BMC Genomics 14:471, 2013.

7. Mortazavi A., Williams B.A., McCue K. et al. Mapping and quantifyingmammalian transcriptomes by RNA-seq. Nature Methods 5(7):621–628, 2008.

8. Trapnell C., Williams B.A., Pertea G. et al. Transcript assembly andquantifcation by RNA-seq reveals unannotated transcripts and isoform switchingduring cell diﬀerentiation.Nature Biotechnology 28(5):511–515, 2010.

9. Peltonen J., Aarnio V., Heikkinen L. et al. Chronic ethanol exposureincreases cytochrome P-450 and decreases activated in blocked unfolded proteinresponse gene family transcripts in Caenorhabditis elegans. Journal ofBiochemical Molecular Toxicology 27(3):219–228, 2013.

10. Mohd-Shamsudin M.I., Kang Y., Lili Z. et al. In-depth transcriptomicanalysis on giant freshwater prawns. PLoS ONE 8(5):e60839, 2013.

11. Majewski J. and Pastinen T. Te study of eQTL variations by RNA-seq: FromSNPs to phenotypes. Trends in Genetics 27(2):72–79, 2011.

12. Lalonde E., Ha K.C., Wang Z. et al. RNA sequencing reveals the role ofsplicing polymorphisms in regulating human gene expression. Genome Research21(4):545–554, 2011.

13. Tang F., Barbacioru C., Wang Y. et al. mRNA-seq whole-transcriptomeanalysis of a single cell. Nature Methods 6:377–382, 2009.

14. Hashimshony T., Wagner F., Sher N. et al. CEL-Seq: Single-cell RNA-seq bymultiplexed linear amplifcation. Cell Reports 2(3):666–673, 2012.

15. Edgren H., Murumagi A., Kangaspeska S. et al. Identifcation of fusion genesin breast cancer by paired-end RNA-sequencing. Genome Biology 12(1):R6, 2011.

16. Quinn E.M., Cormican P., Kenny E.M. et al. Development of strategies forSNP detection in RNA-seq data: Application to lymphoblastoid cell lines andevaluation using 1000 Genomes data. PLoS ONE 8(3):e58815, 2013.

17. Djari A., Esquerré D., Weiss B. et al. Gene-based single nucleotidepolymorphism discovery in bovine muscle using next-generation transcriptomicsequencing. BMC Genomics 14(1):307, 2013.

18. Ilott N.E. and Ponting C.P. Predicting long non-coding RNAs using RNAsequencing. Methods 63(1):50–59, 2013.

19. Faghihi M.A., Modarresi F., Khalil A.M. et al. Expression of a noncodingRNA is elevated in Alzheimer’s disease and drives rapid feed-forward regulationof beta-secretase. Nature Medicine 14(7):723–730, 2008.

20. Srinivasan J., Dillman A.R., Macchietto M.G. et al. Te draf genome andtranscriptome of Panagrellus redivivus are shaped by the harsh demands of afree-living lifestyle. Genetics 193(4):1279–1295, 2013.

21. Mercer T.R., Gerhardt D.J., Dinger M.E. et al. Targeted RNA sequencingreveals the deep complexity of the human transcriptome. Nature Biotechnology30(1):99–104, 2011.

科研星球

RNA-seq测序基本知识

标签