科研星球

更快更稳定的测序数据下载方法

gs数据桶

google的gs对象存储其实和aws的s3是一样的,就是学习的亚马逊云。之前我们介绍了aws的生物数据下载方法,其实NCBI目前也提供Google Drive的方法。但其实aws上的生物数据更多。但是Google Drive的下载速度更快。NCBI的SRA数据,隔一段时间会将数据转入sos目录中保存,这样就不能使用aspera高速下载了。不过同时,数据也会同步到google和aws的云服务器中。

我们访问一个数据,在Data access中可以看到,每个数据提供了sra和fastq两种格式,其中sra数据可以分别从ncbi,aws和google的服务器上下载。是https协议,使用curl或者wget,迅雷等就可以直接下载。


如果看到地址是“s3://”或者“gs://”开头的地址,这些就不能使用浏览器下载,而需要使用awscli和gsutil工具进行下载。

不过google drive的NCBI数据需要在Google Drive中才能下载,就是需要使用googole的云计算才能在里面快速使用。否则使用https的地址可以直接下载。

gsutil

gsutil 是一个Python应用,该应用可通过命令行访问 Cloud Storage,

使用 gsutil 完成各种各样的存储分区和对象管理任务,包括:创建和删除存储分区,上传、下载和删除对象,列出存储分区和对象,移动、复制和重命名对象,修改对象和存储分区 ACL。

gsutil 使用 HTTPS 和传输层安全协议 (TLS) 执行所有操作,包括上传和下载。最简单的方法就是使用bioconda进行安装。

mamba install -y gsutil
下面我们使用gsutil下载Broad研究所的数据和Google Health的DeepVariant数据。

下载Broad数据

(base) meta 20:58:27 ~
$ gsutil ls gs://broad-public-datasets
gs://broad-public-datasets/funcotator_dataSources.v1.4.20180615.sha256
gs://broad-public-datasets/funcotator_dataSources.v1.4.20180615.tar.gz
gs://broad-public-datasets/intervals_hg38.list
gs://broad-public-datasets/CHM1_CHM13_WGS2/
gs://broad-public-datasets/IlluminaGenotypingArrays/
gs://broad-public-datasets/NA12878/
gs://broad-public-datasets/NA12878_downsampled_for_testing/
gs://broad-public-datasets/NA12878_replicates/
gs://broad-public-datasets/TCGA_DREAM/
gs://broad-public-datasets/TCRB/
gs://broad-public-datasets/cnn-variant/
gs://broad-public-datasets/funcotator/
gs://broad-public-datasets/gvs/
gs://broad-public-datasets/scRNA_Seq_testing/

下载DeepVariant数据

gsutil -m cp -r \
  "gs://deepvariant/benchmarking" \
  "gs://deepvariant/binaries" \
  "gs://deepvariant/case-study-testdata" \
  "gs://deepvariant/cybdv" \
  "gs://deepvariant/datalab-testdata" \
  "gs://deepvariant/eval" \
  "gs://deepvariant/example-reports" \
  "gs://deepvariant/exome-case-study-testdata" \
  "gs://deepvariant/experimental" \
  "gs://deepvariant/historical_datasets" \
  "gs://deepvariant/hybrid-case-study-testdata" \
  "gs://deepvariant/lib" \
  "gs://deepvariant/models" \
  "gs://deepvariant/pacbio-case-study-testdata" \
  "gs://deepvariant/packages" \
  "gs://deepvariant/performance-testdata" \
  "gs://deepvariant/public-training-data" \
  "gs://deepvariant/quickstart-testdata" \
  "gs://deepvariant/training-case-study" \
  "gs://deepvariant/trio-merging-case-study" \
  .


没有账号?