科研星球

读取h5ad格式的单细胞文件

万事开头难,考虑到很多小伙伴在做单细胞公共数据分析的时候往往是在第一个步骤读取作者上传的表达量矩阵去构建seurat对象就各种屏蔽,非常有必要把18种单细胞数据格式文件都给大家梳理一下 。

首先是,读取h5ad格式的单细胞文件,这里以两个样本,数据链接是 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE153643  ,为例子,如下所示:

GSM4648564 adipose_pooled
GSM4648565 liver_pooled

作者提供了表达量矩阵的文件,但文件格式是h5ad,需要进行转换。

0.png

GEO界面的文件

将文件下载好存放在GSE153643_RAW文件夹下,然后代码如下所示:

# 自己安装  mojaveazure/seurat-disk 这个GitHub包:
#remotes::install_github("mojaveazure/seurat-disk")
library(SeuratDisk)
library(patchwork)
#~~~~~开始读数据~~~~~
##h5ad是python的Scanpy读取文件格式,需要转换
#~~~~读取adipose~~~~
Convert('./GSE153643_RAW/GSM4648564_adipose_raw_counts.h5ad'"h5seurat",
        overwrite = TRUE,assay = "RNA")
scRNA <- LoadH5Seurat("./GSE153643_RAW/GSM4648564_adipose_raw_counts.h5seurat")
scRNA

其实就是借助 一个GitHub包,名字是seurat-disk,首先一个Convert函数,然后一个LoadH5Seurat即可。超级简单。

读取之后的 scRNA就是一个标准的seurat对象,可以使用其标准代码走降维聚类分群哦!


## Normalizing the data
scRNA <- NormalizeData(scRNA, normalization.method = "LogNormalize"
                      scale.factor = 10000)

scRNA <- NormalizeData(scRNA)

## Identify the 2000 most highly variable genes
scRNA <- FindVariableFeatures(scRNA, selection.method = "vst", nfeatures = 2000)

## In addition we scale the data
all.genes <- rownames(scRNA)
scRNA <- ScaleData(scRNA, features = all.genes)

scRNA <- RunPCA(scRNA, features = VariableFeatures(object = scRNA), 
               verbose = FALSE)
scRNA <- FindNeighbors(scRNA, dims = 1:10, verbose = FALSE)
scRNA <- FindClusters(scRNA, resolution = 0.5, verbose = FALSE)
scRNA <- RunUMAP(scRNA, dims = 1:10, umap.method = "uwot", metric = "cosine")
table(scRNA$seurat_clusters)
phe=scRNA@meta.data
save(phe,file = 'phe-by-basic-seurat.Rdata')


文章来源:单细胞天地

没有账号?