科研星球

小白如何进行生信分析平台搭建

很多读者想学习生物信息分析,而生物信息分析是一项实践性很强的工作,因此我们推出《生物信息分析平台搭建》系列,手把手教你搭建属于自己的生物信息分析系统,为了便于练习,我们将在虚拟机中进行练习,当熟练之后,在逐步上手实体机或云服务器。

01. VirutalBox安装

下载.jpeg

VirtualBox是目前免费虚拟机中最好用的软件,兼容性好、稳定、定期更新。是生信入门、无服务器还要数据分析的朋友居家必备软件。。

02. 安装Linux系统

下载 (1).jpeg

在VirtualBox软件中,在Ubuntu为例,从加载系统光盘镜像,到完成安装进入图形桌面,13步带你进入真正的Linux世界。

03. 系统设置


主要内容包括重置root帐号密码(先拿下管理员权限)、网络设置、系统设置、锁屏时间、语言选择、系统与软件更新等常用操作。

未命名.png

04. 共享文件夹

下载 (2).jpeg

系统配置好,如何访问电脑里的文件,开始学习使用和分析数据,设置共享目录难住了很多人,这里有详细的图文教程。

05. 个性化设置

下载 (3).jpeg

Terminal下调试命令和代码,文本编辑神器Vim的安装和配置不可少;加速软件下载,修改软件源为国内镜像;配置环境变量、命令缩写等才是有B格的攻城狮。

06. 系统配置

下载 (4).jpeg

主要内容配置远程登陆openssh、java、python和Perl模块、R语言、常用生信软件等。可命令行,也可图形界面。

07. bioconda


bioconda来源于conda,conda是一个软件模块管理工具,也是一个可执行命令,其核心功能是包管理与环境管理,可以用来管理Python, R, Ruby, Lua, Scala, Java, JavaScript, C/ C++, FORTRAN等语言的模块。在python中使用比较多,有点类似于pip工具。有了它让你轻松解决各软件依赖不同版本包的问题。

未命名.png

08. 利用Synaptic安装生物软件

下载 (6).jpeg

Ubuntu里也有图形界面、鼠标点选的软件安装方式,不喜欢敲代码的朋友不要错过(反正我是不用)。

09. Aspera

下载 (7).jpeg

随着测序数据的大量产出,数据传输成为行业发展瓶颈。不过“车到山前必有路”,Asprea是一种高效的数据传输解决方案,可以快速在网络间传输数据,速度超属你的想象(可能比较占用网络资源,我们单位用不了)。

10. Rstudio-server


Rstudio是我最喜欢使用开发环境,支持Shell、R、Markdown等多种语言。如果有服务器,安装Rstudio-server软件,大家一起用;本地只要能上网,就可以轻松用服务器工作了,非常方便。

未命名.png

11. 制作安装盘

下载 (9).jpeg

如果不使用虚拟机,而是直接将Linux安装到实体机上,就需要一个启动盘,优盘是最方便的,不过目前流行的方式是下载系统的ISO文件,然后制作U盘启动。这里我们利用UltralISO这款工具制作,制作Ubuntu启动盘,同理,windows系统,CentOS系统都是同样的步奏。

12. 添加磁盘

下载 (10).jpeg

当存储用满之后,需要添加新的磁盘,这里我们利用虚拟机演示如何添加一块磁盘,实体机中类似的操作。新添加一块磁盘之后,并不能马上使用,还需要分区与格式化为固定文件系统才能使用。

13. 安装GNOME桌面

下载 (11).jpeg

服务器牌默认是不安装桌面的,需要手动安装。如果不喜欢Ubuntu 17.10之前的Unity桌面,其实可以自己安装新的桌面。比如GNOME桌面,KDE桌面等,如果后面比较熟悉命令行了,其实不需要桌面环境也行,这样可以节约计算资源。

14. 用户管理

下载 (12).jpeg

服务器与普通PC一个最大的特点就是,PC是个人电脑,而服务器对外服务,因此,服务器支持多账户多任务。也就是同一时间可以多个账户同时登陆,同时使用系统。这就需要严格的用户管理机制。

主要内容有添加用户、创建组、修改密码,修改组信息,设置工作目录、锁定和删除账号。

15. RAID

下载 (13).jpeg

经常有人问我自己的个人电脑是否能用来分析,有些配置已经很高,内存可以达到16G。其实服务器并不是一个配置更好的个人电脑,它与普通电脑之间有很多差别,其中最大的一点不同我想应该是服务器使用RAID。

16. CentOS

下载 (14).jpeg

如果不喜欢Ubuntu,也可以选择使用CentOS,这是目前比较流行的另一个Linux版本。当然不差钱的企业可以选择更优秀的Reahat或者SUSE Linux等,喜欢折腾的还可以选择Linux mint发行版,或者国产比较优秀的Deepin Linux。其实,争论哪个版本更优秀没有意义,别纠结,你的技能好坏与使用哪个版本关系不大,通常来说CentOS更适合服务器使用,作为个人电脑来使用,还是Ubuntu更好些。

17. 服务器配置

下载 (15).jpeg

熟悉完虚拟机配置服务器之后,就可以尝试上手搭建实体服务器了,如果要选购服务器,应该考虑哪些因素呢?如果不差钱,那就好办了,直接选最贵的就好了。在预算有限的条件下。CPU,内存,硬盘如何取舍,达到最佳性能,是否需要购买UPS,显卡是否有必要?这些问题,我们一文解决这些疑问。

18. 如何选购服务器

下载 (16).jpeg

确定好服务器配置之后,还有很多事情需要选择,包括购买哪种类型的服务器,自己DIY,塔式服务器,机架式服务器,计算集群还是云服务器等,那么众多的选择中哪款才是适合自己的呢,这里我们一一道来。

19. 安装Galaxy

下载 (17).jpeg

如果不喜欢命令行,可以提供一个图形化的数据分析界面,Galaxy就是这样一个生物信息分析的图形化框架,可以进行个性化设置,安装到服务器端对外提供服务。

20. 常见问题

下载 (18).jpeg

本文主要内容包括上面教程中有人会因为各种原因,出现非预期的问题,这里统一答疑。如virtual安装失败、共享不成功、桌面无法安装、缺少依赖失败、命令不存在以及常见解决思路。


手把手教你生物信息分析平台搭建系列专栏到这里就全部结束了,可能一次很难照着文章完成所有的操作,这很正常,需要多操作几次。由于每个人的情况都不同,可能会出现各种各样的问题,不过不要害怕,每解决一个问题,技能就提升一步。


没有账号?