生信小型服务器推荐配置

生信小型服务器推荐配置,第1张

如果是个人分析一些小的生信项目,同时又可以买组装电脑,那下面这个配置我觉得是很好的。

CPU AMD 5950x(16核32线程) 或者5900x (12核 24线程)

内存 32gb*4

主板 普通的x570主板

硬盘:一片1tb的nvme 固态硬盘加若干块机械硬盘,前者用于分析数据,后者存储数据

配一个650瓦的电源

整个配置下来应该不到15000元

性能应该比一些四五万的intel服务器还好一点

如果是中小型的实验室,需要多人使用,可以考虑下面这个配置

CPU AMD 线程撕裂者 3970x(32核64线程)或者3990x(64核128线程)

内存 32gb * 8

硬盘 一片或者两片 nvme ssd固态硬盘 加若干机械硬盘

主板 普通的x399主板

电源 800瓦

CPU散热器一律选择风冷配置2的价格大概3万-5万吧我们自己分析数据的电脑有的是普通消费内存,有的是ecc服务器内存,我自己没有感觉到差别,可能是我做的项目还比较小吧[捂脸]

熟悉完虚拟机配置服务器之后,就可以尝试上手搭建实体服务器了,如果要选购服务器,应该考虑哪些因素呢?如果不差钱,那就好办了,直接选最贵的就好了。在预算有限的条件下。CPU,内存,硬盘如何取舍,达到最佳性能,是否需要购买UPS,显卡是否有必要?这些问题,我们一文解决这些疑问。

二十二:服务器配置

1、CPU

CPU是计算机的大脑,计算机的计算主要就是靠CPU来完成,所以,CPU非常重要,CPU的计算速度决定了计算机的计算能力。也就是水桶效应中最上面的那块木板。比如序列拼接这个工作,需要将测序的reads切成更小 的片段,然后将这些小片段根据序列间的关系,连成更长的片段,那么这些片段有数百万至数千万,需要非常大的计算量。如果数据复杂,计算量就更大了。

另外,CPU还需要支持多核心,CPU是大脑,一个核心是一个心眼儿,所以,我们知道心眼越多的人越聪明。多核心就可以进行并行计算,在生物信息分析中,有些工作,可以进行并行计算。相当于原来一个人的工作,现在由100个同样的人来做,理论上速度快了100倍。因此,在硬件配置中,选择CPU是非常重要的。

2、内存

内存是CPU和硬盘之间数据交流的媒介,计算机需要将存储在硬盘上的数据读取到内存中,CPU才能用来计算,而CPU不能直接读取硬盘上的数据,必须通过内存这个缓冲区,举个例子,CPU是大脑,内存是脖子,脖子以下是硬盘。内存往往就是“瓶颈”。

假设一个人的全基因组测序数据,采用二代测序的方法,人的基因组3G,10被数据30G,那么这30G的碱基,在切成更小的kmer,假设数据增加到了100G,还不算存储序列的一些其他信息,序列拼接的时候必须一次将所有数据同时存入内存,如果内存达不到100G,拼接根本无法完成。

3、硬盘

硬盘其实是计算机硬件配置中非常重要的一环,但是硬盘往往容易被大家忽略掉,认为硬盘用来存储数据,只要需要足够大就行了,这是不对的。

首先大存储量是必须的,因为生物数据往往都称为生物大数据,非常消耗存储空间,包括原始的数据存储,中间分析结果,最终结果,数据备份等,尤其是在样品量大的时候,就会非常占据存储空间,一般都是以T为单位的。

其次,硬盘的读写速度,这个也是非常重要的因素,因为目前CPU计算速度和内存已经足够大了,这样的条件下,硬盘成为限制计算机整体性能的因素。因此使用SSD硬盘会明显改善计算机性能。由于目前SSD过于昂贵,可以选择SSD+机械硬盘的方案,硬盘要做成RAID提高读写速度和数据安全性。

4、显卡

可以选配显卡,这个并不是必须的,因为很多分析工作都是文本操作,显卡适合于图形计算,例如计算蛋白质空间结构,构建系统网络等,可以选择配置显卡。

5、不间断电源UPS

UPS相当于一个大的移动电源,为了防止突然断电,导致数据丢失。UPS还是非常重要的。有些生物计算需要持续很长时间,例如拼接一个大的基因组,构建一个大的系统发育树等可能数十天时间,一旦断电,损失非常大,不要心存侥幸心理,灾难往往就发生在那些心存侥幸心理的人身上。

6、其他

冷却系统,如果是大型计算系统,设备会产生大量热量,需要建设冷却系统。

---------- END ----------

欢迎订阅我们的微信公众号,更多精彩内容等你发掘!

首先的问题的是,我们需要什么样的计算机。

关于硬件:

需要至少4G内存,最好可以达到16G以上内存;

至少500G硬盘空间。通常一个RNA-seq的数据量为20G左右,如果再加上分析之后的结果,可能达到50G,所以即使你有500G的空间,也分析不了几组数据。所以硬盘空间越多越好,比如说2TB或者使用高速网络存贮界质。

CPU,至少2核。因为你在运行程序时,通常100%占到CPU,如果没有2核,计算机多半会假死在那里。如果有8核,或者以上更好。

GPU,很多程序开始使用GPU运算,如果能有好的GPU显卡,也是推荐的,但不是必须的。

为了达到以上的条件,入门极的比如说Mac Pro。进阶级的就是独立server,高级的是supercomputer clusters,支持qsub之类的。或者可以购买云计算服务。

对于操作系统,在工作站方面,推荐Mac OS。它运行稳定,与LINUX同源。需要下载安装Xcode和wget就可以了。当然你还可以很方便的安装office办公软件,以及photoshop,AI等工具。最后安装好R/Bioconductor,就可以开始工作了。如果买了兼容机,可以安装上Linux/UNIX系统。它在安装上R/Bioconductor之后基本上就可以了。它的缺点是办公软件,绘图软件的安装。最差的就是Windows了。需要安装比如GCC编译器,make工具,mingw64, perl, zip/unzip, tar, wget, ghostscript等等。

有了软件及硬件,接下来的工作就是了解一些常识以武装你的大脑,这是整个运行环境中最重要的一环。首先,你需要学习了掌握UNIX常用命令,并且不反感字符界面。其次学会安装,设置及构建网络服务,比如apache的websever,以及mysql的数据库服务。第三安装及设置一个Galaxy。当然,第二步及第三步可能会有难度,可以先使用Galaxy本身的服务,但是它有很多限制,所以最好还是自己安装一个比较好。第四步,学习一门计算机语言,比如c, python, ruby, java等,还有一门脚本式语言工具,比如perl。第五步,学习使用R/Bioconductor。第六步,统计学。

至此,你的NGS分析环境就设置完成了。如果快的话,你可以两三个月就设置完成,达到起步的阶段,之后就是漫长的学习过程。慢的话,四年本科也不一定学到多少。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/732457.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-11
下一篇2023-08-11

发表评论

登录后才能评论

评论列表(0条)

    保存