做深度学习的服务器需要哪些配置?

做深度学习的服务器需要哪些配置?,第1张

主要是看运行什么软件和数据量,训练数值大小,这里要强调一下,数值大小和数据量是不一样的。

深度学习服务器核心部件还是CPU、硬盘、内存、GPU,特别是很多深度学习依靠GPU的大规模数据处理能力,这就要强调CPU的计算能力和数量,同时不同的数据对GPU的显存要求也不一样。

当下大部分都在用RTX3090做深度学习,最新RTX4090已经上市,单精度计算能力是RTX3090的2倍,这两个GPU都是24G显存;像A100强调双精度计算能力,显存有40G和80G两个版本,而A6000单精度计算能和RTX3090差不多,显存是48G,可以参考选择。

当然,最重要的还是口袋里的银子,A6000市场价大概是RTX的2倍还要多,A100最近更是要上十万了,估计也快买不到了,价高缺货;RTX3090/4090的价位低,性价比高,这也是为什么大部分人都选择它们做深度学习了,这是市场的选择。

一、 服务器配置过程说明

首先需要现在服务器上找一个节点装window server,然后开始配置存储阵列为RAID 5;然后创建Proxmox集群以及KVM(也就是虚拟节点),在每个节点上安装centos系统并下载Teamviewer;最后简单讲讲Proxmox中节点备份与恢复。

二、 配置RAID:

1) 基本概念:

其实首先要知道RAID是什么,它相当于是一个存储模式,其实就是平常说起来很高大上的存储阵列,是在window server上面做的,也就是机房的服务器。一般机房默认是RAID 0,其实基本没什么改变,就是该有几块硬盘就用几块,不需要做额外的设置;但是这样一来缺点也很明显,因为一旦坏了那就只能自己和自己去哭了,没有备份或者恢复机制。所以现在一般都做RAID 5,就是相当于会腾出一块硬盘来做恢复与备份,用空间来换取整个集群的安全,还是很划算的。步骤如下:

2)操作流程:

按照顺序傻瓜操作向后点:硬件配置,配置向导——第一步,下一步——第1a步,清除外部配置,下一步——第2步,RAID0,下一步(这是为了清除最开始的时候默认RAID0配置)——第3步,协议:SAS,介质类型:HDD,加密功能:非加密,将磁盘全部选中,下一步——第4步,自动生成的参数,我的是:6517.00,1MB,自适应预读;回写,下一步——第5步,此步中要注意所有的物理磁盘都显示出来了,否则就要返回关机重配,完成——成功!

三、 开始创建Proxmox集群

1)基本概念:  

这一步是为了能在上一步的基础上(window server操作系统和RAID 5的存储阵列)进一步安装集群,在集群上分配节点,然后每个节点都可以分别分给不同的人来操作,这样就是我们日常中操作的节点。步骤如下:

2) 操作流程: 

a. 此时为无界面阶段

方法一: 进入黑屏界面之后,先按F11,进入界面选择UEFI,再选择有DVD那一步的选项;再按F1,进入简洁界面;BIOS-BOOT,进入界面;选择DVD;选择F2(此处有空白,3min);reboot;等待等待等待,之后的就是安装好之后的步骤···F1~~~

方法二: F12,然后PXE boot然后选择DVD或者SLOT选项  

b. 接着是有安装界面的操作

同样是傻瓜式操作向后点: 下一步—— country:China,TimeZone:Asia/Chongqing,KeyBoard Layout:US,English,下一步—— 此处参数由自己定,下一步——下一步—— 成功! 

c. 傻瓜操作结束,开始命令行操作进行集群搭建。 但是集群搭建之前需要解决两个问题:  

1、vi编辑器过于不好用,下载vim: apt-get update; apt-get installvim;(然后在用vim编辑的时候看不到最上面就用shift+pageup向上调)

2、修改/etc/hosts与/etc/hostname中参数: 将二者中的PVE都改成每个ip对应的名字,eg:pve14之类的,这样节点才能加进去。  

d.开始集群命令行操作:

1、创建集群名字aciecluster:pvecm create aciecluster

2、登陆每个slave 节点,执行:pvecm add 192.168.2.104(主节点IP)

3、在主节点查看状态:pvecm nodes

4、登录:http://192.168.2.104(主节点IP):8006 

e。出现问题:250节点加不进去

1、添加节点后面添加–force(是两个横线),命令变成:pvecm add 192.168.2.250;

2、再重启集群:重启物理机;之后在客户端命令重启reboot

四、 创建KVM

1) 基本概念 

其实KVM就是一个一个的虚拟节点,和虚拟机差不多,只不过这是安装在服务器端的虚拟机,安装步骤如下。

2)安装步骤

点击数据中心下想要创建节点的服务器,然后在右上角有“创建VM”标志——一般:点击之后给节点命名,给定VM ID,此处还可以改在其他的服务器上创建节点——OS:点选右侧Linux3.x/2.6kernel——CD/DVD:选第一个,导入镜像——硬盘:自己设置参数——CPU:自己设置参数——内存:自己设置参数——网络:自己设置参数——确认

五、 节点上CentOS 6.4系统安装:

1) 注意事项:

a)ALT+F5是把屏幕缩小,大致能看到下一步的位置;之后的界面就看不到了,在看不到tab之后连按两下就到了下一步

b) 第一个选skip;安装系统,一路正常配置,直到界面:

2)安装步骤:

use all space,review and modify partition layout,点击“next”——删除所有分区后,创建两个分区,其中一个为/boot(大小为200),另一个为/(点选“fill to maximum allowable size”,大小不用填写,意为自动分配所有剩余空间给它)—— Yes——next——Format——write changes to disk——next——点选minimal,next—— 完成后配置用户信息,欧了!

六、 配置IP并下载Teamviewer

上面的步骤基本上节点已经差不多了,就差IP了,配好IP后为了方便操作节点,每个节点上最好下载一个Teamviewer。步骤如下:

1、虚拟机联网(保证ip不变):

1)首先改成NAT模式(虚拟机——可移动设备——网络适配器——设置)

2)然后在IPv4里面把ip设置成手动的,更改IP地址、子网掩码、网关以及DNS,应用

3)最后点击右上角小电脑的logo,勾选enable notification就行了

2、 右上角小电脑变成disconnect的了,也就是说网络不能连接,而且ifconfig也找不到ip地址:

1)首先就是按照“1、”的步骤重新试一遍,其中要多注意一点就是他的物理地址要改成本机物理地址,就是ifconfig命令之后出来的那个本机地址(不是ip)

2)如果没有ifconfig信息,那么就需要先设置网络为桥接模式,然后再将网络改回来NAT模式。

3、开始下载Teamviewer:

1)wget download.teamviewer.com/download/linux_teamviewer.rpm

2)yum install linux_teamviewer.rpm3)这里就不用解压了,直接就可以运行了,此时已经能用了,在Application-Internet中找到teamviewer,可以右键把它加到桌面上

4、设置开机自启

1)在system-preference-startup Application 中设置

2)点击add,将Teamviewer的属性(从Teamviewer属性中复制出来黏贴进去就行了)添加进去,欧了

七、 Proxmox节点恢复与备份

自此为止,节点已经全部搞定了,然后之后就涉及到节点备份与恢复的问题,这里会简略讲一下。

1) 备份:

选中【数据中心】,选择【存储】标签,选中要添加支持的存储,点击【编辑】,在【内容】的下拉菜单中选上Backups。这里的【最大备份数】必须大于等于1,其含义为当某个虚拟机的备份文件超过最大备份数时,再进行备份将会删除时间最早的备份。这对后面要提到的自动备份计划而言非常有用,可以省去我们人工删除过时备份的麻烦。

PVE的备份文件存在./dump文件夹中,根据备份时选择的数据压缩方式的不同,生成.vma.lo或者.vma.gz.为后缀的文件,同时伴随一个相关的.log日志文件。【Path/Target】为PVE备份文件夹所在的路径,在本例中备份文件将存储在/var/lib/vz/dump文件夹中。

接下来我们就可以开始备份了。先选中【数据中心】,切换到【备份】标签页,点击【添加】,将出现【创建:备份计划】对话框,可以选择需要备份的节点,设定备份计划于每周周几的几点开始,然后选择需要进行备份的虚拟机,设置数据压缩方式与备份模式后即可。数据备份将于设定时间自动启动。

当然了,我们也可以对单个虚拟机进行立即备份,选中需要备份的虚拟机,切换到【备份】标签,设置备份模式与数据压缩方式,点击【备份】即可开始备份。

2) 挂载磁盘将文件拷贝出来:

步骤很简单,就是先把硬盘插到你所在的服务器物理机上,然后

1)下载ntfs驱动: apt-get update apt-get install ntfs-3g

2)创建挂载点文件夹: mkdir /mnt/windows

3)进入/dev/查看移动硬盘信息 fdisk -l

4)插入移动硬盘,再次在/dev目录下执行查看移动硬盘信息 fdisk -l

5)比较两次信息,发现多出一个/dev/sda1,将sda1挂载到文件夹中: mount -t ntfs-3g /dev/sda1 /mnt/windows

6)进入目标文件夹(promox备份的文件都在/var/lib/vz中) cd /var/lib/vz

7)将文件拷贝到挂载硬盘中 cp -r(整个文件夹复制) dump /mnt/windows

8)解除挂载(相当于安全退出) umont /mnt/windowsd)

3)数据恢复:

同样的上述挂载步骤,将所移出来的文件放在/var/lib/vz/dump中,可以看到备份文件以.vma.lzo为后缀。选中需要使用的备份文件,点击【恢复】,将弹出【Restore VM】对话框,可以设置存储位置与VM ID,点击【恢复】即可开始恢复。有意思的是,这里的VM ID除了可以设置成原有的虚拟机ID,将备份文件恢复并覆盖该虚拟机外,还可以设置成新的ID,将备份文件生成其他的与备份虚拟机一模一样的虚拟机。至此,服务器杂七杂八的配置完毕,如果有需要还会再进行补充的。

问题解决:1、节点关不掉以及开不了(命令查询去官网查看)

1)204节点开不了:索性就不开了,将pve、pve14、pve15全部关掉,这样就剩下那个关不掉的节点了。

2)205节点关不掉:关闭的时候会报错,报错信息是节点因为克隆被锁住了,用命令行将节点断开连接,然后再关掉。 qm unlink 205 -force qm unlock 205 qm destory 205 -skiplock

硬件

为了能使服务器更高效地运转,我们必须确保服务器各组件的性能合理搭配。例如我们购买了高性能的服务器,但为了降低成本而使用了兼容 组件,由于兼容组件的质量大大低于原装配件的质量,这样就会出现有的配件处于瓶颈状态,有的配件处于闲置状态,最后的结果就会导致整 个服务器系统性能下降。总之,一部高性能的服务器是整体性能的合理搭配,而任何一个产生系统瓶颈的组件都有可能导致整个系统性能下降 。

1.处理器(CPU)

CPU对于服务器来说,就像人类的大脑。CPU的类型、主频和数量决定着服务器的性能。目前,由于IA架构的服务器采用开放体系结构,因而受 到了国内外服务器厂商的青睐,并以较高的性能价格比而得到广泛的应用。Intel现在生产的CPU中主要分为3类,奔腾4(Pentium 4)系列、至 强(Xeon)系列和安腾2(Itanium 2)系列。其中:Pentium4 主要面向PC,对多处理器支持不够好,适用于入门级服务器。 被过滤广告

Xeon作为服务器专用CPU,除了拥有超线程技术外,还集成三级高速缓存体系结构,Xeon支持两个CPU,Xeon MP则支持4以上,适用于工作组和 部门级服务器。Itanium是与其他CPU完全不同的64位CPU,可用于处理大型数据库,进行实时安全交易等应用,适用于企业级服务器。

对于目前规模较小(如10个客户端)、服务器预算较低(如15000元以下)的中小型企业来说,选择CPU应该首先考虑Pentium 4。如果服务器的 数据处理量较大,可以考虑双Pentium 4处理器或Xeon系列。但需要注意的是,不要去买日后能升级到双CPU,但现在标配是单CPU的双路服务器 。因为CPU技术更新很快,当需要升级到双CPU时比较烦琐,而且同样费用下能买到性能明显比原来处理器高出许多的新一代的处理器。除此之 外,CPU的主频越高,缓存数量越大,则服务器的运算速度就会越快、性能就会越高,但必需从自身的应用需求出发搭配相关硬件。

2.内存(RAM)

用户在选购服务器时往往重视CPU,而忽视内存的大小和性能。服务器内存比普通PC内存要严格得多,它不仅强调速度,还要求纠错能力和稳定 性。目前服务器上也有使用SDRAM内存的,但大部分服务器都使用采用ECC专用内存。内存选择要根据实际使用情况和服务器本身所能配置的最 大内存来斟酌,因为服务器在工作时,会占用很多内存,所以应配置大一些,当然这也和资金投入有关。特别是对于数据库服务、Web服务等而 言,内存容量尤其重要。通常,入门级服务器的内存不应该小于512MB,工作组级的内存不小于1GB,部门级的内存不小于2GB。

3.磁盘阵列(RAID)

提升存储系统性能的最佳办法就是采用RAID系统。简单的说,RAID是一种把多块独立的物理硬盘按不同方式组合起来形成一个逻辑硬盘组,从 而提供比单个硬盘更高的存储性能和提供数据冗余的技术。而RAID卡就是用来实现RAID功能的板卡,通常是由I/O处理器、SCSI控制器、SCSI连 接器和缓存等一系列组件构成的。RAID卡可以有效地提升存储系统的数据传输速率并降低CPU占用率。由于价格的限制,SCSI RAID卡在入门级 服务器中还是很少采用的,但入门级服务器可采用廉价的IDE RAID卡以实现相似的功能。

4.硬盘(DISK)

硬盘和内存都是以大为美。现在的硬盘从接口上来说,主要可分为IDE硬盘和SCSI硬盘。IDE硬盘即我们日常所用的硬盘,它由于价格便宜而性 能也不差,因此在PC上得到了广泛的应用。另一类硬盘就是SCSI硬盘了,由于其性能好,因此在服务器上普遍均采用此类硬盘产品,但SCSI硬 盘虽好但价格较高,因而较少在低端系统中应用。目前,在小型服务器中现在普遍采用的是支持S-ATA(串行ATA)技术的IDE硬盘。这种IDE硬 盘与以往普通的支持P-ATA技术的IDE硬盘相比,由于采用了点对点而不是基于总线的架构,所以可以为每个连接设备提供全部带宽,从而提高 了总体性能。但对于一些不能轻易中止的服务器而言,还应当选用SCSI硬盘以保证服务器的不停机维护和扩容。

5.主板(MAINBOARD)

在服务器的主板方面需要注意的是集成的设备和是否有充足的扩展插槽,像显卡、声卡、USB接口等是否是集成的,这样既可以节约开销,同时 也留下了更多的扩展插槽,散热空间也相对更大了一些。还要提醒您注意的是,在服务器厂商的配置资料中所注明的扩展插槽的数量可能包括 出厂时已经使用的插槽,如网卡、显卡等,所以这样的话,可供您使用的插槽数量已经打了折扣。同时,不同的主板设计也会对服务器的整体 性能有所影响。这里还要提到intel,因为它不仅是CPU制造厂商,同时也是重要的主板厂商,Intel主板严格遵照规范制作,并对Windows做了 优化,可保证产品的最大兼容性,加上对自己所生产的CPU最为了解,更容易释放和获得性能。

软件

操作系统(OS)

如果把服务器的硬件配置比作人体的骨骼和肌肉,那么服务器所选用的操作系统就是血液和脉络。目前,服务器操作系统主要有三大类:第一 类是Microsoft Windows Server系列操作系统,这类产品大家最熟悉,也最容易得到,比较适合中小企业。目前Microsoft的中小企业操作系统 是Small Business Server 2003(以下简称SBS)。SBS是一个针对中小企业的“一揽子”方案,其主要特点是容易安装,容易管理,容易使用 。如:你现在只需要使用一个向导,就可以轻松地为网络、防火墙和电子邮件配置正确的设置。目前SBS有两个版本:标准版(Standard Edition)和高级版(Premium Edition)。第二类是Linux操作系统,它具有一定的开放性,因此价格比Windows Server系列操作系统便宜很多 ,但也正是因为它的开放性导致它的维护成本较高,因此中小企业需要慎用,不要只图一时便宜而陷入后续无底的维护“梦魇”。第三类是 UNIX,代表产品包括HP-UX、IBM AIX等,但这类服务器主要定位于高端,不适合中小企业。

数据库软件(DB)

数据库软件是服务器软件的另一个重点,它是维护企业核心信息的工具,数据库软件选择得是否合适将直接影响到企业未来的业务整合和信息 化的深入。如果你选用了SBS高级版,那么数据库软件SQL Server 2000就已经包含在其中了。与其他的数据管理平台相比较,SQL Server 2000 与更多的中小企业应用程序兼容,同时各种数据库分析、监控工具有助于确保正常的业务运营。如果你安装的是Linux操作系统,那你运行的数 据库软件就应该是MySQL了。作为掌管企业核心信息的数据库,我们不太推荐MySQL。因为MySQL是数据库领域的“中间派”,它缺乏一个全功能 数据库的大多数主要特征,但是又有比类似Xbase数据库更多的特征。它象关系数据库管理系统(RDBMS)那样需要一个守护程序,但又不能象 它们那样消费资源。MySQL可以在Linux世界里找到一个位置,但考虑到中小企业今后的业务扩展,应该选用一个更专业的数据库软件。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/314389.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-29
下一篇2023-04-29

发表评论

登录后才能评论

评论列表(0条)

    保存