主要是看运行什么软件和数据量,训练数值大小,这里要强调一下,数值大小和数据量是不一样的。
深度学习服务器的核心部件还是CPU、硬盘、内存、GPU,特别是很多深度学习依靠GPU的大规模数据处理能力,这就要强调CPU的计算能力和数量,同时不同的数据对GPU的显存要求也不一样。
当下大部分都在用RTX3090做深度学习,最新RTX4090已经上市,单精度计算能力是RTX3090的2倍,这两个GPU都是24G显存;像A100强调双精度计算能力,显存有40G和80G两个版本,而A6000单精度计算能和RTX3090差不多,显存是48G,可以参考选择。
当然,最重要的还是口袋里的银子,A6000市场价大概是RTX的2倍还要多,A100最近更是要上十万了,估计也快买不到了,价高缺货;RTX3090/4090的价位低,性价比高,这也是为什么大部分人都选择它们做深度学习了,这是市场的选择。
需要安装。1。安装系统。1。安装ubuntu。具体安装省略,记录一个小bug,可能在给有独立显卡的台式机安装ubuntu双系统时遇到:在安装时,使用U盘启动这步,直接选择tryubuntu或installubuntu都会出现黑屏的问题。解决方法:将光标移动到installubuntu一项上,按e键,会进入一个可编辑的界面,将quietsplash修改为nouveau。modeset=0nomodeset,然后按ctrl+x进入安装。之后在ubuntu安装nvidia驱动后,就正常了。如果没有安装驱动,每次进入前,都要用同样的方法将上面的quietsplash修改。2。配置nvidia显卡。具体分为两步:安装nvidia驱动,如果是图形界面的话,在Software&Updates中的AdditionalDrivers中选择合适的驱动安装即可。在官网下载cudnn并安装。2。创建和登录用户。在linux上创建自己的用户,方便管理代码和安装应用。比如我们想要创建一个用户名是haha,密码是123456的用户,命令如下:添加用户:useradd-d/home/haha-mhaha。设置密码(只有设置密码之后,才能登录用户):passwdhaha,然后输入密码。然后就可以通过sshhaha@your_ip的方式登录服务器了。登录后也可以设置bash:chsh-s/bin/bash或修改为zsh。加入root权限:使用apt下载时,如果出现不在sudoers文件中的报错,则需要将用户加入sudoers,执行sudovim/etc/sudoers命令,rootALL=(ALL)ALL的下一行加入hahaALL=(ALL)ALL,然后保存。删除用户:userdel-rhaha。
做深度学习的话,我还是可以有立场说些的。因为我们实验室当时就遇到了这些问题,选择深度学习GPU显卡时建议选择专门做液冷的A100或者RTX3090、RTXA6000、RTXA40等卡,蓝海大脑的液冷GPU服务器具有高性能,高密度⌄扩展性强等特点。液冷GPU服务器产品支持1~20块 GPU卡,还可以选择,毕竟能可以选择也是很好的,芯片主要采用龙芯、飞腾、申威、海光、英伟达、Intel、AMD。完全定制啊,敲开心。适用于深度学习训练及推理、生命科学、医药研发、虚拟仿真等场景,覆盖服务器、静音工作站、数据中心等多种产品形态,量身定制,满足客户全场景需求。技术人员给的建议都非常受用。欢迎分享,转载请注明来源:夏雨云
评论列表(0条)