做数据集群训练,如何比较好的资源调度做到程序稳定(多深度学习GPU的调度策略)?

做数据集群训练,如何比较好的资源调度做到程序稳定(多深度学习GPU的调度策略)?,第1张

蓝海大脑液冷数据中心研发人员指出:这是一个就是GPU集群管理调度的一个问题,现在主流的GPU系统在国内可以分成2部分,一类是交通系统,一类是基于容器的一个比如K8S的调度编排的一个调度系统。K8S里面是支持了GPU设备的自发现,然后你只是去提交GPU的一个请求的个数以及GPU资源的类型,然后它会自动去帮你去做调度。另外的话是以HPC为传统的那种,比如说PPS或SLAM调度,SLAM里面也有支持GPU设备的一个自我调度,然后把GPU设备作为一个计算对象可以去请求。当然由于GPU系统的拓扑结构是一样的,不同的调度算法,给你分配的GPU资源可能会存在一些GPU拓扑不是最优的情况。然后针对这种情况,不管是SLAM还是K8S系统,NVIDIA写了一个拓扑自我检测的小程序算法,它可以很好的集成到K8S以及SLAM里面,然后在做GPU资源分配时,根据这个算法去分配GPU资源,以保证你分配的CPU资源是最优的,拓扑最优,而且也会保证以后的分配,对以后资源的拓扑最优也会有保证。

如果内存不够大是会死机的。

如果是死机,首先考虑散热不好,或者电源稳定性不好。

如果是连接断开,首先要考虑网络稳定性问题,包括网速和硬件稳定性,其次要考虑系统网卡驱动以及系统设置。

临时解决方案,可以写一个脚本,获取当前服务器WAN口ip,当获取失败超过3次时,重启network的interface服务,或者重启服务器。

如果是无法连接,查查网络的问题。频繁死机跟网络应该没多大关系,看看磁盘内存散热方面。楼主如果解决不了,着急可以试试滴滴云的GPU云服务器跑跑看,P4 P40 P100 T4 2080Ti多种显卡类型。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/547494.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-27
下一篇2023-06-27

发表评论

登录后才能评论

评论列表(0条)

    保存