做数据集群训练，如何比较好的资源调度做到程序稳定（多深度学习GPU的调度策略）？_服务器知识

蓝海大脑液冷数据中心研发人员指出：这是一个就是GPU集群管理调度的一个问题，现在主流的GPU系统在国内可以分成2部分，一类是交通系统，一类是基于容器的一个比如K8S的调度编排的一个调度系统。K8S里面是支持了GPU设备的自发现，然后你只是去提交GPU的一个请求的个数以及GPU资源的类型，然后它会自动去帮你去做调度。另外的话是以HPC为传统的那种，比如说PPS或SLAM调度，SLAM里面也有支持GPU设备的一个自我调度，然后把GPU设备作为一个计算对象可以去请求。当然由于GPU系统的拓扑结构是一样的，不同的调度算法，给你分配的GPU资源可能会存在一些GPU拓扑不是最优的情况。然后针对这种情况，不管是SLAM还是K8S系统，NVIDIA写了一个拓扑自我检测的小程序算法，它可以很好的集成到K8S以及SLAM里面，然后在做GPU资源分配时，根据这个算法去分配GPU资源，以保证你分配的CPU资源是最优的，拓扑最优，而且也会保证以后的分配，对以后资源的拓扑最优也会有保证。

如果内存不够大是会死机的。

如果是死机，首先考虑散热不好，或者电源稳定性不好。

如果是连接断开，首先要考虑网络稳定性问题，包括网速和硬件稳定性，其次要考虑系统网卡驱动以及系统设置。

临时解决方案，可以写一个脚本，获取当前服务器WAN口ip，当获取失败超过3次时，重启network的interface服务，或者重启服务器。

如果是无法连接，查查网络的问题。频繁死机跟网络应该没多大关系，看看磁盘内存散热方面。楼主如果解决不了，着急可以试试滴滴云的GPU云服务器跑跑看，P4 P40 P100 T4 2080Ti多种显卡类型。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/547494.html

做数据集群训练，如何比较好的资源调度做到程序稳定（多深度学习GPU的调度策略）？

发表评论

评论列表（0条）

做数据集群训练，如何比较好的资源调度做到程序稳定（多深度学习GPU的调度策略）？

发表评论

评论列表（0条）

请登录