人工智能服务器需要怎样的配置?

人工智能服务器需要怎样的配置?,第1张

人工智能服务器应该需要无与伦比的浮点运算能力,最起码也要配置两个万兆网口、10个SATA端口、双路CPU插槽和IPMI2.0远程管理模块,集高性能计算、大容量存储和先进性管理于一体,与传统服务器相比性能更强,可管理性更高。

还有,人工智能服务器的算力要求也比较高,听说十次方算力平台就提供这种超算服务,还是免费使用的,有兴趣也可以去咨询下。

毫无疑问,人工智能(AI)如今正渗透到各种技术的各个方面,从癌症的早期发现到理解各国的人类语言,以及在实时高分辨率视频中分辨人脸。

大量的消费者应用,为主流需求、社会认可和人工智能的日益普及提供了动力和资金。现在,人工智能思维系统正在快速进入企业IT领域。

很多组织的IT团队已经看到人工智能成为许多任务的主流,其中包括网络安全、IT运营、监控、数据分析、业务流程自动化和基础设施配置等等,以响应缓慢增长的技术劳动力和快速增长的IT工作负载之间日益扩大的差距。

然而,对数据中心来说,这里只涉及两种选择:用于数据中心的人工智能和用于人工智能的数据中心。

用于数据中心的人工智能

如今,通过筛选大量繁杂的操作遥测数据、发现异常、关联事件和确定根本原因,智能产品已经可以用来增强IT运营和分析。

最大的影响可能是将人工智能与数据中心信息管理(DCIM)系统结合起来,支持数据中心的智能运营。2014年,通过使用DeepMind对其数据中心的风扇、通风和冷却设备进行控制调整,谷歌公司将电力成本降低了40%。

但现在才刚开始。通过虚拟地重新定位发热的计算负载,这些智能产品可以实现最佳的温度控制。其他DCIM供应商也在研究人工智能算法,并根据不断变化的硬件容差、功耗/成本趋势、瞬态工作负载来改变IDC环境温度。

除了监控冷却设备之外,人工智能还可以管理配电系统,其节省IDC电力成本的潜力同样引人注目。而如果人工智能在全球所有数据中心上扩展应用的话,其影响可能是巨大的。

展望未来,新兴的智能DCIM系统可以将IDC物联网传感器数据(比如热量、气流、功耗、水和烟雾检测等)AI平台整合。不仅可以检测异常的IDC行为,还能确定问题根源和原因。这样,智能DCIM系统不仅能说明失败的时间、地点和原因,还会在出错之提醒操作人员,在某些情况下,还会自动禁止。

用于人工智能的数据中心

由于人工智能几乎改变了每个数据中心的应用程序,它也在重塑软件开发生命周期(SDLC)。传统应用程序通过程序化更改演变为其底层代码库,然后使用严格测试进行验证,并以受控、可管理、可重复方式部署到生产过程中。

但是,基于AI的应用程序不依赖代码更改或单向部署。相反,许多人在开发环境中发展更智能的模型并将其部署到生产中。

无论嵌入传统第三方应用程序还是内部开发的人工智能算法,对尽可能真实且相关的大量数据进行训练时效果最佳。因此,在许多情况下,实时生产数据最适合训练。

人工智能训练需要大量的计算和大量的数据,数据越多越好。为了满足这种对计算能力的巨大需求,人工智能训练越来越多地发生在以CPU为中心的非CPU服务器上,这些服务器基于GPU、FPGA、定制ASIC或专用的深度学习单元,可提供数量级的性能提升。

不过,这些计算系统耗电量大,功率密度高达30-50kW/机架,而且预测下一代计算系统的功率密度将达到惊人的100kW/机架。拥有并运营40多个数据中心的运营商Flexential公司云计算主管Jason Carolan表示,“如果没有液冷之类的解决方案,现有的大多数IDC在规模上根本无法支持这一点。”

对于运营、自动化、监控、合规、安全、开发和云集成来说,即将到来的基于人工智能的产品和服务将成为分水岭,而这些都将促进IDC的基础性改变。通过采用基于AI的应用程序,那些具有远见卓识的IDC运营商,可以应对即将到来的市场变革。

SCM是思腾合力推出的一款支持机器学习与深度学习框架的GPU集群调度系统,基于Hadoop Yarn完成了对TensorFlow、MXNet、PyTorch、Keras、XGBoost等常用框架的集成。SCM经过两年的快速发展,目前已更新到V4.0版本,可以为用户提供数据处理、模型训练、模型部署三大功能,同时提供文件管理、分布式训练、多用户管理等多种额外功能,极大地大大提高了GPU服务器的资源利用率,节约了用户的时间,而且具有高性能、易用性和稳定性三大特点。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/747399.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-15
下一篇2023-08-15

发表评论

登录后才能评论

评论列表(0条)

    保存