Intel DCM 能耗管理 这是一款什么软件、有什么用?什么样的戴尔服务器能支持这款软件?大侠们辛苦啦!

Intel DCM 能耗管理 这是一款什么软件、有什么用?什么样的戴尔服务器能支持这款软件?大侠们辛苦啦!,第1张

您好

网上找到的一个教程

数据中心管理软件之Intel DCM平台概述

对于数据中心的节能减耗、监控和管理,是数据中心的运维管理者们最为关心的问题。那么数据中心IT系统内部需要监管哪些内容?

通常来讲,监控的目的在于保护数据中心内IT系统的正常、有效运行,在事故发生之前侦测出潜在危机。因此,数据中心监管核心应该是对IT系统运行状态的监控,而最直接有效的监控应该是直接对IT设备运行状态进行监控。

例如,服务器内风扇转速与CPU温度等是最直接、最迅速影响IT设备正常运行的因素。有时候即使数据中心内空调运转正常,整体环境参数值也在预设范围内,但某服务器却因为某种原因出现服务器内风扇的转速不正常、CPU过热......,事实上,温度、状态等都是需要监管的。

我们都知道,单靠人工是不可能完成的,那么依靠IT设备自身的监管功能,也必将面临每台服务器都有自己的监控和管理界面,这对数据中心监管的最终需求--降低能耗来说,并不是什么好事情。那么,怎样帮助数据中心的CIO们解决这种难题呢?

英特尔数据中心管理平台IntelDCM

英特尔在09年春季IDF上,正式发布英特尔数据中心管理平台软件技术,可以实时监控、管理和优化数据中心的功耗。作为此前刚发布的至强 5500系列处理器新产品组件之一,英特尔数据中心管理平台将充分利用其强大的平台性能,结合英特尔节点管理器技术,为用户提供最优的数据中心能耗管理方案。

这款数据中心管理平台,得到了美国服务器制造商Supermicro公司,国内服务器制造商浪潮和宝德,以及国内IT运维管理软件开发商游龙科技支持。

DCM(数据中心管理产品)应具备三大基本功能,即监测、管控和报表。英特尔数据中心管理平台 (IntelDataCenterManager)是监控、管理数据中心的机架和服务器组电、热等能耗的软件技术,IT部门利用它来实现提高机架密度、降低能耗与散热成本,从而优化机房布局并轻松获益。

监测:实时采集能源信息,包括服务器功耗和温度等能耗信息。

事实上,在以前,这些信息是无法得到的,即便是得到,也不是精确值。任何的管理第一步必定是监测,可以说,没有监测就没有管理。要控制温度,就要先测量温度要管理功耗,要要先测量到功耗的信息。

管控:配置能源使用策略,管理服务器集群的功耗。

用户可以根据数据中心的情况,优化并使用策略。这意味着,在服务器上,用户第一次有能力对服务器功耗使用策略。并且,能源使用策略,可以对整个数据中心进行优化配置。

报表:通过对能源使用报表的分析,帮助用户梳理能源消耗的时间、地点等信息。

事实上,报表无非就是日志分析功能,其意义在于,数据中心的运维管理者们,关注的是什么时候消耗最大能源,什么地方消耗能源最集中,如果这些问题由报表自动生成,那么管理者就有据可依,可以帮助他们更好的把握和选择最合适的能源使用策略。

为了发挥最好的性能,安装英特尔数据中心管理平台的服务器至少需要:一个双核的2.6Ghz或更高的处理器,4GBRAM,60GB硬盘空间。

IntelDCM平台特点

英特尔数据中心管理平台支持所有具备英特尔节点管理器并能够通过基板管理控制器(BMC)发出英特尔节点管理器IPMI规范命令的原始设备制造商(OEM)平台。该技术专门提供在不影响工作性能的同时进行的服务器组能源管理。为了达到这一目标,英特尔数据中心管理平台为每一台独立的服务器动态调整能耗标准以适应该服务器工作量的变化、使用率和由此改变的能源需求量。我们现在正在大型企业和主要网络数据中心中进行广泛测试。

IntelDCM平台应用场景

英特尔数据中心管理平台能使您的机架在当前功耗和温度范围内,存放更多设备,最大程度优化机架密度。

结合英特尔节点管理器(IntelNodeManager)技术,不受操作系统限制,便捷管理数据中心。

IntelDCM调整数据中心能耗

根据服务器的优先级别动态分配电源,使用实际的和观察到的数据,重新估计和设计数据中心的制冷系统和电源供给。通过分析供电和负载,诊断机架空间的使用效率,观察数据中心供电系统和高温异常等情况,并及时提醒用户。

IntelDCM带来的实际价值

首先是节约能源,节约功耗。显而易见,通过监控、管理和报表功能,可以很好地帮助管理者们找到能耗的热点,并对热点能耗进行有效的管控。据张泽军介绍,可以节约15-20%的能源消耗。

举例来说,如果没有对CPU温度、频率等信息进行监管,可能当下班时,服务器使用率就降低,可CPU的2.8G主频还在运行,这时就有必要动态的给CPU降低频率,而功耗也就大幅降低。

其次,可以增加机房和机架密度,节约空间。事实上,更多的情况不是空间受限制,而是能耗受限制。比如42U服务器,放不满机架,因为提供机架的能源、电源不够。而通过数据中心管理平台,可以增加每个机架的密度,能源动态分配,充分利用机架空间,增加机房和机架的密度。这也达到了节约能耗的目的。

在数据中心管理中,还有一个不能忽视的趋势。由于虚拟化的普及和应用,包括数据中心在内的管理软件市场,必将涉及虚拟机的管控。显然,虚拟机消耗的资源,消耗的CPU、能源、内存等,也是未来数据中心管理中的一个难题。

英特尔数据中心管理平台功能一览表

配置数据中心层级 从配置管理器(CMDB)或者其他资产数据库中通过XML模型便捷地导入资产信息

数据中心合计和趋势 实时监控节点能耗和入口温度数据,汇总所有能耗和温度数据并提供给用户或既定团队,为优化管理策略储存相应的历史数据信息

制定警报 在制定能耗和热能事件的基础上接收警报。通过自定义各种策略改变能耗上限来自动处理事件

智能控制能耗上限 根据基于可用资源的工作量的变化动态地管理能耗预算,同时支持多个有效策略,自动管理机架和服务机组能耗,并提供应对紧急情况的防护

策略可配置性 根据时间规划调整能耗上限策略和数据中心的切实环境。

无需代理软件管理 Intel? DCM不需要在能耗管理节点上安装任何代理软件。

易集成 易共存 Intel? DCM可以存在于一个独立的服务器,也可以与其他管理软件共存于同一台服务器

高扩展性支持 管理服务器可以管理多达5000个节点

名词解释:什么是英特尔节点管理器

英特尔节点管理器位于IntelNextGenerationServerChipsetplatforms(英特尔下一代服务器芯片 Nehalem-EP平台)。它为独立的服务器提供能耗温度监控和基于各种策略的能源管理。它可以通过基于规范IPMI协议的接口、由支持的基板管理控制器(BMC)使用。它需要一个类似PMBusTM的仪器供电源。

可以去研究一下服务器的能耗管理软件,这种可以清楚的看到服务器哪个部件的具体温度是多少。比如可以参考正睿的Energy Director(这就是一个能耗管理软件),链接就不发了避免广告嫌疑。其实能耗管理就是比如功率、温度等的一个远程管理。

针对问题:CPU利用率可以建模平均能耗,但是对于预测峰值粒度过粗。

提出模型:表征服务器利用率和电源行为之间的关系,对实际峰值功耗建模。引入新的操作系统指标,捕获所需信息,以较低的开销设计峰值功率。

如今,数据中心运营商普遍以几十分钟到几小时的采样间隔收集实用跟踪信息。 由于存储和处理的开销,对成千上万的服务器禁止更细粒度的采样。 例如,对于1000个节点的群集,以OS调度程序的粒度(100Hz)采样将每周产生225 GB数据。

要确定服务器的峰值功率,就要了解服务器 开关模式电源单元(SMPSU插座式电源) 的行为。这些设备效率很高,但是依赖于开关和电荷存储机制,从而将 RC(电阻-电容)行为 引入了功耗。我们的贡献是将服务器的操作系统视图与电源能耗峰值相连接。

介绍一个易于采集的操作系统级别的度量(30ms),该度量可确定一段时间内的峰值功耗。通过模型合并SMPSU的RC行为,并以较低的开销跟踪峰值功率。这种机制可以记录随时间变化的峰值功率,并有助于大规模数据中心能耗供应研究。

贡献:

说明了以细粒度采集利用率所面临的挑战,以及峰值和平均度量之间的重要差异。

服务器开关电源单元的特性及其能耗与服务器利用率之间关系的解析信号处理模型。

一种新的操作系统级度量标准,可捕获峰值功率信息以用于服务器检测。

通常PDU会被过度配置,预配置容量远高于平均负载。

功率上限power capping是一种数据中心级别的技术,可以对服务器的峰值功耗(例如,使用控制回路)进行硬限制。节流服务器电源DVFS(通过频率/电压缩放)用作安全机制,以确保不超过最大功率水平并且断路器不跳闸。使得PDU和其他电源供应基础架构就可以得到超额订购,从而降低了有效的资本成本。由于负载/功率峰值很少,因此节流性能几乎没有损失。通过使用电源路由可以进一步降低资本成本,这可以在负载不平衡时在PDU之间转移负载。

所有这些技术都需要软件机制来跟踪和预测峰值功率,以管理每个服务器,电路和PDU的功率预算,同时最大程度地降低性能节流。尽管可以通过显式计量和记录来跟踪峰值功率,但是直接从操作系统级别的指标评估峰值功率可以大大降低成本。要从操作系统级别的指标推断和记录峰值功率,我们必须了解服务器电源的操作及其与利用率的关系。

服务器中SMPSU设备的行为以及其与OS观察到的利用率的关系。

研究对象: 两种不同的系统:具有便宜商品PSU(“商品”)的小型系统和具有企业级PSU(“服务器”)的大型系统。 由于SMPSU的设计不同,这些系统在行为上存在一些差异。 但是,与预测峰值能耗方面相似。

商品PSU的峰值传输电流比服务器更明显。 这种差异是由于在高端设备中常见的第一级额外开关调节,用于产生更连续的电流。

使用工作负载SQUARE观察 利用率 变化 频率 的影响。使内核在 矩阵乘法 与处理器 空闲模式 之间切换,使系统利用率产生方波。工作负载的 占空比(占空比是指在一个脉冲循环内,通电时间相对于总时间所占的比例) 固定为50%,平均利用率为50%。改变方波的频率,并观察PSU的响应。

使用工作负载STEP表征 利用率变化和PSU响应之间的延迟 。使系统处于空闲状态,等待直到PSU行为达到稳定状态。然后在所有内核上进行矩阵乘法。由于无法直接从外部观察CPU利用率,因此在过渡到在示波器上开始计时之前立即发送了一个信号(使用比预期的SMPSU响应快得多的通用I / O)。

图5表明:调制频率对观察到的功率波形有很大影响。 只要对CPU的利用率进行缓慢调制,功耗的包络就大致类似于方波,与CPU的行为相匹配。 然而,随着频率增加,功率消耗变得更加均匀。

对SMPSU峰值进行建模,以细粒度(在许多系统的内核调度间隔附近)监控利用率。

使用STEP工作负载研究SMPSU电源负载的相位延迟。 瞬时功率响应存在一个延迟,该延迟随着RC滤波的阶跃函数的期望而增加。 图示利用率转换的I / O信号(“trigger”)以及隐含的利用率波形(“ Utilization”)。 最后,我们显示了一个已过滤(“filter”)的阶跃函数,该函数适合观察到的上升波形。 该信号由具有界限频率30 Hz的一阶RC滤波器产生。

低于20HZ的更细微的变化会被电源的RC行为过滤掉,因此不考虑。 通过对SMPSU的运行及其与服务器利用率的关系的新了解,我们构建了一种开销低的方法,可以从操作系统内核的利用率中推断出峰值功率。 然后,我们使用真实的机器验证我们的模型,并表明我们可以预测峰值功率曲线,且误差低于20%。

实验设置:两种服务器配置验证能耗模型。

在系统执行Linux内核的并行编译时收集能耗,该工作负载产生了混乱的突发使用模式。

 瞬时能耗(“实测”)。预测能耗(“ Predicted”)很好地跟踪能耗峰值,但有时能耗仍然超出预测值。 幸运的是,该模型趋于保守,并且高估的能耗多于低估的能耗。 因此,它将在例如功率预算/封顶研究中提供保守估计。 商品计算机和服务器计算机的标准化均方根偏差(NRMSD)分别为14%和19%。

总结

1.使用CPU利用率对服务器的峰值功耗建模。

2.描述了OS级利用率与现代服务器中SMPSU行为之间以前被忽略的关系。 

3.通过测量真实的服务器PSU,证明必须以 33 ms或更低的粒度监视利用率以预测峰值功率 。 我们基于轻量级PSU的RC行为的信号处理启发模型,介绍了OS级解决方案,并演示了峰值功率可以近似在20%的NRMSD之内。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/552488.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-29
下一篇2023-06-29

发表评论

登录后才能评论

评论列表(0条)

    保存