能耗峰值建模Peak Power Modeling for Data Center Servers with Switched-Mode Power Supplies

能耗峰值建模Peak Power Modeling for Data Center Servers with Switched-Mode Power Supplies,第1张

针对问题:CPU利用率可以建模平均能耗,但是对于预测峰值粒度过粗。

提出模型:表征服务器利用率和电源行为之间的关系,对实际峰值功耗建模。引入新的操作系统指标,捕获所需信息,以较低的开销设计峰值功率

如今,数据中心运营商普遍以几十分钟到几小时的采样间隔收集实用跟踪信息。 由于存储和处理的开销,对成千上万的服务器禁止更细粒度的采样。 例如,对于1000个节点的群集,以OS调度程序的粒度(100Hz)采样将每周产生225 GB数据。

要确定服务器的峰值功率,就要了解服务器 开关模式电源单元(SMPSU插座式电源) 的行为。这些设备效率很高,但是依赖于开关和电荷存储机制,从而将 RC(电阻-电容)行为 引入了功耗。我们的贡献是将服务器的操作系统视图与电源能耗峰值相连接。

介绍一个易于采集的操作系统级别的度量(30ms),该度量可确定一段时间内的峰值功耗。通过模型合并SMPSU的RC行为,并以较低的开销跟踪峰值功率。这种机制可以记录随时间变化的峰值功率,并有助于大规模数据中心能耗供应研究。

贡献:

说明了以细粒度采集利用率所面临的挑战,以及峰值和平均度量之间的重要差异。

服务器开关电源单元的特性及其能耗与服务器利用率之间关系的解析信号处理模型。

一种新的操作系统级度量标准,可捕获峰值功率信息以用于服务器检测。

通常PDU会被过度配置,预配置容量远高于平均负载。

功率上限power capping是一种数据中心级别的技术,可以对服务器的峰值功耗(例如,使用控制回路)进行硬限制。节流服务器电源DVFS(通过频率/电压缩放)用作安全机制,以确保不超过最大功率水平并且断路器不跳闸。使得PDU和其他电源供应基础架构就可以得到超额订购,从而降低了有效的资本成本。由于负载/功率峰值很少,因此节流性能几乎没有损失。通过使用电源路由可以进一步降低资本成本,这可以在负载不平衡时在PDU之间转移负载。

所有这些技术都需要软件机制来跟踪和预测峰值功率,以管理每个服务器,电路和PDU的功率预算,同时最大程度地降低性能节流。尽管可以通过显式计量和记录来跟踪峰值功率,但是直接从操作系统级别的指标评估峰值功率可以大大降低成本。要从操作系统级别的指标推断和记录峰值功率,我们必须了解服务器电源的操作及其与利用率的关系。

服务器中SMPSU设备的行为以及其与OS观察到的利用率的关系。

研究对象: 两种不同的系统:具有便宜商品PSU(“商品”)的小型系统和具有企业级PSU(“服务器”)的大型系统。 由于SMPSU的设计不同,这些系统在行为上存在一些差异。 但是,与预测峰值能耗方面相似。

商品PSU的峰值传输电流比服务器更明显。 这种差异是由于在高端设备中常见的第一级额外开关调节,用于产生更连续的电流。

使用工作负载SQUARE观察 利用率 变化 频率 的影响。使内核在 矩阵乘法 与处理器 空闲模式 之间切换,使系统利用率产生方波。工作负载的 占空比(占空比是指在一个脉冲循环内,通电时间相对于总时间所占的比例) 固定为50%,平均利用率为50%。改变方波的频率,并观察PSU的响应。

使用工作负载STEP表征 利用率变化和PSU响应之间的延迟 。使系统处于空闲状态,等待直到PSU行为达到稳定状态。然后在所有内核上进行矩阵乘法。由于无法直接从外部观察CPU利用率,因此在过渡到在示波器上开始计时之前立即发送了一个信号(使用比预期的SMPSU响应快得多的通用I / O)。

图5表明:调制频率对观察到的功率波形有很大影响。 只要对CPU的利用率进行缓慢调制,功耗的包络就大致类似于方波,与CPU的行为相匹配。 然而,随着频率增加,功率消耗变得更加均匀。

对SMPSU峰值进行建模,以细粒度(在许多系统的内核调度间隔附近)监控利用率。

使用STEP工作负载研究SMPSU电源负载的相位延迟。 瞬时功率响应存在一个延迟,该延迟随着RC滤波的阶跃函数的期望而增加。 图示利用率转换的I / O信号(“trigger”)以及隐含的利用率波形(“ Utilization”)。 最后,我们显示了一个已过滤(“filter”)的阶跃函数,该函数适合观察到的上升波形。 该信号由具有界限频率30 Hz的一阶RC滤波器产生。

低于20HZ的更细微的变化会被电源的RC行为过滤掉,因此不考虑。 通过对SMPSU的运行及其与服务器利用率的关系的新了解,我们构建了一种开销低的方法,可以从操作系统内核的利用率中推断出峰值功率。 然后,我们使用真实的机器验证我们的模型,并表明我们可以预测峰值功率曲线,且误差低于20%。

实验设置:两种服务器配置验证能耗模型。

在系统执行Linux内核的并行编译时收集能耗,该工作负载产生了混乱的突发使用模式。

 瞬时能耗(“实测”)。预测能耗(“ Predicted”)很好地跟踪能耗峰值,但有时能耗仍然超出预测值。 幸运的是,该模型趋于保守,并且高估的能耗多于低估的能耗。 因此,它将在例如功率预算/封顶研究中提供保守估计。 商品计算机和服务器计算机的标准化均方根偏差(NRMSD)分别为14%和19%。

总结

1.使用CPU利用率对服务器的峰值功耗建模。

2.描述了OS级利用率与现代服务器中SMPSU行为之间以前被忽略的关系。 

3.通过测量真实的服务器PSU,证明必须以 33 ms或更低的粒度监视利用率以预测峰值功率 。 我们基于轻量级PSU的RC行为的信号处理启发模型,介绍了OS级解决方案,并演示了峰值功率可以近似在20%的NRMSD之内。

参考文章: https://blog.csdn.net/robertsong2004/article/details/36879233

当前工作中遇到了一个问题:测试同事反馈进入某个服务的交互界面很慢,这个情况偶尔会出现。

我猜测可能是服务器的负载较高导致的,但是由于测试反馈的不及时,出现这个现象时我没能看到机器的负载情况,所以目前也只是猜测这个原因而已,具体的我需要尝试复现一下,即提高机器的负载,然后再打开该服务的交互界面看会不会出现慢的情况,看在机器负载高的情况下这种慢的现象是不是必现的。

可以使用如下脚本来提高服务器的cpu使用率,提高机器负载:

编写一个脚本testLoad.sh:

vim testLoad.sh


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/507530.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-17
下一篇2023-06-17

发表评论

登录后才能评论

评论列表(0条)

    保存