当前,为推进IT支撑系统集约化建设和运营,进一步发挥集中化能力优势,IT云成为运营商IT支撑系统建设的基础架构。但在IT云资源池部署过程中,服务器技术面临多个新挑战,主要体现在以下3个方面。
在性能方面,人工智能(AI)应用快速扩张,要求IT云采用高性能GPU服务器。AI已在电信业网络覆盖优化、批量投诉定界、异常检测/诊断、业务识别、用户定位等场景规模化应用。AI应用需求的大量出现,要求数据中心部署的服务器具有更好的计算效能、吞吐能力和延迟性能,以传统通用x86服务器为核心的计算平台显得力不从心,GPU服务器因此登上运营商IT建设的历史舞台。
在效率成本方面,IT云部署通用服务器存在弊端,催生定制化整机柜服务器应用需求。在IT云建设过程中,由于业务需求增长快速,IT云资源池扩容压力较大,云资源池中的服务器数量快速递增,上线效率亟需提高。同时,传统通用服务器部署模式周期长、部署密度低的劣势,给数据中心空间、电力、建设成本和高效维护管理都带来了较大的挑战。整机柜服务器成为IT云建设的另一可选方案。
在节能方面,AI等高密度应用场景的快速发展,驱动液冷服务器成为热点。随着AI高密度业务应用的发展,未来数据中心服务器功率将从3kW~5kW向20kW甚至100kW以上规模发展,传统的风冷式服务器制冷系统解决方案已经无法满足制冷需求,液冷服务器成为AI应用场景下的有效解决方案。
GPU服务器技术发展态势及在电信业的应用
GPU服务器技术发展态势
GPU服务器是单指令、多数据处理架构,通过与CPU协同进行工作。从CPU和GPU之间的互联架构进行划分,GPU服务器又可分为基于传统PCIe架构的GPU服务器和基于NVLink架构的GPU服务器两类。GPU服务器具有通用性强、生态系统完善的显著优势,因此牢牢占据了AI基础架构市场的主导地位,国内外主流厂商均推出不同规格的GPU服务器。
GPU服务器在运营商IT云建设中的应用
当前,电信业开始推动GPU服务器在IT云资源池中的应用,省公司现网中已经部署了部分GPU服务器。同时,考虑到GPU成本较高,集团公司层面通过建设统一AI平台,集中化部署一批GPU服务器,形成AI资源优化配置。从技术选型来看,目前运营商IT云资源池采用英伟达、英特尔等厂商相关产品居多。
GPU服务器在IT云应用中取得了良好的效果。在现网部署的GPU服务器中,与训练和推理相关的深度学习应用占主要部分,占比超过70%,支撑的业务包括网络覆盖智能优化、用户智能定位、智能营销、智能稽核等,这些智能应用减少了人工投入成本,提升了工作效率。以智能稽核为例,以往无纸化业务单据的人工稽核平均耗时约48秒/单,而AI稽核平均耗时仅约5秒/单,稽核效率提升达 90%。同时,无纸化业务单据人工稽核成本约1.5元/单,采用GPU进行AI稽核成本约0.048元/单,稽核成本降低达96.8%。
整机柜服务器发展态势及在电信业的应用
整机柜服务器技术发展态势
整机柜服务器是按照模块化设计思路打造的服务器解决方案,系统架构由机柜、网络、供电、服务器节点、集中散热、集中管理6个子系统组成,是对数据中心服务器设计技术的一次根本性变革。整机柜服务器将供电单元、散热单元池化,通过节约空间来提高部署密度,其部署密度通常可以翻倍。集中供电和散热的设计,使整机柜服务器仅需配置传统机柜式服务器10%的电源数量就可满足供电需要,电源效率可以提升10%以上,且单台服务器的能耗可降低5%。
整机柜服务器在运营商IT云建设中的应用
国内运营商在IT云建设中已经推进了整机柜服务器部署,经过实际应用检验,在如下方面优势明显。
一是工厂预制,交付工时大幅缩短。传统服务器交付效率低,采用整机柜服务器将原来在数据中心现场进行的服务器拆包、上架、布线等工作转移到工厂完成,部署的颗粒度从1台上升到几十台,交付效率大大提升。以一次性交付1500台服务器为例,交付工作量可减少170~210人天,按每天配10人计算,现场交付时间可节省约17~21天。
二是资源池化带来部件数量降低,故障率大幅下降。整机柜服务器通过将供电、制冷等部件资源池化,大幅减少了部件数量,带来故障率的大幅降低。图1比较了32节点整机柜服务器与传统1U、2U服务器机型各自的电源部件数量及在一年内的月度故障率情况。由于32节点整机柜服务器含10个电源部件,而32台1U通用服务器的电源部件为64个,相较而言,整机柜电源部件数减少84.4%。由于电源部件数量的降低,32节点整机柜服务器相对于32台1U通用服务器的月度故障率也大幅缩减。
三是运维效率提升60%以上。整机柜服务器在工厂预制机柜布线,网络线缆在工厂经过预处理,线缆长度精确匹配,理线简洁,接线方式统一规范,配合运维标签,在运维中可以更方便简洁地对节点实施维护操作,有效降低运维误操作,提升运维效率60%以上,并大幅减少发生故障后的故障恢复时间。
液冷服务器技术发展态势及在电信业的应用
液冷服务器技术发展态势
液冷服务器技术也称为服务器芯片液体冷却技术,采用特种或经特殊处理的液体,直接或近距离间接换热冷却芯片或者IT整体设备,具体包括冷板式冷却、浸没式冷却和喷淋式冷却3种形态。液冷服务器可以针对CPU热岛精确定点冷却,精确控制制冷分配,能真正将高密度部署带到前所未有的更高层级(例如20kW~100kW高密度数据中心),是数据中心节能技术的发展方向之一,3种液冷技术对比如表1所示。
液冷服务器在运营商IT建设中的应用
液冷服务器技术目前在我国仍处于应用初期,产业链尚不完备、设备采购成本偏高、采购渠道少、电子元器件的兼容性低、液冷服务器专用冷却液成本高等问题是液冷服务器尚未大规模推广的重要原因。从液冷服务器在运营商数据中心领域的具体应用案例来看,运营商在IT云资源池规划和建设过程中,通常会对液冷服务器的发展现状、技术成熟度等进行分析论证。
考虑到目前液冷服务器规模化应用尚处于起步阶段,需要3~5年的引入期,因此暂时未在IT云资源池建设中进行大规模落地部署,但在部分地区有小规模应用,如中国移动南方基地数据中心已经开展液冷服务器试点应用,中国联通研究院也在开展边缘数据中心服务器喷淋式液冷系统的开发。未来,随着IT云建设规模、建设密度的继续攀升,以及液冷产业生态体系的逐步成熟,液冷服务器在IT云建设中将有更大的应用空间。
总体来看,运营商IT云资源池建设对服务器计算性能、延迟、吞吐、制冷、定制化、分布式部署等方面都提出了更高要求。未来,GPU服务器、定制化整机柜服务器、液冷服务器等新兴服务器技术将快速迭代,为运营商数据中心服务器技术的发展和演进带来新的思路和路径。
机柜一直被看作是IT应用中的低值、附属产品,只是用来容纳服务器等设备的容器,并不被重视。但是,低价的机柜却是昂贵的IT设备最直接的物理保护。重视IT设备本身,却忽视了其所处的IT微环境,更多的数据中心被引向了危险的边缘。机柜是什么?很多人把机柜看作是用来装IT设备的柜子。机柜是柜子,但并不仅仅如此。随着计算机与网络技术的发展,数据中心的服务器、网络通信设备等 IT设施,正在向着小型化、网络化、机架化的方向发展。这都给数据中心的构建模式带来了新的变化。而机柜,正在逐渐成为这个变化中的主角之一。对数据中心 而言,机柜正成为其重要的组成部分。
IT设备机架化,使得机柜的规格出现了变化,最明显的表现就是单个服务器的体积缩小。服务器占据的高度空间日趋减小,而深度空间越来越大,因此对机柜的深 度要求也在逐步提高另外,IT设备安装密度最大化,已经成为目前机架式服务器的发展趋势。娜酷娜1U刀片式服务器的大量运用,使得42U机柜最多可能安装42台服务器,而每个服务器中所使用的CPU多为两个(甚至更多),硬盘也多采用内部阵列的形式,运行中会释放更多的热量,导致机柜内热量密度非常大。忽视机柜内部设备的制冷问题,也可能导致IT设备发生故障、寿命降低。
同时,机柜的兼容性也是用户头疼的问题。如今,数据中心的机柜中会 安装来自不同厂商的设备,所以要求机柜必须具备良好的兼容性。如果机柜兼容性不好,在升级IT设备时,原有机柜可能无法满足需求,用户被迫更换整套机房设 备,这种无谓的成本耗费在早期机房建设中屡见不鲜。兼容性的不足,必然导致机柜整体方案的可扩展性差,无法满足IT业日新月异的变化需求。对用户而言,显然降低了系统的生命周期,产生了过多的成本开支。
随着数据中心建设向着整体可用性的方向发展,机房对机柜管理的需求日益增长。可以预见,全面符合数据中心需求,并具备未来可扩展性的机柜解决方案,将能够更好地解决用户的问题,提升用户IT系统的管理水平,用户在对机柜的选购时应该考虑以下几个方面的因素:
可靠的质量保证,选择一款适合的服务器机柜和布线机柜非常重要,稍有疏忽,则可能导致巨大的损失。不管是哪一个品牌的产品,质量都是用户首先要考虑的环节。
承重保证,随着机柜内所放置产品密度的加大,良好的承重能力,是对一款合格机柜产品的基本要求。不符合规格的机柜,可能因为机柜品质差劣,不能有效妥善保护机柜内的设备,结果可能会影响整个系统。
温度控制系统,机柜内部有良好的温度控制系统,可避免机柜内产品的过热或过冷,以确保设备的高效运作。机柜可选择全通风系列,可配备风扇(风扇有寿命保证),在炎热的环境下可安装独立空调系统,在严寒环境下可安装独立加热保温系统。
抗干扰及其它,一款功能齐备的机柜应提供各类门锁及其它功能,例如防尘、防水或电子屏蔽等高度抗扰性能同时应提供适合附件及安装配件支持,以让布线更为方便,同时易于管理,省时省力。
售后服务,企业所提供的有效服务,以及所提供的全面设备保护方案,可为用户的安装、维护带来巨大的便利。
在数据中心的机柜解决方案除了兼顾以上几点,还应该考虑线缆布局、电源分配等方面的设计,才能保证系统的良好运行和升级的方便。
配电系统
机柜如何应对电源密度的上升?随着机柜内IT高密度安装趋势的日益显著,机柜能否发挥其应有效能,配电系统成为关键环节。
合理的电源分配直接关系到整个IT系统的可用性,而且是整个系统能否发挥其应有效能的重要基础环节,而这也是过去被很多机房管理人员忽视的问题。由于 IT设备日益小型化,机柜内设备安装的密度不断增加,以1台7U的刀片式服务器为例,1台大约需要3kVA的配电,而1台42U高的机柜可能安装多达8台 这样的服务器,其配电总需求量将达到24kVA。这就对机柜内配电系统提出了严峻的挑战。与此同时,输入、输出端口的增多,也对配电系统安装的可靠性提出 了很高的要求。再考虑到目前大多数服务器双电源供电的需求,更使得机柜内电源分配越来越繁杂。
合理的机柜电源分配系统的设计,则 应遵循以可靠性设计为核心,专门针对机柜系统设计,与配电系统充分协调、无缝配合的原则,同时要考虑安装的方便性,以及智能化管理、适应性强、便于操作与 维护等特点。机柜的配电系统,应使电源更接近负载,以减少电源通路中的故障点。同时应逐步实现负载电流的本地及远程监控,以及电源分配的远程控制,使电源 分配管理纳入机房整体的智能化管理体系中。
线缆布局
线缆出现问题怎么办?在规模巨大的机房里,在林立的机柜中穿行尚且困难,更别提快速寻找和维修出现故障的线路了。机柜的整体解决方案是否到位,机柜对于线缆的管理,将成为考察的关键环节之一。
从机柜内部线缆附设的角度看,今天的数据中心,机柜配置密度更高,容纳的IT设备更多,大量采用冗余配件(如冗余电源、存储阵列等),机柜内设备配置频 繁变换,数据线和电缆随时增减。所以,机柜必须提供充足的线缆通道,能从机柜顶部、底部进出线缆。在机柜内部,线缆的敷设必须方便、有序,与设备的线缆接 口靠近,以缩短布线距离减少线缆的空间占用,保证设备安装、调整、维护过程中,不受到布线的干扰,并保证散热气流不会受到线缆的阻挡同时,在故障情况 下,能对设备布线进行快速定位。
在规划一个包含服务器、存储产 品在内的数据中心时往往不会在意机柜、电源这些“细枝末节”,但在系统实际安装和使用中,这些配套设施同样对系统的可靠性有着举足轻重的影响。从价格看, 机柜、机架从几千元到上万元不等,完全无法和内部设备的价值相比。由于机柜内部设备集中,决定了对机柜和机架的一些特别“苛刻”的指标要求,如果在选择的 时候不加以注意,那么使用时带来的麻烦可能是巨大的。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)