数据中心要保持稳定的运行,需要大量的专业技术人员。一般承担重要业务的数据中心都是有人24小时值守,无人值守的数据中心一般只能承担不重要业务,完全无人管理维护的数据中心几乎没有。所以数据中心日常维护工作烦琐,但又很重要。随着人们的工作生活对数据的完全依赖,承载数据计算、运行的数据中心正发挥着越来越重要的作用,这更突显出维护工作的重要。
当一个数据中心建成投产后,维护工作就开始了,一直到数据中心的生命周期结束。一般我们可以将数据中心的维护工作分为四大类:一是日常检查类二是应用变更、部署类三是软、硬件升级类四是突发故障处理类,下面就来详细说一说这些维护工作,让大家对维护工作有个了解。
日常检查
“千里之堤,溃于蚁穴”。任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查工作枯燥,但也很重要,可以及时发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心里的所有运行的设备进行例行检查。一些数据中心设备厂商提供了检查软件,比如网管软件,安全防护软件等。可以利用这些软件对数据中心网络进行检查,看日志是否有异常告警,网络是否出现过短时中断,端口是否出现UP/DOWN等。通过网络探测软件看网络质量如何。检查服务器应用服务是否正常,CPU内存等利用率是否正常。对应用业务进行检查,比如如果有搜索业务,就可以通过服务器进行单词搜索,看搜索的结果和延迟是否在正常的范围之内。这些检查每日都要重复检查,一旦有异常及时处理与消除,必要时将重要业务切换到备用环境中,然后排除后再切回。
对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的部分。不合理的地方要及时进行整改,而不应该偷懒。经常到一些数据中心,就会发现值班维护人员很多都抱着电脑在浏览网页,打游戏。对于日常检查应付一下,甚至根本不去检查,只要没有出现故障,就打游戏消耗时间,这样数据中心出现故障是迟早的事。一旦出现故障就毛手毛脚,甚至哪个业务走的哪个设备,哪个端口哪个网线都不清楚,本来一个小故障可能因为不熟悉导致大故障,因此日常检查绝不能应付,虽然需要不断重复,但却很重要,在持续的检查过程中,将会对数据中心的理解越来越深,这样每次检查都会有新的发现,在检查中进行学习。
应用变更
数据中心承载的业务不会是一成不变的,随着业务的多样化,经常要对业务进行调整,包括服务器和网络的设置。因此要对服务器和网络设备操作很熟悉,主要需要掌握Linux服务器命令和网络协议。要根据应用的需要,做出变更。这时就对维护人员提出了更高的要求,不仅是对数据中心原有业务要非常熟悉,还要对新上的应用业务有正确的理解,这样才能在不影响原有业务的基础上做调整。这样的应用变更每个月可能都要做几次,是数据中心维护人员的必修课,突显了一个技术人员的基本技能水平。这时要对设备操作命令比较熟悉,懂得如何实现业务,要经常和设备厂商的技术人员打交道,通过交流尽快掌握设备操作方法。同时,由于设备厂商对应用业务缺乏了解,这就需要维护人员在应用业务和设备具体实现之间做好协调,处理。以最快的时间和最小的代价完成应用业务部署。
软硬件升级
数据中心的设备一般运行周期是五年,不断地有设备需要逐渐淘汰进行更换,也有一些设备因为存在软件缺陷需要升级,因此软硬件升级也是维护工作的一部分,尤其是软硬件出现故障时,就必须要进行更换。有时为了不影响业务,往往还需要设备厂商提供软件补丁来解决问题。数据中心的设备成百上千,出现软硬件故障很正常,所以要不断地进行软硬件升级,这类工作往往都要在业务量最少的'凌晨之后进行,维护人员通宵熬夜是常有的事,维护人员要有一个良好的身体素质,否则会吃不消。软硬件升级时需要做好回退机制,以防升级出现问题时无法回退,业务长时间无法恢复。当接手数据中心维护工作就会发现,怎么会有那么多的升级,几乎每个月都要有升级操作,熬夜升级工作成了维护人员的家常便饭。
突发故障
没有任何一个数据中心是不出故障的,在数据中心运行的过程中都会出现这样那样的问题。这时就显示出维护人员的高技能水平,根据统计百分之八十的故障都是人为故障,所以维护人员的水平高低往往决定了一个数据中心运行的稳定程度。另外对于突发故障,高水平的维护人员可以静下心来冷静分析故障的触发原因,迅速找到解决的方法,如果在短时间内找不到解决方法,也可以通过切换到备用设备上先恢复业务,再进行分析。这时拥有高水平的维护人员对于一个数据中心至关重要,在关键时刻就能派上用场。
虽然这些工作看起来有些平常,但千万别小看它们。数据中心维护工作实际上非常重要,关乎着整个数据中心业务的正常运行。目前市场上这类专业人才非常抢手,尤其对于具有较深故障排查水平的人才比较缺乏。只有重视数据中心的维护工作,才能给数据中心一个平安。
轻量化数据中心 3D 机房数字孪生解决方案,涵盖拓扑图~
以数据中心实际场景为基础,在场景中通过城市、园区、机房等建筑及设备外观,体现数据中心的空间位、周边环境等信息。通过对数据中心环境、资产、容量、动力等数据源的采集、处理、分析,为运维人员提供集中监控、集中管理、科学决策等全生命周期运维能力。
为 Web 可视化提供丰富的展示形式和效果,帮助用户快速搭建出数字孪生机房 3D 场景,达到所见即所得的效果。
实现对数据中心的众多子系统集中监控、集中管理的目的,降低机房管理难度,减轻机房运维压力。也可为不同业务增长需求提供了灵活的解决方案。
3D 机房场景内的机架、配电柜、UPS、空调、IT 设备等与实际物理场景一一对应。通过搭载智能传感设备,对资产的基本信息、空间占用、利用情况、PUE、告警记录等数据同步监测。
将精细监测能耗流向,实时分析管理,在 2D 可视化面板中直观动态显示 PUE 值,同步协助找出 PUE 升高或降低的原因,持续进行能效优化,支撑实现绿色数据中心。
将 2D 面板与数据绑定,同步显示设备的业务 IP、设备厂商、设备高度、起始 U 位、结束 U 位、维护人、CPU 温度、设备功耗等关键信息的动态数据。以简洁的表现形式,为用户呈现多角度、细致、全面、直观的关键性数据,挖掘数据背后的价值。
机房资源的容量管理始终都是个棘手的难题,往往需要兼顾空间、配电、硬件资源等多方面因素。场景中根据实际物理场景, 1:1 立体还原了机房可容纳机柜、实际使用机柜数、设备摆放等。
针对机柜 U 位、电力、承重等情况,则以机架为单位,应用 U 位柱状容量可视化效果,将 U 高、电力、承重三个维度的综合空间进行动态统计,直观展示机房内容量使用情况,帮助运维人员更有效地管理机房容量资源,让基础资源使用情况可以一目了然。
对于设备上架操作,运维人员可根据上架设备的 U 高、承重、电力等要求等多个组合条件进行适配空间搜索,帮助运维人员为新增设备快速定位到合适的上架空间,让机房各类资源负荷更加均衡。
拓扑图拓扑结构图是指由网络节点设备和通信介质构成的网络结构图,网络拓扑设计的好坏对整个网络的性能和经济性有重大影响。
2D/3D 可视化引擎具有强大交互能力,拓扑图形及表盘图表等非常适合用于实时监控系统的界面呈现。本次打造的全新 2D 组态界面中,采用固定面板方式呈现电力系统与制冷系统设备的实时运转参数和状态模式。让“一张图”切换查询功能,帮助运维人员快速捋清逻辑关系、设备状态,实现问题快速定位。
3D 拓扑图
但随着数据中心设备数据的不断增长,以往平面又密集的 2D 组态表现形式却不再适用于多数据的呈现。在此基础上,3D机房数字孪生解决方案增加 3D 可视化的形式,按照机房内实际布局对制冷系统的风冷水主机、冷水泵、蓄冷罐和电力系统的进线开关柜、计量柜、电容器组等资产,进行 3D 拓扑可视化呈现。
场景中提供资产之间的全链路拓扑可视呈现,帮助运维人员快速校对资产与资产之间的链路链接,轻松查找关联的业务。
相较传统的 2D 拓扑图,3D 拓扑图既能承载更多的业务信息,又可以更立体、多样、生动的展现设备的上下游依赖关系,构建出一张分层分权的网络拓扑关系图,让运维人员能立体化、多面性、深层次地观察各类设备之间互联关系。还可广泛应用于电信网络可视化、电力网络可视化、其他领域管网可视化。
智能巡检数据中心日常维护通常需要大量的运维人员按时巡检、手工抄录,但会导致检巡频次降低且耗时也过长。配合智能巡检机器人替代人工巡视,实现对机房安全设备、网络设备、服务器主机、UPS 硬件状态监控、IT 资产管理等设备的自主监视、故障监测、远程告警管理。从而构建大范围、无死角的运维管理环境,打造数据中心无人值守的管理模式。
通过数据中心 3D 全息视图将数据中心机房内多个分散的监控系统和运维流程归集融合,横向打通数据中心信息管理孤岛,纵向对接上层事务处理与下层实时控制系统,增强各个子系统之间的协同能力。Hightopo可视化大屏塑造全方位、多层次、立体化的资产管理、容量管理、动环管理、能耗管理监管体系。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)