数据中心要保持稳定的运行,需要大量的专业技术人员。一般承担重要业务的数据中心都是有人24小时值守,无人值守的数据中心一般只能承担不重要业务,完全无人管理维护的数据中心几乎没有。所以数据中心日常维护工作烦琐,但又很重要。随着人们的工作生活对数据的完全依赖,承载数据计算、运行的数据中心正发挥着越来越重要的作用,这更突显出维护工作的重要。
当一个数据中心建成投产后,维护工作就开始了,一直到数据中心的生命周期结束。一般我们可以将数据中心的维护工作分为四大类:一是日常检查类二是应用变更、部署类三是软、硬件升级类四是突发故障处理类,下面就来详细说一说这些维护工作,让大家对维护工作有个了解。
日常检查
“千里之堤,溃于蚁穴”。任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查工作枯燥,但也很重要,可以及时发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心里的所有运行的设备进行例行检查。一些数据中心设备厂商提供了检查软件,比如网管软件,安全防护软件等。可以利用这些软件对数据中心网络进行检查,看日志是否有异常告警,网络是否出现过短时中断,端口是否出现UP/DOWN等。通过网络探测软件看网络质量如何。检查服务器应用服务是否正常,CPU内存等利用率是否正常。对应用业务进行检查,比如如果有搜索业务,就可以通过服务器进行单词搜索,看搜索的结果和延迟是否在正常的范围之内。这些检查每日都要重复检查,一旦有异常及时处理与消除,必要时将重要业务切换到备用环境中,然后排除后再切回。
对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的部分。不合理的地方要及时进行整改,而不应该偷懒。经常到一些数据中心,就会发现值班维护人员很多都抱着电脑在浏览网页,打游戏。对于日常检查应付一下,甚至根本不去检查,只要没有出现故障,就打游戏消耗时间,这样数据中心出现故障是迟早的事。一旦出现故障就毛手毛脚,甚至哪个业务走的哪个设备,哪个端口哪个网线都不清楚,本来一个小故障可能因为不熟悉导致大故障,因此日常检查绝不能应付,虽然需要不断重复,但却很重要,在持续的检查过程中,将会对数据中心的理解越来越深,这样每次检查都会有新的发现,在检查中进行学习。
应用变更
数据中心承载的业务不会是一成不变的,随着业务的多样化,经常要对业务进行调整,包括服务器和网络的设置。因此要对服务器和网络设备操作很熟悉,主要需要掌握Linux服务器命令和网络协议。要根据应用的需要,做出变更。这时就对维护人员提出了更高的要求,不仅是对数据中心原有业务要非常熟悉,还要对新上的应用业务有正确的理解,这样才能在不影响原有业务的基础上做调整。这样的应用变更每个月可能都要做几次,是数据中心维护人员的必修课,突显了一个技术人员的基本技能水平。这时要对设备操作命令比较熟悉,懂得如何实现业务,要经常和设备厂商的技术人员打交道,通过交流尽快掌握设备操作方法。同时,由于设备厂商对应用业务缺乏了解,这就需要维护人员在应用业务和设备具体实现之间做好协调,处理。以最快的时间和最小的代价完成应用业务部署。
软硬件升级
数据中心的设备一般运行周期是五年,不断地有设备需要逐渐淘汰进行更换,也有一些设备因为存在软件缺陷需要升级,因此软硬件升级也是维护工作的一部分,尤其是软硬件出现故障时,就必须要进行更换。有时为了不影响业务,往往还需要设备厂商提供软件补丁来解决问题。数据中心的设备成百上千,出现软硬件故障很正常,所以要不断地进行软硬件升级,这类工作往往都要在业务量最少的'凌晨之后进行,维护人员通宵熬夜是常有的事,维护人员要有一个良好的身体素质,否则会吃不消。软硬件升级时需要做好回退机制,以防升级出现问题时无法回退,业务长时间无法恢复。当接手数据中心维护工作就会发现,怎么会有那么多的升级,几乎每个月都要有升级操作,熬夜升级工作成了维护人员的家常便饭。
突发故障
没有任何一个数据中心是不出故障的,在数据中心运行的过程中都会出现这样那样的问题。这时就显示出维护人员的高技能水平,根据统计百分之八十的故障都是人为故障,所以维护人员的水平高低往往决定了一个数据中心运行的稳定程度。另外对于突发故障,高水平的维护人员可以静下心来冷静分析故障的触发原因,迅速找到解决的方法,如果在短时间内找不到解决方法,也可以通过切换到备用设备上先恢复业务,再进行分析。这时拥有高水平的维护人员对于一个数据中心至关重要,在关键时刻就能派上用场。
虽然这些工作看起来有些平常,但千万别小看它们。数据中心维护工作实际上非常重要,关乎着整个数据中心业务的正常运行。目前市场上这类专业人才非常抢手,尤其对于具有较深故障排查水平的人才比较缺乏。只有重视数据中心的维护工作,才能给数据中心一个平安。
需要注意下面几点1.合理布线
合理有效的线缆布局对于机房整理的节约电能、节能降耗、空间节约、改善空气对流起到重要作用.
机房整理的布线方法:
一般综合布线系统要求距离尽量短而整齐,排列有序,具体的方式有“田”字形和“井”字形两种.其中:“田”字形较适用于环形机房布局,“井”字形较适用于纵横式机房布局. 它的位置可安排在地板下和吊顶两个地方,各有各的特点,下面分别加以阐述:
1、地板布线:这是一种最常见的布线方式,它充分利用了地板下的空间,但要注意地板下漏水、鼠害和散热,还应保证在每个机房机柜下方开凿相应的穿线孔(包括地板和线槽).
2、吊顶布线:该布线方式特别适合于经常需要布线的机房,目前也非常流行,此方式中吊顶内包含了各种布线电源、弱电布线,在每个机柜上方开凿相应的穿线孔(包括地板和线槽),当然也要注意漏水、鼠害和散热,具体布线的内容有:强电布线、弱电布线和接地布线,其中强电布线和弱电布线均放在金属布线槽内,具体的金属布线槽尺寸可根据线量的多少并考虑留有一定的余量(一般为100×50或50×50).强电线槽和弱电线槽之间的距离应保持至少5cm以上,互相之间不能穿越,以防止相互之间的电磁干扰.下面将一一加以阐述:
1、强电布线:在新机房装修进行强电布线时,应根据整个机房的布局和UPS的容量来安排,在规划中的每个机柜和设备附近,安排相应的电源插座,插座的容量应根据接入设备的功率来定,并留有一定的冗余,一般为10A或16A.电源的线缆直径应根据电源插座的容量并留有一定的余量.
2、弱电布线:弱电布线中主要包括同轴细缆、超五类网线和电话线等,布线时应注意在每个机柜、设备后面都有相应的线缆,并应考虑以后的发展需要,各种线缆应分门别类用扎带扎好.
3、接地布线:由于新机房内都是高性能的计算机和网络通讯设备,故对接地有着严格的要求,接地也是消除公共阻抗,防止电容耦合干扰,保护设备和人员的安全,保证计算机系统稳定可靠运行的重要措施.在机房地板下应布置信号接地用的铜排,以供机房内各种接地需要,铜排再以专线方式接入该处的弱电信号接地系统.
在弱电布线的时候,为了保证传输的速率和网络的稳定,还应该注意以下几点:
1、如果在2个端点间有多余的线缆,应该按照需要的长度将其剪断,而不应将其卷起并捆绑起来(双绞线的长度越长,传输质量越差,而且过长的线缆会为整理造成一定难度).
2、线缆的接头处反缠绕开的线段的距离不应超过2cm,过长会引起较大的近端串扰(双绞线的缠绕要求是很严格的,缠绕密度很大程度上会影响到传输质量).
3、在接头处,线缆的外保护层需要压在接头内而不能在接头外.虽然在线缆受到外界拉力时整个线缆均会受力,但若外保护层压在接头外,则受力的将主要是线缆和接头连接的金属部分.
4、在线缆接线施工时,线缆的拉力是有一定限制的,一般为9kg左右.过大的拉力会破坏线缆对绞的匀称性.
5、由于六类线缆要比一般的五类线粗,为了避免线缆的缠绕(特别是在弯头处),在管线设计时一定要注意管径的填充度,一般内径20mm的线管以放2根六类线为宜
机房维护
机房的日常维护可以为设备提供良好运转环境,保障系统运转安全、正常,保持通信畅通.
日常维护具体内容:
保持机房清洁干净,防尘防潮,防止鼠虫进入.
严禁在设备的计算机终端上玩游戏,禁止装入其他无关的软件或将计算机挪用.
每天须参照日常维护操作指导的相关内容,进行常规检查和测试,并做好记录.
发现问题须及时处理,处理不了的问题应立即向有关单位联系解决.遇到紧急情况不要慌张,切忌手忙脚乱.
维修时按设备相应规范说明书来进行,避免因人为因素而造成事故.
出现设备瘫痪等重大事故时,按照重大问题处理顺序进行排除,并立即通知相关单位.
已经损坏的单板不能放在机柜内,应装入防静电袋妥善保管,以免引起其他故障.
对弱电设备硬件操作应预先戴好防静电手环.
禁止擅自对设备进行复位、加载或轻易改动数据.如果确需更改,要在更改之前做好数据备份,改动 后一周内确认机器运行无误,再删除备份数据. 严禁使用终端软件以外的其它软件直接对数据库进行查询和修改,以免导致不良后果.
遇到强雷雨时,维护人员要及时巡查近端、远端模块局机房或通知值班人员注意观查、以防万一.
计算机终端口令要按级别划分权限,定期更改,并只向维护责任人发放.管理级口令只有维护负责人掌握,做到严格管理、责权分明.
机房的日常维护注意事项:
日常维护:
1.定期检查钢瓶压力表指针,保证钢瓶压力在允许范围内(使用承重装置的应检查承重器).一般时间为一个月,并做好记录.
2.定期检查气体灭火主机运行状况,包括主电、备电的工作情况,联动设备的工作情况等外观、线路,做好记录.一般一个月进行一次.
自检:
自检要对系统做一个全面的模拟火警的测试,一般一个季度进行一次.
1.保护好钢瓶,拆掉电磁阀,避免测试时气体喷出.
2.对报警主机进行模拟测试,比如:感烟报警、感温报警、手动启动、紧急停止、各个报警装置的报警状态和联动、喷放延时的情况. 3.机房系统整理
系统保护方案——保护卡强大的防护功能
当前病毒泛滥,很多保护卡难以防范.如机器狗病毒可以逃过保护卡的保护,在网络传播各种病毒,让很多机房管理老师都很是头疼.保护卡强大的防护功能不但可以防止机器狗病毒还可以防止其他底层病毒.有效减少机房老师的维护工作.
机房方案——变量拷贝硬盘保护卡
保护卡的多操作系统相互隔离功能,使机房不同操作系统各行其道,随意增、删数据互不影响.满足了机房承担的各种系统环境的需求(如:DOS、LINUX、UNIX、VISTA、WINXP等并存).实现了一机多用的强大功能
1、数据中心选址:数据中心有着严格的选址标准,要考虑自然地理条件、配套设施、周边环境、成本因素、政策环境等各个因素。首先,数据中心要避开低海拔、地质缺陷带、释放污染源的工厂等区域,降低洪涝、地震、污染等情况的发生。其次,数据中心的稳定运行离不开人的维护,要考虑到当地是否拥有比较充足的数据中心技术人才,也要考虑资产的安全问题以及可能发生的损失。与此同时,为了保证数据中心间的快速链接,和其它数据中心的距离也要合适。当然除了安全因素,选址时也要考虑环保、节能、政府扶持政策等因素。2、数据中心的综合布线:对动辄成百上千平方米的数据中心建设来说,综合布线在机房建设中尤为重要。选择什么样的线缆和布线方案,对今后的维护和升级改造都会有很大影响。
3、数据中心设备的布局:机柜摆放,正确的摆放方式应该是将服务器机柜面对面或者背靠背的摆放,这样便形成了冷风通道和热风通道,机柜之间的冷热风不会混合在一起,形成短路气流,大大提高制冷效果,保护好冷热通道不被破坏。IT设备摆放,针对高功率负载和高密度的服务器集中摆放,容易导致数据中心的局部热点和单路电源功耗过高问题,可以将这些高功率设备和高密度服务器分在每个机柜内,这样就不会出现高功率密度设备群。
4、数据中心运维:数据中心机房运维管理工作责任重大,随着互联网、信息化产业的不断发展,作为各种信息载体的数据中心发挥着越来越重要的作用,因此数据中心的安全运行变得尤为关键,数据中心运维管理工作也变得越来越复杂。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)