怎么排除服务器中RAID5故障
但是,对HP的一些老服务器(如HP LH6000)数据的恢复与新服务器(如HP ProLian系列服务器)的数据恢复是不同的。所以不同的服务器对RAID 5故障的处理也是不同的。曾接触过两台服务器因意外断电而造成的RAID 5阵列卡数据故障,由于采用了不同的策略而解决了问题。
故障修复
一台是HP LH6000的服务器,4块18GB的硬盘做成RAID 5磁盘阵列,其阵列卡是NetRaid另一台是HP ProLian ML370服务器,4块146GB的硬盘做成RAID 5磁盘阵列,其阵列卡是Smart Array 642并带有热备份硬盘(Hot Spare)。两者操作系统都为Window 2000,数据库是Server 2000。
HP LH6000的故障如下: 一块硬盘红灯闪亮,机器还在正常运行,但没有多久,系统就不能正常运行,这时才发现另一块硬盘的红灯也在闪亮。
解决办法如下:
1.启动服务器,自检至阵列时按Ctrl+M进入NetRaid管理程序。查看阵列信息,发现硬盘状态为Failed,运用修改配置将一硬盘强行设置成OnLine。重新启动服务器,在进入系统前的硬件自检时无效,启动失败。
2.启动服务器,自检至阵列时按Ctrl+M进入NetRaid管理程序。选择磁盘阵列,将原来OnLine挂起来的硬盘手工Fail掉,然后再把另一块Failed的硬盘手工设置成OnLine,重新启动服务器就可以进入系统了。
3.查看系统及数据库都运行正常后,再进阵列配置工具把Failed的硬盘手工设置成Rebuild,100%完成重建后再重启服务器,所有的阵列及系统都恢复原状了。
另一台运行ERP系统的服务器(HP ProLiant ML370),由4块146GB热插拔硬盘通过RAID卡(Smart array阵列卡)配置成一台具有RAID 5级的磁盘阵列。其中一块硬盘在运行过程中突然出现故障。服务器RAID 5自动启用热备份硬盘(Hot Spare),对损坏硬盘进行逻辑替代。整个硬盘的数据访问任务仍然完整地运行在原来的读写进程序列中,应用程序和数据库没有发生影响。
通过HP自带的ACU工具查看硬盘状态进行检查,发现红灯示警的硬盘处于脱机状态。如果HP ProLiant服务器中的Raid 5有两块硬盘出现亮红灯时,表明系统已经崩溃,数据库也就不能访问,但系统不会自动关机。当第二块硬盘亮红灯后,用常规的手段是不能恢复数据的,只有付费找专业的.第三方数据恢复公司恢复数据。
因此,对惠普老型号HP LH6000系列服务器来说,阵列的设计方面与现在HP ProLiant系列服务器的阵列有很多不同。就操作方法看,HP LH6000服务器的阵列操作方法有很多可选项,包括阵列失败后可以重新删除阵列并重建等,初始化也是手工选择的。但是HP ProLiant系列服务器阵列的初始化是在配置阵列后自动在后台执行的,所以ProLiant系列服务器在阵列出错后是不能重配阵列的。
HP LH6000服务器会因其他意外的原因导致阵列中的磁盘出现掉线现象,可让维护人员手工选择用Online或Offline、Rebuild等来恢复数据。但是现在的HP ProLiant系列服务器在阵列中不会再出现像老的服务器那样有磁盘掉线的现象,所以硬盘亮红灯的时候,这块硬盘基本上是损坏了需要更换。当然可以选择热插拔硬盘来重建(Rebuild),看硬盘还能不能再用一段时间。
做好技术后备
从以上两个例子可以看出,同一品牌、不同系列的服务器因其内含技术的不同,其Raid 5磁盘故障的排除也是不同的。但经过重建(Rebuild)数据后,数据被拯救了,从中可以得出以下经验:
我们认为任何先进的技术手段都不是万无一失的。如果要确保数据安全,就一定要做好备份工作,最好每天做一次数据库的异地备份。至少备用一块新硬盘。需要指出的是,加入阵列的硬盘必须大于或等于故障硬盘的容量。
如果条件允许,推荐“RAID 5+热备盘”的阵列创建方案。这样在数据丢失前,我们有两次更换硬盘的机会。对于一般的应用,只用RAID 5即可,可以同时提供数据的存取性能、可靠性和最大的磁盘空间。
管理员必须经常观察阵列的状态,包括查看磁盘阵列的黄色警告灯和管理软件里的驱动器状态。出现故障,及时排除。无论是什么级别的阵列,在排除故障前,都应做好数据备份。
[TOC]
本次使用IBM x3650 M3的服务器作为实验服务器使用LSI芯片RIAD卡 支持Web BIOS
这里推荐先检查服务器前信息板卡有无报错,在登陆服务器IPMI管理口查看服务器事件日志。
服务器事件日志在
Eventlog中查看
主要涉及两个指示灯(当硬件故障时告警会有提示)
发生硬盘驱动器错误,这个需要检查是否有硬盘有故障指示灯亮起。
如硬盘故障灯亮起。 则需要更换硬盘
下图为硬盘凉了的告急,如果没做的Raid你就凉透了
显示器也会出现如下报错(那你系统是悲剧了)
其实如果在部署的时候,配置了Riad 1、5、6、10可以直接将备件硬盘更换上即可。(这个时候raid卡会自动同步新盘的数据)
有时会发现加入磁盘无法同步,进入WEBBIOS 选择后加入的硬盘,将其设置"Make Unconfi good"后,再设置成热备盘就可以自动同步了。
Raid 控制器故障。若无法进入控制器建议重新更换控制器。
把Raid卡换了就可以了。更换后需要重新导入阵列信息。
==关机的情况下==将磁盘拔出,调换顺序,对阵列本身无任何影响。
但阵列卡设置中,会发现磁盘顺序变更。
这里的调换 包括硬盘的排列顺序和硬盘的位置。
这里虽然进入了系统 服务器 DASD在报错
这里是确认了服务器硬盘没有损坏,数据完整情况下。
如服务器出现:
阵列卡(同型号和不同型号)
将故障服务器关机,拆下硬盘,放入备用服务器开机后需要先进入WeBBIOS,进入后阵列卡会提示有新的阵列信息,是否需要导入(选择Preview导入)。
读取到阵列配置以后直接将硬盘阵列导入阵列卡即可恢复系统(选择improt )
当硬盘被意外拔出后会出现此状态
进入此状态硬盘,重新标记为Make Unconfi good 若还是此状态那你的盘就凉凉了
无法自动同步的情况下,需要重新启动服务器进入WebBioss使用手动重构的方式。(一般把盘激活后设置为HSP)
重构时候,可以点击进入查看进度。(此时可以重启服务器进入系统。无需在此界面等待)
解决方法:
RAID5数据以块为单位分布到各个硬盘上。不对数据进行备份,而是把数据和与其相对应的奇偶校验信息存储到组成RAID5的各个磁盘上,并且奇偶校验信息和相对应的数据分别存储于不同的磁盘上。当RAID5的一个磁盘数据损坏后,利用剩下的数据和相应的奇偶校验信息去恢复被损坏的数据。
2.RAID5阵列,坏一个硬盘的情况下,只要更换同样型号的就可以自动恢复数据.
如果不确定是哪块硬盘有问题, 请注意硬盘面板上的指示灯,找那块与众不同的就对了.
一般是亮红灯的.
3.RAID5阵列,坏两个硬盘的情况,就只能换硬盘,再重新装系统了.数据也将全部丢失.
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)