G3服务器,2011年8月生产,安装后一直运行正常,近段常常出现死机现象,需要重启才能正常运行。——想必大伙儿基本能够猜到是什么故障了!
未料,网管这次重启,发现再也不能开机,用U盘引导也不能启动。
我到现场查看。发现启动过程中提示找不到引导文件。某一媒体硬件脱机,建议检查连接线。
再次用U盘引导,查看硬盘,发现三块硬盘均不能读取。
初步考虑,RAID出了问题。
度娘请教,建议到BIOS找到STOREG选项,启动即可。
但搜遍BIOS,没有找到这一选项。
无奈,请教联想客服(装机客服,不是800电话的客服,800打不通),工程师提示,可能RAID卡有故障。印证了笔者的判断。
打开上盖,拆掉RAID卡支架,发现RAID卡电池掉落,搭在下面的主板上。仔细检查RAID卡,没有看到明显异常。
将RAID卡电池恢复原位并固定,装好支架。
上述处理过程中,用吹风机在主板、硬盘架、CPU散热片、电源、内存槽等部位吹出不可思议的大量灰尘。
清理风扇灰尘,装好盖板。
开机,服务器完全恢复正常。
总结经验:1,服务器对工作环境的要求还是有的,不能随便放在什么地方就不管了;
2,服务器必须定期清理灰尘;
3,发现服务器频繁死机,首要的原因就是机内温度过高导致,特别是CPU。
这次服务器故障,就属于灰尘导致的散热不良,继而引起频繁死机。同时,因机内温度过高,导致RAID卡电池不干胶软化,电池脱落,搭在主板上导致短路。RAID卡保护失效所致。
此记,供参考。
一、磁盘阵列出现故障的过程本次进行数据恢复的是某个网站的一个2850型号服务器,这台服务器一共安装有6块硬盘,每块硬盘的容量为300GB,服务器上层安装了linux操作系统和EXT3文件系统。在服务器运行过程中有一块硬盘因为未知原因离线,但是由于服务器的阵列级别为raid5,所以一块硬盘掉线并未影响服务器的正常运行,直到又出现一块硬盘掉线,服务器系统瘫痪。二、强制上线操作管理员查看阵列情况后并不能确定两块硬盘的离线顺序,只好选择其中一块硬盘尝试强制上线操作(强制上线操作具有一定风险,如进行操作需提前备份)。管理员将其中的一块硬盘强制上线后发现操作系统在启动时出现异常,为了避免损坏数据,只好将服务器关机并联系数据恢复机构进行专业修复。三、数据恢复故障分析在数据恢复操作中经常会遇到这类故障情况,很多管理员由于发现不及时或者第一块硬盘掉线时没有及时处理导致两块硬盘甚至多块硬盘掉线,这样阵列就会彻底崩溃。此时管理员可以对后离线的硬盘进行强制上线操作,虽然具有一定的风险但是也具有一定的可操作性行。但是在进行强制上线时最好由经验丰富的管理员或者数据恢复工程师进行操作,以免对数据造成不可挽回的破坏,今天这个案例就是如此。四、数据恢复过程首先将服务器内的所有硬盘进行镜像备份,在备份过程中发现除了已经掉线的两块硬盘外,其他正常硬盘内也有存在坏道,但并没有离线所以暂不必进行特殊处理。备份后分析原raid阵列的组成结构,构建虚拟raid环境。由于管理员曾经对阵列进行强制上线操作,破坏了部分数据结构,所以需要恢复人员在验证raid结构后手工修复被破坏的那部分结构,然后导出阵列内的所有数据。这样数据就恢复成功了,只需重新搭建阵列并迁移就可以了。五、数据恢复结论本次数据恢复一共用时2个工作日,所有数据恢复成功。欢迎分享,转载请注明来源:夏雨云
评论列表(0条)