服务器常见故障的诊断与解决:服务器故障排除第一部分 服务器故障排除的基本原则性问题服务器故障排除一、服务器开机黑屏故障排查1.检查供电环境,零-火;零-地电压?2.检查电源指示灯,如果亮,正常吗?3.按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?4.是否更换过显示器,更换另一台显示器。5.去掉增加内存6.去掉增加的CPU7.去掉增加的第三方I/O卡8.检查内存和CPU插的是否牢靠9. Clear CMOS10.更换主要备件,如系统板,内存和CPU服务器故障排除二、服务器故障排除的基本原则1.尽量恢复系统缺省配置a:硬件配置:去除第三方厂商备件和非标配备件;b:资源配置:清除CMOS,恢复资源初始配置;c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序;d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?2.从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。c:软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。3.交换对比a:在最大可能相同的条件下,交换操作简单效果明显的部件;b:交换NOS载体,既交换软件环境;c:交换硬件,既交换硬件环境;d:交换整机,既交换整体环境;服务器故障排除三、服务器故障排除需要收集哪些信息?服务器信息:1.机器型号2.机器序列号(S/N:如:NC00075534)3.Bios版本4.是否增加其它设备,如网卡,SCSI卡,内存,CPU5.硬盘如何配置,是否做阵列,阵列级别6.安装什么操作系统及版本(Windows Server, Netware, Sco, others)
断风扇和电源问题 1:x445开机加电无显示故障故障现场:开机加电无显示故障;双电源、双CPU、8条内存操作内容:单CPU测试 1.去掉一颗CPU和VRM测试,开机正常 2.加入去掉的CPU和VRM测试,开机正常 3.刷新BIOS 问题总结:多CPU配置机器大部分时候开机加电无显示大多都是由于CPU的VRM接触不良导致,在有能力的情况下做单CPU测试 2:故障现场:X345的信息指示灯亮灯报错,但光路LED没亮灯操作内容:F2查看ErrorLog,里面有Single Bit Error,更换内存问题总结:日志里面有Single Bit Error,更换内存就好了。 3:故障现场:X346的信息指示灯亮灯报错,具体显示PS2错误 或 光诊断面板没有出现相关的硬件报错信息操作内容:确定不是硬件问题,F1进入BIOS 看post envent log 为空 进入adv -->BMC setting 清除BMC log 。关闭服务器红灯消失。重起现象还存在,把电源去电几分钟就好了 这个是ibm 服务器的bmc 的一个 bug 现在可以更新bmc解决这个问题。一般换电源背板就可以解决,在单电源状态下,故障现象:PS2灯报错。有部分机器出厂时就有这个问题:标配单电源,却误报第二个电源未接,所以PS2灯亮。 是电源背板微码识别错误,导致误报。将电源背板更换成07版本以上就可以了。可打800电话报修,上门更换。若加载两个正常的电源,原故障消失,但又出现"Fan"故障。 你所加载的电源,肯定是直接从别的X346机器上拔下来的。事实上如果加插冗余电源,则X346要求风扇也必须满配,否则报错。问题总结:X346通病,电源换一个位置就差不多没问题了,或者试试关掉电源几分钟再开机 4:关于cpu不同级问题故障现场:X366-1RC ,使用1个标配的CPU时正常,当加入第二个CPU时出现不定时无故重起操作内容:" The CPUs in this multiprocessor system are not all the same revision level. To use all processors the operating system restricts itself to the features of the least capable processor in the system. Should problems occur with this system, contact the CPU manufacturer to see if this mix of processors is supported. "---系统日志。F1进入Bios, 进入cpu信息p1 levels 17 ,p2 levels 2 相差太远了解决方法更换第二个cpu 问题总结:CPU 不在一个等级上(服务器的cpu都是xeon话支持smp技术,但是一样的CPU 使用时一定要确定是否在一个等级) 5:故障现场:X260的服务器8IRAID卡,通过SERVERGUIDE光盘进入进行RAID配置进,行RAID配置的过程中却没有发现任何磁盘操作内容:下载了SERVERRAID8.20光盘后。给客户的升级了13N2227的FIRMWARE和BIOS后问题总结:X260服务器内部架构属于X3架构,与X366内部类似。同样安装了8IRAID卡。X260为新机型需要用FRU号为39R8729的那块卡才行,原先的13N2227这块卡不行。或升级13N2227这块卡的FIRMWARE和BIOS。通过SERVERRAID8.20启动后能够正常认出硬盘并进行了RAID配置 6:X236+6M认不出盘故障现场:X236+了6M卡和6块146GSCSI盘操作内容:在读取6M阵列卡BIOS时却一直处于6分钟的搜索硬盘过程,但一个盘都没有认出,进入CTRL+I对6M卡的BIOS进行了RESTOR FACTOR,但是却一直卡在PROSSING的这个过程中。6M卡进行了重新插拔,更换PCI槽口,以及更换SCSI槽口结果仍然没有效果。咨询提示提示: 1、先把所有硬盘拔下。 2、开机进6M卡BIOS重新进行RESTOR FACTOR。 3、一块一块的逐个添加磁盘。成功问题总结:每次新添加一块磁盘的时候在6M卡BIOS读秒的时候大概是需要1分10秒左右。其中有一次我是一下子添加了2块盘用掉2分钟多点。那是不是因为6块盘一起上的时候6M卡搜索磁盘的读秒时间不够所造成磁盘没有搜索到呢有待证实。 7:HBA卡驱动错误故障现场:服务器NMI/PCI/LOG灯亮,进系统时蓝屏操作内容:刷新BIOS/BMC/CPLD/DIAGNOSTIC。 1.抓去BMC日志保存 2.检查机器内部PCI卡,PCI4槽位上接了一块Qlogic的HBA卡,这张卡接的非常松,感觉根本没有插上 3.拔掉HBA卡开机测试一切正常,清空日志,断电再将HBA卡重新插回去开机测试,在windows2003自检硬件过程中系统又蓝屏,同时NMI/PCI/LOG灯亮。 4.重新去除HBA卡开机后正常进入系统,考虑机器微码比较老,先把微码用update express4.05光盘刷到最新版本,再接回HBA后正常进入系统,但是这时在系统中提示要重新安装HBA卡的驱动程序,客户自行找了一个驱动安装上后重新启动,重启后检测硬件故障又出现了。这样可以判断应该是HBA卡驱动的问题。 5.开机按F8进入操作系统,将HBA卡驱动删除,然后查看HBA型号,安装针对该型号驱动后,一切正常,多次重启都无故障。问题总结:硬件故障的排除步骤 8:更换8863机器硬盘服务故障现场:88631RC,5块硬盘,RAID5,ID0硬盘频繁离线,每次重新拔插都能正常rebuild 操作内容:1.安装serveraid manager 8.40版,安装过程无报错,在重新启动服务器关闭操作系统过程中有几个软件的报错 2.重启过程中在通过windows2000启动进度条之后系统蓝屏,蓝屏代码c0000218,上一次正确配置、安全模式均出现次故障 3.查看raid卡日志并未发现有明显的报错,想查看阵列是否有坏条带,但是在8i日志中并未看到有坏条带这一相关信息,向同事请教也未发现有相关信息;将raid卡BIOS和Firmware同样升级到8.40(5.20.11835)后故障同样。客户有相同机器,安装的系统版本也一致,通过另外一台机器创建紧急修复磁盘对操作系统进行紧急修复(手动和快速两种方式)后故障依旧。通过internet上搜索,有朋友通过故障恢复控制台进入使用chkdsk /r指令修复了该故障,尝试相同方法,故障依旧。(网上的朋友是单硬盘模式,可以修复该类硬盘坏区故障,由于客户使用的是raid5阵列,所以这种修复无效) 4.考虑客户数据问题,在原有操作系统上覆盖安装windows 2000server后先把重要数据备份出来,之后再重新安装了一遍操作系统 5.然后使用serveraid support cd 8.40光盘引导服务器将ID0硬盘手工设置为defunct状态,再将其拔出,插上新硬盘,硬盘这时开始自动rebuild,由于硬盘中数据量不是很大,5块73.4G硬盘同步时间大约为30分钟,同步全为后台自动操作,在同步期间服务器重启多次,重启到检测阵列卡过程中停止,提示阵列卡发现有硬盘missing或者array is rebuilding,提示三种操作:a.直接安回车,接受现在的状态;b.按ctrl+h(后面忘了是什么,等待查hmm);c.按ctrl+m(后面忘了是什么,等待查hmm);所以在每次重启过程中都需要手动按下回车之后才会进入操作系统 6.刷新5个硬盘的微码到同一版本T107,结束服务欢迎分享,转载请注明来源:夏雨云
评论列表(0条)