现象1. 服务器运行一段时间后,操作系统宕机,显示器输出无显(no signal)。
现象2. BMC上报CAT ERROR,如图1所示。并且无其他硬件告警。
图1
现象3. 收集操作系统日志,没有产生MCE日志或者MCE日志中没有硬件报错信息。Message日志中没有错误打印。
告警信息
服务器BMC报CAT ERROR或者服务器出现OS死机
处理过程
1服务器CAT ERROR告警原理分析
1.1.1 CAT ERROR是X86计算系统检测机制所能识别到的故障统称
Intel在Pentium 4、Xenon和P6系列处理器中实现了机器检查(Machinecheck)架构,提供能够检测和报告错误的机制,如系统总线错误、校验错 误、缓存错误、TLB错误、进程溢出和越界等。
当机器检查到不可纠正的进程错误时,就触发记录一个CAT ERROR日志。也就是说CAT ERROR是进程在CPU和内存中执行过程中遇到。
X86平台中导致CAT ERROR的原因主要包括CPU、内存相关硬件故障以及异常逻辑状态等软件故障。
1.1.3 华为服务器针对此类复杂的异常事件,具有故障诊断功能,可以快速提供该类疑难问题的判断依据
当前X86平台技术中对于CAT ERROR问题定位较为困难,为此华为服务器在BMC管理系统中开发了故障诊断功能。实现了计算资源的轨迹追踪,可以在发生CAT ERROR事件时根据轨迹追踪信息从硬件的角度进行自动判断,并给出处理建议。
因此对于此类问题的分析主要采用BMC故障诊断日志和OS中的MCElog日志进行对应分析的方法。如问题原因为硬件导致,那么在两个日志中均会有硬件异常产生,否则问题的方向需要从OS层面进行深入分析。
根因
1. 初步结论:无有效日志,无法确认CAT ERROR具体原因。根据现有日志分析,初步排除硬件故障,现象疑似OS进程偶发异常导致。
2. RH5885 V3采用新一代CPU(E7-48xx V2系列),OS对新一代硬件平台CPU的高级节能特性支持可能存在不稳定性。
根据之前平台处理经验,出现过OS和CPU节能模式不兼容导致系统概率性出现异常的情况。VMware和Citrix官方都明确建议关闭CPU的节能模式。
VMware:
VMware官网文档中在电源管理方便建议关闭节能模式,链接如下:
http://www.vmware.com/files/pdf/techpaper/VMW-Tuning-Latency-Sensitive-Workloads.pdf
因各厂家服务器BIOS参数名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。
Citrix:
Citrix系统也有节能模式引起的问题:
官网说明链接如下:
http://support.citrix.com/article/CTX127395
处理方案也是将节能模式关闭,因各厂家服务器BIOS参数名称名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。
解决方案
若遇到此类服务器故障现象,可以手动收集服务器BMC日志和操作系统OS的message日志返回研发分析确认是是否属于节能模式问题,确认属于该问 题,可以进入BIOS中手东关闭CPU节能模式能够解决该问题。
2. 使用Ctrl+E 进入IPMI Server Management Configuration3. 设置IPMI Server Management Configuration
(1).设置 IPMI Over LAN 为 On
(2).进入IPMI LAN Channel
设置Ethernet Ip Address : 192.168.1.100
设置 Subnet Mask : 255.255.255.0
配置完成,保存设置
4. 服务器设置完成。
设置你的客户端, 例如笔记本电脑的IP
5. 客户端通过网络连接服务器NIC1 接口,在客户机上配置网卡(确保BMC IP 地址与客
户端IP 地址在同一网段。处于安全考虑BMC IP 地址被禁止Ping 测试。)
设置Ethernet Ip Address : 192.168.1.2
设置 Subnet Mask : 255.255.255.0
下载这个软件, 到你的笔记本里面
(解压密码dell)
6. 进入开始菜单,点击运行(cmd),目录指向ipmish 命令所在目录
1) 使用 ipmish –ip 192.168.1.100 –u root –p calvin sel get >delllog.txt 将日志
保存到delllog.txt 文件中。
2) 可以使用 ipmish –ip 192.168.1.100 –u root –p calvin sel clear 将BMC日志清空3) 开/关机/重启, 命令单个单个输入, 不要一起来
impish -ip 192.168.0.100 -u root -p calvin power on/off/cycle
4) 收集日志的图例如下
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)