华为服务器bmc日志内存故障

华为服务器bmc日志内存故障,第1张

UCE错误。华为服务器bmc日志内存故障通常是因为DIMM4内存条发生UCE错误导致的,需要用户立即进行检查拔插或者更换故障DIMM4内存条即可。DIMM中文名叫双列直插式存储模块,是指奔腾CPU推出后出现的新型内存条,它提供了64位的数据通道。

硬件配置: RH5885H V3或者RH5885 V3服务器。

现象1. 服务器运行一段时间后,操作系统宕机,显示器输出无显(no signal)。

现象2. BMC上报CAT ERROR,如图1所示。并且无其他硬件告警。

图1

现象3. 收集操作系统日志,没有产生MCE日志或者MCE日志中没有硬件报错信息。Message日志中没有错误打印。

告警信息

服务器BMC报CAT ERROR或者服务器出现OS死机

处理过程

1服务器CAT ERROR告警原理分析

1.1.1 CAT ERROR是X86计算系统检测机制所能识别到的故障统称

Intel在Pentium 4、Xenon和P6系列处理器中实现了机器检查(Machinecheck)架构,提供能够检测和报告错误的机制,如系统总线错误、校验错 误、缓存错误、TLB错误、进程溢出和越界等。

当机器检查到不可纠正的进程错误时,就触发记录一个CAT ERROR日志。也就是说CAT ERROR是进程在CPU和内存中执行过程中遇到。

X86平台中导致CAT ERROR的原因主要包括CPU、内存相关硬件故障以及异常逻辑状态等软件故障。

1.1.3 华为服务器针对此类复杂的异常事件,具有故障诊断功能,可以快速提供该类疑难问题的判断依据

当前X86平台技术中对于CAT ERROR问题定位较为困难,为此华为服务器在BMC管理系统中开发了故障诊断功能。实现了计算资源的轨迹追踪,可以在发生CAT ERROR事件时根据轨迹追踪信息从硬件的角度进行自动判断,并给出处理建议。

因此对于此类问题的分析主要采用BMC故障诊断日志和OS中的MCElog日志进行对应分析的方法。如问题原因为硬件导致,那么在两个日志中均会有硬件异常产生,否则问题的方向需要从OS层面进行深入分析。

根因

1. 初步结论:无有效日志,无法确认CAT ERROR具体原因。根据现有日志分析,初步排除硬件故障,现象疑似OS进程偶发异常导致。

2. RH5885 V3采用新一代CPU(E7-48xx V2系列),OS对新一代硬件平台CPU的高级节能特性支持可能存在不稳定性。

根据之前平台处理经验,出现过OS和CPU节能模式不兼容导致系统概率性出现异常的情况。VMware和Citrix官方都明确建议关闭CPU的节能模式。

VMware:

VMware官网文档中在电源管理方便建议关闭节能模式,链接如下:

http://www.vmware.com/files/pdf/techpaper/VMW-Tuning-Latency-Sensitive-Workloads.pdf

因各厂家服务器BIOS参数名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。

Citrix:

Citrix系统也有节能模式引起的问题:

官网说明链接如下:

http://support.citrix.com/article/CTX127395

处理方案也是将节能模式关闭,因各厂家服务器BIOS参数名称名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。

解决方案

若遇到此类服务器故障现象,可以手动收集服务器BMC日志和操作系统OS的message日志返回研发分析确认是是否属于节能模式问题,确认属于该问 题,可以进入BIOS中手东关闭CPU节能模式能够解决该问题。

2. 使用Ctrl+E 进入IPMI Server Management Configuration

3. 设置IPMI Server Management Configuration

(1).设置 IPMI Over LAN 为 On

(2).进入IPMI LAN Channel

设置Ethernet Ip Address : 192.168.1.100

设置 Subnet Mask : 255.255.255.0

配置完成,保存设置

4. 服务器设置完成。

设置你的客户端, 例如笔记本电脑的IP

5. 客户端通过网络连接服务器NIC1 接口,在客户机上配置网卡(确保BMC IP 地址与客

户端IP 地址在同一网段。处于安全考虑BMC IP 地址被禁止Ping 测试。)

设置Ethernet Ip Address : 192.168.1.2

设置 Subnet Mask : 255.255.255.0

下载这个软件, 到你的笔记本里面

(解压密码dell)

6. 进入开始菜单,点击运行(cmd),目录指向ipmish 命令所在目录

1) 使用 ipmish –ip 192.168.1.100 –u root –p calvin sel get >delllog.txt 将日志

保存到delllog.txt 文件中。

2) 可以使用 ipmish –ip 192.168.1.100 –u root –p calvin sel clear 将BMC日志清空3) 开/关机/重启, 命令单个单个输入, 不要一起来

impish -ip 192.168.0.100 -u root -p calvin power on/off/cycle

4) 收集日志的图例如下


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/792613.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-26
下一篇2023-08-26

发表评论

登录后才能评论

评论列表(0条)

    保存