现象1. 服务器运行一段时间后,操作系统宕机,显示器输出无显(no signal)。
现象2. BMC上报CAT ERROR,如图1所示。并且无其他硬件告警。
图1
现象3. 收集操作系统日志,没有产生MCE日志或者MCE日志中没有硬件报错信息。Message日志中没有错误打印。
告警信息
服务器BMC报CAT ERROR或者服务器出现OS死机
处理过程
1服务器CAT ERROR告警原理分析
1.1.1 CAT ERROR是X86计算系统检测机制所能识别到的故障统称
Intel在Pentium 4、Xenon和P6系列处理器中实现了机器检查(Machinecheck)架构,提供能够检测和报告错误的机制,如系统总线错误、校验错 误、缓存错误、TLB错误、进程溢出和越界等。
当机器检查到不可纠正的进程错误时,就触发记录一个CAT ERROR日志。也就是说CAT ERROR是进程在CPU和内存中执行过程中遇到。
X86平台中导致CAT ERROR的原因主要包括CPU、内存相关硬件故障以及异常逻辑状态等软件故障。
1.1.3 华为服务器针对此类复杂的异常事件,具有故障诊断功能,可以快速提供该类疑难问题的判断依据
当前X86平台技术中对于CAT ERROR问题定位较为困难,为此华为服务器在BMC管理系统中开发了故障诊断功能。实现了计算资源的轨迹追踪,可以在发生CAT ERROR事件时根据轨迹追踪信息从硬件的角度进行自动判断,并给出处理建议。
因此对于此类问题的分析主要采用BMC故障诊断日志和OS中的MCElog日志进行对应分析的方法。如问题原因为硬件导致,那么在两个日志中均会有硬件异常产生,否则问题的方向需要从OS层面进行深入分析。
根因
1. 初步结论:无有效日志,无法确认CAT ERROR具体原因。根据现有日志分析,初步排除硬件故障,现象疑似OS进程偶发异常导致。
2. RH5885 V3采用新一代CPU(E7-48xx V2系列),OS对新一代硬件平台CPU的高级节能特性支持可能存在不稳定性。
根据之前平台处理经验,出现过OS和CPU节能模式不兼容导致系统概率性出现异常的情况。VMware和Citrix官方都明确建议关闭CPU的节能模式。
VMware:
VMware官网文档中在电源管理方便建议关闭节能模式,链接如下:
http://www.vmware.com/files/pdf/techpaper/VMW-Tuning-Latency-Sensitive-Workloads.pdf
因各厂家服务器BIOS参数名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。
Citrix:
Citrix系统也有节能模式引起的问题:
官网说明链接如下:
http://support.citrix.com/article/CTX127395
处理方案也是将节能模式关闭,因各厂家服务器BIOS参数名称名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。
解决方案
若遇到此类服务器故障现象,可以手动收集服务器BMC日志和操作系统OS的message日志返回研发分析确认是是否属于节能模式问题,确认属于该问 题,可以进入BIOS中手东关闭CPU节能模式能够解决该问题。
首先打开“运行”,输入:services.msc 找到里面的wireless Zero Configeration 把禁用改成启动,然后网上邻居→属性→无线网络连接→属性→无线网络配置里的“WINdows配置我的无线网路连接属性”这栏打钩。
服务器(英文名称server),也称伺服器。指一个管理资源并为用户提供服务的计算机软件,通常分为文件服务器、数据库服务器和应用程序服务器。
服务器是网站的灵魂,是打开网站的必要载体,没有服务器的网站用户无法浏览。服务器就像一块敲门砖,就算网站在搜索引擎里的排名再好,网站打不开,用户无法浏览,网站就没有用户体验可言,网站能被打开是第一个重点。
工作组服务器是一个比入门级高一个层次的服务器,但仍属于低档服务器之类。从这个名字也可以看出,它只能连接一个工作组(50台左右)那么多用户,网络规模较小,服务器的稳定性也不像下面我们要讲的企业级服务器那样高的应用环境,当然在其它性能方面的要求也相应要低一些。
twicat运行起来报错error 0x4026怎么回事这个是数据错误,和程序没有关系。
System.ArgumentException: An item with the same key has already been added.
的意思是系统参数异常:有个同样的关键字已经存在,这个错误常见于SQL-SERVER的数据库中,因为上次写入数据出错,导致某条数据写了一半就退出程序了,但是一条数据都有一个关键字,即KEY,KEY不能有重复,它的数据已经写入了,结果导致后来的新数据再次使用这个KEY的时候,KEY冲突。
解决办法:直接使用SQL管理器,打开数据库,删除掉那条无效数据即可。根据指示,这个数据一定位于TKey表内
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)