1、一台电脑,笔记本或台式都可以,系统win10专业版,8G内存及以上
2、阿里云服务器,有固定IP,1CPU,2G内存,2M宽带及以上。
集群服务器主节点突然故障,无法强制关机
VLT0204 system board voltage is outside of range,即电压不稳定超出了正常范围
重启需要先释放静电
(1)拔掉服务器的电源线
(2)长按开机键30S以上
*注:长按30s可能不够,就再多按几次,不然开机没一会儿可能又电压报警 *
第一次重启时,开机没20s又电压报警,没有启动成功,因此想连接一下显示器,服务器开机到哪一步出问题。结果就是多次开机都失败了。
注意到由于是显示器,事先插了电源线,再连接到服务器的VA接口,推测可能是静电没有放干净。于是先拔掉了显示器的电源,再释放静电后开机。这次成功开机。
接下来登陆后检查日志,日志介绍可以参考:
https://baijiahao.baidu.com/s?id=1613381635234443098&wfr=spider&for=pc
以上日志都在宕机时间段突然结束,并没有记录任何信息。因此使用sra检查服务器当时的负载情况
sra日志位于/var/log/sa目录下,指定记录故障时间段的日志信息文件,查看记录
故障时间段,服务器负载处在极低水平,且系统未报警有关信息,推断可能是硬件问题导致,所以联系售后。
节点正面,硬盘那一侧(一般是右侧),有一个可抽拉的标签,有服务编号与代理服务码。这个服务编号可以在戴尔官网联系售后服务。
工程师要求提供硬件日志。需要用网线连接idrac网口,我这边是R930位置在背面的右下角。
可以拿个笔记本 接到idrac网口 先看看日志
实际上我把日志导出交给售后,收到的回复和管理界面上写的警告信息一致,都是
CPU 1 VMSE PG voltage is outside of range。
售后认为,可能是cpu1 可能是主板 故障,可以把cpu1拿掉 把cpu2放在cpu1槽位上试试 看看情况。
由于过保,售后给了一个拆机视频的连接作为参考
https://v.qq.com/x/page/e0332ofwp9y.html
目前的方案是,现将主节点的磁盘挂载解除,并移到其他节点作为临时主节点。
注意磁盘和机器的开关机顺序:
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)