linux启动startinghpssd:死机_服务器知识

如果问题能够再现，那么问题已经解决 80% 了。对于操作系统核心而言，如果有问题的再现方法，那么可以说是已经解决 99% 了。经常遇到的问题是系统可以正常运行一段时间，然后死机。如果不好再现问题，那么只有根据死机现场遗留的东西来进行分析了。

如果系统没有死干净，比如磁盘中断和文件系统是好的，那么也许能有日志信息保留在文件中，不过这样的好运气我是从来没有遇到过的。如果键盘中断还能响应 (按下Num Lock，可以看见键盘小灯亮灭)，那么运气就算是足够好了，这时可以祭出 sysrq 大法，同时按下 Alt-Sysrq-T 获得进程系统堆栈信息，按下 Alt-Sysrq-M 获得内存分配信息，按下 Alt-Sysrq-W 获得当前寄存器信息。

linux/Documentation/sysrq.txt。另外，最好关闭终端的自动 blank 功能，这样系统死的时候至少能从屏幕上看到一些信息。设置方法是：

# echo 1 >/proc/sys/kernel/sysrq

# setterm -blank

这两个设置最好加到系统启动脚本中 (比如 /etc/rc.d/rc.local)，保证每次启动都能得到运行。

如果很不幸，键盘也死悄悄了，(更为不幸的是，这种情况很常见)，那么也不是只有等死一个办法，这时可以用串口终端 (serial console)将系统信息发送

到另一台系统上，这样可以通过对这些信息分析来定位问题。设置方法如下：

准备工作

1. 一台被监视的服务器，一台进行监视工作的PC。

2. 一根串口直连线。

配置

1. 在服务器上，加入一个新的 grub 项目，增加核心参数 "console=ttyS0 console=tty1"，如：

kernel /boot/vmlinuz-2.4.21-9.30AXsmp ro root=LABEL=/1 console=ttyS0

console=tty1

2. 在服务器上，修改 /etc/sysconfig/syslog，加入 klogd 选项 "-c 7"，保证更多内核信息得到输出。如：

KLOGD_OPTIONS="-x -c 7"

3. 重新启动服务器

4. 用串口直连线连接两台机器，测试：

1) 在PC上运行 "cat /dev/ttyS0"，在服务器上运行 "echo hi >/dev/ttyS0"，看在 PC 上是否有 "hi" 输出。

2) 在PC上运行 "cat /dev/ttyS0"，在服务器上运行 "echo w >/proc/sysrq-trigger"，看 PC 上是否有相应内核信息输出。

3) 在PC上运行 "cat /dev/ttyS0"，在服务器上运行 "modprobe loop"，看 PC 上是否有相应内核信息输出。

5. 如果测试通过，那么在 PC 上运行:cat /dev/ttyS0 | tee /tmp/result

另外，也可以用 Windows 超级终端获得串口信息。

that’s it.

此外，一些核心支持 LKCD, netdump 等调试功能，也可以一试。

剩下的，就只有靠经验和运气了，一般造成 Linux 系统死机的原因有：

系统硬件问题 (SCSI 卡，主板，RAID 卡，网卡，硬盘...)

外围硬件问题 (终端切换器，网络...)

软件问题

驱动 bug (去找更新的驱动试试)

核心系统 bug (去 LKML 上看看，或换个核心试试)

系统设置

服务器死机的原因很多。如果确保在硬件没问题的情况下。

可以先从/var/log下的日志查起..通过iostat 或者 vmstat sar 等命令来检查机器的整体性能状态。

我不知道你是否做了相关的监控措施，比如通过某些监控软件对服务器进行监控。

通过监控数据分析服务器的整体状况。

也可以协调应用部门查看应用方面的日志是否有异常。这个还得按照具体情况分析。

关于更多Linux的学习，请查阅书籍《linux就该这么学》。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/299548.html

linux启动startinghpssd:死机

发表评论

评论列表（0条）