linux启动startinghpssd:死机_服务器知识

如果问题能够再现，那么问题已经解决 80% 了。对于操作系统核心而言，如果有问题的再现方法，那么可以说是已经解决 99% 了。经常遇到的问题是系统可以正常运行一段时间，然后死机。如果不好再现问题，那么只有根据死机现场遗留的东西来进行分析了。

如果系统没有死干净，比如磁盘中断和文件系统是好的，那么也许能有日志信息保留在文件中，不过这样的好运气我是从来没有遇到过的。如果键盘中断还能响应 (按下Num Lock，可以看见键盘小灯亮灭)，那么运气就算是足够好了，这时可以祭出 sysrq 大法，同时按下 Alt-Sysrq-T 获得进程系统堆栈信息，按下 Alt-Sysrq-M 获得内存分配信息，按下 Alt-Sysrq-W 获得当前寄存器信息。

linux/Documentation/sysrq.txt。另外，最好关闭终端的自动 blank 功能，这样系统死的时候至少能从屏幕上看到一些信息。设置方法是：

# echo 1 >/proc/sys/kernel/sysrq

# setterm -blank

这两个设置最好加到系统启动脚本中 (比如 /etc/rc.d/rc.local)，保证每次启动都能得到运行。

如果很不幸，键盘也死悄悄了，(更为不幸的是，这种情况很常见)，那么也不是只有等死一个办法，这时可以用串口终端 (serial console)将系统信息发送

到另一台系统上，这样可以通过对这些信息分析来定位问题。设置方法如下：

准备工作

1. 一台被监视的服务器，一台进行监视工作的PC。

2. 一根串口直连线。

配置

1. 在服务器上，加入一个新的 grub 项目，增加核心参数 "console=ttyS0 console=tty1"，如：

kernel /boot/vmlinuz-2.4.21-9.30AXsmp ro root=LABEL=/1 console=ttyS0

console=tty1

2. 在服务器上，修改 /etc/sysconfig/syslog，加入 klogd 选项 "-c 7"，保证更多内核信息得到输出。如：

KLOGD_OPTIONS="-x -c 7"

3. 重新启动服务器

4. 用串口直连线连接两台机器，测试：

1) 在PC上运行 "cat /dev/ttyS0"，在服务器上运行 "echo hi >/dev/ttyS0"，看在 PC 上是否有 "hi" 输出。

2) 在PC上运行 "cat /dev/ttyS0"，在服务器上运行 "echo w >/proc/sysrq-trigger"，看 PC 上是否有相应内核信息输出。

3) 在PC上运行 "cat /dev/ttyS0"，在服务器上运行 "modprobe loop"，看 PC 上是否有相应内核信息输出。

5. 如果测试通过，那么在 PC 上运行:cat /dev/ttyS0 | tee /tmp/result

另外，也可以用 Windows 超级终端获得串口信息。

that’s it.

此外，一些核心支持 LKCD, netdump 等调试功能，也可以一试。

剩下的，就只有靠经验和运气了，一般造成 Linux 系统死机的原因有：

系统硬件问题 (SCSI 卡，主板，RAID 卡，网卡，硬盘...)

外围硬件问题 (终端切换器，网络...)

软件问题

驱动 bug (去找更新的驱动试试)

核心系统 bug (去 LKML 上看看，或换个核心试试)

系统设置

实际地址: 00-1D-7D-95-EB-35

IP 地址: 172.16.14.11

子网掩码: 255.255.255.0

默认网关: 172.16.14.1

DNS 服务器: 10.0.1.2

WINS 服务器:

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/489833.html

linux启动startinghpssd:死机

发表评论

评论列表（0条）