常见服务器故障类型及排查方法总结_服务器知识

四，服务器故障排查方法总结

问题描述：

每当出现网站访问不了的时候，估计应该就是服务器出现故障了，这个时候大部分情况都是属于数据库出现问题。

查找步骤：

1、查找top检查服务器负载是否有问题

一般网站访问不了，top显示的负载都是很大的，这个时候可以看到mysql的进程占用资源很高，往往就是mysql发生故障了

2、在服务器中查看网站的访问记录

这些访问记录存储在：/home/对应的网站名/access-logs/对应的网站名

可以先通过tail查看，查看出异常的ip的时候可以通过grep进行过滤查看，在这个文件一般都可以找到恶意爬虫、恶意访问的记录，这些往往有可能是导致mysql数据库挂掉的原因。

3、这个时候先对数据库进行重启，对apache进行重启

service mysql restart

service httpd restart

重启之后一般都可以暂时恢复正常的访问的了。如果是出于恶意访问的话，找出恶意访问的ip把它禁止掉即可，如果是网站数据库出现故障，那么还要进行数据库排查。

4、查找数据库错误日志

首先需要知道数据库mysql的安装目录，可以通过whereis mysql找到，但是这往往没用

还有一种方法，就是通过ps -ef | grep mysql来查看

或者也可以通过进入mysql，使用select @@basedir as basePath from dual来查看mysql安装目录

我们在第二种查找方法ps -ef | grep mysql中对应mysql的几种日志找到其所在目录，然后查看对应文件进行分析

mysql有以下几种日志

错误日志：-log-err

查询日志：-log

慢查询日志：-log-slow-queries

更新日志：-log-update

二进制日志：-log-bin

以上便是对应的数据库错误日志和慢查询日志的查看方法了

在服务器的维修中，线索都会显得扑朔迷离，有的甚至按起葫芦翘起瓢。一般来说不可能一次就可以准确地判断出问题的所在。这样就要求工程师要有信心和耐心。出现错误一般的方法都是根据经验优先使用最简单排错方法测试，如果没有解决问题再找其它因素进行测试。总之，服务器出错后必须一步一步解决，没有捷径可言。

服务器软件故障是在服务器故障中占有比例最高的部份，约占70%，解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多，最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。

有一台HP LH6000R服务器，配置为双PIII XEON 700带2M高速缓存的CPU、512M内存。开机后，系统日志报电压调节模块异常（VRM）的错误，报错的信息是：“Voltage Regulator Module (VRM) over/under-voltage 2.88V/0V”。从表面来看，极有可能是服务器的电压调节模块或其它硬件出现故障，极容易导致维护人员认为是硬件故障。维护人员立刻使用其它LH6000R上的硬件来测试，发现即使使用新的配件，此服务器依然报VRM错。就在一筹莫展的时候，维修工程师带来了最新的CPU管理板（CPU Management Control）的固件（FIRMWARE），于是升级了CPU管理板块的FIRMWARE后，服务器恢复立即正常。

FIRMWARE升级方法是，在服务器的NAVIGATOR（导航光盘）中提取CPU管理板（CMC）FIRMWARE的刷新程序，程序为FLASH.EXE，然后将从网上下载的LH6KC.BIN（CPU管理板的FIRMWARE）拷贝到一张DOS启动盘上，用这张盘启动服务器。然后在DOS下运行”FLASH /CMC A:LH6KC.BIN”，刷新完成后重新启动服务器后即可。这种升级方法也适合刷新系统BIOS等，只是FLASH命令的参数不同以及更新FIRMWARE及BIOS文件名不同，参数请参考服务器的说明。

任何一款服务器的FIRMWARE及BIOS都会有不同的BUG，因为BUG在所难免，所以我们不能错误地认为服务器的BIOS程序就很完善，而应该经常更新服务器的FIRMWARE及BIOS，只是在升级之前应该小心谨慎，错误的升级方法会导致严重的后果。

目前流行的中高档服务器都拥有强大的管理程序，为客户提供了方便的管理途径；服务器也拥有各种操作系统下的驱动程序，方便了客户在各种操作系统中的使用。但是，世上任何一款程序都会有一些BUG，这些BUG将影响用户使用。但是服务器厂商总是会在第一时间内开发出新的程序，客户只需要及时更新这些程序就可以避免这类故障。

当服务器的软件故障为此类时，表现的现象也不尽相同。一般来说，管理程序BUG会导致系统速度变慢，CPU占用率变高，无法正常使用某些功能等；驱动程序的BUG会导致死机、与某些软件有冲突，磁盘工作不稳定等。查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具，再观察服务器是否还是异常。由于管理工具是随着系统启动而启动的，所以应首先避免它的启动。以WINDOWS NT4为例，就首先在管理工具服务中禁用某些服务器软件服务，再修改注册表中的启动项即可。如果是驱动程序有问题的话，就以安全模式进入系统，看是否正常。但是需要注意的是，在安全模式中，系统速度变慢是正常的（特别是磁盘I/O方面）。

服务器的管理人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。这样会减少很大一部份软件故障的发生。

相比之下，软件冲突造成的故障判断比较困难，需要管理人员有比较丰富的经验以及敏锐的观察力。

曾经有一位朋友告诉我说，他有一台浪潮的服务器无法安装SQL SERVER 2000，已经重装N次NT了，排除是系统故障。而这唯一的服务器又将作为非常重要数据库服务器，因此非常着急。于是我陪着朋友去了他的公司查看。

这台服务器所在的机房是非常标准、完善的机房，我检查了这台服务器的情况，发现并没有硬件上的故障，于是排除了光驱读盘力差的可能。但是，朋友刻的SQL SERVER 2000光盘引起了我的怀疑，我让他拿出了正版的SQL SERVER安装，结果还是不行。

在安装的过程中，没有出现丝毫错误，可就是在运行的时候会自动退出，没有任何提示。但是，我在管理工具中的事件查看器的系统日志中却发现了一条信息：windata.exe导致一个无效的数据溢出。Windata是朋友自己编写的一个程序，而且是随操作系统启动而启动的程序。我立即结束掉这个进程后，再运行SQL一切正常。

对于此类软件故障，操作员最好先查看有关的日志，看看系统中是否有可疑的进程。目前的服务器无论是高端还是低端，对于SQL等标准程序的支持是相当可靠的，所以排除的重点就是结束可疑进程。

还有一种软件故障是人为因素造成的，它一般是人为误操作（包括没按操作流程的操作）、意外关机（包括电源突然不供电）或非正常关闭应用程序造成的。

人为误操作因素只要加强管理都可以避免此类故障发生。在这里就详细说明意外关机或非正常关闭程序造成故障的方法。

正常关闭系统程序非常重要，尤其是WEB服务器。我的一个朋友就是因为没有正常关闭系统程序而经历了一次数据损坏甚至丢失的经历。我的朋友是使用的HP web hosting server appliance，因此我向他提供了一些使用规则。

这些方法对于服务器的维护非常有效，主要包括了正确的关闭系统程序、怎样避免数据丢失以及非正常关闭系统后的恢复方法。下面以我朋友的HP web hosting server appliance为例（使用的是UNIX，但思路对于其它操作系统均有效）。

正确关机的过程包括通过按动Power键来使系统断电，你应该一直按住电源开关持续几秒钟才能使系统进入正常的关闭过程中。

另外，为了避免数据丢失，你应该按照如下的步骤操作：

· 经常备份Web Hosting Server Appliance的数据，可以通过网络管理界面来完成。

· 安装第二块硬盘并与原来的硬盘设置成镜像，

一旦Server Apliance未能正确关闭，并无法重起，请按如下操作恢复：

1. 当appliance已经断电时，连接一条非modem的串口线（可在机盒中找到）到背面的控制口上。

2. 连接串口线的另一头到一台运行Windows的PC的串口上。

3. 运行超级链接程序（HyperTerminal），并设置端口的参数为19200, n-8-1, Flow control - None. 你可以看到appliance的控制提示，并要求你输入管理员口令。

4. 重起appliance，等到提示“LILO boot:”，按住Tab键5秒钟，直到提示变为“boot:”。

5. 敲入"emergency"并回车。此时需要耐心等待几分钟。然后，登录提示又将出现，此时，LCD屏又能正常工作了。

6. 在LCD屏上选择一个随机的密码（此密码只是用于紧急恢复时用）

翻至Defaults… 并按右箭头键选中。

翻至Root Password…并按右箭头键选中。

翻至Random 并按右箭头键选中，会提示一个随机产生的密码。

记下此密码。

翻至Yes并按右箭头键选中，系统密码会立刻更改。

7. 回到超级链接的控制屏，登录appliance，用"root"用户名和刚才的密码，此时会出现“#”提示。

8. 为修复分区，请按如下方法操作：

对于sa1100，按顺序输入：

[…]#: fsck /dev/hda5

[…]#: fsck /dev/hda6

[…]#: fsck /dev/hda7

对于sa1120，按顺序输入：

[…]#: fsck /dev/sda5

[…]#: fsck /dev/sda6

[…]#: fsck /dev/sda7

当所有的分区都被修复后，应回到“#”提示符下。

9. 输入“reboot”重新启动系统。

如果系统仍无法启动，请记录下控制屏显示的内容并求助技术支持。

对于服务器的软件故障，只要平时管理员注意维护，应该是可以避免的。

硬盘是存储资料与数据的地方，及服务器来说极其重要，一旦出现问题轻则数据丢失，重则影响整个机器的运行效率。那么，当硬盘出现故障了我们又该如何处理呢？下面来教你们如何处理

一，普通故障

如硬盘的检测，错误数据的分析等日常工作中常见的故障，一般是由于其控制的部件与安全值发生了冲突，而引发的警报信息。当出现这类故障提示时，需要尽快分析与处理，难度不会很大，但日后需要留意。

二，物理故障

一般表现为无法识别数据或无法读出其中具体内容，并后续会发生一些列的物理故障，这是就代表硬盘出现了问题，我们需要将重要数据先行转移，再对其进行检测维修。

三，系统故障

与物理故障相对，属于系统层面的问题，一般表现为程序运行中断，跳出，重启，停滞等状况，也代表了硬盘出现了故障，但也有可能是系统本身的问题，但不妨都进行检测与排除。

四，运作故障

大多表现为磁盘扫描时出现错误，无法正常扫描或运行，这种情况一般是硬盘部件出现问题，出现了坏道，我们需要将其隔离，以保证正常使用。

五，初始化死机

这种情况涉及到的因素比较多，例如内存，系统等都可能会导致死机，同样硬盘也会，并且机率比较大，因此还是可以作为相关事项进行分析。

详情咨询QQ：3008071401

扬州机器：103.216.155.1

103.216.155.2

103.216.155.3

杭州机器：103.219.39.1

103.219.39.2

103.219.39.3

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/311538.html

常见服务器故障类型及排查方法总结

发表评论

评论列表（0条）